Google Search Appliance 能否生成一份报告,显示您网站上的损坏链接?

StackOverflow https://stackoverflow.com/questions/418288

  •  03-07-2019
  •  | 
  •  

我知道 Google Search Appliance 可以访问此信息(因为这会影响 PageRank 算法),但有没有办法从抓取工具设备导出此信息?

外部工具不起作用,因为很大一部分内容用于公司内部网。

有帮助吗?

解决方案 4

一个名为Xenu的免费工具证明是这项任务的首选武器。 http://home.snafu.de/tilman/xenulink.html#Download

其他提示

可能是谷歌提供的东西,但我从来没有检查过。我通常使用W3C提供的链接检查器。 W3C还可以检测重定向,如果您的服务器通过重定向而不是返回404状态代码来处理404,则该重定向很有用。

您可以使用 Google网站管理员工具来查看其他内容已损坏的链接你的网站。

但这不会向您显示外部网站的链接损坏。

看来这是不可能的。在状态和报告下>爬网诊断有两种可用的报告样式:Directory Drill DIRN DIRNED“ TREE VIEW”和100个URL一次“列表视图”。有些人尝试通过列表视图创建程序来创建程序,但是在几千个URL之后,这似乎失败了。

我的建议是使用您的服务器日志。确保在Web服务器上启用了404和推荐程序URL记录,因为您可能需要纠正包含损坏链接的页面。

然后你可以使用 日志文件分析器 生成损坏的链接报告。

要创建一种有效、长期的方法来监控损坏的链接,您可能需要设置一个 cron 作业来执行以下操作:

  • 使用 grep 从服务器日志文件中提取包含 404 条目的行。
  • 使用 sed 从每一行中删除除请求的 URL 和引荐来源网址之外的所有内容。
  • 使用 sortuniq 命令从列表中删除重复项。
  • 每次将结果输出到一个新文件,以便您可以监控一段时间内的变化。

为什么不分析您的网络服务器日志并查找所有404页面?这更有意义,也更可靠。

我知道这是一个老问题,但您可以使用GSA管理控制台上的导出URL功能,然后查找状态为not_found的URL。这将显示GSA发现的所有URL,但在尝试抓取时将其返回404.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top