Google Search Appliance 能否生成一份报告,显示您网站上的损坏链接?
-
03-07-2019 - |
题
我知道 Google Search Appliance 可以访问此信息(因为这会影响 PageRank 算法),但有没有办法从抓取工具设备导出此信息?
外部工具不起作用,因为很大一部分内容用于公司内部网。
解决方案 4
一个名为Xenu的免费工具证明是这项任务的首选武器。 http://home.snafu.de/tilman/xenulink.html#Download
其他提示
可能是谷歌提供的东西,但我从来没有检查过。我通常使用W3C提供的链接检查器。 W3C还可以检测重定向,如果您的服务器通过重定向而不是返回404状态代码来处理404,则该重定向很有用。
您可以使用 Google网站管理员工具来查看其他内容已损坏的链接你的网站。
但这不会向您显示外部网站的链接损坏。
看来这是不可能的。在状态和报告下>爬网诊断有两种可用的报告样式:Directory Drill DIRN DIRNED“ TREE VIEW”和100个URL一次“列表视图”。有些人尝试通过列表视图创建程序来创建程序,但是在几千个URL之后,这似乎失败了。
我的建议是使用您的服务器日志。确保在Web服务器上启用了404和推荐程序URL记录,因为您可能需要纠正包含损坏链接的页面。
然后你可以使用 日志文件分析器 生成损坏的链接报告。
要创建一种有效、长期的方法来监控损坏的链接,您可能需要设置一个 cron 作业来执行以下操作:
- 使用
grep
从服务器日志文件中提取包含 404 条目的行。 - 使用
sed
从每一行中删除除请求的 URL 和引荐来源网址之外的所有内容。 - 使用
sort
和uniq
命令从列表中删除重复项。 - 每次将结果输出到一个新文件,以便您可以监控一段时间内的变化。
为什么不分析您的网络服务器日志并查找所有404页面?这更有意义,也更可靠。
我知道这是一个老问题,但您可以使用GSA管理控制台上的导出URL功能,然后查找状态为not_found的URL。这将显示GSA发现的所有URL,但在尝试抓取时将其返回404.
不隶属于 StackOverflow