我怎么能不收集内容网站上的所有链接？

题

我想获得的所有URL无需下载所有的内容与像wget的网站链接（在同一个域）。有没有办法告诉wget来只是列表中的链接会下载？

有关我使用这个对，如果有人能拿出一个更好的解决方案是什么的一些背景：我试图建立一个robots.txt文件排除所有文件结尾为P [4-9]。 HTML，但robots.txt的不支持正则表达式。所以我试图让所有的链接，然后运行对他们的正则表达式，然后把结果列在robots.txt。任何想法？

解决方案

我的建议：结合wget和GAWK在（非常）小的外壳脚本

有AWK的维基百科上很好的概述： http://en.wikipedia.org/wiki/ AWK

许可以下： CC-BY-SA 和归因