我想获得的所有URL无需下载所有的内容与像wget的网站链接(在同一个域)。有没有办法告诉wget来只是列表中的链接会下载?

有关我使用这个对,如果有人能拿出一个更好的解决方案是什么的一些背景:我试图建立一个robots.txt文件排除所有文件结尾为P [4-9]。 HTML,但robots.txt的不支持正则表达式。所以我试图让所有的链接,然后运行对他们的正则表达式,然后把结果列在robots.txt。任何想法?

有帮助吗?

解决方案

我的建议:结合wget和GAWK在(非常)小的外壳脚本

有AWK的维基百科上很好的概述: http://en.wikipedia.org/wiki/ AWK

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top