题
我想获得的所有URL无需下载所有的内容与像wget的网站链接(在同一个域)。有没有办法告诉wget来只是列表中的链接会下载?
有关我使用这个对,如果有人能拿出一个更好的解决方案是什么的一些背景:我试图建立一个robots.txt文件排除所有文件结尾为P [4-9]。 HTML,但robots.txt的不支持正则表达式。所以我试图让所有的链接,然后运行对他们的正则表达式,然后把结果列在robots.txt。任何想法?
解决方案
我的建议:结合wget和GAWK在(非常)小的外壳脚本
有AWK的维基百科上很好的概述: http://en.wikipedia.org/wiki/ AWK
不隶属于 StackOverflow