用于爬行和数据挖掘网站的最佳开源库或应用程序
-
09-09-2019 - |
题
我想知道用于爬行和分析网站的最佳开源库是什么。一个例子是爬虫房地产机构,我想从多个网站获取信息并将它们聚合到我自己的网站中。为此,我需要抓取网站并提取房产广告。
其他提示
PHP /卷曲是一个非常强大的组合,特别是如果你想直接在网页中使用的结果...
在与莫罗佐夫先生共同我刮的也不少,主要的工作地点。我从来没有诉诸机械化,有没有什么帮助任何。 Beautifulsoup与组合的urllib2一直足够的。
我已经使用LXML,这是很大的。然而,我认为它可能不是已经可以与谷歌应用程式在几个月前,当我试了一下,如果你需要的。
我要感谢是由于莫罗佐夫先生为提Scrapy。没有听说过它。
此外Scrapy,你也应该看看 Parselets
不隶属于 StackOverflow