我想知道用于爬行和分析网站的最佳开源库是什么。一个例子是爬虫房地产机构,我想从多个网站获取信息并将它们聚合到我自己的网站中。为此,我需要抓取网站并提取房产广告。

有帮助吗?

解决方案

我使用优秀的 python 包进行了大量的抓取工作 urllib2, 机械化美丽汤.

我也建议看看 lxml刮痧, ,尽管我目前不使用它们(仍计划尝试 scrapy)。

Perl 语言还具有出色的抓取功能。

其他提示

PHP /卷曲是一个非常强大的组合,特别是如果你想直接在网页中使用的结果...

在与莫罗佐夫先生共同我刮的也不少,主要的工作地点。我从来没有诉诸机械化,有没有什么帮助任何。 Beautifulsoup与组合的urllib2一直足够的。

我已经使用LXML,这是很大的。然而,我认为它可能不是已经可以与谷歌应用程式在几个月前,当我试了一下,如果你需要的。

我要感谢是由于莫罗佐夫先生为提Scrapy。没有听说过它。

此外Scrapy,你也应该看看 Parselets

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top