用于爬行和数据挖掘网站的最佳开源库或应用程序

题

我想知道用于爬行和分析网站的最佳开源库是什么。一个例子是爬虫房地产机构，我想从多个网站获取信息并将它们聚合到我自己的网站中。为此，我需要抓取网站并提取房产广告。

解决方案

我使用优秀的 python 包进行了大量的抓取工作 urllib2, 机械化和美丽汤.

我也建议看看 lxml 和刮痧, ，尽管我目前不使用它们（仍计划尝试 scrapy）。

Perl 语言还具有出色的抓取功能。

其他提示

PHP /卷曲是一个非常强大的组合，特别是如果你想直接在网页中使用的结果...

在与莫罗佐夫先生共同我刮的也不少，主要的工作地点。我从来没有诉诸机械化，有没有什么帮助任何。 Beautifulsoup与组合的urllib2一直足够的。

我已经使用LXML，这是很大的。然而，我认为它可能不是已经可以与谷歌应用程式在几个月前，当我试了一下，如果你需要的。

我要感谢是由于莫罗佐夫先生为提Scrapy。没有听说过它。

此外Scrapy，你也应该看看 Parselets

许可以下： CC-BY-SA 和归因