搜索引擎是否有任何构建模块可以刮掉其他网站？

题

我想为一件特别的事情建立一个搜索服务。这些数据可通过免费的分类服务和许多其他网站免费获得。

是否有任何积木，例如我会定制的开源爬虫 - 而不是从头开始构建，我可以使用吗？

有关构建此类产品的建议吗？不仅仅是技术方面，还有我可能需要考虑的任何隐私/法律事务。

E.g。我是否需要在结果来源的地方“给予信任”并将原始链接 - 如果我从很多地方获取它们？

编辑：顺便说一句，我使用GWT和JS作为前端，还没有决定使用后端的语言。 PHP或Python。想法？

解决方案

你可以使用python中的几个块。

beautifulsoup [ http://www.crummy.com/software/BeautifulSoup/]用于解析HTML。它也可以处理错误的代码，而且它的API很容易......比任何类似DOM的工具都要好。我的朋友用它来成功地刮掉他的旧phpbb论坛。它有很好的文档。
机械化[ http://wwwsearch.sourceforge.net/mechanize/] 是一个webbrowser-模拟http客户端库。它处理cookie，填写表格等。同样易于使用，但如果您了解http的工作原理，它会有所帮助。
http://dev.scrapy.org/ - 这是一个相对较新的事情：a基于扭曲的整体刮削框架。我没玩过多少。

我根据自己的需要使用前两个; F.E.它需要20行代码才能获得一个用于3阶段轮询的自动测试工具，模拟等待用户输入数据等等。

其他提示

我在Ruby中制作了一个屏幕刮刀，花了五分钟。显然这个家伙有它低至60秒！我不确定Ruby是否可以像你想要的那样具有可扩展性或快速性，但我从未见过更快的概念验证或原型。

秘密是一个名为“ hpricot ”的图书馆，这个目的。

我对PHP或Python一无所知，或者对这些开发系统/语言有什么用。

祝你好运！

许可以下： CC-BY-SA 和归因