我想为一件特别的事情建立一个搜索服务。这些数据可通过免费的分类服务和许多其他网站免费获得。

是否有任何积木,例如我会定制的开源爬虫 - 而不是从头开始构建,我可以使用吗?

有关构建此类产品的建议吗?不仅仅是技术方面,还有我可能需要考虑的任何隐私/法律事务。

E.g。我是否需要在结果来源的地方“给予信任”并将原始链接 - 如果我从很多地方获取它们?

编辑:顺便说一句,我使用GWT和JS作为前端,还没有决定使用后端的语言。 PHP或Python。想法?

有帮助吗?

解决方案

你可以使用python中的几个块。

  1. beautifulsoup [ http://www.crummy.com/software/BeautifulSoup/]用于解析HTML。它也可以处理错误的代码,而且它的API很容易......比任何类似DOM的工具都要好。我的朋友用它来成功地刮掉他的旧phpbb论坛。它有很好的文档。
  2. 机械化[ http://wwwsearch.sourceforge.net/mechanize/] 是一个webbrowser-模拟http客户端库。它处理cookie,填写表格等。同样易于使用,但如果您了解http的工作原理,它会有所帮助。
  3. http://dev.scrapy.org/ - 这是一个相对较新的事情:a基于扭曲的整体刮削框架。我没玩过多少。
  4. 我根据自己的需要使用前两个; F.E.它需要20行代码才能获得一个用于3阶段轮询的自动测试工具,模拟等待用户输入数据等等。

其他提示

我在Ruby中制作了一个屏幕刮刀,花了五分钟。显然这个家伙有它低至60秒!我不确定Ruby是否可以像你想要的那样具有可扩展性或快速性,但我从未见过更快的概念验证或原型。

秘密是一个名为“ hpricot ”的图书馆,这个目的。

我对PHP或Python一无所知,或者对这些开发系统/语言有什么用。

祝你好运!

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top