搜索引擎是否有任何构建模块可以刮掉其他网站?
-
06-07-2019 - |
题
我想为一件特别的事情建立一个搜索服务。这些数据可通过免费的分类服务和许多其他网站免费获得。
是否有任何积木,例如我会定制的开源爬虫 - 而不是从头开始构建,我可以使用吗?
有关构建此类产品的建议吗?不仅仅是技术方面,还有我可能需要考虑的任何隐私/法律事务。
E.g。我是否需要在结果来源的地方“给予信任”并将原始链接 - 如果我从很多地方获取它们?
编辑:顺便说一句,我使用GWT和JS作为前端,还没有决定使用后端的语言。 PHP或Python。想法?
解决方案
你可以使用python中的几个块。
- beautifulsoup [ http://www.crummy.com/software/BeautifulSoup/]用于解析HTML。它也可以处理错误的代码,而且它的API很容易......比任何类似DOM的工具都要好。我的朋友用它来成功地刮掉他的旧phpbb论坛。它有很好的文档。
- 机械化[ http://wwwsearch.sourceforge.net/mechanize/] 是一个webbrowser-模拟http客户端库。它处理cookie,填写表格等。同样易于使用,但如果您了解http的工作原理,它会有所帮助。
- http://dev.scrapy.org/ - 这是一个相对较新的事情:a基于扭曲的整体刮削框架。我没玩过多少。 醇>
我根据自己的需要使用前两个; F.E.它需要20行代码才能获得一个用于3阶段轮询的自动测试工具,模拟等待用户输入数据等等。
不隶属于 StackOverflow