寻找非结构化数据的Web刮擦工具[已关闭
题
我想从网站上刮擦一些数据。我已经使用了import.io,但仍然不满意..你们中的任何人都可以提出建议..什么是从Web获取非结构化数据的最佳工具
解决方案
尝试Beautifulsoup- http://www.crummy.com/software/beautifulsoup/
在网站上“美丽的汤是一个python图书馆,旨在快速周转项目,例如屏幕剪彩。”我没有亲自使用它,但是它通常是关于刮擦的漂亮库。这是一篇有关使用它来刮擦craigslist的博客文章 http://www.gregreda.com/2014/07/27/scraping-craigslist-for-tickets/
其他提示
您没有提及您正在编程的语言(请考虑将其添加为标签),因此一般的帮助是寻找HTML解析器并使用它来提取数据。有些网站可能只有可怕的HTML代码,并且很难刮擦,而当您认为拥有它时...
HTML解析器将解析所有HTML,并允许您以结构化的方式访问它,无论是来自数组,对象等。
您不需要工具,我不建议您使用一个工具。
将HTML转换为形成良好的XML(XHTML) - 我建议Tagsoup。
完成后,数据只是另一个XML feed,您可以编写XSLT转换(或XQUERY),以访问并以所需的格式删除所需的数据。
这可能意味着学习XSLT/XQUERY如果您还不知道,但是您将学习(与刮擦工具不同)具有多个而不是一个有用的应用程序。