我想从网站上刮擦一些数据。我已经使用了import.io,但仍然不满意..你们中的任何人都可以提出建议..什么是从Web获取非结构化数据的最佳工具

有帮助吗?

解决方案

尝试Beautifulsoup- http://www.crummy.com/software/beautifulsoup/

在网站上“美丽的汤是一个python图书馆,旨在快速周转项目,例如屏幕剪彩。”我没有亲自使用它,但是它通常是关于刮擦的漂亮库。这是一篇有关使用它来刮擦craigslist的博客文章 http://www.gregreda.com/2014/07/27/scraping-craigslist-for-tickets/

其他提示

您没有提及您正在编程的语言(请考虑将其添加为标签),因此一般的帮助是寻找HTML解析器并使用它来提取数据。有些网站可能只有可怕的HTML代码,并且很难刮擦,而当您认为拥有它时...

HTML解析器将解析所有HTML,并允许您以结构化的方式访问它,无论是来自数组,对象等。

红宝石和 诺科吉里 允许通过XPATH和CSS选择器访问HTML和XML文档。这里有一个 教程.

您不需要工具,我不建议您使用一个工具。

将HTML转换为形成良好的XML(XHTML) - 我建议Tagsoup。

完成后,数据只是另一个XML feed,您可以编写XSLT转换(或XQUERY),以访问并以所需的格式删除所需的数据。

这可能意味着学习XSLT/XQUERY如果您还不知道,但是您将学习(与刮擦工具不同)具有多个而不是一个有用的应用程序。

许可以下: CC-BY-SA归因
scroll top