寻找非结构化数据的Web刮擦工具[已关闭

https://datascience.stackexchange.com/questions/1007

16-10-2019
|

题

我想从网站上刮擦一些数据。我已经使用了import.io，但仍然不满意..你们中的任何人都可以提出建议..什么是从Web获取非结构化数据的最佳工具

解决方案

尝试Beautifulsoup- http://www.crummy.com/software/beautifulsoup/

在网站上“美丽的汤是一个python图书馆，旨在快速周转项目，例如屏幕剪彩。”我没有亲自使用它，但是它通常是关于刮擦的漂亮库。这是一篇有关使用它来刮擦craigslist的博客文章 http://www.gregreda.com/2014/07/27/scraping-craigslist-for-tickets/

其他提示

您没有提及您正在编程的语言（请考虑将其添加为标签），因此一般的帮助是寻找HTML解析器并使用它来提取数据。有些网站可能只有可怕的HTML代码，并且很难刮擦，而当您认为拥有它时...

HTML解析器将解析所有HTML，并允许您以结构化的方式访问它，无论是来自数组，对象等。

红宝石和诺科吉里允许通过XPATH和CSS选择器访问HTML和XML文档。这里有一个教程.

您不需要工具，我不建议您使用一个工具。

将HTML转换为形成良好的XML（XHTML） - 我建议Tagsoup。

完成后，数据只是另一个XML feed，您可以编写XSLT转换（或XQUERY），以访问并以所需的格式删除所需的数据。

这可能意味着学习XSLT/XQUERY如果您还不知道，但是您将学习（与刮擦工具不同）具有多个而不是一个有用的应用程序。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange