В поисках инструмента для скребки для неструктурированных данных [закрыто

datascience.stackexchange https://datascience.stackexchange.com/questions/1007

  •  16-10-2019
  •  | 
  •  

Вопрос

Я хочу соскрести данные с сайта. Я использовал import.io, но все еще не очень удовлетворен ... может ли кто -нибудь из вас предложить об этом .. Какой лучший инструмент для получения неструктурированных данных из Интернета

Это было полезно?

Решение

Попробуйте BeautifulSoup - http://www.crummy.com/software/beautifulsoup/

С сайта "Beautiful Soup-это библиотека Python, разработанная для быстрого оборотного проекта, таких как экраны". Я не использовал его лично, но это часто возникает в отношении хорошей библиотеки для очистки. Вот сообщение в блоге об использовании его для Scrape Craigslist http://www.gregreda.com/2014/07/27/scraping-craigslist-for-tickets/

Другие советы

Вы не упоминаете, на каком языке вы программируете (пожалуйста, подумайте о добавлении его в качестве тега), поэтому общей помощью будет поиск анализатора HTML и использовать его для извлечения данных. Некоторые веб -сайты могут иметь просто ужасный HTML -код, и он может быть очень трудно очистить, и только когда вы думаете, что он у вас есть ...

Диаграмм HTML будет анализировать все HTML и позволит вам получить доступ к нему структурированным способом, будь то из массива, объекта и т. Д.

Руби вместе с Нокогири Позволяет получить доступ к документам HTML и XML через селекторы XPath и CSS. Вот руководство.

Вам не нужен инструмент, и я не рекомендую вам использовать его.

Преобразуйте HTML в хорошо сформированный XML (XHTML) - я рекомендую TAGSOUP.

После того, как вы сделали это, данные - это просто еще один канал XML, и вы можете написать преобразование XSLT (или XQuery), чтобы получить доступ и вытащить данные, которые вы хотите в желаемом формате.

Это может означать обучение XSLT/XQUERY, если вы еще этого не знаете, но вы будете обучать навыки, которые (в отличие от инструментов очистки) имеют несколько, а не только одно полезное приложение.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top