В поисках инструмента для скребки для неструктурированных данных [закрыто
Вопрос
Я хочу соскрести данные с сайта. Я использовал import.io, но все еще не очень удовлетворен ... может ли кто -нибудь из вас предложить об этом .. Какой лучший инструмент для получения неструктурированных данных из Интернета
Решение
Попробуйте BeautifulSoup - http://www.crummy.com/software/beautifulsoup/
С сайта "Beautiful Soup-это библиотека Python, разработанная для быстрого оборотного проекта, таких как экраны". Я не использовал его лично, но это часто возникает в отношении хорошей библиотеки для очистки. Вот сообщение в блоге об использовании его для Scrape Craigslist http://www.gregreda.com/2014/07/27/scraping-craigslist-for-tickets/
Другие советы
Вы не упоминаете, на каком языке вы программируете (пожалуйста, подумайте о добавлении его в качестве тега), поэтому общей помощью будет поиск анализатора HTML и использовать его для извлечения данных. Некоторые веб -сайты могут иметь просто ужасный HTML -код, и он может быть очень трудно очистить, и только когда вы думаете, что он у вас есть ...
Диаграмм HTML будет анализировать все HTML и позволит вам получить доступ к нему структурированным способом, будь то из массива, объекта и т. Д.
Руби вместе с Нокогири Позволяет получить доступ к документам HTML и XML через селекторы XPath и CSS. Вот руководство.
Вам не нужен инструмент, и я не рекомендую вам использовать его.
Преобразуйте HTML в хорошо сформированный XML (XHTML) - я рекомендую TAGSOUP.
После того, как вы сделали это, данные - это просто еще один канал XML, и вы можете написать преобразование XSLT (или XQuery), чтобы получить доступ и вытащить данные, которые вы хотите в желаемом формате.
Это может означать обучение XSLT/XQUERY, если вы еще этого не знаете, но вы будете обучать навыки, которые (в отличие от инструментов очистки) имеют несколько, а не только одно полезное приложение.