Buscando Web herramienta de raspado para datos no estructurados [cerrada]

https://datascience.stackexchange.com/questions/1007

16-10-2019
|

Pregunta

Quiero raspar algunos datos de un sitio web. Tengo import.io usado pero todavía no mucho satisfecho .. Alguno de ustedes puede sugerir sobre esto .. cuál es la mejor herramienta para obtener los datos no estructurados desde web

Solución

Trate BeautifulSoup - http://www.crummy.com/software/BeautifulSoup/

Desde el sitio web "Hermosa sopa es una biblioteca de Python diseñados para proyectos de respuesta rápida como la pantalla-raspado." He utilizado sin personalmente, pero a menudo surge en lo que respecta a una buena biblioteca para raspar. Aquí hay una entrada de blog en usarlo para raspar Craigslist http: // www.gregreda.com/2014/07/27/scraping-craigslist-for-tickets/

Otros consejos

Usted no menciona lo que el lenguaje está programando en (por favor, considera agregarlo como una etiqueta), por lo que ayuda en general sería la de buscar un analizador de HTML y el uso que para extraer los datos. Algunos sitios web pueden tener código HTML simplemente horrible y puede ser muy difícil de raspar, y justo cuando cree que lo tiene ...

Un analizador HTML analizará todo el HTML y le permitirá acceder a él de una manera estructurada tipo de camino, ya sea a partir de una matriz, un objeto, etc.

Nokogiri permite el acceso a los documentos HTML y XML a través de XPath y selectores CSS. Aquí hay un tutorial .

Usted no necesita una herramienta y no recomiendo que utilice uno.

Convertir el HTML a XML bien formado (XHTML) -. Recomiendo el tagsoup

Una vez que usted ha hecho que los datos son sólo otra fuente XML y puede escribir una transformación XSLT (o XQuery) para acceder y extraer los datos que desee en el formato que desee.

Eso podría significar aprender XSLT / XQuery si no lo sabe ya, pero que va a aprender habilidades que (a diferencia de las herramientas de raspado) tienen múltiples y no sólo de una aplicación útil.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange