Outil de recherche de grattage Web pour les données non structurées [fermé]

https://datascience.stackexchange.com/questions/1007

16-10-2019
|

Question

Je veux gratter des données à partir d'un site Web. Je l'ai utilisé import.io mais pas beaucoup satisfait .. peut tout de vous suggérer à ce sujet .. ce qui est le meilleur outil pour obtenir les données non structurées de web

La solution

Essayez BeautifulSoup - http://www.crummy.com/software/BeautifulSoup/

A partir du site Web « Beautiful Soup est une bibliothèque Python conçue pour des projets de redressement rapides comme grattage écran. » Je n'ai pas personnellement utilisé, mais il arrive souvent en ce qui concerne une belle bibliothèque pour gratter. Voici un blog à l'utiliser pour racler http: // www.gregreda.com/2014/07/27/scraping-craigslist-for-tickets/

Autres conseils

Vous ne mentionnez pas ce langage de programmation que vous êtes la (s'il vous plaît envisager d'ajouter comme une étiquette), donc une aide générale serait de rechercher un analyseur syntaxique HTML et l'utiliser pour extraire les données. Certains sites Web peuvent avoir simplement le code HTML terrible et peut être très difficile à racler, et juste quand vous pensez que vous l'avez ...

Un analyseur HTML va analyser tous les fichiers HTML et vous permettre d'y accéder à une sorte structurée de manière, que ce soit à partir d'un tableau, un objet, etc.

Ruby avec Nokogiri permet aux documents d'accès HTML et XML via XPath et sélecteurs CSS. Voici un tutoriel .

Vous n'avez pas besoin d'un outil et je ne recommande pas que vous utilisez un.

Convertir le HTML en XML bien formé (XHTML) -. Je recommande la tagsoup

Une fois que vous avez fait que les données sont juste un autre flux XML et vous pouvez écrire une transformation XSLT (ou XQuery) pour accéder et extraire les données que vous voulez dans le format que vous voulez.

Cela pourrait signifier XSLT apprentissage / XQuery si vous ne connaissez pas déjà, mais vous serez les compétences d'apprentissage qui (contrairement à des outils de grattage) ont de multiples plutôt que d'une application utile.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange