Frage

Ich möchte einige Daten von einer Website kratzen. Ich habe import.io verwendet, aber immer noch nicht sehr zufrieden. Kann einer von Ihnen darüber vorschlagen. Was ist das beste Tool, um die unstrukturierten Daten aus der Web zu erhalten

War es hilfreich?

Lösung

Versuchen Sie es mit BeautifulSoup - http://www.krummy.com/software/beautifulsoup/

Auf der Website "Beautiful Suppe ist eine Python-Bibliothek für schnelle Turnaround-Projekte wie Screen-Craping". Ich habe es nicht persönlich benutzt, aber es taucht oft in einer schönen Bibliothek zum Kratzen auf. Hier ist ein Blog -Beitrag, um es zu verwenden, um Craigslist zu kratzen http://www.gregreda.com/2014/07/27/scraping-craigslist-for-tickets/

Andere Tipps

Sie erwähnen nicht, in welcher Sprache Sie programmieren (bitte erwägen Sie, es als Tag hinzuzufügen). Allgemeine Hilfe ist daher, einen HTML -Parser zu suchen und diese zu verwenden, um die Daten zu ziehen. Einige Websites können einfach einen schrecklichen HTML -Code haben und können sehr schwer zu kratzen sein, und wenn Sie glauben, dass Sie ihn haben ...

Ein HTML -Parser analysiert alle HTML und ermöglicht es Ihnen, auf strukturierte Art und Weise darauf zugreifen zu können, egal ob dies von einem Array, einem Objekt usw. stammt.

Rubin zusammen mit Nokogiri Ermöglicht den Zugriff auf HTML- und XML -Dokumente über XPath- und CSS -Selektoren. Hier ist ein Lernprogramm.

Sie brauchen kein Tool und ich empfehle Ihnen nicht, eines zu verwenden.

Konvertieren Sie das HTML in gut geformte XML (XHTML) - Ich empfehle die Tagsup.

Sobald Sie dies getan haben, sind die Daten nur ein weiterer XML -Feed und Sie können eine XSLT -Transformation (oder XQuery) schreiben, um auf die gewünschten Daten zuzugreifen und die gewünschten Daten herauszuziehen.

Dies könnte bedeuten, XSLT/XQuery zu lernen, wenn Sie es noch nicht wissen, aber Sie werden Fähigkeiten lernen, die (im Gegensatz zu Schablonen -Tools) mehrere als nur eine nützliche Anwendung haben.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top