Extrahieren von Informationen aus Webseiten

https://stackoverflow.com/questions/318564

11-07-2019
|

Frage

Nicht jede Website setzt ihre Daten gut mit XML-Feeds, APIs, etc.

Wie kann ich mich über Informationen von einer Website zu extrahieren? Zum Beispiel:

...
<div>
  <div>
    <span id="important-data">information here</span>
  </div>
</div>
...

Ich komme aus einem Hintergrund der Java-Programmierung und Codierung mit Apache XMLBeans. Gibt es etwas ähnlich HTML analysieren, wenn ich weiß, die Struktur und die Daten zwischen einem bekannten Tag?

Danke

Lösung

Es gibt mehrere Open Source HTML-Parser gibt für Java.

ich verwendet habe jtidy in der Vergangenheit und haben mit ihm viel Glück hat. Es wird Ihnen ein DOM der HTML-Seite, und Sie sollten die Tags, die Sie von dort müssen greifen können.

Andere Tipps

Hier ist ein Artikel , das hat ein paar Screen Scraping-Tools in Java geschrieben.

Im Allgemeinen ist es klingt wie Sie einen Blick auf reguläre Ausdrücke , die tun das Muster Sie suchen entsprechen.

Ich hoffe, das hilft!

Java scheint wie eine ziemlich schwierige Beschränkung für eine solche Aufgabe. Ist das eine harte Anforderung? Skriptsprachen sind ideal für den Aufbau, was wirklich eine Menge letzte Meile Code.

Wenn Sie es offen sind, Rubin + hpricot macht das ganz trivial. Sie können CSS oder XPath-Selektoren (oder beides) verwenden zu finden (und zu manipulieren), um den Inhalt in HTML. Grabbing das Dokument, das Parsen es, und Extrahieren der Text in Ihrem Beispiel ist buchstäblich eine Zeile Code.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow