Frage

eine HTML-Seite gegeben, dass ein Text schwerer Gegenstand ist, würde Ich mag den Hauptinhalt identifizieren und analysieren wird.

Mit http: //www.fivethirtyeight. com / 2009/08 / Chavismus-obama-and-monroe-doctrine.html als Beispiel mag ich div # post-4438372351887392855, identifizieren, die den Titel und die Artikel enthalten.

Ich weiß nichts perfekt sein kann oder 100% der Zeit arbeiten, aber ist es ein Ansatz, den mir das gewünschte Ergebnis in einer angemessenen Anzahl von Fällen geben kann?

Mein gegenwärtiger Gedanke ist durch jedes div laufen, die Markup Strippen aus, ziehen Sie das am weitesten div zu finden, die den meisten Text enthält.

An diesem Punkt ist ich gerade erst begonnen, so eingabe ich auf der Suche zu einem konzeptionellen Ansatz setzen kann. Oder, wenn etwas da draußen ist, eine Open-Source-Bibliothek wäre schön.

Vielen Dank im Voraus für die Einsichten.

War es hilfreich?

Lösung

Einige Leute bei arc90 haben eine ziemlich beeindruckende Arbeit mit dieser mit ihrem Lesbarkeit Bookmarklet rel="nofollow . Es scheint eine ziemlich gute Arbeit bei der Suche nach dem ‚Haupt‘ Inhalts zu tun - arbeitet auf der Seite, die Sie perfekt Liste
. Sie können ihre gut kommentiert Javascript schauen durch (im Zusammenhang mit der Bookmarklet), aber Sie könnten die Entwickler für ihre Ideen und die Erlaubnis, sie zu nutzen.

kontaktieren wollen

Andere Tipps

Die komplette Liste zusammengestellt von Ressourcen für den Hauptinhalt Extraktion ist:

  1. Extrahierung Artikeltext von HTML-Dokumenten
  2. Liste der Ressourcen: Artikel Textextraktion aus html-Dokumente

Schauen Sie auch auf die Kommentare, da es zusätzliche Tipps.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top