Frage

Ich versuche, einen generalisierte HTML-Parser zu erstellen, die auch auf Blogeinträge funktionieren. Ich möchte meinen Parser auf die spezifischen entrie URL zeigen und wieder sauber Text der Post selbst bekommen. Mein grundlegender Ansatz (von Python) wurde eine Kombination aus BeautifulSoup / urllib2 zu verwenden, die in Ordnung ist, aber es wird davon ausgegangen Sie die richtigen Tags für den Blogeintrag wissen. Hat jemand eine bessere Idee hat?

Hier sind einige Gedanken vielleicht jemand auf erweitern könnte, dass ich nicht genug Wissen / Know-how noch umzusetzen.

  1. Das Unix-Programm 'Luchs' scheint besonders gut Blog-Posts zu analysieren - was Parser verwenden sie, oder wie diese genutzt werden könnten

  2. ?
  3. Gibt es irgendwelche Dienste / Parser, die automatisch Junk-Anzeigen entfernen, etc?

  4. In diesem Fall hatte ich eine vage Vorstellung, dass es eine Ordnung Annahme sein, dass Blog-Beiträge in der Regel in einem bestimmten Definition von Tag mit Klasse enthalten sind = „Eintrag“ oder etwas ähnliches. Somit kann es möglich sein, einen Algorithmus zu erstellen, die die umschließende Tags mit dem saubersten Text zwischen ihnen vorhanden - alle Ideen auf, das

Danke!

War es hilfreich?

Lösung

Boy, muss ich die perfekt Lösung für Sie.

Arc90 der Lesbarkeit Algorithmus tut genau dies. Angesichts HTML-Inhalt, nimmt er den Inhalt des Haupt Blog-Post Text heraus, ignoriert Kopf- und Fußzeilen, Navigation, etc.

Hier sind Implementierungen in:

Ich werde ein Perl-Port CPAN in ein paar Tagen veröffentlichen. Fertig.

Hope, das hilft!

Andere Tipps

Es gibt Projekte gibt, die das ‚Rauschen‘ von einer bestimmten Seite an Ausfiltern speziell aussehen. Typischerweise ist die Art und Weise dies geschieht durch den Algorithmus einige Beispiele für eine bestimmte Art von Seite zu geben, und es kann sehen, welche Teile zwischen ihnen nicht ändern. Davon abgesehen, würden Sie den Algorithmus ein paar Beispielseiten / Beiträge von geben müssen jeder Blog Sie analysieren wollte. Dies funktioniert in der Regel gut, wenn Sie einen kleinen definierten Satz von Websites haben Sie (Nachrichten-Websites, zum Beispiel) werden kriechen. Der Algorithmus erkennt grundsätzlich die Vorlage sie in HTML verwenden und den interessanten Teil herauszupicken. Es gibt keine Magie hier, es ist hart und unvollkommen.

Ein gutes Beispiel für diese alogrithm in der EveryBlock.com Quellcode gefunden werden, die nur Open-Source war. Zum everyblock.com/code und laden Sie die „ebdata“ -Paket und Blick auf die „templatemaker“ Modul.

Und ich meine nicht das Offensichtliche zu erklären, aber haben Sie als nur aus dem Blogs in Frage mit RSS? Normalerweise ist die Felder haben die gesamte Blog-Post, Titel und andere Meta-Informationen zusammen mit ihnen. Mit RSS geht weit einfacher zu sein als die bisherige Lösung, die ich erwähnte.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top