Gibt es eine Möglichkeit, Lesbarkeit (Text -Extraktionsalgorithmus) und einen benutzerdefinierten Algorithmus in Python zu verwenden, um Links aus Text zu extrahieren?

StackOverflow https://stackoverflow.com/questions/4589323

Frage

Gibt es eine Möglichkeit, Lesbarkeit (Text -Extraktionsalgorithmus) und einen benutzerdefinierten Algorithmus in Python zu verwenden, um Links aus Text zu extrahieren?

Ich möchte einen Weg finden, Links zu extrahieren, die sich im Textkörper befinden.

1.) Ich benutze die Lesbarkeit in Python https://github.com/gfxmonk/python-readability

2.) Ich möchte den extrahierten Text irgendwie mit dem ursprünglichen HTML -Text vergleichen, um Links im tatsächlichen Körper eines Artikels zu extrahieren.

War es hilfreich?

Lösung

Nun, es sieht so aus, als würde es einen schönen Baumbaum zurückgeben. Sie sollten also in der Lage sein, so etwas wie zu tun:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top