Streifen HTML von einer Webseite und Worthäufigkeit berechnen?

https://stackoverflow.com/questions/207404

03-07-2019
|

Frage

In Groovy, wie packe ich eine Web-Seite und HTML-Tags entfernen, usw., nur den Text des Dokuments zu verlassen? Ich würde die Ergebnisse in einer Sammlung abgeladen wie so ich ein Wort Frequenzzähler bauen.

Lassen Sie mich abschließend noch einmal erwähnen, dass ich dies in Groovy tun mag.

Lösung

Angenommen, Sie dies mit Groovy tun wollen (erraten basierend auf dem groovy-Tag), Ihre Ansätze sind wahrscheinlich entweder stark Shell-Skript orientiert oder mit Hilfe von Java-Bibliotheken. Im Fall von Shell-Scripting würde ich mit Moogs einverstanden ist, mit Lynx oder Elinks ist wahrscheinlich der einfachste Weg, um darüber zu gehen. Sonst habe einen Blick auf HTMLParser und finden Sie unter Verarbeitung Jedes Wort in einer Datei (nach unten scrollen, um den entsprechenden Code-Schnipsel zu finden)

Du bist wahrscheinlich mit der Suche nach Java-Libs für die Verwendung mit Groovy für die HTML-Analyse stecken, da es dort nicht erscheinen irgendwelche Groovy Libs für sie. Wenn Sie nicht Groovy verwenden, dann bitte die gewünschte Sprache veröffentlichen, da es eine Vielzahl von HTML-Text-Tools gibt, je nachdem, welche Sprache Sie arbeiten in.

Andere Tipps

Wenn Sie eine Sammlung von Zeichen übersetzten Wörter aus HTML wollen, dann nicht, können Sie es einfach wie XML parsen (benötigt gültige XML sein) und den gesamten Text zwischen den Tags greifen? Wie wäre es so etwas wie folgt aus:

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

Sie können mit der Lynx Web-Browser den Dokumenttext auszuspucken und speichern.

Wollen Sie dies automatisch tun? Wollen Sie eine separate Anwendung, die dies tut? Oder wollen Sie helfen, es in Ihre Anwendung Codierung wollen? Welche Plattformen (Windows-Desktop, Web-Server, etc.) wird es laufen?

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow