Termextraktion: Generatings Tags aus Text

https://stackoverflow.com/questions/1100549

11-09-2019
|

Frage

Wie die gleichen Ergebnisse wie http://developer.yahoo zu bekommen. com / search / content / V1 / termExtraction.html

Diese Frage vor schon einige Male gefragt wurde.

Was ist eine einfache Art und Weise der Schlüsselwörter aus einem Text zu generieren?

Der Versuch, dieses Problem mit bestehenden Lösungen zu nähern ich eher zufällig auf „Textanalyse“ Solr auf dem Dokument vor der Indizierung durchführt, wie in http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters -., die auch beinhaltet ergeben

So ist der letzte Index meist von Begriffen bestehen wird verwendet, um das Dokument zu beschreiben.

Gibt es eine Lösung, die Analysatoren, Tokenizer und Token-Filter für die direkte Verwendung bietet? Wenn solr der Ausweg ist, was ist der beste Weg, um diese Daten aus solr-Index erhalten?

Lösung

Solr ist eine Möglichkeit, eine benutzerdefinierte Suchmaschine zu erstellen. Es scheint nicht das richtige Werkzeug für den Job zu sein. Der Wikipedia-Artikel über Termextraktion Listen in seinen „externe Links“ Abschnitt mehr Web-Anwendungen für Termextraktion . OpenNLP hat eine Liste von Tools, die nützlich sein können. Seine Chunker kann hilfreich sein.

Andere Tipps

Fordern Sie einfach den analysierten Begriffe z.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

Siehe TermsComponent für weitere Informationen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow