Termextraktion: Generatings Tags aus Text
Frage
Wie die gleichen Ergebnisse wie http://developer.yahoo zu bekommen. com / search / content / V1 / termExtraction.html
Diese Frage vor schon einige Male gefragt wurde.
-
Was ist eine gute Web-Service-Schlüsselwort-Extraktions / a>
-
Was ist eine einfache Art und Weise der Schlüsselwörter aus einem Text zu generieren?
Der Versuch, dieses Problem mit bestehenden Lösungen zu nähern ich eher zufällig auf „Textanalyse“ Solr auf dem Dokument vor der Indizierung durchführt, wie in http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters -., die auch beinhaltet ergeben
So ist der letzte Index meist von Begriffen bestehen wird verwendet, um das Dokument zu beschreiben.
Gibt es eine Lösung, die Analysatoren, Tokenizer und Token-Filter für die direkte Verwendung bietet? Wenn solr der Ausweg ist, was ist der beste Weg, um diese Daten aus solr-Index erhalten?
Lösung
Solr ist eine Möglichkeit, eine benutzerdefinierte Suchmaschine zu erstellen. Es scheint nicht das richtige Werkzeug für den Job zu sein. Der Wikipedia-Artikel über Termextraktion Listen in seinen „externe Links“ Abschnitt mehr Web-Anwendungen für Termextraktion . OpenNLP hat eine Liste von Tools, die nützlich sein können. Seine Chunker kann hilfreich sein.
Andere Tipps
Fordern Sie einfach den analysierten Begriffe z.
http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1
Siehe TermsComponent für weitere Informationen.