Frage

Wie die gleichen Ergebnisse wie http://developer.yahoo zu bekommen. com / search / content / V1 / termExtraction.html

Diese Frage vor schon einige Male gefragt wurde.

Der Versuch, dieses Problem mit bestehenden Lösungen zu nähern ich eher zufällig auf „Textanalyse“ Solr auf dem Dokument vor der Indizierung durchführt, wie in http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters -., die auch beinhaltet ergeben

So ist der letzte Index meist von Begriffen bestehen wird verwendet, um das Dokument zu beschreiben.

Gibt es eine Lösung, die Analysatoren, Tokenizer und Token-Filter für die direkte Verwendung bietet? Wenn solr der Ausweg ist, was ist der beste Weg, um diese Daten aus solr-Index erhalten?

War es hilfreich?

Lösung

Solr ist eine Möglichkeit, eine benutzerdefinierte Suchmaschine zu erstellen. Es scheint nicht das richtige Werkzeug für den Job zu sein. Der Wikipedia-Artikel über Termextraktion Listen in seinen „externe Links“ Abschnitt mehr Web-Anwendungen für Termextraktion . OpenNLP hat eine Liste von Tools, die nützlich sein können. Seine Chunker kann hilfreich sein.

Andere Tipps

Fordern Sie einfach den analysierten Begriffe z.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

Siehe TermsComponent für weitere Informationen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top