Erhalten Sie höchste Frequenz Begriffe von Lucene Index

https://stackoverflow.com/questions/2821903

26-09-2019
|

Frage

ich brauche zu extrahieren Begriffe mit höchsten Frequenzen von mehrer Lucene-Indizes , sie für einige semantische Analyse zu verwenden.

Also, ich möchte vielleicht bekommen Top 30 am meisten vorkommende Begriffe (noch nicht auf Schwellen entscheiden habe, werde ich Ergebnisse analysieren) und deren pro-Index zählt. Ich bin mir bewusst, dass ich wegen potentionally fielen Duplikate könnte einige Präzision verlieren, aber jetzt kann sagen, dass ich mit, dass ok bin.

So für die vorgeschlagenen Lösungen (unnötig vielleicht sagen) Geschwindigkeit ist nicht wichtig, da ich die statische Analyse tun würde, würde ich Akzent setzen auf Einfachheit die Umsetzung, weil im nicht so geschickt im Umgang mit Lucene und wickeln kann meine Gedanken um einige Konzepte davon ..

Ich kann keine Codebeispiele von etwas Ähnliches finden, so dass alle konkreten Hinweise (Code, Pseudo-Code, Links zu Codebeispiele ...) alle die Ratschläge schätzen!

Danke!

Lösung

Haben Sie einen Blick auf diese: http://sujitpal.blogspot.com/2009/02/summarization- mit-lucene.html

Die Klasse auf dieser Seite hascomputeTopTermQuery Methode, die Sie leicht in der Lage sein sollte, für den Gang über mehrere Indizes nachzurüsten.

Andere Tipps

Eine sehr einfache Art und Weise Luke zu verwenden wäre. Auf dem ‚Übersicht‘ Tab gibt es eine Schaltfläche ‚Top-Bedingungen anzeigen‘, die für verwendet werden kann, was Sie brauchen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow