Frage

Ich suche Feedback zu Analysator, der mit einem Index zu verwenden, die Dokumente aus mehreren Sprachen hat. Derzeit bin ich mit den simpleanalyzer, da sie die breiteste Menge an Sprachen zu handhaben scheint. Die meisten Dokumente indiziert werden wird Englisch, aber es wird auch die gelegentliche Double-Byte-Sprache indiziert sein.

Gibt es noch andere Vorschläge oder soll ich nur Stick mit dem simpleanalyzer.

Danke

War es hilfreich?

Lösung

SimpleAnalyzer ist wirklich einfach, alles was man tut, ist Klein die Begriffe. Ich habe gedacht, dass die StandardAnalyzer bessere Ergebnisse als SimpleAnalyzer geben würde, auch bei Nicht-Englisch-Sprachdaten. Man könnte es vielleicht verbessern sich leicht um eine benutzerdefinierte Liste der Stoppwörter zusätzlich zu den Standard-Englisch-sprachige diejenigen zu liefern.

Andere Tipps

Aus Ihrer Beschreibung, ich nehme an, Sie Dokument von mehreren Sprachen, aber jedes Dokument hat Text in nur eine Sprache.

Für diesen Fall können Sie Nutch die Sprachidentifikation zu erhalten, die Sprache des Dokuments verwenden. Dann mit jeweiligem Sprach Analysator zu indizieren. Um die richtigen Ergebnisse für das Such zu erhalten, müssen Sie Sprachidentifikation für die Suchanfrage anwenden und dass Analysator verwenden.

Der Vorteil hier ist Sie in der Lage sein wird, sprachspezifische stemmer & Stoppwörter zu verwenden, um die Qualität der Suche nach oben drücken. Der zusätzliche Aufwand, während der Indizierung sollte akzeptabel sein. Die Suchanfragen, wo Sprachidentifikation obwohl richtige Sprache identifizieren leiden ausfällt. Ich habe dieses paar Jahre zurück und die Ergebnisse waren besser als erwartet.

Für CJK, können Sie ähnliche Technik anwenden, aber die Werkzeuge könnten unterschiedlich sein.

Ich habe die StandardAnalyzer mit nicht-englischen Wörtern verwendet und es funktioniert ok. Es befasst sich auch mit Sonderzeichen verfügbar. Wenn die Sprache CJK (Chinesisch, Japanisch, Koreanisch) ist, Russisch oder Deutsch kann es Probleme, aber ich vermute, die meisten Probleme auf dem Assoziierungsabkommen von Wörtern im Zusammenhang werden. Wenn Sie nicht aktiviert haben Wortstämme, wird es wohl ausreichend sein.

Rein anekdotische Beweise, aber wir verwenden, um eine (besonders angefertigt, aber in keiner relevanten Art und Weise) Version von StandardAnalyzer für unser System. Unsere Dokumente können nicht nur miteinander in verschiedenen Sprachen, aber Dokumente können Stücke von verschiedenen Sprachen (zum Beispiel vorstellen, einen Artikel geschrieben in Japanisch mit Kommentaren in englischer Sprache) enthalten, so sprechen Schnüffeln schwierig sind.

Die meisten unserer Dokumente sind in Englisch, aber signifikante Zahlen sind in Chinesisch und Japanisch, mit einer kleineren Anzahl in Französisch, Spanisch, Portugiesisch und Koreanisch.

Endergebnis? Wir verwenden StandardAnalyzer und haben nur sehr wenige Beschwerden von Menschen mit dem System in nicht-lateinischen Sprachen über den Verlauf der Suche funktioniert. Unser System ist etwas ‚erzwungen‘ auf seinen Nutzern, nebenbei bemerkt, wird es so nicht, wie die Leute nicht beschweren, aber bewegen anderswo; wenn sie unglücklich sind, wissen wir in der Regel.

auf der Tatsache, also aus, dass ich nicht mit Beschwerden von Benutzern überschwemmt bin (sehr gelegentlich diejenigen, vor allem über die chinesischen, aber nichts ernsthaft und sie sind leicht zu erklären) scheint es ‚gut genug‘ für viele Fälle zu sein.

Die richtige Antwort hängt von Ihrer Hauptsprache (falls vorhanden).

Für die beste IR-Leistung Quer Sprache, die ich mit einem 05.04-Gramm-Analysator gehen würde, hat es sich gezeigt, auf vielen Sprachen sehr gut funktionieren. Es könnte sogar besser funktionieren als SimpleAnalyzer für Englisch auch. Siehe http://www.eecs.qmul.ac. uk / ~ christof / html / publications / inrt142.pdf zum Beispiel.

Ich habe in dieses aussehen, aber von Ein anderer Blickwinkel. Es scheint, als gäbe es keine catch-all-Analysator ist -. Jede Sprache für die besten Ergebnisse seinen eigenen Ansatz muss

Als erstes sollten Sie das finden, was ist Ihre Sprache? Zum Beispiel sind meine Dokumente in Englisch, japanes oder persisch. Sie können feststellen, dass Ihr Dokument Sprache durch den Prozess auf UTF-8-Zeichen.

Dann, wenn Sie feststellen, dass Ihr Dokument in welcher Sprache ist, können Sie es analysieren mit spezifischer Analysator.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top