Frage

Welche lucene Analysator kann verwendet werden, japanischen Text richtig zu handhaben? Es sollte in der Lage sein, Kanji, Hiragana, Katakana, Romanisierung, und jede ihrer Kombination zu behandeln.

War es hilfreich?

Lösung

Ich fand lucene-gosen während eine Suche nach meiner eigenen Zwecke zu tun:

Ihr Beispiel sieht recht ordentlich aus, aber ich denke, es ist die Art von Sache, die umfangreichen Tests benötigt. Ich bin auch besorgt über ihre Abwärtskompatibilität Politik (oder besser gesagt, das völlige Fehlen von einem.)

Andere Tipps

Sie sollten wahrscheinlich Blick auf die CJK Paket, das in dem Bereich der contrib Lucene ist. Es ist ein Analysator und ein tokenizer speziell für den Umgang mit chinesischen, japanischen und koreanischen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top