Welche lucene Analysator kann verwendet werden, japanischen Text zu behandeln?
-
06-07-2019 - |
Frage
Welche lucene Analysator kann verwendet werden, japanischen Text richtig zu handhaben? Es sollte in der Lage sein, Kanji, Hiragana, Katakana, Romanisierung, und jede ihrer Kombination zu behandeln.
Lösung
Ich fand lucene-gosen während eine Suche nach meiner eigenen Zwecke zu tun:
Ihr Beispiel sieht recht ordentlich aus, aber ich denke, es ist die Art von Sache, die umfangreichen Tests benötigt. Ich bin auch besorgt über ihre Abwärtskompatibilität Politik (oder besser gesagt, das völlige Fehlen von einem.)
Andere Tipps
Sie sollten wahrscheinlich Blick auf die CJK Paket, das in dem Bereich der contrib Lucene ist. Es ist ein Analysator und ein tokenizer speziell für den Umgang mit chinesischen, japanischen und koreanischen.