日本語のテキストを処理するために使用できるluceneアナライザーは何ですか?
-
06-07-2019 - |
質問
日本語のテキストを適切に処理するために使用できるLuceneアナライザーはどれですか?漢字、ひらがな、カタカナ、ローマ字、およびそれらの任意の組み合わせを処理できる必要があります。
解決
自分の目的で検索を行っているときに lucene-gosen を見つけました:
これらの例はかなりまともに見えますが、広範なテストが必要な種類のことだと思います。また、後方互換性ポリシー(または、ポリシーの完全な欠如)についても心配しています。
他のヒント
おそらく CJK パッケージ。中国語、日本語、韓国語に対応するためのアナライザーとトークナイザーがあります。
所属していません StackOverflow