日本語のテキストを処理するために使用できるluceneアナライザーは何ですか？

質問

日本語のテキストを適切に処理するために使用できるLuceneアナライザーはどれですか？漢字、ひらがな、カタカナ、ローマ字、およびそれらの任意の組み合わせを処理できる必要があります。

解決

自分の目的で検索を行っているときに lucene-gosen を見つけました：

これらの例はかなりまともに見えますが、広範なテストが必要な種類のことだと思います。また、後方互換性ポリシー（または、ポリシーの完全な欠如）についても心配しています。

他のヒント

おそらく CJK パッケージ。中国語、日本語、韓国語に対応するためのアナライザーとトークナイザーがあります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow