日本語のテキストを処理するために使用できるluceneアナライザーは何ですか?

StackOverflow https://stackoverflow.com/questions/1625000

質問

日本語のテキストを適切に処理するために使用できるLuceneアナライザーはどれですか?漢字、ひらがな、カタカナ、ローマ字、およびそれらの任意の組み合わせを処理できる必要があります。

役に立ちましたか?

解決

自分の目的で検索を行っているときに lucene-gosen を見つけました:

これらの例はかなりまともに見えますが、広範なテストが必要な種類のことだと思います。また、後方互換性ポリシー(または、ポリシーの完全な欠如)についても心配しています。

他のヒント

おそらく CJK パッケージ。中国語、日本語、韓国語に対応するためのアナライザーとトークナイザーがあります。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top