Какой анализатор lucene можно использовать для обработки текста на японском языке?

StackOverflow https://stackoverflow.com/questions/1625000

Вопрос

Какой анализатор lucene можно использовать для правильной обработки японского текста? Он должен быть в состоянии справиться с кандзи, хирагана, катакана, ромаджи и любой их комбинацией.

Это было полезно?

Решение

Я нашел lucene-gosen , когда выполнял поиск в своих целях:

Их пример выглядит довольно прилично, но я думаю, это то, что требует тщательного тестирования. Я также беспокоюсь об их политике обратной совместимости (точнее, о полном ее отсутствии).

Другие советы

Вам, вероятно, следует взглянуть на CJK , который находится в области contrib Lucene. Есть анализатор и токенизатор специально для работы с китайским, японским и корейским языками.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top