Какой анализатор lucene можно использовать для обработки текста на японском языке?
-
06-07-2019 - |
Вопрос
Какой анализатор lucene можно использовать для правильной обработки японского текста? Он должен быть в состоянии справиться с кандзи, хирагана, катакана, ромаджи и любой их комбинацией.
Решение
Я нашел lucene-gosen , когда выполнял поиск в своих целях: р>
Их пример выглядит довольно прилично, но я думаю, это то, что требует тщательного тестирования. Я также беспокоюсь об их политике обратной совместимости (точнее, о полном ее отсутствии).
Другие советы
Вам, вероятно, следует взглянуть на CJK , который находится в области contrib Lucene. Есть анализатор и токенизатор специально для работы с китайским, японским и корейским языками.
Не связан с StackOverflow