O analisador Lucene pode ser usado para lidar com texto em japonês?
-
06-07-2019 - |
Pergunta
Qual analisador Lucene pode ser usado para lidar com texto em japonês corretamente? Deve ser capaz de lidar com Kanji, Hiragana, Katakana, Romaji, e qualquer uma das suas combinações.
Solução
lucene-Gosen ao fazer uma pesquisa para minhas próprias finalidades:
O seu exemplo parece bastante decente, mas eu acho que é o tipo de coisa que precisa de testes extensivos. Eu também estou preocupado com a sua política de compatibilidade com versões anteriores (ou melhor, a falta completa de um.)
Outras dicas
Você provavelmente deve olhar para o pacote CJK que está na área de contrib do Lucene. Há um analisador e um tokenizer especificamente para lidar com o chinês, japonês e coreano.
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow