Pergunta

Qual analisador Lucene pode ser usado para lidar com texto em japonês corretamente? Deve ser capaz de lidar com Kanji, Hiragana, Katakana, Romaji, e qualquer uma das suas combinações.

Foi útil?

Solução

lucene-Gosen ao fazer uma pesquisa para minhas próprias finalidades:

O seu exemplo parece bastante decente, mas eu acho que é o tipo de coisa que precisa de testes extensivos. Eu também estou preocupado com a sua política de compatibilidade com versões anteriores (ou melhor, a falta completa de um.)

Outras dicas

Você provavelmente deve olhar para o pacote CJK que está na área de contrib do Lucene. Há um analisador e um tokenizer especificamente para lidar com o chinês, japonês e coreano.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top