Question

Quel analyseur lucene peut être utilisé pour traiter correctement le texte japonais? Il devrait être capable de gérer les Kanji, les Hiragana, les Katakana, les Romaji et leurs combinaisons.

Était-ce utile?

La solution

J'ai trouvé lucene-gosen lors d'une recherche à mes propres fins:

Leur exemple semble assez décent, mais je suppose que c'est le genre de chose qui nécessite des tests approfondis. Je suis également préoccupé par leur politique de compatibilité avec les versions antérieures (ou plutôt par l'absence totale d'une telle politique.)

Autres conseils

Vous devriez probablement regarder le CJK situé dans la zone contrib de Lucene. Il existe un analyseur et un tokenizer spécialement conçus pour le chinois, le japonais et le coréen.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top