¿Qué analizador lucene se puede usar para manejar texto en japonés?
-
06-07-2019 - |
Pregunta
¿Qué analizador de luceno se puede usar para manejar el texto japonés correctamente? Debería poder manejar Kanji, Hiragana, Katakana, Romaji y cualquiera de sus combinaciones.
Solución
Encontré lucene-gosen mientras realizaba una búsqueda para mis propios fines:
Su ejemplo parece bastante decente, pero supongo que es el tipo de cosa que necesita pruebas exhaustivas. También me preocupa su política de compatibilidad con versiones anteriores (o más bien, la falta total de una).
Otros consejos
Probablemente debería mirar el paquete CJK que se encuentra en el área contrib de Lucene. Hay un analizador y un tokenizador específicamente para tratar con chino, japonés y coreano.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow