Pregunta

¿Qué analizador de luceno se puede usar para manejar el texto japonés correctamente? Debería poder manejar Kanji, Hiragana, Katakana, Romaji y cualquiera de sus combinaciones.

¿Fue útil?

Solución

Encontré lucene-gosen mientras realizaba una búsqueda para mis propios fines:

Su ejemplo parece bastante decente, pero supongo que es el tipo de cosa que necesita pruebas exhaustivas. También me preocupa su política de compatibilidad con versiones anteriores (o más bien, la falta total de una).

Otros consejos

Probablemente debería mirar el paquete CJK que se encuentra en el área contrib de Lucene. Hay un analizador y un tokenizador específicamente para tratar con chino, japonés y coreano.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top