Quale analizzatore lucene può essere utilizzato per gestire il testo giapponese?
-
06-07-2019 - |
Domanda
Quale analizzatore lucene può essere utilizzato per gestire correttamente il testo giapponese? Dovrebbe essere in grado di gestire Kanji, Hiragana, Katakana, Romaji e una qualsiasi delle loro combinazioni.
Soluzione
Ho trovato lucene-gosen mentre cercavo i miei scopi:
Il loro esempio sembra abbastanza decente, ma immagino sia il tipo di cosa che richiede test approfonditi. Sono anche preoccupato per la loro politica di retrocompatibilità (o meglio, per la totale mancanza di una.)
Altri suggerimenti
Probabilmente dovresti guardare CJK che si trova nell'area contrib di Lucene. Esiste un analizzatore e un tokenizer specifico per gestire cinese, giapponese e coreano.
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow