Domanda

Quale analizzatore lucene può essere utilizzato per gestire correttamente il testo giapponese? Dovrebbe essere in grado di gestire Kanji, Hiragana, Katakana, Romaji e una qualsiasi delle loro combinazioni.

È stato utile?

Soluzione

Ho trovato lucene-gosen mentre cercavo i miei scopi:

Il loro esempio sembra abbastanza decente, ma immagino sia il tipo di cosa che richiede test approfonditi. Sono anche preoccupato per la loro politica di retrocompatibilità (o meglio, per la totale mancanza di una.)

Altri suggerimenti

Probabilmente dovresti guardare CJK che si trova nell'area contrib di Lucene. Esiste un analizzatore e un tokenizer specifico per gestire cinese, giapponese e coreano.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top