Domanda

Sto solo iniziando con Lucene.net. Ho indicizzato 100.000 righe utilizzando Analyzer standard, ho eseguito alcune query di test e ho notato che le query plurali non restituiscono risultati se il termine originale era singolare. Capisco che Snowball Analyzer aggiunge supporto in causa, che suona bene. Tuttavia, mi chiedo se ci sono degli svantaggi da Gong con la palla di neve rispetto allo standard? Sto perdendo qualcosa andando con esso? Ci sono altri analizzatori là fuori da considerare?

È stato utile?

Soluzione

Sì, usando uno stemmer come la palla di neve, stai perdendo informazioni sulla forma originale del tuo testo. A volte questo sarà utile, a volte no.

Ad esempio, Snowball passerà "Organizzazione" in "Organo", quindi una ricerca di "Organizzazione" restituirà i risultati con "Organo", senza alcuna penalità di punteggio.

Se questo è appropriato per te dipende o meno dal tuo contenuto e dal tipo di query che stai supportando (ad esempio, le ricerche sono molto semplici o sono gli utenti molto sofisticati e utilizzano la tua ricerca per filtrare accuratamente i risultati). Potresti anche voler esaminare gli stemmer meno aggressivi, come Kstem.

Altri suggerimenti

Il palla di neve L'analizzatore aumenterà il tuo richiamo, perché è molto più aggressivo dell'analizzatore standard. Quindi devi farlo valutare i risultati della ricerca per vedere se per i tuoi dati devi aumentare richiamo o precisione.

Ho appena finito un analizzatore che esegue la lemmatizzazione. Questo è simile a quello di derivare, tranne per il fatto che utilizza il contesto per determinare il tipo di parola (sostantivo, verbo, ecc.) E usa tali informazioni per derivare lo stelo. Mantiene anche la forma originale della parola nell'indice. Forse la mia biblioteca può essere utile per te. Richiede Lucene Java, però, e non sono a conoscenza di alcun Lemmatizzatori C#/. Net.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top