il motivo per cui i risultati dell'algoritmo Stemmer facchino che non ho, secondo la parola di radice che dovrebbe essere?

StackOverflow https://stackoverflow.com/questions/4516681

Domanda

ho bisogno di algoritmo di utilizzo portiere stemmer per ottenere arginare parola nella mia domanda, ma quando i test l'algoritmo che ottengo da http://www.tartarus.org/~martin/PorterStemmer , il risultato di arginare non è darmi corretta parola staminali, ad esempio: felice -> Happi virus -> Viru eccetera mi potete aiutare a risolverlo?

È stato utile?

Soluzione

link :

2. Perché lo Stemmer non produce parole giuste?

Si è spesso preso per essere un errore di greggio che un algoritmo che deriva non lascia una parola vera e propria dopo aver rimosso il gambo. Ma lo scopo di arginare è quello di portare forme varianti di una parola insieme, non per mappare una parola sulla sua forma ‘paradigma’.

E collegato con questo,

3. Perché ci sono errori?

La domanda viene normalmente in forma, perché dovrebbe essere la parola X derivava da x1, quando ci si sarebbe aspettati che fosse derivava a x2? E 'importante ricordare che l'algoritmo risultante non può raggiungere la perfezione. A conti fatti sarà (o possono) migliorare le prestazioni IR, ma in singoli casi può a volte fare che cosa sono, o ciò che sembra essere, errori. Naturalmente, questa è una questione diversa dal suggerire una regola aggiuntiva che potrebbe essere incluso nel stemmer per migliorare le sue prestazioni.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top