Domanda

Io sono l'attuazione di un applicazione di ricerca. Corpus è di grandi dimensioni documenti di testo. Durante il processo di file sto creazione di token tutte le parole e chiamando algoritmo Porter Stemmer Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).

Step1 si libera di plurali e -ed o -ing ...

ho notato che una parola come 'questo' sarà derivava in 'Thi'.

E 'questo il normale funzionamento dell'algoritmo? Dal momento che ho voluto tokenize la parola 'questo'.

È stato utile?

Soluzione

Da ciò che si descrive, la mia impressione è che this è considerato come forma plurale a Porter Stemmer algoritmo e ridotto a thi.

Non trovo un riferimento esplicito alle parole non plurali che terminano con s in carta di Porter.

http://tartarus.org/~martin/PorterStemmer/def.txt

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top