Domanda

Ho bisogno di un buon algoritmo di derivazione per un progetto a cui sto lavorando. Mi è stato suggerito di dare un'occhiata al Porter Stemmer. Quando ho controllato la pagina sullo stemmer di Porter ho scoperto che ora è deprecato a favore della "Palla di neve" Stemmer.

Ho bisogno di una buona radice, ma non posso davvero dedicare molto tempo all'implementazione (o all'ottimizzazione) della mia. Qual è la migliore "offerta standard" disponibile gratuitamente? Sono disponibili stemmer non liberi a un prezzo ragionevole? Oppure, lo stemmer di Snowball è la mia scommessa migliore?

È stato utile?

Soluzione

Il Porter2 è quello con cui ho deciso di andare. Sembrava che lo stemmer del facchino fosse lo standard, ma quando ho trovato la pagina dell'autore mi ha raccomandato "Snowball (Porter2)". Stemmer. C'è un collegamento alla porta C in questa pagina.

Altri suggerimenti

Dipende davvero da come hai intenzione di applicarlo. Il Natural Language Toolkit ( http://nltk.sourceforge.net ) ha implementato un numero di stemmer che dovrebbe essere in grado di gestire la maggior parte delle applicazioni. Preferisco lo stemmer Morphy.

Ovviamente, è disponibile in Python, quindi se stai lavorando con un'altra lingua, puoi sempre consultare il codice per raccogliere l'algoritmo e trasferirlo nella tua lingua preferita. Python è altamente leggibile.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top