Domanda

Ho un po 'documento di grandi dimensioni e vogliono fare eliminazione stop-parola e derivante sulle parole di questo documento con Python. Qualcuno sa una del pacchetto scaffale per questi? Se non è un codice che è abbastanza veloce per i documenti di grandi dimensioni è anche il benvenuto. Grazie

È stato utile?

Soluzione

NLTK supporta questo.

Altri suggerimenti

Se per qualche ragione non si desidera utilizzare NLTK, si può provare PyStemmer. Per le parole di stop basta scaricare una lista (google) e filtrare.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top