Pregunta

Tengo un documento un poco grande y quiere hacer la eliminación de parada-palabra y derivados de las palabras de este documento con Python. ¿Alguien sabe de un paquete del estante para estos? Si no es un código que es lo suficientemente rápido para documentos de gran tamaño también es bienvenida. Gracias

¿Fue útil?

Solución

NLTK apoya esto.

Otros consejos

Si por alguna razón usted no desea utilizar NLTK, puede intentar PyStemmer. Para las palabras vacías sólo tiene que descargar una lista (google) y filtrar a cabo.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top