Pregunta

Estoy tratando de eliminar las palabras de detención antes de realizar el modelado de temas. Noté que algunas palabras de negación (no, ni, nunca, ninguna, etc.) generalmente se consideran palabras de parada. Por ejemplo, NLTK, Spacy y Sklearn incluyen "no" en sus listas de palabras de parada. Sin embargo, si eliminamos "no" de estas oraciones a continuación, pierden el significado significativo y eso no sería preciso para el modelado de temas o el análisis de sentimientos.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

¿Alguien puede explicar por qué estas palabras de negación generalmente se consideran palabras de parada?

¿Fue útil?

Solución

Para las palabras generalmente se consideran "las palabras más comunes en un idioma". Sin embargo, son posibles otras definiciones basadas en diferentes tareas.

Claramente tiene sentido considerar 'no' como una palabra de parada si su tarea se basa en la palabra frecuencias (p.ej tf -idf Análisis para la clasificación de documentos).

Si le preocupa el contexto (por ejemplo, análisis de los sentimientos) Del texto podría tener sentido tratar las palabras de negación de manera diferente. La negación cambia la llamada valencia de un texto. Esto debe tratarse con cuidado y generalmente no es trivial. Un ejemplo sería el Corpus de Negación de Twitter. Se da una explicación del enfoque en este papel.

Licenciado bajo: CC-BY-SA con atribución
scroll top