Domanda

Sto cercando di rimuovere le parole di stop prima di eseguire argomento modellazione. Ho notato che alcuni parole negazione (non, non, mai, nessuno, ecc ..) sono di solito considerate le parole di stop. Ad esempio, NLTK, ampio e sklearn comprendono "non" sui loro elenchi di parole stop. Tuttavia, se togliamo "non" da queste frasi sotto perdono il senso significativo e che non sarebbe accurato per la modellazione argomento o sentiment analysis.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Qualcuno può spiegare perché queste parole negazione sono in genere considerate le parole di stop?

È stato utile?

Soluzione

parole stop di solito sono pensati come "la più parole comuni in una lingua". Tuttavia, altre definizioni basate su compiti diversi sono possibili.

Si rende chiaramente senso considerare 'non e' come una parola di arresto se il vostro compito è basata sulla parola frequenze (ad esempio, analisi TF-IDF per la classificazione dei documenti).

Se sei preoccupato con il contesto (ad esempio, Sentiment Analysis ) del testo che potrebbe senso parole negazione trattare diversamente. La negazione cambia il cosiddetto valenza di un testo. Questo deve essere trattata con cura e di solito non è banale. Un esempio potrebbe essere la negazione corpus Twitter. Una spiegazione del metodo è dato in questo documento .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top