Vergleich der Textfrequenzen in einem Dokument mit der Frequenz in einem Korpus
-
09-10-2019 - |
Frage
Ich möchte ein Dokument für Elemente wie Briefe, Bigrams, Wörter usw. analysieren und vergleichen, wie häufig sie in meinem Dokument sind, wie häufig sie über einen großen Korpus von Dokumenten waren.
Die Idee ist, dass Wörter wie "if", "und", "," die "in allen Dokumenten gemeinsam sind, aber einige Wörter in diesem Dokument viel häufiger sind als für den Korpus typisch.
Dies muss ziemlich Standard sein. Wie heißt es? Wenn ich es auf die offensichtliche Art und Weise tat, hatte ich immer ein Problem mit neuartigen Wörtern in meinem Dokument, aber nicht in der Corpus -Bewertung unendlich signifikant. Wie wird das umgegangen?
Lösung
Höchstwahrscheinlich haben Sie die bereits überprüft tf-idfoder einige andere Metriken von OKAPI_BM25 Familie.
Sie können auch überprüfen natürliches Sprachverarbeitungs -Toolkit NLTK Für einige Bereitschaftslösungen
UPDATE: Was neuartige Wörter betrifft, sollte die Glättung angewendet werden: Good-Turing, Laplace usw.
Andere Tipps
Es kommt unter die Überschrift linearer Klassifizierer, wobei naive Bayessifik-Klassifizierer die bekannteste Form sind (aufgrund seiner bemerkenswerten Einfachheit und Robustheit beim Angriff auf reale Klassifizierungsprobleme).