Confrontare le frequenze di testo in un documento con la frequenza in un corpus

https://stackoverflow.com/questions/4372661

09-10-2019
|

Domanda

Voglio analizzare un documento per articoli come lettere, bigram, parole, ecc. E confrontare quanto sono frequenti nel mio documento con quanto frequenti erano su un grande corpus di documenti.

L'idea è che parole come "if", "e", "sono comuni in tutti i documenti, ma alcune parole saranno molto più comuni in questo documento di quanto non sia tipico per il corpus.

Questo deve essere piuttosto standard. Come si chiama? Farlo nel modo ovvio che ho sempre avuto un problema con nuove parole nel mio documento, ma non nella valutazione del corpus infinitamente significativo. Come si tratta?

Soluzione

Molto probabilmente hai già controllato il tf-idfo alcune altre metriche da OKAPI_BM25 famiglia.

Inoltre puoi controllare Toolkit di elaborazione del linguaggio naturale NLTK Per alcune soluzioni pronte

AGGIORNAMENTO: Per quanto riguarda le nuove parole, dovrebbe essere applicato il liscia: BUONO TURING, Laplace, ecc.

Altri suggerimenti

È sotto la voce di classificatori lineari, con ingenui classificatori bayesiani che sono la forma più nota (a causa della sua straordinaria semplicità e robustezza nell'attaccare i problemi di classificazione del mondo reale).

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow