TF-IDF: È questo approccio corretto?
Domanda
Vorrei calcolare la frequenza termine utilizzando TF-IDF. Ho redatto un'equazione in cui si dovrebbe ottenere il valore TF-IDF sul lato sinistro. È corretto?
TF-IDF per DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
-
occurrences(WORD,DOCUMENT)
: numero di occorrenze diWORD
inDOCUMENT
-
number-of-words(DOCUMENT)
: numero di parole inDOCUMENT
-
documents(ALL)
: numero di documenti nel database -
documents(WORD, ALL)
: numero di documenti nel database che contengonoWORD
Sarebbe bello se potesse aiutare. Grazie mille in anticipo!
Soluzione
Secondo l'articolo di Wikipedia è corretta, si potrebbe desiderare di cambiare a 1 + documenti (Word, TUTTE LE) invece di soli documenti (Word, tutti) come suggerisce l'articolo di Wikipedia.
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow