Domanda

Vorrei calcolare la frequenza termine utilizzando TF-IDF. Ho redatto un'equazione in cui si dovrebbe ottenere il valore TF-IDF sul lato sinistro. È corretto?

TF-IDF per DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT): numero di occorrenze di WORD in DOCUMENT
  • number-of-words(DOCUMENT): numero di parole in DOCUMENT
  • documents(ALL): numero di documenti nel database
  • documents(WORD, ALL): numero di documenti nel database che contengono WORD

Sarebbe bello se potesse aiutare. Grazie mille in anticipo!

È stato utile?

Soluzione

Secondo l'articolo di Wikipedia è corretta, si potrebbe desiderare di cambiare a 1 + documenti (Word, TUTTE LE) invece di soli documenti (Word, tutti) come suggerisce l'articolo di Wikipedia.

TF-IDF su wikipedia

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top