TF-IDF: Ist dieser Ansatz richtig?
Frage
Ich möchte den Begriff Frequenz berechnen mit tf-idf. Ich habe eine Gleichung erstellt, wo Sie sollten den TF-IDF-Wert auf der linken Seite bekommen. Ist das richtig?
TF-IDF für DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
-
occurrences(WORD,DOCUMENT)
: Anzahl der Vorkommen vonWORD
inDOCUMENT
-
number-of-words(DOCUMENT)
: Anzahl der Wörter inDOCUMENT
-
documents(ALL)
: Anzahl der Dokumente in der Datenbank -
documents(WORD, ALL)
: Anzahl der Dokumente in der Datenbank, dieWORD
enthalten
Es wäre toll, wenn ihr mir helfen könntet. Vielen Dank im Voraus!
Lösung
Nach dem Wikipedia-Artikel es richtig ist, mögen Sie vielleicht 1 + Dokumente (WORD, ALL) statt nur Dokumente (Word, ALL) wie der Wikipedia-Artikel schlägt vor, ändern.
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow