Frage

Ich möchte den Begriff Frequenz berechnen mit tf-idf. Ich habe eine Gleichung erstellt, wo Sie sollten den TF-IDF-Wert auf der linken Seite bekommen. Ist das richtig?

TF-IDF für DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT): Anzahl der Vorkommen von WORD in DOCUMENT
  • number-of-words(DOCUMENT): Anzahl der Wörter in DOCUMENT
  • documents(ALL): Anzahl der Dokumente in der Datenbank
  • documents(WORD, ALL): Anzahl der Dokumente in der Datenbank, die WORD enthalten

Es wäre toll, wenn ihr mir helfen könntet. Vielen Dank im Voraus!

War es hilfreich?

Lösung

Nach dem Wikipedia-Artikel es richtig ist, mögen Sie vielleicht 1 + Dokumente (WORD, ALL) statt nur Dokumente (Word, ALL) wie der Wikipedia-Artikel schlägt vor, ändern.

TF-IDF auf wikipedia

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top