Somma ponderata di vettori di parole per la somiglianza del documento

https://datascience.stackexchange.com/questions/24855

31-10-2019
|

Domanda

Ho addestrato un modello Word2Vec su un corpus di documenti. Quindi calcolo il termine frequenza (lo stesso tf in Tfidf) Di ogni parola in ciascun documento, moltiplica ogni parola per il suo corrispondente vettore di parole (questa è la parte ponderata) e somma ciascuno di questi vettori ponderati insieme elemento per ottenere un singolo vettore per un documento.

Questo metodo è valido?

Un esempio, per renderlo più chiaro. Prendi il documento:

"L'auto guida sulla strada"

Il TF per ogni parola sarebbe {'the':0.3333, 'car':0.1666, 'drives':0.1666, 'on':0.1666, 'road':0.16666} (ottenuto prendendo il conteggio delle parole di una parola e dividendo per il numero totale di parole nel documento). Se abbiamo un modello Word2Vec addestrato, possiamo fare quanto segue

$$ 0,333* inizio {bmatrix} the_0 the_1 vdots the_n end {bmatrix} + 0.1666* inizio {bmatrix} car_0 car_1 vdots car_n end {bmatrix} +. .. $$

dove ciascuno dei vettori di colonna è la parola vettore per quella parola. Il risultato finale è un vettore dimensionale $ n tempi che rappresenta il documento.

$$ inizio {bmatrix} 0.333*the_0 + 0.1666*car_0 + dots 0.333*the_1 + 0.1666*car_1 + dots vdots 0.333*the_n + 0.1666*car_n + dots end {bmatrix} $$

Apprezzo che ci sono altri metodi come Doc2vec Questo obiettivo di fare molto lo stesso, ma in un modo molto più sofisticato. Ma il mio metodo è valido / C'è qualcosa di palesemente sbagliato qui?

Ho testato questo metodo e ho persino usato alcune metriche di somiglianza dei documenti (sì, dopo aver normalizzato i vettori ovviamente) e ho prodotto alcuni buoni risultati per la mia applicazione industriale. Ma voglio saperne di più sugli accademici di questo metodo.

La cosa bella di questo modo è che usando i vettori Word2vec, le query di somiglianza tra i documenti producono risultati molto buoni a causa di somiglianze semantiche (vicinanza euclidea) tra vettori di parole, anche se sono usate diverse parole tra i documenti; Questo è qualcosa che TFIDF non può fare poiché ogni parola viene trattata in modo diverso.

Grazie in anticipo!

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange