Somme pondérée des vecteurs de mots pour la similitude des documents

https://datascience.stackexchange.com/questions/24855

31-10-2019
|

Question

J'ai formé un modèle Word2Vec sur un corpus de documents. Je calcule ensuite la fréquence du terme (le même TF dans Tfidf) De chaque mot dans chaque document, multipliez chaque mots TF par son vecteur de mot correspondant (c'est la partie pondérée), et résume chacun de ces vecteurs pondérés ensemble élément pour obtenir un seul vecteur pour un document.

Cette méthode est-elle valide?

Un exemple, pour le rendre plus clair. Prenez le document:

"La voiture roule sur la route"

Le TF pour chaque mot serait {'the':0.3333, 'car':0.1666, 'drives':0.1666, 'on':0.1666, 'road':0.16666} (Obtenu en prenant le nombre de mots d'un mot et en divisant par le nombre total de mots dans le document). Si nous avons un modèle Word2Vec formé, nous pouvons faire ce qui suit

$$ 0.333 * begin {bmatrix} the_0 the_1 vdots the_n end {bmatrix} + 0.1666 * begin {bMatrix} car_0 car_1 vdots car_n end {bmatrix} +. .. $$

où chacun des vecteurs de colonne est le mot vecteur de ce mot. Le résultat final est un vecteur dimensionnel $ N Times 1 $ représentant le document.

$$ begin {bmatrix} 0.333 * the_0 + 0.1666 * car_0 + dots 0.333 * the_1 + 0.1666 * car_1 + dots vdots 0.333 * the_n + 0.1666 * car_n + dots end {bMatrix} $$

J'apprécie qu'il existe d'autres méthodes telles que doc2vec Cela vise à faire de la même manière, mais d'une manière beaucoup plus sophistiquée. Mais ma méthode est-elle valide / y a-t-il quelque chose de manifestement mal ici?

J'ai testé cette méthode et même utilisé certaines mesures de similitude de document (oui, après avoir normalisé les vecteurs bien sûr), et j'ai donné de bons résultats pour mon application industrielle. Mais je veux en savoir plus sur les universitaires de cette méthode.

La bonne chose à propos de cette façon, c'est qu'en utilisant les vecteurs Word2Vec, les requêtes de similitude entre les documents donnent de très bons résultats en raison de similitudes sémantiques (proximité euclidienne) entre les vecteurs de mots, même si différents mots sont utilisés sur les documents; C'est quelque chose que TFIDF ne peut pas faire car chaque mot est traité différemment.

Merci d'avance!

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange