Suma ponderada de vectores de palabras para la similitud de documentos

https://datascience.stackexchange.com/questions/24855

31-10-2019
|

Pregunta

He entrenado un modelo Word2Vec en un corpus de documentos. Luego calculo el término frecuencia (el mismo tf en Tfidf) de cada palabra en cada documento, multiplique cada palabras tf por su vector de palabras correspondiente (esta es la parte ponderada), y suma cada uno de estos vectores ponderados juntos en cuanto al elemento para obtener un solo vector para un documento.

¿Es este método válido?

Un ejemplo, para aclararlo. Tome el documento:

"El auto conduce a la carretera"

El TF para cada palabra sería {'the':0.3333, 'car':0.1666, 'drives':0.1666, 'on':0.1666, 'road':0.16666} (obtenido tomando el recuento de palabras de una palabra y dividiendo por el número total de palabras en el documento). Si tenemos un modelo de Word2Vec entrenado, podemos hacer lo siguiente

$$ 0.333* begin {bmatrix} the_0 the_1 vdots the_n end {bmatrix} + 0.1666* begin {bmatrix} car_0 car_1 vdots car_n end {bmatrix} +. .. $$

donde cada uno de los vectores de columna es la palabra vector para esa palabra. El resultado final es un vector de $ N Times 1 $ dimensional que representa el documento.

$$ begin {bmatrix} 0.333*the_0 + 0.1666*car_0 + dots 0.333*the_1 + 0.1666*car_1 + dots vdots 0.333*the_n + 0.1666*car_n + dots end {bmatrix} $$

Aprecio que hay otros métodos como doc2vec Ese objetivo es hacer de la misma manera, pero de una manera mucho más sofisticada. Pero, ¿es mi método válido / ¿Hay algo descaradamente incorrecto aquí?

He probado este método e incluso he usado algunas métricas de similitud de documentos (sí, después de normalizar los vectores, por supuesto), y arrojé algunos buenos resultados para mi aplicación industrial. Pero quiero saber más sobre los académicos de este método.

Lo bueno de esta manera es que al usar los vectores de Word2Vec, las consultas de similitud entre documentos producen muy buenos resultados debido a similitudes semánticas (cercanía euclidiana) entre vectores de palabras, incluso si se usan diferentes palabras en todos los documentos; Esto es algo que TFIDF no puede hacer ya que cada palabra se trata de manera diferente.

¡Gracias por adelantado!

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange