Pregunta

En Word2Vec, Si capto un conjunto de oraciones varias veces con el cambio en orden (a medida que aumenta las representaciones vectoriales), ¿se cambiará la frecuencia de una palabra debido a ella?

Por ejemplo, si tengo la palabra "ciervo" en mi corpus 4 veces y si configuro el min_count Para ser 5, ¿el entrenamiento del modelo 3 veces cuenta repetidamente "ciervos" con frecuencia 12 y se incluirá en el modelo?

Si sabe que es el mismo corpus, entonces cómo es posible diferenciar, si reactivo el modelo con un nuevo corpus.

¿Fue útil?

Solución

La pregunta ha sido respondida en Google Groups por Gordon Mohr.

Normalmente hay una lectura del corpus para construir el vocabulario (que incluye inicializar el modelo basado en el tamaño de vocabulario aprendido), luego cualquier cantidad de pases adicionales para el entrenamiento. Es solo después del escaneo de aprendizaje de vocabulario que se observan las palabras (y se comparan con min_count para recortar).

Si suministra un corpus (como iterador reiniciable) como uno de los argumentos a la creación inicial del modelo Word2Vec, todos estos pasos se realizan automáticamente: una lectura del corpus (a través del build_vocab() método) para recopilar palabras/recuentos, luego uno o más pases (como controlado por el parámetro 'iter' y realizado a través del train() Método) para capacitación. Aún así, solo el recuento para el solo pase sobre los asuntos de corpus suministrados para las decisiones de frecuencia.

Si no suministra un corpus en la inicialización del modelo, puede llamar build_vocab(…) y train(…) tú mismo. Es solo lo que se ha pasado a build_vocab() Eso es importante para los recuentos de frecuencia retenidos (y la estimación del tamaño del corpus). Entonces puedes llamar train(…) de otras maneras, o repetidamente, simplemente sigue usando el vocabulario del anterior build_vocab(…) llamar.

(Tenga en cuenta que train(…) Trate de reutilizar el tamaño del corpus de un solo paso, recordado del pase de escaneos de vocabulario, para dar unas estimaciones de progreso precisas y programar la descomposición de la tasa de entrenamiento alpha. Entonces, si le das un corpus de diferente tamaño a train(…), también debe usar sus otros parámetros opcionales para darle una pista del tamaño).

Licenciado bajo: CC-BY-SA con atribución
scroll top