Question

En Word2Vec Si je forme un ensemble de phrases à plusieurs reprises avec le changement dans l'ordre (car elle augmente les représentations vectorielles), sera la fréquence d'un mot se changer en raison de son.

Par exemple, si j'ai le mot « cerf » dans mon corps 4 fois et Si je mets le min_count être 5, ne formation le modèle 3 fois compter à plusieurs reprises « cerf » avec une fréquence 12 et sera inclus dans le modèle ?

Si elle sait qu'il est le même corpus alors comment il est possible de faire la différence, si je Reformer le modèle avec un nouveau corpus.

Était-ce utile?

La solution

La question a été répondue dans les groupes de Google par Gordon mohr.

Normalement, il y a une lecture du corpus pour construire le vocabulaire (qui comprend l'initialisation du modèle basé sur la taille du vocabulaire appris), puis un certain nombre de passages supplémentaires pour la formation. Il est seulement après une analyse-apprentissage du vocabulaire que le nombre de mots sont examinés (et par rapport à min_count pour la coupe).

Si vous donnez un corpus (comme iterator redémarrable) comme l'un des arguments à la création initiale du modèle Word2Vec, toutes ces étapes sont effectuées automatiquement: une lecture du corpus (par la méthode de build_vocab()) pour recueillir des mots / Chiffres, puis une ou plusieurs passes (comme contrôlé par le paramètre « iter » et fait par la méthode de train()) pour la formation. Pourtant, seul le compte pour le seul passage sur le corpus compte des décisions de fourni fréquence.

Si vous ne fournissez pas un corpus au modèle initialisation, vous pouvez alors appeler build_vocab(…) et vous train(…). Il est seulement ce qui est passé à build_vocab() que les questions de comptes de fréquence retenus (et l'estimation de la taille du corpus). Vous pouvez ensuite appeler train(…) d'une autre manière, ou à plusieurs reprises - il ne cesse en utilisant le vocabulaire de l'un appel build_vocab(…) plus tôt.

(Notez que train(…) ne cherche à réutiliser la taille du corpus monopasse, se souvient de la passe vocab-balayage, pour donner progrès-estimations précises et planifier la décroissance du alpha taux de formation. Donc, si vous donnez un different- taille corpus train(…), vous devez également utiliser ses autres paramètres facultatifs pour lui donner un indice de la taille.)

Licencié sous: CC-BY-SA avec attribution
scroll top