Question

J'exécute Word2Vec sur la collection de documents. Je comprends que la taille du modèle est le nombre de dimensions de l'espace vectoriel dans lequel le mot est intégré. Et que différentes dimensions sont quelque peu liées à des "concepts" différents et indépendants dans lesquels un mot pourrait être regroupé. Mais au-delà de cela, je ne trouve aucune heuristique décente sur la façon dont exactement le nombre. Il y a des discussions ici sur la taille du vocabulaire: https://stackoverflow.com/questions/45444964/python-what-is-the-sames-paamètre-in-gensim-word2vec-model-class Cependant, je soupçonne que la taille du vocabulaire n'est pas la plus importante, mais plus important est le nombre d'échantillons de documents que vous avez et combien de temps ils durent. Certes, chaque «dimension» devrait avoir des exemples suffisants pour être appris?

J'ai une collection de 200 000 documents, avec une moyenne d'environ 20 pages chacune, couvrant un vocabulaire de la plupart de la langue anglaise. J'utilise l'intégration Word2VEC comme base pour trouver des distances entre les phrases et les documents. J'utilise Gensim, si c'est important. J'utilise une taille de 240. Est-ce raisonnable? Y a-t-il des études sur l'heuristique à utiliser pour choisir le paramètre de taille? Merci.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top