Question

Je travaille sur un projet qui est sur le traitement du langage naturel. Cependant, je suis coincé au point qui est que j'ai un ANN qui a la taille fixe des neurones d'entrée.

Je suis en train de faire l'analyse des sentiments à l'aide de set critique de film Imdb. Pour pouvoir faire cela, d'une part, je calcule le mot incorporations pour chaque mot avec la création d'une matrice mot contexte alors appliqué SVD. J'ai donc le mot matrice intégration. Mais je ne sais pas la meilleure façon de le vecteur de phrase compress (qui contient incorporations pour chaque mot dans la phrase) dans une taille fixe pour pouvoir alimenter le réseau de neurones. J'ai essayé PCA mais résultat n'a pas été satisfaisant.

Toute aide?

Était-ce utile?

La solution

La meilleure façon est de la moyenne des incorporations Word-. Cela fonctionne très bien. Une autre chose que vous pouvez essayer est de représenter chaque document comme un sac de mots - à savoir - d'avoir un vecteur de la taille de votre vocabulaire, où chaque élément dans le vecteur représente le nombre de fois un certain mot avait été mentionné dans votre document ( par exemple, le premier élément dans le vecteur représentera combien de fois le mot a a été mentionné, et ainsi de suite). Postfaces, pour réduire la taille du vecteur, vous pouvez utiliser des techniques comme LDA , SVD, ou < a href = "https://en.wikipedia.org/wiki/Autoencoder" rel = "nofollow noreferrer"> autoencoders .

Licencié sous: CC-BY-SA avec attribution
scroll top