Frage

Ich arbeite an einem Projekt, bei dem es um natürliche Sprachverarbeitung geht. Allerdings stecke ich an dem Punkt fest, an dem ich eine Ann habe, die eine feste Größe der Eingangsneuronen hat.

Ich versuche, eine Sentiment -Analyse mit der Verwendung von IMDB Movie Review -Set durchzuführen. Um dies zu tun, berechnete ich zunächst das Wort einbettet für jedes Wort, indem ich eine Wortkontextmatrix erstellte und dann SVD angewendet und SVD angewendet hat. Also habe ich das Wort eingebettete Matrix. Ich kenne jedoch nicht den besten Weg, um den Vektor des Satzes (der Einbettungen für jedes Wort im Satz enthält) in eine feste Größe, um das neuronale Netz zu füttern. Ich habe PCA ausprobiert, aber das Ergebnis war nicht zufriedenstellend.

Irgendeine Hilfe?

War es hilfreich?

Lösung

Der einfachste Weg ist, die Wortbettendings zu durchschnittlich. Das funktioniert ganz gut. Eine andere Sache, die Sie versuchen können, besteht darin, jedes Dokument als eine Tüte mit Wörtern darzustellen - dh - einen Vektor in der Größe Ihres Wortschatzes zu haben, wobei jedes Element im Vektor die Häufigkeit darstellt, mit der ein bestimmtes Wort in Ihrem Dokument erwähnt wurde ( Zum Beispiel wird das erste Element im Vektor wie oft das Wort repräsentieren a wurde erwähnt und so weiter). Afterwords, um die Größe des Vektors zu verringern, können Sie Techniken wie verwenden LDA, SVD oder Autoencoder.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top