Pregunta

Estoy trabajando en un proyecto que trata sobre el procesamiento del lenguaje natural. Sin embargo, estoy atrapado en el punto, que tengo una ANN que tiene un tamaño fijo de neuronas de entrada.

Estoy tratando de hacer un análisis de sentimientos con el uso de la revisión de películas IMDB. Para poder hacer eso, en primer lugar, calculé la palabra incrustaciones para cada palabra con la creación de una matriz de contexto de palabra y luego aplicé SVD. Entonces tengo la palabra matriz de incrustación. Pero no sé la mejor manera de comprimir el vector de las oraciones (que contiene incrustaciones para cada palabra en la oración) en un tamaño fijo para poder alimentar la red neuronal. Intenté PCA pero el resultado no fue satisfactorio.

¿Alguna ayuda?

¿Fue útil?

Solución

La forma más fácil es promediar la palabra incrustaciones. Esto funciona bastante bien. Otra cosa que puede probar es representar cada documento como una bolsa de palabras, es decir, tener un vector en el tamaño de su vocabulario, donde cada elemento en el vector representa la cantidad de veces que se ha mencionado una determinada palabra en su documento (( Por ejemplo, el primer elemento en el vector representará cuántas veces la palabra a fue mencionado, y así sucesivamente). Afterwords, para reducir el tamaño del vector, puede usar técnicas como LDA, SVD, o autoencoders.

Licenciado bajo: CC-BY-SA con atribución
scroll top