Domanda

Sto lavorando su un progetto che è di circa Natural Language Processing. Comunque io sono bloccato al punto che è ho un'ANN che ha fissato dimensioni dei neuroni di input.

che sto cercando di fare sentiment analysis con l'utilizzo di Imdb rassegna di film insieme. Per poter fare ciò, in primo luogo, ho calcolato le immersioni parola per ogni parola con la creazione di una matrice parola contesto poi applicato SVD. Così ho la parola l'incorporamento della matrice. Ma io non conosco il modo migliore per vettore di frase compressa (che contiene incastri per ogni parola nella frase) in una dimensione fissa per essere in grado di alimentare la rete neurale. Ho provato PCA ma risultato non era soddisfacente.

Qualsiasi aiuto?

È stato utile?

Soluzione

Il modo più semplice è quello di calcolare la media dei embeddings testi. Questo funziona abbastanza bene. Un'altra cosa che si può provare è quello di rappresentare ogni documento come un sacchetto di parole - vale a dire - di avere un vettore delle dimensioni del vostro vocabolario, dove ogni elemento nel vettore rappresenta il numero di volte che una certa parola era stato menzionato nel documento ( per esempio, il primo elemento del vettore rappresenterà quante volte è stata menzionata la parola a, e così via). Afterwords, per ridurre la dimensione del vettore è possibile utilizzare tecniche come LDA , SVD, o < a href = "https://en.wikipedia.org/wiki/Autoencoder" rel = "nofollow noreferrer"> autoencoders .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top