Domanda

In Word2Vec, Se mi alleno una serie di frasi più volte con cambio in ordine (in quanto aumenta le rappresentazioni vettoriali), sarà la frequenza di una parola ottenere cambiato a causa di esso.?

Per esempio, se ho la parola "cervi" nel mio corpus 4 volte e se ho impostato il min_count essere 5, fa il training del modello 3 volte ripetutamente contare "cervo" con frequenza di 12 e sarà incluso nel modello ?

Se si sa che è lo stesso corpus allora come è possibile differenziare, se riqualificare il modello con un nuovo corpus.

È stato utile?

Soluzione

La questione è stata risolta in gruppi google da Gordon Mohr.

Di solito c'è una lettura del corpus di costruire il vocabolario (che comprende l'inizializzazione del modello basato sul vocabolario appreso), allora qualsiasi numero di passaggi aggiuntivi per la formazione. E 'solo dopo l'una scansione vocabolario-learning che conta di parole sono guardati (e confrontati con min_count per il taglio).

Se si fornisce un corpus (come iteratore riavviabile) come uno degli argomenti per la creazione iniziale del modello Word2Vec, tutti questi passaggi sono fatto automaticamente: una lettura del corpus (attraverso il metodo build_vocab()) alle parole Raccogliere / secondi e poi uno o più passaggi (come controllato dal parametro 'iter' e fatto attraverso il metodo train()) per la formazione. Eppure, solo il conteggio per il singolo passaggio sopra il corpus dotazione conta per le decisioni di frequenza.

Se non si fornisce un corpus a Model-inizializzazione, è possibile quindi chiamare build_vocab(…) e train(…) te stesso. E 'solo ciò che è passato a build_vocab() che le questioni di conteggi di frequenza non distribuiti (e la stima della dimensione del corpo). È quindi possibile chiamare train(…) in altri modi, o più volte - mantiene solo usando il vocabolario da una chiamata build_vocab(…) in precedenza.

(Si noti che train(…) non cercare di riutilizzare la dimensione corpus single-pass, ricordata dal passo vocab-scansione, per dare precise progresso-stima e pianificare il decadimento del alpha formazione-rate. Quindi, se si dà un diversi- corpus di dimensioni a train(…), si dovrebbe utilizzare anche gli altri parametri opzionali per dare un tocco di dimensioni.)

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top