Fa la formazione dei Word2Vec modello più volte influenzano `parametro min_count`?
-
16-10-2019 - |
Domanda
In Word2Vec
, Se mi alleno una serie di frasi più volte con cambio in ordine (in quanto aumenta le rappresentazioni vettoriali), sarà la frequenza di una parola ottenere cambiato a causa di esso.?
Per esempio, se ho la parola "cervi" nel mio corpus 4 volte e se ho impostato il min_count
essere 5, fa il training del modello 3 volte ripetutamente contare "cervo" con frequenza di 12 e sarà incluso nel modello ?
Se si sa che è lo stesso corpus allora come è possibile differenziare, se riqualificare il modello con un nuovo corpus.
Soluzione
La questione è stata risolta in gruppi google da Gordon Mohr.
Di solito c'è una lettura del corpus di costruire il vocabolario (che comprende l'inizializzazione del modello basato sul vocabolario appreso), allora qualsiasi numero di passaggi aggiuntivi per la formazione. E 'solo dopo l'una scansione vocabolario-learning che conta di parole sono guardati (e confrontati con
min_count
per il taglio).Se si fornisce un corpus (come iteratore riavviabile) come uno degli argomenti per la creazione iniziale del modello Word2Vec, tutti questi passaggi sono fatto automaticamente: una lettura del corpus (attraverso il metodo
build_vocab()
) alle parole Raccogliere / secondi e poi uno o più passaggi (come controllato dal parametro 'iter' e fatto attraverso il metodotrain()
) per la formazione. Eppure, solo il conteggio per il singolo passaggio sopra il corpus dotazione conta per le decisioni di frequenza.Se non si fornisce un corpus a Model-inizializzazione, è possibile quindi chiamare
build_vocab(…)
etrain(…)
te stesso. E 'solo ciò che è passato abuild_vocab()
che le questioni di conteggi di frequenza non distribuiti (e la stima della dimensione del corpo). È quindi possibile chiamaretrain(…)
in altri modi, o più volte - mantiene solo usando il vocabolario da una chiamatabuild_vocab(…)
in precedenza.(Si noti che
train(…)
non cercare di riutilizzare la dimensione corpus single-pass, ricordata dal passo vocab-scansione, per dare precise progresso-stima e pianificare il decadimento delalpha
formazione-rate. Quindi, se si dà un diversi- corpus di dimensioni atrain(…)
, si dovrebbe utilizzare anche gli altri parametri opzionali per dare un tocco di dimensioni.)