Comprendre la divergence contrastive
-
31-10-2019 - |
Question
J'essaie de comprendre et finalement de construire une machine Boltzmann restreinte. Je comprends que la règle de mise à jour - c'est-à-dire l'algorithme utilisé pour changer les poids - est quelque chose appelé «divergence contrastive». j'ai regardé cette sur Wikipedia et trouvé ces étapes:
- Prenez un échantillon de formation V, calculez les probabilités des unités cachées et échantillonnez un vecteur d'activation caché H de cette distribution de probabilité.
- Calculez le produit extérieur de V et H et appelez cela le gradient positif.
- À partir de H, échantillonnez une reconstruction V 'des unités visibles, puis rééchantillonnez les activations cachées à partir de ceci. (Étape d'échantillonnage de Gibbs)
- Calculez le produit extérieur de V 'et H' et appelez cela le gradient négatif.
- ...
Je ne comprends pas l'étape 3 et j'ai du mal à saisir le concept d'échantillonnage de Gibbs. Quelqu'un pourrait-il m'expliquer cela simplement? J'ai couvert les réseaux de neurones si cela vous aide.
Pas de solution correcte
Licencié sous: CC-BY-SA avec attribution
Non affilié à datascience.stackexchange