Comprendre la divergence contrastive

https://datascience.stackexchange.com/questions/30186

31-10-2019
|

Question

J'essaie de comprendre et finalement de construire une machine Boltzmann restreinte. Je comprends que la règle de mise à jour - c'est-à-dire l'algorithme utilisé pour changer les poids - est quelque chose appelé «divergence contrastive». j'ai regardé cette sur Wikipedia et trouvé ces étapes:

Prenez un échantillon de formation V, calculez les probabilités des unités cachées et échantillonnez un vecteur d'activation caché H de cette distribution de probabilité.
Calculez le produit extérieur de V et H et appelez cela le gradient positif.
À partir de H, échantillonnez une reconstruction V 'des unités visibles, puis rééchantillonnez les activations cachées à partir de ceci. (Étape d'échantillonnage de Gibbs)
Calculez le produit extérieur de V 'et H' et appelez cela le gradient négatif.
...

Je ne comprends pas l'étape 3 et j'ai du mal à saisir le concept d'échantillonnage de Gibbs. Quelqu'un pourrait-il m'expliquer cela simplement? J'ai couvert les réseaux de neurones si cela vous aide.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange