Même probabilité pour toutes les classes

https://datascience.stackexchange.com/questions/62066

02-11-2019
|

Question

J'ai implémenté un MLP de forme entièrement connecté [783 (entrée), 128 (couche cachée) et 10 (sortie)] La couche cachée avait une fonction d'activation sigmoïde et la sortie a sofmax.

J'ai testé avec l'ensemble de données de Keras: Classifier des images de vêtements.

Au début, j'ai obtenu l'ouput était de 0,1 à toutes les sorties peu importe l'entrée. J'ai alors lu cette Et parce que quelqu'un a posé des questions sur l'initialisation des poids, j'ai changé mon initialisation de poids d'une distribution normale entre [0, 1) à [-1, 1). Après cela, mon réseau a commencé à fonctionner.

Pourquoi est-ce arrivé? Je crois que la présection de 0,1 est une sorte de minima locale car elle dit simplement la même probabilité pour tous, du moins est ce qui a du sens si vous ne saviez rien des données. Mais pourquoi? J'aimerais être référé à un article qui parle de ce problème et de la façon de l'empêcher parce que j'essaie avec un autre ensemble de données maintenant et j'ai eu le même problème (mais cette fois je ne pouvais pas le faire fonctionner. J'essaie même l'initialisation de Xavier et Toujours pas de bon résultat).

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange