La formation d'une époque utilise-t-elle une descente de gradient de mini-lots plus lentement que d'utiliser une descente de gradient par lots?

datascience.stackexchange https://datascience.stackexchange.com/questions/24570

Question

Je me demande si une époque utilisant une descente de gradient de mini-lots est plus lente qu'une époque en utilisant juste une descente de gradient par lots.

Au moins, je comprends qu'une itération de la descente de gradient de mini-lots devrait être plus rapide qu'une itération de la descente de gradient par lots.

Cependant, si je le comprends correctement, puisque la descente de gradient de mini-lots doit mettre à jour les poids par le nombre de la taille du lot en une époque, la formation serait plus lente que la descente de gradient par lots, qui calcule et met à jour les poids une seule fois dans Une époque.

Est-ce correct? Dans ce cas, vaut-il la peine de s'inquiéter de la perte du temps de formation global?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top