La formation d'une époque utilise-t-elle une descente de gradient de mini-lots plus lentement que d'utiliser une descente de gradient par lots?
-
31-10-2019 - |
Question
Je me demande si une époque utilisant une descente de gradient de mini-lots est plus lente qu'une époque en utilisant juste une descente de gradient par lots.
Au moins, je comprends qu'une itération de la descente de gradient de mini-lots devrait être plus rapide qu'une itération de la descente de gradient par lots.
Cependant, si je le comprends correctement, puisque la descente de gradient de mini-lots doit mettre à jour les poids par le nombre de la taille du lot en une époque, la formation serait plus lente que la descente de gradient par lots, qui calcule et met à jour les poids une seule fois dans Une époque.
Est-ce correct? Dans ce cas, vaut-il la peine de s'inquiéter de la perte du temps de formation global?
Pas de solution correcte