L'addestramento di un'epoca utilizzando una discesa per gradiente mini-batch è più lenta rispetto all'uso della discesa gradiente batch?
-
31-10-2019 - |
Domanda
Mi chiedo se un'epoca che usa una discesa a gradiente mini-batch sia più lenta di un'epoca usando una sola discesa gradiente batch.
Almeno capisco che un'iterazione della discesa del gradiente mini-batch dovrebbe essere più veloce di un'iterazione della discesa gradiente batch.
Tuttavia, se lo capisco correttamente, poiché la discesa del gradiente mini-batch deve aggiornare i pesi in base al numero della dimensione del lotto in un'epoca, l'allenamento sarebbe più lento della discesa del gradiente batch, che calcola e aggiorna i pesi solo una volta dentro un'epoca.
È corretto? In tal caso, vale la pena preoccuparsi della perdita del tempo di allenamento generale?
Nessuna soluzione corretta
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a datascience.stackexchange