L'addestramento di un'epoca utilizzando una discesa per gradiente mini-batch è più lenta rispetto all'uso della discesa gradiente batch?

datascience.stackexchange https://datascience.stackexchange.com/questions/24570

Domanda

Mi chiedo se un'epoca che usa una discesa a gradiente mini-batch sia più lenta di un'epoca usando una sola discesa gradiente batch.

Almeno capisco che un'iterazione della discesa del gradiente mini-batch dovrebbe essere più veloce di un'iterazione della discesa gradiente batch.

Tuttavia, se lo capisco correttamente, poiché la discesa del gradiente mini-batch deve aggiornare i pesi in base al numero della dimensione del lotto in un'epoca, l'allenamento sarebbe più lento della discesa del gradiente batch, che calcola e aggiorna i pesi solo una volta dentro un'epoca.

È corretto? In tal caso, vale la pena preoccuparsi della perdita del tempo di allenamento generale?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top