¿El entrenamiento de una época es un descenso de gradiente de mini lotes más lento que el uso de descenso de gradiente de lotes?

https://datascience.stackexchange.com/questions/24570

31-10-2019
|

Pregunta

Me pregunto si una época que usa descenso de gradiente de mini lotes es más lento que una época que usa solo descenso de gradiente de lotes.

Al menos entiendo que una iteración de descenso de gradiente de mini lotes debe ser más rápido que una iteración de descenso de gradiente de lotes.

Sin embargo, si lo entiendo correctamente, dado que el descenso de gradiente de mini lotes debe actualizar los pesos por el número de tamaño por lotes en una época, el entrenamiento sería más lento que el descenso de gradiente de lotes, que calcula y actualiza los pesos solo una vez en una época.

¿Es esto correcto? En ese caso, ¿vale la pena preocuparse por la pérdida del tiempo general de entrenamiento?

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange