¿Cómo se ve minibatch para LSTM?

https://datascience.stackexchange.com/questions/26061

31-10-2019
|

Pregunta

Minibatch es una colección de ejemplos que se alimentan a la red (ejemplo tras ejemplo), y la propropia se realiza después de cada ejemplo. Luego tomamos el promedio de estos gradientes y actualizamos nuestros pesos. Esto completa el procesamiento de 1 minibatch.

Leí estas publicaciones

[1]
[2],
sobre las entradas de relleno en un minibatch para que tengan la misma longitud
y sobre preservar el estado celular Pero lo siguiente aún no está claro para mí:

Pregunta Parte A:

¿Cómo se vería una entidad minibatch para LSTM? Digamos que quiero que reproduzca Shakespeare, carta por carta (30 caracteres para elegir).

Lanzo LSTM, lo dejo predecir para 200 caracteres de un poema, luego realizo la propagación de la espalda. (Por lo tanto, mi LSTM funciona con 200 timesceps). ¿Esto significa que mi minibatch consiste en 1 ejemplo cuya longitud es 200?

Pregunta Parte B:

Si quisiera lanzar otros 63 minibatches en paralelo, ¿elegiría 63 poemas adicionales? (Editar: La respuesta original no menciona esto explícitamente, pero no entrenamos minibatches en paralelo. Entrenamos en 1 minibatch, pero entrenamos su ejemplos en paralelo)

Pregunta Parte C:

Si quisiera que cada minibatch consistiera en 10 ejemplos diferentes, ¿cuáles serían tales ejemplos y cómo serían diferentes de 'lo que percibo como un minibatch'?

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange