TensorFlow / DeepMind: ¿Cómo tomo medidas de las observaciones para los algoritmos de matemáticas relacionadas con las pruebas?

https://datascience.stackexchange.com/questions/17648

22-10-2019
|

Pregunta

Cross Postado de: https://stackoverflow.com/questions/42809054/tensorflow-deepmind-how-do-i-kake-actions-bservations-for-math-algorith

Esta pregunta es pedir instrucciones/sugerencias/ayuda sobre el uso de bibliotecas de DeepMind OpenSource: https://github.com/deepmind/lab o https://www.tensorflow.org/ En Python.

Considere que soy nuevo en conceptos como el aprendizaje profundo y la IA.

Las preguntas son:

¿Hay ejemplos sobre el uso de DeepMind o TensorFlow para problemas matemáticos donde necesito observar valores y tomar acciones?

Utilizando un enfoque similar al descrito en esta página (https://deepmind.com/blog/open-sourcing-eepmind-lab/) Basado en observaciones, acciones, recompensas, etc., me gustaría llamar a un agente de aprendizaje para elegir entre algunos valores. Estaba pensando en algo como esto:

Entrada: una lista de Tuple (la lista cambiará en cada paso)
Acción: elija un valor de la entrada (basada en la experiencia)
Recompensa: si el valor que devolvió fue bueno o malo para el resto del algoritmo que estoy implementando, recompensaré al agente de aprendizaje profundo.

Notas adicionales:

No puedo entrenar al algorith por adelantado

La entrada es algo como esto:

edge: (1, 2), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (0, 1), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (5, 4), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (6, 7), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (3, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (4, 1), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (8, 5), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (3, 8), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (2, 3), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (5, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (0, 5), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (1, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (9, 6), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (0, 3), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (7, 9), face_down: 3, face_up: 5, face_left: 5, face_right: 5

La idea es usar el mismo Aproach Deepmind usa para jugar, pero en lugar de analizar píxeles y usar la almohadilla (arriba, dowm, izquierda, derecha, fuego, saltar), es permitir que el agente de aprendizaje analice algunos valores matemáticos y,, Como la única acción, para seleccionar una de ellas.

¿Hay otros enfoques o bibliotecas/marco para abordar tal problema?

Solución

Te recomendaría que eches un vistazo al gimnasio Operai.

https://gym.openai.com/

Será más fácil para usted implementar un nuevo entorno que describa su problema. Con respecto a los agentes, hay muchas implementaciones que son compatibles con OpenAI.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange