Tensorflow / Deepmind: comment dois-je prendre des mesures à partir d'observations pour les algorithmes mathématiques liés à des preuves?
-
22-10-2019 - |
Question
Crossposted de: https: //stackoverflow.com/questions/42809054/tensorflow-deepmind-how-do-i-take-actions-from-observations-for-math-algorith
Cette question est de demander des directions / suggestions / aide sur l'utilisation des bibliothèques deepmind opensource: https: // github.com/deepmind/lab ou https://www.tensorflow.org/ Python.
Considérez que je suis nouveau à des concepts comme l'apprentissage en profondeur et AI.
Les questions sont:
- Y at-il des exemples sur l'utilisation Deepmind ou tensorflow pour des problèmes de mathématiques où je dois observer les valeurs et prendre des mesures?
En utilisant une approche similaire à celle décrite à cette page ( https: / /deepmind.com/blog/open-sourcing-deepmind-lab/ ) basée sur des observations, des actions, des récompenses, etc., je voudrais appeler un agent learing de choisir entre certaines valeurs. Je pensais à quelque chose comme ceci:
- entrée: une liste de la liste des tuple (la liste changera à chaque étape)
- Action: ramasser une valeur de l'entrée (en fonction de l'expérience)
- Récompense:. Si la valeur est revenu était bon ou mauvais pour le reste de l'algorithme je mise en œuvre, je vais récompenser l'agent d'apprentissage profond
Notes complémentaires:
- Je ne peux pas entraîner la algorith à l'avance
L'entrée est quelque chose comme ceci:
edge: (1, 2), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (0, 1), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (5, 4), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (6, 7), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (3, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (4, 1), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (8, 5), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (3, 8), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (2, 3), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (5, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (0, 5), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (1, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (9, 6), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (0, 3), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (7, 9), face_down: 3, face_up: 5, face_left: 5, face_right: 5
L'idée est d'utiliser le même aproche deepmind utilise pour jouer à des jeux, mais au lieu de pixels d'analyse et d'utiliser le pad (haut, dowm, à gauche, à droite, le feu, sauter), est de laisser l'agent d'apprentissage pour analyser un peu de mathématiques valeurs et, comme la seule action, pour sélectionner l'un d'entre eux.
Y at-il d'autres approches ou bibliothèques / cadre pour résoudre un tel problème?
La solution
Je vous recommande de jeter un oeil au gymnase OpenAI.
Il sera plus facile pour vous de mettre en œuvre un nouvel environnement décrivant votre problème. En ce qui concerne les agents, il y a de nombreuses implémentations autour compatibles avec OpenAI.