Tensorflow / Deepmind: comment dois-je prendre des mesures à partir d'observations pour les algorithmes mathématiques liés à des preuves?

https://datascience.stackexchange.com/questions/17648

22-10-2019
|

Question

Crossposted de: https: //stackoverflow.com/questions/42809054/tensorflow-deepmind-how-do-i-take-actions-from-observations-for-math-algorith

Cette question est de demander des directions / suggestions / aide sur l'utilisation des bibliothèques deepmind opensource: https: // github.com/deepmind/lab ou https://www.tensorflow.org/ Python.

Considérez que je suis nouveau à des concepts comme l'apprentissage en profondeur et AI.

Les questions sont:

Y at-il des exemples sur l'utilisation Deepmind ou tensorflow pour des problèmes de mathématiques où je dois observer les valeurs et prendre des mesures?

En utilisant une approche similaire à celle décrite à cette page ( https: / /deepmind.com/blog/open-sourcing-deepmind-lab/ ) basée sur des observations, des actions, des récompenses, etc., je voudrais appeler un agent learing de choisir entre certaines valeurs. Je pensais à quelque chose comme ceci:

entrée: une liste de la liste des tuple (la liste changera à chaque étape)
Action: ramasser une valeur de l'entrée (en fonction de l'expérience)
Récompense:. Si la valeur est revenu était bon ou mauvais pour le reste de l'algorithme je mise en œuvre, je vais récompenser l'agent d'apprentissage profond

Notes complémentaires:

Je ne peux pas entraîner la algorith à l'avance

L'entrée est quelque chose comme ceci:

edge: (1, 2), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (0, 1), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (5, 4), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (6, 7), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (3, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (4, 1), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (8, 5), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (3, 8), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (2, 3), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (5, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (0, 5), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (1, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (9, 6), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (0, 3), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (7, 9), face_down: 3, face_up: 5, face_left: 5, face_right: 5

L'idée est d'utiliser le même aproche deepmind utilise pour jouer à des jeux, mais au lieu de pixels d'analyse et d'utiliser le pad (haut, dowm, à gauche, à droite, le feu, sauter), est de laisser l'agent d'apprentissage pour analyser un peu de mathématiques valeurs et, comme la seule action, pour sélectionner l'un d'entre eux.

Y at-il d'autres approches ou bibliothèques / cadre pour résoudre un tel problème?

La solution

Je vous recommande de jeter un oeil au gymnase OpenAI.

https://gym.openai.com/

Il sera plus facile pour vous de mettre en œuvre un nouvel environnement décrivant votre problème. En ce qui concerne les agents, il y a de nombreuses implémentations autour compatibles avec OpenAI.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange