Apprentissage par renforcement des réseaux de neurones

https://stackoverflow.com/questions/2749498

02-10-2019
|

Question

Je travaille sur un projet avec RL & NN
Je dois déterminer la structure du vecteur d'action qui sera envoyé à un réseau de neurones ..

J'ai 3 actions différentes (A & B Rien) chacun des pouvoirs différents (par exemple A100 A50 B100 B50) Je me demande quelle est la meilleure façon de nourrir ces actions à un NN pour obtenir les meilleurs résultats?

1- alimentation A / B à l'entrée 1, tandis que l'action électrique 100/50 / Rien à l'entrée 2

2- alimentation A100 / A50 / Rien à l'entrée 1, tandis que B100 / B50 / Rien à l'entrée 2

3- alimentation A100 / A50 à l'entrée 1, tandis que B100 / B50 à l'entrée 2, tandis que rien drapeau à l'entrée 3

4 également pour nourrir 100 et 50 ou les Normaliser 2 & 1?

J'ai besoin des raisons pourquoi choisir une méthode Toutes les suggestions sont recommandées

Merci

La solution

Que voulez-vous apprendre? Quelle devrait être la sortie? L'entrée juste l'action utilisée? Si vous apprenez un modèle de l'environnement, il se traduit par une distribution de probabilité:

P (NEXT_STATE | état, action)

Il est courant d'utiliser un modèle distinct pour chaque action. Cela rend la correspondance entre l'entrée et la sortie plus simple. L'entrée est un vecteur de caractéristiques d'état. La sortie est un vecteur des caractéristiques de l'état suivant. L'action utilisée est sous-entendu par le modèle.

Les caractéristiques de l'état peut être codé sous forme de bits. Un bit actif indique la présence d'une fonction.

apprendrait un modèle déterministe. Je ne sais pas ce qui est une bonne façon d'apprendre un modèle stochastique des états suivants. Une possibilité pourrait consister à utiliser des neurones stochastiques.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow