Question

J'essaie de mettre en œuvre un algorithme Q-Learning pour l'optimisation de l'énergie. Il s'agit d'un MDP fini avec des états représentés comme des vecteurs en 6 dimensions d'entiers. Le nombre de valeurs discrètes dans chaque indice du vecteur d'état varie de 24 à 90.

L'espace d'action varie d'un état à l'autre et va à 300 actions possibles dans certains États, et en dessous de 15 actions possibles dans certains États.

Si je pouvais faire quelques hypothèses (juste dans le but de tester le modèle), je pourrais réduire les États à environ 400 et des actions à moins de 200.

Comment puis-je construire une Q-Table pour un tel environnement? Je ne sais pas comment aborder cela dans Python, comment empêcher le tableau contenant de nombreuses combinaisons d'état / action impossibles, ou empêcher l'agent d'essayer de prendre ces actions indésirables.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top