Si l'ensemble de tous les états possibles change à chaque fois, comment le Q-Learning peut-il «apprendre» quoi que ce soit?
-
01-11-2019 - |
Question
j'ai trouvé cette Ressource qui explique Q-Learning avec un exemple très simple. Faites-en un problème 2D, un rectangle au lieu d'une ligne, et c'est toujours simple. La seule différence est qu'il y a maintenant 2 actions supplémentaires possibles (de haut en bas).
Ma question est: si la longueur et la hauteur du rectangle sont aléatoires, ainsi que la position de départ et l'emplacement du trésor, comment le bot peut-il appliquer les connaissances acquises au nouveau problème? Existe-t-il une version évoluée de Q-Learning pour des problèmes avec les états dynamiques?
Pas de solution correcte
Licencié sous: CC-BY-SA avec attribution
Non affilié à datascience.stackexchange