Si l'ensemble de tous les états possibles change à chaque fois, comment le Q-Learning peut-il «apprendre» quoi que ce soit?

datascience.stackexchange https://datascience.stackexchange.com/questions/51402

  •  01-11-2019
  •  | 
  •  

Question

j'ai trouvé cette Ressource qui explique Q-Learning avec un exemple très simple. Faites-en un problème 2D, un rectangle au lieu d'une ligne, et c'est toujours simple. La seule différence est qu'il y a maintenant 2 actions supplémentaires possibles (de haut en bas).

Ma question est: si la longueur et la hauteur du rectangle sont aléatoires, ainsi que la position de départ et l'emplacement du trésor, comment le bot peut-il appliquer les connaissances acquises au nouveau problème? Existe-t-il une version évoluée de Q-Learning pour des problèmes avec les états dynamiques?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top