Question

Je recherche actuellement les usages des paradigmes d'apprentissage automatique pour les problèmes d'orientation. Je suis actuellement à l'échelle du paradigme d'apprentissage du renforcement et j'ai utilisé Qlearning pour la finition de la voie.

Lorsqu'il n'y a pas beaucoup d'États, le Qlearning semble bien fonctionner, mais dès que l'environnement s'agrandit et que la quantité d'États s'agrandit, elle fonctionne assez mal. Étant donné que la convergence de Qlearning est si lente, je me demande s'il est possible avec Qlearning d'interpoler la QValue des états inexplorés puisque QLearning n'utilise pas de modèle? Est-il possible avec le renforcement en général ou nécessite-t-il d'apprendre tous les états possibles?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top