Si tu as a priori Connaissance de l'environnement, mais capacité imparfaite à ressentir votre emplacement dans l'environnement (et probablement des actions imparfaites), alors ce que vous décrivez peut être un processus de décision de Markov partiellement observable (POMDP.) Votre capteur à quatre boutons s'intègre parfaitement dans cette idée.
Si vous n'avez même pas une connaissance préalable de l'environnement, vous devez augmenter la notion POMDP avec des éléments d'exploration ou d'apprentissage automatique.
Notez que les POMDP sont destinés à des scénarios avec des "récompenses", et que bien que les POMDP soient assez bien compris, les solutions efficaces sont toujours un sujet de recherche. Tout comme les hybrides ML / POMDP.