Se você tem a priori Conhecimento do ambiente, mas capacidade imperfeita de sentir sua localização no ambiente (e provavelmente ações imperfeitas), então o que você está descrevendo pode ser um processo de decisão de Markov parcialmente observável (POMDP.) Seu sensor de quatro botões se encaixa bem nessa idéia.
Se você nem tem conhecimento prévio do ambiente, precisará aumentar a noção POMDP com elementos de exploração ou aprendizado de máquina.
Observe que os POMDPs são voltados para cenários com "recompensas" e que, embora os POMDPs sejam muito bem compreendidos, soluções eficientes ainda são um tópico de pesquisa. Assim como os híbridos ML/POMDP.