あなたが持っている場合 アプリオリ 環境の知識、しかし環境内のあなたの位置を感知する不完全な能力(そしておそらく不完全なアクション)である場合、あなたが説明しているものは、部分的に観察可能なマルコフ決定プロセス(POMDP。)である可能性があります。
環境の事前知識さえ持っていない場合は、探査または機械学習の要素を使用してPOMDPの概念を強化する必要があります。
POMDPは「報酬」を備えたシナリオに向けられており、POMDPは非常によく理解されていますが、効率的なソリューションは依然として研究のトピックであることに注意してください。 ML/POMDPハイブリッドと同様。