Perguntas do processo de decisão de Markov [fechado

https://stackoverflow.com/questions/2148345

23-09-2019
|

Pergunta

TEXTO DE ALT HTTP://IMG693.Imageshack.us/img693/724/markov.png

Estou um pouco confuso sobre alguns pontos aqui:

O que significa dizer que será bem -sucedido 70% do tempo que ele tenta uma determinada ação? Isso significa que toda vez que ele tenta executar uma ação A, 70% das vezes fará a ação a e os outros 30% fazem a ação que leva ao mesmo estado, ou apenas que é como se ele sempre o fizesse A ação A, mas apenas 30% das vezes que ele simplesmente não faz? Espero estar me deixando claro :(
Como é possível ter vários estados consecutivos com a mesma utilidade? Em teoria, a utilidade nem sempre deve diminuir, quanto mais você é de estados com uma recompensa?
Sabendo apenas as informações que dei acima, é possível inferir qual é o fator de desconto (gama)? Se sim, como?
É possível calcular a recompensa para os estados? Como?

Solução

Assegure-se de que a conta em questão também tenha funções de servidor fixo SecurityAdmin (& DBCreator) na instância do SQL Server.

Para mais detalhes, consulte Este artigo .

Outras dicas

ad.1) provavelmente Não é que o robô sempre tenha que se mover - ou seja, esses 30% são "ah, agora eu descanso um pouco" ou "não havia poder de se mover".

Eu formulei esse problema como um processo de decisão do Finito Horizon Markov e o resolvi por meio de iteração de políticas. À direita de cada iteração, há uma representação de grade com código de cores das ações recomendadas para cada estado, bem como a grade/matriz original da recompensa.

Revise a política/estratégia final no estágio 4. Concordo com sua intuição?

enter image description here

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow