Perguntas do processo de decisão de Markov [fechado
-
23-09-2019 - |
Pergunta
TEXTO DE ALT HTTP://IMG693.Imageshack.us/img693/724/markov.png
Estou um pouco confuso sobre alguns pontos aqui:
- O que significa dizer que será bem -sucedido 70% do tempo que ele tenta uma determinada ação? Isso significa que toda vez que ele tenta executar uma ação A, 70% das vezes fará a ação a e os outros 30% fazem a ação que leva ao mesmo estado, ou apenas que é como se ele sempre o fizesse A ação A, mas apenas 30% das vezes que ele simplesmente não faz? Espero estar me deixando claro :(
- Como é possível ter vários estados consecutivos com a mesma utilidade? Em teoria, a utilidade nem sempre deve diminuir, quanto mais você é de estados com uma recompensa?
- Sabendo apenas as informações que dei acima, é possível inferir qual é o fator de desconto (gama)? Se sim, como?
- É possível calcular a recompensa para os estados? Como?
Solução
Assegure-se de que a conta em questão também tenha funções de servidor fixo SecurityAdmin (& DBCreator) na instância do SQL Server.
Para mais detalhes, consulte Este artigo .
Outras dicas
ad.1) provavelmente Não é que o robô sempre tenha que se mover - ou seja, esses 30% são "ah, agora eu descanso um pouco" ou "não havia poder de se mover".
Eu formulei esse problema como um processo de decisão do Finito Horizon Markov e o resolvi por meio de iteração de políticas. À direita de cada iteração, há uma representação de grade com código de cores das ações recomendadas para cada estado, bem como a grade/matriz original da recompensa.
Revise a política/estratégia final no estágio 4. Concordo com sua intuição?