Pergunta

TEXTO DE ALT HTTP://IMG693.Imageshack.us/img693/724/markov.png

Estou um pouco confuso sobre alguns pontos aqui:

  1. O que significa dizer que será bem -sucedido 70% do tempo que ele tenta uma determinada ação? Isso significa que toda vez que ele tenta executar uma ação A, 70% das vezes fará a ação a e os outros 30% fazem a ação que leva ao mesmo estado, ou apenas que é como se ele sempre o fizesse A ação A, mas apenas 30% das vezes que ele simplesmente não faz? Espero estar me deixando claro :(
  2. Como é possível ter vários estados consecutivos com a mesma utilidade? Em teoria, a utilidade nem sempre deve diminuir, quanto mais você é de estados com uma recompensa?
  3. Sabendo apenas as informações que dei acima, é possível inferir qual é o fator de desconto (gama)? Se sim, como?
  4. É possível calcular a recompensa para os estados? Como?
Foi útil?

Solução

Assegure-se de que a conta em questão também tenha funções de servidor fixo SecurityAdmin (& DBCreator) na instância do SQL Server.

Para mais detalhes, consulte Este artigo .

Outras dicas

ad.1) provavelmente Não é que o robô sempre tenha que se mover - ou seja, esses 30% são "ah, agora eu descanso um pouco" ou "não havia poder de se mover".

Eu formulei esse problema como um processo de decisão do Finito Horizon Markov e o resolvi por meio de iteração de políticas. À direita de cada iteração, há uma representação de grade com código de cores das ações recomendadas para cada estado, bem como a grade/matriz original da recompensa.

Revise a política/estratégia final no estágio 4. Concordo com sua intuição?

enter image description here

enter image description here

enter image description here

enter image description here

enter image description here

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top