Qlearning의 부정적인 보상

https://stackoverflow.com/questions/1844178

12-09-2019
|

문제

에이전트가 XX 및 YY 축을 따라 움직일 수있는 방에 있다고 가정 해 봅시다. 각 지점에서 그는 위, 아래, 오른쪽 및 왼쪽으로 이동할 수 있습니다. 따라서 우리의 상태 공간은 (x, y)에 의해 정의 될 수 있으며 각 지점에서의 행동은 (위, 아래, 오른쪽, 왼쪽)에 의해 주어집니다. 우리 요원이 그를 벽에 부딪 칠 행동을하는 곳마다 우리는 그에게 -1의 부정적인 보상을 줄 것이고, 그가 이전의 상태로 되돌려 놓을 것이라고 가정 해 봅시다. 그가 방 중앙에서 꼭두각시를 찾으면 +10 보상을받습니다.

주어진 상태/액션 쌍에 대한 QValue를 업데이트 할 때 새로운 상태에서 수행 할 수있는 작업을보고 컴퓨팅 할 수있는 최대 QValue가 무엇인지 컴퓨팅하여 Q (S, A)를 업데이트 할 수 있습니다. 현재 상태/행동에 대한 가치. 이것이 의미하는 바는 우리가 지점 (10, 10)에 목표 상태를 가지고 있다면 그 주변의 모든 상태는 QValue가 조금 더 작고 작아 질 것입니다. 이제 벽과 관련하여 나에게도 마찬가지 인 것 같습니다.

에이전트가 벽에 부딪히면 (그가 위치에 있고 (0, 0) 행동을했다고 가정하자), 그는 해당 상태/행동에 -1의 보상을 받게되므로 -1의 QValue를 받게됩니다.

이제 나중에 나는 상태 (0, 1)에 있고, 다른 모든 상태 (0,0 0)가 0이라고 가정하면 남은 조치에 대해 (0, 1)의 QValue를 계산할 때 계산할 때. 다음과 같은 방법 :

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

이것은 벽에 부딪친다는 것이 긍정적 인 보상 상태를 가질 때 발생하는 일과는 반대로 인근 주로 전파되지 않습니다.

내 광학에서 이것은 이상해 보인다. 처음에 나는 부정적인 보상을주는 상태/액션 쌍을 찾는 것이 긍정적 인 보상만큼이나 학습 할 것이라고 생각했지만, 위에서 보여준 예에서 그 진술은 사실이 아닌 것 같습니다. 알고리즘에는 부정적인 보상보다 긍정적 인 보상을 훨씬 더 많이 고려하기위한 편견이있는 것 같습니다.

이것이 Qlearning의 예상 행동입니까? 나쁜 보상이 긍정적 인 것만 큼 중요하지 않아야합니까? 이것에 대한 "워크 어라운드"는 무엇입니까?

해결책

기본 보상을 0에서 1으로, 목표 보상을 10에서 11로, 페널티를 -1에서 0으로 늘려서 부정적인 상을 피할 수 있습니다.

Q- 러닝에는 수많은 과학 간행물이 있으므로 부정적인 피드백을 허용하는 다른 공식이 있다고 확신합니다.

편집 : 나는 수정되었다. 이것은 앞에서 언급했듯이 행동을 바꾸지 않는다. 나의 사고 과정은 부정적인 피드백을 가진 공식화가없는 것으로 대체 될 수 있다는 것이었다.

관찰의 이유는 귀하가 귀하의 행동 또는 상태에있는 상태에 대한 불확실성이 없기 때문에 에이전트는 항상 최적의 보상을 가지고 있다고 생각하는 조치를 항상 선택할 수 있기 때문입니다 (따라서 모든 미래의 행동에 대한 최대 Q- 값). . 이것이 부정적인 피드백이 전파되지 않는 이유입니다. 에이전트는 미래에 그 행동을 피할 것입니다.

그러나 모델이 귀하의 행동에 대한 결과에 대한 불확실성을 포함한다면 (예 : 항상 무작위 방향으로 이동할 확률이 10%가 있음) 학습 규칙은 가능한 모든 향후 보상 (기본적으로 Max를 가중치로 대체하는 것입니다. 합집합). 이 경우 부정적인 피드백도 전파 될 수 있습니다 (이것이 내가 가능하다고 생각한 이유입니다 : P). 그러한 모델의 예는 다음과 같습니다 pomdps.

다른 팁

부정적인 피드백은 특정 이동에서 유일하게 가능한 결과 일 때만 전파됩니다.

이것이 의도적이든 의도하지 않은지 여부는 모릅니다.

귀하의 질문은 "강화 학습 : 소개"책에서 "최대화 편향 및 이중 학습"섹션이 있습니다.

"Q- 학습"알고리즘에는 단점이 있는데, 여기서 최대 추정 값이 최대 값의 추정치로 암시 적으로 사용되며, 이는 유의미한 양의 편향을 초래할 수 있습니다.

"이중 Q- 러닝"알고리즘은 최대화 편향을 피하고 질문을 해결할 수 있습니다. Q_1 (a) 및 Q_2 (a)라는 두 가지 독립적 인 추정치를 배워야합니다. 여기서 나는 당신을 위해 pseudocode를 붙여 넣습니다.이중 Q- 러닝

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow