문제

로봇이 움직일 수 있는 (x,y) 평면이 있다고 상상해 봅시다.이제 우리는 세계의 중앙을 목표 상태로 정의합니다. 이는 로봇이 해당 상태에 도달하면 로봇에 100의 보상을 제공한다는 의미입니다.

이제 목표 상태로 이어질 수 있는 4가지 상태(A,B,C,D라고 부르겠습니다)가 있다고 가정해 보겠습니다.

처음 A에 있고 목표 상태로 이동하면 QValues ​​테이블을 다음과 같이 업데이트합니다.

Q(state = A, action = going to goal state) = 100 + 0

두 가지 중 하나가 발생할 수 있습니다.여기서 에피소드를 끝내고 로봇이 목표 상태를 다시 찾아야 하는 다른 에피소드를 시작할 수도 있고, 목표 상태를 찾은 후에도 세계를 계속 탐색할 수도 있습니다.그런데 이렇게 하려고 하면 문제가 보입니다.목표 상태에 있다가 A 상태로 돌아가면 Qvalue는 다음과 같습니다.

Q(state = goalState, action = going to A) = 0 + gamma * 100

이제 A에서 목표 상태로 다시 이동하려고 하면 다음과 같습니다.

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

이는 0 <= 감마 <= 0으로 이 작업을 계속하면 두 qValue가 영원히 상승한다는 것을 의미합니다.

이것이 QLearning의 예상되는 동작입니까?내가 뭔가 잘못하고 있는 걸까요?이것이 예상된 동작이라면 문제가 발생할 수는 없을까요?나는 확률적으로 4가지 상태(A,B,C,D)가 모두 같은 속도로 성장할 것이라는 것을 알고 있지만, 그럼에도 불구하고 그들이 영원히 성장하는 것은 다소 불편합니다.

에이전트가 목표를 찾은 후에도 탐색을 계속할 수 있도록 하는 아이디어는 에이전트가 목표 상태에 가까울수록 현재 업데이트할 수 있는 상태에 있을 가능성이 높아지는 것과 관련이 있습니다.

도움이 되었습니까?

해결책

이는 예상한 대로입니다. Q 추정치가 예상한 것과 다르기 때문입니다. 보상, 예상된 일이야 반품, 이는 내가 거기서 시작하여 에피소드가 끝날 때까지 또는 영원히 내 정책을 따른 경우 해당 상태/행동에서 얻을 것으로 예상되는 보상 금액입니다(감마를 통해 할인될 수 있음).

나에게 버튼을 몇 개 주고 그 버튼 중 하나를 눌렀을 때 항상 $1가 생성된다면 해당 버튼을 누를 때 예상되는 실제 보상은 $1입니다.그러나 버튼을 누를 때 예상되는 실제 수익은 버튼을 누를 기회가 무한하다고 가정할 때 무한 달러입니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top