سؤال

لنتخيل أن لدينا مستوى (x,y) يمكن للروبوت أن يتحرك فيه.الآن نحدد منتصف عالمنا كحالة الهدف، مما يعني أننا سنمنح مكافأة قدرها 100 للروبوت الخاص بنا بمجرد وصوله إلى تلك الحالة.

الآن، لنفترض أن هناك 4 حالات (سأسميها A، B، C، D) يمكن أن تؤدي إلى حالة الهدف.

في المرة الأولى التي نكون فيها في A وننتقل إلى حالة الهدف، سنقوم بتحديث جدول QValues ​​الخاص بنا على النحو التالي:

Q(state = A, action = going to goal state) = 100 + 0

يمكن أن يحدث أحد أمرين.يمكنني إنهاء الحلقة هنا، وبدء حلقة مختلفة حيث يتعين على الروبوت العثور مرة أخرى على حالة الهدف، أو يمكنني الاستمرار في استكشاف العالم حتى بعد العثور على حالة الهدف.إذا حاولت القيام بذلك، أرى مشكلة بالرغم من ذلك.إذا كنت في حالة الهدف وعدت إلى الحالة A، فستكون قيمة Qvalue كما يلي:

Q(state = goalState, action = going to A) = 0 + gamma * 100

الآن، إذا حاولت العودة مرة أخرى إلى حالة الهدف من A:

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

مما يعني أنني إذا واصلت القيام بذلك، حيث أن 0 <= gamma <= 0، فإن كلا القيمتين qValues ​​سوف ترتفع إلى الأبد.

هل هذا هو السلوك المتوقع لـ QLearning؟أفعل شيئا خاطئا؟إذا كان هذا هو السلوك المتوقع، ألا يمكن أن يؤدي هذا إلى مشاكل؟أعلم أنه من المحتمل أن جميع الولايات الأربع (أ، ب، ج، د) ستنمو بنفس المعدل، ولكن مع ذلك فإن الأمر يزعجني نوعًا ما أن تنمو إلى الأبد.

إن فكرة السماح للوكيل بمواصلة الاستكشاف حتى بعد العثور على الهدف تتعلق بأنه كلما اقترب من حالة الهدف، زاد احتمال وجوده في حالات يمكن تحديثها في الوقت الحالي.

هل كانت مفيدة؟

المحلول

وهذا كما هو متوقع، حيث أن تقدير Q ليس هو المتوقع جائزة, ، إنه المتوقع يعود, ، وهو مبلغ المكافأة (الذي ربما يتم خصمه عبر جاما) الذي أتوقع أن أجنيه من تلك الحالة/الإجراء إذا بدأت هناك واتبعت سياستي حتى نهاية الحلقة أو إلى الأبد.

إذا أعطيتني بعض الأزرار، وكان أحد هذه الأزرار ينتج دائمًا دولارًا واحدًا عند الضغط عليه، فإن المكافأة الحقيقية المتوقعة للضغط على هذا الزر هي دولار واحد.لكن العائد الحقيقي المتوقع من الضغط على الزر هو ما لا نهاية من الدولارات، بافتراض حصولي على عدد لا نهائي من الفرص للضغط على الزر.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top