المكافآت السلبية في qlearning

https://stackoverflow.com/questions/1844178

12-09-2019
|

سؤال

دعونا نفترض أننا في غرفة يمكن فيها أن يتحرك وكيلنا على طول محور XX و YY. في كل نقطة يمكنه التحرك صعودا وهبوطا واليمين واليسار. لذلك يمكن تعريف مساحة الدولة الخاصة بنا بواسطة (x، y) ويتم تقديم أفعالنا في كل نقطة بواسطة (أعلى، أسفل، اليمين، اليسار). دعنا نفترض أنه أينما يقوم وكيلنا بإجراء عمل سيجعله يضرب جدارا سنقدمه مكافأة سلبية من -1، ووضعه في الدولة التي كان من قبل. إذا وجد في وسط الغرفة دمية يفوز بها +10 مكافأة.

عندما نقوم بتحديث Qvalue لدينا للحصول على زوج دولة / عمل معين، فإننا نرى الإجراءات التي يمكن القيام بها في الحالة الجديدة وحسابها ما هو أقصى QVALUE الذي يمكن الوصول إليه، حتى نتمكن من تحديث Q (S، A) قيمة لحالة / عملنا الحالية. ما يعنيه هذا هو أنه إذا كان لدينا حالة هدف في هذه النقطة (10، 10)، فإن جميع الدول المحيطة بها سيكون لها Qvalue أصغر قليلا وأصغر لأنها تحصل على أبعد. الآن، في علاقة للجدران، يبدو لي نفس الشيء غير صحيح.

عندما يضرب الوكيل جدارا (دعنا نفترض أنه في الموضع (0، 0) وفعل الإجراء)، سيحصل على تلك الدولة / العمل مكافأة من -1، وبالتالي الحصول على QVALUE من -1.

الآن، إذا كنت لاحقا في الولاية (0، 1)، وفائدة جميع الإجراءات الأخرى للدولة (0،0 0) صفر، عند حساب QVALUE من (0، 1) للعمل المتبقي، سوف يحسب هذا هو الطريقة التالية:

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

هذا، بعد أن ضرب الجدار لا ينتشر إلى الولايات القريبة، على عكس ما يحدث عندما يكون لديك دول مكافأة إيجابية.

في البصرية بلدي هذا يبدو غريبا. في البداية، اعتقدت أن العثور على أزواج الولاية / الإجراءات التي تعطي المكافآت السلبية ستكون جيدة مثل المكافآت الإيجابية، ولكن من المثال الذي أظهرته أعلاه، لا يبدو أن هذا البيان يحمل صحيحا. يبدو أن هناك تحيز في الخوارزمية لأول مرة في الاعتبار في الاعتبار مكافآت إيجابية من السلبية.

هل هذا هو السلوك المتوقع ل Qlearning؟ لا ينبغي أن تكون مكافآت سيئة تكون بنفس أهمية تلك الإيجابية؟ ما هي "العمل حول العمل" لهذا؟

المحلول

يمكنك تجنب الجوائز السلبية من خلال زيادة المكافأة الافتراضية من 0 إلى 1، الهدف من 10 إلى 11، والعقوبة من -1 إلى 0.

هناك الكثير من المنشورات العلمية على تعلم Q، لذلك أنا متأكد من أن هناك تركيبات أخرى تسمح بملاحظات سلبية.

تحرير: أقف تصحيح، هذا لا يغير السلوك كما ذكرت سابقا. كانت عملية التفكير الخاصة بي هي أن يتم استبدال الصياغة مع ردود فعل سلبية واحدة دون.

سبب ملاحظتك هو أنه ليس لديك أي عدم اليقين في نتائج أفعالك أو الدولة، وبالتالي فإن وكيلك يمكن أن يختار دائما الإجراء الذي يعتقد أنه يحتوي على مكافأة مثالية (وبالتالي، الحد الأقصى قيمة Q على جميع الإجراءات المستقبلية) وبعد هذا هو السبب في أن ردود فعلك السلبية لا تنتشر: سيقوم الوكيل ببساطة بتجنب هذا الإجراء في المستقبل.

ومع ذلك، إذا كان نموذجك يشمل عدم اليقين من عدم اليقين بشأن النتيجة على أفعالك (على سبيل المثال، هناك دائما احتمال 10٪ للتحرك في اتجاه عشوائي)، يجب أن تدمج قاعدة التعلم الخاصة بك على جميع المكافآت المستقبلية المحتملة (استبدالها أساسا بحد أقصى مجموع). في هذه الحالة، يمكن نشر ردود الفعل السلبية أيضا (وهذا هو السبب في أنني اعتقدت أنه ينبغي أن يكون ممكنا: P). أمثلة على هذه النماذج هي pomdps..

نصائح أخرى

ردود الفعل السلبية تنتشر فقط عندما تكون النتيجة الوحيدة الممكنة من خطوة معينة.

سواء كان ذلك متعمدا أو غير مقصود لا أعرف.

يتم الرد على سؤالك في كتاب "التعلم التعبير: مقدمة"، والذي لديه قسم من "التحيز التعظيمية وتعلم مزدوج".

تتمتع خوارزمية "Q-Atying" بعظيمة، حيث يتم استخدام الحد الأقصى على القيم المقدرة ضمنيا كتقدير للقيمة القصوى، والتي يمكن أن تؤدي إلى تحيز إيجابي كبير.

يمكن لخوارزمية "التعلم المزدوج Q للتعلم" تجنب التحيز التعظيم وحل سؤالك، حيث تحتاج إلى تعلم تقديراتين مستقلةتين، تسمى Q_1 (أ) و Q_2 (أ). أنا هنا لصق Pseudocode من أجلك:ضعف Q للتعلم

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow