أسئلة عملية قرار ماركوف [مغلقة

https://stackoverflow.com/questions/2148345

23-09-2019
|

سؤال

alt text http://img693.imageshack.us/img693/724/markov.png

أنا مرتبك قليلاً بشأن بعض النقاط هنا:

ماذا يعني القول أنه سيكون ناجحًا بنسبة 70 ٪ من الوقت الذي يحاول فيه إجراء معين؟ هل يعني ذلك أنه في كل مرة يحاول فيها إجراء إجراء ، فإنه سيقوم بنسبة 70 ٪ من الوقت في القيام بهذا الإجراء A و 30 ٪ الآخرون يقومون بالإجراء الذي يؤدي إلى نفس الحالة ، أو أنه يبدو كما لو كان يفعل دائمًا الإجراء أ ، ولكن 30 ٪ فقط من الأوقات التي لا يفعلها؟ آمل أن أوضح نفسي :(
كيف يمكن أن يكون لديك العديد من الدول المتتالية بنفس الأداة؟ من الناحية النظرية ، لا ينبغي أن تنخفض الأداة المساعدة دائمًا ، فكلما كنت من الدول التي تحمل مكافأة؟
معرفة المعلومات التي قدمتها أعلاه فقط ، هل من الممكن أن نستنتج ما هو عامل الخصم (جاما)؟ إذا كانت الإجابة بنعم ، كيف؟
هل من الممكن حساب المكافأة للولايات؟ كيف؟

المحلول

هناك نمط للتعامل مع معظم مشكلات MDP ، لكنني أعتقد أنك ربما حذفت بعض المعلومات من وصف المشكلة ، على الأرجح أنها تتعلق بالدولة التي تحاول الوصول إليها ، أو بالطريقة التي تنتهي بها الحلقة (ماذا يحدث إذا ركضت من حافة الشبكة). لقد بذلت قصارى جهدي للإجابة على أسئلتك ، لكنني قمت بإلحاق التمهيدي على العملية التي أستخدمها للتعامل مع هذه الأنواع من المشكلات.

أولاً ، فائدة هي مقياس مجردة إلى حد ما للمبلغ الذي تريد أن تكون فيه في حالة معينة. من الممكن بالتأكيد أن يكون لديك ولايتان ذوو فائدة متساوية ، حتى عند قياس فائدة الاستدلال البسيط (مسافة إقليدية أو مانهاتن). في هذه الحالة ، أفترض أن قيمة الأداة والمكافأة قابلة للتبديل.

على المدى الطويل ، يميل الهدف في هذه الأنواع من المشاكل إلى أن يكون ، كيف يمكنك تعظيم مكافأتك المتوقعة (طويلة الأجل)؟ يتحكم معدل التعلم ، جاما ، في مقدار التركيز الذي تضعه على الحالة الحالية مقابل المكان الذي ترغب في أن ينتهي به الأمر - بفعالية يمكنك التفكير في غاما كطيف ينتقل منه ، "افعل الأمر أكثر ما يفيدني في هذا الوقت المحدد" إلى الطرف الآخر "استكشف كل خياراتي ، والعودة إلى أفضل ما في ذلك". Sutton و Barto في كتاب هناك تعزيز التعلم لديك بعض لطيف حقا تفسيرات كيف يعمل هذا.

قبل أن تبدأ ، عد عبر السؤال وتأكد من أنه يمكنك الإجابة بثقة على الأسئلة التالية.

ما هي الدولة؟ كم عدد الدول الموجودة؟
ما هو العمل؟ كم عدد الإجراءات الموجودة؟
إذا بدأت في حالة U ، وقمت بتطبيق إجراء A ، فما هو احتمال الوصول إلى حالة جديدة؟

إذن الإجابات على الأسئلة؟

الدولة هي متجه (x ، y). الشبكة هي 5 في 5 ، لذلك هناك 25 ولاية.
هناك أربعة إجراءات محتملة ، {e ، n ، s ، w}
احتمال الوصول إلى حالة مجاورة بنجاح بعد تطبيق إجراء مناسب هو 0.7 ، احتمال عدم التحرك (البقاء في نفس الحالة هو 0.3). على افتراض (0،0) هي الخلية اليسرى العليا و (4،4) هي الخلية السفلية اليمنى ، ويظهر الجدول التالي مجموعة فرعية صغيرة من جميع التحولات الممكنة.

Start State Action           Final State    Probability
---------------------------------------------------
(0,0)           E               (0,0)          0.3
(0,0)           E               (1,0)          0.7
(0,0)           E               (2,0)          0
...
(0,0)           E               (0,1)          0
... 
(0,0)           E               (4,4)          0
(0,0)           N               (0,0)          0.3
...
(4,4)           W               (3,4)          0.7
(4,4)           W               (4,4)          0.3

كيف يمكننا التحقق من أن هذا منطقي لهذه المشكلة؟

تحقق من أن الجدول لديه عدد مناسب من الإدخالات. على شبكة 5 في 5 توجد 25 ولاية و 4 إجراءات ، لذلك يجب أن يكون للجدول 100 إدخال.
تحقق للتأكد من أنه لزوج Start / Action ، فإن اثنين فقط من الإدخالات لديها احتمال غير صفري.

تعديل. الرد على طلب احتمالات الانتقال ل الدولة المستهدفة. التدوين أدناه يفترض

الخامس هي الدولة النهائية
أنت هي الحالة المصدر
A هو الإجراء ، حيث لم يتم ذكره ، فمن المعتدل أن الإجراء المطبق غير ذي صلة.

P( v=(3,3) | u =(2,3), a=E ) = 0.7
P( v=(3,3) | u =(4,3), a=W ) = 0.7
P( v=(3,3) | u =(3,2), a=N ) = 0.7
P( v=(3,3) | u =(3,4), a=S ) = 0.7
P( v=(3,3) | u =(3,3) ) = 0.3

نصائح أخرى

ad.1) من المحتمل ليس الأمر أن الروبوت يجب أن يتحرك دائمًا - أي أن هؤلاء الـ 30 ٪ هم "آه ، والآن أستريح قليلاً" أو "لم تكن هناك قوة للتحرك على الإطلاق".

لقد قمت بصياغة هذه المشكلة كعملية قرار ماركوف ذات الأفق المحدود وحلها من خلال تكرار السياسة. على يمين كل تكرار ، هناك تمثيل شبكة مشفرة بالألوان للإجراءات الموصى بها لكل ولاية وكذلك شبكة المكافآت الأصلية/المصفوفة.

راجع السياسة/الاستراتيجية النهائية في المرحلة 4. هل تتفق مع حدسك؟

enter image description here

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow