التعلم التعزيز مع الشبكات العصبية

https://stackoverflow.com/questions/2749498

02-10-2019
|

سؤال

أنا أعمل في مشروع مع RL & NN
أحتاج إلى تحديد هيكل ناقل الحركة الذي سيتم تغذيته إلى شبكة عصبية ..

لديّ 3 إجراءات مختلفة (A & B & Nothing) لكل منها صلاحيات مختلفة (على سبيل المثال A100 A50 B100 B50) أتساءل ما هي أفضل طريقة لتغذية هذه الإجراءات إلى NN من أجل تحقيق أفضل النتائج؟

1- تغذية A/B لإدخال 1 ، في حين أن قوة الإجراء 100/50/لا شيء لإدخال 2

2- تغذية A100/A50/لا شيء لإدخال 1 ، بينما B100/B50/لا شيء لإدخال 2

3- تغذية A100/A50 إلى الإدخال 1 ، بينما B100/B50 لإدخال 2 ، في حين لا يوجد أي علامة على الإدخال 3

4- أيضا لتغذية 100 و 50 أو تطبيعها إلى 2 و 1؟

أحتاج إلى أسباب اختيار طريقة واحدة يوصى بها أي اقتراحات

شكرًا

المحلول

ماذا تريد أن تتعلم؟ ماذا يجب أن يكون الإخراج؟ هل الإدخال مجرد الإجراء المستخدم؟ إذا كنت تتعلم نموذجًا للبيئة ، فسيتم التعبير عنه من خلال توزيع الاحتمال:

P (Next_state | State ، Action)

من الشائع استخدام نموذج منفصل لكل إجراء. وهذا يجعل التعيين بين الإدخال والإخراج أبسط. المدخلات هو متجه ميزات الحالة. الإخراج هو متجه لميزات الحالة التالية. الإجراء المستخدم ضمنيًا بواسطة النموذج.

يمكن تشفير ميزات الحالة كبتات. قد تشير بت نشطة إلى وجود ميزة.

هذا من شأنه أن يتعلم نموذج حتمي. لا أعرف ما هي طريقة جيدة لتعلم نموذج عشوائي للحالات التالية. قد يكون أحد الاحتمالات هو استخدام الخلايا العصبية العشوائية.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow