تطبيقات جيدة لتعزيز التعزيز؟

https://stackoverflow.com/questions/740389

09-09-2019
|

سؤال

بالنسبة لمشروع AI-Class، أحتاج إلى تنفيذ خوارزمية لتعزيز التعزيز التي تدفق لعبة بسيطة من Tetris. اللعبة مكتوبة في جافا ولدينا شفرة المصدر. أعرف أساسيات نظرية التعلم التعزيز ولكنه أتساءل ما إذا كان أي شخص في المجتمع كان لديه خبرة في هذا النوع من الأشياء.

ما هي قراءاتك الموصى بها من أجل تنفيذ التعلم المقوى في لعبة تتريس؟
هل هناك أي مشاريع جيدة مفتوحة المصدر التي تحقق أشياء مماثلة ستكون تستحق التدقيق؟

تحرير: كلما كان ذلك أفضل محددة، إلا أن الموارد العامة حول الموضوع ورحب بها.

متابعة:

يعتقد أنها ستكون لطيفة إذا نشرت متابعة.

إليك الحل (الرمز والكتاب) انتهى بي الأمر بأي طلاب في المستقبل :).

ورق / رمز

المحلول

ألق نظرة على 2009 rl المنافسة. وبعد واحدة من النطاقات المشكلة هي لعبة تتريس. وبعد كانت هناك مشكلة تتريس في العام السابق أيضا. هنا التقرير النهائي 52 صفحة من المرحلة النهائية المركز الخامسة لهذا العام، والذي يذهب إلى الكثير من التفاصيل حول كيفية عمل الوكيل.

نصائح أخرى

ال لبحوث التدفئة الكتاب الاليكتروني جيد جدا في شرح مفاهيم الشبكة العصبية (برمز). الفصل 4 مخصص للتعلم الآلي وطرق التدريب المختلفة لشبكاتك. هناك مكتبة قابلة للتنزيل وتطبيقات نموذجية لكي تنظر إليها.

هنا كتاب جيد حول هذا الموضوع:

التعلم الآلي والتعدين البيانات: مقدمة للمبادئ والخوارزميات
بواسطة ايجور كونيونكو، ماتجاز ككر (يونيو، 2007)

إلقاء نظرة أيضا على مشاريع المصدر المفتوحة هذه:

TD-Gammon, ، Gnubackgammon، أو أي مشروع آخر مماثل كانت نجاحات ضخمة في الألعاب.

كتاب Sutton & Barto "التعزيز التعلم: مقدمة" لديه بعض الآخر دراسات الحالة.

هذا ليس محددا للتعلم المعزز، لكن ستانفورد لديه سلسلة كبيرة من المحاضرات آلة التعلم على يوتيوب و iTunes.

الرابط هو المحاضرة الأولى التي تستغرق حوالي 30 دقيقة لتغوص في المحتوى.

الخيوف هي مكتبة Java الأخيرة توفر تطبيقات للعديد من خوارزميات تعليم التعزيز الشائعة بالإضافة إلى بعض البيئات والأدوات المفيدة.

هذا السؤال قديم حقا، ولكن لأي شخص يقرأ هذا في عام 2018، أوصي بشدة باستخدام خطوط الأساس Openai إذا كنت مهتما بالمراجع الصلبة من خوارزميات RL الحالية. تنفذ هذه الخوارزميات من قبل مجموعة من الموظفين في Openai الذين يعرفون حقا هذه الأشياء، وقد تم ضبطهم على نطاق واسع وتصحيحها.

لكي نكون منصفين، لا تحتاج إلى هذه Tetris، ولكن في الوقت الحاضر أظن أن أسئلة الواجبات المنزلية قد تنطوي على بعض البيئات الأكثر تطورا.

https://github.com/openai/baselines.

أود أن أقترح تعلم RL4J وهو جافا مقرها. كنت أستخدم هذا وكنت دهشتي كيف تعمل الأمور بسلاسة ويمكنك تعلم شبكات LSTM في خوارزمية لتعليم التعزيز مع خوارزمية ناقدة الممثل (تسمى A3C)

ها هو الرابط الالكتروني:https://github.com/deeplearning4j/dl4j-examples/blob/master/rl4j-examples/

لقد لاحظت أن هذا السؤال قديم جدا (10 سنوات) وأن مجموعة من أطر وبيئات RL الحديثة قد تكون مفيدة هنا. لقد أنشأت جيثب ريبو لهذا وتعتزم تحديثها بانتظام.

https://github.com/themtank/rl-code-resources.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow