強化学習の優れた実装?

https://stackoverflow.com/questions/740389

09-09-2019
|

質問

AI クラスのプロジェクトでは、単純なテトリスのゲームを上回る強化学習アルゴリズムを実装する必要があります。ゲームは Java で書かれており、ソースコードがあります。私は強化学習理論の基本は知っていますが、SO コミュニティでこの種のことを実際に経験した人がいるかどうか疑問に思っていました。

テトリスゲームで強化学習を実装する場合に推奨される書籍は何ですか?
同様のことを実現する、チェックしてみる価値のある優れたオープンソースプロジェクトはありますか?

編集：具体的であればあるほど良いですが、その主題に関する一般的なリソースも歓迎されます。

フォローアップ：

続きを投稿できたらいいなと思いました。

これが、将来の学生のために私が最終的にたどり着いた解決策（コードと記述）です:)。

紙 / コード

解決

2009 を見てみましょうRL-競争する。問題領域の一つは、テトリスゲームのです。テトリスの問題年も前にありました。ここで 52ページの最終報告書ですエージェントが働いていた方法についての詳細の多くに入り、その年の5位のファイナリスト、から。

他のヒント

ヒートン研究の電子ブックはかなり良いです（コード付き）ニューラルネットワークの概念を説明する時。第4章では、機械学習とあなたのネットワークのための様々なトレーニング方法に取り組んでいます。あなたが見てするためのダウンロード可能なライブラリとサンプルアプリケーションがあります。

これについては次のような良い本があります。

機械学習とデータマイニング:原理とアルゴリズムの紹介
イーゴリ・コノネンコ、マジャズ・クカール著 (2007 年 6 月)

次のオープンソースプロジェクトもご覧ください。

TD-ギャモンに、gnubackgammon、または任意の他の同様のプロジェクト巨大ましたゲームで成功ます。

サットン＆バート氏の著書「強化学習：はじめに」には、いくつかの他の<のhref =「http://www.cs.ualberta.ca/%7Esutton/book/ebook/node107.html」のrel = "nofollowをしていますnoreferrer ">ケーススタディのます。

これは、強化学習に固有のものではなく、スタンフォードは機械学習に講義の偉大なシリーズを持っていますYouTubeのとiTunesでます。

リンクは、コンテンツに飛び込むのに約30分かかり最初の講義です。

麻布には、多くの一般的な強化学習アルゴリズムの実装と同様に提供し、最近のJavaライブラリでありますいくつかの環境と便利なツールます。

この質問は本当に古いですが、2018年にこれを読んで、誰のために、私は非常には、既存のRLアルゴリズムの固体の言及に興味があるなら、あなたがOpenAIベースラインを使用してお勧めします。これらのアルゴリズムは、実際にこのようなものを知っているOpenAIの従業員のグループによって実装され、広範囲に微調整とデバッグされています。

公平を期すために、いくつかのより洗練された環境を含むことができるあなたはテトリスのためにこれらを必要としませんが、最近は私が宿題の質問を疑います。

https://github.com/openai/baselinesする

私はJavaベースであるRL4Jを学ぶことをお勧めします。私はこれを使用していたと私は物事がスムーズにどのように動作するか驚きましたし、（A3C呼ばれる）俳優批評家アルゴリズムと強化学習アルゴリズムでさえLSTMネットワークを学ぶことができます。

ここのリンクは次のとおりです。 https://github.com/deeplearning4j/dl4j-examples/blob /マスタ/ rl4j-例/ の

私はこの質問はかなり時代遅れ（10歳）と現代RLフレームワークと環境のコレクションはここに役立つことができることであることに気づきました。私はこのためにGitHubのレポを作成し、それを定期的に更新していきます。

https://github.com/TheMTank/RL-code-resourcesする

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow