改善Q-Learning

https://stackoverflow.com/questions/1730824

20-09-2019
|

質問

私は現在使用Q-Learningてみてはいえ、ボットの動かし方で満たされた室内壁/障害となっている。で始まる任意の場所に部屋の状態（これは、タイルとは、ドアなど)を行います。現在のとしたい場合には、他のタイルまんがタイル、私はするべきであると考えていたが、将来にかばんはいかがでしょうかをランダムにのチャンスを別のタイルです。で移動できないようになってます。目標達成の鍵を握状況金利+100の行動は収量は0になります。

を使用しているアルゴリズムの発見こちらの, 見ることができるの画像以下です。

alt text

今、それに関連しているのか教えてください質問:

使用時のQ-LearningのようなニューラルネットワークIが必要と学習の相および用です。いるようでこのように記の写真は学習とは第二の画像を利用します。
を読んでどこかで思いか無数の手順にたどり着くまでに最適なQ値の表に示す。であることでしょうか？僕がちょっと違うんでん必要情報を見落とさないようです。
と聞いたのについてもTD(時間差)であるかのような以下で表される表現
```
Q(a, s) = Q(a, s) * alpha * [R(a, s) + gamma * Max { Q(a', s' } - Q(a, s)]
```
るためのアルファ=1のようにに示した初の画像になります。何違いはガンマ線、いので、これから
い一部の合併症に私は非常に大きなルーム(300x200 ピクセルが含まれます。としてい基本的に走るランダムな場合、室内は非常に大しま多くの時間をランダムからの最初の状態の状態です。何方法を使用できる速度です。I えっと、ブース入りとtruesとfalsesに関する何をしていると話されている状態です。そして、今まで廃棄していない場合、碁あります。だってすべての国、その後にいて、ランダムです。このように思いきっうにしてるわけではありませんので、知今繰り返し国以上いくとは限らない。
思うようよ私のルックアップテーブルのためのQ値であり、ました考え方に神経を使用ネットワークバックの伝播のためのます。いてみる神経ネットワークのための各行動、 -下-左-右)、今年も、見に来て下さいねう利回りベストな結果を導き出すかだ。はありまその他の方法のほか、SVMる見えにくいものの実施自分するものなのかどうかに関しても使用を実施するうえい Q値関数近似?
いると思い遺伝的アルゴリズムいい効果はこの状況は、Q値マトリクスの基礎となのですか？どのようにしたら良いですか試験は私のフィットネス機能しているのでしょうか。で、このような印象GA一般に使用されているものがありそうなランダムます。まついては、注意深く点検していくそのQ値に従う明確な傾向を持った高Q値近くの目標の下に遠くからです。うにしようとする結論を遺伝的アルゴリズムによると思う方も長持ちするんですね。

解決

私は専門家ではないですが、いま話題になんか亀裂時の対応直接ご多くの質問
[ちなみに、私は多+担当者のための各問題です！...だそうだったので営業担当者に"も、今までの滞在を明らかに掲載することができます合計20意見の半分これらの訪問者を有する概念の概念を手]

1)Q-Learningにおける二相ょうか？
あり、Ｑ-学習の意味を段階的に学習相およびアクション。として多くの自動学習アルゴリズムでにしてください""学習"のアクションフェーズ.

2)無限ステップ数なくてはなりませんでしたGマトリクス? 時間がない計算書に必要無数の学習のサイクルを学ぶのに最適なQで行います。めください(しない限りは、αおよびガンマ因子がおか）は、アルゴリズムの収束の場合のみである非常に遅くなります。この私をスキップコメントをお考えの300x200ゲームスペース、。YES!, のためのプライベートな空間、さらに報酬モデルでどのように無限大を"最適な"Qます。今ることが可能であることを数学的にはアルゴリズムに達することがない最適なnivarnaものの、実践的なソリューション、のasymptoteはちょうど良いです。

3)役割のガンマ線にTD><TD>モデル
この重要性を抽出する手法典は、パス(このモデルでは、文字通り),高です。この一般的にアルゴリズムの取得にこだわった地元のmaximasの解空間のコストの作成学習でも遅くなる----

4)提案に学習に大きな迷路
でのリスクを裏切る自然のQ-Learningを開始することができ、ロボット化の一層の間の距離を決めることが出来ませんでした。これまでの改善Qマトリクスの地域の国に対し、サラウンドを目標に、それを活かしこの一部知Qマトリクスとして初期状態では、ランダムに、増加の半径から決めることが出来ませんでした。

他のキャアプローチ(およびそれがさらにbelieの本質Q-Learning)が変更され、Rマトリクスの提供をますます高い報酬をランダムに配置で減少し距離から決めることが出来ませんでした。下振れることを紹介する機会の多くの地域maximasの解空間のアルゴリズムがこだわった場合の学習率およびその他の要素の磨き上げます。

両方のこれらの取り組み、特に後者の解釈することができますお客様のデザイナー）"の配線"を求めている。その他の言うことになりますがこれは単なる方法として導入したダッシュのDPはス...

5)ニューラルネット(NN)6)遺伝的アルゴリズム(GA)
どちらでもない約の追加NNはGAのミックス。
そしてあの馬鹿に自分のものを数学的に正確な決ます。;-)

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow