ニューラルネットワークを使用した補強学習

質問

私はそれぞれ異なるパワーを持つ3つの異なるアクション（A＆B＆Nothing）を持っています（例：A100 A50 B100 B50など）私は、これらのアクションをNNにフィードするための最良の方法は何だろうと思いますか？

1- A/Bをフィードして入力1、アクションパワー100/50/何も入力しません2

2-フィードa100/a50/nothing to in in in in １、war b100/b50/nothing in notin

3- A100/A50を入力するには1、B100/B50を入力して2を入力します。

4-また100と50を供給するか、2と1に正規化するには？

1つの方法を選択する理由が必要です。提案が推奨されます

ありがとう

解決

何を学びたいですか？出力は何ですか？入力は使用されているアクションだけですか？環境のモデルを学習している場合、それは確率分布で表されます。

P（next_state | state、action）

各アクションに個別のモデルを使用することが一般的です。これにより、入力と出力の間のマッピングがより簡単になります。入力は、状態機能のベクトルです。出力は、次の状態の特徴のベクトルです。使用済みアクションは、モデルによって暗示されます。

状態機能は、ビットとしてエンコードできます。アクティブなビットは、機能の存在を示します。

これにより、決定論的モデルが学習されます。次の状態の確率モデルを学ぶ良い方法が何であるかわかりません。 1つの可能性は、確率的ニューロンを使用することです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow