質問

  • 私はRL&NNとのプロジェクトに取り組んでいます
  • ニューラルネットワークに供給されるアクションベクトル構造を決定する必要があります。

私はそれぞれ異なるパワーを持つ3つの異なるアクション(A&B&Nothing)を持っています(例:A100 A50 B100 B50など)私は、これらのアクションをNNにフィードするための最良の方法は何だろうと思いますか?

1- A/Bをフィードして入力1、アクションパワー100/50/何も入力しません2

2-フィードa100/a50/nothing to in in in in 1、war b100/b50/nothing in notin

3- A100/A50を入力するには1、B100/B50を入力して2を入力します。

4-また100と50を供給するか、2と1に正規化するには?

1つの方法を選択する理由が必要です。提案が推奨されます

ありがとう

役に立ちましたか?

解決

何を学びたいですか?出力は何ですか?入力は使用されているアクションだけですか?環境のモデルを学習している場合、それは確率分布で表されます。

P(next_state | state、action)

各アクションに個別のモデルを使用することが一般的です。これにより、入力と出力の間のマッピングがより簡単になります。入力は、状態機能のベクトルです。出力は、次の状態の特徴のベクトルです。使用済みアクションは、モデルによって暗示されます。

状態機能は、ビットとしてエンコードできます。アクティブなビットは、機能の存在を示します。

これにより、決定論的モデルが学習されます。次の状態の確率モデルを学ぶ良い方法が何であるかわかりません。 1つの可能性は、確率的ニューロンを使用することです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top