• 我正在与 RL 和 NN 合作开展一个项目
  • 我需要确定将馈送到神经网络的动作向量结构​​。

我有3种不同的动作(A&B&Nothing)具有不同的功能(例如A100 A50 B100 B50),我想知道将这些动作提供给NN以产生最佳结果的最佳方法是什么?

1- 将 A/B 馈送到输入 1,同时将动作功率 100/50/无输入 2

2- 将A100/A50/无输入1,将B100/B50/无输入2

3- 将 A100/A50 馈送到输入 1,将 B100/B50 馈送到输入 2,将 Nothing 标志馈送到输入 3

4- 还要喂 100 和 50 或将它们标准化为 2 和 1 ?

我需要选择一种方法的原因,建议任何建议

谢谢

有帮助吗?

解决方案

你想学些什么?输出应该是什么?输入只是使用的操作吗?如果您正在学习环境模型,则它由概率分布表示:

P(下一个状态|状态,动作)

通常为每个操作使用单独的模型。这使得输入和输出之间的映射更简单。输入是状态特征向量。输出是下一个状态的特征向量。模型隐含了所使用的操作。

状态特征可以被编码为位。活动位将指示某个功能的存在。

这将学习一个确定性模型。我不知道学习下一状态的随机模型的好方法是什么。一种可能性可能是使用随机神经元。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top