使用神经网络进行强化学习

题

我有3种不同的动作（A＆B＆Nothing）具有不同的功能（例如A100 A50 B100 B50），我想知道将这些动作提供给NN以产生最佳结果的最佳方法是什么？

1- 将 A/B 馈送到输入 1，同时将动作功率 100/50/无输入 2

2- 将A100/A50/无输入1，将B100/B50/无输入2

3- 将 A100/A50 馈送到输入 1，将 B100/B50 馈送到输入 2，将 Nothing 标志馈送到输入 3

4- 还要喂 100 和 50 或将它们标准化为 2 和 1 ？

我需要选择一种方法的原因，建议任何建议

谢谢

解决方案

你想学些什么？输出应该是什么？输入只是使用的操作吗？如果您正在学习环境模型，则它由概率分布表示：

P(下一个状态|状态，动作)

通常为每个操作使用单独的模型。这使得输入和输出之间的映射更简单。输入是状态特征向量。输出是下一个状态的特征向量。模型隐含了所使用的操作。

状态特征可以被编码为位。活动位将指示某个功能的存在。

这将学习一个确定性模型。我不知道学习下一状态的随机模型的好方法是什么。一种可能性可能是使用随机神经元。

许可以下： CC-BY-SA 和归因