我正在建立一个公司必须设定价格和生产决策的型号。价格是连续的,决策变量也是如此。(库存,最后销售,价格......)。

我可以使用哪种强化学习方法连续地连续映射? 哪个python软件包?如果没有Python软件包,我可以写一个包装器。

有帮助吗?

解决方案

pybrain

PyBrain是一种用于神经网络建模的Python库。 pybrain的概述应该让你成为一个基本的想法:在每个时间戳,您可以使用一组连续值提供神经网络取出另一组连续值。但更重要的是您可以评估输出并培训您的神经网络。

所有这些步骤 - 包括网络培训 - 已经在PyBrain中实现。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top