良好的实现方式的强化学习?

题

对于一个ai级项目，我需要实施一个强化学习的算法，这比一个简单的游戏俄罗斯方块。游戏是写在爪哇和我们有源代码。我知道的基本知识，加强学习理论，但想知道如果任何人在这样的社区有手的经验，与这类事情。

编辑：更具体的更好的，但是一般资源有关的问题表示欢迎。

后续：

认为这将是好的，如果我贴了随访。

这里的解决方案(代号，并书面记录)，我结束了对任何未来的学生).

解决方案

看看在2009年 RL竞争.一个问题领域是俄罗斯方块游戏.有一个俄罗斯方块的问题的前一年。这里的 52页的最后报告从那一年的第五名的决赛，其中许多关于如何剂的工作。

其他提示

的 Heaton研究电子书是很好的说明神经网络的概念(有代码)。第4章是专门为机学习和各种培训方法对于您的网络。有一个可下载的图书馆和样本应用程序对于你来看看。

这里是一个很好的书，关于这个问题：

还看看这些开放源码项目：

TD-金门,gnubackgammon，或任何其他类似项目的巨大成功。

Sutton&巴托书"加强学习：介绍"还有一些其他的案例研究.

这不是特定于增强学习，但是斯坦福大学有一个很大的系列讲座学习机在Youtube上的和iTunes。

链接到第一个讲座，其中大约需要30分钟以潜入的内容。

粗麻布是最近的Java库，提供了实现许多共同的强化学习算法以及一些环境和有用的工具。

这个问题是很老，但是对于任何人阅读这2018年，我强烈建议您使用OpenAI基线，如果你有兴趣在固体引用的现有RL算法。这些算法实施的一组雇员在OpenAI谁真正知道这些东西，并已广泛的微调和调试。

是公平的，你不需要这些对俄罗斯方块，但现在我怀疑家庭作业的问题可能涉及一些更复杂的环境。

我建议，以了解RL4J其是java基础。我是用这个和我很惊讶的事工作顺利，你可以了解更LSTM网络在一个强化学习算法与演员的批评算法(称为A3C)

我注意到，这个问题是相当过时(10岁)，收集的现代RL框架和环境可能有用。我创建了审查仓库，为此，并打算定期更新。

许可以下： CC-BY-SA 和归因