シンプルな自動運転RC車のための監視された学習vs強化学習

https://datascience.stackexchange.com/questions/11126

16-10-2019
|

質問

私は楽しいためにリモートコントロールされたセルフドライビングカーを構築しています。 Raspberry Piをオンボードコンピューターとして使用しています。また、車の周囲に関するフィードバックのために、ラズベリーPIカメラや距離センサーなど、さまざまなプラグインを使用しています。 OpenCVを使用してビデオフレームをテンソルに変換しており、GoogleのTensorflowを使用して複雑なニューラルネットワークを構築して、道路の境界と障害物を学習しています。私の主な質問は、監督された学習を使用して車に運転することを教える必要がありますか、それとも目標とペナルティを提供し、強化学習を行う必要があります（つまり、何も叩かず、道路の境界内にとどまる間、できるだけ早くポイントBに到達します）。以下は、私が思いついた長所と短所のリストです。

監督された学習長所：

学習アルゴリズムへの入力は非常に簡単です。車は、ビデオフレームのテンソルとセンサーの距離の測定値を前方、後方、角の変位に関連付けることを学びます
私は多かれ少なかれ車に自分の望みを正確に運転するように教えることができます（もちろん、過剰に適合せずに）
私は以前に監視された学習問題をたくさんやったことがありますが、このアプローチは私の既存のスキルセットに快適に適合しているようです

監視された学習短所：

スピードを教える方法は明確ではなく、車がそれほど速く進んで道路から離れる限り、正しい速度はかなりarbitrary意的です。トレーニング中に速く運転できると思いますが、これは粗雑なアプローチのようです。たぶん、そのトレーニングセッションの速度に対応するトレーニング中に一定の変数を手動で追加できます。そして、学習アルゴリズムが展開されると、必要な速度に応じてこの変数を設定しますか？

強化学習長所：

他の人の自動運転車をレースするという特定の目的で車を作ると、補強学習は私の車に「できるだけ早くそこに着く」ように伝えるための自然な方法のようです
私はRLが自律ドローンに使用されることがあることを読んだので、理論的には、私は上下を心配する必要がないので、車で簡単になるはずです

強化学習の短所：

補強学習には多くの追加センサーが必要になると感じています。率直に言って、私の足の長い車には、バッテリー、ラズベリーPI、ブレッドボードを取り付ける必要があることを考えると、それほど多くのスペースがありません。
車は最初は非常に不規則に動作するので、それ自体が破壊されるかもしれません。また、学ぶのに不当に長い時間がかかるかもしれません（例えば、月または年）
後で明示的なルールを取り入れることはできません。たとえば、おもちゃの赤い光で停止します。監視された学習を使用すると、各ビデオフレーム間で評価される構成可能なルールエンジンに多数のSLアルゴリズム（たとえば、ストップライトを識別するためのHAARカスケード分類器）を組み込むことができます。したがって、ルールエンジンは、ストップライトが駆動アルゴリズムのトレーニングの一部ではなかったとしても、赤いストップライトが見られた場合、駆動SLアルゴリズムをオーバーライドすることができます。 RLはこれを行うにはあまりにも連続しているようです（つまり、端末状態でのみ停止します）
私は応用強化学習の経験はあまりありませんが、私は間違いなくそれを学びたいと思っていますが

解決

ハイブリッドアプローチを試すことをお勧めします。

初め、デモンストレーションによって監督された方法で車を訓練します. 。それを制御し、コマンドをラベルとして使用してください。これにより、SLのすべてのプロを取得できます。
次に、強化学習を使用してニューラルネットを微調整します。そのためには余分なセンサーは必要ありません。報酬は、距離センサー（より広い距離=より良い）および速度自体から取得できます。これにより、RLの長所が得られ、あなたを模倣するという目標ではなく、障害を避けながら、速く運転するという正しい目標にNNを訓練します。
両方のアプローチを組み合わせることで、SLとRLの両方のプロを避けながら、短所を避けます。 RLは、ランダムな動作から始まりません。NNを採用したものからのわずかな段階的な逸脱だけです。 Google DeepMindによって同様のアプローチが成功しましたアルファゴ.
これに加えて、いつでも明示的なルールを含めることができます。高優先度でそれらを実装し、現在の状況に明示的なルールがない場合にのみNNを呼び出します。これは、それを連想させます包摂アーキテクチャ.

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange