Подкрепление обучения с нейронными сетями

https://stackoverflow.com/questions/2749498

02-10-2019
|

Вопрос

Я работаю над проектом с RL & NN
Мне нужно определить структуру вектора действия, которая будет подана в нейронную сеть.

У меня есть 3 разных действий (A & B & Nothing), каждое из которых имеет разные силы (например, A100 A50 B100 B50), мне интересно, как лучше всего поддерживать эти действия в NN, чтобы получить наилучшие результаты?

1- Подавать A/B для ввода 1, в то время как действие мощность 100/50/ничего для ввода 2

2- Подайте A100/A50/NOTUR для ввода 1, в то время как B100/B50/ничего для ввода 2

3- Подайте A100/A50 для ввода 1, в то время как B100/B50 для ввода 2, в то время как ничто не флаг.

4- Также, чтобы накормить 100 и 50 или нормализовать их до 2 и 1?

Мне нужны причины, почему выбирать один метод любые предложения рекомендуются

Спасибо

Решение

Чему ты хочешь научиться? Какой должен быть выход? Является ли вход просто использованным действием? Если вы изучаете модель окружающей среды, это выражается распределением вероятностей:

P (Next_State | State, Action)

Обычно использовать отдельную модель для каждого действия. Это облегчает отображение между входом и выводом. Вход - это вектор государственных функций. Выход является вектором функций следующего состояния. Используемое действие подразумевается моделью.

Особенности состояния могут быть закодированы как биты. Активный бит будет указывать на наличие функции.

Это изучит детерминистскую модель. Я не знаю, что такое хороший способ выучить стохастическую модель следующих состояний. Одной из возможностей может быть использование стохастических нейронов.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow