Pregunta

No puede el aprendizaje por refuerzo ser utilizado sin la ayuda de otros algoritmos de aprendizaje como SVM y MLP posterior propagación?Consulté a dos documentos:

  1. Papel 1
  2. Papel 2

ambos han utilizado otros métodos de aprendizaje automático en el bucle interno.

¿Fue útil?

Solución

No necesita algoritmos de aprendizaje adicionales para realizar el aprendizaje de refuerzo en sistemas simples donde puede explorar todos los estados. Para aquellos, simples iterativos Q-learning Puede hacerlo muy bien, así como una variedad de técnicas similares, como la diferencia temporal, Sarsa. Todo esto se puede usar sin redes neuronales, siempre que su problema no sea demasiado grande (generalmente menos de unos pocos millones de pares de estado/acción).

La forma más simple de Q-learning solo almacena y actualiza una tabla de <state, action> => <estimated reward> pares. No hay un modelo estadístico más profundo dentro de eso. Q-Learning se basa en las estimaciones de la recompensa de esta tabla para tomar una acción y luego la actualiza con una estimación más refinada después de cada acción.

Q-learning y técnicas relacionadas como la diferencia temporal a veces se llaman Modelo gratis. Sin embargo, esto no se refiere a la ausencia de un modelo estadístico como una red neuronal. En cambio, significa que no necesita tener un modelo del sistema que esté aprendiendo a optimizar disponible, como conocer todas las probabilidades de resultados y consecuencias de las acciones en un juego. En Model Free RL, todo el aprendizaje se puede hacer simplemente experimentando el sistema como agente (si tiene un modelo, entonces aún se puede usar para simulación o planificación). Al considerar si necesita o no una red neuronal, entonces el término tabular se utiliza para sistemas que funcionan con estimaciones de valor explícito para cada estado o par de estado/acción posible. Y el término aproximación de función se usa para describir cómo se usa una red neuronal en el contexto de RL.

Para problemas grandes y complejos, que incluso pueden tener estados infinitos posibles, no es factible usar métodos tabulares, y necesita buenas estimaciones de valor generalizadas basadas en alguna función del estado. En esos casos, puede usar una red neuronal para crear un aproximador de función, que puede estimar las recompensas de estados similares a los ya vistos. La red neuronal reemplaza la función de la tabla simple en el aprendizaje Q tabular. Sin embargo, la red neuronal (u otro algoritmo ML supervisado) no realiza el proceso de aprendizaje por sí solo, aún necesita un método RL "externo" que explore los estados y las acciones para proporcionar datos para que el NN aprenda.

Otros consejos

El "aprendizaje de refuerzo" significa que el resultado del algoritmo de aprendizaje es una política; Una función que toma un conjunto de entradas y devuelve una decisión. El "aprendizaje supervisado", en contraste, aprende una función que devuelve una predicción. Son diferentes tipos de tareas.
Perceptron de múltiples capas y vectores de soporte son arquitecturas, es decir, formularios para la función aprendida en cualquier caso.
No hay razón para no probar diferentes arquitecturas en diferentes tareas.

Aunque no es obligatorio, es muy común el uso de algunos esquema de aproximación una vez que usted comience a trabajar con grandes problemas.

Si usted está pensando de valor basado en el modelo de libre RL, un problema típico es que el espacio de estado si enorme.El uso de algunos esquema de aproximación es necesaria, no sólo para la tienda, pero también es útil si usted puede generalizar y tomar ventaja de la estructura de los datos.Es entonces cualquier aproximación de funciones (método de regresión, redes neuronales, etc.) puede ser beneficioso.

Para los enfoques basados en modelos, ocurre algo diferente.Usted necesita para construir un modelo del medio ambiente basadas en los datos.El uso de los datos muestreados, intenta aproximar la transición y la recompensa a sus funciones de modo que usted puede utilizar los métodos de planificación.De nuevo, de aprendizaje supervisado es aplicable.

No creo que necesite conocimiento previo como SVM y MLP. De hecho, el refuerzo es otro tipo de aprendizaje automático además del aprendizaje supervisado, que incluye SVM, y aprendizaje sin supervisión, que incluye MLP. El aprendizaje de refuerzo es en realidad muy diferente de los dos últimos, ya que es el aprendizaje de la interacción (interacción agente-ambiente). La compensación entre exploración y exploit es el punto clave.

El proceso de decisión de Markov es el marco básico para el aprendizaje de refuerzo, que es muy diferente de los otros dos tipos de aprendizaje. Recomiendo encarecidamente el libro de texto "Aprendizaje de refuerzo: una introducción"Por Richard S. Sutton y Andrew G. Barto". Ese es el libro que estoy leyendo ahora. El idioma es muy fácil de seguir y el contenido es integral.

Licenciado bajo: CC-BY-SA con atribución
scroll top