¿Qué conocimiento necesito para escribir un programa de IA simple para jugar un juego?

https://datascience.stackexchange.com/questions/16066

16-10-2019
|

Pregunta

Soy un graduado de B.SC. Uno de mis cursos fue 'Introducción al aprendizaje automático', y siempre quise hacer un proyecto personal en este tema.

Recientemente escuché sobre diferentes entrenamientos de IA para jugar juegos como Mario, Go, etc.

¿Qué conocimiento necesito adquirir para entrenar un programa de IA simple para jugar un juego? ¿Y qué juego recomiendas para un principiante?

Esto es lo que sé en el aprendizaje automático hasta ahora -

Introducción al curso y al aprendizaje automático. Algoritmo de vecino K-Nearest y algoritmo K-means
Inferencia estadística
Modelo de mezcla gaussiana (GMM) y maximización de expectativas (EM)
Probablemente el modelo aproximadamente correcto (PAC), incluidos los límites de generalización y la selección del modelo
Algoritmos básicos de hiperplano: Perceptron y Winnow.
Máquinas de vectores de soporte (SVM)
Núcleo
Aumentar a los alumnos débiles a los alumnos fuertes: Adaboost
Percepción de margen
Regresión
PCA
Árboles de decisión
Padena en árboles de decisión y bosques aleatorios

Solución

Hay múltiples formas de abordar la resolución de problemas de juego. Algunos juegos se pueden resolver mediante algoritmos de búsqueda, por ejemplo. Esto funciona bien para los juegos de tarjetas y de mesa hasta cierto nivel de complejidad. Por ejemplo, El azul profundo de IBM fue esencialmente una búsqueda rápida impulsada por la heurística de movimientos óptimos.

Sin embargo, probablemente el algoritmo de aprendizaje automático más genérico para capacitar a un agente para realizar una tarea de manera óptima es aprendizaje reforzado. Técnicamente no es un algoritmo, sino una familia extendida de algoritmos relacionados que resuelven una formalización específica del problema de aprendizaje.

Informalmente, el aprendizaje de refuerzo (RL) se trata de encontrar soluciones óptimas a los problemas definidos en términos de un agente que puede observar el estado de una ambiente, tomar comportamiento En ese entorno y experiencia recompensas que de alguna manera están relacionados con el estado y la acción. Los solucionadores de RL deben diseñarse para hacer frente a situaciones en las que se reciben recompensas más tarde que cuando se toman medidas importantes, y esto generalmente se logra mediante el algoritmo que aprende una expectativa interna de recompensas posteriores asociadas con pares estatales y/o de acción estatal.

Aquí hay algunos recursos para estudiar el aprendizaje de refuerzo:

Encontrará que el sujeto en sí es bastante grande ya que son necesarias más y más sofisticadas variaciones de los algoritmos a medida que el problema para resolver se vuelve más difícil.

Los juegos iniciales para estudiar el aprendizaje de refuerzo pueden incluir:

Tik-tac-toe (también conocido como cebro y cruces): esto se puede resolver fácilmente utilizando la búsqueda, pero hace que un problema de juguete simple resuelva el uso de técnicas RL básicas.
MAZES: en la literatura de aprendizaje de refuerzo, hay muchos ejemplos de juegos de "Grid World" en los que un agente se mueve en Single N, E, S, W pisa un tablero pequeño que puede poblarse con peligros y objetivos.
Blackjack (también conocido como 21)

Si quieres trabajar con agentes para jugar videojuegos, también querrás aprender sobre Redes neuronales Y probablemente con cierto detalle: necesitará redes neuronales profundas y convolucionales para procesar gráficos de pantalla.

Un recurso relativamente nuevo para RL es Universo Operai. Han hecho mucho trabajo para empaquetar entornos listos para entrenar a los agentes, lo que significa que puede concentrarse en estudiar los algoritmos de aprendizaje, en lugar del esfuerzo de establecer el medio ambiente.

Con respecto a su lista de habilidades actuales: ninguno de ellos es directamente relevante para el aprendizaje de refuerzo. Sin embargo:

Si puede comprender las matemáticas y la teoría de su curso anterior, entonces también debería poder comprender la teoría del aprendizaje de refuerzo.
Si ha estudiado técnicas de aprendizaje supervisadas en línea o supervisadas, se pueden usar como componentes dentro de un marco RL. Por lo general, se pueden usar para aproximar un función de valor del estado del juego, basado en comentarios de éxitos y fracasos hasta ahora.

Otros consejos

Depende en gran medida del tipo de juego y la información sobre el estado del juego que está disponible para su IA.

Algunos de los AIS de juego más famosos de los últimos años se basan en el aprendizaje de refuerzo profundo (por ejemplo, Jugar a Atari con un profundo aprendizaje de refuerzo), que es el aprendizaje de refuerzo normal (por ejemplo, el aprendizaje Q) con una red neuronal profunda como aproximación de la función del valor de recompensa. Estos enfoques reciben los píxeles crudos del juego más los puntos del jugador, y emiten las acciones de una plataforma de juego, como un humano. Para hacer algo así, debe dominar el aprendizaje de refuerzo (ver El libro seminal de Sutton y Barto) y aprendizaje profundo (ver Ian Goodfellow et al. libro), y luego cómo fusionarlos en un aprendizaje de refuerzo profundo (busque "aprendizaje de refuerzo" en cualquier lista curada de documentos de aprendizaje profundo como Éste).

Sin embargo, si la información sobre el juego que está disponible para su IA está más estructurada que la (por ejemplo, la posición del jugador, la descripción del entorno), puede hacerlo bien con enfoques más clásicos donde descompone su juego en problemas manejables y resuelve cada uno algorítmicamente, por ejemplo, buscando con A*.

Lo que buscas se llama Aprendizaje reforzado. En mi universidad, hay un curso completo ($ 15 CDOT 3H = 45H $) solo para presentar a los estudiantes este tema. Aquí están mis (en su mayoría alemán) Notas de conferencia a la planificación probabilística. Yo diría que este es definitivamente un tema avanzado para el aprendizaje automático.

Topcis para aprender sobre

Procesos de decisión de Markov (MDP)
- Política y iteración de valor
- Proyecto: Rock-Paper-Cissors / Tic-tac-toe
Procesos de decisión de Markov parcialmente obversables
- Proyecto: Black Jack
Aprendizaje de refuerzo
- Q-learning
- Sarsa

Otros juegos simples

Otros recursos

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange