Se l'insieme di tutti gli stati possibili cambia ogni volta, come può Q-Learning "imparare" qualcosa?
-
01-11-2019 - |
Domanda
ho trovato questo risorsa che spiega Q-Learning con un esempio molto semplice. Rendilo un problema 2D, un rettangolo anziché una linea ed è ancora semplice. L'unica differenza è che ora ci sono 2 azioni più possibili (su e giù).
La mia domanda è: se la lunghezza e l'altezza del rettangolo sono casuali, nonché la posizione di partenza e la posizione del tesoro, come può il bot applicare le conoscenze acquisite al nuovo problema? Esiste una versione evoluta di Q-Learning per problemi con stati dinamici?
Nessuna soluzione corretta
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a datascience.stackexchange