Se l'insieme di tutti gli stati possibili cambia ogni volta, come può Q-Learning "imparare" qualcosa?

datascience.stackexchange https://datascience.stackexchange.com/questions/51402

  •  01-11-2019
  •  | 
  •  

Domanda

ho trovato questo risorsa che spiega Q-Learning con un esempio molto semplice. Rendilo un problema 2D, un rettangolo anziché una linea ed è ancora semplice. L'unica differenza è che ora ci sono 2 azioni più possibili (su e giù).

La mia domanda è: se la lunghezza e l'altezza del rettangolo sono casuali, nonché la posizione di partenza e la posizione del tesoro, come può il bot applicare le conoscenze acquisite al nuovo problema? Esiste una versione evoluta di Q-Learning per problemi con stati dinamici?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top