Q Creazione e aggiornamento della tabella per lo spazio di azione dinamica
-
02-11-2019 - |
Domanda
Sto cercando di implementare un algoritmo Q-Learning per l'ottimizzazione dell'energia. È un MDP finito con stati rappresentati come vettori a 6 dimensioni degli interi. Il numero di valori discreti in ciascun indice del vettore di stato varia da 24 a 90.
Lo spazio d'azione varia da stato a stato e arriva fino a 300 possibili azioni in alcuni stati e al di sotto di 15 possibili azioni in alcuni stati.
Se potessi fare alcune ipotesi (solo allo scopo di testare il modello), potrei ridurre gli stati a circa 400 e azioni a meno di 200.
Come posso costruire un tavolo Q per un tale ambiente? Non sono sicuro di come affrontare questo a Python, come prevenire il tavolo contenente molte combinazioni di stato/azione impossibili o impedire all'agente di cercare di intraprendere quelle azioni indesiderate.
Nessuna soluzione corretta