Domanda

Sto cercando di implementare un algoritmo Q-Learning per l'ottimizzazione dell'energia. È un MDP finito con stati rappresentati come vettori a 6 dimensioni degli interi. Il numero di valori discreti in ciascun indice del vettore di stato varia da 24 a 90.

Lo spazio d'azione varia da stato a stato e arriva fino a 300 possibili azioni in alcuni stati e al di sotto di 15 possibili azioni in alcuni stati.

Se potessi fare alcune ipotesi (solo allo scopo di testare il modello), potrei ridurre gli stati a circa 400 e azioni a meno di 200.

Come posso costruire un tavolo Q per un tale ambiente? Non sono sicuro di come affrontare questo a Python, come prevenire il tavolo contenente molte combinazioni di stato/azione impossibili o impedire all'agente di cercare di intraprendere quelle azioni indesiderate.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top