Domanda

Nel problema di banditi multi-armati, abbiamo un set di braccia da $ k $. In ogni round $ t $, un bandito seleziona un braccio $ k $ e riceve un premio $ r_ {kt} $. L'obiettivo è massimizzare i premi dopo $ T $ round.

La mia domanda: selezionare lo stesso braccio in due diversi round porta alla stessa ricompensa? O i premi sono completamente diversi?

È sorprendente per me se si possa selezionare lo stesso braccio ma riceve una ricompensa diversa e ha ancora un rimpianto sublineare.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a cs.stackexchange
scroll top