Question

J'ai une question concernant les fonctions d'activation appropriées avec des environnements qui ont des récompenses positives et négatives.

Dans l'apprentissage du renforcement, notre production, je crois, devrait être la récompense attendue pour toutes les actions possibles. Étant donné que certaines options ont une récompense négative, nous voudrions une plage de sortie qui comprend des nombres négatifs.

Cela m'amènerait à croire que les seules fonctions d'activation appropriées seraient linéaires ou TANH. Cependant, je vois de nombreux papiers RL l'utilisation de relu.

Donc deux questions:

Si vous voulez avoir des sorties négatives et positives, êtes-vous limité à Tanh et linéaire?

Est-ce une meilleure stratégie (si possible) de récompenser les récompenses afin qu'elles soient toutes dans le domaine positif (c'est-à-dire au lieu de [-1,0,1], [0, 1, 2]) pour que le modèle puisse tirer parti fonctions d'activation alternatives?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top