Apprentissage par renforcement et POMDP

https://stackoverflow.com/questions/2750608

02-10-2019
|

Question

Je suis en train d'utiliser multi-couche NN pour mettre en œuvre la fonction de probabilité dans le processus de Markov partiellement Observable ..
Je pensais que les entrées à la NN seraient: état actuel, l'action choisie, l'état de résultat; La sortie est une probabilité [0,1] (prob. Que l'exécution de l'action sélectionnée sur l'état actuel conduira à entraîner état)
Dans la formation, je nourris les entrées indiqué précédemment, dans le NN, et je l'ai enseigné la sortie = 1,0 dans chaque cas qui ont déjà eu lieu.

Le problème:
Pour presque tous les cas de test, la probabilité de sortie est proche 0,95 .. pas de sortie était inférieur à 0,9! Même pour des résultats presque impossible, il a aussi élevé prob.

PS: Je pense que cela est parce que je l'ai enseigné est arrivé des cas seulement, mais pas ceux de l'ONU-.. arrivé Mais je ne peux pas à chaque étape de l'apprentissage de l'épisode il la sortie = 0.0 pour chaque action est passé non!

Toutes les suggestions comment venir sur ce problème? Ou peut-être une autre façon d'utiliser NN ou pour mettre en œuvre la fonction de prob?

Merci

La solution

Le problème est que la somme sur tous les états possibles suivants doit être égale à 1. Si vous construisez votre réseau comme ça, ce n'est pas garantie. Deux alternatives possibles me viennent à l'esprit, où je suppose que des états discrets.

Lorsque vous faites une prédiction, exécutez le réseau pour chaque état possible suivant. Par la suite, normalise en divisant par la somme de toutes les probabilités.
Utiliser une sortie par l'état possible suivant. Vous pouvez ensuite utiliser une couche softmax (comme dans le classement) et interpréter les valeurs qui vont alors de 0 à 1 et résumer jusqu'à 1 probabilités.

Ces deux sont en fait à peu près équivalent d'un point de vue mathématique.

Dans le cas des variables continues, vous devrez assumer les distributions (par exemple une gaussienne à plusieurs variables) et d'utiliser les paramètres de cette distribution (par exemple moyenne et STDEV de covariance) comme sorties.

Autres conseils

Lors du montage du NN vous pouvez adapter à un plus large éventail de données, dans la formation est-il des données que vous voulez vous équiper un plus proche de 0 probabilité? S'il n'y a pas je soupçonne que vous pourriez obtenir de mauvais résultats. Dans un premier temps, je vais essayer de choisir des choses différentes dans l'ensemble des données de formation.

En outre comment vous entraînez le NN? Avez-vous essayé d'utiliser d'autres méthodes? Que diriez-vous des fonctions d'activation, l'expérience peut-être avec l'aide de quelques différents.

Avec les réseaux de neurones, je pense que certains essais et erreurs au moment de choisir le modèle va aider. (Désolé si tout cela ne suffit pas spécifique.)

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow