zero-sum SG
Model
Un jeu stochastique (ou de Markov) décompté à deux joueurs et somme nulle (zs-SG) (Cf. Shapley et al. 1953 (Proceedings of the National Academy of Sciences (PNAS))) est spécifié par un tuple
où
est un ensemble fini d'états,
et sont des ensembles finis d'actions (une par joueur),
est la probabilité de transiter de l'état à quand les actions et sont effectuées;
est une fonction de récompense (scalaire);
est un facteur d'atténuation; et
est l'état initial.
L'objectif du joueur 1 est de maximiser l'espérance de la somme atténuée des récompenses alors que l'objectif du joueur 2 est de minimiser cette quantité.
Par commodité, on notera:
the probability simplex over some finite set;
$\pi^i: \mathcal{S} \to \Delta(\mathcal{A}^i) $ une stratégie stochastique pour le joueur ;
une stratégie jointe (ou une paire de stratégies) pour les deux joueurs;
le vecteur des récompenses immédiates espérées pour la stratégie (jointe) : ;
la matrice de transition induite par la stratégie .
Un tel jeu peut être ré-écrit en forme normale et résolu en cherchant alors un équilibre de Nash (une stratégie mixte).
Bellman's Optimality Equations
Définissons, pour tout , le jeu de matrice de Shapley pour tout (c'est-à-dire, une valeur par paire d'action ).
Alors, l'opérateur d'optimalité de Shapley est une fonction contractante, et son unique point fixe est la fonction de valeur des stratégies SGPNE, notée .
L'algorithme de Shapley pour résoudre les zs-SG, analogue à l'itération sur la valeur (VI) pour les MDP, consiste en l'application itérative de cet opérateur jusqu'à -convergence, et alors, quand on est dans un état , d'agir selon la NES du jeu de Matrice de Shapley induit en .
Shapley's algorithm
blabla
HSVI algorithm
blabla