Two-player zero-sum SG

Model

Un jeu stochastique (ou de Markov) décompté à deux joueurs et somme nulle (zs-SG) (Cf. Shapley et al. 1953 (Proceedings of the National Academy of Sciences (PNAS))) est spécifié par un tuple

  • S,A1,A2,P,r,γ,s0\langle \mathcal{S}, \mathcal{A}^1, \mathcal{A}^2, P, r, \gamma, s_0 \rangle

  • S\mathcal{S} est un ensemble fini d'états,

  • A1\mathcal{A}^1 et A2\mathcal{A}^2 sont des ensembles finis d'actions (une par joueur),

  • Psa1a2s\mathbb{P}{s}{a^1}{a^2}{s'} est la probabilité de transiter de l'état ss à ss' quand les actions a1a^1 et a2a^2 sont effectuées;

  • r(s,a1,a2)r(s,a^1,a^2) est une fonction de récompense (scalaire);

  • γ[0,1)\gamma\in [0,1) est un facteur d'atténuation; et

  • s0s_0 est l'état initial.

L'objectif du joueur 1 est de maximiser l'espérance de la somme atténuée des récompenses E[tγtRts0]E[\sum_t \gamma^t R_t|s_0] alors que l'objectif du joueur 2 est de minimiser cette quantité.

Par commodité, on notera:

  • Δ()\Delta(\cdot) the probability simplex over some finite set;

  • $\pi^i: \mathcal{S} \to \Delta(\mathcal{A}^i) $ une stratégie stochastique pour le joueur ii;

  • π=(π1,π2)\pi=(\pi^1,\pi^2) une stratégie jointe (ou une paire de stratégies) pour les deux joueurs;

  • r(π)r(\pi) le vecteur des récompenses immédiates espérées pour la stratégie (jointe) π\pi: r(π)(s)=a1,a2π1(a1s)π2(a2s)r(s,a1,a2)r(\pi)(s)=\sum_{a^1,a^2} \pi^1(a^1|s) \pi^2(a^2|s) r(s,a^1,a^2);

  • P(π)P(\pi) la matrice de transition induite par la stratégie π\pi.

Un tel jeu peut être ré-écrit en forme normale et résolu en cherchant alors un équilibre de Nash (une stratégie mixte).

Bellman's Optimality Equations

Définissons, pour tout vv, le jeu de matrice de Shapley Γs(v)=[r(s,,)+γsP,(ss)v(s)]\Gamma^s(v) = [r(s,\cdot,\cdot)+\gamma \sum_{s'} P_{\cdot,\cdot}(s'|s) v(s')] pour tout ss (c'est-à-dire, une valeur par paire d'action (a1,a2)(a^1,a^2)).

Alors, l'opérateur d'optimalité de Shapley H:vNEV(Γ(v))\mathcal{H}: v \mapsto NEV(\Gamma^{\cdot}(v)) est une fonction contractante, et son unique point fixe est la fonction de valeur des stratégies SGPNE, notée NEVNEV^*.

L'algorithme de Shapley pour résoudre les zs-SG, analogue à l'itération sur la valeur (VI) pour les MDP, consiste en l'application itérative de cet opérateur jusqu'à ϵ\epsilon-convergence, et alors, quand on est dans un état ss, d'agir selon la NES du jeu de Matrice de Shapley induit en ss.

Shapley's algorithm

blabla

HSVI algorithm

blabla