Fondements théoriques

Notations

  • xtx_t : état à l'instant tt
  • utu_t : action à l'instant tt
  • ztz_t : observation à l'instant tt
  • oto_t : historique à l'instant tt
  • dtd_t : règle de décision à l'instant tt
  • sts_t : état du controller à l'instant tt

Formalismes

Problème Etat Action Observation
MDP xtx_t utu_t xtx_t
POMDP bt=p(xtot)b_t = p\left( x_t \mid o_t \right) utu_t ztz_t
MMDP sts_t ut=(ut1,ut2,...,utn)\mathbf{u}_t = \left( u_t^1, u_t^2, ..., u_t^n\right) xtx_t
MPOMDP bt=p(xtot)b_t = p\left( x_t \mid \mathbf{o}_t \right) ut=(ut1,ut2,...,utn)\mathbf{u}_t = \left( u_t^1, u_t^2, ..., u_t^n\right) zt=(zt1,zt2,...,ztn)\mathbf{z}_t = \left( z_t^1, z_t^2, ..., z_t^n\right)
Dec-POMDP ξt=p(xt,otιt)\xi_t = p\left( x_t, o_t \mid \iota_t \right) dt=(dti)i=1..n=(p(uioti))i=1..n\mathbf{d}_t = (d_t^i)_{i=1..n} = \left(p(u^i \mid o_t^i)\right)_{i=1..n}
Extensive-Form Dec-POMDP ξti=p(xt,ot,ut0:i1ιt)\xi_t^i = p\left( x_t, o_t, u_t^{0:i-1} \mid \iota_t \right) dti=p(utioti)d_t^i = p(u_t^i \mid o_t^i)
(2p)-ZS-SG sts_t (p(ut1),p(ut2))(p(u_t^1),p(u_t^2))
(2p)-ZS-POSG ξt=p(xt,otιt)\xi_t = p\left( x_t, o_t \mid \iota_t \right) dt=(dti)i=1..n=(p(uioti))i=1..n\mathbf{d}_t = (d_t^i)_{i=1..n} = \left(p(u^i \mid o_t^i)\right)_{i=1..n}

Reformulation de problèmes