HSVI

The algorithmic scheme of Heuristic Search Value Iteration (opens new window) (HSVI) was firstly introduced by Trey Smith and Reid Simmons.

Composantes

Components used in HSVI

Schéma algorithmique

Le schéma algorithmique général d'HSVI est représenté par le schéma ci-dessous. Pour en définir une instance, celui-ci nécessite de définir les notions d'état sts_t, d'action ata_t, de borne inférieur V\underline{V} et borne supérieur V¯\bar{V}.

HSVI scheme

Exemple : une instance d'HSVI est l'algorithme oHSVI. Cette instance permet de résoudre un Dec-POMDP formulé comme un occupancy-state MDP. Le type d'état dans ce cas est un état d'occupation, noté ξt=p(xt,otιt)\xi_t = p\left( x_t, o_t \mid \iota_t \right). Le type d'action est un ensemble de règles de décision individuelles, noté dt=(dt1,...,dtn)=(p(u1ot1),p(u2ot2),...,p(unotn))\mathbf{d}_t = (d_t^1, ..., d_t^n) = \left(p(u^1 \mid o_t^1), p(u^2 \mid o_t^2),..., p(u^n \mid o_t^n)\right). La borne inférieure est représentée par une ensemble d'hyperplan et la borne supérieure par un ensemble de point.