Value functions

Tabular Value

Structure

Tabular representation of V

Evaluation

L'évaluation d'un nouveau point ss est la valeur du tableau correspondant à ce point.

V(s)=VisV(s)=V_{i_s} where isi_s is the index of the state in the table

Update operator

PWLC Value

Structure

Prenons le cas général d'une statistique suffisante ss définit sur le (n+1)(n+1)-simplexe (i.e s[0,1]ns \in [0,1]^n et x=1ns(x)=1\sum_{x=1}^n s(x) = 1).

La fonction de valeur V:[0,1]nRV : [0,1]^n \rightarrow \mathbb{R} est convexe et linéaire par morceaux. On peut donc l'approximer grâce à un ensemble d'hyperplans définis sur le simplexe. Une des représentation utilisée dans SDMS consiste à garder un ensemble d'hyperplans, noté Γα\Gamma_{\alpha}, sur le simplexe.

PWLC representation of V

Evaluation

L'évaluation d'un nouveau point ss est dépendant de la boule d'appartenance de ce dernier.

V(s)=maxαΓααs=maxαΓαxSupp(s)α(x)s(x)V(s)=\max_{\alpha \in \Gamma_{\alpha}} \alpha \bullet s = max_{\alpha \in \Gamma_{\alpha}} \sum_{x \in Supp(s)} \alpha (x) s(x)

Update operator

Successive updates

Sawtooth Value

Evaluation

L'évaluation d'un nouveau point ss est une interpolation entre les points existants.

V(s)=Vrelax(s)+minκ[minxSupp(sκ)[s(x)sκ(x)(Vrelax(sκ)Vκ)]]V(s) = V^{relax}(s) + \min_{\kappa} \left[ \min_{x\in Supp(s^{\kappa})} \left[ \frac{s(x)}{s^{\kappa}(x)} \left( V^{relax}(s^{\kappa}) - V^{\kappa} \right)\right] \right]