Markov Reward Process (MRP)

Un Markov Reward Process (MRP) est un processus de Markov avec une fonction qui indique combien on gagne (ou perd) à chaque transition.

Définition

Un MRP est défini par le quadruplet :

$(S, P, R, γ)$

où ( $S$ , $P$ ) est un processus de markov (MP)

$R (s, s^{'})$ : récompense associée à l’état ou à la transition
$γ \in [0, 1]$ : facteur d’actualisation (plus $γ$ est proche de 1, plus les récompenses futures comptent)

Autrement dit :

Un MRP = Processus de Markov + Récompenses + Facteur d’actualisation.

Récompense

$R (s)$ est le gain obtenu en étant dans l'état s à l'instant t

$G (s)$ est la somme de toutes les récompenses récoltées au cours du temps.

$G (s) = R (X_{0}) + γ R (X_{1}) + γ^{2} R (X_{2}) + \dots + γ^{i} R (X_{i})$ $G (s) = i = 0 \sum \infty γ^{i} R (X_{i})$ où $X_{i}$ est une chaîne de markov avec $X_{0}$ = s

Remarque : G(s) est une variable aléatoire (correspondant au gain que l'on va observer en partant de s et suivant un chemin en fonction des probabilités indiquées sur les arcs)

Comme $G (s)$ est une variable aléatoire, on ne peut pas se baser sur cette dernière pour définir une stratégie. Dans ce cas, on va définir $V (s)$ qui représente le gain moyen observé en partant de l'état $s$

$V (s) = E [G (s)]$

La valeur d’un état mesure la récompense totale attendue à long terme, en partant de cet état :

Équation de Bellman

La fonction V vérifie l'équation de Bellman :

$V (s) = R (s) + γ s^{'} \sum P (s, s^{'}) V (s^{'})$ Cette équation exprime que :

on reçoit immédiatement $R (s)$
puis on se déplace vers un état futur $s^{'}$
avec probabilité $p (s, s^{'})$
tout en tenant compte de la valeur de cet état futur

Exemple

On a deux états :

$S = {Normal, Bonus}$

Transitions :

Depuis Normal :
- $P (Normal \to Bonus) = 0.3$
- $P (Normal \to Normal) = 0.7$
Depuis Bonus :
- $P (Bonus \to Normal) = 1$

Récompenses :

$R (Normal) = 0$
$R (Bonus) = + 5$

Facteur d’actualisation :

$γ = 0.9$

Interprétation

L’état Bonus rapporte +5, mais ne dure pas.
Depuis Normal, on peut atteindre Bonus, mais ce n’est pas garanti.
La valeur $V (s)$ permet de savoir si ça "vaut le coup" d’être dans un état.

Calcul de la valeur d'un MRP

Valeurs des variables sur les exemples :

P = np.array([[0.7, 0.3],
              [0.4, 0.6]])
R = np.array([5, 10])
gamma = 0.9

FORME VECTORIELLE

Fonction Bellman_Vector_Forme(P, R, gamma):

    n ← nombre de lignes de P

    I ← matrice identité de taille n × n

    A ← I - gamma × P

    A_inv ← inverse de A

    V ← A_inv × R

    Retourner V

Données :

$P = (0.7 0.4 0.3 0.6) R = (510) γ = 0.9$

Méthode vectorielle :

$V = (I - γ P)^{- 1} R$

I une matrice d'identité donc :

$I = (1001)$

donc :

$[I - γ P]^{- 1} = [(1001) - 0.9 (0.7 0.4 0.3 0.6)]^{- 1}$

$= [(1 - 0.63 - 0.36 - 0.27 1 - 0.54)]^{- 1} = (0.37 - 0.36 - 0.27 0.46)^{- 1}$

Il faut maintenant calculer l’inverse de cette matrice, pour résoudre cela on applique cette formule :

$A^{- 1} = \frac{1}{det ( A )} (d - c - b a)$

$det (I - γ P) = 0.37 \times 0.46 - (- 0.27) \times (- 0.36)$

$= 0.1702 - 0.0972 = 0.073$

$(I - γ P)^{- 1} = \frac{1}{0.073} (0.46 0.36 0.27 0.37) = (6.3013 4.9315 3.6986 5.0685)$

$V = (6.3013 4.9315 3.6986 5.0685) \cdot R = (6.3013 4.9315 3.6986 5.0685) \cdot (510)$

$= (6.3013 \times 5 + 3.6986 \times 10 4.9315 \times 5 + 5.0685 \times 10) = (68.4925 75.3425)$

$V = (68.4925 75.3425)$

FORME RECURSIVE

Fonction Bellman_Forme_Récursive(P, R, gamma):

    V ← vecteur nul de même taille que R
    seuil ← 0.0000001
    max_iterations ← 10000

    Pour k allant de 1 à max_iterations faire:

        V_nouveau ← R + gamma × P × V

        SI max(|V_nouveau − V|) < seuil alors:
            Sortir de la boucle
        FIN SI

        V ← V_nouveau
    FIN Pour

    Retourner V

Pour ( R, P ) et ( $γ$ ), on prendra les mêmes données que la forme vectorielle.

Méthode récursive :

$V (s) = R (s) + γ \sum P (s, s^{'}) V (s^{'})$