Markov Decision Process (MDP)

Un Markov Decision Process (MDP) est une extension du processus de Markov dans lequel un agent peut choisir une action à chaque étape.
Le passage d’un état à un autre ne dépend donc plus uniquement de l’état actuel, mais aussi de l’action effectuée.

L’idée global par rapport a MP :

À chaque état, l’agent choisit une action.
Cette action influence la probabilité des états futurs et la récompense qu’il reçoit.

Définition

Un MDP est défini par ces 5 variables :

$(S, A, P, R, γ)$

$P (s, a, s^{'}) = P (S_{t + 1} = s^{'} ∣ S_{t} = s, A_{t} = a)$ : probabilité de transition
$R (s, a)$ : récompense immédiate reçue en faisant l’action $a$ dans l’état $s$
$γ \in [0, 1]$ : facteur d’actualisation (favorise les récompenses immédiates si $γ$ proche de 0, futures si proche de 1, en gros si on découvre ou si on joue avec nos connaissance)

Fonction de transition

La probabilité de transition dépend maintenant de l’action :

$P (s, a, s^{'}) = P (S_{t + 1} = s^{'} ∣ S_{t} = s, A_{t} = a)$

Pas comme le MP de base le MDP dépend de l'état et de la nouvelle variable l'action

Récompense

La récompense sert a savoir si une action est correcte ou non.

Elle peut être positive (gain) ou négative (coût) ou neutre si elle n'a aucun importance.

Bien choisir ses récompenses fait change tout, si elles sont mal choisis cela peut mener a un mauvaise apprentissage (pour plus tard)

Politique

Une politique ou policy est une une fonction qui pour un état s nous dis quel action a effectuer :

$π (s) = a$

ou (si stochastique) :

$π (a ∣ s) = P (A_{t} = a ∣ S_{t} = s)$

MDP + politique

Il est possible d'obtenir un Markov Reward Process (MRP) à partir d'un MDP, en lui ajoutant une politique.

Etant donné un MDP (S, A, P, R, gamma) et une politique Pi , on définit le MRP

$M^{π} = (S, P^{π}, R^{π}, g amma)$ avec

$P^{π} (s^{'} ∣ s) = a \in A \sum π (a ∣ s) P (s^{'} ∣ s, a)$

$R^{π} (s) = a \in A \sum π (a ∣ s) R (s, a)$

comme $M^{π}$ est un MRP, on a donc la définition $V_{M^{π}} (s)$ qui est définie (comme $E (G (s))$ , cf. avant).

Valeur d’une politique

La valeur d’un état sous une politique $π$ est l’espérance des récompenses cumulées :

$V^{π} (s) = E [t = 0 \sum \infty γ^{t} \cdot R (S_{t}, π (S_{t})) ∣ S_{0} = s]$

Etant donné un $M D P (S, A, P, R, g amma)$ , on définit $V^{π} (s) = V_{M^{π}} (s)$

Cette formule mesure si dans longtemps nos actions seront bien ou mal, (si le chemin est bon ou mauvais a long termes).

Objectif de l’agent

Trouver la meilleure politique $π^{⋆}$ telle que :

$π^{⋆} = ar g π max V^{π} (s)$

Autrement dit : choisir les actions permettant d’obtenir le maximum de récompenses cumulées.

Exemple

Le joueur peut être dans deux états :

$S = {D \overset{e}{ˊ} but, Victoire}$

À chaque tours, il a deux action possibles :

$A = {Tenter, Abandonner}$

Tenter : on lance une pièce.
- Si c’est face -> on gagne -> on va dans l’état Victoire
- Si c’est pile -> on reste dans l’état Début
Abandonner : on tente rien, sans gagner -> on reste dans Début (et on gagne jamais)

Probabilités de transition

Depuis Début :
- $P (D \overset{e}{ˊ} but, Tenter, Victoire) = 0.5$
- $P (D \overset{e}{ˊ} but, Tenter, D \overset{e}{ˊ} but) = 0.5$
- $P (D \overset{e}{ˊ} but, Abandonner, D \overset{e}{ˊ} but) = 1$
Depuis Victoire :
- La partie est terminée (on reste en victoire ou on stop le jeu)

Récompenses

On gagne 1 point seulement quand on atteint Victoire :

$R (D \overset{e}{ˊ} but, Tenter) = 1/2$

Et :

$R (D \overset{e}{ˊ} but, Abandonner) = 0$

La meilleure politique $π^{⋆}$ est donc (je crois) :

$π^{⋆} (D \overset{e}{ˊ} but) = Tenter$

car c’est la seul qui permet d’obtenir une récompense.

Exemple

Données

$P (s^{'} ∣ s, a_{0}) = (0.8 0.4 0.2 0.6) P (s^{'} ∣ s, a_{1}) = (0.9 0.5 0.1 0.5)$

$R (s, a_{0}) = (5, 10) R (s, a_{1}) = (2, 8)$

$π (a ∣ s_{0}) = (0.6, 0.4) π (a ∣ s_{1}) = (0.3, 0.7)$

Calcul de $P^{π}$

Pour $s_{0}$

$P (0, 0) = π (a_{0} ∣ s_{0}) \times P (s_{0}^{'} ∣ s_{0}, a_{0}) + π (a_{1} ∣ s_{0}) \times P (s_{0}^{'} ∣ s_{0}, a_{1})$

$= (0.6 \times 0.8) + (0.4 \times 0.9) = 0.84$

$P (0, 1) = π (a_{0} ∣ s_{0}) \times P (s_{1}^{'} ∣ s_{0}, a_{0}) + π (a_{1} ∣ s_{0}) \times P (s_{1}^{'} ∣ s_{0}, a_{1})$

$= (0.6 \times 0.2) + (0.4 \times 0.1) = 0.16$

Pour $s_{1}$

$P (1, 0) = π (a_{0} ∣ s_{1}) \times P (s_{0}^{'} ∣ s_{1}, a_{0}) + π (a_{1} ∣ s_{1}) \times P (s_{0}^{'} ∣ s_{1}, a_{1})$

$= (0.3 \times 0.4) + (0.7 \times 0.5) = 0.47$

$P (1, 1) = π (a_{0} ∣ s_{1}) \times P (s_{1}^{'} ∣ s_{1}, a_{0}) + π (a_{1} ∣ s_{1}) \times P (s_{1}^{'} ∣ s_{1}, a_{1})$

$= (0.3 \times 0.6) + (0.7 \times 0.5) = 0.53$

Résultat final

$P^{π} = (0.84 0.47 0.16 0.53)$

Calcul de $R^{π}$

$R^{π} (s_{0}) = π (a_{0} ∣ s_{0}) \times R (s_{0}, a_{0}) + π (a_{1} ∣ s_{0}) \times R (s_{0}, a_{1})$

$= (0.6 \times 5) + (0.4 \times 10) = 7$

$R^{π} (s_{1}) = π (a_{0} ∣ s_{1}) \times R (s_{1}, a_{0}) + π (a_{1} ∣ s_{1}) \times R (s_{1}, a_{1})$

$= (0.3 \times 2) + (0.7 \times 8) = 6.2$

Résultat final

$R^{π} = (7 6.2)$

En code

Fonction Construire_MRP_Depuis_MDP(P, R, Politique):

    n_etats ← nombre d'états dans P
    n_actions ← nombre d'actions dans P

    P_MRP ← matrice n_etats × n_etats remplie de 0
    R_MRP ← vecteur de taille n_etats rempli de 0

    Pour chaque état s de 0 à n_etats−1 faire:
        Pour chaque action a de 0 à n_actions−1 faire:

            P_MRP[s] ← P_MRP[s] + Politique[s][a] × P[s][a]

            R_MRP[s] ← R_MRP[s] + Politique[s][a] × R[s][a]
        FIN Pour
    FIN Pour
    Retourner P_MRP, R_MRP

Conclusion

Un MDP est donc un modèle qui fait une prise de décision étape par étape.
en gros il ajoute au MP de base :

Le choix d’actions
La récompense
La notion de politique optimale

Traces écrites :

MRP à partir d'un MDP

Keyboard shortcuts

SAE