Value Improvement
Définition de l’environnement
On considère le même environnement que pour les autres méthodes, afin de permettre une comparaison cohérente :
states = ["North", "South", "East", "West"]
actions = ["clock", "anti-clock", "stay"]
gamma = 0.9
horizon = 10
Définition de Value Improvement
Value Improvement est un algorithme utilisé pour calculer la meilleure policy dans un MDP. Il sert à déterminer quelle est la meilleure action à faire dans chaque état pour maximiser la récompense cumulée.
Pour cela Value Improvement va appliquer de manière répétée l’équation de Bellman optimale :
Une fois les valeurs optimales trouvées, on en déduit la politique optimale :
Étape 1 — Initialisation
On commence avec une valeur d’état nulle pour tous les états :
Pour chaque état s :
V[s] ← 0
Étape 2 — Itération de la valeur
Pour chaque état, on applique Bellman Optimality :
(Note : transitions déterministes → un seul s’ possible)
Pour iteration = 1 à H :
Pour chaque état s :
valeurs_actions = liste vide
Pour chaque action a :
s' = P(s, a)
q = R(s,a) + gamma * V[s']
ajouter q à valeurs_actions
V_temp[s] = max(valeurs_actions)
V = V_temp
À la fin, on obtient une estimation de .
Étape 3 — Extraction de la politique optimale
Une fois que les valeurs des états sont stabilisées, on choisit pour chaque état l’action qui maximise la valeur attendue :
Pour chaque état s :
meilleur_score = -∞
meilleure_action = null
Pour chaque action a :
s' = P(s, a)
q = R(s,a) + gamma * V[s']
Si q > meilleur_score :
meilleur_score = q
meilleure_action = a
policy[s] = meilleure_action
Résultat final attendu
Après convergence, Value Improvement retourne :
- La politique optimale
- Les valeurs optimales d’état
Différence avec Policy Evaluation / Policy Improvement
| Méthode | Objectif | Dépend d’une politique ? | Type |
|---|---|---|---|
| Policy Evaluation | Évaluer | Oui | Estimation |
| Policy Improvement | Améliorer | Oui | Optimisation locale |