Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Value Improvement

Définition de l’environnement

On considère le même environnement que pour les autres méthodes, afin de permettre une comparaison cohérente :

states = ["North", "South", "East", "West"]
actions = ["clock", "anti-clock", "stay"]
gamma = 0.9  
horizon = 10

Définition de Value Improvement

Value Improvement est un algorithme utilisé pour calculer la meilleure policy dans un MDP. Il sert à déterminer quelle est la meilleure action à faire dans chaque état pour maximiser la récompense cumulée.

Pour cela Value Improvement va appliquer de manière répétée l’équation de Bellman optimale :

Une fois les valeurs optimales trouvées, on en déduit la politique optimale :


Étape 1 — Initialisation

On commence avec une valeur d’état nulle pour tous les états :

Pour chaque état s :
    V[s] ← 0

Étape 2 — Itération de la valeur

Pour chaque état, on applique Bellman Optimality :

(Note : transitions déterministes → un seul s’ possible)

Pour iteration = 1 à H :
    Pour chaque état s :
        valeurs_actions = liste vide
        
        Pour chaque action a :
            s' = P(s, a)
            q = R(s,a) + gamma * V[s']
            ajouter q à valeurs_actions
        
        V_temp[s] = max(valeurs_actions)
    
    V = V_temp

À la fin, on obtient une estimation de .


Étape 3 — Extraction de la politique optimale

Une fois que les valeurs des états sont stabilisées, on choisit pour chaque état l’action qui maximise la valeur attendue :

Pour chaque état s :
    meilleur_score = -∞
    meilleure_action = null
    
    Pour chaque action a :
        s' = P(s, a)
        q = R(s,a) + gamma * V[s']
        
        Si q > meilleur_score :
            meilleur_score = q
            meilleure_action = a
    
    policy[s] = meilleure_action

Résultat final attendu

Après convergence, Value Improvement retourne :

  • La politique optimale
  • Les valeurs optimales d’état

Différence avec Policy Evaluation / Policy Improvement

MéthodeObjectifDépend d’une politique ?Type
Policy EvaluationÉvaluer OuiEstimation
Policy ImprovementAméliorer OuiOptimisation locale