Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Policy Evaluation

Qu’est-ce que la policy evaluation ?

La policy evaluation consiste à calculer la valeur d’une politique donnée.

Informellement : si l’agent suit cette politique, quelle récompense moyenne peut-il espérer ?

On cherche donc à calculer la fonction de valeur :

  • : la policy/politique
  • : la valeur d’un état en suivant la politique .
  • Optionnellement : : la valeur d’état-action.

Pourquoi évaluer une politique ?

Avant de vouloir améliorer une politique (policy improvement), il faut savoir si elle est bonne.

La policy evaluation permet :

  • d’estimer combien la politique rapporte en moyenne ;
  • d’identifier les états bons/mauvais ;

Équations de Bellman

La valeur d’un état sous la politique est définie par :

Ce que ça veut dire :

  • On suit ce que la politique dit de faire ().
  • On regarde les transitions possibles.
  • On ajoute la récompense immédiate + la valeur future.

Méthodes pour faire la policy evaluation

1 Approche exacte : Iterative Policy Evaluation

On applique l’équation de Bellman en boucle jusqu’à convergence.

Pseudo-code :

initialiser V(s) = 0 pour tout s

répéter
    pour chaque état s :
        V_new(s) = somme_a π(a|s) * somme_s' P(s'|s,a) * [R(s,a,s') + γ V(s')]
    remplacer V par V_new
jusqu’à convergence

2 Monte-Carlo Policy Evaluation

On fait plusieurs épisodes :

  • on suit la politique ,
  • on regarde le retour observé,
  • on moyenne les retours pour estimer V.

Adapté lorsque le modèle (transition, récompenses) n’est pas connu.


Résumé simple

TermeSignification
Politique (π)Règles de décision de l’agent
Policy EvaluationCalculer combien rapporte cette politique
MéthodesBellman, Monte-Carlo
UtilitéBase de la policy iteration et de l'amélioration des politiques

Exemple

1) Rappel (formule utilisée — horizon fini)

On utilise la version horizon fini (avec discount) : si est la valeur avec h étapes restantes et ,

est l’état déterministe résultant de .

Paramètres utilisés :

  • états = {North, East, South, West}
  • actions = {clock, anti-clock, stay}
  • = 0.9
  • horizon (H = 10)
  • politique (uniforme)

2) Exemple de calcul manuel (pour h=1, état North)

Pour vérifier la formule :

  • transitions depuis North :

    • clock → East, (R=2)
    • anti-clock → West, (R=2)
    • stay → North, (R=-2)

Avec :

(Ça colle avec les calculs programmés ci-dessous.)


3) Résultats (valeurs pour h = 0..10)

hNorthEastSouthWest
00.00000.00000.00000.0000
10.66674.66671.66673.3333
23.26676.76674.56675.0333
35.18679.04676.57677.1933
47.094710.90978.51179.0203
58.774112.621510.199210.7213
610.236814.188111.647912.2011
711.503215.628812.876913.4774
812.909016.754914.337514.8503
914.020917.867115.449515.9624
1015.021818.867916.450416.9632

La colonne h donne le nombre d’étapes restantes. La dernière ligne est donc (valeur attendue en suivant uniforme pendant 10 étapes).


4) Interprétation rapide

  • East a la valeur la plus élevée (≈ 18.868 à l’horizon 10) : c’est logique car depuis East il y a une action avec grosse récompense (anti-clock = 10) et en moyenne la politique explore cette action 1/3 du temps.
  • North a une valeur plus faible au départ (récompense de stay négative), mais en plusieurs étapes la valeur augmente car les transitions mènent à états plus rémunérateurs.
  • Les valeurs augmentent avec h (plus d’étapes = plus de récompenses accumulées, malgré le discount).