SAE

Rapport de la SAE

Réalisé par Evan Nunes, Rostaing Damien, Mattéo T, Mattéo B, Hicham F, Paulo MP

Tuteur / Client : Marin Bougeret & Victor Poupet

Année Universitaire 2025 – 2026

Du 29 Septembre au ?? Mai

Introduction

Dans le cadre de notre formation en BUT Informatique, nous avons choisi de nous consacrer à un projet ambitieux et stimulant : l’apprentissage par renforcement (“Reinforcement Learning”). Ce domaine de l’intelligence artificielle, en pleine expansion, permet à un agent d’apprendre à prendre des décisions optimales en interagissant avec un environnement dynamique. L’agent observe son environnement, agit, reçoit une récompense, et ajuste ses actions en conséquence, créant ainsi une boucle d’apprentissage autonome.

Notre projet, intitulé « Apprentissage par renforcement, application à l’écriture d’IA jouant à des jeux d’arcade », a pour objectif d’explorer les mécanismes fondamentaux du RL. Nous nous sommes fixés comme défi de concevoir et d’entraîner des agents capables de jouer à des jeux variés, allant de jeux simplistes — où le nombre d’états est limité — à des jeux plus complexes, comme des classiques d’arcade tels qu’Arkanoid ou Tetris, voire des jeux combinatoires. Ce travail est encadré par Marin Bougeret et Victor Poupet, et s’inscrit dans une démarche à la fois théorique et pratique.

Objectifs du projet

Ce projet vise plusieurs objectifs majeurs :

Comprendre et formaliser les algorithmes classiques d’apprentissage par renforcement : Nous avons étudié en profondeur les principes sous-jacents de ces algorithmes, leurs forces, leurs limites, et leurs propriétés mathématiques.
Découvrir les bonnes pratiques pour entraîner ces algorithmes : Cela inclut la définition des entrées adaptées pour l’agent, la conception de systèmes de récompenses efficaces, et l’optimisation des paramètres pour garantir une convergence rapide et robuste.
Explorer les arbres de recherche de Monte Carlo (MCTS) : Nous aborderons également les méthodes hybrides, comme le Monte Carlo Tree Search (MCTS), utilisé avec succès dans des applications.

Outils et méthodologie

Pour mener à bien ce projet, nous avons utilisé le langage Python et la bibliothèque Gymnasium. Cette librairie, spécialement conçue pour faciliter l’implémentation d’algorithmes de RL, nous a fourni les outils nécessaires pour modéliser des environnements, simuler des interactions, et évaluer les performances de nos agents. Bien que la maîtrise préalable de Python ne fût pas obligatoire, ce projet a été l’occasion d’approfondir nos compétences en programmation et en algorithmique.

Motivations

Ce sujet nous a particulièrement attirés pour son aspect pluridisciplinaire, mêlant algorithmes avancés, mathématiques appliquées, et expérimentation pratique. Il offre une opportunité unique de comprendre comment les machines peuvent apprendre à résoudre des tâches complexes de manière autonome, tout en développant des compétences techniques et analytiques essentielles dans le domaine de l’IA.

Structure du rapport

Ce rapport retrace notre démarche, depuis l’étude théorique des algorithmes de RL jusqu’à leur implémentation concrète. Nous y détaillons :

Les concepts clés de l’apprentissage par renforcement.
Les choix méthodologiques et techniques que nous avons effectués.
Les résultats obtenus, ainsi que les défis rencontrés et les solutions apportées.
Les perspectives d’amélioration et les pistes pour de futurs travaux.

Mode dev md-book

Note à savoir

le rapport md-book est disponible en ligne au lien donné

Docker (dev)

Dockerfile

FROM debian:trixie

WORKDIR /workspace

RUN apt update && apt install -y curl build-essential


RUN curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y
ENV PATH="/root/.cargo/bin:${PATH}"


RUN cargo install mdbook mdbook-katex

EXPOSE 8180

ENTRYPOINT ["/bin/bash", "-c", "mdbook serve -n 0.0.0.0 -p 8180"]

Build de la Dockerfile

docker build -t mdbook-live .

Création du containeur

docker run -it --rm -p 8180:8180-v lien/vers/git/sae:/workspace mdbook-live

lien si rien changé en local local

SI vous ne pouvez pas utiliser docker ou que vous avez envie de le faire manuellement

Linux:

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env

la deuxième ligne permet de réactualiser l'env bash/zsh ou on est pour faire en sorte de ne pas avoir a redémarre le terminal

OU

je suppose (j'ai pas essayé mais ca doit marcher)

Debian based:

sudo apt install rustc cargo

Fedora based:

sudo dnf install rust cargo

Arch based:

sudo pacman -S rust

Après installation de rust

on va installer mdbook et un plugin pour prerender du Latex

après en allant dans le dossier de la SAE puis en rentrant dans le dossier mdbook

on fait

cargo install mdbook

puis

cargo install mdbook-katex

et enfin pour faire une serveur local pour le dev

mdbook serve --open

pour build:

mdbook build

Windows:

installer sur le site de rust le .exe en x64 et installer rust

ensuite installer le .exe mdbook ici installer mdbook-v0.4.52-x86_64-pc-windows-msvc.zip

glisser le .exe dans l'archive directement dans le dossier mdbook de la SAE

ensuite on installe le plugin ici il faut développer le v0.9.3-binaries et télécharger le mdbook-katex-v0.9.3-x86_64-pc-windows-gnu.zip et extraire le .exe au meme endroit que celui de mdbook

normalement si tout c'est bien fait les commandes sont les même que linux sauf que faut faire

.path\to\mdbook.exe ma_commande

Gestion des tâches

Ajouter une tâche

Tâches à faire

Titre	Contenu	Importance	Date limite	Actions

Tâches terminées

Titre	Contenu	Importance	Date limite	Actions

By Evan et Damien

Méthode	Objectif	Dépend d’une politique ?	Type
Policy Evaluation	Évaluer $V_{π}$	Oui	Estimation
Policy Improvement	Améliorer $π$	Oui	Optimisation locale

Terme	Signification
Politique (π)	Règles de décision de l’agent
Policy Evaluation	Calculer combien rapporte cette politique
Méthodes	Bellman, Monte-Carlo
Utilité	Base de la policy iteration et de l'amélioration des politiques

h	North	East	South	West
0	0.0000	0.0000	0.0000	0.0000
1	0.6667	4.6667	1.6667	3.3333
2	3.2667	6.7667	4.5667	5.0333
3	5.1867	9.0467	6.5767	7.1933
4	7.0947	10.9097	8.5117	9.0203
5	8.7741	12.6215	10.1992	10.7213
6	10.2368	14.1881	11.6479	12.2011
7	11.5032	15.6288	12.8769	13.4774
8	12.9090	16.7549	14.3375	14.8503
9	14.0209	17.8671	15.4495	15.9624
10	15.0218	18.8679	16.4504	16.9632

État	Haut	Bas	Droite	Gauche
0	-9.99210801	-8.49905365	-9.96873511	-9.97954181
1	-9.97323781	-9.91215445	-8.33228183	-9.99915935
2	-10.00388677	-10.23180185	-10.07166236	-9.73473535
3	-9.99997101	-7.45813417	-10.91437617	-9.95598325
4	-10.08972844	-10.69451803	-7.17570464	-9.48198106
5	-10.62325605	-14.82546777	-11.90430301	-9.42308069
6	-11.24479547	-12.86744750	-9.30914768	-10.01729238
7	-11.77483490	-5.21703100	-19.58074902	-10.97093166
8	-7.23376538	-4.68559000	-6.86972649	-8.75980866
9	-7.42512591	-4.09510000	-11.70929681	-7.43962579
10	-8.10874203	-3.43900000	-6.86184204	-16.38296229
11	-8.43373724	-6.87076747	-2.71000000	-9.64044024
12	-8.64914828	-10.17597973	-10.14655403	-9.99706122
13	-9.95544362	-8.14697981	-9.99285715	-9.88178552
14	-10.10210937	-7.94108868	-13.73108281	-9.54514337
15	-7.71232075	-9.98579396	-14.60393894	-26.60352352
16	-18.52465973	-6.86189404	-43.23296514	-14.34072477
17	-15.92786108	-6.51321560	-44.97597411	-22.37019632
18	-9.50219137	-6.12579511	-14.49257139	-8.91879225
19	-5.69532790	-10.20272995	-14.03531045	-7.69182985
20	-21.48923512	-6.41501248	-45.57956412	-19.92503971
21	-4.74245989	-12.62295891	-75.88020779	-14.73487408
22	-21.78871323	-3.00659425	-18.52295667	-19.87208179
23	-7.73863520	-3.30384668	-1.90000000	-6.81267563
24	-8.78423345	-10.98565642	-12.08450243	-10.34463924
25	-12.75062101	-15.07860915	-112.05585907	-9.95740964
26	-73.21164858	-10.07111925	-172.38504021	-79.69196470
27	-87.01499553	-9.17163996	-154.48678363	-40.52259530
28	-32.13884154	-7.89704097	-194.23900592	-46.24976750
29	-52.09242593	-7.27913591	-151.87316411	-61.28637140
30	-6.53033714	-51.30627756	-115.04817395	-86.94765189
31	-6.91409448	-24.81664312	-109.00000000	-71.63522003
32	-32.84144992	-95.79782884	-174.47402603	-37.23675123
33	-59.30309834	-93.13388119	-125.51040985	-94.29982186
34	-21.57773586	-2.71339474	-109.00000001	-113.95936886
35	-2.95814227	-5.30958996	-1.00000000	-3.76921467
36	-8.90581011	-108.83108543	-23.27851669	-14.85203034
37	0.00000000	0.00000000	0.00000000	0.00000000
38	0.00000000	0.00000000	0.00000000	0.00000000
39	0.00000000	0.00000000	0.00000000	0.00000000
40	0.00000000	0.00000000	0.00000000	0.00000000
39	0.00000000	0.00000000	0.00000000	0.00000000
..	..	..	..	..
47	0.00000000	0.00000000	0.00000000	0.00000000

État	Haut	Bas	Droite	Gauche
0	-9.73968709	-8.79530549	-10.01206850	-10.00210456
1	-9.82760327	-7.45813417	-9.82045119	-9.48656012
2	-9.38771459	-7.17570464	-9.67018699	-8.72685760
3	-39.00742696	-6.86189404	-18.88764391	-20.60904758
4	-9.80729351	-6.51321560	-9.36848747	-9.33764982
5	-8.90235402	-6.12579511	-9.98311813	-9.40489783
6	-8.87090982	-5.69532790	-10.82553428	-9.70654697
7	-10.20017481	-5.21703100	-9.73340105	-9.24997950
8	-8.27001219	-4.68559000	-8.80989162	-9.21368897
9	-6.89449227	-4.09510000	-5.26835750	-8.29645442
10	-6.29605240	-10.31025816	-3.43900000	-7.90454438
11	-9.86702374	-11.27842042	-12.14744609	-7.41845880
12	-9.53854322	-7.94108868	-9.89780956	-9.83118541
13	-7.71232075	-31.66444089	-48.59003512	-14.84989546
14	-43.32729696	-51.40595705	-80.50679846	-9.19894502
15	-77.49439888	-10.47056594	-174.37853581	-34.81151133
16	-7.74044526	-93.08833580	-108.77052604	-41.73735940
17	-10.00705926	-20.82933280	-41.09802945	-16.79272460
18	-10.51242932	-12.63048211	-23.28944054	-13.63519096
19	-9.70343515	-10.11398361	-14.61795607	-11.87211981
20	-7.67016727	-12.93871109	-13.51868006	-16.50237695
21	-11.52459252	-4.14465537	-42.52443696	-16.17919930
22	-7.12802652	-2.71000000	-7.74301966	-8.75302852
23	-10.46136461	-4.33880088	-1.90000000	-12.03576050
24	-8.14697981	-27.51830793	-103.81940139	-43.26027093
25	-12.19593457	-106.44048041	-217.18284325	-76.28859311
26	-65.54268233	-123.81896868	-222.35297007	-138.54435033
27	-52.06961435	-259.93566374	-200.83775287	-123.88062530
28	-29.80513049	-84.55516706	-237.14257815	-85.73754356
29	-10.04178274	-33.83151188	-175.42188689	-28.89546268
30	-33.62342717	-23.85200519	-120.11647267	-19.09340401
31	-38.08828723	-37.52484643	-208.09527507	-10.21000165
32	-10.55714899	-26.89897112	-217.17444279	-181.12780164
33	-29.49168276	-15.97045241	-112.41843795	-13.14863558
34	-3.90615667	-14.19701269	-109.00000000	-148.15154582
35	-2.92966683	-7.31796367	-1.00000000	-7.42077200
36	-8.33228183	-185.72414176	-92.70514590	-101.35436571
37	0.00000000	0.00000000	0.00000000	0.00000000
38	0.00000000	0.00000000	0.00000000	0.00000000
39	0.00000000	0.00000000	0.00000000	0.00000000

État	Haut	Bas	Droite	Gauche
0	-10.00000000	-9.99952035	-9.78915549	-10.00895063
1	-10.40719630	-10.22516870	-10.30796138	-9.88561573
2	-9.96079924	-9.97416406	-9.81946060	-9.94031704
3	-10.33552644	-10.26348156	-12.40173589	-9.93004583
4	-9.98137921	-9.81280882	-9.32341053	-10.05834800
5	-9.99948833	-10.04787892	-8.61535552	-10.04088156
6	-9.83185884	-10.68067133	-13.30885043	-9.66022277
7	-10.51013447	-10.57849359	-7.35378941	-11.82801515
8	-7.21014527	-4.68559000	-9.25241037	-9.70690467
9	-15.95963822	-4.09510000	-24.83795002	-7.76776130
10	-18.73551441	-6.58889350	-3.43900000	-9.54866684
11	-10.25058886	-7.87281481	-4.46692319	-10.21244381
12	-9.93331604	-7.94108868	-9.95762312	-9.96602376
13	-10.14213617	-7.71232075	-10.93937212	-9.74880369
14	-9.99924587	-7.45813417	-18.82381697	-10.26317073
15	-9.89840874	-7.17570464	-14.26891926	-9.94959006
16	-9.41167345	-6.86189404	-9.26863322	-11.73770607
17	-10.41937483	-6.51321560	-10.23685069	-8.84124320
18	-12.92264311	-6.12579511	-17.69565613	-9.37879884
19	-10.48280678	-5.69532790	-10.96807833	-11.21849028
20	-5.21703100	-6.77179924	-13.21333476	-17.06518644
21	-15.06093399	-4.49421692	-59.95728545	-14.62329667
22	-7.69542262	-2.71000000	-7.76124538	-5.97427829
23	-8.04166036	-6.16398826	-1.90000000	-4.25717948
24	-8.14697981	-12.38935829	-13.34840030	-10.01624639
25	-9.98306595	-14.90251466	-124.8241587	-14.37421629
26	-17.41506340	-21.72810194	-117.09896139	-35.60793951
27	-9.65693692	-52.98819085	-145.01937378	-40.67283392
28	-76.45936165	-8.48155211	-164.45193539	-71.52772704
29	-8.11971076	-84.91320547	-185.11469793	-31.70094808
30	-10.72671977	-26.89375654	-116.83432829	-14.51942861
31	-8.43344453	-54.13948058	-109.04560678	-34.61956956
32	-7.20908545	-58.31642906	-112.24431514	-73.03241194
33	-42.18930564	-32.19347870	-165.70347789	-66.62344412
34	-66.35801093	-1.91106281	-199.17342723	-99.10172950
35	-5.79111997	-1.90000000	-1.00000000	-4.66174354
36	-8.33228183	-140.49575488	-31.65184903	-22.42365944
37	0.00000000	0.00000000	0.00000000	0.00000000
38	0.00000000	0.00000000	0.00000000	0.00000000
39	0.00000000	0.00000000	0.00000000	0.00000000

Variable	Signification	Intervalle approximatif
cart_pos	Position du chariot	[-2.4, 2.4]
cart_vel	Vitesse du chariot	[-3.0, 3.0]
pole_angle	Angle du poteau	[-0.21, 0.21]
pole_vel	Vitesse angulaire du poteau	[-3.5, 3.5]

Keyboard shortcuts

SAE

Rapport de la SAE

Ajouter une tâche

Contenu complet

source: wikipédia (attention hyper complexe)