* Ces horaires sont donnés à titre indicatif.
Le contenu de cette UE est accessible après validation d'un M1 en Informatique ou équivalent.
Pré requis (souhaitables) :
- programmation (python, Java)
- algorithme de recherche de chemins
- réseaux de neurones (PyTorch)
Le contenu de cet enseignement permet d’acquérir des connaissances relatives au domaine de la prise de décision pour des agents autonomes.
Les compétences acquises sont :
- savoir modéliser un problème de décision séquentielle sous forme de processus décisionnel de Markov
- savoir résoudre une problème posé sous forme de processus décisionnel de Markov avec des méthodes de planification (itération sur les valeurs, itération sur les politiques) et d’apprentissage par renforcement (approches monte-carlo, q-learning tabulaire)
- connaître les limitations des approches tabulaires en apprentissage par renforcement, et les algorithmes qui passent à l’échelle (approximation linéaire avec le Q-Learning approximé, approximation non linéaire )
- connaître les approches récentes en apprentissage profond par renforcement qui utilisent les réseaux de neurones ( Deep Q-Network, Policy gradient).
- connaître les principales différences entre les grandes classes d’algorithmes d’apprentissage par renforcement
- Implémenter et entraîner certains algorithmes d’apprentissage par renforcement
- connaître et appliquer l’approche BDI (Belief-Desire-Intention)
Ce cours aborde différentes approches de prise de décision pour des agents autonomes. Les approches basées sur les modèles de décision markoviens (MDP) seront tout d’abord présentées, avec les principes et algorithmes de base en planification sous incertitudes (itération sur les valeurs et sur les politiques), puis l’apprentissage par renforcement tabulaire (Q-Learning, Monte-carlo) et avec approximation linéaire. Ensuite, on s’intéressera aux approches récentes en apprentissage profond par renforcement qui utilisent les réseaux de neurones (Deep Q-Network, Policy gradient). En TP, les différents algorithmes seront implémentés en Python/PyTorch et évalués en utilisant la librairie de Gymnasium. Enfin, l’approche BDI (Belief-Desire-Intention) sera étudiée.
L’UE se découpe 4 parties :
- Présentation des processus décisionnels de Markov et résolution lorsque le modèle est connu
- Apprentissage par renforcement : approches tabulaires et passage à l’échelle (fonction d’approximation)
- Apprentissage profond par renforcement
- Approche BDI (Belief-Desire-Intention)