IFT-4201 Apprentissage par renforcement
Description
Outils théoriques expliquant les raisons, les conditions et les garanties de fonctionnement d'un algorithme; formulation d'un problème réel (instance d'apprentissage par renforcement interactif); caractérisation empirique des algorithmes; environnements simples (Multi-Armed Bandit) communément utilisés pour aborder des problèmes d'apprentissage par renforcement interactif; algorithmes fondamentaux (Upper Confidence Bound, Thompson Sampling) permettant d'aborder le compromis exploration-exploitation en apprentissage par renforcement; utilisation efficace de l'information structurelle par la régression paramétrique ou non et par les réseaux de neurones; variantes dans les dynamiques des environnements et applications associées, y compris l'optimisation bayésienne; prise de décision séquentielle dans les processus de décision markoviens (MDP).
Responsables
Faculté : Sciences et génie
Courriel : fsg@fsg.ulaval.ca
Département : Département d'informatique et de génie logiciel
Courriel : info@ift.ulaval.ca
Cette activité est contributoire dans
Baccalauréat en informatique (B. Sc. A.) (cours à option)
3
Crédits