* Ces horaires sont donnés à titre indicatif.
Savoir représenter des données multivariées et associer des indicateurs statistiques pertinent.
Savoir mettre en œuvre et interpréter une Analyse en Composantes principales
Comprendre et être capable de déployer l'agorithme des K-means
Savoir modéliser un problème de clustering à l'aide d'un modèle de mélange et être capable de construire l'algorithme EM associé.
Savoir mettre en œuvre ces méthodes à l'aide de différentes interfaces informatiques.
Compétences transverses: optimisation convexe sous contrainte, programmation.
Passage en revue des méthodes les plus couramment utilisées en analyse de données, et approfondissement. En particulier, les problématiques de fouille de données, réduction de dimension et clustering sont successivement abordées.
Fouille de données et réduction de dimension: représentation de différents types de données (variables numériques, catégorielles, etc...), indicateurs statistiques usuels. Analyse en composantes principales (ACP): Inerties globales et axiales, construction des axes principaux, interprétation des composantes principales et choix du nombre de composantes. Focus éventuel sur des variantes de l'ACP.
Classification non-supervisée et clustering: Modélisation du problème de clustering, algorithme des K-means, modèles de mélanges gaussiens, construction et mise en place de l'agorithme EM.
Analyse de jeu données simulés et réels par l'intermédiaire de différents outils: SAS, R et Python en particulier.