* Ces horaires sont donnés à titre indicatif.
Des connaissances de base en programmation Python et des notion en mathématiques/statistiques
Objectifs :
Ce module est composé de parties au sommet de la chaîne de traitement des données qui visent le même objectif de production de connaissances, typiquement pour les décideurs, à partir des données. Il vise à :
● Permettre aux étudiants d’appréhender les enjeux méthodologiques, technologiques et économiques d’un projet de traitement de données
● Expérimenter ces enjeux à travers des exemples concrets et pratiques.
● Assimiler les objectifs du Machine Learning et connaître ses techniques et outils de classification, de régression, de clustering et de sélection de variables.
Plan de l'UE :
● Tour d’horizon des problèmes & types d’apprentissage (supervisé/non supervisé, classification/régression, single/multi output, statistiques ou non, etc.).
● Principaux modèles et algorithmes d’apprentissage supervisé (modèles linéaires, réseaux de neuronnes, arbres de décision, Bagging, Random Forest, Boosting) et d’apprentissage non supervisé (K-means, clustering hiérarchiques, etc.)
● Les concepts importants préparation de données, critères de performance, overfitting, dilemme biais-variance, validation croisée, données déséquilibrées, données manquantes, ingénieurie des variables, etc.
● Sélection de variables
● Text Mining : Préparation de données, TF-IDF, SVD, etc.
● Mise en pratique sur des jeux de données avec scikit-learn sous Python sur des cas d'études réels.