* Ces horaires sont donnés à titre indicatif.
Le but de cet enseignement est de développer des compétences sur l’accès, l’extraction et la transformation des données stockées sous les formes les plus courantes : fichiers plats et bases de données. Dans une première partie, un tour d’horizon des langages/logiciels fréquemment rencontrés dans le contexte de la gestion des données sera entrepris. Pour chacun, un focus sur les packages/bibliothèques adaptés à la manipulation des données et en particulier dans un contexte de grand volume sera proposé. Les expressions régulières et leurs déclinaisons seront présentées. Des applications de contrôle de qualité et de transformation seront réalisées sur des jeux de données réels et très volumineux. Dans une seconde partie, ce sont les architectures logicielles pour la gestion des données qui seront abordées : Hadoop, Apache spark. Le lien sera fait avec la parallélisation de traintement avec des applications en apprentissage automatique.