Cet enseignement apporte des compétences théoriques et pratiques pour permettre aux étudiant.e.s d’identifier les solutions les plus appropriées face à une problématique de passage à l’échelle dans le traitementde grandes masses de données.
Cet enseignement apporte une compréhension approfondie :
- du concept de Big Data (Volume, Variété, Vélocité, etc.) et de ses enjeux ;
- du paradigme Map/Reduce et de ses dérivés (e.g. Spark);
- des approches d’intégration de données massives ;
- du principe de partitionnement et de la distribution des données, que ce soit dans un contexte (i) de données relationnelles gérées par une ou plusieurs instances de systèmes de gestion de bases de données et (ii) de données ’simplement’ stockées dans des fichiers;
- de la performance des traitements/requêtes distribués;
- du traitement de flux de données;
- des bonnes pratiques dans la gestion d’un projet Big Data en entreprise.