Gestion de grandes masses de données : Fiche UE : Offre de formation

Domaine : Masters du domaine SCIENCES ET TECHNOLOGIES
Diplôme : Master
Mention : Informatique
Parcours : M2 Technologies de l'information et web
Unité d'enseignement : Gestion de grandes masses de données

Nombre de crédits : 3 ECTS

Code Apogée : INF2479M
UE Libre pour ce parcours
UE valable pour le semestre 1 de ce parcours

Responsabilité de l'UE :

LUMINEAU NICOLAS

nicolas.lumineauuniv-lyon1.fr

04.72.44.79.36

Type d'enseignement

Nb heures *

Cours Magistraux (CM)

9 h

Travaux Pratiques (TP)

21 h

* Ces horaires sont donnés à titre indicatif.

Pré-requis :

Cet enseignement nécessite en pré-requis :

des connaissances sur les systèmes de gestion de bases de données, les architectures distribuées, la modélisation de données et les techniques d’analyse de données;
une bonne maîtrise du langage SQL, et du langage de programmation Python (ou Scala);
des connaissances en Algèbre Relationnelle seront appréciées.

Compétences attestées (transversales, spécifiques) :

Cet enseignement apporte des compétences théoriques et pratiques pour permettre aux étudiant.e.s d’identifier les solutions les plus appropriées face à une problématique de passage à l’échelle dans le traitementde grandes masses de données.

Cet enseignement apporte une compréhension approfondie :

du concept de Big Data (Volume, Variété, Vélocité, etc.) et de ses enjeux ;
du paradigme Map/Reduce et de ses dérivés (e.g. Spark);
des approches d’intégration de données massives ;
du principe de partitionnement et de la distribution des données, que ce soit dans un contexte (i) de données relationnelles gérées par une ou plusieurs instances de systèmes de gestion de bases de données et (ii) de données ’simplement’ stockées dans des fichiers;
de la performance des traitements/requêtes distribués;
du traitement de flux de données;
des bonnes pratiques dans la gestion d’un projet Big Data en entreprise.

Programme de l'UE / Thématiques abordées :

Cet enseignement est organisé de manière suivante :

Pour les CM :

Bases de Données Réparties : fragmentation et distribution ;
Traitement distribué de requêtes ;
Le paradigme Map/Reduce ;
L’analyse de données massives (Big Data Analytics).

Pour les TP :

Les limites du "Tuning" d’un SGBD pour améliorer le passage à l’échelle
Conception d’un SGBD Réparti ;
Plan d’exécution distribué de requêtes SQL ;
Prise en main de HDFS et Apache SPARK ;
Partitionnement via Apache SPARK;
Traitement de flux de données via Apache SPARK STREAMING.

Liste des autres Parcours / Spécialité / Filière / Option utilisant cette UE :