Université Lyon 1
Arqus
Accueil  >>  Gestion de grandes masses de données
  • Unité d'enseignement : Gestion de grandes masses de données
Nombre de crédits de l'UE : 3
Code APOGEE : INF2479M
    Responsabilité de l'UE :
LUMINEAU NICOLAS
 nicolas.lumineauuniv-lyon1.fr
04.72.44.79.36
    Type d'enseignement
Nb heures *
Cours Magistraux (CM)
9 h
Travaux Pratiques (TP)
21 h

* Ces horaires sont donnés à titre indicatif.

    Pré-requis :
Cet enseignement nécessite en pré-requis :
  • des connaissances sur les systèmes de gestion de bases de données, les architectures distribuées, la modélisation de données et les techniques d’analyse de données;
  • une bonne maîtrise du langage SQL, et du langage de programmation Python (ou Scala);
  • des connaissances en Algèbre Relationnelle seront appréciées.
    Compétences attestées (transversales, spécifiques) :
Cet enseignement apporte des compétences théoriques et pratiques pour permettre aux étudiant.e.s d’identifier les solutions les plus appropriées face à une problématique de passage à l’échelle dans le traitementde grandes masses de données.

Cet enseignement apporte une compréhension approfondie :
  • du concept de Big Data (Volume, Variété, Vélocité, etc.) et de ses enjeux ;
  • du paradigme Map/Reduce et de ses dérivés (e.g. Spark);
  • des approches d’intégration de données massives ;
  • du principe de partitionnement et de la distribution des données, que ce soit dans un contexte (i) de données relationnelles gérées par une ou plusieurs instances de systèmes de gestion de bases de données et (ii) de données ’simplement’ stockées dans des fichiers;
  • de la performance des traitements/requêtes distribués;
  • du traitement de flux de données;
  • des bonnes pratiques dans la gestion d’un projet Big Data en entreprise.
    Programme de l'UE / Thématiques abordées :
Cet enseignement est organisé de manière suivante :

Pour les CM :
  • Bases de Données Réparties : fragmentation et distribution ;
  • Traitement distribué de requêtes ;
  • Le paradigme Map/Reduce ;
  • L’analyse de données massives (Big Data Analytics).

Pour les TP :
  • Les limites du "Tuning" d’un SGBD pour améliorer le passage à l’échelle
  • Conception d’un SGBD Réparti ;
  • Plan d’exécution distribué de requêtes SQL ;
  • Prise en main de HDFS et Apache SPARK ;
  • Partitionnement via Apache SPARK;
  • Traitement de flux de données via Apache SPARK STREAMING.
SELECT MEN_ID, `MEN_DIP_ABREVIATION`, `MEN_TITLE`, `PAR_TITLE`, `PAR_ID` FROM parcours INNER JOIN ue_parcours ON PAR_ID_FK=PAR_ID INNER JOIN mention ON MEN_ID = PAR_MENTION_FK WHERE PAR_ACTIVATE = 0 AND UE_ID_FK='26003' ORDER BY `MEN_DIP_ABREVIATION`, `MEN_TITLE`, `PAR_TITLE`