Statistiques et Analyse des Données : Fiche UE : Offre de formation

Nombre de crédits : 9 ECTS

Code Apogée : ACT1210M

Responsabilité de l'UE :

EYRAUD ANNE

anne.eyrauduniv-lyon1.fr

04.37.28.74.35

Type d'enseignement

Nb heures *

Cours Magistraux (CM)

55 h

Travaux Dirigés (TD)

35 h

* Ces horaires sont donnés à titre indicatif.

Pré-requis :

Bases de probabilités, d'algèbre linéaire.

Programme de l'UE / Thématiques abordées :

L'objectif de cette UE est de poser des jalons qui aideront les étudiants à analyser des données dans une démarche de tests et/ou une approche descriptive, éventuellement en amont de modélisations plus complexes rencontrées dans une contexte élargi de data science. Elle comporte plusieurs parties:

statistiques inférentielles : le but de ce cours est d'étudier les outils de statistiques indispensables en actuariat, en particulier nécessaires dans toutes les problématiques de tarification, de calibration, et permettant l'étude de modèles statistiques avancés.
Après quelques rappels de statistique descriptive, ce cours présente la théorie de l'échantillonnage et de l'estimation puis la théorie des tests statistiques.
Sont notamment abordées les notions de modèles statistiques, d'estimation ponctuelle et d'intervalles de confiance. La notion de test statistique est ensuite abordée, ainsi que les principaux tests paramétriques et quelques tests non paramétriques.
Toutes les notions abordées sont mises en œuvre à l'aide du logiciel R.
analyse de données et clustering : Cet enseignement vise à transmettre, d'une part, les bases théoriques de l'analyse de données et des principales techniques de clustering, et d'autre part, une compétence dans leur mise en œuvre à l'aide de divers packages du logiciel R et l'interprétation des résultats produits. L'analyse exploratoire de données a pour but l'identification de structures simples, tant au niveau des variables étudiées qu'au niveau de la population. Cette démarche repose souvent sur des méthodes issues de l'analyse factorielle et sur des méthodes de clustering ou segmentation. Les méthodes abordées permettront une première approche de tableaux de données multi-variées quantitatives ou qualitatives : analyse en composantes principales, analyse factorielle de correspondances, analyse factorielle des correspondances multiples. NIPALS sera présentée comme illustration de la gestion de données manquantes quantitatives. L'analyse en composantes principales fonctionnelles pourra également être présentée comme ouverture vers les données fonctionnelles. Ces techniques reposent sur l'analyse de relations simples entre variables basées sur l'utilisation de distances adéquates en fonction du type de données (distance euclidienne, distance du chi-deux, distance ad hoc...).
En ce qui concerne le clustering, la démarche de construction d'une classification sera développée autour des techniques de classification classiques (ascendante hiérarchique, partitionnement) et plus modernes (par densité).

éléments d'apprentissage non-supervisé: K plus proches voisins, arbres de décision...

Parcours / Spécialité / Filière / Option utilisant cette UE :