Université Lyon 1
Arqus
Accueil  >>  Méthodes mathématiques pour le text mining
  • Unité d'enseignement : Méthodes mathématiques pour le text mining
Nombre de crédits de l'UE : 3
Code APOGEE : MAT2577M
    Responsabilité de l'UE :
SI KADDOUR HAMZA
 hamza.si-kaddouruniv-lyon1.fr
04.26.23.45.57
    Type d'enseignement
Nb heures *
Cours Magistraux (CM)
12 h
Travaux Dirigés (TD)
6 h
Travaux Pratiques (TP)
12 h
Durée de projet en autonomie (PRJ)
0 h
Durée du stage
0 h
Effectif Cours magistraux (CM)
210 étudiants
Effectif Travaux dirigés (TD)
35 étudiants
Effectif Travaux pratiques (TP)
18 étudiants

* Ces horaires sont donnés à titre indicatif.

    Compétences attestées (transversales, spécifiques) :
Non rédigé
    Programme de l'UE / Thématiques abordées :

Analyse automatique de textes (text mining):

Réponses ouvertes à des questionnaires, entretiens, littérature scientifique, réseaux sociaux par extraction des correspondances de Galois (treillis des itemsets fréquents) et allocation latente de Dirichlet (LDA),

 Nous utilisons une représentation en sac de mots focalisée sur l’étude des co-occurrences et les fréquences des termes. Cette approche est adaptée à l’étude des textes courts tels que les réponses ouvertes à un questionnaire ou les commentaires sur les réseaux sociaux qui ne comportent qu’un nombre réduit d’affirmations. Ces hypothèses nous permettent d’appliquer le concept d’échangeabilité mis en exergue par De Finetti (https://journals.openedition.org/msh/6793) ce qui permet de supposer l’existence d’une variable latente multinomiale explicative des dépendances entre termes.

 L’ensemble des associations caractéristiques d’un concept constitue un treillis de correspondance de Galois. Celui-ci admet une base générative canonique calculable en temps polynomial mais instable vis-à-vis des seuils de fréquences utilisés (https://journals.openedition.org/msh/6793). Les modèles de Dirichlet permettent d’en extraire des résumés plus stables, mais ne peuvent pas être calculés de manière exacte. Il est nécessaire en particulier d’estimer le nombre de modalités de la variable multinomiale latente (https://www.cairn.info/revue-document-numerique-2014-1-page-61.htm).

 

Le déroulement de cet enseignement en 10 séances de 3h:

  1. Modèles de représentation du texte pour son analyse automatique.
  2. Mise en œuvre avec Keras et TensorFlow dans un environnement Rstudio
  3. Introduction aux treillis de Galois
  4. Application à l’analyse formelle de concepts
  5. Théorème d’existence d’une base canonique d’implications
  6. Application avec la bibliothèque R arules
  7. Introduction à l’analyse implicative Bayésienne multivariée
  8. Concept d’échangeabilité de De Finetti
  9. Mise en œuvre de l’allocation latente de Dirichlet (LDA) avec les bibliothèques R topicsmodels et ldatuning

10.  Approximation du LDA par inférence variationnelle stochastique avec TensorFlow.

 

L’ensemble des travaux pratiques se dérouleront sur serveur dédié au Deep Learning dans un environnement Rstudio (https://tensorflow.rstudio.com/)
    Parcours / Spécialité / Filière / Option utilisant cette UE :
SELECT MEN_ID, `MEN_DIP_ABREVIATION`, `MEN_TITLE`, `PAR_TITLE`, `PAR_ID` FROM parcours INNER JOIN ue_parcours ON PAR_ID_FK=PAR_ID INNER JOIN mention ON MEN_ID = PAR_MENTION_FK WHERE PAR_ACTIVATE = 0 AND UE_ID_FK='25338' ORDER BY `MEN_DIP_ABREVIATION`, `MEN_TITLE`, `PAR_TITLE`