* Ces horaires sont donnés à titre indicatif.
Analyse automatique de textes (text mining):
Réponses ouvertes à des questionnaires, entretiens, littérature scientifique, réseaux sociaux par extraction des correspondances de Galois (treillis des itemsets fréquents) et allocation latente de Dirichlet (LDA),
Nous utilisons une représentation en sac de mots focalisée sur l’étude des co-occurrences et les fréquences des termes. Cette approche est adaptée à l’étude des textes courts tels que les réponses ouvertes à un questionnaire ou les commentaires sur les réseaux sociaux qui ne comportent qu’un nombre réduit d’affirmations. Ces hypothèses nous permettent d’appliquer le concept d’échangeabilité mis en exergue par De Finetti (https://journals.openedition.org/msh/6793) ce qui permet de supposer l’existence d’une variable latente multinomiale explicative des dépendances entre termes.
L’ensemble des associations caractéristiques d’un concept constitue un treillis de correspondance de Galois. Celui-ci admet une base générative canonique calculable en temps polynomial mais instable vis-à-vis des seuils de fréquences utilisés (https://journals.openedition.org/msh/6793). Les modèles de Dirichlet permettent d’en extraire des résumés plus stables, mais ne peuvent pas être calculés de manière exacte. Il est nécessaire en particulier d’estimer le nombre de modalités de la variable multinomiale latente (https://www.cairn.info/revue-document-numerique-2014-1-page-61.htm).
Le déroulement de cet enseignement en 10 séances de 3h:
10. Approximation du LDA par inférence variationnelle stochastique avec TensorFlow.
L’ensemble des travaux pratiques se dérouleront sur serveur dédié au Deep Learning dans un environnement Rstudio (https://tensorflow.rstudio.com/)