- Unité d'enseignement : Textualité numérique
Nombre de crédits de l'UE : 3
Code APOGEE : INF1159M
Type d'enseignement
Nb heures *
Cours Magistraux (CM)
6 h
Travaux Dirigés (TD)
21 h
* Ces horaires sont donnés à titre indicatif.
Compétences attestées (transversales, spécifiques) :
Non rédigé
Programme de l'UE / Thématiques abordées :
La documentation technique et le traitement automatique des langues ont une longue tradition (Bernhard, P. Traitement automatique des langues et documentation [s.n.], 1979) avec des applications en IST (Falcao de Almeida Souza, R. Le traitement automatique des langues et le traitement de l'information en médecine ENSB, 1990). Cela implique également la recherche d’information (Jacquemin, C. Traitement automatique des langues pour la recherche d'information ATALA-Hermès sciences publ., 2000) et la compréhension des différents modèles mis en œuvre.
Le cours porte sur la maîtrise des formats et techniques d’encodage de documentation techniques textuelles et autres supports numériques. A travers les nombreux formats mis en œuvre, un état de l’art présentera l’historique des formats d’encodage et des études de cas avec la mise en œuvre de solution technique pour le parsing et l’exploitation des données provenant de l’IST. Nous pouvons citer par exemple Unicode - https://home.unicode.org/ -, le format XML et plus spécifiquement le Journal Article Tag Suite (JATS) - https://jats.nlm.nih.gov - qui est utilisé pour la description de la littérature scientifique. Elle repose sur la norme Z39.96-2012 tel que proposée par le American National Standards Institute. Enfin, ce cours abordera le champ des humanités numériques et plus spécifiquement les recommandations pour l’encodage de documents textuels avec La Text Encoding Initiative - https://tei-c.org/ .
Les compétences développées sont une maîtrise de la structure textuelle et documentaire mise en œuvre dans le champ de l’IST avec une connaissance théorique de base sur les modèles et technologies mises en œuvre ; prise en main d’outils de lexicométrie ; développer un esprit de synthèse quant au techniques et outils mis en œuvre.
1 – Le document textuel Historique et contexte
2 – XML et JATS : un format structurel du document
3 – La TEI : quelle finalité ?
4 – Le traitement Automatique des langues : Histoire et Principaux Modèles
5 – Panorama des outils de fouilles textuelles
6 – Présentation d’Iramuteq et TXM
7 – Les principaux algorithmes de la Recherche d’Information
8 – R et l’exploitation textuelle
9 – Les mathématiques de la donnée textuelle
Modalités de contrôle de connaissance : CCI
Bibliographie indicative
- Bernhard, P. Traitement automatique des langues et documentation [s.n.], 1979
- Falcao de Almeida Souza, R. Le traitement automatique des langues et le traitement de l'information en médecine ENSB, 1990
- Jacquemin, C. Traitement automatique des langues pour la recherche d'information ATALA-Hermès sciences publ., 2000
- Iana Atanassova, Marc Bertin. Semantic Facets for Scientific Information Retrieval. Valentina Presutti; Milan Stankovic; Erik Cambria; Iván Cantador; Angelo Di Iorio; Tommaso Di Noia; Christoph Lange; Diego Reforgiato Recupero; Anna Tordai. Semantic Web Evaluation Challenge. SemWebEval 2014, 475, Springer, pp.108-113, 2014, Communications in Computer and Information Science, 978-3-319-12023-2.
Parcours / Spécialité / Filière / Option utilisant cette UE :
SELECT MEN_ID, `MEN_DIP_ABREVIATION`, `MEN_TITLE`, `PAR_TITLE`, `PAR_ID` FROM parcours INNER JOIN ue_parcours ON PAR_ID_FK=PAR_ID INNER JOIN mention ON MEN_ID = PAR_MENTION_FK WHERE PAR_ACTIVATE = 0 AND UE_ID_FK='21875' ORDER BY `MEN_DIP_ABREVIATION`, `MEN_TITLE`, `PAR_TITLE`