Initiation interdisciplinaire au DEEp Learning pour le traitement automatique des langues, projet IReEL vague 2, 2021-2022
Intervenants:
Nicolas Ballier (UFR études anglophones), Guillaume Wisniewski (UFR de linguistique), Jean-Baptiste Yunès (UFR d’informatique)
Objectifs du cours
Ce cours vise à la transmission des compétences initiales pour la soumission d’abstract à des conférences dans le domaine des humanités numériques. On cherchera à décrire les problématique linguistiques et les jeux de données envisagés pour les analyser, décrire ces données et établir les traitements automatiques nécessaires. L’idée est notamment de pouvoir initier les étudiants à la traduction automatique dès la L3, en choisissant eux-mêmes leurs textes pour entraîner des réseaux de neurones, s’initier à leur réglage, produire ainsi des « modèles » de traduction neuronale et de juger des traductions produites. Ce cours est ouvert aux étudiants en L3 de l’UFR d’études anglophones, de l’UFR de linguistique, de l’UFR d’informatique et de l’UFR de mathématiques et d’informatique.
Fonctionnement
- Les étudiants auront 12 séances de 2h d’enseignement encadré à Paris Diderot au premier semestre (mercredi 13h-15h00, Olympe de Gouges salle 208. Premier cours mercredi 22 septembre).
- Les étudiants travailleront en binôme : un étudiant(e) angliciste de Diderot en L3 (dans le cadre du projet étudiant de L3) ou un étudiant(e) en linguistique informatique et un étudiant en informatique de Paris Diderot ou de Paris Descartes.
- Les séances alterneront entre informatique et linguistique, si possible toutes les semaines.
- Après trois séances introductives, le suivi se fera au plus près des projets conduits par chaque binôme.
- L’enseignement serait effectué en français mais les productions seraient en langue anglaise (abstract de conférence, blog, poster et article collectif final).
- Les étudiants sont invités à suivre également, en auditeurs libres, le cours de L3 de M. de Guillaume Wisniewski d’initiaton au TAL (traitement automatique du langage) pour approfondir leurs connaissances. Il aura lieu le mercredi de 10h à 12h.
Programme Prévisionnel
- Séance 1 : les domaines de la linguistqiue et les principales applications du TAL
- Séance 2 : initiation à python / deep learning, initiation aux carnets jupyter
- Séance 3 : outils collaboratifs: BibTeX , zotero, overleaf
- Séance 4: choix du projet, bibliographies
- Séance 5 : présentation d’un outil du TAL: un tagger
- Séance 6 : présentation d’un outil du TAL: un exemple de parser
- Séance 7 : quelques bibliothèques python / lancer des expériences sur un carnet jupyter
- Séance 8 : lancer des expériences sur un serveur
- Séance 9 : lancer des expériences sur un serveur (2)
- Séance 10 : supervision des expériences et interprétation des résultats
- Séance 11 : interprétation des résultats et réalisation du poster
- Séance 12 : finalisation poster
14 janvier 9h-11h30 : présentation des posters
Idées de projet 2021-2022 :
- Construire un modèle de traduction neuronale pour (essayer de) traduire Shakespeare
- Construire un traducteur automatique d’un texte en français en écriture inclusive
Les projets 2021—2022
Le travail de Léo Mergret et Alice Dagand-Drillat « La réapparition, Automatic Translation from Standard French to Inclusive French Based on Syntactic Criteria ».
Le travail de Mathilde Ducos et Armand Garrigou « Esperanto and its proximity to other languages ».
Le travail de Yann Audrin, Suzie Morinais et Line Rabehanta « Assessing gender bias at sentence level versus paragraph levels ».
Le travail de Behnoosh Namdarzadeh et Steven Sailly « Evaluating machine translation of subjonctive ».
Quelques exemples de projets choisis de 2019-2020 :
- générer un texte de rap avec un système de contraintes rythimques
- un système de résumé automatique pour les romans
- comparaison des agents conversationnels (chatbots)
- peut-on détecter automatiquement les mots d’un dictionnaire du XVIIIe siècle devenus obsolètes?
- peut-on étiqueter les mots à la manière de Walker, lexicographe du XVIIIe siècle?
Support de cours
Pour en savoir plus :
- retrouvez les archives de la promo 2019-2020 : ici
- témoignage d’étudiants et d’enseignants en 2019-2020 sur cet enseignement interdisciplinaire : https://youtu.be/nokwdPdj3Xc
LCA5Y260 Projet encadré (code de l’UFR études anglophones)
· Initiation au deep learning pour le traitement automatique des langues
Ce cours d’initiation à la recherche à partir de l’initiation au langage de programmation Python, en collaboration avec l’UFR d’informatique et de Linguistique, aura lieu à Olympe de Gouges le mercredi de 13h00 à 15h00, sur douze semaines. Les étudiants réaliseront en binôme avec un(e) étudiant(e) en informatique ou en linguistique informatique un petit projet d’analyse automatique du langage sur des problématiques linguistiques de l’anglais. En particulier, on montrera quelques applications des réseaux de neurones, telles que la traduction automatique neuronale. Les travaux seront présentés sous forme de posters à des étudiants de master spécialistes du domaine au tout début du semestre suivant.
Pré-programme des séances et informations complémentaires en : https://github.com/nballier/IDEEL/ Ce cours bénéficie d’un soutien de l’Université de Paris dans le cadre de l’appel à projets « Initiation à la REcherche En Licence » (IREEL) et permettra aux étudiants d’assister à une conférence.
• Modalités d’évaluation du contrôle continu, session 1 : Les étudiants rédigeront un abstract et un poster présentant leur projet.
• Modalités d’évaluation, session 2 : Repris du poster présentant le projet.
Bibliographie :
Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. O’Reilly
Webographie : https://github.com/nballier/IDEEL
This project was supported by IdEx Université de Paris ANR-18-IDEX-0001 (AAP Initiation à la Recherche en Licence, vague 2)
Repas de cohésion
Le repas au « Raton Buveur ».
Soutenances
Les soutenances en temps de COVID (en remplacement de la session « poster » à Descartes).