19 November 2021

JE : Annoter l’oral

[TheChamp-Sharing]
Organisée par Lotfi Abouda, Flora Badin, Florence Lefeuvre CLESTHIA EA 7345 & LLL UMR 7270 avec l’appui de : Irina Ghidali et Zhao Liping Colloque organisé en mode hybride Pour participer, inscrivez-vous gratuitement en écrivant à : annoterloral@sorbonne-nouvelle.fr

Programme Annoter l’oral

Les annotations de corpus écrits axées sur des thématiques linguistiques sont nombreuses et performantes depuis des années (Pour une présentation et une évaluation de certains d’entre eux, cf. par exemple Neves et Seva 2021). En ce qui concerne l’oral spontané, le chemin a été plus long (cf. pour une vue d’ensemble, Bergounioux et al. 2017). Si les corpus oraux ont émergé depuis les années 60-70 (Enquêtes Sociolinguistiques à Orléans Eslo 1, Corpus de Montréal, Valibel), leur mise à disposition n’a été possible que depuis une quinzaine d’années (Eslo 2, CFPQ (Corpus de Français Parlé au Québec), CFPP / CFPB (Corpus de Français parlé parisien / Corpus de Français Parlé à Bruxelles), MPF (Multicultural Paris French), OFROM (Corpus Oral de Français de Suisse Romande), CLAPI (Corpus de LAngue Parlée en Interaction). A partir de ces bases de données orales, plusieurs corpus structurés ont vu le jour : corpus Rhapsodie (Lacheret et al. 2014), corpus Orféo (Benzitoun et al. 2016), corpus ESLOMD (Abouda et Skrovec 2018). Dépendantes de la constitution de corpus oraux, les annotations de ces corpus (manuelles et automatiques) sont plus récentes. Des annotations en lemmes, catégories grammaticales et fonctions syntaxiques sont nées à partir de différents projets de recherche — Rhapsodie (porteur : A. Lacheret), Orféo (porteur : J.-M. Debaisieux, cf. Debaisieux et Benzitoun et Benzitoun et alii). La segmentation en unités est au cœur de ces problématiques (cf Rossi-Gensane et al. 2019 et le projet SegCor). On peut citer également le projet LOCAS-F : un Corpus Oral Multigenres Annoté (Degand et alii 2014), qui propose d’annoter des corpus en fonction de l’unité discursive de base résultant de la corrélation entre unités prosodiques et unités syntaxiques. L’annotateur multi-niveaux DisMo quant à lui permet d’annoter des corpus oraux, il propose un étiquetage morphosyntaxique, une lemmatisation, une détection des unités poly-lexicales, une détection et annotation des phénomènes de disfluence et des marqueurs de discours, ainsi qu’un découpage en unités syntaxiques minimales (cf. Christodoulides et Barreca 2017). Des phénomènes ciblés ont pu être annotés, comme par exemple les « reformulations paraphrastiques » à partir d’un sous-corpus d’Eslo (Eshkol 2015). Des outils se développent pour décrire linguistiquement des corpus oraux, c’est le cas du logiciel TXM (Badin et al. 2021). Des logiciels sont déjà spécialisés dans le domaine de l’annotation comme le logiciel ELAN. À partir d’annotations manuelles, des analyseurs syntaxiques entraînés sur des corpus de taille réduite permettent de développer graduellement une annotation automatique (cf. Kahane et Gerdes 2020). En adoptant une démarche incrémentale, des annotations automatiques peuvent déboucher sur des résultats intéressants, variant selon le genre de discours analysé — la narration donnant de meilleurs résultats que la conversation — (cf. Nasr et alii, 2020). Recenser ces outils et former les chercheurs à ceux-ci sont des missions du consortium CORLI. On peut citer également la plateforme Ortolang, réservoir de données et d’outils.
La journée d’études qui est proposée permettra de faire le point sur des annotations récentes en conviant linguistes et talistes à intervenir afin de croiser les approches. Il s’agira de comparer les types d’annotation selon l’objet linguistique et l’angle privilégié (syntaxique, sémantique, pragmatique (cf. par exemple Degand 2014, Abouda et Skrovec 2017, Lefeuvre 2021), de comparer les outils permettant d’annoter (TXM, le Trameur, ELAN, PRAAT, CLAN, …), de partager les pratiques pour procéder à l’enrichissement de ces corpus.

19 November 2021, 10h0018h00
Maison de la Recherche, 4 rue des Irlandais - 75005 Paris (salle du conseil)

Prochains évènements

Retour à l'agenda