Vous êtes ici

ESLO

champ1

Responsable(s) du projet: 
Mail du projet: 
Présentation: 

L'Enquête Socio-Linguistique à Orléans (désormais : ESLO 1) conduite en 1968 comprend environ 200 interviews, toutes référencées et au total plus de 300 heures de parole incluant une gamme d’enregistrements variés (conversations téléphoniques, réunions publiques, transactions commerciales, repas de famille, entretiens médico-pédagogiques, etc.). ESLO 1 couvre l’ensemble des catégories socio-professionnelles, hommes et femmes, et présente un échantillon des formats de la communication, des tâches linguistiques et des types de discours selon une approche dialogique. Ce corpus représente, par son ampleur, sa rigueur et sa cohérence, le plus important témoignage disponible sur le français parlé avant 1980  (corpus de 4 500 000 mots environ).

En partant des acquis d’ESLO 1, une nouvelle enquête, dénommée ESLO 2, a été mise en chantier. A quarante années de distance, elle vise à constituer un corpus comparable dans le produit attendu et dans les modalités de la collecte : l ’objectif a été fixé à 400 heures environ de documents sonores qui totaliseraient approximativement 6 000 000 de mots. Réunis, ESLO 1 et ESLO 2 formeront une collection de 700 heures d’enregistrement, soit plus de 10 000 000 de mots, ce qui est considéré aujourd’hui comme une valeur repère pour les investigations projetées.

ESLO 2 a été conçu pour préfigurer la référence attendue dans un domaine qui en est encore à se structurer et dans lequel se manifeste de manière récurrente une demande de définition pour un format standardisé de collecte, de conservation, de traitement et d’analyse :

  • la collecte est l’occasion de définir, qualitativement et quantitativement, le profil de l’échantillon représentatif, en particulier dans la sélection des modes d’interactions entre les témoins et les enquêteurs ;
  • la conservation, qui inclut la préservation des supports, l’indexation des contenus et l’accessibilité (c’est-à-dire la protection) des données, conditionne le partage des sources à des fins d’étude scientifique ou didactique ;
  • le traitement suppose la maîtrise d’un process qui va de la conversion numérique des enregistrements jusqu ’à la réalisation d ’une transcription balisée et ouverte ;
  • l’analyse constitue l’épreuve des théories (et des instruments, en particulier des logiciels) puisqu ’elle compare les formalisations et les opérations et qu’elle valide ou infirme les hypothèses en prenant argument de leur compatibilité avec les faits.

La collecte sera close fin 2011 et son dépôt à la BnF constituera, pour les deux parties, un test grandeur nature concernant la qualification et l’exploitabilité du corpus, un retour d’expérience à l’échelle 1.

Par ailleurs, afin de rendre compte de la dynamique du changement, telle que la comparaison diachronique et variationniste des enquêtes le permet, la collecte des données a été étendue à toutes les langues parlées à Orléans. Bénéficiant d’un soutien régional (PANGLOSS), le programme « Langues en Contact à Orléans », piloté par J.-L. Rougé avec l’aide de C. Brumelot, I. Diallo et S. Moukrim prend en compte l’interaction des locuteurs et des systèmes. La première phase concerne un inventaire et une identification des langues parlées avant de situer les conditions dans lesquelles leur exercice peut être observé aussi bien dans des contextes spécifiques mono- ou multilingues que dans l’influence réciproque des langues, incluant des observations sur les enseignes et les affichages ou des entretiens avec les traducteurs assermentés.

L’objectif est d’élaborer une base de corpus oraux fondée sur des matériaux dont la collecte et le traitement pourront soutenir la comparaison avec les exigences apportées par l’INaLF aux corpus écrits :

(1) en accumulant des heures de parole et en développant une expérience critique sur leur mode de collecte et d’analyse,

(2) en créant des matériaux exploitables par les chercheurs et en participant à la structuration de la communauté « corpus »,

(3) en ouvrant des champs d’investigation à l’ensemble des sciences humaines et en apportant les attestations requises par la lexicographie ou l’élaboration de grammaires de référence.

Le projet est aussi destiné à inaugurer une nouvelle politique de conservation du document scientifique sonore non musical et à préparer des collaborations dans les applications, didactiques et informatiques.

Au cours du prochain contrat, le travail engagé par l’équipe sera poursuivi, autant dans une politique suivie d’accroissement des données collectées, par l’extension des enquêtes et la diversification des situations, que par une définition d’une véritable politique d’accès aux corpus oraux. A la différence des réalisations correspondant aux numérisations des bibliothèques, le champ de l’oral reste en friche pour une exploitation en termes de recherche et d’application.

Le caractère sensible des informations et des données, en dépit des précautions prises au moment de la collecte et du traitement pour en assurer l’anonymisation, constituent un frein à l’accès aux corpus. Les répercussions sont sensibles dans une orientation de la linguistique qui privilégie, en sémantique, en syntaxe ou en analyse de discours des données écrites, c’est-à-dire des attestations des langues déjà inscrites dans un format convenu. La mise à disposition sur le portail du Ministère de la Culture de données d’ESLO1, la négociation d’une base de données avec la société ARES ont permis de réfléchir à la façon de présenter les données et de les mettre à disposition avec des accès différenciés selon le type de requête (grand public / chercheur des grands organismes / entreprise / collaborateurs).

Au-delà de la constitution des données, sept objectifs ont été proposés au sein de l’équipe. En premier, et de façon centrale, l’exploitation linguistique des ressources et des attestations. Chaque chercheur a été invité à illustrer l’enrichissement des théories qui lui sont familières et dont il a l’usage en les confrontant aux occurrences disponibles dans l’ensemble du corpus, bénéficiant de la disponibilité offerte par la collecte, les transcriptions et les outils développés sur la base.

Parmi les travaux exécutés, on peut mentionner des études en sociolinguistique de l’interaction et des comparaisons diachroniques, mais aussi une étude phonologique, une recherche en linguistique de l’énonciation, une analyse en TAL des opérations. Une synthèse sera publiée en 2011 autour d’un sous-corpus exemplaire, « l’omelette » (92 recettes d’omelette en réponse à une question spécifique du questionnaire ESLO1), qui associera huit chercheurs de l’équipe afin d’analyser, sous ses différentes facettes, un corpus fourni parallèlement.

Un travail en didactique doit prolonger ces travaux, autant du côté de la collecte de nouvelles données (notamment autour de la question de la transmission de la langue en milieu familial, par construction d’un module qui enregistrerait des enfants et leurs parents afin de mesurer la dynamique interne du changement linguistique. Cette recherche, conduite avec les collègues de l’IUFM qui ont déjà engagé un programme d’enregistrement dans le cadre scolaire, doit être complétée par des applications didactiques, en FLE (comme il avait été prévu initialement pour ESLO1) et en FLM, en collaboration avec le GORDF.

En collaboration avec l’équipe « Créoles et Langue d’Afrique », il est prévu d’exploiter le résultat des travaux conduits au titre de « Langues en Contact à Orléans », en particulier à travers le programme PANGLOSS, sur financement de la Région Centre. La rapidité des changements dans la composition urbaine de la ville permet de mettre en place en temps réel une observation des différentes communautés linguistiques, de leur solidarités et de leur répartition, de leur présence dans l’école et la vie associative, dans le monde économique aussi, en suivant des trajets migratoires et des recompositions d’usage linguistique. Une thèse aura été soutenue sur ce thème et de nouvelles demandes de contrats doctoraux seront sollicitées, en particulier pour des étudiants d’origine étrangère qui pourront apporter leur connaissance de deux cultures dans le projet.

Ces différentes données sont centrales dans la collaboration avec la BnF et le TGE-ADONIS puisque ce corpus doit servir de test pour les propositions qui seront faites afin d'établir le grand corpus de référence du français. La BnF, par son spectre d’intervention et la richesse de ses collections, a déjà fait la démonstration de ses capacités techniques. Le TGE ADONIS offre une infrastructure numérique ouverte à toutes les communautés scientifiques des sciences humaines et sociales, dans les principaux domaines du numérique : collecte et acquisition, traitements et calculs sur des données, travail collaboratif, publication électronique, hébergement, archivage à long terme des données de la recherche (sources, publications, etc.). Selon la déclaration de ses promoteurs : « L'enjeu majeur est de permettre un accès le plus large possible aux données scientifiques produites par les SHS, tout en améliorant l'interopérabilité qui préfigure la construction du web de données. » A l’image de ce qui a été réalisé sur les archives (IRHT, Paris & Orléans), sur les lexiques et les textes (INaLF, Nancy), sur les sources iconographiques (Paris & Bordeaux), sur l'édition de textes patrimoniaux (CESR, Tours) et en bénéficiant du travail effectué sur la TEI, ESLO entend devenir un partenaire majeur, mais non exclusif, dans le domaine des corpus oraux.

Exploitation en linguistique, définition du corpus de référence du français parlé, applications didactiques mais aussi transfert. L’une des premières initiatives du LLL et de la BnF serait l’organisation d’une école d’été ouverte en particulier aux chercheurs des pays du Sud sur les techniques de numérisation et de conservation des données orales. Une autre attente concerne la réunion des enquêteurs, si nombreux aujourd’hui dans les sciences humaines et sociales, sans qu’une réflexion spécifique sur cette activité en linguistique ait été conduite. Sur le modèle du Guide des bonnes pratiques / Corpus oraux, la réalisation de manuels en ligne confiés à des représentants éminents de la communauté serait un outil utile à tous les laboratoires impliqués dans ces démarches.

Enfin, si l’on en juge par la poursuite dans le secteur privé des étudiants en Master formés à Orléans dans le domaine du TAL (un lien avec la formation qui sera continué), par le recrutement d’une doctorante par l’entreprise Sinequa, il y a un créneau disponible pour les compétences développées dans ce domaine en ligne avec les ESLOs.

Autres participants: 
A. Chesneau, P. Philardeau