ASTN

Appui Scientifique et Technique au Numérique : Flora Badin, A Phat Ly, Yvan Stroppa

Site Web : https://astn.lll-projects.org

Depuis fin 2020, plusieurs solutions informatique sont développées ou en cours de développement au sein du LLL et suivent plusieurs axes.

1/ Corpus sonores
Sur la base d’Eslo, l’équipe ASTN a développé une plateforme nommée AlimCorp https://alimcorp.org qui permet aux membres du laboratoire d’accéder à un environnement permettant de définir un modèle de données ou d’utiliser un existant (modèle Eslo 1 ou 2) et ensuite de collecter ses données pour la constitution de son propre corpus. Cette opération de collecte peut être réalisée individuellement ou de façon collective et s’appuie sur des fonctionnalités d’échange et de conservation de toutes les informations au cours de cette opération. Pendant cette étape, c’est l’utilisateur qui gère les accès à son corpus. Des fonctionnalités de migrations et de transferts vers des dépôts institutionnels sont également accessibles. Une fois cette étape franchie, une possibilité d’exposition via un site web dédié pourra également être offerte et permettra d’ouvrir de façon maîtriser les accès au corpus à un plus large public ou à une seule personne (Directeur de thèse par ex.) . Cette possibilité en cours de développement nommée DeepCorp (https://deepcorp.org) permettra d’exploiter et de traiter un tel corpus. Le processus proposé par cette solution doit autoriser des itérations entre collecte et exploitation afin de permettre aux membres de compléter leur corpus par des annotations ou autres éléments d’enrichissement de données.

2/ Traitement de données
Le deuxième axe est sur une plateforme d’exploitation de dictionnaire de la langue anglaise https://deepbdd.org. Cette plateforme web permet l’exploitation de tous les mots issus de ces trois dictionnaires et des formes de prononciations associées. Elle est en cours d’élaboration avec l’équipe de morphophonologie de Tours. Elle se situe dans la continuité du projet Bddictionnairique et a comme objectif une exploitation plus ouverte et plus large ainsi que la possibilité d’enrichissement par les chercheurs du laboratoire de cet ensemble cohérent de données. Illustration d’une exploitation de différentes bases de données mutualisées (fusionnées) et enrichies par une équipe de chercheurs.

3/ Plateforme de mise au point et d’exploitation de machine learning
Dans ce projet, l’objectif est de construire un ensemble d’outillages adapté autour d’une solution web. Le développement s’appuie sur le projet Ravioli et l’élaboration d’une machine learning par Prisme pour la détection d’injonctives à partir d’un corpus sonore extrait d’Eslo. L’objectif de cette plateforme est d’offrir les fonctionnalités nécessaires, pour ce type de mise au point, aux différents utilisateurs visés. Les premiers utilisateurs ciblés sont les chercheurs lors de la phase de mise au point. Car ils ont besoin de disposer d’environnement adapté pour la constitution de leur plan d’expérience allant de la construction des supports (Corpus) nécessaires au traitement jusqu’à l’exploitation des résultats. Dans cette étape, la plateforme permet l’intervention de plusieurs intervenants qui vont pouvoir contribuer chacun dans leur domaine d’expertise. La constitution de ces supports est effectuée par les équipes de linguistes à partir des corpus sonores disponibles. Pouvoir les sélectionner selon certains critères et de les compléter par des opérations complémentaires d’annotations afin de les regrouper sous un ensemble cohérent et selon un modèle dédié. Une fois ce modèle constitué et déposé sous la plateforme, les équipes pourront effectuer un certain nombre de filtres pour constituer des lots de traitement et les soumettre aux solveurs. Ensuite, cela permettra d’extraire les différents résultats afin de les comparer en conservant la traçabilité.

Cette description de projets et de plateformes n’est pas exhaustive. L’objectif ASTN/LLL est de répondre aux besoins spécifiques des chercheurs dans le cadre de l’utilisation et du développement d’outils de haut niveau. De capitaliser ce savoir-faire et les solutions développées afin de les mettre à disposition du plus grand nombre.