Vous êtes ici

Séminaire Orléanais de Linguistique

Le Séminaire Orléanais de Linguistique accueillera Mathieu Mangeot (Université de Savoie, LIG) le jeudi 17 mai à partir de 14h. La séance aura lieu  en salle 52.

Sujet : Construction collaborative d'un dictionnaire japonais-français de qualité, à large couverture et libre de droits

Bien que le français et le japonais soient considérés comme des langues bien dotées en matière d'outils et de ressources linguistiques, le couple franco-japonais est considéré comme une paire de langues peu dotées en ce qui concerne sa disponibilité sur le Web. En effet, il existe peu de ressources lexicales électroniques bilingues de qualité et qui sont à la fois gratuites et libres de droit.

Heureusement, il existe des dictionnaires imprimés de bonne qualité et suffisamment anciens pour être libres de droits. Il doit être possible de réutiliser ces ressources dans le cadre de notre projet de construction d'un dictionnaire de bonne qualité et large couverture disponible sur le Web. Afin de mettre à jour ces données dont le vocabulaire est ancien, nous réutilisons des ressources électroniques existantes. Le résultat est alors disponible sur le Web pour consultation et correction par des contributeurs bénévoles. Cette méthodologie peut être appliquée à d'autres couples linguistiques dans une situation similaire avec des dictionnaires imprimés de qualité mais peu de ressources électroniques.

Nous effectuerons d'abord un inventaire des dictionnaires bilingues japonais (imprimés ou électroniques) avec leur évolution historique. Ensuite, nous décrivons la ressource que nous voulons construire. La suite concerne la conversion de trois ressources : le dictionnaire imprimé japonais-français Cesselin, les Wikipedia japonais, français et anglais et le dictionnaire électronique japonais-anglais JMdict. Le dictionnaire Cesselin a été scanné, reconnu optiquement et analysé pour détecter les mots-vedette et les articles. Des corrections d'erreurs ont ensuite été effectuées sur le français et le japonais. De nouveaux articles ont été créés à partir des liens de traduction entre les pages Wikipédia et enfin le JMdict a été utilisé pour compléter la ressource.

La ressource a finalement été publiée sur un site Web construit avec la plate-forme Jibiki permettant de visualiser et d'éditer les articles en ligne. Un corpus bilingue français-japonais et un module de lecture active complètent le site. Les ressources résultantes (dictionnaires et corpus) sont disponibles gratuitement sur le site Web du projet http://jibiki.fr/ . Les données sont publiées dans le domaine public.

Date: 
Jeudi, 17 Mai, 2018 - 14:00
Participants Laboratoire: