Si leur structure multimodale rend l’étude des quelque 300 langues des signes existantes complexe, le manque de données les concernant fait de leur traitement automatique une véritable gageure. Ce défi, Sam Bigeard, ingénieur de recherche dans l’équipe-projet Multispeech (*), a choisi de le relever en s’appuyant sur une approche pluridisciplinaire.
« Le travail sur le traitement automatique de la langue des signes requiert des compétences poussées en linguistique autant que dans le domaine du machine learning, mais également une vraie capacité à interroger la communauté sourde. » En une phrase, Sam Bigeard résume la nature des enjeux méthodologiques et éthiques de ses recherches. Linguiste de formation, il pilote le projet COLaF – Défi Inria, porté conjointement avec l’équipe-projet ALMAnaCH du Centre Inria de Paris – dont l’objectif est de contribuer au développement de corpus et d’outils libres pour les langues de France, en prenant en compte leurs formes textuelles, orales ou signées.
« La langue des signes (LS) n’est pas une simple transposition de la langue parlée se bornant à faire correspondre un geste à un mot. Elle repose sur une grammaire particulière et une histoire spécifique. » Elle s’appuie sur la combinaison d'éléments visuels : la position et le mouvement des mains du locuteur, ainsi que ses expressions faciales. Ce caractère multimodal rend les processus de traduction automatique plus complexes qu'ils ne le sont déjà pour les langues parlées, et encore davantage lorsqu'il faut passer d'une LS à une autre. « Les langues des signes n’ont pas été créées pour correspondre à une langue officielle mais beaucoup ont émergé lorsque se constituait une communauté sourde. De ce fait, elles ne sont pas très normées. »
De la langue des signes jusqu’aux langues peu dotées
Dans ce contexte, le travail principal de Sam Bigeard porte sur le Wordnet multilingue des langues des signes, un dictionnaire qui regroupe plus de 11 000 signes dans huit LS européennes (**), alignés avec les identifiants de synsets (ensembles de synonymes qui représentent une signification spécifique d’un mot) de l’Open Multilingual Wordnet. « L’objectif n’est pas seulement d’associer les signes à leur traduction en français, mais de pointer vers les différents sens que peut avoir le mot concerné afin d’établir les connexions entre chacun d’eux et le signe correspondant dans la LS considérée. »
Accessible au grand public, l’outil intéresse particulièrement les chercheurs qui travaillent sur le traitement automatique des langues (TAL), comme Guilhem Fauré, dont Sam Bigeard co-encadre la thèse consacrée à la traduction du langage parlé en langage signé. Finalité : entraîner des modèles inspirés de ceux conçus pour la traduction automatique entre langues parlées en explorant les méthodes récentes de deep learning – par exemple l’apprentissage contrastif, une technique qui apprend à distinguer des exemples similaires de ceux qui ne le sont pas. « Visuellement, le modèle est représenté sous forme d’articulations du corps, dont il s’agit de prédire les séries temporelles en fonction de la phrase à traduire » explique le doctorant. Si la première étape vise à obtenir une traduction mot-signe fidèle, la suivante s’attachera à améliorer l’expressivité du signeur virtuel en affinant sa représentation vectorielle. L’ambition finale étant d’établir un process qui ne se limiterait pas à la seule LS étudiée mais pourrait s’étendre à toutes les autres, voire servir à l’étude d’autres langues peu dotées.
Des modèles difficiles à entraîner
Cette démarche se heurte à une contrainte de taille : le manque de données. Alors que l’entrainement des modèles de machine learning nécessite des bases de données très importantes, « le meilleur corpus en langue des signes française est d’environ 80 heures, celui en allemand d’une cinquantaine, alors que ceux des langues parlées se comptent en centaine de milliers d’heures ». Une faible dotation qui résulte avant tout des enjeux commerciaux accompagnant le développement de l’IA. « Les modèles de TAL se concentrent sur les cinq ou six langues les plus parlées parmi les 7 000 décomptées à travers le monde » constate Sam Bigeard.
Bien que certains modèles mettent en avant la prise en compte de centaines de langues, leurs résultats sur les moins répandues s’avèrent souvent médiocres. « Le souci vient en partie du fait que ces outils sont développés par des ingénieurs qui travaillent sur des langues qu’eux-mêmes ne parlent pas. » Au-delà, c’est la question de la validation du modèle développé qui se pose. « Dans le cas d’une traduction de texte à texte, il est possible d’évaluer le nombre de caractères erronés ou le ratio de synonymes corrects. C’est beaucoup plus compliqué lorsqu’il convient de valider l’exactitude d’un signe dont le sens varie en fonction de la hauteur de la main » affirme Sam Bigeard, qui estime que « ces difficultés métriques sont loin d’être résolues. »
Impliquer la communauté sourde
En théorie, l’efficacité de l’apprentissage pourrait être mesurée en comparant les coordonnées prédites des articulations de l’avatar et celles de référence. Cette grille d’évaluation n’est cependant pas totalement fiable, comme le précise Guilhem Fauré : « Si l’amplitude d’un mouvement est plus élevée, le modèle considèrera logiquement qu’il n’est pas conforme d’un point de vue métrique, alors qu’au niveau sémantique il peut être tout à fait correct. Et inversement. » L’implication de personnes sourdes ou signant couramment apparaît comme un moyen de résoudre ce problème.
Sans être bilingue, Sam Bigeard dit signer « suffisamment pour pouvoir faire une première évaluation des vidéos », mais ajoute qu’il est « indispensable d’impliquer des sourds pendant tout le processus d’élaboration et pas uniquement lors de la validation finale ». Des liens ont ainsi été noués avec l’Institut national des jeunes sourds de Metz ou encore l’Union européenne des sourds. Une implication d’autant plus importante que les travaux ont vocation à être développés, à long terme, dans des applications pratiques.
L’alliance des SHS et de l’IA
Si la réussite de cette entreprise dépend en premier lieu des expertises respectives des deux chercheurs, elle suppose par ailleurs que ceux-ci en assurent le partage, selon les principes de pluridisciplinarité encouragés par Inria. Pour autant, la collaboration entre Sciences Humaines et Sociales (SHS) et informatique reste rare. D’abord parce que la spécialisation des domaines de recherche entraîne un effet de silotage. Ensuite parce que les différences de méthodologies ou d’approche éthique ne facilitent pas les rapprochements spontanés pourtant « très enrichissants » selon Sam Bigeard.
« Malgré leur importance, les questions de fond sur les motivations des travaux en lien avec l’IA ou sur leur impact sociétal ne sont pas suffisamment posées dans la recherche informatique » note-t-il. De son côté, Guilhem Fauré reconnaît que la multiplicité des points de vue « permet non seulement de préciser les pistes de recherches à privilégier mais aussi de mettre en lumière des éléments d’appréciation difficiles à discerner lorsqu’on se concentre essentiellement sur le code ». La force de leur association tient notamment à la façon dont chacun contribue à dépasser les différences de vocabulaire pour parvenir à se comprendre. Une question de langue et de traduction, là encore.
(*) L’équipe-projet Multispeech est commune au CNRS, à Inria et à l’Université de Lorraine, au sein du Centre Inria de l’Université de Lorraine et du Laboratoire lorrain de Recherche en Informatique et ses Applications (CNRS/Université de Lorraine)
(**) française, britannique, suisse allemande, allemande, néerlandaise, polonaise, grecque et suédoise.