Instaurer des normes pour automatiser la transcription de manuscrits
Au Moyen-Âge, la plupart des langues européennes, latin excepté, sont encore en construction, l’orthographe n’existe pas, certaines lettres émergent et les écrits voient apparaître de nombreux notes et symboles, tels l’esperluette (&).
Conséquence ? « Lorsqu’il s’agissait de transcrire des manuscrits médiévaux, chaque spécialiste appliquait ses propres conventions, expose Thibault Clérice, chercheur en humanités computationnelles au sein de l’équipe-projet ALMANACH, du Centre Inria de Paris. Or des normes sont indispensables pour permettre l’apprentissage machine et donc espérer automatiser la transcription de manuscrits. » En 2022, à l’initiative d’Ariane Pinche, chargée de recherche au CNRS en études médiévales et humanités numériques, un premier projet, baptisé CATMus, est mis sur pied pour relever ce défi.
Entraîner l’IA générative à partir d’un corpus standardisé
L’équipe autour d’Ariane Pinche et de Thibault Clérice compte notamment Alix Chagué, alors doctorante au Centre Inria de Paris, ainsi que Malamatenia Vlachou-Efsthatiou, doctorante en paléographie latine à l’École nationale des ponts et chaussées, ou encore Simon Gabay, chercheur en humanités numériques à l’université de Genève (Suisse). Leur premier objectif ? Créer un jeu de données massif et uniforme. Les chercheurs récoltent donc 300 manuscrits médiévaux, déjà transcrits ou qu’ils font transcrire en partie (200 000 lignes au total), avec des normes bien établies, respectant orthographe et abréviations.
« Les documents concernés s’étalent du 8ème au 16ème siècle et sont écrits dans une dizaine de langues différentes, en grande partie en ancien français et latin, mais aussi dans des langues d’Espagne, en italien, vénitien, néerlandais… », précise Thibault Clérice.
La standardisation appliquée permet dans un second temps d’utiliser ce corpus pour entraîner un modèle basé sur l’intelligence artificielle. Celui-ci s’appuie sur des outils de transcription développés par l’EPHE-université PSL, notamment par Benjamin Kiessling (désormais chez Inria) : eScriptorium et Kraken. Ses avantages ? Il est économe en énergie et surtout, il se focalise plus sur la reconnaissance d’images que sur la compréhension de la langue, ce qui évite de trop vastes extrapolations.
Plus de 32 000 manuscrits transcrits en quatre mois
Cet entraînement clôt le projet CATMuS… mais laisse entrevoir une suite logique. « Après plus de deux ans passés à collecter et transcrire des manuscrits puis à entraîner le modèle, nous n’avions envie que d’une chose : nous en servir concrètement ! », se souvient Thibault Clérice. Alors en 2024, l’équipe s’agrandit pour lancer un second projet : CoMMA.
Thibault Clérice gère toujours la partie modélisation et calcul, accompagné à présent par Benoît Sagot, responsable de l’équipe Almanach, tandis que Hassen Aguili, ingénieur au sein de cette même équipe, apporte ses compétences sur la partie interface.
Il n’y a plus qu’à faire tourner ce dispositif… mais encore faut-il disposer de documents à transcrire. Pour cela, l’équipe se tourne vers l’EquipEx+ Biblissima+, qui dispose d’un catalogue de liens vers les versions numérisées de plus de 260 000 manuscrits, stockées par différentes institutions, telles que la Bibliothèque nationale de France, ainsi que des méta-données attachées (dates, langue, nom…).
« Nous avons reçu au total 32 763 manuscrits, majoritairement en ancien français et en latin, que nous avons transcrits en quatre mois », détaille Thibault Clérice. Autant dire rien du tout, comparé au temps qu’il aurait fallu pour s’acquitter manuellement d’une telle tâche !
L’interdisciplinarité au cœur de la réussite
Le modèle utilisé repose en fait sur deux algorithmes, l’un chargé de reconnaître les différents éléments de la page (texte principal, notes, illustrations, etc.) et l’autre, développé lors de CATMuS, destiné à la transcription des textes. « Ariane Pinche et Malamatenia Vlachou-Efsthatiou ont vérifié manuellement trois lignes de suite dans 670 manuscrits et le taux d’erreur de notre modèle n’est que de 9,7%, ce qui est très faible ! ».
Certaines erreurs sont liées par exemple au fait que les manuscrits étaient plus anciens que ceux ayant servi à entraîner le modèle, tandis que d’autres découlent des difficultés de reconnaissance du texte, en particulier lorsque les rédacteurs adoptent l’écriture cursive.
Un article présentant la démarche et les limites de celle-ci est en cours de publication et l’équipe garde en tête la possibilité de réduire encore le taux d’erreur du modèle. « À condition que cela reste pertinent, prévient Thibault Clérice. Car doubler le temps de calcul pour ne diminuer le taux d’erreur que de 1% n’est pas forcément une bonne opération ! ».
Pour le chercheur ce résultat révèle, outre l’excellence de leur modèle, le pouvoir de l’interdisciplinarité :
Une expertise côté numérique seul ne nous aurait pas permis de comprendre aussi bien les manuscrits que nous traitions et les procédés qu’il fallait leur appliquer.
De multiples applications possibles
L’aspect interdisciplinaire se retrouve aussi dans les applications imaginables à partir de ce corpus unique, désormais accessible librement. Simon Gabay en a déjà exploré quelques-unes, en étudiant dans les manuscrits transcrits l’évolution des mises en pages, ou encore celle des abréviations à travers le temps. Mais bien d’autres sont envisageables car CoMMA constitue un corpus massif et unique au monde.
« Jusqu’ici, le corpus le plus important de manuscrits retranscrits en ancien français comportait 11 millions de pseudo-mots – des groupes de caractères – alors que CoMMA en compte 516 millions ! se félicite Thibault Clérice. Et en latin, nous sommes passés de 226 millions de mots à 2,7 milliards. »
Elena Pierazzo, professeure en humanités numériques à l’université de Tours, se montre elle aussi enthousiaste : « Ce corpus va changer la façon dont nous traitons les données textuelles : une telle quantité de données qui respectent l’orthographie et les abréviations originelles ouvre de nombreuses fenêtres sur l’étude des habitudes d’écriture ! CoMMA peut nous aider à comprendre l’évolution linguistique, y compris des dialectes, grâce à des données statistiques. En outre, ce corpus met en lumière des textes qui jusqu’ici avaient été négligés par les chercheurs et auxquels il sera désormais facile d’accéder à travers une recherche par période ou par thème. »
Un outil transversal à disposition des sciences humaines et sociales
Côté numérique, le corpus permettra aussi l’entraînement d’IA adaptées à l’analyse de textes anciens, chose impossible jusqu’alors faute de données suffisantes. Et puis, comme le souligne Elena Pierazzo : « CoMMA révolutionne les frontières entre les disciplines en sciences humaines. Des spécialistes de l’histoire de l’art, de la médecine ou de la philosophie, qui ne se seraient jamais rencontrés autrement, peuvent se retrouver à collaborer grâce à cet outil transversal, qui couvre pratiquement toute la connaissance à disposition sur le Moyen-Âge en ancien français et en latin. »
Et pourquoi s’arrêter en si bon chemin ? Les chercheurs comptent à présent ouvrir le corpus à d’autres langues en récoltant de nouveaux textes auprès de Biblissima+. « Il n’y a pas de raison que les langues espagnoles ou italiennes, ainsi que les chercheurs qui s’y intéressent, ne profitent pas eux aussi des transcriptions de notre modèle », conclut Thibault Clérice. De nouvelles explorations en perspective.