Reconnaître les textes en écriture arabe maghrébine

Manuscrit BULAC ARA 609
Manuscrit BULAC ARA 609

La Bibliothèque Universitaire des Langues et Civilisations (BULAC) conserve un important fonds de manuscrits en écriture arabe maghrébine, dont certains ont été numérisés et sont disponibles sur la bibliothèque numérique Aréale de la BULAC : la Bina.

La BULAC est engagée au côté du Groupement d'Intérêt Scientifique "Moyen-Orient et mondes musulmans" (CNRS) et de l'Institut de Recherche en Histoire des Textes (IRHT-CNRS) pour le développement des humanités numériques pour l'arabe. En association avec Calfa, spécialisée dans le traitement automatique des langues orientales, quatre journées de formation vont se tenir à la BULAC de janvier à avril 2021.

Affiche du Hackathon 2021
Affiche du Hackathon 2021

Objectifs de la formation :

  • Former des professionnels aux enjeux et aux méthodologies des humanités numériques et de la reconnaissance de texte manuscrit (Handwritten Text Recognition), appliquées au monde arabe et à ses spécificités;
  • Créer un premier modèle de reconnaissance de caractères manuscrits pour l'écritur arabe maghrébine;
  • Création de données pour l'analyse de documents manuscrits arabes.

Ces journées sont l'aboutissement des réflexions initiées en juin et décembre 2020 autour des humanités numériques pour l'arabe lors de deux journées de formation en ligne ("Action Nationale de Formation Digital areal" et "Étudier et publier les textes arabes avec le numérique"). Chahan Vidal-Gorène est intervenu lors de ces deux journées pour présenter l'engagement de Calfa pour la recherche et dresser les contours d'une philologie numérique pour l'arabe (accéder à l'intervention de juin 2020).

Manuscrits en écriture arabe maghrébine de la BULAC
Manuscrits en écriture arabe maghrébine de la BULAC

Les équipes de Calfa seront mobilisées pour la supervision des tâches d'annotations et la création des modèles d'analyse et de reconnaissance. L'outil Calfa Vision que nous avons développé - et qui permet l'analyse assistée et gratuite des documents manuscrits - sera mobilisé pour ce travail. Les séances seront animées par Noëmie Lucas, post-doctorante en philologie numérique des textes en alphabet arabe, en résidence cette année à la BULAC, et Chahan Vidal-Gorène, directeur de Calfa.

Détection automatique du texte sur Calfa Vision
Détection automatique du texte du ms ARA 609 sur Calfa Vision

Pour en savoir plus sur la formation et les projets en cours à la BULAC.

Vidal Chahan