Maison méditerranéenne des sciences de l'homme
Connexion

Traitement par Automates de la Langue Arabe (TALA)

Programmes spécifiques​

Traitement par Automates de la Langue Arabe (TALA)  - 2010-2015


 http://automatesarabes.net

​Programme de Traitement par Automates de la Langue Arabe (Tala)

Modélisation et outils


  Le programme Traitement par Automates de la Langue Arabe (TALA) comprend deux volets d’activités :

  • l’approche algorithmique de la grammaire arabe ;
  • le développement d’applications.

Ce programme, repose sur un partenariat entre : 

  • La MMSH (Maison méditerranéenne des sciences de l’homme, USR 3125, Aix-Marseille Université - CNRS  );
  • L’IFAO (Institut français d’archéologie orientale);
  • Le laboratoire ICAR (« Interactions, Corpus, Apprentissages, Représentations », UMR 5191, CNRS/Université Lumière-Lyon 2, ENS-LSH, IFE), sous-équipe SILAT (« Systèmes d’information, Ingénierie, Linguistique arabe et Terminologie »),  (voir http://silat.univ-lyon2.fr). La principale réalisation de SILAT est sa contribution à la base de connaissances DIINAR.1 (DIctionnaire Informatisé de l’ARabe, version 1)[1].

Le rapprochement de ces partenaires permet une meilleure visibilité des recherches effectuées, tant au niveau national qu’internationalement (voir références bibliographiques).

   Le modèle théorique de TALA

Grâce aux automates, une représentation remarquablement concise de la morphologie arabe est rendue possible, qui reflète par ailleurs certaines spécificités structurales importantes de l'arabe. Cette représentation peut être étendue aux autres langues sémitiques.
Un langage quotient, ou squelette, peut même être défini qui comportera toutes les caractéristiques d'un langage semi-formel. Ce langage peut être obtenu en réduisant toutes les racines arabes à un seul et unique représentant. Notre hypothèse est que la grammaticalité des phrases arabes est peu influencée par la permutation de racines. Les grammairiens arabes avaient entrevu ce phénomène en choisissant une racine témoin فعل comme paradigme pour représenter tous les schèmes arabes et organiser leurs dictionnaires en donnant la priorité à la racine.
Nous définissons le système morphologique, en incluant ses irrégularités, comme une transduction d'un système de base, une formalisation du postulat de régularité.
Sur le plan méthodologique, cette approche diffère de celle de recherches contemporaines. Purement algorithmique, elle utilise des ressources minimales, est indépendante des lexiques, donne un rôle prépondérant aux mot-outils et fonde l’analyse sur les structures de surface.
Étant donné qu’une grammaire n’est pas figée, mais peut être considérée comme un point de vue particulier sur le langage, les grammaires peuvent être obtenues par dérivation d'un noyau de base, lui-même non figé. Ces points de vue, i.e. ces grammaires, peuvent être reliés entre eux. D'autre part on doit considérer leur adéquation à un but donné : la grammaire d’un contrôleur orthographique est différente de celle d'un logiciel d'enseignement assisté par ordinateur ou d’un logiciel d'extraction d’information (IR).

Le développement d’applications

Kawâkib représente le volet applicatif initial. Ce noyau est entrain d’être étendu (Kawâkib/Octala) pour devenir un outil qui permet de construire des opérateurs pour la recherche d’information (Information Retrieval : I.R). Il s’agit d’un outil d’investigation et d’expérimentation sur les algorithmes dans le domaine de la « linguistique computationnelle » et plus spécifiquement dans le domaine du traitement de l’arabe par automates.

Ce système - non figé - contient plusieurs ressources (voir http://automatesarabes.net) et son évolution s’inscrit dans une perspective précise, celle de la construction d’un processeur généralisé de grammaires formelles arabes.

TALA vise à :

  •  constituer une banque de ressources linguistiques arabes (opérateurs et spécificateurs linguistiques);
  • déployer la puissance de la recherche algorithmique récente (surtout dans le domaine des automates appliqués à la langue arabe) pour mettre au point des fonctionnalités de recherche d’information (RI) et de filtrage des données. La Bibliothèque de la Méditerranée (BibMed), issue du Réseau d'Excellence Ramses², constituera un champ expérimental privilégié ce qui permet d’envisager au terme de la première étape d’apporter une valeur ajoutée significative au projet BibMed et de faire ainsi la démonstration qu’il est possible de faire dériver aisément des applications pratiques à partir de modèles linguistiques bien formalisés.

Acquis du système Kawâkib/Octala et fonctionnalités linguistiques implémentées

Pour avoir une idée des fonctionnalités linguistiques du système, on peut consulter le site susmentionné. Les recherches, que permet le système, peuvent être appliquées sur des textes à tout venant. Nous les avons testées sur des corpus numérisés extraits des publications de l’IFAO ainsi que sur plusieurs textes journalistiques. 

Perspectives

Nous disposons donc d’outils de mesure qui permettent d’affiner rétroactivement les choix et de synthétiser des opérateurs de recherches et de tri.

Le système permet de monter des expériences. Cet aspect est si important que l’on envisage de créer un langage de programmation qui permettrait aux chercheurs de spécifier ces expériences, de les enchaîner et de considérer la logique de leur enchaînement. Ces expériences sont nécessaires pour construire de nouveaux protocoles de recherche, et pour atteindre notre objectif à long terme : la création d’une banque de ressources linguistiques arabes à partir de laquelle des opérateurs pourront être extraits et combinés entre eux. Le modèle théorique et son « implémentation » sont interdépendants. La conséquence est que ni le modèle ni son implémentation ne sont figés mais au contraire sont en perpétuelle évolution dans une logique de « feedback » (rétroaction continue).  


 

Références bibliographiques

1) TALA

Automates arabes : http://automatesarabes.net.
Audebert C., Gaubert Ch., Jaccarini A., 2009. «Minimal Ressources for Arabic Parsing/ an Interactive Method for the Construction of Evolutive Automata.» MEDAR 09. http://www.elda.org/medar-conference/summaries/37.html
2011, « A Flexible Software Geared Towards Arabic Texts I.R And Evaluation : Kawâkib », ALTIC 2011, (Alexandria, Egypt), à paraître dans ALTIC 2011. http://www.altec-center.org/conference/
2011. « Arabic Information Retrieval : How to Get Good Results at a Lower Cost ? », Proceedings of the ESOLEC 2011 conference, Ayn Shams, Cairo.
Audebert C., Jaccarini A., 1986. « À la recherche du khabar, outils en vue de l’établissement d’un programme d’enseignement assisté par ordinateur », Annales islamologiques, 22, Institut français d’archéologie orientale du Caire. p. 217-256
Gaubert Chr., 2001. Stratégies et règles pour un traitement automatique minimal de l’arabe. Thèse de doctorat. Département d’arabe, Université d’Aix-en Provence.
Jaccarini A., 1997 Grammaire modulaire de l'arabe : traitements et stratégies de traitement informatiques, sous la direction de Jean-Pierre Desclés, Paris-Sorbonne (Paris-IV).
— 1999, « Vers une théorie du moniteur syntaxique », Annales Islamologiques, n°33. AnIsl_033_art_04.pdf
— 2000, « Quelques opérations sur les langages associés aux opérateurs syntaxiques », Annales Islamologiques, n° 34. AnIsl_034_art_09.pdf
Jaccarini, A. 2010 « De l’intérêt de représenter la grammaire de l’arabe sous la forme d’une structure de machines finies », Annales Islamologiques, 44,  Ifao, Le Caire. AnIsl044_art_02.pdf
Jaccarini A., Gaubert Ch., Audebert C., 2010, « Structures and Procedures in Arabic Language »,Proceedings of LREC 2010, Valetta, Malta.
http://www.medar.info/report-ws-malta.pdf

2) Équipe SILAT :

Voir site : http://silat.univ-lyon2.fr

Anizi M. et Dichy J., 2009. “Assessing Word-form based Search for Information in Arabic: Towards a New Type of Lexical Resource”, in: Khalid Choukri and Bente Maegaard, Proceedings of the Second International Conference on Arabic Language Resources and Tools, 22-23 April 2009, Cairo, Egypt, The MEDAR Consortium.  http://www.elda.org/medar-conference/pdf/75.pdf

— 2011, “Improving Information Retrieval in Arabic through a Multi-agent Approach and a Rich Lexical Resource”, in Haton, Jean-Paul, Sidhom, Sahbi, Ghenima, Malek, Benzakour, Khalid, Information Systems and Economic Intelligence, 4th International Conference – SIIE’ 2011, Marrakech – Feb. 17th-19th.
Dichy J., 1990. L’Écriture dans la représentation de la langue : la lettre et le mot en arabe. Thèse d’État (en linguistique), Université Lumière-Lyon 2.
Dichy J. 2005. « Spécificateurs engendrés par les traits [±animé], [±humain], [±concret] et structures d’arguments en arabe et en français », in Henri Béjoint et François Maniez, éd., De la mesure dans les termes, en hommage à Philippe Thoiron, Presses Universitaires de Lyon, p. 151-181
— 2007. « Fa‘ula, fa’ila, fa‘ala : dispersion et régularités sémantiques dans les trois schèmes simples du verbe arabe », in Everhard Ditters and Harald Motzki, eds., Approaches to Arabic Linguistics, presented to Kees Versteegh on his sixtieth birthday, Leiden : Brill, p. 313-365.
Dichy J. , Farghaly A., 2007. “Grammar-lexis relations in the computational morphology of Arabic”. In Abdelhadi Soudi, Guenter Neumann and Antal Van den Bosch, eds., Arabic Computational Morphology: Knowledge-based and Empirical Methods, Dordrecht : Kluwer/Springer (series on Text, Speech, and Language Technology), chapter 7, p. 115-140.
Dichy J. , Hassoun M., 2005. « The DIINAR.1 Arabic Lexical Resource, an outline of contents and methodology », The ELRA Newsletter, Vol. 10, n°2, April-June 2005, pp. 5-10.
Ghenima Malek. 1998. Analyse morpho-syntaxique en vue de la voyellation assistée par ordinateur des textes écrits en arabe. Thèse de doctorat, ENSSIB/Université Lyon 2.
Hassoun, M., 1987. Conception d’un dictionnaire pour le traitement automatique de l’arabe dans différents contextes d’application. Thèse d’État, Université Lyon 1.
Ouersighni R. 2002. La conception et la réalisation d’un système d’analyse morpho-syntaxique robuste pour l’arabe : utilisation pour la détection et le diagnostic des fautes d’accord. Thèse de doct., ENSSIB/Univ. Lyon 2
Raheel, S., 2010. L’apprentissage artificiel pour la fouille de données multilingues : application à la classification automatique des documents arabes, Thèse de doct., ENSSIB/Univ. Lyon 2.


Notes


[1]La base de connaissances DIINAR.1 (Dichy et Hassoun, 2005) a été réalisée en commun, à l’IRSIT (Institut Régional des Sciences de l’Informatique et de la Télécommunication) de Tunis, par A. Braham et S. Ghazali, et en France à l’ENSSIB (M. Hassoun) et à l’université Lumière-Lyon 2 (J. Dichy) – voir http://diinar.univ-lyon2.fr, même site provisoirement que pour SILAT. DIINAR.1 comprend environ 129.000 entrées, auxquelles sont associés des spécificateurs morphosyntaxiques permettant la génération (en écriture “voyellée”) et la reconnaissance (écriture “non-voyellée”) de mots. Ces spécificateurs sont issus de la thèse de J. Dichy (1990, chap. X ; Dichy 1997), et la structure informatique initiale de la base, de la thèse de M. Hassoun (1987).

 

​Partenariat

USR 3125 : MMSH - CNRS / Aix-Marseille Université

    • André Jaccarini
    • Samir Zardan
    • Abdelmajid Arrif
    • Hassan Moukhlisse

IFAO - Institut français d'archéologie orientale

    • Christian Gaubert
    • Amr Helmi Ibrahim

 ICAR - Interactions, Corpus, Apprentissages, Représentations (UMR 5191), CNRS / Université Lumière Lyon 2 ; ENS de Lyon – IFE

    • Joseph Dichy

Professeur émérite, AMU :

    • Claude Audebert

 7 décembre 2016

Soutenance de thèse

pour obtenir le grade de Docteur de l’Université Paris-Sorbonne
Discipline : Linguistique, section Informatique
Présentée et soutenue par :

Dhaou GHOUL

Classifications et grammaires des invariants lexicaux arabes en prévision d’un traitement informatique de cette langue. « Construction d’un modèle théorique de l’arabe : la grammaire des invariants lexicaux temporels ».

Sous la direction de :

M. Amr Helmy Ibrahim – Professeur, Université Sorbonne Paris 4

Membres du jury :

M. Mounir Zrigui – Professeur, Université de Monastir, Tunisie– Rapporteur.
M. Mohamed Embarki – Professeur, Université de Franche-Comté, Besançon– Rapporteur.
M. André Jaccarini– Chercheur CNRS, USR3125.
M. Amr Helmy Ibrahim – Professeur, Université Sorbonne Paris 4. 

Ensavoir plus


 

​Journées d'étude TALA

30-31 Janvier 2015

Invariance et calculabilité en langue arabe et en sémitique

MMSH, Aix-en-Provence

Tala_5.PNG 

Voir le programme


20-21 octobre 2011

 Voir le programme