Atelier "Ontologies et Textes" associé à TIA'07

Sophia Antipolis, 10 octobre 2007


*Date limite de soumission des articles : 15 juin 2007*

Présentation

Les ontologies sont des représentations structurées et formalisées des connaissances de différents domaines destinées à des applications informatiques. Elles comportent donc un ensemble de concepts d'un domaine et de relations entre ces concepts et peuvent inclure différentes propriétés logiques portant sur ces concepts et relations. A partir de ce cadre, il est possible de décrire des bases de connaissances où sont inventoriées les instances possibles de ces concepts. Le caractère formel, précis et parfois normatif des ontologies les rend complémentaires d'autres sources de connaissances plus directement accessibles aux humains mais moins commodes pour les logiciels, où les connaissances sont exprimées en langue, comme les textes ou les documents multi-média. Nous nous intéressons ici aux recherches exploitant cette complémentarité entre textes et ontologies, car elles couvrent des problèmes très divers liés à différentes disciplines, et en lien avec une actualité foisonnante sur les nouveaux modes de recherche d'information, le web sémantique ou encore la gestion des documents numériques. De plus, les outils et résultats établis pour l'ingénierie des terminologies peuvent être tout à fait proches et transposables à l'ingénierie des ontologies, tant pour leur construction que pour leur utilisation. D'où l'association avec TIA de cette journée qui se veut néanmoins focalisée sur les rapports textes et ontologies.
Dans le cadre de cette journée, tout type d'ontologie sera pris en compte de manière non restrictive.
L'articulation entre textes et ontologies est multiple. Dans cette conférence, nous l'envisageons en considérant les uns, comme sources de connaissances pour enrichir (matériellement) les autres en vue de traitements automatiques plus efficaces.
Des textes vers les ontologies, l'enrichissement se situe à deux niveaux. Tout d'abord, les textes peuvent servir de sources de connaissances à partir desquelles peuvent être construites des ontologies. On parle souvent "d'ontology learning" (apprentissage d'ontologie) dans la littérature, dans la mesure où beaucoup d'approches cherchent à automatiser le plus possible ce procédé par exemple à l'aide de traitements automatiques du langage et de connaissances linguistiques. Les textes peuvent contenir également des cas particuliers de concepts et permettent alors d'enrichir l'ontologie en construisant des instances de concepts et des relations entre elles. On parle alors souvent "d'ontology population" (peuplement d'ontologie).
Réciproquement, des ontologies vers les textes, l'apport correspond à l'annotation sémantique (semantic annotation ou knowledge mark-up). Il s'agit de caractériser le contenu informationnel et différents aspects des textes à l'aide de l'ontologie ou d'une base de connaissances, de faire en quelque sorte un étiquetage sémantique du texte ou de portions du texte à l'aide de concepts ou, le plus souvent, d'instances de concepts suivant un ou plusieurs schémas d'annotations définis par une ou plusieurs ontologies correspondant aux tâches pour lesquelles cette annotation est réalisée.
*La conférence se focalisera donc sur ces trois aspects :

  • construction d'ontologies à partir de textes,
  • peuplement d'ontologies à partir de textes, et éventuellement d'autres ressources en lien avec la langue,
  • annotation de documents en référence à des ontologies
A ce jour, ces trois questions, bien que pouvant être très proches, sont traitées avec des points de vue assez différents, souvent parce qu'elles font appel à techniques et donc à des domaines scientifiques différents, qui ont chacun leur histoire : ingénierie des connaissances, traitement automatique du langage naturel, extraction d'information, sémantique formelle, ou encore linguistique textuelle, mais aussi gestion documentaire et recherche d'information. L'objectif de cette journée est de croiser les points de vue, de faire ressortir les complémentarités et de favoriser les échanges.



Thèmes

Liste non limitative, chacun des sous-thèmes doit être compris dans le cadre "ontologies et textes".

Construction d'ontologies à partir de textes :

  • méthodes et ateliers
  • techniques et logiciels (TAL, etc.) pour automatiser l'analyse des textes en vue de cette construction
  • complémentarité entre données tirées des textes et réutilisation de ressources (thésaurus, ontologies génériques, autres ontologies, terminologies ...)
  • complémentarité entre analyse de textes et des méthodes proposant des critères d'organisation ontologique
  • évaluation des ontologies construites à partir de textes
  • évaluation des méthodes et logiciels utilisés

Peuplement d'ontologies à partir de textes, et éventuellement d'autres ressources en lien avec la langue :

  • intérêt des techniques d'extraction d'information pour ce peuplement
  • intérêt des techniques de fouille de texte (text-mining)
  • processus d'acquisition, consolidation / validation des instances
  • généricité des approches, réutilisabilité des techniques

Annotation de documents à l'aide d'ontologies :

  • annotations manuelles et utilisation
  • intérêt des techniques d'extraction d'information
  • intérêt des techniques de fouille de texte (text-mining)
  • processus d'acquisition, consolidation / validation des annotations
  • annotation pour l'indexation et d'autres tâches
  • annotation pour l'apport d'information, la navigation, l'aide à la lecture

Articulation entre 2 ou 3 de ces thèmes :

  • processus faisant interagir peuplement et annotation
  • association entre analyse de textes et représentation des connaissances
  • les mêmes logiciels de TAL peuvent-ils servir aux 3 objectifs ?
  • comment unifier les approches existantes ?
  • maintenance conjointe des annotations et des ontologies et base de connaissance



Calendrier

Date limite de soumission des articles : 10 juin 2007 15 juin 2007
Notification aux auteurs : 12 juillet 2007
Date de remise des versions définitives : 10 septembre 2007
Date de la journée : 10 octobre 2007


Modalités de soumission

Les articles soumis, en français ou en anglais, ne devront pas dépasser 10 pages en Times 12, espacement simple, soit environ 3000 mots, figures, exemples et références compris. Les soumissions devront contenir, sur la première page, les éléments suivants :

  • nom(s) d'auteur(s)
  • affiliation(s), adresse(s), fax et e-mail
  • titre de la soumission
  • 5 à 10 mots clés
  • résumé en français (300 mots maximum)
  • résumé en anglais (300 mots maximum)

Nous vous remercions de vous conformer à la feuille de style LATEX ou l'exemple MS-Word téléchargeable via le site de la conférence TIA http://www-sop.inria.fr/acacia/tia2007/
Les articles devront parvenir au comité de programme sous forme électronique (PDF) aux deux adresses suivantes :

  • Philippe.Laublet@paris4.sorbonne.fr
  • Aussenac@irit.fr


Comité de Programme


  Florence Amardeilh (MONDECA, Paris)
  Nathalie Aussenac-Gilles (IRIT, France)
  Bruno Bachimont (UTC Compiègne & INA)
  Jean Charlet (AP-HP & INSERM, France)
  Farid Cerbah (Dassault Aviation, Paris)
  Sylvie Despres (LIPN, Université Paris 13 & CNRS)
  Rose Dieng-Kuntz (INRIA Sophia Antipolis, France)
  Nathalie Hernandez, (IRIT, Toulouse)
  Agata Jackiewicz (LaLIC, Paris Sorbonne)
  Philippe Laublet (LaLIC, Paris Sorbonne)
  Marie-Claude L'Homme (Université de Montréal, Canada)
  Josiane Mothe (IRIT, Toulouse)
  Adeline Nazarenko (LIPN, Université Paris 13 & CNRS)
  Chantal Reynaud (LRI-Univ. Paris-Sud & INRIA Futurs)
  Sylvie Szulman (LIPN, Université Paris 13 & CNRS, France)
  Yannick Toussaint (LORIA, France)
  Pierre Zweigenbaum (LIMSI-CNRS & CRIM-INALCO, France).