4ème atelier sur la
"Fouille de données complexes
dans un processus d'extraction des connaissances
"

23 Janvier 2007

Namur, Belgique

http://www-sop.inria.fr/axis/fdc-egc07/

Présentation

L’atelier sur la fouille de données complexes dans un processus d’extraction de connaissances est organisé à l'instigation du  groupe de travail « Fouilles de Données Complexes »  GT FDC et s’inscrit dans le cadre de la conférence EGC. Cet atelier se veut être un lieu de rencontre annuel où chercheurs/industriels peuvent partager leurs expériences et expertises dans le domaine de la fouille de données. L'atelier se veut ouvert en terme de propositions. On pourra y présenter aussi bien un travail abouti, des réflexions sur la fouille de données complexes ou un travail préliminaire (qui présentera davantage un problème qu'une solution). Enfin, les discussions sur les liens entre différentes disciplines sont également bienvenues.

Les trois premières éditions de cet atelier au sein d’EGC (2004 à Clermont-Ferrand, 2005 à Paris et 2006 à Lille) furent une réelle réussite, accueillant des chercheurs/doctorants représentant plus de 30 laboratoires francophones différents. Ils auront permis d'avancer sur la compréhension de la complexité d'un processus d'extraction de connaissances à partir de bases de données et d'initier de nouveaux échanges scientifiques entre chercheurs.

La quatrième édition de cet atelier  aura lieu dans le cadre de EGC07 (Namur, Belgique).

Thèmes

Dans tous les domaines, les données à traiter pour y extraire de la connaissance utilisable sont de plus en plus complexes et volumineuses. Ainsi est-on amené à devoir manipuler des données :

-          Souvent peu ou non structurées ;

-          Issues de plusieurs sources  comme des capteurs ou sources physiques d'informations variées ;

-          Représentant la même information à des dates différentes ;

-          Regroupant différents types d'informations (images, textes, video, son,...) ;

-          ou regroupant encore des données de  différentes natures (logs, contenu de documents, connaissances/ontologies, etc.).

Aussi la fouille de données complexes ne doit plus être considérée comme un processus isolé mais davantage comme une des étapes du processus plus général d'extraction de connaissances à partir de données (ECD). En effet, les difficultés liées à la complexité des données se répercutent sur toutes les étapes du processus d’ECD : avant d'appliquer des techniques de fouille dans les données complexes, ces dernières nécessitent un travail préparatoire (principalement de structuration et d’organisation de ces données complexes). Parallèlement, de nouvelles méthodes de fouille (classification, catégorisation, recherche de motifs fréquents, etc.) doivent également être définies dans ce contexte de la complexité des données. Enfin la notion d'utilité des paradigmes extraits (anticiper la pertinence des résultats de la fouille) est également un problème à étudier.

Afin de dresser un panorama des travaux récents dans le domaine de la fouille de données complexes, seront particulièrement appréciés (liste non exhaustive) des articles présentant un état de l'art et des perspectives ouvertes dans ce domaine ; des études comparatives de différentes approches de fouille dans des données complexes ou d’approches relatives aux différentes étapes du processus d’ECD dans ce contexte ; la présentation argumentée de nouvelles approches d’ECD pour la fouille de données complexes ; des descriptions d'applications réelles mettant en jeu un processus de fouille de données complexes.

Une liste de thèmes, non exhaustive, est donnée ci-dessous à titre indicatif :

-          Pré-traitement, structuration et organisation de données complexes ;

o        Données inférées

o        Modélisation guidée par les résultats

o        Enrichissement des données

o        Sélection, nettoyage des données

o        Codage, transformation des données, ETL (Extracting, Transforming and Loading)

o        OLAP et fouille de données

o        Intégration des données complexes

o        Modélisation des données complexes et XML

o        Métadonnées

o        Fusion de données

o        ...

-          Processus et méthodes de fouille de données complexes ;

o        Evaluation des méthodes actuelles

o        Proposition d'approches nouvelles (par exemple hybrides ou multi-stratégies)

o        Sélection de sources des données et d'attributs

o        Utilisation de relations multi-dimensionnelles entre les données

o        Utilisation de connaissances du domaine pour optimiser l'extraction

o        ...

-          Post-traitement ;

o        Visualisation et aide à  l'interprétation des résultats

o        Validation des motifs extraits

o        Mise à jour des connaissances

o        ...

-          Rôle des Connaissances, Ontologies, Méta données  en ECD complexe ;

o        Utilisation de connaissances du domaine analysé

o        Utilisation de connaissances du domaine de l'analyste

o        Rôle des Métadonnées dans un  processus global ECD

o        Aide à la réutilisation d'un processus ECD

o        Web sémantique en ECD

o        ...

-          Retours d'expériences (Web, sciences du vivant)

Déroulement de la journée

1)      L'atelier sera constitué d'une série d'exposés (présentations orales ou poster). Les articles feront l'objet de rapports de lecture dans le double but d'améliorer leur qualité et de donner des conseils aux auteurs. Une place privilégiée est accordée aux jeunes chercheurs et à la présentation des travaux en cours dans les différentes équipes. Cela peut être l'occasion pour un doctorant de présenter son projet de recherche. Cette partie est particulièrement importante pour les travaux qui commencent (position papers) et pour la mise en place de groupes de recherche sur des thèmes partagés. Les présentations de posters pourront s'accompagner de démonstrations de résultats de recherches.

 

2)      Une réunion du groupe de travail " Fouille de données complexes " est prévue à la suite de l’atelier.

Format de soumission :

Les auteurs sont invités à soumettre électroniquement leur proposition à fdc@sophia.inria.fr. Le courrier électronique devra comporter la soumission au format ainsi que les nom, prénom, adresse, téléphone, fax et adresse électronique d'un des auteurs.

La taille des soumissions sera de 12 pages maximum. Elle pourra être beaucoup plus courte, en particulier pour les articles présentant un travail qui débute. Le message électronique de la soumission devra être accompagné d'une liste de mots-clés.

Publication : Les communications retenues sous forme de présentations orales ou affichées seront éditées dans les actes du workshop par EGC06. Les communications devront respecter le format de mise en page de la Revue des Nouvelles Technologie de l'Information (RNTI) afin d'homogénéiser les contributions. Celui-ci est décrit dans un fichier que vous pourrez trouver sur  http://www.antsearch.univ-tours.fr/rnti/

En plus de ces actes, nous envisageons de publier un recueil d'articles sélectionnés dans une deuxième édition spéciale de la revue des nouvelles technologies de l’information sur la fouille de données complexes (D. Zighed et G. Venturini). Ces articles décriront des travaux originaux, n'ayant pas déjà fait l'objet de publication, et non soumis pour publication ; ils feront l'objet d'un deuxième processus de relecture approfondi.

La langue officielle de l’atelier sera le français.

Dates importantes

-          Date limite de soumission : 4 décembre 2006

-          Notification aux auteurs : 20 décembre 2006

-          Réception des versions finales : 3 janvier 2006

Responsables

-          Boussaid Omar (Laboratoire ERIC, Lyon)  email:  omar.boussaid@univ-Lyon2.fr  Tel: 04 78 77 23 77

-          Masseglia Florent (Equipe-Projet Axis, Inria Sophia-Antipolis )  email: florent.masseglia@sophia.inria.fr Tel: 04 92 38 50 67

Comité de lecture

Le comité de lecture sera composé d'un représentant par laboratoire membre du GT "Fouilles de Données Complexes" et d'experts du domaine. Ce comité est en cours de constitution.

Aufaure

Marie-Aude

(SUPELEC)

Badard

Thierry

(Univ. LAVAL)

Bouet

Marinette

(LIMOS)

Briand

Henri

(IRIN)

Darmont

Jérome

(ERIC)

Desprès

Sylvie

(CRIP5)

Djeraba

Chabane

(LIFL)

Elfaouzi

Nour-eddin

(Inrets)

Gallinari

Patrick

(LIP6)

Gançarski

Pierre

(LSIIT)

Martin

Arnaud

(ENSIETA)

Missaoui

Rokia

(UQO)

Morin

Annie

(IRISA)

Napoli

Amedeo

(LORIA)

Philipp-Foliguet

Sylvie

(UQAM)

Saidi-Glandus

Alexandre

(LIRIS)

Teisseire

Maguelonne

(LIRMM)

Trousse

Brigitte

(INRIA)

Vrain

Christel

(LIFO)

Wemmert

Cedric

(LSIIT)

Zighed

Djamel

(ERIC)