Mots-clés | : |
big-data, ontologie,
web-sémantique, cerveau, neuroscience |
Motivation et cadre du projet
Les
modèles informatiques étudiés en
neurosciences computationnelles sont nourris de faits obtenus
à partir de la littérature (publications
scientifiques d'expérimentations biologiques). Une telle
connaissance est
mise en mots et en
chiffres, conduisant à des descriptions dites "phénoménologiques" des comportements,
des fonctions et des structures sous-jacents.
Bref : on explique comment marche le
cerveau dans un langage humain relativement informel.
Une partie de cette information est intégrée dans des
modèles, c'est-à-dire mise en
équations et formalisée
sous forme d'algorithmes distribués pour vérifier certains aspects
quantitatifs et qualitatifs
de la compréhension globale présumée. Curieusement, ce travail est
principalement réalisé de
manière artisanale et plus
ou moins par
intuition. Bref: on est
un peu en retard par rapport à d'autres domaines
de connaissance
qui ont, eux, pris en compte
les développements récents
et puissant en
terme de représentations
sémantiques. De
très vastes et hétérogènes corpus comme
ceux de Wikipedia ont été reformulés en terme de base de
données sémantiques
[2], avec des connaissances
formalisées à partir
d'ontologies.
On
parle de bigdata, car il y a (i) beaucoup de données au delà
de ce qu'un travail manuel peut appréhender, et (ii) des
données hétérogènes struturées ou non (texte, figures,
tableaux de valeurs, …), que l'on veut traiter (iii) à la
fois manuellement et algorithmiquement. On est dans le cadre
de l'open data, puisqu'on accèdera à des publications
ouvertes, et que ce travail sera lui aussi ouvert.
Le but de ce projet est de mettre en place des outils logiciels pour que les chercheur-e-s en neurosciences computationnelles puissent facilement utiliser de tels outils ET éviter de partir sur de fausses pistes.
Résumé du projet
Concrètement ? Le ou la chercheur-e affiche un article
scientifique à gauche de son écran et à droite il a un éditeur
dans lequel on entre des notes correspondant aux données
identifiés dans le papier. Ce sont des "triplets" de type «sujet
verbe objet» (exemples: «chat:champ-visuel taille 180deg» ou
«cervelet est-une zone-cérébrale») ou des descriptions de
classes et de propriétés (ontologies). On lance ensuite des
outils logiciels qui vérifient la cohérence des données entrées
et construit une "ontologie" [3] qui sera ensuite utilisée avec
des outils existants de traitement et visualisation [6]. On
lance aussi des algorithmes pour fouiller les contenus de
banques de publications, désormais disponibles. Ce travail
d'annotation correspond à ce qui se fait déjà, mais on veut le
perfectionner. Cet outil doit permettre de:
- faciliter ce travail
- partager ce travail
- connecter ce travail aux outils algorithmiques existants.
Plus d'information
[1] Site du projet : https://team.inria.fr/mnemosyne
[2] Le projet DBpedia : http://fr.dbpedia.org
[3] Présentation grand public d'une ontologie : http://interstices.info/ontologie
[4] Le langage Turtle : http://fr.wikipedia.org/wiki/Turtle_%28syntaxe%29
[5] Les élèves peuvent approcher la promotion qui a fait le PFA http://virtualenaction.gforge.inria.fr
en 2012-2013 pour avoir un avis indépendant sur l'encadrement et
le déroulement du PFA avec l'équipe qui le propose.
[6] Par exemple du côté de d3js (http://d3js.org) l'aspect dynamique
pourraient aider à fouiller l'ontologie.
[7] Quelques références complémentaires:
Using Semantic [. for .] an Ontology of Brain-Cortex Anatomy
Olivier Dameron et al Stanford, Inria Rennes, 200x
Foundations for an ontology of brain areas, circuits and functions
Bénédicte M Batrancourt, CRIM Paris ; CNS'2013
Cognitive Ontologies Mapping structure and function of the
brain from a systemic view Jaime Gomez, U. Polytechnica Madrid,
2008
[1] Etude et livraison d'une préconisation.
Les étudiant-e-s sont invités à rencontrer quelques chercheurs
pour analyser et faire une étude critique de leur
travail de bibliographie. Ensuite, on regarders les
solutions existantes, pour construire un cahier des charges
d'une maquette qui serait l'agrégateur des outils nécessaires
qui auront été identifiés.
On fera aussi une étude critique, pour mettre aussi en évidence
ce qui ne marchera pas ou n'est pas possible.
[2] Construction d'une maquette et évaluation.
Une maquette logicielle sera développée, puis évaluée par les
chercheurs et cela permettra aux étudiant-e-s de rendre des
conclusions sur ces sujets. Il semble que cette maquette sera un
WebApplication HTML5/JS mais ce n'est pas une contrainte du
projet, si de meilleurs solutions émergent (Application Java,
Développement Python, ..).
[3] Un petit travail d'informatique théorique.
Le langage Turtle est un langage minimal pour entrer des données sous forme de triplets. On propose de l'utiliser. Mais il ne permet pas de définir des ontologies (c'est à dire des classes d'objets avec des propriétés, à un niveau supérieur de spécification). Il se trouve qu'un petit dialecte dit «Turtoise» de Turtle pourrait permettre de définir ces ontologies avec le même niveau de concision. Il est proposé de regarder cette proposition, de la critiquer, et si elle est pertinente de la proposer comme syntaxe pour entrer les ontologies.
Suite possible : Ce travail pourrait déboucher sur un ou deux stages
d'été au sein du laboratoire de recherche, avec des possibilités
de stage de master l'année suivante.
Travail coopératif sous github ou avec subversion, développement logiciel en WebTechologies, HTML5/JS. Les logiciels (libres) seront tous mis à disposition des étudiants selon les besoins.
Nom du responsable | : | André Garenne et Thierry Viéville |
Adresse | : | Institut des maladies neurodégénératives, Uiversité
Victor Segalen - Bordeaux 2, 146 Rue Léo Saignat, 33076 Bordeaux - France |
Téléphone | : | 06 13 28 64 59 |
Site Web |
http://team.inria.fr/mnemosyne |
|
Courriel de contact |
: | thierry.vieville@inria.fr |