Proposition de projet de deuxième année (PFA)

Année 2014-2015

Projet 0X0 - BigData en NeuroScience

Mots-clés

big-data, ontologie, web-sémantique, cerveau, neuroscience

Résumé

Motivation et cadre du projet

Les modèles informatiques étudiés en neurosciences computationnelles sont nourris de faits obtenus à partir de la littérature (publications scientifiques d'expérimentations biologiques). Une telle connaissance est mise en mots et en chiffres, conduisant à des descriptions dites "phénoménologiques" des comportements, des fonctions et des structures sous-jacents. Bref : on explique comment marche le cerveau dans un langage humain relativement informel.

Une partie de cette information est intégrée dans des modèles, c'est-à-dire mise en équations et formalisée sous forme d'algorithmes distribués pour vérifier certains aspects quantitatifs et qualitatifs de la compréhension globale présumée. Curieusement, ce travail est principalement réalisé de manière artisanale et plus ou moins par intuition. Bref: on est un peu en retard par rapport à d'autres domaines de connaissance qui ont, eux, pris en compte les développements récents et puissant en terme de représentations sémantiques. De très vastes et hétérogènes corpus comme ceux de Wikipedia ont été reformulés en terme de base de données sémantiques [2], avec des connaissances formalisées à partir d'ontologies.

On parle de bigdata, car il y a (i) beaucoup de données au delà de ce qu'un travail manuel peut appréhender, et (ii) des données hétérogènes struturées ou non (texte, figures, tableaux de valeurs, …), que l'on veut traiter (iii) à la fois manuellement et algorithmiquement. On est dans le cadre de l'open data, puisqu'on accèdera à des publications ouvertes, et que ce travail sera lui aussi ouvert.

Le but de ce projet est de mettre en place des outils logiciels pour que les chercheur-e-s en neurosciences computationnelles puissent facilement utiliser de tels outils ET éviter de partir sur de fausses pistes.

Résumé du projet

Concrètement ? Le ou la chercheur-e affiche un article scientifique à gauche de son écran et à droite il a un éditeur dans lequel on entre des notes correspondant aux données identifiés dans le papier. Ce sont des "triplets" de type «sujet verbe objet» (exemples: «chat:champ-visuel taille 180deg» ou «cervelet est-une zone-cérébrale») ou des descriptions de classes et de propriétés (ontologies). On lance ensuite des outils logiciels qui vérifient la cohérence des données entrées et construit une "ontologie" [3] qui sera ensuite utilisée avec des outils existants de traitement et visualisation [6]. On lance aussi des algorithmes pour fouiller les contenus de banques de publications, désormais disponibles. Ce travail d'annotation correspond à ce qui se fait déjà, mais on veut le perfectionner. Cet outil doit permettre de:
- faciliter ce travail
- partager ce travail
- connecter ce travail aux outils algorithmiques existants.

Plus d'information

[1] Site du projet : https://team.inria.fr/mnemosyne

[2] Le projet DBpedia : http://fr.dbpedia.org

[3] Présentation grand public d'une ontologie : http://interstices.info/ontologie

[4] Le langage Turtle : http://fr.wikipedia.org/wiki/Turtle_%28syntaxe%29

[5] Les élèves peuvent approcher la promotion qui a fait le PFA http://virtualenaction.gforge.inria.fr en 2012-2013 pour avoir un avis indépendant sur l'encadrement et le déroulement du PFA avec l'équipe qui le propose.

[6] Par exemple du côté de d3js (http://d3js.org) l'aspect dynamique pourraient aider à fouiller l'ontologie.

[7] Quelques références complémentaires:
Using Semantic [. for .] an Ontology of Brain-Cortex Anatomy Olivier Dameron et al Stanford, Inria Rennes, 200x
Foundations for an ontology of brain areas, circuits and functions Bénédicte M Batrancourt, CRIM Paris ; CNS'2013
Cognitive Ontologies Mapping structure and function of the brain from a systemic view Jaime Gomez, U. Polytechnica Madrid, 2008

Travail demandé

[1] Etude et livraison d'une préconisation.

Les étudiant-e-s sont invités à rencontrer quelques chercheurs pour analyser et faire une étude critique de leur travail de bibliographie. Ensuite, on regarders les solutions existantes, pour construire un cahier des charges d'une maquette qui serait l'agrégateur des outils nécessaires qui auront été identifiés.
On fera aussi une étude critique, pour mettre aussi en évidence ce qui ne marchera pas ou n'est pas possible.

[2] Construction d'une maquette et évaluation.

Une maquette logicielle sera développée, puis évaluée par les chercheurs et cela permettra aux étudiant-e-s de rendre des conclusions sur ces sujets. Il semble que cette maquette sera un WebApplication HTML5/JS mais ce n'est pas une contrainte du projet, si de meilleurs solutions émergent (Application Java, Développement Python, ..).

[3] Un petit travail d'informatique théorique.

Le langage Turtle est un langage minimal pour entrer des données sous forme de triplets. On propose de l'utiliser. Mais il ne permet pas de définir des ontologies (c'est à dire des classes d'objets avec des propriétés, à un niveau supérieur de spécification). Il se trouve qu'un petit dialecte dit «Turtoise» de Turtle pourrait permettre de définir ces ontologies avec le même niveau de concision. Il est proposé de regarder cette proposition, de la critiquer, et si elle est pertinente de la proposer comme syntaxe pour entrer les ontologies.

Suite possible :

Ce travail pourrait déboucher sur un ou deux stages d'été au sein du laboratoire de recherche, avec des possibilités de stage de master l'année suivante.

Matériels et logiciels nécessaires

Travail coopératif sous github ou avec subversion, développement logiciel en WebTechologies, HTML5/JS. Les logiciels (libres) seront tous mis à disposition des étudiants selon les besoins.

Coordonnées du responsable

Nom du responsable	:	André Garenne et Thierry Viéville
Adresse	:	Institut des maladies neurodégénératives, Uiversité Victor Segalen - Bordeaux 2, 146 Rue Léo Saignat, 33076 Bordeaux - France
Téléphone	:	06 13 28 64 59
Site Web		http://team.inria.fr/mnemosyne
Courriel de contact	:	`thierry.vieville@inria.fr`