Mini projets Ingénierie des Connaissances et Web Sémantique - ESSI 2005-2006

Sujet	Etudiants en charge
Sujet 1: Widgets graphiques pour un moteur de recherche sémantique	Pequignat Christophe - (Mini)
Sujet 2: Rendu dynamique d'éléments du Web Sémantique	Julien Bendjoudi et Florent Scarpel - (Mini)
Sujet 3: Sémantisation d'un site web et application au site d'ACACIA	Corinne Boisset et Colin Jacquelin - (Mini)
Sujet 4: SWEETWiki: Semantic Web enabled technologies in Wiki	Jeremy Passeron (PFE), Gael Crova (PFE) et Claire Lecompte (Mini)
Sujet 6: Analyse et reconception de l’analyseur de logs du système de e-learning QBLS	Agnes, Shouhela, Stephanie (Mini et IHM)
Sujet 7: Balisage sémantique d'un cours en ligne (JAVA)	Aurélie Pettinato et Karima Aissiou
Sujet 8: Recherche d’images et d’icônes pour la communication	Groupe 1: Luca Benevolo et Thomas Triol (Mini et IHM) Groupe 2: K. Colleon et F. Stenström (Mini)
Sujet 11: Card sorting et construction d'une hiérarchie RDF/S	Groupe 1: Lionel Joullie (PFE), Romain Blineau (Mini et IHM) Groupe 2: Amaury Noirclère, Cyril Thévenet, Benjamin Dugenet (Mini) Groupe 3: Damien Leroy et Julien Hazebrouk (Mini)
Sujet 23: Prototype de navigation visuelle dans un catalogue thématique	Damien Mandrioli, Nicolas Bousquet

Nouveaux:

Widgets graphiques pour un moteur de recherche sémantique (PFE)
À la différence d’un moteur de « recherche lexicale » tel que Google, un moteur de « recherche sémantique » permet de formuler des requêtes dont les termes sont « compréhensibles » par la machine. De sorte qu’on peut utiliser le terme « java » -- dans le sens « langage de programmation java » -- dans une requête et obtenir uniquement des réponses en rapport avec le langage java, et non pas avec l’île ou la danse du même nom. Cela est rendu possible grâce à une « ontologie », qui représente de manière formelle les termes d’un domaine et les relations entre ces termes.
Si les moteurs sémantiques se révèlent plus puissants que les « moteurs lexicaux », les interfaces de ces moteurs présentent cependant l’inconvénient d’être moins conviviales ; autrement dit, elles sont éloignées des modes de recherche des utilisateurs finals. Cela est du en particulier au fait que les interfaces actuelles des moteurs sémantiques ont été élaborées a partir d’interfaces destinées initialement aux spécialistes des ontologies.
L’objectif du projet est d’identifier des widgets graphiques permettant un affichage convivial des ontologies dans l’interface de requête du moteur sémantique. On pourra titre profit de widgets disponibles sur des moteurs existants, tel que Ajax, Google Suggest, Kartoo, etc.
Le projet sera testé et validé avec le moteur de recherche sémantique Corese développé par l'INRIA.
Les tâches suivantes seront réalisées :
- Analyse de l’existant : widgets graphiques pour la recherche d’information, modes de recherche d’information par des humains.
- Choix de widgets correspondants a des modes de recherche utilisateurs
- Implémentation d’une interface de requête utilisant les widgets
- Test de l’interface avec des utilisateurs réels
Rendu dynamique d'éléments du Web Sémantique
Le web sémantique est une évolution du Web permettant la description formelle de ses ressources afin d'automatiser des tâches et d'améliorer des traitements telles que la recherche d'information, l'intégration de sources hétérogènes, etc. Ces descriptions formelles doivent être parfois affichées par exemple pour présenter le résultat d'un appel à un moteur de recherche. Dans le cadre de ces nouvelles technologies, ce projet vise à étudier la génération et la gestion de patrons de rendu pouvant être attachés à des familles d'éléments de descriptions et composés automatiquement pour afficher n'importe quelle structure.
Le travail pourra suivre 4 étapes:
1, Edition des patrons: concevoir un format et un outil pour décrire des patrons de présentation en utilisant par exemple SPARQL.
2, Gestion de la hiérarchie des patrons: si un type d'élément (ex: homme) n'a pas de patron expressément associé, alors on peut utiliser des patrons hérités de ses ancêtres (ex: personne).
3, Intégration des patrons dans l'affichage des résultats d'un moteur de recherche (compléter proactivement une requête, compléter les résultats réactivement).
4, Intégration du retour d'utilisation dans le choix de patrons (holophrastage, catégories de patrons en fonction des profils et des requêtes).
Sémantisation d'un site web et application au site d'ACACIA
Il s'agit d'expérimenter un serveur web bâti par intégration dans un serveur Tomcat d'un moteur de recherche sémantique pour RDF/S (Corese) construit dans le projet Acacia de l'INRIA. Le projet comprend trois parties : 1. Analyse du site du projet ACACIA http://www.inria.fr/acacia et spécification du prototype du site à réaliser
2. Elaboration d'un modèle conceptuel de serveur web sémantique et réalisation en RDF/S. Ce modèle se décomposera en : modèle de site, modèle de navigation, modèle de recherche d'information, modèle de présentation, modèle du domaine, modèle d'utilisateur. La réalisation concrète du site mêle des pages statiques avec des portions engendrées dynamiquement à partir du modèle de site. Les pages statique sont annotées sémantiquement ce qui facilite la recherche d'information et la navigation. Un prototype de serveur utilisant ce modèle sera construit avec les technologies Corese, HTML/JSP, XML, XSLT, RDF/S, SPARQL. On pourra se baser sur des prototypes existant dans le projet Acacia.
3. Application au prototypage d'une version sémantique du serveur du projet ACACIA.
SWEETWiki: Semantic Web enabled technologies in Wiki (PFE)
Ce sujet est l'occasion de plonger dans deux technologies portant un fort potentiel d'évolution du Web: (1) les wikis: proposant des interfaces simples et en ligne d'édition des pages web; (2) le web sémantique: proposant des métadonnées au dessus des pages web pour automatiser leur traitement (recherche, composition, etc.);
Le mariage de ces deux technologies s'annonce prometteur: la simplicité et la rapidité d'édition des wikis alliées à la puissance de raisonnement du web sémantique. Le projet reposera sur des technologies classiques du web (Tomcat, servlet, XHTML, CSS), des technologies du web structuré (XML, XSLT) et des technologies du Web sémantique (RDF/S, CORESE). Nous voyons l'étude et le développement de ce sujet en cinq étapes:
1, Servlets simplifiés d'édition Wiki: (a) Utilisation d'un parseur (ex. javaCC avec une grammaire de WikiML) ou d'un éditeur WYSIWYG pour créer un servlet de sauvegarde "Wiki -> XHTML". (b) Utilisation de XSLT pour créer un servlet d'édition " XHTML -> Wiki" et une page fournissant l'interface d'édition (zone d'édition simple, puis boutons d'insertion). (c) Gestion des liens CSS (CSS par défaut, CSS par page)
2, Intégration de métadonnées aux pages Wiki: (a) Intégration de méta données directement à l'intérieur des pages wiki à l'aide d'une notation à la N3; (b) Traduction et sauvegarde de la page en XHTML & RDF/A. (c) Adjonction automatique de méta données sur la page (auteur, date, mots-clefs des concepts de l'ontologie détectés, etc.)
3, Recherche et navigation sémantique dans le wiki: (a) Utilisation/amélioration de GRDDL pour extraction des méta-données RDF/A et chargement dans CORESE; (b) Utilisation de CORESE pour naviguer dans le wiki (ontologie, mots-clefs, see also, recherche approchée et pages voisines, etc.).
4, Intégration des requêtes et de leur rendu dans le langage wiki: intégration d'une notation pour insérer un bloc "SPARQL + feuille de style" qui sera transformé en un tag JSP remplacé par la résolution et la présentation du résultat de la requête.
5, Intégration de formulaires dans le langage wiki: intégration d'une notation pour insérer des formulaires permettant de soumettre des requêtes personnalisées.
Navigation par facette dans un Intranet d'Entreprise (PFE)
Contexte : ILOG comporte un intranet d'entreprise articulé principalement autour d'un logiciel type TWIki, mais comporte également de nombreux autres types de documents. Ces documents portent des informations (métadonnées) comme l'auteur, l'historique, les dates de modifications, etc... d'autres informations sont disponibles comme la hiérarchie des employés, les équipes auxquelles ils appartiennent, les projets sur lesquels ils travaillent, les thèmes abordés par ces projets etc... Actuellement les gens naviguent dans cet intranet (32000 pages, 650 utilisateurs) de manière relativement classique : barres de navigation, pages avec des liens importants, moteur de recherche, bookmarks, etc...
But du projet : intégrer un outil permettant de naviger dans le site en utilisant les métadonnées. Par exemple : je veux voir les pages que telle personne a modifiées, classées par date, par pertinance (en utilisant le moteur de recherche existant et les backlinks), ou bien : je veux voir les pages modifiées/créees par telle équipe (on connait les personnes donc on peut retrouver les pages), les pages orphelines (aucun lien ne pointe dessus), les pages jamais consultées etc... Etant donné la nature hétérogène des documents (documents twiki, pages html statiques sans historiques, etc...) il est nécessaire d'extraire ces métadonnées pour construire une base de données des facettes (format log apache ou RDF) et proposer une interface de navigation permettant de naviguer à partir de ces facettes.
Le projet Diamond Wiki propose une telle interface basique. Vous pouvez, en l'essayant, avoir une idée de ce qu'est la navigation par facettes.
Analyse et reconception de l’analyseur de logs du système de e-learning QBLS
Projet en deux parties : la premiere partie est destinee aux etudiants du module "IHM" de l'ESSI; la seconde partie est destinee aux etudiants du cours "Ingenierie des connaissances pour le Web semantique" de l'ESSI. La participation d'etudiants en ergonomie du Mastere ErgoNTIC de l'UNSA est fortement souhaitee.
Partie 1 : Evaluation et reconception de l'interface graphique de l'analyseur de logs du système de e-learning QBLS
QBLS est un outil de e-learning permettant à des étudiants de répondre à des questions de TD en allant chercher les informations nécessaires dans le cours en ligne sur lequel portent ces questions. L'une des fonctionnalités de QBLS, utilisable par l'enseignant, est un analyseur de logs, qui, à partir des traces du parcours de l'étudiant, affiche un graphe du parcours de l'étudiant dans le cours et fournit un certain nombre de statistiques relatives à ce parcours. QBLS a fait l'objet l'an
passé d'une expérimentation auprès des étudiants ESSI 1ère année qui suivaient le cours de Jean-Paul Stromboni. L'interface de l'analyseur de logs n'a pas encore été évalué.
L'objectif de cette partie du projet est d'évaluer l'utilisabilité de l'interface de l'analyseur de logs, de proposer des recommandations de reconception de cette interface et d'implémenter ces recommandations.
Partie 2 : Elaboration et evaluation d'un modele de l'apprenant (ou profilutilisateur) permettant d'interpreter les logs d'un point de vue pedagogique. Dans sa version actuelle, l'analyseur de logs de QBLS permet surtout de decrire le parcours d'un etudiant dans le cours (ordre de passage d'une page a l'autre du cours, nombre de passages sur la meme page, etc.). L'analyseur ne permet pas encore d'interpreter de maniere automatique ces indicateurs : par exemple, le systeme ne peut pas determiner ce que revele le fait pour un etudiant d'etre passe plusieurs fois par la meme page. Pour introduire dans l'analyseur une capacite d'interpretation, cela
suppose en particulier d'y integrer un modele de l'apprenant (ou profil utilisateur), qui fasse le lien entre ce que l'etudiant a fait (son parcours, sa reponse a la question de TD, les notes qu'il a obtenues, etc.) et ce qu'il a reellement appris -- autrement dit les competences qu'il a reellement acquises.
L'objectif de cette partie du projet est d'elaborer un modele de l'apprenant (ou profil utilisateur) en rapport avec l'activite d'interpretation des indicateurs telle que la realisent les enseignants auteurs des cours integres dans QBLS.
On suggere de baser le modele de l'apprenant sur la notion de "competence" telle qu'elle a ete definie par Michel Authier (mathematicien, philosophe, sociologue, cofondateur de la societe Trivum) et reprise et adaptee dans les projets ForSIC et KmP.
On propose egalement d'implanter le modele de l'apprenant sous forme d'une annotation semantique, comme cela avait ete fait dans le projet europeen CoMMA.
Cette technique suppose en particulier d'integrer dans l'ontologie QBLS des concepts relatifs aux competences.
Quelques ressources sur le Web :
QBLS : http://www-sop.inria.fr/acacia/personnel/Sylvain.Dehors/
KmP : http://www-sop.inria.fr/acacia/soft/kmp.html
CoMMA : http://dbs.cordis.lu/fep-cgi/srchidadb?ACTION=D&CALLER=PROJ_IST&QM_EP_RCN_A=53704
ftp://ftp-sop.inria.fr/acacia/fgandon/FabienGandon_RR4396.pdf
ForSIC : http://forsic.univ-tlse1.fr/
Trivium : http://www.trivium.fr/fr/index.htm
Balisage sémantique d'un cours en ligne (JAVA)
Il existe aujourd'hui un grand nombre de cours disponibles sur le web, notamment sous la forme de pages HTML. Il est très intéressant de pouvoir réutiliser certaines parties de ces documents pour compléter un autre cours ou le présenter dans une plateforme de e-learning.
Malheureusement la recherche par mot-clés montre vite ces limites et il est difficile d'exploiter le contenu sans une phase manuelle d'annotation. Le sujet propose donc de développer un outil web permettant de générer des annotations sémantiques sur un cours HTML en faisant appel à des ontologies existantes pour guider le travail d'annotation.
Recherche d’images et d’icônes pour la communication
La motivation de ce projet d’IHM est d’explorer plus avant ce mode de communication par l’image qui permet à des touristes ne connaissant pas la langue du pays de se faire comprendre dans diverses situations (dans la rue, dans une boutique, dans le cabinet d’un médecin, etc.).
L’objectif du projet est de maquetter des interfaces de communication par l’image, ou associant la communication par l’image à la communication par les mots. Ces interfaces seront celles de dispositifs mobiles (téléphones portables, PDA) ou celles de dispositifs fixes dont l’utilisateur pourra disposer là où il se trouve.
pour en savoir plus...
Browser photographique de documents web (PFE)
Idée de base : transformer les documents Web d'un intranet en imagettes et utiliser un logiciel d'organisation de photos à la ACDSEE, Compupic, Picasa, autre... pour les visualiser, pour naviguer et pour les organiser.
On dispose dans un intranet d'un grand nombre de pages web (plusieur milliers), ces pages comportent des metadonnées (liens html, dates, auteurs, etc...). On veut pouvoir browser ces pages selon ces metadonnées (par date, comme dans un soft photo, mais aussi par auteur, par sujet, on veut pouvoir suivre les liens, etc...)
Cela consiste à dans un premier temps transformer ces pages en imagettes. Plusieurs logiciels gratuits permettent de faire ce travail comme WebThumb, khtml2png, etc... puis par la suite à les organiser dans un filesystem virtuel permettant la navigation, mais aussi le refactoring (déplacer, renommer, supprimer, etc...). Evidemment, une fois validées, ces modifications seront répercutées sur le vrai site, les vrais documents seront déplacés, renommés, etc...
Concernant le suivi des liens et l'exploitation des métadonnées, on pourra regarder des logiciels de gestion de photos comme caliph-emir, qui permet la navigation sémantique, en dautres termes la navugation et l'annotation des documents à l'aide de métadonnées.
Le projet sera en collaboraton avec ILOG, dont l'Intranet comprend 32000 pages environ...
Syntaxe XML et feuilles de style XSLT pour SPARQL, le langage de requête pour RDF. (PFE)
Le W3C propose le langage de requête SPARQL pour interroger des bases RDF. Le langage SPARQL est doté d'une syntaxe concrète basée sur une grammaire. Le but de ce projet est de proposer une syntaxe abstraite pour SPARQL exprimée en XML. L'objectif est de permettre ensuite des traitements et transformations de requête sous forme de feuilles de style XSLT. Une première feuille de style engendrant la syntaxe concrète à partir de requêtes en XML sera réalisée.
Si le temps le permet, une feuille de style engendrant du HTML sera réalisée à partir du format de résultat de SPARQL (Query Results XML Format).
Le projet sera testé et validé avec le moteur de recherche sémantique Corese développé par l'INRIA.
Les tâches suivantes seront réalisées :
- Etude du langage SPARQL
- Conception de la syntaxe abstraite
- Conception du format XML pour la syntaxe abstraite
- Conception et réalisation d'une feuille de style XSLT pour traduire la syntaxe abstraite XML en syntaxe concrète.
- Test avec le moteur Corese
- Et si le temps le permet, feuille de style de présentation des résultats au format Query Results XML.
Card sorting et construction d'une hiérarchie RDF/S (PFE)
Le cardsorting est une méthode utilisée pour concevoir l'index d'un site web. Elle propose de conduire des campagnes d'exercices de catégorisation auprès des utilisateurs d'un site et de construire un dendrogramme représentant les regroupements les plus couramment utilisés par les utilisateurs. Ces regroupements fournissent alors la base de l'index du site.
Le Web sémantique repose sur RDF/S un formalisme qui permet de décrire des catégories utilisées pour structurer des ressources sur le Web et automatiser certaines tâches de leur exploitation (ex: la recherche de documents).
Une étude naturelle serait donc d'expérimenter l'utilisation des méthodes de cardsorting pour générer les hiérarchies de catégories formalisées et échangées en RDF/S.
L'objectif de ce projet est de concevoir, implanter et tester une application web proposant une interface de cardsorting permettant de générer du RDF/S. Cette application inclura:
- une interface et les fonctionnalités d'administration pour faire des campagnes et importer du RDF/S;
- une interface et les fonctionnalités pour trier les cartes d'un exercice, nommer les groupes et recommencer;
- une interface et les fonctionnalités pour afficher les clusters de résultats;
- une interface et les fonctionnalités pour exporter un résultat (cluster ou réponse individuelle) en RDF/S.
Interface d'édition UML et RDFS (Projet en commun avec le module IHM)
Il s'agit de concevoir une interface ergonomique de navigation et d'édition d'un schéma RDFS alliant: (1) la notation UML (2) des fonctionnalités de navigation novatrices.
SKOS et import/export en RDFS
Services web sémantiques
Workflow documentaire (docflow)
Veille ontologique et collecticiel d'édition de RDFS (PFE)
Le web sémantique, nouveau standard du W3C, propose d'annoter les pages web avec des ontologies formalisées en RDF/S, c'est-à-dire des vocabulaires consensuels, partagées et nommés (URI). En utilisant ces vocabulaires dans nos algorithmes nous pouvons automatiser beaucoup de tâches sur le web comme la recherche d'information, la composition, la déduction, la veille, le clustering, le push, etc. Ces schémas représentés dans le langage RDF/S avec une syntaxe XML fournissent un nouvel atout de l'intégration et de l'interopérabilité d'applications sur le Web. Pour être utiles et utilisables, ces schémas doivent être facilement maintenables (fonctions d'édition, de modification, etc.) et consensuels (gestion de brouillons, de discutions, de veille / notification, de vote de validation, etc.).
Dans le contexte de ces technologies web d'avant-garde, ce projet vise donc la conception et l'implantation d'une application Web supportant les fonctionnalités suivantes autour d'un schéma RDF/S:
- Navigation, visualisation des classes et propriétés du schéma;
- Suggestion de nouvelles notions (classes, propriétés) et interface d'ajout;
- Suggestion de modifications et interface d'édition;
- Notification des suggestions à la communauté;
- Interface de validation (validation par x pairs, vote, administrateur, etc.)
- Notification des nouvelles versions.
Le travail se déroulera dans le cadre du projet KmP et utilisera comme base de teste le schéma RDF/S de ce projet et comme API de manipulation de RDF/S le moteur Corese.
(Article sur le web Sémantique)
<votre sujet ici/>

Vous pouvez aussi choisir parmi les projets de l'année dernière (pour plus de détails):

Serveur Web sémantique des cursus de l'ESSI
Serveur Web sémantique des centres académiques et publics de Sophia Antipolis
Serveur Web sémantique de l'INRIA Sophia Antipolis
Prototype de recherche dans une bibliothèque
Prototype d'édition d'ontologie
Prototype de navigation visuelle dans un catalogue thématique
Prototype d'un site marchand