Rapport du stage de fin d'études du DEPA

Visualisation de comportements humains pour l'interprétation automatique de séquences vidéos

VU Van Thinh,

Monique THONNAT, 
François BREMOND,
ORION, INRIA Sophia-Antipolis, France.

Mots clé :
Interprétation de séquences vidéos, Simulation, animation 3D, visualisation 3D, synthèse d'images, Modélisation du corps humain et des comportements des individus, Modélisation des scénarios et des scènes, Calibration automatique.

Key words :
Interpretation of video sequences, Simulation, 3D animation, 3D visualization, 3D graphic, Modeling of human body and of the human behaviors, Modeling of scenarios and of scenes, Automatic calibration.

Résumé :
Ce stage a pour objectif d'étudier le problème de la simulation pour l'interprétation de séquences d'images. Il s'agit de concevoir un système de visualisation générant des animations 3D à partir des comportements reconnus par un système d'interprétation automatique ou à partir de comportements décrits par un expert. Dans le cadre de notre stage nous avons utilisé le logiciel de reconnaissance de comportements à partir de séquences vidéos VSIS (Video Surveillance Intelligent System). La visualisation des comportements doit permettre de tester et de valider l'interprétation.
L'objectif du système de visualisation est à la fois (1) de rendre compte des calculs de l'interprétation, (2) d'être suffisamment flexible et paramétrable pour tester différentes configurations du système d'interprétation et (3) d'être suffisamment réaliste pour comprendre les scénarios évoluant dans la scène.
Nous résolvons ce problème en proposant un modèle hiérarchique et articulé comme modèle générique du corps humain. Nous proposons également deux autres modèles hiérarchiques comme modèle générique de comportements et de scénarios, et un modèle générique de scènes rassemblant tous les modèles précédents. Nous proposons également un langage de description pour représenter ces modèles.
Les résultats déjà obtenus sont prometteurs : nous avons déjà pu visualiser les sorties de VSIS, visualiser les scénarios décrits par un expert et vérifier que les animations générées sont cohérentes avec VSIS.

Abstract :
The objective of this work is for studying the problem of the simulation for automatic video interpretation. We have conceived a visualization system that generates the 3D animations from the recognition of behaviors (by an automatic interpretation system) or from the description of behaviors (by an expert). In our work, we used the software for automatic video interpretation VSIS (Video Surveillance Intelligent System). The visualization of behaviors has to permit to test and to validate the interpretation process.
The objective of our visualization system is (1) to visualize the computation of the interpretation, (2) to be flexible enough and parameterable for testing the different configurations of the interpretation system et (3) to be realist enough to understand what is going on in the scene.
We solve this problem by proposing an articulated and hierarchical model for the generic model of the human body. We also propose two other hierarchical models for generic model of behaviors and of scenarios, and a generic model of scenes that gathers all previous models. We also propose a description language for representing these models.
The obtained results are promising : we could visualize the output of VSIS, visualize the described scenarios (by an expert) and verify that the generated animations are coherent with VSIS.

Consulter les fichiers