Introduction

Next: Analyse du problème Up: No Title Previous: Table des matières

Sous-sections

Introduction

Le domaine

Le sujet de ce stage fait partie du domaine de l'interprétation de séquences d'images. On recueille à partir d'un signal de caméra, une série d'images envoyée vers un logiciel capable de la traiter. Pour ce faire, les images de la caméra sont acquises à une cadence fixe puis numérisées. Ensuite, la séquence d'images est traitée image par image puis dans la globalité afin d'en extraire le contenu sémantique. Enfin, le contenu est traité dans l'optique d'obtenir une analyse et une interprétation de haut niveau (cf. figure 1).

$\bullet$: (1) Acquisition et numérisation d'images.
$\bullet$: (2) Traitement de la série d'images.
$\bullet$: (3) Interprétation et analyse.

**Figure:** L'interprètation de séquences d'images
$\includegraphics[width=13cm]{images/img_interpret.eps}$

L'intérêt du sujet sur le plan applicatif a été démontré à de nombreuses reprises. En surveillance d'activité humaine, [6] ont réalisé un système d'aide à la décision d'opérateur de vidéo surveillance, déclenchant une alarme lorsqu'une situation à risque était détectée. Le même dessein était servi par [15] en surveillance routière. En analyse de scène sportive [7] exploitent les résultats du suivi de personnes afin d'analyser le comportement d'une équipe de football. En analyse de gestes [16], un niveau plus fin de description permet de réaliser des systèmes capables de comprendre le langage des sourds-muets.

Le stage

Un des hypothéses de l'interprétation (point (3)) est d'utiliser des résultats fiables afin de résoudre ses propres problèmes. Nous avons donc dans ce stage, réalisé un système de traitement de séquences d'images (point (2)) dont l'objectif est la fiabilité de la représentation statique et dynamique de la séquence traitée. Les détails de ces traitements seront étudiés dans la suite, mais dès lors il nous faut signaler que ce traitement se déroule en trois temps. En premier lieu, une étape de détection extrait de l'image courante les indicateurs du mouvements, témoignant de l'existence possible d'objets mobiles. Puis ces indicateurs sont classés, triés, organisés pour reconnaître les objets de la scène qui nous intéresse. Enfin, ces objets sont suivis d'une image à l'autre, afin de rendre compte de l'aspect dynamique de la séquence (cf. figure 2).

$\bullet$: (1) Détection de mouvement.
$\bullet$: (2) Reconnaissance d'objets.
$\bullet$: (3) Appariement temporel.

La figure 3 illustre un exemple de traitement dans une station de métro.
Le problème de représentation se reformule alors en la minimisation de l'erreur faite par le calcul de la représentation automatisée d'une scène par rapport à la réalité de cette scène. Malheureusement cette erreur peut difficilement être mesurée autrement que de façon intéractive et se révèle parfois tout à fait subjective. Malgré tout certains indicateurs objectifs peuvent être décrit pour mesurer l'erreur commise par le système de traitement de séqences d'images. On peut notamment citer des critères tels que le nombre de personnes dans une scène, leur taille, leur position au cours du temps. Ce sont sur ces critères que l'on peut alors définir la robustesse de tel ou tel système. Quoi qu'il en soit, il est clair que notre contrainte de robustesse sera remplie moyennant une bonne détection, une bonne reconnaissance et un bon suivi. Il existe quelques hypothèses qui vont nous permettre de réduire le champ d'étude : tout d'abord nous ne nous intéresserons, pour notre système, qu'à l'étude d'images issues d'une caméra monoculaire fixe dans une scène. Ce système a été réalisé en C à partir d'une architecture déjà existante et surtout d'une librairie d'algorithmes de vision développée dans l'équipe Orion de l'INRIA Sophia-Antipolis .

**Figure:** Le traitement de séquences d'images
$\includegraphics[width=13cm]{images/img_trait.eps}$

L'équipe

Le projet Orion est une équipe pluridisciplinaire, à la frontière des domaines de la vision par ordinateur, des systèmes à base de connaissances et du génie logiciel. L'objectif d'Orion est de concevoir et de développer des techniques et des logiciels pour d'une part, l'interprétation automatique d'images et d'autre part, la réutilisation et le pilotage automatique de programmes. Cet objectif est poursuivi en développant des langages d'expression des connaissances ainsi que des mécanismes d'apprentissage et de traitement de ces connaissances, adaptés à des classes de problèmes spécifiques. Orion se focalise sur l'étude des connaissances qui interviennent dans les deux types de problèmes étudiés : connaissances sur les objets et les scénarios à reconnaître pour l'interprétation automatique d'images, connaissances sur les programmes et leur utilisation pour le pilotage automatique de programmes. Orion étudie plus particulièrement les techniques de représentation des connaissances hybrides (à base de frames, de réseaux sémantiques et de règles de production) ainsi que les techniques de planification. Pour le raffinement de bases de connaissances, nous étudions des techniques d'apprentissage symbolique. Les applications qui intéressent Orion relèvent principalement du domaine de la vision par ordinateur. A terme, l'équipe souhaite élargir le champ d'application des méthodes et techniques développées par Orion à d'autres domaines (traitement du signal, calcul scientifique).

Le plan du rapport

L'objectif de ce rapport est double. Le premier objectif est de fournir une grille d'explication des problèmes posés par le traitement de séquences d'images pour le suivi de personne, à ceux souhaitant réaliser un système opérationnel. Ce but sera poursuivi, d'une part, dans la première section, sous forme d'une classification des problèmes rencontrés, d'autre part, dans la second section, par les différentes réponses apportées par la littérature. Le second but de ce rapport est de montrer la nécessité d'introduire des connaissances dans les traitements. Nous verrons, dans la troisième section une solution à base de connaissances explicites et déclaratives sur la scène et son contexte.

**Figure:** Exemple de détection de personnes dans une station de métro
$\includegraphics[width=13cm]{images/img_ex2.eps}$

Next: Analyse du problème Up: No Title Previous: Table des matières

Nathanael Rota
2000-11-06