This page is referenced by the BIG BORTHER AWARDS 2000 
Click here if you want to reverse the link

Le but de ces recherches est de reussir construire un logiciel capable de comprendre les évolutions d'une scène filmée afin de prevenir son utilisateur en cas de danger. Notre but n'est evidement pas de remplacer les specialistes de securité par des machines, mais plutot de leur simplifier leur tache en les prevenant lorsque quelque chose arrive.

Nous allons voir comment il est possible a partir du signal video de la camera ainsi que certaines informations de reconnaitre de situation complexe telle qu'une attaque à main armée. Pour resumer, l'idée est dans un premier temps de transformer le signal video en données structurées puis d'elaborer des raisonnement a partir de ses données. Nous verrons tout d'abord quel traitements utiliser pour transformer le flux vidéo. Puis Quel sorte d'information est necessaire et enfin comment raisonner pour reconnaitre des situations.
 
 
La Perception : Transformer le flux vidéo en données structurées 

La premiere étape du processus de perception consiste a convertir le signal video produit par la camera en images. Cette etape de numerisation est effectuée a raison de 5 images par seconde. La détection a pour but d'extraire de chacune des images un ensemble de primitives témoins du mouvement. Le principe de cette etape est de définir si chaque points de l'image a bouger ou non. Si l'on considere qu'un point de l'image est en mouvement il prend la valeur 1 sinon 0. On regroupe ensuite les points voisins déclarés mobils (valeur égale a 1) de l'image pour obtenir des régions connexes de points. Ceci fournit un ensemble de régions mobiles. Pour decider si un point doit etre déclaré mobiles ou non, il suffit de prendre une image du flux vidéo et dans faire la difference avec une image de la scène vide. Ainsi les points de l'image occupées par des personnes donneront une difference non nulle. On peut aussi prendre la difference entre une image et l'image qui la precede. Ainsi le contours des personnes en mouvement apparaitront.
 
 

Figure: Exemple de detection de régions mobiles par differences d'image. A gauche l'image issue du flux vidéo, a droite le résultat de la difference avec une image de la scene vide.



\includegraphics[width=5cm]{fig/exDetection.raw.eps2}




\includegraphics[width=5cm]{fig/exDetection.bin.eps2}

Les regions en mouvements doivent maintenant etre organisées en sous ensembles representant les differentes personnes de la scène. Cette etape a pour but de definir combien t il y a de personne dans lascene et ou sont chacune d'elle. La troisieme etape du processus de perception est le suivi de personne. Son role est de definir incrémentalement les trajectoires des personnes de la scene. Ceci correspond a mettre à jour l'ensemble des trajectoires préexistantes. Pour cela il convient d'apparier les personnes reconnues dans une image avec celles reconnues dans les images precedentes précédemment.
 
 

Figure: Exemple de suivi de personne de gauche à droite et de bas en haut

Grace a ces trois etapes, il nous est possible de transformer les images filmées par les camera de surveillance en données structurées avec lesquelle nous allons pouvoir raisonner. Pour comprendre ce qu'il se passe dans la scene notre approche constite a reconnaitre certaines situations. Mais les images ne suffisent pas, il nous faut aussi connaitre les lieux.
 
 
 
Le contexte : Connaitre les lieux

Le contexte represente l'ensemble des information necessaire pour pouvoir comprendre ce qu'il se passe dans la scene. Nous verrons plus loin que l'on a besoin que connaitre la geometrie 3D de la scene et d'identifier quelles zone de l'espace peuvent avoir un interet particiculier, mais dans un premier temps nous allons voir que la connaissance des lieux passe par l'information sur la camera qui filme la scene.

La Camera

Les information a propos de la camera qui vont nous interesser sont appele parametres de calibration. Grace a ces parametres il nous est possible de savoir comment les objects de la scene sont projetés sur le plan focal de la camera et inversement a quel point physique de la scene correspond un point de l'image. Pour calculer les paramtres de calibration il suffit de mettre en correspondance des points physiques de la scène avec les points images correspondant. Pour réussir cette operation, il faut prendre des mesures fiables dans la scène réelle. Plus les mesures sont fiables et nombreuses plus les parametres de calibration sont precis et utilisable. Les parametres de calibration nous permettent alors de calculer la position dans l'espace physique d' une personne detectée. Ceci nous permet aussi de d'en connaitre la taille et la largeur

Les Objects de la scene

Les objects de la scene sont la seconde source d'information qui va nous permettre pouvoir comprendre ce qu'il se passe. Les objets tels que les bureaux, les chaises ou les distributeurs sont representés par des volumes 3D, auquel on associe Des proprietes tel que leur role dans l'environnement, leur nom, leur type. la figure 3 illustre la notion d'objet de la scene.

Les zone d'interet

Les zones d'interet ne sont pas a proprement parler des objects physiques, mais plutot des regions de l'espace associées a certain compotement, tel que la zone des distibuteurs ou l'on s'attend a se qu'une personne reste quelques minutes.

la figure 4 montre un ensemble d'information du context d'une agence banquaire.
 
 

Figure 4: Exemple d'information contextuelle du coin cafe. En vert les zone d'interet, en gris les murs et les objets.



\includegraphics[width=5cm]{mc1.eps2}

 

Toutes ses informations sont necessaires pour pouvoir comprendre se qu'il se passe. La mise en oeuvre de cette information est encore un obstacle. Prendre des mesures dans la scene, construire les objets virtuels definir les zones represente un travail difficilement automatisable. Tout ceci doit etre fait a la main, mais ne doit etre fait qu'une seule fois a moins que la camera ou les meubles ne sont pas deplacées.
 
 
 
L'interpretation : Comprendre se qu'il se passe

A partir des resultats de la perception c.a.d l'historique des deplacements des personnes dans la scène d'une part et de l'information du context d'autre part, nous cherchons comprendre se qu'il se passe. L'approche choisie pour cela est de reconnaitre des situation particulieres. On distingue des lors deux types de situations: les situations atemporelle et les situations temporelles

situations atemporelles : les etats, les evenenements

Les situations atemporelles sont l'ensemble des concepts ayant peu de contrainte sur le temps. Soit car ils peuvent etre calculer n'importe quand soit car ils sont intrisecquement brefs. Les premiers sont appelés etats de la scene les second événements.

La structure d'un etat est definie a l'avance et est calculé a chaque images a partir des resultats de la perception et de l'information du contexte. Il nous est possible de calculer les etats suivant :
une personne est immobile, marche, court, est assise, est debout, est couchée, s'eloigne, va a droite, va a gauche, s'approche, est proche ou loin de quelqu'un ou de quelque chose, est dans ou en dehors d'une zone d'interet, marche vers quelque chose ou quelqu'un, marche avec un autre personne.

La structure d'un événement est definie à l'avance à partir de couple d'états differents. Par exemple si une personne est d'abord assise puis debout, elle s'est levee. la liste des etats que nous avons definis est la suivante.
une personne entre ou sort d'une zone d'interet, entre dans le champ de la camera, disparait, se leve, s'assoit, s'accroupit, se couche, s'arrete, repart, s'approche ou s'eloigne de quelqu'un ou quelque chose, tourne a gauche, a droite, fait un demi tour.

situations temporelles : les scénarios

Les situations temporelles sont des concepts dans lesquels le temps intervient de facon plus forte. Ces situation de longue duree sont appelées les scenarios . On definit ses scenarios a partir des etats et des événements en les combinants en sequence ou de facon logique. Cette operation de combinaison n'a rien de simple, en effet il faut transformer la connaissance intuitive des experts de securité en connaissance formalisée et structurée.

Prennons l'exemple simple d'une situation ou deux personnes se rencontrent pres de la machine a cafe.
Nous avons formalisé cette situation en un scenario à 3 événements defini comme suit:
événement 1 : a t = t1 une personne (p1) s'approche de la machine a cafe
événement 2 : a t = t2 p2 entre dans zone du coin cafe
événement 3 : a t = t4 p2  s'approche de p1

La serie de figures 5, 6, 7, 8 illustrent le resultat de la reconnaissance d'une telle situation. Les personnes de la scène sont representées par des cylindres beige.
 
 

Figure 5: a t = t1 une personne (p1) s'approche de la machine a cafe
\includegraphics[width=6cm]{00010.eps2}

 

Figure 6: a t = t2 p2 entre dans zone du coin cafe
\includegraphics[width=6cm]{00070.eps2}

 

Figure 7: p2  s'approche de p1 
\includegraphics[width=6cm]{00180.eps2}

 

Figure 8: Les trois evenements ont ete detectes; le scenario est entierement reconnu
\includegraphics[width=6cm]{00240.eps2}

 
 
 
Conclusion

Il nous faut aujourd'hui moins de 200 milisecondes pour effectué une boucle complete perception/raisonnement sur une image, soit 5 images par seconde. Mais de nombreux problèmes restent a résoudre tant du point de vue perceptuel que du point de vue raisonnement.
 
 
 
Pour en savoir plus ...

1
A. Lindivat.

Des logiciels qui verrons venir le danger.
L'Ordinateur individuel, (105):104-107, Avril 1999.
2
E. Sender.

C'est arrivé demain : Big Brother parmi nous
Sciences et avenirs, (635):74-77, Janvier 2000.



Nathanael Rota

1999-12-20