This page is referenced by the BIG BORTHER AWARDS 2000
Click here if you want to reverse the link |
Le but de ces recherches est de reussir construire un logiciel capable de comprendre les évolutions d'une scène filmée afin de prevenir son utilisateur en cas de danger. Notre but n'est evidement pas de remplacer les specialistes de securité par des machines, mais plutot de leur simplifier leur tache en les prevenant lorsque quelque chose arrive.
Nous allons voir comment il est possible a partir du signal video de
la camera ainsi que certaines informations de reconnaitre de situation
complexe telle qu'une attaque à main armée. Pour resumer,
l'idée est dans un premier temps de transformer le signal video
en données structurées puis d'elaborer des raisonnement a
partir de ses données. Nous verrons tout d'abord quel traitements
utiliser pour transformer le flux vidéo. Puis Quel sorte d'information
est necessaire et enfin comment raisonner pour reconnaitre des situations.
La Perception : Transformer le flux vidéo en données structurées |
La premiere étape du processus de perception consiste a convertir
le signal video produit par la camera en images. Cette etape de numerisation
est effectuée a raison de 5 images par seconde. La détection
a pour but d'extraire de chacune des images un ensemble de primitives témoins
du mouvement. Le principe de cette etape est de définir si chaque
points de l'image a bouger ou non. Si l'on considere qu'un point de l'image
est en mouvement il prend la valeur 1 sinon 0. On regroupe ensuite les
points voisins déclarés mobils (valeur égale a 1)
de l'image pour obtenir des régions connexes de points. Ceci fournit
un ensemble de régions mobiles. Pour decider si un point doit etre
déclaré mobiles ou non, il suffit de prendre une image du
flux vidéo et dans faire la difference avec une image de la scène
vide. Ainsi les points de l'image occupées par des personnes donneront
une difference non nulle. On peut aussi prendre la difference entre une
image et l'image qui la precede. Ainsi le contours des personnes en mouvement
apparaitront.
|
Les regions en mouvements doivent maintenant etre organisées
en sous ensembles representant les differentes personnes de la scène.
Cette etape a pour but de definir combien t il y a de personne dans lascene
et ou sont chacune d'elle. La troisieme etape du processus de perception
est le suivi de personne. Son role est de definir incrémentalement
les trajectoires des personnes de la scene. Ceci correspond a mettre à
jour l'ensemble des trajectoires préexistantes. Pour cela il convient
d'apparier les personnes reconnues dans une image avec celles reconnues
dans les images precedentes précédemment.
|
Grace a ces trois etapes, il nous est possible de transformer les images
filmées par les camera de surveillance en données structurées
avec lesquelle nous allons pouvoir raisonner. Pour comprendre ce qu'il
se passe dans la scene notre approche constite a reconnaitre certaines
situations. Mais les images ne suffisent pas, il nous faut aussi connaitre
les lieux.
Le contexte : Connaitre les lieux |
Le contexte represente l'ensemble des information necessaire pour pouvoir comprendre ce qu'il se passe dans la scene. Nous verrons plus loin que l'on a besoin que connaitre la geometrie 3D de la scene et d'identifier quelles zone de l'espace peuvent avoir un interet particiculier, mais dans un premier temps nous allons voir que la connaissance des lieux passe par l'information sur la camera qui filme la scene.
la figure 4 montre un ensemble d'information du context d'une agence
banquaire.
|
Toutes ses informations sont necessaires pour pouvoir comprendre se
qu'il se passe. La mise en oeuvre de cette information est encore un obstacle.
Prendre des mesures dans la scene, construire les objets virtuels definir
les zones represente un travail difficilement automatisable. Tout ceci
doit etre fait a la main, mais ne doit etre fait qu'une seule fois a moins
que la camera ou les meubles ne sont pas deplacées.
L'interpretation : Comprendre se qu'il se passe |
A partir des resultats de la perception c.a.d l'historique des deplacements des personnes dans la scène d'une part et de l'information du context d'autre part, nous cherchons comprendre se qu'il se passe. L'approche choisie pour cela est de reconnaitre des situation particulieres. On distingue des lors deux types de situations: les situations atemporelle et les situations temporelles
La structure d'un etat est definie a l'avance et est calculé
a chaque images a partir des resultats de la perception et de l'information
du contexte. Il nous est possible de calculer les etats suivant :
une personne est immobile, marche, court, est assise, est debout, est
couchée, s'eloigne, va a droite, va a gauche, s'approche, est proche
ou loin de quelqu'un ou de quelque chose, est dans ou en dehors d'une zone
d'interet, marche vers quelque chose ou quelqu'un, marche avec un autre
personne.
La structure d'un événement est definie à l'avance
à partir de couple d'états differents. Par exemple si une
personne est d'abord assise puis debout, elle s'est levee. la liste des
etats que nous avons definis est la suivante.
une personne entre ou sort d'une zone d'interet, entre dans le champ
de la camera, disparait, se leve, s'assoit, s'accroupit, se couche, s'arrete,
repart, s'approche ou s'eloigne de quelqu'un ou quelque chose, tourne a
gauche, a droite, fait un demi tour.
Prennons l'exemple simple d'une situation ou deux personnes se rencontrent
pres de la machine a cafe.
Nous avons formalisé cette situation en un scenario à
3 événements defini comme suit:
événement 1 : a t = t1 une personne (p1) s'approche de
la machine a cafe
événement 2 : a t = t2 p2 entre dans zone du coin cafe
événement 3 : a t = t4 p2 s'approche de p1
La serie de figures 5, 6, 7, 8 illustrent le resultat de la reconnaissance
d'une telle situation. Les personnes de la scène sont representées
par des cylindres beige.
|
|
|
|
Conclusion |
Il nous faut aujourd'hui moins de 200 milisecondes pour effectué
une boucle complete perception/raisonnement sur une image, soit 5 images
par seconde. Mais de nombreux problèmes restent a résoudre
tant du point de vue perceptuel que du point de vue raisonnement.
Pour en savoir plus ... |