Segmentation et classification bayesienne non supervisée
de données de télétrafic

Olivier Cappé

ENST / CNRS


Résumé:

On présente une méthode bayesienne de segmentation et de classification non supervisée de données de comptage. La composante de segmentation vise à délimiter des intervalles homogènes dans la séquences d'observations tandis que la partie classification a pour objet de mettre en évidence les portions des données ayant des caractéristiques similaires. L'approche retenue complète les observations par une structure probabilisée de variables latentes (non observées) proche de celle adoptée dans d'autres travaux récents portant sur l'analyse bayesienne de modèles de ruptures avec un nombre inconnus de rupture. Par rapport à des modèles plus classiques, la technique d'analyse proposée permet :

  • de relaxer les hypothèses a priori concernant les durées de séjour dans chacune des classes latentes (qui typiquement suivraient des lois géométriques dans le cas d'un processus sous-jacent markovien);
  • de traiter les nombres de segments et de classes latents comme des inconnues du problème.
  • L'inférence est réalisée par une approche itérative de type Monte Carlo par Chaîne de Markov incorporant des mouvements dits à "sauts réversibles" selon le principe proposé par Green (1995). On discute dans un second temps l'application de cette technique à l'analyse de données de télétrafic modérément agrégées, à la fois temporellement (horizon d'agrégation de l'ordre de 0.1 à 1 ms) et en nombre de connections (analyse de la trace PKT3).


    [Olivier Cappé]
    [Unité de Recherche]
    [Transparents]
    [ENST][CNRS]