Pas à Pas
suivre le guide
Markov
sans Markov et sans larmes, un petit TP
TP1
- prendre une séquence
d'ADN (par exemple une séquence
de B. subtilis)
 |
cet
homme est votre cauchemard
|
- maintenant comptez
! Par exemple avec les outils de Genomatix
:
- se connecter
sur http://genomatix.gsf.de/cgi-bin/tools/tools.pl
- dans Sequence
statistics choisir Create statistics
- dans Submit
your request cliquez sur start task
- choisir ensuite
l'option enter the correctly formatted DNA sequence(s)
par un couper/coller ou l'option upload a file
containing sequence(s) si vous avez sauvegardé la séquence
dans un fichier
- cliquez sur
load sequence
- choisir les
paramètres (prendre ceux par défaut) et cliquez sur
start this task
- c'est fini :
vous avez le contenu en AT/GC, ainsi le compte de mono, bi et tri-nucléotides
(1)
(naturellement
vous avez été un peu trop pris par la main dans cet exemple
(sic). Normalement l'exercice aurait été: 1) pendre la
séquence
de B. Subtilis, 2) utilisez les outils
statistiques de Genomatix. Ou alors plus simplement: 1) trouvez
une séquence d'ADN, 2) comptez les mono, bi et tri-nucléotides)
- Commencez à
apprendre les bases de la bioinformatique avec les exposés de Lorie
Dudoignon [ pdf
| ps.gz
] mais aussi avec les cours en ligne suivants :
Un peu
de lecture et une question
- Un peu de culture :
- Andreï
Andreïevitch Markov (1856-1922) est particulièrement connu
pour ses travaux sur les suites de variables aléatoires pour lesquelles
la variable future est déterminée par la variable présente
mais est indépendante de la façon dont l'état présent
a découlé des états passés (propriété
de Markov). Il est l'un des premiers à étudier des cas de
processus à accroissements non indépendants (il étudie
de 1907 à 1912 des «cas remarquables d’épreuves dépendantes»). Ses travaux
sont à l’origine de la théorie moderne des processus stochastiques.
- Les chaînes
de Markov sont fréquemment utilisées en linguistique (voir
le site Élément
de statistique textuelle du cours
de linguistique de l'Université de Lausanne). Ceci explique pourquoi
il est naturel d'utiliser les modèles de chaînes de Markov
pour les séquences en génétique (ces séquences
sont, d'une certaine façon, des textes).
- Le cours :
Une question :
Quel est le rapport entre les comptes obtenus en
(1)-Etape 0 et
les modèles markoviens ? (on ne peut répondre à
cette question qu'en ayant suivi le cours)
- Un peu de lecture supplémentaire
:
- Un
peu plus loin en bio-informatique
avec le cours en ligne d'Analyse
bio-informatique des séquences du Réseau d'Enseignement en Génétique
(GENET). Les
6 premiers chapitres de ce cours contiennent
beaucoup de matériel (y compris des TP en ligne).
Faire un des petits TP en ligne.
- Un
peu plus loin en génétique
avec le cours
en ligne de Génétique de Raymond Jalouzot (un des cours accessibles
sur l'espace
multimédia de l'Université d'Angers).
Les Modèles
de Markov Cachés (lecture)
- Un exemple avec R'HOM
(Recherche d'HOMogénéités dans une séquence d'ADN) de Pierre Nicolas et Florence
Muri-Majoube (voir le petit
guide en ligne [en anglais])
- le HMMER
(Profile hidden Markov models for biological sequence analysis) de Sean
Eddy (sa home-page résume le problème !)
- A l'université
de Californie à Santa Cruz, l'équipe
de bioinformatique propose
- Ici les transparents
de l'exposé sur les modèles de Markov cachés [ expose-hmm.pdf
| expose-hmm.ps.gz
]
- Quelques informations
de plus : "April is Math Awareness Month, a time to encourage the importance
of mathematics to students, teachers, and to the public at large. This year's
theme is Math and the
Genome (@ math forum)"
- en cherchant dans les liens du Math-Forum, on trouve quelques beaux sites
:
TP2 : dotplot
- ici un TP
sur "dotplot" (un outil simple de comparaison de deux séquences
ou d'une séquence avec elle-même)
TP3 : protéine X
- ici un dernier petit
TP .