}

[Recherche] Regroupement de séquences ADN bruitées pour compter les globules blancs

Il s'agit de mettre au point un algorithme, et de l'implanter, afin de rassembler des séquences ADN bruitées qui appartiennent à un même globule blanc. Ce travail a vocation à être testé sur de vrais données générées à l'hôpital de Lille.


Contexte: Globules blancs, recombinaisons VDJ

Les globules blancs jouent un rôle clé dans l'immunité. Les lymphocytes B et T sont adaptées aux différentes infections, produisant des anticorps et des récepteurs spécifiques à tel ou tel virus ou bactérie. Pour cela, une partie de la séquence d'ADN des globules blancs est transformé par la recombinaison VDJ, recombinaison donnant des milliards de possibilités différentes à partir d'un répertoire de quelques gènes.

Aujourd'hui, grâce aux progrès colossaux réalisés dans le domaine du séquençage de l'ADN via les séquenceurs à haut débit, on peut déterminer la séquence ADN d'un grand nombre de globules blancs et avoir le panel de leurs recombinaisons VDJ. Connaître les réarrangements VDJ des globules blancs, c'est connaître avec précion la réponse immunitaire. C'est aussi un outil primordial pour le suivi des leucémies, où l'on évalue la concentration des lymphoblastes possédant le même réarrangement VDJ que celui du diagnostic.


Problématique

Le logiciel libre Vidjil, réalisé par l'équipe de bioinformatique Bonsai (CRIStAL et Inria Lille) en collaboration avec l'hôpital de Lille a pour but de compter les globules blancs en les regroupant en clones suivant leurs séquence d'ADN et leur réarrangement VDJ. Il est destiné aux laboratoires effectuant du suivi de leucémie ou des recherches en immunologie. Vidjil contient un algorithme en C++ et une application web HTML5/Javascript couplée à un serveur web2py. Le serveur public a ouvert fin 2014, et Vidjil a aujourd'hui plus de 40 laboratoires utilisateurs en France et dans le monde. Sur les deux dernières années, plus de 2 000 échantillons de patients atteints de leucémies aigües ou chroniques ont été analysés avec l'aide de Vidjil.

Nous souhaitons désormais utiliser une nouvelle technologie de séquençage de l'ADN : les séquenceurs de troisième génération d'Oxford Nanopore. Ces séquenceurs ont de nombreux avantages (plus facile d'usage, produisant des séquences plus longues) mais ont un inconvénient majeur : ils font beaucoup d'erreurs. Or pour compter les séquences provenant d'un même globule blanc, il faudrait (idéalement) compter des séquences identiques.


Travail à réaliser

Vidjil contient une étape de regroupement des globules blancs (heuristique à base de graines), puis une étape d'analyse détaillée des recombinaisons VDJ utilisant de l'alignement de séquences par programmation dynamique. Ce projet se concentre sur la première phase.

Nous souhaitons développer un algorithme pour regrouper des reads bruités provenant d'un même globule blanc. Pour ce faire nous utiliserons des heuristiques à base de graînes, des minimiseurs, du winnowing, des techniques de hachage (ou autres techniques communes pour l'analyse de données bruitées). L'algorithme sera ensuite implanté afin de tester l'efficacité des idées dévelopées. Des tests seront menés sur données réelles pour vérifier que l'algorithme regroupe correctement les globules blancs.

Qualité du code

Le code sera écrit avec grand soin, documenté et testé.