}

Heuristique pour décoder l'ADN des globules blancs

Il s'agit de réaliser une heuristique en C++ au sein d'un logiciel utilisé par des dizaines de laboratoires dans le monde afin d'améliorer grandement son temps de calcul. Ce travail a vocation à être intégré au logiciel et utilisé par des dizaines de laboratoires dans le monde pour le diagnostic et le suivi des leucémies.


Contexte: Globules blancs, recombinaisons VDJ

Les globules blancs jouent un rôle clé dans l'immunité. Les lymphocytes B et T sont adaptées aux différentes infections, produisant des anticorps et des récepteurs spécifiques à tel ou tel virus ou bactérie. Pour cela, une partie de la séquence d'ADN des globules blancs est transformé par la recombinaison VDJ, recombinaison donnant des milliards de possibilités différentes à partir d'un répertoire de quelques gènes.

Aujourd'hui, grâce aux progrès colossaux réalisés dans le domaine du séquençage de l'ADN via les séquenceurs à haut débit, on peut déterminer la séquence ADN d'un grand nombre de globules blancs et avoir le panel de leurs recombinaisons VDJ. Connaître les réarrangements VDJ des globules blancs, c'est connaître avec précion la réponse immunitaire. C'est aussi un outil primordial pour le suivi des leucémies, où l'on évalue la concentration des lymphoblastes possédant le même réarrangement VDJ que celui du diagnostic.


Problématique

Le logiciel libre Vidjil, réalisé par l'équipe de bioinformatique Bonsai (CRIStAL et Inria Lille) en collaboration avec l'hôpital de Lille a pour but de compter les globules blancs en les regroupant en clones suivant leurs séquence d'ADN et leur réarrangement VDJ. Il est destiné aux laboratoires effectuant du suivi de leucémie ou des recherches en immunologie. Vidjil contient un algorithme en C++ et une application web HTML5/Javascript couplée à un serveur web2py. Le serveur public a ouvert fin 2014, et Vidjil a aujourd'hui plus de 40 laboratoires utilisateurs en France et dans le monde. Sur les deux dernières années, plus de 2 000 échantillons de patients atteints de leucémies aigües ou chroniques ont été analysés avec l'aide de Vidjil.


Travail à réaliser

Vidjil contient une étape de regroupement des globules blancs (heuristique à base de graines), puis une étape d'analyse détaillée des recombinaisons VDJ utilisant de l'alignement de séquences par programmation dynamique. Actuellement, cette deuxième étape est limitante, avec une centaine de séquences traitées par minute.

Le projet consiste à développer une analyse plus rapide en utilisant une heuristique afin de limiter le nombre d'alignements. On souhaiterait arriver à des milliers ou des dizaines de milliers de séquences traitées par minute pour avoir une vue plus complète de l'ensemble des globules blancs. On mettra en place une heuristique à base de k-mers permettant de pré-filtrer les gènes candidats avec lesquels réaliser l'alignement afin d'économiser du temps de calcul. Des tests seront menés pour vérifier les temps d'exécution sur des dizaines de milliers de séquences, puis le code sera intégré à Vidjil.

Qualité du code

Le code sera écrit avec grand soin, documenté et testé. En cas de succès du projet, les développements effectués seront validés par les équipes hospitalières avec lesquelles nous travaillons et déployés pour tous nos utilisateurs.