Compression de données génétiques

Contexte

Au cours des dernières décennies, des avancées majeures en biologie moléculaire ont permis des percées révolutionnaires dans notre compréhension du fonctionnement des organismes vivants. Parmi ces avancées, le séquençage de l'ADN a joué un rôle crucial en ouvrant une fenêtre sur le code génétique qui régit la vie. L'essor de ces technologies a permis de réduire considérablement le coût du séquençage, ce qui a conduit à une grande augmentation du nombre d'études et de données génétiques devant être stockées. Une utilisation de ces données, appelée « génotypage », consiste à garder uniquement les différences entre un génome séquencé et une référence. Une grande quantité de données est générée par des études dans les domaines de la médecine et de l'agriculture entre autres, ce qui occupe un espace de stockage de plus en plus important.

Problématique

Les formats généralement utilisés pour stocker les données de génotypage ne permettent pas de stocker une grande quantité de données de manière efficace. Un outil, nommé xSqueezeIt et son format associé XSI, a été développé pour pallier à ce problème. Cependant, cet outil ne permet pas encore de stocker les probabilités dérivées de l'imputation génétique, une technique couramment utilisée dans ce genre d'études.

Objectifs

L'objectif de ce travail a été d'explorer la compression des probabilités de génotypage et de développer une extension à XSI pour y ajouter le support de celles-ci.

Méthodologie

Cette extension a été implémentée en C++, le langage de programmation utilisé par xSqueezeIt.

Résultats

Les résultats montrent une réduction de la taille des fichiers entre 2 et 5 fois par rapport à un fichier BCF compressé.

Perspectives et recommandations

Ce travail a abouti à une extension fonctionnelle pour XSI qui permet de compresser les probabilités de génotypage. Cependant, il reste encore du travail à faire pour améliorer l'efficacité de la compression et permettre une meilleure intégration avec les outils existants.

Etudiant: Francesco Monti

Année: 2023

Département: TIC

Filière: Informatique et systèmes de communication avec orientation en Sécurité informatique

Type de formation: Plein temps

Enseignant responsable: Yann Thoma

Institut: REDS

Téléchargements:
- Télécharger l'affiche
- Télécharger le rapport