Flux de travail en bioinformatique du séquençage de l'exome complet
Aperçu de WES
L'avènement du séquençage de nouvelle génération (NGS) a considérablement accéléré la recherche en génomique, produisant des millions à des milliards de lectures de séquences à grande vitesse. Actuellement, les plateformes NGS disponibles incluent Illumina, Ion Torrent/Life Technologies, 454/Roche, Pacific Biosciences, Nanopore et GenapSys. Elles peuvent produire des lectures de 100 à 10 000 pb de longueur, permettant une couverture suffisante du génome à un coût réduit. Mais face à l'énorme quantité de données de séquence, comment les traiter au mieux ? Et quelles sont les méthodes computationnelles et les outils d'analyse les plus appropriés à cet effet ? Dans cette revue, nous nous concentrons sur le pipeline bioinformatique de séquençage de l'exome entier (WES).
Le séquençage de l'exome fait référence à une méthodologie d'analyse génomique qui implique le séquençage de l'intégralité des régions exoniques du génome d'un organisme. Cela est réalisé en enrichissant l'ADN dans la région de l'exome par capture de séquence ou technologie de ciblage, suivi d'un séquençage à haut débit. Représentant environ 1 % du génome (environ 30 Mo), la région exomique contient environ 85 % des mutations pathogènes.
La majorité des variations fonctionnelles liées au phénotype d'un individu se trouvent principalement dans la région exoniques chromosomique. Pour les chercheurs en génétique cherchant à découvrir les causes de plus de 6 800 maladies rares, le séquençage de l'exome constitue un outil précieux pour identifier les variants de nucléotides uniques (SNV), les petites insertions et délétions (InDels), ainsi que les rares mutations primaires qui peuvent éclairer des maladies héréditaires complexes.
L'analyse bioinformatique du séquençage de l'exome (WES) joue un rôle essentiel dans la recherche biologique, l'exploration des maladies génétiques, ainsi que leur diagnostic et traitements ultérieurs. Cela a stimulé les avancées scientifiques et créé de nouvelles voies pour améliorer la santé humaine. Avec le progrès continu de la technologie et l'amélioration des outils analytiques, le potentiel de la bioinformatique WES est appelé à être encore exploité et réalisé.
Service qui pourrait vous intéresser
Flux de travail en bioinformatique de l'exom entier (WES)
Vous pouvez lire l'article sur le principe et le flux de travail du WES pour en savoir plus sur le WES. Vous pouvez lire l'article. principe et flux de travail du séquençage de l'exome entier pour en savoir plus sur le WES. L'objectif principal de cet article est de fournir un aperçu complet du flux de travail analytique en bioinformatique suivi après le séquençage de l'exome. Un flux de travail typique de l'analyse WES comprend les étapes suivantes : contrôle de la qualité des données brutes, prétraitement, alignement des séquences, traitement post-alignement, appel de variants, annotation des variants, et filtration et priorisation des variants. Ces étapes seront discutées ci-dessous.
Figure 1. Un cadre général de l'analyse des données WES (Bao et al. 2014).
Contrôle de la qualité des données brutes
La génération de données de séquençage implique plusieurs procédures telles que l'extraction d'ADN, la construction de bibliothèques et le processus de séquençage lui-même. Cependant, ces procédures peuvent entraîner des données de qualité insuffisante ou des données intrinsèquement invalides, nécessitant une évaluation approfondie du contrôle de qualité des données brutes, après séquençage. La mise en œuvre d'une gestion de la qualité rigoureuse ouvre la voie à la production de données de séquençage de haute qualité, ce qui contribue à l'optimisation des procédures d'analyse bioinformatique ultérieures telles que l'alignement de séquences et la détection de variants. Par conséquent, cela améliore à la fois l'efficacité et la précision de l'analyse des données.
Les données de séquence ont généralement deux formats standard courants : FASTQ et FASTA. Les fichiers FASTQ peuvent stocker des scores de qualité de base échelonnés selon Phred pour mieux mesurer la qualité de la séquence. Il est donc largement accepté comme le format standard pour les données brutes de NGS. Plusieurs outils ont été développés pour évaluer la qualité des données brutes de NGS, tels que FastQC, FastQ Screen, FASTX-Toolkit et NGS QC Toolkit.
Lire les paramètres QC :
Distribution des scores de qualité de base
Distribution des scores de qualité de séquence
Distribution de la longueur des lectures
Distribution du contenu GC
Niveau de duplication de séquence
Problème d'amplification PCR
Biais des k-mers
Séquences sur-représentées
Prétraitement des données
Avec un rapport QC complet (impliquant généralement les paramètres ci-dessus), les chercheurs peuvent déterminer si un prétraitement des données est nécessaire. Les étapes de prétraitement impliquent généralement la suppression des adaptateurs en 3', le filtrage des lectures de faible qualité ou redondantes, et la découpe des séquences indésirables. Plusieurs outils peuvent être utilisés pour le prétraitement des données, tels que Cutadapt et Trimmomatic. PRINSEQ et QC3 peuvent réaliser à la fois le contrôle de qualité et le prétraitement.
Le prétraitement des données existe non seulement pour atténuer le bruit des données et réduire les faux positifs, mais aussi pour rationaliser les processus d'analyse ultérieurs. Le prétraitement implique de nombreuses étapes critiques telles que le contrôle de qualité, l'élimination des polluants techniques, le filtrage des séquences de basse fréquence et l'élimination des redondances. L'objectif ultime est de convertir les données prétraitées en un format propice à l'analyse ultérieure, se traduisant par des formats comme FASTQ et BAM. Cela ouvre la voie à une analyse bioinformatique plus détaillée.
Alignement de séquences
En effectuant un alignement de séquences, il est possible d'établir la localisation génomique de chaque fragment au sein des données de séquençage de l'exome. Cela s'avère inestimable pour l'identification des régions exon, de la structure des gènes et des éléments fonctionnels. De plus, l'alignement de séquences joue un rôle crucial dans divers aspects tels que la détection de variants, la facilitation de l'analyse de l'expression génique et l'évaluation de la qualité des données.
Le choix d'un outil d'alignement approprié devient nécessaire et dépend principalement des conceptions expérimentales et des types de données. Les outils couramment utilisés à cet effet incluent Bowtie2, BWA et STAR. Pour les données de séquençage ADN, Bowtie2 ou BWA est le choix typique, tandis que STAR est souvent utilisé pour les données de séquençage ARN.
Il existe des algorithmes pour le mapping des lectures courtes, y compris la transformation de Burrows-Wheeler (BWT) et les algorithmes de Smith-Waterman (SW). Bowtie2 et BWA sont deux outils populaires d'alignement de lectures courtes qui implémentent l'algorithme BWT (transformation de Burrows-Wheeler). MOSAIK, SHRiMP2 et Novoalign sont des outils importants d'alignement de lectures courtes qui sont des implémentations de l'algorithme SW avec une précision accrue. De plus, les implémentations multithreading et MPI permettent une réduction significative du temps d'exécution. Parmi tous les outils mentionnés ci-dessus, Bowtie2 se distingue par son temps d'exécution rapide, sa haute sensibilité et sa grande précision.
Traitement post-alignement
Après le mapping des lectures, les lectures alignées sont post-traitées afin de supprimer les lectures ou alignements indésirables, tels que les lectures dépassant une taille définie et les duplicatas PCR. Des outils tels que Picard MarkDuplicates et SAMtools peuvent distinguer les duplicatas PCR des véritables matériaux ADN. Par la suite, la deuxième étape consiste à améliorer la qualité de l'alignement avec des lacunes via un réalignement d'indels. Certains aligneurs (comme Novoalign) et appelants de variantes (comme GATK HaplotypeCaller) impliquent une amélioration de l'alignement des indels. Après le réalignement des indels, BQSR (BaseRecalibrator de la suite GATK) est recommandé pour améliorer la précision des scores de qualité de base avant l'appel de variantes.
Le traitement post-alignement identifie et filtre efficacement les fragments de séquence de faible qualité, améliorant ainsi l'utilisabilité des données et réduisant la charge computationnelle lors des analyses ultérieures. En optimisant ce traitement post-alignement, la fiabilité et la cohérence des données peuvent être maximisées. Cette étape cruciale garantit que les résultats des analyses bioinformatiques ultérieures sont plus crédibles.
Appel de variantes
L'appel de variants est un processus crucial pour identifier les polymorphismes à un seul nucléotide (SNP), les mutations d'insertion-suppression (Indels) et d'autres variations génomiques, contribuant de manière significative à la découverte de variations pathogènes potentielles pouvant être liées à des maladies. Grâce à l'appel de variants, les génotypes des échantillons peuvent être évalués avec précision, catégorisant à la fois les mutations hétérozygotes et homozygotes. Les résultats de l'appel de variants servent donc de base fondamentale pour l'annotation et le filtrage des variants ultérieurs. Ainsi, la précision et l'exhaustivité de l'appel de variants sont essentielles pour l'ensemble de la procédure analytique.
Des logiciels spécialisés de détection de variants, tels que GATK, Samtools et VarScan, sont utilisés dans les données de séquençage post-alignement pour l'appel de variants. Ces applications logicielles discernent les différences entre l'échantillon et le génome de référence en évaluant statistiquement les informations de base à chaque locus, générant ensuite un ensemble de variants candidats.
L'analyse des variants est importante pour détecter différents types de variants génomiques, tels que les SNP, les SNV, les indels, les CNV et les SV plus grands, en particulier dans les études sur le cancer. Il est essentiel de distinguer les variants somatiques des variants germinaux. Les variants somatiques ne se trouvent que dans les cellules somatiques et sont spécifiques aux tissus, tandis que les variants germinaux sont des mutations héritées présentes dans les cellules germinales et sont liés à l'histoire familiale du patient. L'appel de variants est utilisé pour identifier les SNP et les courts indels dans les échantillons d'exome. Les outils d'appel de variants courants sont répertoriés dans le tableau 1. Certaines études ont évalué ces appelants de variants. Liu et al. ont recommandé GATK, et Bao et al. ont recommandé une combinaison de Novoalign et FreeBayes.
Tableau 1. Les outils courants d'appel de variantes.
| Appel de variants | Outils |
|---|---|
| Appel de variants germinales | GATK, SAMtools, FreeBayes, Atlas2 |
| Détection de variants somatiques | GATK, mpileup de SAMtools, appelant de variantes Issac, deepSNV, Strelka, MutationSeq, MutTect, QuadGT, Seurat, Shimmer, SolSNP, jointSNVMix, SomaticSniper, VarScan2, Virmid |
Annotation de variante
Après l'identification des variantes, elles doivent être annotées pour mieux comprendre la pathogénie des maladies. L'annotation des variantes implique généralement des informations sur les coordonnées génomiques, la position des gènes et le type de mutation. De nombreuses études se concentrent sur les SNV non synonymes et les indels dans l'exome, qui représentent 85 % des mutations causant des maladies connues dans les troubles mendéliens et une grande partie des mutations dans les maladies complexes.
Principalement, l'annotation des mutations comprend la transformation des coordonnées génomiques, l'annotation du type de mutation, la prédiction de l'impact fonctionnel, ainsi que l'annotation des gènes et des voies. La conversion des coordonnées génomiques d'une mutation sur un génome de référence garantit la précision et la comparabilité des résultats d'annotation.
Les mutations identifiées nécessitent une annotation supplémentaire par type, qui peut inclure des polymorphismes nucléotidiques simples (SNP), des insertions/délétions (Indels), des variations du nombre de copies (CNV) et des variations structurelles. Déterminer les gènes et les voies pertinentes où une mutation est trouvée implique d'annoter l'impact de la mutation sur le gène, les classifications de fonction des gènes, les éléments régulateurs, et plus encore. Comparer les résultats d'annotation avec des bases de données publiques telles que ClinVar, dbSNP et OMIM aide à recueillir des informations sur les mutations connues. Combiné avec les informations des bases de données cliniques, on peut évaluer davantage la signification clinique d'une mutation.
En plus de l'annotation de base, il existe de nombreuses bases de données qui peuvent fournir des informations supplémentaires sur les variants. ANNOVAR est un outil puissant qui combine plus de 4 000 bases de données publiques pour l'annotation des variants, telles que dbSNP, 1000 Genomes et les données de séquençage de l'exome du panel de lignées cellulaires tumorales humaines NCI-60. Cet outil peut être utilisé pour la prédiction de la fréquence des allèles mineurs (MAF), la prédiction de la nocivité, l'indication de la conservation du site muté, les preuves expérimentales pour les variants de maladie, et les scores de prédiction provenant de GERP, PolyPhen et d'autres programmes. D'autres bases de données courantes incluent OncoMD, OMIM, SNPedia, 1000 genomes, bdSNP et les variants de génome personnel.
L'annotation des variants, en associant les variations à des gènes connus, des zones fonctionnelles et des informations sur les voies, aide à interpréter l'impact fonctionnel des variations, telles que les modifications de la structure ou de la fonction des protéines. De plus, les annotations de variants peuvent filtrer les variations pour identifier des candidats pour des variations pathogènes, réduisant ainsi le champ d'analyse et guidant la priorisation des variations potentielles liées à des maladies. Fournir une interprétation biologique plus approfondie grâce à l'annotation de la fonction et de l'impact des variations aide à comprendre la relation entre le variant et le phénotype.
Filtration et priorisation des variants
WES peut générer des milliers de candidats variants. Ce nombre peut être réduit par la priorisation des variants, afin de générer une liste de mutations candidates courte mais prioritaire pour une validation expérimentale ultérieure. La priorisation des variants implique trois étapes : 1) suppression des appels de variants moins fiables ; 2) élimination des variants communs (en raison de l'hypothèse selon laquelle les variants rares sont plus susceptibles de causer des maladies) ; 3) priorisation des variants par rapport à la maladie en utilisant des approches basées sur la découverte et des approches basées sur des hypothèses. Les outils disponibles pour la filtration et la priorisation des variants incluent VAAST2, VarSifer, KGGseq, PLINK/SEQ, SPRING, l'outil GUI, Gnome et Ingenuity Variant Analysis.
L'annotation des variants a pour but de corréler les mutations identifiées avec des gènes connus, des régions fonctionnelles et des voies métaboliques. Ce faisant, nous pouvons explorer l'impact fonctionnel des variations, par exemple, si elles induisent des modifications de la structure ou de la fonction des protéines. L'annotation des variants permet de filtrer les mutations causant des maladies parmi le pool de variants identifiés, réduisant ainsi le champ d'analyse. Cette étape aide à prioriser les mutations potentielles liées aux maladies. Un examen détaillé de la fonction et des effets de ces variations annotées offre une interprétation biologique plus profonde, facilitant ainsi notre compréhension du lien entre ces variations et les prédispositions phénotypiques.
Lors du filtrage et de la priorisation des variants, le processus commence souvent par une phase de contrôle de la qualité, où les variants détectés pouvant résulter d'erreurs de séquençage ou d'autres facteurs non pathogènes sont exclus. Les critères de filtrage courants incluent la profondeur de séquençage, la qualité des bases et l'hétérogénéité. Par la suite, un filtrage est effectué pour les variants polymorphes communs.
Des filtres supplémentaires sont ensuite appliqués en fonction de l'impact fonctionnel des variants, tels que les mutations non synonymes et synonymes, en conservant principalement ceux susceptibles d'affecter la structure et la fonction des protéines. Les variants sont ensuite examinés par rapport aux gènes impliqués, en accordant la priorité aux variants se produisant dans des gènes connus pour être associés à des maladies. Une fois que les variants ont été filtrés à travers ces critères, ils sont classés selon leur probabilité et leur potentiel de pathogénicité, en tenant compte de facteurs tels que la fonctionnalité, l'emplacement, la fréquence et les implications cliniques des variants. En fin de compte, les variants de haute priorité sont sélectionnés pour des processus de validation supplémentaires, des études fonctionnelles ou des diagnostics cliniques afin d'établir leur pertinence par rapport aux maladies et leur fonctionnalité biologique.
Le filtrage des variantes peut atténuer les variantes faussement positives introduites en raison d'erreurs de séquençage ou d'analyse, augmentant ainsi la précision de l'appel des variantes. En établissant des critères de filtrage stricts et en priorisant des stratégies, les variantes potentiellement pathogènes sont intentionnellement positionnées pour une considération immédiate, accélérant la découverte des variantes associées aux maladies.
Figure 2. Le pipeline impliquant trois phases importantes, à savoir le prétraitement, la découverte de variants et la priorisation des variants. (Meena et al., 2017)
Gestion des données
Dans le cadre du stockage des données, le volume considérable de données générées par les technologies de séquençage de nouvelle génération (NGS) peut submerger les solutions de stockage traditionnelles. Par conséquent, la considération des services de stockage cloud, tels qu'Amazon S3, se pose. Ces services offrent une capacité de stockage presque illimitée et fonctionnent sur un modèle de paiement à l'utilisation, s'adaptant aux fluctuations d'utilisation. Des fournisseurs commerciaux comme Illumina proposent également des services de stockage de données basés sur le cloud au sein de leurs environnements NGS, facilitant l'accès rapide aux aberrations génomiques et aidant au diagnostic médical.
Pour stocker économiquement les vastes données de séquençage génomique, la compression des données de séquençage devient une approche viable. Plusieurs techniques de compression de données ont été développées, y compris l'encodage naïf, la compression basée sur un dictionnaire, les méthodes statistiques et la compression de génomes de référence. Par exemple, le format CRAM offre une méthode de compression efficace, réduisant considérablement l'espace de stockage requis.
En ce qui concerne le partage de données, des bases de données internationales telles que l'EBI et le NCBI offrent des capacités de stockage et d'accès à de grands ensembles de données. Cependant, à mesure que le volume de données augmente, la durabilité du partage de données devient une préoccupation. De plus, des plateformes comme le Portail des Génomes du Cancer de l'ICGC et Oncomine ont été établies pour promouvoir le partage de données. Ces plateformes disposent d'interfaces web pour rechercher et visualiser des données génomiques et cliniques, favorisant ainsi les efforts de recherche collaborative.
Conclusion
En résumé, l'analyse bioinformatique de séquençage de l'exome entier connait actuellement une période de développement rapide, offrant un potentiel immense dans la recherche génétique et les applications cliniques. Avec de nouvelles avancées technologiques et des améliorations dans les méthodologies analytiques, nous prévoyons de percer davantage de mystères des maladies génétiques à l'avenir, permettant ainsi de fournir des interventions médicales de plus en plus personnalisées pour les patients.
Si vous êtes intéressé par le séquençage de l'exome complet fourni par CD GenomicsN'hésitez pas à nous contacter. Nous proposons un package complet de séquençage de l'exome entier, incluant la standardisation des échantillons, la capture de l'exome, la construction de bibliothèques, le séquençage à haut débit, le contrôle de qualité des données brutes et l'analyse bioinformatique. Nous pouvons adapter ce processus à vos intérêts de recherche.
Références :
- Bao R, Huang L, Andrade J, et al. Revue des méthodes actuelles, des applications et de la gestion des données pour l'analyse bioinformatique du séquençage de l'exome complet. Informatique du cancer, 2014, 13 : CIN. S13779.
- Meena N, Mathur P, Medicherla K M, et al. Un pipeline de bioinformatique pour le séquençage de tout l'exome : aperçu du traitement et des étapes des données brutes à l'analyse en aval. bioRxiv, 2017 : 201145.
- Xu H, DiCarlo J, Satya RV, Peng Q, Wang Y. Comparaison des méthodes d'appel de mutations somatiques dans les données de séquençage d'amplicons et de tout l'exome. BMC Genomics. 2014, 15:244.
- Lelieveld S H, Veltman J A, Gilissen C. Nouvelles avancées bioinformatiques pour le séquençage de l'exome. Génétique humaine, 2016, 135 : 603-614.