Génotypage par séquençage (GBS), en tant que solution simplifiée efficace et à faible coût séquençage du génome La technologie est devenue le moyen principal d'analyser la diversité génétique des plantes, d'accélérer l'amélioration des cultures et d'explorer la base génétique des traits complexes. En simplifiant le génome, le séquençage à haut débit et le typage précis peuvent rapidement obtenir des marqueurs génétiques tels que des polymorphismes nucléotidiques simples (SNP) massifs dans l'ensemble du génome, fournissant un soutien de données clé pour la recherche dans de nombreux domaines, de la génétique des populations à l'amélioration moléculaire.
Cependant, les données de séquençage à grande échelle générées par la technologie GBS (comprenant généralement des dizaines de milliers à des millions de sites de mutation et des centaines d'échantillons) posent des exigences extrêmement élevées en matière de standardisation du processus d'analyse des données, d'adaptabilité des outils et de fiabilité des résultats. De la contrôle de qualité, de l'alignement des séquences et de l'identification des génotypes des données de séquençage originales, à l'analyse de la structure des populations, à la localisation des gènes et à la présentation visuelle, chaque étape nécessite une sélection rigoureuse des méthodes et une optimisation des paramètres. En même temps, l'interférence des génomes complexes (comme la polyploïdie), les données manquantes causées par une profondeur de séquençage inégale, et la pression computationnelle des échantillons à grande échelle soulignent encore l'importance d'établir un système d'analyse efficace.
L'article détaille les flux de travail d'analyse des données GBS, les outils principaux (comme TASSEL, Stacks, GATK, PLINK), les défis (profondeur inégale, génomes complexes, etc.) avec des solutions, les outils d'analyse et de visualisation en aval, et se termine par un résumé de son importance.
La technologie GBS a été largement utilisée dans la génétique des plantes, l'amélioration des cultures et recherche sur l'évolution de la population en raison de ses avantages en termes de débit élevé et de faible coût. Le processus d'analyse des données est le lien central entre les données de séquençage brutes et les conclusions biologiques, et il nécessite une normalisation stricte pour garantir la fiabilité des résultats. Le processus de base de l'analyse des données GBS peut être divisé en quatre étapes clés, qui sont étroitement liées pour former une chaîne complète allant de la génération de données à l'extraction d'informations.
Le contrôle de qualité et le prétraitement des données de séquençage originales sont la première étape de l'analyse GBS, ce qui affecte directement l'exactitude des résultats ultérieurs. Les données originales (généralement au format FASTQ) contiennent des séquences de séquençage (lectures) et leurs valeurs de masse, il est donc nécessaire de filtrer les bases de faible masse, de supprimer les séquences de liaison et les séquences répétées à l'aide d'outils de contrôle de qualité. Plus précisément, le contrôle de qualité comprend principalement : le filtrage basé sur la valeur de qualité Phred (valeur Q) (généralement, les bases avec Q≥20 sont conservées, et le taux d'erreur correspondant est ≤1 %), la suppression des lectures avec un ratio de N (base inconnue) dépassant 5 %, la taille des adaptateurs de séquençage et des séquences d'amorces (ce qui peut être réalisé par Cutadapt et d'autres outils), et la suppression des séquences répétées PCR (surtout lorsque la profondeur de séquençage est élevée, les séquences répétées entraîneront des variations).
L'alignement de séquences et la localisation dans le génome de référence sont les étapes clés pour ancrer les lectures prétraitées au génome de référence, et leur précision détermine la fiabilité de la détection des mutations. Pour les espèces disposant de génomes de référence (comme le riz et Arabidopsis thaliana), des outils d'alignement de courtes séquences tels que BWA et Bowtie2 peuvent être utilisés pour réaliser un alignement efficace en définissant des paramètres appropriés (comme un nombre de désaccords autorisés ≤2). Les résultats de la comparaison sont généralement stockés au format SAM/BAM, incluant la localisation des lectures sur le génome, des informations sur les désaccords, etc. Pour les organismes non-modèles sans génomes de référence (comme de nombreuses plantes sauvages), nous devons adopter une stratégie d'assemblage de novo, regrouper les lectures en contigs en utilisant des outils tels que Stacks et UNEAK, puis procéder à l'analyse subséquente.
Schéma des quatre étapes du flux de travail SNP-GBS-CROP (Melo et al., 2016)
La génotypage et la détection de mutations sont les objectifs principaux de l'analyse GBS, visant à identifier les variations génétiques telles que les SNP et les InDel à partir des données de comparaison et à déterminer le génotype de chaque échantillon. Cette étape dépend des outils de détection de mutations (tels que GATK et TASSEL GBS), et ses algorithmes principaux incluent : le calcul de la probabilité de génotype basé sur un modèle bayésien, le filtrage des mutations au niveau de la population (tel que la fréquence allélique minimale ≥5 % et le taux de suppression ≤20 %), et la détection du ratio d'hétérozygotes anormaux (excluant une possible contamination des échantillons).
La normalisation des données et la conversion de formats sont le lien entre le traitement en amont et l'analyse en aval, et les données doivent être converties en formats adaptés aux différents outils selon les objectifs de recherche. Les outils d'analyse génétique des populations (comme Structure et admission) nécessitent généralement l'entrée au format PLINK (.ped/.map), et le fichier VCF doit être converti par les outils PLINK ; les outils de construction de cartes de liaison (comme JoinMap) nécessitent une entrée au format de liaison (.loc), qui peut être convertie par le package TASSEL ou R/qtl ; les outils d'étude d'association à l'échelle du génome (GWAS) (comme GAPIT) supportent la lecture directe des fichiers VCF, mais les variations de faible qualité (comme les sites avec MAF<0,05) doivent être pré-filtrées.
Diagramme en barres montrant l'étendue du chevauchement des marqueurs parmi les cinq pipelines évalués (Melo et al., 2016)
Services qui pourraient vous intéresser
En savoir plus
La complexité du GBS analyse de données a donné naissance à une variété d'outils spéciaux, qui sont conçus pour différents liens (comparaison, détection de mutations, analyse en aval, etc.) et ont leurs propres avantages et scénarios d'application. Choisir la bonne combinaison d'outils est la clé pour améliorer l'efficacité de l'analyse et la fiabilité des résultats. Ce qui suit présente plusieurs outils essentiels et leurs caractéristiques fonctionnelles.
TASSEAU
TASSEL GBS est un pipeline d'analyse GBS basé sur Qualcomm développé par l'Université Cornell aux États-Unis. Il est spécialement conçu pour les populations de plantes et prend en charge l'analyse automatique de l'ensemble du processus, des données brutes à l'appel de génotypes. Ses fonctions principales incluent : l'identification des balises basée sur les informations de site de restriction, le regroupement et la comparaison des balises, l'appel de SNP et la dérivation des données de génotype. L'avantage unique de TASSEL GBS réside dans son efficacité élevée à traiter des échantillons à grande échelle (comme des dizaines de milliers de matériaux végétaux), et le temps de calcul peut être réduit de plus de 50 % grâce à l'optimisation du calcul parallèle.
Représentation schématique du pipeline de découverte TASSEL -GBS (Glaubitz et al., 2014)
Piles
Stacks est un outil pour l'assemblage de novo et le génotypage d'organismes non-modèles, qui permet la détection de mutations sans référence au génome, et est largement utilisé dans l'étude des plantes sauvages, des poissons et d'autres espèces manquant d'informations génomiques. Son algorithme central regroupe des lectures similaires en une "pile", construit une étiquette génomique simplifiée, puis identifie les SNPs par analyse de polymorphisme de population. L'avantage de Stacks est qu'il a une grande tolérance aux données à faible couverture (la profondeur de séquençage minimale peut atteindre 3×) et prend en charge le calcul direct des paramètres génétiques de population (tels que Fst et π).
GATK
GATK (Genome Analysis Toolkit) est un outil universel de détection de mutations développé par le Broad Institute, principalement utilisé pour l'appel de SNP et le filtrage de mutations avec une grande précision dans l'analyse des données GBS. Ses modules principaux (tels que HaplotypeCaller et VariantFiltration) sont basés sur un modèle d'apprentissage automatique, qui peut distinguer efficacement les variations réelles des erreurs de séquençage, en particulier pour les données GBS d'organismes modèles tels que les humains et les souris. L'avantage de GATK réside dans sa haute sensibilité de détection pour des mutations complexes (telles que les SNP multi-alléliques et les InDels) et son support pour l'annotation fonctionnelle des mutations (comme l'intégration des informations d'annotation des gènes via ANNOVAR).
PLINK
PLINK est un outil classique de génétique des populations et l'analyse d'association, qui est principalement utilisée pour le traitement en aval et l'analyse statistique des données GBS. Ses fonctions incluent la conversion de format de données (comme VCF→PLINK), le contrôle de qualité (comme le filtrage des loci avec un taux de suppression élevé), l'analyse de la structure de population (comme l'ACP et le calcul de LD), et l'analyse d'association (comme le test du chi carré et la régression logistique). L'avantage de PLINK réside dans sa rapidité d'exécution, capable de traiter les données de millions de SNP et de dizaines de milliers d'échantillons, et son format de sortie est compatible avec la plupart des outils en aval (comme Structure et GCTA).
Le pipeline Stacks (Catchen et al., 2013)
Bien que l'analyse des données GBS ait formé un processus standardisé, elle fait encore face à de nombreux défis dans son application pratique, qui proviennent principalement des caractéristiques techniques, des différences entre les espèces et de l'échelle des données. Face à ces problèmes, les chercheurs ont développé une série de solutions qui offrent un soutien solide pour améliorer la qualité de l'analyse.
Une profondeur de séquençage inégale et des données manquantes sont les défis les plus courants dans l'analyse du GBS. Étant donné que le GBS dépend de la distribution des sites de restriction, la profondeur de séquençage des différentes régions du génome varie considérablement (généralement entre 1× et 50×). Les régions à faible profondeur sont sujettes à des erreurs d'appel de génotype, tandis qu'un taux de suppression élevé (> 30%) réduit le taux d'utilisation des données. Par exemple, dans les données GBS de blé, environ 20%-30% des loci SNP ont été éliminés en raison du taux de suppression élevé, ce qui a affecté l'efficacité statistique de l'analyse ultérieure. Les solutions incluent principalement :
Concordance avant et après l'application du filtre SNP GBS (Cooke et al., 2016)
L'analyse des génomes complexes est particulièrement difficile chez les espèces polyploïdes et hautement répétitives (comme le blé, la pomme de terre et la canne à sucre). Les chromosomes homologues des polyploïdes sont susceptibles de provoquer des ambiguïtés dans l'alignement des séquences, tandis que les séquences hautement répétitives augmentent la proportion de variations faussement positives. Par exemple, les séquences répétitives dans le génome du blé hexaploïde représentent plus de 80 %, et le taux d'erreur de la comparaison des données GBS peut atteindre 15 % à 20 %. Pour résoudre ce problème, les solutions incluent :
La vérification de la cohérence entre les échantillons et la répétition technique est la clé pour garantir la fiabilité des données, mais elle est souvent ignorée. La contamination des échantillons, le saut de code-barres ou l'effet de lot de séquençage peuvent entraîner une diminution de la cohérence génotypique des échantillons répétés. Par exemple, le taux de saut de tag de la plateforme de séquençage Illumina est d'environ 0,5 % à 2 %, ce qui peut introduire des variations faussement positives dans l'analyse d'échantillons à grande échelle. Les solutions incluent :
Détection de la structure et de la croissance de la population avec des données GBS (Cooke et al., 2016)
Après le contrôle de qualité, la comparaison et la détection de mutations, les données GBS doivent être analysées en aval pour explorer la signification biologique, telle que l'analyse de la structure génétique des populations, le cartographie des gènes, la construction de cartes de liaison, etc. En même temps, des outils de visualisation peuvent transformer des données complexes en graphiques intuitifs pour aider à interpréter et à afficher les résultats. Ce qui suit présente plusieurs outils d'analyse et de visualisation en aval essentiels ainsi que leurs scénarios d'application.
L'outil d'analyse de la structure génétique des populations est utilisé pour analyser la relation génétique entre les échantillons et la stratification des populations, qui est la base de la recherche évolutive et de l'analyse d'association. Structure est un outil d'inférence de la structure des populations basé sur un modèle bayésien, qui révèle la structure génétique potentielle de la population en assignant des échantillons à k sous-groupes hypothétiques. Dans l'étude du GBS des plantes, Structure est souvent utilisé pour diviser les écotypes des espèces cultivées.
L'outil d'étude d'association à l'échelle du génome (GWAS) est utilisé pour explorer la variation génétique liée au phénotype dans les populations naturelles, et il est largement utilisé dans l'étude des traits complexes des cultures. Gapit (outil intégré d'association et de prédiction génomique) est un outil GWAS basé sur le langage R, qui prend en charge le modèle linéaire mixte (MLM) et peut efficacement contrôler l'interférence de la structure de groupe et de la parenté sur les résultats d'association.
Les outils de visualisation des données peuvent transformer les résultats de l'analyse GBS en graphiques intuitifs et aider à interpréter les résultats. Circos est utilisé pour dessiner une carte chromosomique circulaire, qui peut afficher des informations multidimensionnelles telles que la densité de SNP, la localisation des gènes, l'intervalle QTL, etc. Par exemple, dans le génome du blé, Circos peut montrer clairement la corrélation entre la distribution des gènes de résistance aux maladies sur différents chromosomes et les marqueurs GBS. Ggplot2 est un package de dessin dans le langage R, qui prend en charge la création de graphiques de dispersion PCA, de courbes de déclin LD, d'arbres phylogénétiques de population, etc. Ses paramètres hautement personnalisés peuvent répondre aux besoins d'une visualisation diversifiée.
Les outils d'intégration des données multiomiques sont utilisés pour corréler les données de génotype GBS avec des données phénotypiques telles que le transcriptome et la métabolomique, et révéler le mécanisme de régulation moléculaire des traits. WGCNA (analyse de réseau de co-expression génique pondérée) peut associer les marqueurs GBS avec des données d'expression génique et identifier des modules de co-expression liés aux traits cibles.
Aperçu du package R/Bioconductor SWATH2stats (Blattmann et al., 2016)
Le développement rapide de la technologie GBS favorise l'innovation en génétique végétale et en recherche de sélection, et l'analyse des données, en tant que lien central entre la technologie et la découverte scientifique, le progrès de ses méthodes et outils détermine directement l'efficacité d'utilisation des données GBS. Cet article résume le processus de base, les outils clés, les défis et les applications de l'analyse des données GBS et fournit une référence systématique pour les chercheurs.
Références :