Analyse de ségrégation en masse (BSA) est une méthode d'abord appliquée à la laitue par R. W. MICHELMORE en 1991 pour la localisation rapide des gènes contrôlant des traits spécifiques. La méthode consiste à sélectionner 12-14 plantes individuelles avec des phénotypes extrêmes d'une population F2, à regrouper leur ADN de manière égale pour créer deux pools d'ADN. Ensuite, des marqueurs polymorphes sont analysés entre les parents et les deux pools. Si un marqueur présente un polymorphisme cohérent entre les parents et les pools, il est probablement lié au trait. Analyse génotypique de ces marqueurs polymorphes sélectionnés dans la population F2 permet la localisation du gène cible, éliminant ainsi la nécessité d'une analyse génotypique de chaque marqueur dans la population.
Le principe de cette méthode est que les marqueurs liés au caractère présenteront un polymorphisme entre les deux pools, tandis que les marqueurs non liés ou faiblement liés au gène cible montreront une hétérozygotie aléatoire entre les pools. La BSA est un moyen rapide d'obtenir des marqueurs moléculaires liés au caractère, généralement utilisée pour localiser des gènes de caractères qualitatifs ou des loci de caractères quantitatifs (QTL) contrôlant des caractères avec un petit nombre (2-3) d'effets majeurs.
Tout d'abord, l'ADN est extrait à l'aide d'un kit d'extraction d'ADN en suivant une procédure standard. L'ADN des deux parents aux phénotypes extrêmes peut être directement extrait et vérifié pour sa qualité. En revanche, les échantillons de descendants doivent subir une étape supplémentaire après l'extraction de l'ADN et la vérification de la qualité, impliquant un mélange équimolaire pour créer des échantillons groupés (chaque groupe devrait idéalement contenir un minimum de 20 échantillons ou plus).
La détection d'échantillons d'ADN implique trois méthodes principales :
Exigences d'échantillon d'ADN : Pour chaque préparation de bibliothèque, 2 μg d'échantillon sont nécessaires, avec au moins deux préparations fournies. La concentration de l'échantillon doit être >20 ng/μl, le rapport OD260/280 doit se situer entre 1,8 et 2,0 sans contamination visible, et l'ADN génomique doit être intact sans dégradation. Lors de l'électrophorèse sur gel, la bande principale de l'ADN doit être supérieure à 23 kb.
Sélection des échantillons : Pour les échantillons de plantes, il est recommandé de choisir des semis jaunissants cultivés en milieu sombre ou des semis tendres. Pour les échantillons d'animaux, sélectionnez des tissus à faible teneur en graisse, tels que le muscle ou le sang, pour l'échantillonnage.

Les échantillons d'ADN ayant passé le contrôle de qualité sont fragmentés en fragments de 350 pb à l'aide d'un kit de réactifs de fragmentation pour la construction de bibliothèques. Les fragments d'ADN subissent diverses étapes, y compris la réparation des extrémités, l'ajout d'une queue polyA, la ligature d'adaptateurs de séquençage, la purification et l'amplification par PCR, pour compléter l'ensemble du processus de préparation de la bibliothèque. Une fois la construction de la bibliothèque terminée, une quantification initiale est effectuée. Par la suite, la longueur du fragment d'insertion de la bibliothèque est vérifiée, et une fois que la longueur correspond à la taille attendue, la PCR quantitative (qPCR) est utilisée pour déterminer avec précision la concentration effective de la bibliothèque afin d'assurer sa qualité. Une fois que la bibliothèque a passé ces contrôles de qualité, elle passe à l'étape suivante de séquençage.
Le flux de travail spécifique pour la construction de bibliothèques et le séquençage est illustré dans le diagramme suivant :
Aasim Majeed et al. Front. Genet.08 août 2022
Une fois le processus de contrôle qualité terminé, le flux de travail de construction de bibliothèque et de séquençage se déroule comme suit :
Après avoir obtenu les données de séquençage brutes (lectures séquencées), les séquences d'adaptateurs et les séquences comme polyN et polyA sont filtrées pour obtenir des données propres.
Les lectures valides filtrées sont alignées sur le génome de référence à l'aide de BWA (Burrows-Wheeler Aligner). Le logiciel SAMtools est ensuite utilisé pour trier les résultats d'alignement, suivi de l'utilisation de Picard pour marquer les lectures dupliquées. Marquer les lectures dupliquées implique de labelliser plusieurs fragments d'ADN identiques amplifiés par PCR. Les lectures labellisées ne sont pas utilisées dans les analyses ultérieures afin de prévenir les faux positifs dans la détection des variants.
Après avoir marqué les séquences dupliquées, il est nécessaire de réaligner les InDels en fonction des valeurs CIGAR (Compact Idiosyncratic Gapped Alignment Report) fournies dans les résultats d'alignement BWA. BWA tolère les erreurs (mismatches et InDels) près ou au sein de séries continues de nucléotides homopolymères (par exemple, des T ou des A consécutifs). Cela peut entraîner des erreurs dans l'appel des variants. Par conséquent, l'utilisation du module de réalignement des InDels du logiciel GATK (Genome Analysis Toolkit) est essentielle pour minimiser les erreurs d'alignement près des InDels (Insertion-Délétion).
Il est important de noter que la qualité des appels de bases (scores de qualité) est cruciale pour l'analyse. Cependant, les instruments de séquençage introduisent des biais systématiques qui peuvent avoir un impact significatif sur l'analyse en aval. Avant la recalibration des scores de qualité des bases, par exemple, les appels de bases avec des scores de qualité supérieurs à Q25 sont conservés. En réalité, les bases avec un score de qualité de Q25 ont un taux d'erreur de 1 %. Ainsi, avoir un score de qualité de Q20 peut affecter la crédibilité de la détection des variants ultérieurs. Les erreurs dans les appels de bases aux extrémités des lectures sont souvent plus élevées qu'au début. De plus, la qualité des bases AC est généralement inférieure à celle des bases TG. Par conséquent, la recalibration des bases de GATK est utilisée pour corriger les scores de qualité des bases, garantissant une qualité de séquençage plus cohérente et fiable. Remarque : Dans le cas de plusieurs séquençages pour le même échantillon ou de plusieurs échantillons dans différentes lanes, la recalibration des bases doit être effectuée séparément pour chaque lane afin d'assurer précision et efficacité.
Après ces étapes préliminaires, la phase suivante implique la détection des sites de mutation (appel de variants). Distinguer les véritables variants génétiques des erreurs potentielles de séquençage (bruit aléatoire de la machine) constitue un défi critique dans ce processus. GATK propose deux méthodes : le UnifiedGenotyper, indépendant du modèle, qui ne prend pas en compte l'influence des bases adjacentes, et le HaplotypeCaller basé sur un modèle de novo local. Le HaplotypeCaller construit un graphe de DeBruijn et utilise le modèle PairHMM pour la prédiction de haplotypes uniques et l'évaluation de la fiabilité des sites de mutation, ce qui permet une détection des variants plus précise.
Actuellement, l'outil UnifiedGenotyper, en combinaison avec le réalignement InDel précédent et la recalibration des bases, permet une détection précise des SNP.
Les variations structurelles du génome sont analysées à l'aide de l'algorithme Lumpy.
L'analyse des variations du nombre de copies sur le génome est réalisée à l'aide de l'algorithme Control-Freec, qui peut prédire le nombre de copies pour chaque région changeante.
L'annotation des informations biologiques pour les sites de mutation dans les régions codantes est essentielle, car ces régions sont cruciales pour l'apparition de maladies et les changements de traits. Les logiciels SnpEff et Annovar sont utilisés pour l'annotation structurelle des sites de mutation.
Sur la base des sites SNP détectés, l'indice SNP des échantillons groupés est calculé, ainsi que la différence de fréquence entre les deux pools de traits extrêmes. Les régions présentant une différence significative sont sélectionnées pour la localisation des régions candidates.
Pour les gènes candidats dans la région candidate, une annotation fonctionnelle GO (Gene Ontology) et KEGG (Kyoto Encyclopedia of Genes and Genomes) est réalisée.
Une analyse est effectuée pour comprendre la relation entre les variations SNP et InDel au sein des régions candidates et des gènes annotés. Cela inclut l'analyse des régions où des substitutions non synonymes ou des variants provoquant des codons d'arrêt prématurés se produisent, ainsi que des régions où des variations se produisent dans les régions régulatrices (régions promoteurs).
