Le séquençage génomique à représentation réduite (RRGS) fait référence au séquençage ciblé de portions spécifiques du génome. Cette technologie de pointe utilise des endonucléases de restriction pour séquencer enzymatiquement l'ADN génomique, permettant un séquençage à haut débit des segments séquencés enzymatiquement.
La méthode de construction de bibliothèque classe le RRGS en trois catégories principales : les bibliothèques à représentation réduite (RRL), l'ADN associé aux sites de restriction (RAD) et le génotypage par séquençage (GBS). Notamment, le RAD et le GBS se distinguent comme les méthodes les plus largement adoptées, avec des variantes comme 2b-RAD, dd-RAD et SLAF affinant et faisant progresser ces techniques dans divers aspects.
Dans le domaine du RRGS, le séquençage RAD joue un rôle central. Ce qui suit élucide les méthodes et les étapes impliquées dans le séquençage RAD.
Pour des résultats optimaux, il est conseillé d'utiliser un kit d'extraction d'ADN pour extraire l'ADN des deux parents et des populations, en suivant la procédure standard. Dans les cas où l'ADN a été extrait en utilisant la méthode traditionnelle SDS ou CTAB, une étape d'extraction supplémentaire est recommandée pour éliminer les protéines et l'ARN.
Assurer le respect de ces directives contribuera à l'extraction d'échantillons d'ADN de haute qualité, essentiels pour les analyses ultérieures.
Pour rationaliser le processus de séquençage génomique pour les espèces dépourvues de génomes de référence, la première étape consiste à sélectionner judicieusement une endonucléase de restriction appropriée pour digérer le génome cible. Ce choix peut être éclairé par la littérature existante ou en se référant à des informations génomiques d'espèces étroitement apparentées ayant des génomes séquencés. Simultanément, l'endonucléase sélectionnée subit des pré-tests enzymatiques sur le génome, avec le choix ultérieur de l'endonucléase la plus appropriée pour d'autres expériences basé sur les résultats des pré-tests. Ce qui suit décrit les étapes de construction de bibliothèque et de séquençage :
Attachez des adaptateurs à chaque extrémité des fragments d'ADN digérés, où le RAD à enzyme unique contient une séquence de code-barres à une extrémité et aucune séquence de code-barres à l'autre, et le RAD à double enzyme présente des séquences de code-barres aux deux extrémités.
Il convient de noter que les fragments séquencés obtenus à partir de RAD à digestion unique et double diffèrent. Les fragments de RAD à digestion unique ne sont pas orientés, s'alignant uniquement du côté du site de clivage. En revanche, les fragments de RAD à double digestion sont orientés, alignant les lectures des deux côtés.
(1) Contrôle de qualité des données
Après l'acquisition des séquences séquencées initiales (lectures séquencées), un processus méticuleux de contrôle de qualité a suivi. Cela a impliqué le filtrage des séquences de jonction, polyN, polyA et d'autres séquences indésirables, aboutissant à un ensemble de données affiné appelé 'cleandata.'
(2) Classification des échantillons et regroupement de balises RAD avec codes-barres
Après le contrôle de qualité, les échantillons ont été classés à l'aide de codes-barres. Les lectures dupliquées résultant de l'amplification PCR ont ensuite été systématiquement éliminées. Par la suite, le module ustacks du logiciel Stack a facilité l'assemblage des clusters. Le regroupement de balises, essentiel pour organiser et regrouper des séquences similaires, a ensuite été exécuté en fonction des similarités de séquence au sein de l'ensemble de données.
Après l'exclusion des balises RAD présentant une profondeur de longueur de lecture élevée (>500), les balises RAD biparentales ont subi une analyse complète par comparaison BLAST. Ce processus a conduit à l'identification de SNP et de véritables InDels (≥2 pb) à partir des résultats de comparaison. Par la suite, ces variantes ont été examinées au sein de populations ségrégeantes, seules les SNP montrant des polymorphismes constants dans les ensembles de données parentaux et de population étant retenues.
Dans le cas des RAD clivés à enzyme unique, les séquences du côté opposé de chaque balise RAD ont été soigneusement épissées pour générer des contigs. Ces séquences de contigs ont également été utilisées pour l'identification de SNP et d'InDels. De plus, si la séquence d'un contig contenait un Répétition de Séquence Simple (SSR), elle servait de ressource précieuse pour le développement de marqueurs PCR.
Les ratios de ségrégation de tous les marqueurs au sein des populations ségrégeantes ont été examinés en profondeur à l'aide du test du chi carré. Seuls les marqueurs présentant des ratios de ségrégation s'alignant avec le modèle d'héritage d'un locus unique, et avec des données de délétion de moins de 40 %, ont été considérés pour inclusion dans le processus de construction de la carte génétique. Par exemple, dans la population F2 respectant le ratio 1:2:1 (parent pur 1 : hétérozygote : parent pur 2) et la population RIL avec un ratio de 1:1 (parent pur 1 : parent pur 2), les marqueurs répondant à ces critères ont été sélectionnés.
Pour traiter les marqueurs de ségrégation biaisés, seuls ceux ayant une fréquence allélique minimale dépassant une valeur critique dans la population ont été retenus, s'inspirant de la littérature concernant l'espèce cible. Le logiciel Joinmap s'est avéré instrumental pour faciliter la construction ultérieure de la carte génétique.
(1) Localisation des gènes de traits de qualité
Bien que le séquençage RAD soit moins couramment utilisé pour la localisation des gènes de traits de qualité, il est conseillé d'inclure des données phénotypiques provenant à la fois de la population F2 et des lignées familiales F2:3. Cette approche permet d'identifier les génotypes hétérozygotes associés au trait cible au sein de la monoculture F2. Les données phénotypiques de F2 peuvent être considérées comme un marqueur, avec les données génotypiques des marqueurs restants saisies dans Joinmap pour le cartographie. Cependant, pour des résultats optimaux dans la localisation des gènes de traits de qualité, la stratégie d'Analyse de Segregation en Bulk (BSA) est recommandée.
(2) Localisation de QTL
Le séquençage RAD trouve une application plus répandue dans la localisation de QTL, nécessitant des données phénotypiques robustes de la population et une population de lignées consanguines recombinantes avec un minimum de 6 générations F. Une collecte de données à deux points complète sur au moins deux ans pour chaque lignée familiale dans la population est essentielle. Cela implique des essais en blocs randomisés avec trois répliques par point par an. Des résultats de localisation de QTL inexactes peuvent survenir avec moins de répliques. Idéalement, le trait cible devrait présenter une forte héritabilité, et son phénotype devrait être peu influencé par les conditions environnementales. Le choix du logiciel de localisation de QTL approprié doit s'aligner sur les caractéristiques de la population cible et le nombre de marqueurs disponibles pour le processus de localisation de QTL.