Avec l'avancement continu des technologies de séquençage, le séquençage d'ADN associé aux sites de restriction (RAD-Seq) est devenu de plus en plus instrumental dans la recherche génomique. Le RAD-Seq consiste à séquencer des fragments d'ADN provenant de sites digérés par des enzymes et représente une approche économiquement viable pour générer une abondance de marqueurs de polymorphisme mononucléotidique (SNP), indépendamment de la disponibilité d'un génome de référence ou des considérations de ploïdie chromosomique. Afin d'aider les chercheurs dans leur choix de la technique la plus adaptée à leurs besoins particuliers, cet article propose une analyse comparative de trois méthodologies RAD-Seq largement adoptées.
RAD original (ADN associé aux sites de restriction original) : Digestion par une enzyme unique + fragmentation mécanique pour la construction de la bibliothèque et le séquençage.
GBS (Génotypage par séquençage): Digestion simple par une enzyme courante + amplification sélective par PCR de courts fragments d'ADN pour la construction de bibliothèques et le séquençage.
ddRAD (ADN associé aux sites de restriction à double digestion)Digestion enzymatique double avec ligation d'adaptateurs correspondant à une enzyme + sélection de taille par gel pour la construction de bibliothèques et le séquençage.
Tableau 1 : Analyse comparative de trois techniques RAD-Seq
| RAD d'origine | GBS | ddRAD | |
| Options pour ajuster le nombre de loci | Changer d'enzyme de restriction | Changer l'enzyme de restriction | Modifier l'enzyme de restriction ou la fenêtre de sélection de taille |
| Nombre de loci par 1 Mb de taille de génome | 30-500 | 5-40 | 0,3-200 |
| Longueur des lieux | ≤1ko si construction de contigs ; sinon ≤300pb | <300bp | ≤300 points de base |
| Coût par échantillon barcodé ou indexé | Bas | Bas | Bas |
| Effort par échantillon codé-barres ou indexé | Moyen | Bas | Bas |
| Utilisation de matériel propriétaire | Non | Non | Non |
| Identification des duplicatas PCR | Avec le séquençage à paires. | Avec des codes-barres dégénérés | Avec des codes-barres dégénérés |
| Équipement spécialisé nécessaire | Sonicateur | Aucun | Pippin Prep |
| Pertinence pour les génomes grands ou complexes | Bon | Modéré | Bon |
| Pertinence pour l'identification de locus de novo (sans génome de référence) de novo | Bon | Modéré | Modéré |
| Disponible auprès d'entreprises commerciales | Oui | Oui | Oui |
Conformément aux objectifs de recherche et aux caractéristiques des trois techniques de génome simplifiées, quatre points clés doivent être pris en compte lors du choix d'une stratégie.
Avoir un génome de référence, même s'il est de qualité suboptimale, s'avère bénéfique pour réduire les erreurs dans la détection des variants résultant de séquences homologues ou répétées. Cela facilite également la détection des InDels et l'élimination des séquences contaminantes. La qualité de l'assemblage du génome influence directement les résultats. De plus, un génome de référence est essentiel pour les analyses de dépendance, telles que l'analyse de LD et l'analyse de sélection. En outre, une séquence de génome de référence est nécessaire pour réaliser des GWAS (études d'association à l'échelle du génome). Pour les espèces sans génome de référence, le séquençage ddRAD est recommandé.
(1) Pour la digestion enzymatique double, l'utilisation de longues lectures n'est pas recommandée car les fragments d'insertion sont courts et peuvent entraîner une contamination par des adaptateurs. En revanche, le séquençage PE entraîne souvent un chevauchement significatif.
(2) Lorsque les fragments insérés sont plus longs et que le nombre de lectures est le même, les longues lectures peuvent capturer plus d'informations sur les variations.
(3) Avec le même volume de données, le séquençage à lecture courte augmente la profondeur de séquençage moyenne pour chaque balise coupée par une enzyme, améliorant ainsi la précision de détection des SNP.
(4) Pour les espèces non référencées, si les reads2 provenant du séquençage RAD conventionnel ne sont pas assemblés, cela entraînera un gaspillage substantiel de données. Dans de tels cas, le séquençage SE est recommandé.
Recommandation : Dans le contexte des espèces dotées d'un génome de référence accessible, il est conseillé d'envisager l'utilisation du séquençage RAD conventionnel en conjonction avec le séquençage PE151. En revanche, pour les espèces dépourvues de génome de référence, le choix judicieux serait d'employer le séquençage SE. Les méthodologies GBS et ddRAD sont idéalement associées au séquençage PE101.
Le nombre de loci identifiés dans les techniques de génome simplifié est influencé par la taille du génome, la distribution et la quantité de sites de reconnaissance enzymatique sur le génome. Les comptes théoriques de fragments coupés par les enzymes peuvent être estimés par simulation, en fonction des informations concernant les sites de reconnaissance enzymatique et les séquences génomiques. Pour le RAD conventionnel, l'objectif est de capturer tous les fragments liés aux sites de coupure enzymatiques. Cependant, le GBS, qui sélectionne indirectement les fragments, produit généralement un nombre plus élevé de loci que les fragments réellement liés aux sites de coupure enzymatiques, ce qui peut être ajusté en changeant le type d'enzyme. Pour le ddRAD, le nombre de loci peut être ajusté à la fois par le type d'enzyme et en modifiant la plage de sélection des fragments.
Recommandation : Pour une analyse d'information nécessitant un grand nombre de marqueurs, le séquençage RAD conventionnel est recommandé. Pour des génomes complexes et des tailles d'échantillons importantes, le séquençage GBS est suggéré..
Introduction des duplicatas et des erreurs de génotypage Le biais d'amplification PCR peut conduire à la détection de loci hétérozygotes comme homozygotes ou à l'introduction d'erreurs d'amplification PCR comme de véritables génotypes. Cela a également un impact significatif sur l'analyse des informations qui nécessite le calcul du nombre de lectures de séquençage, comme le calcul des fréquences alléliques dans des échantillons groupés. Pour le séquençage RAD conventionnel, les duplicatas PCR peuvent être atténués dans une certaine mesure en raison des variations dans les longueurs de séquence de la bibliothèque originale et du fait que les deux extrémités ne sont pas des sites de reconnaissance enzymatique. Cependant, le GBS et le ddRAD sont moins susceptibles de permettre l'élimination des duplicatas.
En résumé, lors de l'élaboration d'une stratégie de recherche, il est impératif pour les chercheurs de réfléchir à des facteurs clés, notamment la présence d'un génome de référence, l'approche de séquençage, le nombre de loci et les conséquences potentielles de l'amplification PCR. Chacune de ces considérations revêt une importance primordiale dans le choix avisé de la technique RAD-Seq la plus adaptée aux spécificités d'une recherche donnée.
Le séquençage génomique simplifié a acquis une utilité répandue dans le domaine de la recherche animale et végétale, servant d'outil précieux pour une gamme d'applications, y compris la détection de SNP, les analyses de l'évolution des populations, les évaluations de la structure des populations, les évaluations de la diversité des populations et les explorations des dynamiques historiques des populations.
Références :