Les méthodes de séquençage de génome entier

Aperçu du séquençage de l'ensemble du génome

Le génome de chaque organisme individuel contient l'intégralité de son information génétique. Séquençage du génome entier La technologie peut analyser de manière exhaustive et précise l'ensemble des génomes, permettant ainsi de déchiffrer les informations qu'ils contiennent et de révéler la complexité et la diversité du génome. L'émergence de la technologie de séquençage de génome entier représente une avancée révolutionnaire dans tous les domaines des sciences de la vie. Le séquençage de génome entier peut détecter des variantes, y compris des variantes de nucléotides uniques, des insertions/délétions, des changements de nombre de copies et des variantes structurelles à grande échelle. Séquençage du génome entier peut être bifurqué en deux catégories en fonction de la disponibilité d'un génome de référence : le séquençage de novo et le resequencement. La présence d'un génome de référence simplifie et facilite le processus d'assemblage du génome.

Différences entre WGS et WES

Séquençage de l'exome entier (WES) implique l'utilisation de techniques d'enrichissement ciblé pour capturer et séquencer l'ensemble de la région exomique du génome. Cette méthode peut détecter directement les polymorphismes nucléotidiques simples (SNP) associés à des variations fonctionnelles dans les protéines. Dans le génome humain, bien que les exons (régions codant pour des protéines) ne représentent que 1 % du contenu génétique, environ 85 % des mutations causant des maladies se trouvent dans ces régions, ce qui rend le WES d'une importance cruciale.

Séquençage du génome entier (WGS), en revanche, fait référence au séquençage à haut débit de l'ensemble du génome, analysant les variations inter-individuelles et annotant les SNP ainsi que les structures génomiques. En raison des grandes quantités de données complètes que le WGS fournit, il capture des détails exclusifs que le WES ou séquençage ciblé pourrait être négligé. Avec les avancées dans la technologie de séquençage et des réductions substantielles des coûts associés ces dernières années, l'utilisation du séquençage génomique complet (WGS) est devenue de plus en plus réalisable. De plus, le WGS a l'avantage en ce qui concerne l'identification des SNP, des insertions et des délétions ; par conséquent, il est devenu un choix alternatif tant pour les applications cliniques que pour la recherche fondamentale.

Deux approches classiques pour le séquençage de grands génomes

Au début des années 80, Sanger a réussi à réaliser le séquençage complet du génome du phage lambda en utilisant la méthode du shotgun, et cette méthode a été appliquée avec succès à l'ADN de virus plus grands, à l'ADN des organites et au séquençage de l'ADN du génome bactérien. Le séquençage par shotgun est une stratégie classique pour le séquençage complet du génome. La stratégie de séquençage par shotgun fournit une garantie technique pour le séquençage à grande échelle. La technologie consiste d'abord à interrompre aléatoirement une séquence cible complète en petits fragments, qui sont séquencés séparément, puis à les assembler en une séquence cohérente en utilisant les relations de chevauchement de ces petits fragments. Elle comprend principalement deux méthodes : l'une est le séquençage par shotgun hiérarchique (méthode clone par clone) et l'autre est le séquençage par shotgun du génome complet.

Séquençage clone par clone

Cette méthode a été adoptée autrefois par le consortium HGP. Cette méthode peut générer des cartes à haute densité, facilitant l'assemblage du génome. Elle comprend généralement quatre étapes : la préparation de la bibliothèque de clones BAC, la préparation de l'empreinte des clones, le séquençage des clones BAC et l'assemblage des séquences. Cependant, cette méthode est chronophage et coûteuse, elle est donc rarement utilisée actuellement.

Figure 1. Steps involved in the clone-by-clone sequencing.Figure 1. Étapes impliquées dans le séquençage clone par clone.

Séquençage de génome entier par tir de fusil (WGS)

WGS implique généralement six étapes : l'isolement de l'ADN génomique, la fragmentation aléatoire de l'ADN génomique, la sélection par taille à l'aide de l'électrophorèse, la construction de la bibliothèque, le séquençage à deux extrémités (séquençage PE) et l'assemblage du génome. Deux tailles différentes de fragments d'ADN, y compris des insertions longues (2-2,5 kb) et des insertions courtes (0,5-1,2 kb), sont sélectionnées à partir du gel d'agarose. Alors que les longues insertions sont clonées dans des vecteurs phages ou socmid, les courtes insertions sont clonées dans des vecteurs plasmidiques. La bibliothèque de clones à insertions courtes est utilisée pour le séquençage à partir des deux extrémités. Étant donné qu'un grand nombre de clones sont séquencés, chacun des génomes sera couvert plus de 10 fois. Les clones à insertions longues peuvent être utilisés pour augmenter l'efficacité de l'assemblage du génome.

Figure 2. Steps involved in the whole genome shotgun sequencing.Figure 2. Étapes impliquées dans le séquençage shotgun du génome entier.

Avantages :

  • Ne nécessite pas de cartes génomiques.
  • Moins chronophage
  • Argent économisé

Inconvénients :

  • L'assemblage du génome pour les génomes eucaryotes est difficile en raison de l'abondance des séquences répétées.
  • Le séquençage du génome utilisant cette méthode n'est pas précis.

NGS Accélère le WGS

Contrairement aux approches basées sur des bibliothèques clonées, les plateformes de séquençage de nouvelle génération utilisent une méthode de construction de bibliothèque considérablement simplifiée, ce qui a simplifié et accéléré le séquençage shotgun de l'ensemble du génome. En général, l'ADN génomique est d'abord fragmenté aléatoirement par sonication ou nébulisation, puis ligaturé à un ensemble spécifique d'adaptateurs à double brin pour générer une bibliothèque shotgun. Par la suite, ces fragments de bibliothèque peuvent être amplifiés in situ par hybridation et extension à partir d'adaptateurs complémentaires qui sont attachés de manière covalente à la surface d'une cellule microfluidique en verre ou d'une petite perle (selon la plateforme de séquençage). Tous les instruments de NGS utilisent un dispositif microfluidique pour contenir les fragments amplifiés de la bibliothèque shotgun, suivi d'une étape d'imagerie qui collecte des données à partir des fragments étant activement séquencés.

Figure 3. Major steps in employing high-throughput DNA-sequencing methodologiesFigure 3. Principales étapes de l'utilisation des méthodologies de séquençage ADN à haut débit (Ginsburg & Willard 2008).

Processus WGS

Nous prendrons le séquenceur Illumina comme exemple pour illustrer le flux de travail du WGS basé sur le séquençage à haut débit.

  • Construction de la bibliothèque de séquençage

Le génome est d'abord préparé, puis l'ADN est fragmenté aléatoirement en centaines de bases ou en fragments plus courts avec des adaptateurs spécifiques à chaque extrémité. Si le groupe de transcription est séquencé, la construction de la bibliothèque est un peu plus compliquée. Après la fragmentation de l'ARN, il faut le convertir en cDNA, puis ajouter le connecteur, ou bien convertir d'abord l'ARN en cDNA, puis fragmenter et ajouter le joint. La taille du fragment (taille de l'insertion) a un impact sur l'analyse des données ultérieures et peut être choisie en fonction des besoins. Pour le séquençage du génome, plusieurs tailles d'insertion différentes sont généralement choisies afin d'obtenir plus d'informations lors de l'assemblage.

  • Attachement de surface et amplification par pont

La réaction de séquençage Solexa est réalisée dans un tube en verre appelé cellule de flux, et la cellule de flux est subdivisée en 8 voies, chacune ayant un certain nombre de joints à brin simple fixes sur la surface intérieure de chaque voie. Le fragment d'ADN du joint a été transformé en un brin simple et combiné avec les amorces sur le canal de séquençage pour former une structure en pont pour l'amplification préliminaire ultérieure.

  • Dénaturation et amplification complète

Les dNTP non étiquetés et l'enzyme Taq commune ont été ajoutés pour l'amplification par PCR en pont en phase solide, et l'échantillon de pont à brin simple a été amplifié en un fragment de pont à double brin. Par dénaturation, un brin simple complémentaire est libéré et ancré à la surface solide voisine. En cyclant continuellement, des millions de clusters d'analytes à double brin seront obtenus sur la surface solide de la cellule de flux.

  • Extension et séquençage à base unique

Quatre dNTPs étiquetés par fluorescence, des ADN polymérases et des amorces de liaison ont été ajoutés aux cellules de flux séquencées pour l'amplification. Lorsque chaque cluster de séquençage prolonge le brin complémentaire, chaque dNTP étiqueté par fluorescence est ajouté pour libérer la fluorescence correspondante. Le séquenceur obtient des informations de séquence du fragment à tester en capturant un signal fluorescent et en convertissant le signal optique en un pic de séquençage par un logiciel informatique. La longueur de lecture est affectée par un certain nombre de facteurs qui provoquent une atténuation du signal, tels que la coupure incomplète des marqueurs fluorescents. À mesure que la longueur de lecture augmente, le taux d'erreur augmentera également.

  • Analyse de données

Cette étape n'est pas strictement une partie du processus de séquençage, mais elle n'a de sens qu'à travers le travail effectué avant cette étape. Les données brutes obtenues par séquençage constituent une séquence de seulement quelques dizaines de bases de longueur, et les contigs qui assemblent ces courtes séquences à l'aide d'outils bioinformatiques forment même le cadre de l'ensemble du génome. Alternativement, ces séquences sont alignées sur un génome existant ou sur la séquence du génome d'une espèce similaire, et analysées davantage pour obtenir des résultats biologiquement significatifs.

Figure 4. The WGS ProcessFigure 4. Le processus WGS

Métriques de séquençage WGS

  • Profondeur

La profondeur de séquençage, l'une des principales métriques utilisées pour évaluer le volume en génomique, est définie comme le rapport entre le nombre total de paires de bases (pb) enregistrées et la taille du génome. Il existe une corrélation directe entre la profondeur de séquençage et le niveau de couverture du génome, de sorte qu'une augmentation de la première contribue à une diminution des résultats faussement positifs ou des erreurs de séquençage. Dans le contexte du séquençage individuel, une couverture génomique efficace et un contrôle des erreurs peuvent être atteints en utilisant des stratégies de séquençage à double extrémité ou Mate-Pair, étant donné que la profondeur de séquençage est supérieure à la plage de 50X-100X. Cette profondeur substantielle facilite par conséquent l'assemblage ultérieur des séquences en chromosomes, rendant le processus plus efficace et précis.

  • Couverture

Pendant ce temps, la mesure de la couverture de séquençage concerne la proportion de l'ensemble du génome qui est séquencé avec succès. Ce paramètre est un indicateur significatif du caractère aléatoire impliqué dans le séquençage. La relation entre la profondeur de séquençage et la couverture peut être déterminée efficacement grâce au célèbre modèle de Lander-Waterman (1988). Selon ce modèle, atteindre une profondeur de séquençage de 5X correspond approximativement à une couverture de 99,4 % de l'ensemble du génome.

Application du séquençage de génome entier (WGS)

WGS trouve ses applications dans divers domaines, y compris la détermination du taux de mutation, études d'association à l'échelle du génomediagnostics médicaux, études pertinentes sur les variations rares, oncologie, enquêtes épidémiologiques et génétique médicale, entre autres.

Diagnostic médical

Dans le domaine du diagnostic médical, en 2009, Illumina, la principale entreprise de génomique, a introduit son premier séquenceur de génome entier. Cela a marqué une transition substantielle car il a été approuvé pour une utilisation clinique au lieu d'être exclusivement utilisé à des fins de recherche. La même année, une équipe dirigée par Euan Ashley à l'Université de Stanford a interprété cliniquement le génome humain complet du bioingénieur Stephen Quake, symbolisant l'établissement pratique de cette technologie dans le domaine du diagnostic médical.

Génétique médicale

Le domaine de la génétique médicale a également grandement tiré parti de la nature économique de séquençage du génome entierLe séquençage génomique complet (WGS) est de plus en plus utilisé pour déchiffrer les bases génétiques des maladies mendéliennes ainsi que des maladies complexes, éclairant la biologie des maladies nouvelles et fournissant une aide substantielle dans les diagnostics cliniques et les stratégies de traitement.

Fréquences de mutation

Le séquençage du génome entier (WGS) facilite l'identification du taux de mutation du génome humain complet. Le taux de mutation à travers les différentes générations humaines (des parents aux descendants) est d'environ 70 nouvelles mutations par génération.

Oncologie

Dans le domaine de l'oncologie, le séquençage génomique complet (WGS) comprend la reconstruction de sous-clones basée sur l'ADN tumoral circulant.ADNct) dans le plasma. Cela ouvre la voie à des analyses épigénomiques et génomiques approfondies, révélant l'expression dynamique de l'ADN tumoral circulant dans chaque situation.

Investigations épidémiologiques

Dans les enquêtes épidémiologiques, le séquençage génomique complet (WGS), ayant un pouvoir discriminatoire ultime pour différencier les souches pathogènes étroitement liées, améliore considérablement les enquêtes épidémiologiques traditionnelles sur les épidémies de maladies infectieuses. En combinant le WGS avec une analyse épidémiologique approfondie, de nouvelles perspectives ont été obtenues sur divers aspects. Cela inclut les origines et les dynamiques de propagation des vastes épidémies causées par Escherichia coli et Vibrio cholerae. Les épidémies hospitalières induites par le Staphylococcus aureus résistant à la méthicilline (MRSA), Klebsiella pneumoniae et les bacilles d'Abscessus ont également été étudiées. Les épidémies centrées sur la communauté causées par Mycobacterium tuberculosis et les épidémies fongiques environnementales associées à des catastrophes naturelles ont fait l'objet d'une analyse complète grâce à l'intégration du WGS.

Si vous êtes intéressé par nos services en génomique, n'hésitez pas à contacter nos scientifiques. Nous sommes plus qu'heureux de vous aider. En plus de séquençage génomiquenous proposons également des services incluant transcriptomique, épigénomique, génomique microbienne, et Séquençage SMRT de PacBio.

Références :

  1. Bentley D R. Rééchantillonnage de l'ensemble du génome. Opinion actuelle en génétique et développement, 2006, 16(6):545-552.
  2. Fuentespardo A P, Ruzzante D E. Approches de séquençage du génome entier pour la biologie de la conservation : avantages, limitations et recommandations pratiques. Écologie moléculaire, 2017, 26(20):5369.
  3. Batzoglou S, Berger B, Mesirov J, et al. Séquençage d'un génome en marchant avec des séquences de fin de clone (résumé) : une analyse mathématique// Conférence internationale sur la biologie moléculaire computationnelle. DBLP, 2000:45.
  4. Sanger F, Coulson A R, Hong G F, et al. Séquence de nucléotides de l'ADN du bactériophage lambda. Journal de biologie moléculaire, 1982, 162(4) : 729-73.
  5. Kawarabayasi Y, Sawada M, Horikawa H, et al. Séquence complète et organisation des gènes du génome d'une archéobactérie hyperthermophile, Pyrococcus horikoshii OT3. Recherche sur l'ADN, 1998, 5(2):55.
  6. Kaneko T, Sato S, Kotani H, et al. Analyse de séquence du génome du cyanobactérie unicellulaire Synechocystis sp. souche PCC6803. II. Détermination de la séquence de l'ensemble du génome et attribution des régions potentielles codant des protéines. Recherche sur l'ADN, 1996, 3(3) :185-209.
  7. Myers E W, Sutton G G, Delcher A L, et al. Une assemblage de génome complet. Science, 2014.
  8. Siegel A F, Engh G V D, Hood L, et al. Modélisation de la faisabilité du séquençage de génome entier par la méthode du tir de fusil utilisant une stratégie à paires d'extrémités. Génomique, 2000, 68(3):237.
  9. White O, Fraser C M. Séquence du génome de la bactérie radio-résistante Deinococcus radiodurans R1. Science, 1999, 286(5444):1571-1577.
  10. May B J, Zhang Q, Li L L, et al. Séquence génomique complète de Pasteurella multocida, Pm70. Actes de l'Académie nationale des sciences des États-Unis d'Amérique, 2001, 98(6):3460-3465.
  11. Ginsburg G S, Willard H F. Médecine génomique et personnalisée. Presses Académiques, 2008.
  12. Ormond K E, Wheeler M T, Hudgins L, et al. Défis dans l'application clinique du séquençage du génome entier. The Lancet, 2010, 375(9727) : 1749-1751.
  13. Le V T M, Diep B A. Perspectives sélectionnées sur l'application du séquençage du génome entier pour les enquêtes épidémiques. Opinion actuelle en soins critiques, 2013, 19(5) : 432-439.
  14. Wu J, Wu M, Chen T, et al. Séquençage du génome entier et ses applications en génétique médicale. Biologie quantitative, 2016, 4(2) : 115-128.
  15. Ashley E A, Butte A J, Wheeler M T, et al. Évaluation clinique intégrant un génome personnel. The Lancet, 2010, 375(9725) : 1525-1535.
  16. Roach JC, Glusman G, Smit AF, et al. Analyse de l'héritage génétique dans un quatuor familial par séquençage du génome entier. Science, 2010, 328 (5978) : 636–9.
  17. Campbell CD, Chong JX, Malig M; et al. Estimation du taux de mutation humain en utilisant l'autozygotie dans une population fondatrice. Nat. Genet, 2012, 44 (11) : 1277–81.
  18. Herberts Cameron, Annala Matti, Sipola Joonatan, et al. Chronologie approfondie du ctDNA du génome entier dans le cancer de la prostate résistant au traitement. Nature, 2022, 608 (7921) : 199–208.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut