Séquençage PacBio et amplification MDA basée sur des gouttelettes : Pionnier de la génomique unicellulaire humaine

Le domaine de la recherche scientifique a été transformé par les capacités remarquables de séquençage à lecture longue (LRS)Parmi les innombrables perspectives passionnantes qu'il offre, un domaine se distingue dans sa phase exploratoire : la génomique unicellulaire humaine. Ce domaine de recherche en plein essor, fort de plus d'une décennie d'histoire, déborde actuellement d'activité et de potentiel. La génomique unicellulaire, propulsée par le LRS, a la capacité de percer de profonds mystères au sein de la biologie cellulaire. Elle peut éclairer des sujets divers tels que la variation génétique des cellules somatiques, l'évolution des tumeurs, les taux de mutations de novo, la recombinaison méiotique des cellules germinales et la neurogénétique. Certaines études pionnières ont déjà démontré la capacité remarquable du LRS à identifier des maladies auparavant inconnues résultant de variations génétiques chez les humains. De plus, elle peut révéler des variants génétiques cliniquement significatifs nichés dans les régions énigmatiques de l'ADN 'sombre' - des sections du génome humain qui défient l'analyse par les méthodes standard de séquençage à court fragment (SRS).

Révolutionner la génomique unicellulaire avec dMDA et le séquençage PacBio

Le paradigme existant de lecture courte à cellule unique séquençage du génome entier laisse un nombre substantiel de variantes inexplorées, en particulier en raison de leur inaccessibilité avec des approches standard. De plus, LRS nécessite une quantité substantielle d'ADN en entrée, posant des défis en soi. Pour contourner les problèmes associés aux préférences d'amplification, aux molécules chimériques et aux délétions alléliques, souvent résultant de l'amplification du génome entier (WGA), cette étude utilise une technique innovante d'amplification par déplacement multiple en gouttelettes à l'échelle nanométrique (dMDA).

Méthodologie

En résumé, cette étude a exploité le potentiel du tri cellulaire par activation de fluorescence (FACS) pour isoler une seule cellule, libérant ses fragments d'ADN par lyse. Ces minuscules molécules d'ADN ont ensuite été soigneusement emballées dans environ 50 000 gouttelettes, chacune mesurant moins de 100 µm de diamètre. À l'intérieur de ces gouttelettes, un ou quelques fragments d'ADN étaient présents, facilitant une amplification contrôlée et limitée. Crucialement, cette approche a éliminé le risque de formation de chimères intermoléculaires. L'expérience s'est concentrée sur deux cellules T CD8+ distinctes, A et B, toutes deux issues du même donneur humain. Ces cellules ont subi une amplification clonale in vitro, suivie d'une amplification du génome entier (WGA) et du séquençage.

MethodologyAperçu de l'expérience d'amplification et de séquençage de l'ADN à cellule unique. (Hård et al., 2023)

Détection de SNV à cellule unique dans les données de séquençage à lecture longue

Dans cette étude, les auteurs ont exploité la puissance de la technologie de séquençage à cellule unique, en utilisant spécifiquement cinq échantillons de cellules uniques dMDA, dont deux provenaient du clone de cellules T A et trois du clone de cellules T B. Ces échantillons ont été séquencés par PacBio, générant en moyenne 15,7 Go de données par cellule unique, tandis que le séquençage Illumina a produit un volume substantiel de 48,7 Go de données. Les deux ensembles de données ont été essentiels pour l'identification ultérieure des SNV à cellule unique.

De manière remarquable, une moyenne de 880 000 SNV identifiés dans les données PacBio à cellule unique a montré une concordance avec les données PacBio en vrac, renforçant leur authenticité en tant que véritables SNV. Pour établir une comparaison significative, les auteurs ont également soumis les données d'Illumina à cellule unique dMDA et en vrac à la même analyse, aboutissant à une moyenne de 1,06 million de SNV validés par cellule.

De manière surprenante, bien que le séquençage unicellulaire PacBio ne génère que 32 % du volume de données produit par Illumina, le nombre de SNV germinaux détectés était comparable aux résultats d'Illumina. Les auteurs ont également réalisé une évaluation complète de la précision et de la sensibilité de l'appel de SNV, révélant qu'en général, la sensibilité était relativement faible, en particulier pour les échantillons PacBio avec des données limitées disponibles. Cependant, PacBio a surpassé Illumina en termes de précision d'identification des SNV, bien que avec une sensibilité légèrement inférieure.

De manière intrigante, 284 000 SNV PacBio à haute confiance ont échappé à la détection dans les échantillons en vrac Illumina. Parmi ces variants, 6 336 se trouvaient dans des régions géniques précédemment désignées comme "sombres", des zones généralement inaccessibles aux méthodes de séquençage standard à lecture courte. Notamment, une de ces régions englobait à la fois des introns et des exons de NBPF8 et CDC73, ce dernier se trouvant dans l'espace laissé par les données en vrac Illumina.

De plus, au-delà des SNV germinaux, les auteurs ont réussi à identifier 27 SNV somatiques dans les données PacBio, élargissant ainsi la portée et la profondeur de leur enquête.

Single-Cell SNV Detection in Long-Read Sequencing DataAnalyse des SNV dans les données de cellules uniques à lecture courte et longue. (Hård et al., 2023)

Amélioration de la détection des SV avec le séquençage génomique à lecture longue de cellules uniques

Dans cette étude, les chercheurs ont utilisé Sniffles2 pour identifier des variants structurels (SV) dans les données PacBio, révélant de nombreuses délétions, insertions, duplications et inversions par cellule unique. Plus de 80 000 SV PacBio uniques, principalement issus de molécules dMDA chimériques, étaient absents dans les échantillons en vrac.

En moyenne, chaque cellule unique a présenté 5 473 SVs vrais, la majorité étant des délétions et des insertions, tandis que les duplications et les inversions étaient rares. En revanche, les échantillons Illumina n'ont détecté que 327 SVs vrais, ce qui est significativement moins.

La précision de PacBio pour les suppressions et les insertions était de 0,73 et 0,66, avec une sensibilité légèrement plus élevée. Les duplications et les inversions avaient une faible précision en raison d'origines chimériques. Notamment, SVs PacBio principalement composées d'insertions et de suppressions allant jusqu'à 1 kb, avec un pic autour de 300 bp (éléments répétitifs ALU) et 6 kb (éléments LINE). Certains SV difficiles dans les données Illumina ont été identifiés avec succès dans le jeu de données PacBio à cellule unique, y compris une insertion de 710 bp et une suppression de 4891 bp.

Enhancing SV Detection with Long-Read Single-Cell WGSAnalyse des SV dans les données de cellules uniques à lecture longue. (Hård et al., 2023)

Analyse des répétitions en tandem à cellule unique

En utilisant les génotypes Tandem, les auteurs ont identifié 15 098 TRs initialement classés comme purs ou hétérozygotes dans Données en vrac PacBioEn moyenne, 4 770 allèles TR pouvaient être génotypés avec précision dans des cellules uniques avec des profils similaires aux données en vrac.

Le plus long TR observé était supérieur de 662 paires de bases par rapport au génome de référence, principalement composé de séquences de dinucléotides AT, un aspect difficile à résoudre dans les données de lectures courtes. Bien qu'aucune preuve claire de variation somatique clonale n'ait été trouvée dans les données de lectures longues à cellule unique, un nombre significatif de séquences répétitives, en particulier celles dépassant 500 paires de bases, étaient absentes dans les cellules uniques en raison d'un échec de génotypage. Cet échec se produisait souvent lorsqu'un échantillon contenait plus de deux longueurs de répétition différentes, rendant la détermination précise de la taille du TR difficile.

Single-Cell Tandem Repeat AnalysisRépétitions en tandem détectées dans des données de séquençage long à cellule unique. (Hård et al., 2023)

Référence :

  1. Hård, Joanna, et al. "Analyse du génome entier par séquençage long des cellules humaines individuelles." Communications Nature 14.1 (2023) : 5164.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut