8 étapes pour choisir la bonne plateforme pour le séquençage de l'ARN

Chaque plateforme de séquençage possède des caractéristiques uniques qui la distinguent des autres. Dans des cas chanceux, les chercheurs peuvent avoir accès à plusieurs plateformes, leur permettant de tirer parti des forces de chacune. En effet, certaines études tirent parti des performances optimales de différentes plateformes, les sélectionnant en fonction de besoins spécifiques. Par exemple, les lectures d'Illumina excellent en couverture, SOLID privilégie la précision, tandis que Roche 454 ou Pacific Biosciences sont réputées pour leurs longues longueurs de lecture.

Le choix de la plateforme la plus adaptée implique de prendre en compte de nombreux facteurs, s'étendant sur diverses dimensions. Cependant, avec les informations fournies ici, les chercheurs peuvent naviguer dans ces complexités et prendre des décisions éclairées concernant la sélection de la plateforme pour expériences de séquençage d'ARN et leurs modalités respectives.

Comment planifier votre prochaine expérience de séquençage d'ARN C'est un article utile pour apprendre les différents types de technologies de séquençage de l'ARN.

Précision : Quel niveau de précision est requis pour le séquençage ?

Lorsqu'il s'agit d'identifier des SNPs ou des événements d'édition de nucléotides uniques dans des espèces d'ARN, il est primordial de choisir une plateforme avec un taux d'erreur minimal. Il est essentiel de différencier les véritables SNPs des erreurs de séquençage. Étant donné une fréquence de SNPs humains d'environ 1 sur 800, atteindre un taux de précision de 99,9 % est impératif. Seule la plateforme SOLID revendique une précision dépassant ce seuil, tandis que certaines plateformes sont nettement en deçà. Néanmoins, il est à noter qu'il est possible de compenser une précision inférieure en augmentant le nombre de lectures. Par exemple, utiliser 10 lectures avec une précision de 99,9 % pour le même ARN donne effectivement un taux de précision de 99,99 %.

À l'inverse, lorsque l'objectif est de localiser des gènes codant pour des protéines connus, d'améliorer les annotations des modèles de structure des gènes, de quantifier les transcrits et potentiellement de découvrir de nouveaux gènes, la demande de précision diminue. Les programmes facilitant le mappage des lectures sur des modèles de gènes établis permettent souvent une ou même deux correspondances non appariées. Par exemple, avec des lectures s'étendant sur 50 nucléotides et permettant une erreur, le taux de précision est de 98 %. À ce stade, les plateformes les plus couramment utilisées, telles que SOLID, Illumina, 454 et IonTorrent, sont des options viables.

Les services de séquençage d'ARN à haut débit et de construction de bibliothèques de CD Genomics permettent une analyse approfondie des transcriptomes.

Nombre de lectures : Combien en avons-nous besoin ?

Il est courant d'évaluer les statistiques de couverture dans les projets de séquençage d'ARN (RNA-seq). En règle générale, le génome humain s'étend sur environ 3000 millions de nucléotides (Mnt), dont environ 1/30 est attribué aux gènes codant des protéines. Cela implique que l'ARN prévu pour le séquençage représente environ 100 millions de nucléotides. Si nous optons pour un séquençage en simple sens avec des lectures de 100 nucléotides (nt) chacune (ou un séquençage en double sens avec des lectures de 50 nt), alors l'acquisition de 1 million de lectures fournit 100 millions de nt de données de séquence, ce qui équivaut à une couverture de 1x. Un rendement typique pour une plateforme standard est de 30 millions de lectures, offrant une couverture de 30x. Avec 30 millions de lectures, nous pouvons anticiper une couverture complète de la plupart des gènes exprimés, bien que certains gènes moins abondants puissent être manqués.

Pour estimer la probabilité qu'une lecture soit mappée à un gène spécifique, nous pouvons supposer une taille moyenne de gène de 4000 nt (dérivée de 100M nt divisés par 25 000 gènes). Avec 30 millions de lectures correspondant à une couverture de 30x, et en supposant une longueur de lecture de 100 nt (ou 50 nt pour le séquençage à double extrémité), une seule lecture devrait se mapper au gène moyen environ 1200 fois. Par conséquent, si un gène est exprimé à 1/1200 du niveau d'un gène moyen, il y a une chance sur deux qu'une lecture lui soit associée. En pratique, 30 millions de lectures suffisent pour capturer la plupart, bien que pas tous, des gènes exprimés dans un échantillon. Étant donné que de nombreuses plateformes peuvent générer jusqu'à 30 millions de lectures, cela n'est généralement pas un facteur limitant. Les plateformes capables de produire un nombre de lectures plus élevé sont préférées pour une couverture améliorée, en particulier pour analyser l'utilisation alternative des exons, les événements rares ou le modélisation fine des gènes.

Une technique plus récente connue sous le nom de « séquençage par capture » consiste à enrichir l'ARN à des loci spécifiques du génome humain. Cette méthode a réussi à capturer l'ARN d'environ 50 loci, y compris des gènes codant des protéines et des ARN non codants longs. En utilisant le séquençage par capture, les chercheurs ont obtenu une couverture de plus de 4600 fois de ces loci, permettant la découverte d'exons non annotés, de nouveaux motifs d'épissage et des investigations approfondies de gènes bien étudiés. Cela souligne le défi d'atteindre une couverture exhaustive pour chaque transcript au sein d'un locus génique.

Alternativement, déterminer le nombre minimum de lectures nécessaires pour confirmer la présence d'un transcript reste un sujet de débat. La littérature propose des exemples contradictoires, certaines études suggérant qu'une seule lecture suffit, tandis que d'autres soutiennent que moins de 10 lectures sont insuffisantes. Le seuil approprié dépend de divers facteurs, y compris le contexte de l'étude, les normes des revues ou des bases de données, et les objectifs de recherche globaux.

Longueur de lecture : Quelle devrait être la durée des lectures ?

Pour le mappage de base aux gènes connus au sein d'un organisme, des séquences aussi courtes que 14 nucléotides (nt) peuvent suffire. Cependant, étant donné que certaines lectures peuvent se mapper à plusieurs sites, des lectures plus longues deviennent essentielles. Avec une longueur de 50 nt, seule une petite fraction des lectures se mappera encore à plusieurs sites, représentant généralement très peu d'occurrences (<0,01 %). Par conséquent, en termes pratiques, des longueurs de lecture plus longues permettent des études d'expression différentielle plus robustes et une délimitation plus précise des motifs génétiques.

Néanmoins, de nombreux scénarios nécessitent des lectures encore plus longues, en particulier lors de l'annotation de nouveaux gènes dans des espèces manquant de données de séquence étendues, telles que les génomes, les tags de séquence exprimée (EST) ou l'ADNc à brin long. Les séquences plus longues offrent un avantage distinct par rapport à la tentative d'inférer des motifs géniques uniquement à partir de lectures de 50 nt mappées et discontinues. Des plateformes comme Roche 454 ont démontré leur efficacité dans de telles applications, tirant parti de leur capacité à produire des lectures plus longues. De plus, les avancées dans Technologie de Pacific Biosciences, en particulier la dernière génération d'instruments et de kits, permettent la génération de lectures s'étendant jusqu'à 10 000 nt ou plus, élargissant ainsi le champ de l'exploration génomique.

Les services de séquençage RNA à longues lectures et de construction de bibliothèques de CD Genomics permettent une analyse approfondie des transcriptomes.

SR ou PE : Séquençage à extrémité unique ou à extrémité appariée ?

Dans un scénario idéal où chaque étape de la préparation de la bibliothèque, de la fragmentation de l'ARN à la synthèse de l'ADNc, génère des fragments complètement non biaisés représentant les échantillons d'ARN, le séquençage en simple sens (SR) et en double sens (PE) donnerait des résultats comparables. Cependant, des biais s'invitent inévitablement lors de ces étapes de préparation. Pour atténuer cela, le séquençage des deux extrémités de la bibliothèque clonée améliore la randomisation des fragments, optimisant ainsi la qualité des données de séquençage.

Le séquençage en paires offre un double avantage : non seulement il augmente le caractère aléatoire des fragments séquencés, mais il permet également le chevauchement des séquences provenant de fragments courts, offrant une confirmation supplémentaire des séquences. La plupart des programmes d'analyse de données modernes prennent en charge à la fois les données SR et PE de manière transparente, éliminant ainsi tout obstacle dans l'analyse en aval.

Malheureusement, toutes les plateformes de séquençage ne prennent pas en charge le séquençage en paire. Par conséquent, chaque fois que cela est possible, il est conseillé d'opter pour le séquençage en paire afin de maximiser la qualité des données et les analyses.

Lectures recommandées : Séquençage à lecture unique vs. séquençage à paires de lectures.

ARN ou ADN : Que mesurer ?

Comme discuté précédemment, la majorité des plateformes de séquençage se concentrent sur les molécules d'ARN dérivées de l'ADNc double brin transcrit inverse et des échantillons d'ARN amplifiés par PCR. Cependant, certains projets de recherche privilégient l'étude des modifications structurelles de l'ARN, telles que la coiffe de l'ARNm. Dans de tels cas, le séquençage direct de l'ARN devient préférable. Cette approche est illustrée par les avancées récentes telles que le séquençage Nanopore, qui séquence directement l'ARN au lieu de l'ADNc.

Échantillons : De combien de matériel ai-je besoin de préparer ?

Avec l'avènement du séquençage de l'ARN total à partir de cellules individuelles, la question se pose : existe-t-il une exigence minimale en matière de matériel d'échantillon ? Les plateformes utilisant de l'ADNc double brin amplifié n'ont effectivement pas de limite inférieure, mais cela n'implique pas qu'un matériel minimal soit suffisant. Augmenter le matériel d'échantillon garantit non seulement un approvisionnement adéquat pour le séquençage, mais améliore également la diversité des espèces d'ARN détectées.

La plupart des plateformes de séquençage modernes proposent des kits spécialisés adaptés à la préparation de bibliothèques à partir de nanogrammes d'ARN total, s'adaptant à des tailles d'échantillons variées. Les plateformes à molécule unique, en particulier, nécessitent juste une molécule pour le séquençage, éliminant ainsi toute limitation pratique entre les différentes plateformes de séquençage.

Vous pouvez vous référer à notre DIRECTIVES DE SOUMISSION D'ÉCHANTILLON pour plus de détails sur les échantillons et la préparation.

Budgetisation : Combien devrai-je allouer ?

Bien que le coût du séquençage ait considérablement diminué au cours de la dernière décennie, il est important de reconnaître que le coût reste un facteur, surtout compte tenu des exigences croissantes et des normes de qualité pour la publication. Bien que le scénario idéal ignorerait le coût, des considérations pratiques nécessitent un budget.

Choisir d'utiliser des installations NGS essentielles commerciales, nationales ou locales pour le téléchargement. RNA-seq les bibliothèques présentent une stratégie efficace de réduction des coûts sans compromettre la qualité.

Temps : Combien de temps prend la mesure ?

Dans le domaine dynamique de la génomique, des progrès rapides sont essentiels. Idéalement, les échantillons sont préparés rapidement, les bibliothèques soigneusement construites et le séquençage exécuté sans aucun retard. Cependant, en réalité, de nombreuses plateformes comme Illumina, SOLID et 454 ont souvent des files d'attente non pas parce que les machines sont inactives, mais en raison d'un nombre insuffisant de bibliothèques pour saturer le pool de flux pour un seul passage.

Ainsi, le goulot d'étranglement dans le flux de travail se produit généralement lors de la construction de la bibliothèque, où l'accumulation d'un nombre requis de bibliothèques précède le lancement des courses d'instruments. Par conséquent, la file de travail ne provient pas de la disponibilité des instruments, mais du travail préparatoire sur les bibliothèques.

Une fois le séquençage terminé, le voyage est loin d'être terminé. Analyse de données émerge comme la prochaine phase, et sa durée peut s'étendre de quelques jours à plusieurs mois, voire des années, en particulier dans les projets de grande envergure. Par conséquent, malgré la brièveté des séquences des instruments, la phase d'analyse des données se profile comme une entreprise potentiellement prolongée.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut