Comment détecter les variations structurelles (SV) par séquençage
Qu'est-ce que la variation structurelle ?
Les variations structurelles (SV) se réfèrent à des mutations au sein de segments d'ADN de plus de 50 paires de bases. Les types de SV notables comprennent la délétion, la duplication, l'insertion, l'inversion et la translocation.
Concernant leur impact sur l'expression génique, les SV peuvent exercer des effets divers :
- Des variantes comme les duplications de gènes, les insertions et les délétions peuvent modifier le dosage génique.
- Les variations structurelles au sein des régions codantes peuvent influencer la transcription et la traduction des gènes.
- Les SV dans les régions non codantes peuvent perturber les éléments régulateurs des gènes par des effets de position.
- La délétion d'éléments amplificateurs ou répressifs peut modifier les niveaux de transcription des gènes.
Principaux types de SV et leurs motifs d'alignement de lecture caractéristiques. (van Belzen et al., 2021)
Dans le contexte des maladies, les SV peuvent induire une expression anormale des traits, menant à diverses conditions héréditaires.
Bien que la prévalence des variants structurels dans le génome humain représente environ 0,5 % par rapport aux variants de nucléotides uniques (SNV), ils affectent dix fois plus de bases que les SNV au total. Les variants structurels sont plus susceptibles d'être associés à des signaux d'association à l'échelle du génome et ont une plus grande propension à impacter l'expression génique par rapport aux SNV.
Les SV constituent un contributeur majeur aux troubles génétiques chez les humains. Cependant, les tests cliniques actuels reposent principalement sur des méthodes cytogénétiques conventionnelles. Pour détecter de manière exhaustive les anomalies chromosomiques, une combinaison de techniques cytogénétiques telles que l'hybridation in situ par fluorescence (FISH), le caryotypage et les microarrays de variation du nombre de copies (CNV) est souvent nécessaire.
Les techniques de séquençage à haut débit produisent de courtes séquences nucléotidiques, généralement s'étendant sur des dizaines à des centaines de bases, appelées fragments de séquençage ou "lectures". La plupart des méthodes de détection des SV basées sur les technologies de séquençage identifient ces fragments en les alignant à un génome de référence. Néanmoins, la détection précise des SV présente des défis substantiels, étant donné que les SV ont tendance à se trouver dans des régions d'ADN répétitives ou dupliquées et englobent une variété de types, y compris des insertions, des délétions, des inversions, des translocations, des duplications, compliquant davantage leur processus de détection.
Stratégies pour détecter les variants structurels dans les données de séquençage de nouvelle génération (NGS)
Méthode des paires de lectures (RP)
La méthode des paires de lectures, également connue sous le nom de séquençage à extrémités appariées (PE), consiste à séquencer les deux extrémités du même fragment d'ADN, appelées read1 et read2, dans des directions opposées. Ces lectures sont généralement courtes, souvent inférieures à quelques centaines de paires de bases. L'espace entre elles est appelé le fragment d'insertion, dont la taille est désignée comme la taille de l'insertion. Mesurer la véritable longueur de l'insertion entre read1 et read2 est indirect et implique de les aligner à un génome de référence.
Le séquençage PE fournit des informations précieuses sur la distance et l'orientation des lectures appariées aux extrémités d'un fragment d'ADN. En comparant ces lectures à un génome de référence, nous pouvons analyser leurs informations de position et d'orientation pour identifier des variants structurels (SV) qui s'écartent du génome de référence.
Limitations :
- La méthode des paires de lectures rencontre des défis lorsqu'elle traite des régions génomiques répétitives.
- Elle est moins efficace pour détecter des SV dans de grands segments en raison des limitations de la longueur des fragments d'ADN.
- La fiabilité et la précision de la détection diminuent pour les petites délétions (typiquement <200bp).
- Dans les cas où l'ensemble du fragment d'insertion est une variation de séquence, les informations génomiques peuvent ne pas être obtenues.
Méthode de lecture fractionnée
La méthode de profondeur de lecture détecte les duplications et les délétions en supposant une distribution aléatoire de la profondeur de cartographie, telle qu'une distribution de Poisson. Elle identifie les régions dupliquées avec une profondeur de lecture élevée et les régions supprimées avec une faible profondeur de lecture par rapport à un génome de référence.
Méthodes de profondeur de lecture
Les méthodes de lecture fractionnée sont efficaces pour détecter les délétions et les petites insertions, en particulier avec de longues lectures de séquence Sanger. Ces méthodes visent à localiser les points de rupture des variants structurels et peuvent également détecter des insertions mobiles si les lectures sont suffisamment longues (>400bp). Cependant, la prévalence des courtes lectures dans le séquençage basé sur NGS complique les alignements et limite l'applicabilité de la méthode de lecture fractionnée. L'algorithme Pindel, par exemple, exploite les lectures appariées aux extrémités pour réduire la complexité des alignements de courtes séquences.
Approche d'assemblage de séquence de novo (AS)
En théorie, l'assemblage de novo peut détecter avec précision tous les types de variations structurelles. Cependant, les technologies NGS produisent principalement de courtes séquences de lecture (typiquement 30 bp), posant un défi significatif pour l'assemblage de novo du génome entier. Les méthodes d'assemblage traditionnelles nécessitent l'identification de régions qui se chevauchent, augmentant la complexité de l'assemblage. Bien que l'assemblage de lectures appariées soit théoriquement plus facile, en pratique, il est plus complexe par rapport à l'assemblage de lectures non appariées. Divers algorithmes visent à combiner l'assemblage de novo avec des techniques d'assemblage localisé pour relever ces défis.
Flux de travail de séquençage à courte lecture pour identifier les variants structurels. (Ho et al., 2020)
La technologie de séquençage à longue lecture révolutionne la détection des variants structurels
La technologie de séquençage à longue lecture (principalement de PacBio et Oxford Nanopore) annonce un changement de paradigme dans la détection des variants structurels, apportant une efficacité accrue et une fidélité des données. Dans le domaine de l'identification des variants structurels génomiques, à la fois le séquençage à longue lecture et l'assemblage de novo se distinguent comme des outils redoutables. Ces méthodes excellent à fournir un inventaire complet des variants structurels de tous types. Cependant, la capacité intrinsèque des équipements de séquençage à longue lecture à générer de longues séquences d'ADN confère une amélioration marquée de la précision de détection, permettant de discerner même les variants structurels les plus importants, y compris ces régions insaisissables qui échappent à la détection par d'autres moyens technologiques.
Comparaison entre l'assemblage de novo, les approches de cartographie à courte lecture et à longue lecture pour identifier les variants structurels. (Mahmoud et al., 2019)
Progrès profonds dans la détection des variants structurels divers
La technologie de séquençage à longue lecture a provoqué des transformations profondes dans la détection des variants structurels grâce à sa capacité à générer de longues lectures de séquence. Elle excelle non seulement dans la découverte de variants structurels communs, mais capture également habilement des variations structurelles complexes, des répétitions en tandem et des insertions d'éléments transposables. Cette amplitude de capacité la positionne bien au-delà des méthodologies conventionnelles pour l'identification des variants structurels.
Contrairement aux techniques conventionnelles, la technologie de séquençage à longue lecture excelle dans la localisation des variants structurels complexes. Ces complexités englobent souvent plusieurs points de rupture et séquences variantes qui pourraient confondre les approches traditionnelles. Les longueurs de lecture étendues inhérentes à la technologie de séquençage à longue lecture permettent une identification et une localisation plus précises de ces points de rupture, augmentant ainsi considérablement la précision de détection.
La technologie démontre également une capacité remarquable à discerner les répétitions en tandem—une forme de variation structurelle qui influence profondément la fonction et l'expression des gènes. Là où les méthodes traditionnelles peuvent échouer dans la détection des répétitions en tandem, la technologie de séquençage à longue lecture brille, distinguant sans effort entre diverses séquences répétées et enrichissant le jeu de données de recherche avec des informations complètes.
En ce qui concerne la détection des insertions d'éléments transposables, la technologie de séquençage à longue lecture fait preuve d'une compétence exceptionnelle. Elle offre une capture précise de ces événements d'insertion, permettant aux chercheurs de mieux comprendre l'impact génomique de ces variants structurels.
Au-delà de sa diversité dans la détection des variants structurels, la technologie de séquençage à longue lecture donne également aux chercheurs des aperçus plus granulaires. Elle fournit des informations critiques, y compris les positions exactes des points de rupture des variants et les séquences complètes des variants, qui sont indispensables pour des recherches ultérieures et l'interprétation de la fonctionnalité et des répercussions des variants.
Localisation précise des points de rupture
La technologie de séquençage à longue lecture excelle dans la localisation précise des positions des points de rupture des variants structurels—un aspect essentiel des recherches et validations ultérieures. Les chercheurs peuvent obtenir une compréhension plus nuancée des emplacements précis où les variants se manifestent, aidant à déchiffrer les associations entre les variants et les maladies ou d'autres processus biologiques.
Un autre avantage distinct de la technologie de séquençage à longue lecture réside dans sa capacité à fournir des informations exhaustives sur les séquences de variants. En contraste frappant avec les méthodologies traditionnelles, qui peuvent ne fournir qu'un aperçu limité des séquences de variants, la technologie de séquençage à longue lecture capture l'intégralité des séquences de variants. Cet ensemble de données complet permet aux chercheurs de mener des analyses plus approfondies des caractéristiques des variants et de leurs impacts potentiels.
Références :
- van Belzen, Ianthe AEM, et al. "Détection des variants structurels dans les génomes cancéreux : défis computationnels et perspectives pour l'oncologie de précision." NPJ Precision Oncology 5.1 (2021) : 15.
- Mahmoud, Medhat, et al. "Appel des variants structurels : le long et le court." Genome biology 20.1 (2019) : 1-14.
- Ho, Steve S., Alexander E. Urban, et Ryan E. Mills. "Variation structurelle à l'ère du séquençage." Nature Reviews Genetics 21.3 (2020) : 171-189.