Les répétitions en tandem sont des séquences d'ADN composées de deux ou plusieurs nucléotides qui se répliquent consécutivement le long d'un chromosome dans un agencement continu, tête-bêche. Ces unités répétées, souvent appelées motifs répétitifs, présentent une variabilité, allant de quelques répétitions à potentiellement des centaines dans un emplacement chromosomique spécifique.
Les répétitions en tandem se distinguent par leur classification diversifiée, englobant des formes micro, des variantes courtes et longues, ainsi que des microsatellites.
Les deux catégories principales pour les répétitions en tandem sont les suivantes :
Microsatelliteségalement reconnus sous le nom de répétitions de séquences simples (SSR), désignent des répétitions en tandem d'ADN avec des tailles de motif allant de 1 à 6 paires de bases (pb).
Appelés de manière interchangeable minisatellites et microsatellites, les VNTR sont des unités de répétition en tandem d'ADN avec une taille de motif de ≥7 pb. Bien que certaines publications désignent les motifs ≥100 pb comme des microsatellites, cette utilisation manque de cohérence et les classe toujours comme des VNTR selon les critères définis.
Il est crucial de noter que la classification des répétitions en tandem est indépendante du nombre de répétitions de l'unité. Notamment, un STR de trois paires de bases (par exemple, "ACG") répété 10 000 fois en tandem (totalisant 30 000 paires de bases) reste classé comme un STR. De même, un motif de 50 bases répété seulement trois fois (totalisant 150 paires de bases) serait toujours considéré comme un VNTR, malgré sa longueur totale plus courte par rapport au premier exemple. Cette classification souligne l'importance de la taille de l'unité répétée et de ses unités individuelles, indépendamment du nombre total de copies.
L'origine du terme "ADN satellite" remonte à une époque où le séquençage de l'ADN n'était pas aussi avancé, accessible ou répandu qu'aujourd'hui. Avant l'ère du séquençage de l'ADN précis et généralisé, les chercheurs utilisaient des techniques alternatives pour discerner la composition du génome d'un organisme. La terminologie, y compris "ADN satellite", "microsatellite" et "minisatellite", a émergé de la caractérisation initiale de segments spécifiques de l'ADN génomique lors de la centrifugation sur gradient de densité.
Au milieu du 20e siècle, les scientifiques ont utilisé la centrifugation sur gradient de densité pour isoler l'ADN. Au cours de ce processus, ils ont observé que l'ADN génomique présentait des bandes distinctes de densités variées. Certaines de ces bandes se manifestaient sous forme de satellites, situés à l'écart de la bande principale de l'ADN génomique. En séquençant ces satellite ADN des bandes, les chercheurs ont découvert la présence de répétitions en tandem de différentes tailles, désormais appelées collectivement ADN satellite.
La distinction entre les répétitions en tandem de ≥7 pb appelées "répétitions en tandem à nombre variable" (VNTR) et les répétitions plus petites étant étiquetées comme répétitions en tandem courtes (STR) n'implique pas une variabilité inhérente l'un par rapport à l'autre. La nomenclature n'indique pas une différence de mutabilité ou de variabilité entre les VNTR et les STR, y compris la fréquence des mutations ponctuelles au sein de leurs motifs ou la variabilité du nombre de répétitions dans le génome. Cette classification est ancrée dans la taille de l'unité répétée, et non dans le niveau de variabilité, soulignant une approche historique et descriptive plutôt qu'un reflet direct de leurs caractéristiques dynamiques.
La signification des répétitions en tandem va au-delà de leur présence prédominante dans les régions géniques non codantes, jouant un rôle crucial en biologie avec des implications plus profondes qu'il n'y paraît au premier abord. Composant plus de 3 % de l'ensemble du génome humain, les répétitions en tandem exercent un impact substantiel sur variation génomique structurelle, en particulier pour les séquences dépassant 50 paires de bases. La variabilité marquée au sein de ces régions de répétitions en tandem souligne leur rôle essentiel dans la formation des phénotypes de nombreux organismes eucaryotes.
De plus, les répétitions en tandem émergent comme des facteurs influents dans le domaine de la santé humaine. Elles ont été identifiées comme des acteurs clés dans l'apparition de diverses maladies génétiques, ce qui élève leur importance dans la recherche biomédicale. Les séquences de répétitions en tandem, lorsqu'elles sont liées à des changements dans l'expression des gènes, ont été impliquées dans de nombreux cancers et connectées à plus de 50 troubles neurologiques, tels que la SLA, le FXS, l'ataxie, les troubles du spectre autistique et la schizophrénie. Cela souligne leur pertinence dans la compréhension de la base moléculaire des maladies.
L'identification, la délimitation précise et le catalogage de séquences de répétitions en tandem représenter les étapes fondamentales pour déchiffrer les mécanismes à l'origine de leur maladie. Cette exploration complexe promet de révéler des biomarqueurs potentiels, d'élucider des cibles médicamenteuses et de favoriser le développement de thérapies—un chemin impératif pour faire progresser notre compréhension et notre traitement de diverses conditions médicales.
En comparaison avec d'autres structures génomiquesLes séquences répétées présentent des caractéristiques distinctives qui les rendent instrumentales dans diverses applications biologiques :
Les séquences répétitives évoluent à un rythme plus rapide, certaines séquences étant spécifiques à des espèces. Ces éléments répétitifs spécifiques aux espèces servent de marqueurs génétiques précieux, facilitant l'étude des relations phylogénétiques entre différentes espèces.
les séquences répétitives jouent un rôle essentiel dans l'empreinte chromosomique et l'analyse du caryotype. Cela aide à la localisation précise des segments chromosomiques exogènes. De plus, séquences SSR dérivés d'éléments répétitifs sont utilisés dans la construction de cartes génétiques, la localisation des gènes, l'identification des variétés et des applications connexes.
Les séquences répétitives, en particulier celles dispersées dans le génome, servent de sondes pour la détection et l'identification de matériel génétique exogène dans différentes espèces.
Les séquences répétitives contribuent à modifications épigénétiques, influençant la régulation des gènes insérés ou voisins. Cela, à son tour, module l'expression génique, impactant les phénotypes individuels et influençant l'adaptabilité.
Cependant, la nature complexe du génome, associée au polymorphisme des séquences répétées et aux défis liés à l'assemblage, complique leur identification. Malgré ces défis, les avancées dans technologie de séquençage à haut débit, la baisse des coûts de séquençage et le développement continu d'algorithmes logiciels sophistiqués surmontent progressivement ces obstacles. En conséquence, l'identification des séquences répétitives, en particulier celles ayant des occurrences fréquentes dans le génome, devient plus réalisable et promet une meilleure compréhension génomique.
Contrairement aux méthodes de centrifugation sur gradient de densité obsolètes, les scientifiques contemporains exploitent des technologies avancées de séquençage de l'ADN pour déchiffrer les complexités des répétitions en tandem. En particulier, plateformes de séquençage à lecture longue tel que Séquençage HiFi PacBio et Séquençage par nanopore sont devenues indispensables. Ces technologies, caractérisées par des longueurs de lecture étendues, permettent aux chercheurs d'identifier précisément les bases tout en parcourant sans effort de vastes ensembles de séquences répétitives avec un chevauchement substantiel dans les longueurs de lecture.
Le paysage de la recherche sur les répétitions en tandem a connu un changement transformateur, propulsé par l'intégration d'outils d'analyse bioinformatique conçus pour compléter. Séquençage HiFi PacBioCette approche innovante contourne les défis associés aux méthodes traditionnelles, offrant aux chercheurs des lectures étendues dépassant 10 000 paires de bases, affichant des niveaux de précision élevés (99,9 %) et proposant une suite d'outils d'analyse spécialisés capables de naviguer dans les complexités des investigations sur les répétitions en tandem.
Les principales applications facilitées par cette approche avancée incluent :
Détermination précise des tailles de répétitions en tandem et estimation des motifs mosaïques au sein des séquences génomiques.
Analyse approfondie des compositions de séquences, y compris l'identification des ruptures et des régions abritant plusieurs répétitions.
Identification et caractérisation précises de la méthylation CpG au niveau de 5mC.
Exploration complète du regroupement de lectures résolues par haplotype, associée à des outils de visualisation pour discerner l'état de méthylation.
La synergie entre séquençage à lecture longue et l'analyse des données biologiques marque un tournant par rapport aux défis mathématiques passés. Les chercheurs disposent désormais des moyens pour aborder des questions essentielles concernant le rôle de ces régions génomiques cruciales à travers un éventail de phénomènes génétiques, allant de l'évolution des traits à la biologie complexe des maladies héréditaires.