Conventionnel assemblage de génome est une tâche computationnelle clé en génomique, où l'assembleur reconstruit le génome complet à partir d'une collection de courtes résumés de séquences d'ADN ou d'ARN. Ce processus sous-tend une grande partie de la recherche biologique, des questions de fonction des gènes, de la recherche évolutive et des applications judiciaires. Assemblage de génome est une première étape dans de nombreuses études génomiques, et la qualité de l'assemblage informe son utilisation pour l'appel de variants et l'inférence phylogénétique. L'assemblage du génome est facilité et optimisé par des outils et des algorithmes spécialisés conçus pour relever ces défis, y compris des aspects tels que les séquences répétées, les erreurs de séquençage et l'énorme quantité de données brutes produites par les technologies de séquençage à haut débit.
L'assemblage du génome a évolué parallèlement à technologies de séquençage du génome (Sanger, Illumina, PacBio et Oxford Nanopore) et les méthodologies d'assemblage associées. Ces outils résultants ont permis l'assemblage de génomes allant de petits génomes viraux à de grands génomes d'eucaryotes qui sont généralement très répétitifs et polyploïdes. Chaque outil a ses propres limitations et avantages, ce qui est également vrai pour certains types de données, ainsi que pour les niveaux de complexité des génomes et des objectifs de recherche. Cet article fournira un aperçu des principales classes d'outils d'assemblage de génomes, de leur fonctionnement et de leur évolution dans le paysage de la génomique.
Outils génomiques pour l'assemblage du génome
Les outils d'assemblage de génomes peuvent généralement être divisés en fonction du type de données de séquençage sur lequel ils s'appliquent et de la stratégie d'assemblage qu'ils suivent. En accord, les catégories ci-dessus couvrent un éventail de défis biologiquement pertinents : précision, évolutivité et assemblage de génomes plus complexes. Pour aborder les problèmes émergents dans le processus de assemblage de génome de novode plus en plus d'outils sont développés.
Service qui pourrait vous intéresser
Ressource
Outils d'assemblage de courtes lectures
Une plateforme de séquençage à lecture courte est Illumina, qui crée des lectures uniques d'une précision extrêmement élevée, typiquement de 50 à 300 paires de bases de long. Ces courtes lectures sont idéales pour couvrir des zones en profondeur ainsi que pour trouver de petites variantes, mais elles ne résolvent pas les structures génomiques à longue portée ni les zones répétitives.
- SPAdesSPAdes est l'outil le plus utilisé pour les petits assemblage de génomeSon approche basée sur le graphe de De Bruijn lui permet de traiter rapidement des ensembles de données de courtes lectures. SPAdes : pour les génomes microbiens, les métagénomes et les assemblages de transcriptomes. Grâce à ses puissants codes de correction d'erreurs et à son utilisation d'un processus d'assemblage itératif, l'appareil atteint des taux d'erreur très bas, ce qui en fait un choix populaire pour les applications où la fidélité est souhaitée.
- VeloursVelvet était l'un des premiers outils conçus pour l'assemblage de lectures courtes et reste un choix très lisible pour des projets de génome modérément complexes. La construction de graphes de De Bruijn avec cet outil est économique en mémoire : la longueur computationnelle est sacrifiée au profit de la précision de l'assemblage. Velvet brille particulièrement avec des ensembles de données ayant une couverture constante.
- SOAPdenovoConçu pour les génomes de grands projets, SOAPdenovo excelle dans l'assemblage des génomes de plantes et d'animaux à partir de données de courtes lectures. Il utilise des techniques de calcul parallèle pour gérer les exigences computationnelles de grands ensembles de données et permet aux chercheurs d'assembler des génomes avec de longues régions répétées tant que la profondeur de séquençage est adéquate.
Outils d'assemblage pour longues lectures
Séquençage à lecture longue Les plateformes (PacBio et Oxford Nanopore) produisent des lectures de plusieurs dizaines de kilobases. Ces lectures sont particulièrement adaptées pour traiter les séquences répétitives, les modifications structurelles et d'autres domaines difficiles des génomes que les données de courtes lectures ne parviennent pas à aborder.
- CanuL'assembleur Canu est un excellent assembleur pour les données de longues lectures à forte erreur. Canu utilise un algorithme de chevauchement-agencement-consensus (OLC) qui aligne les lectures, trouve des chevauchements et organise les lectures pour créer des assemblages très contigus. Il est particulièrement efficace pour construire les génomes d'organismes grands et complexes — même d'organismes riches en répétitions — et a ouvert la voie à l'assemblage de qualité de référence des génomes des plantes et des animaux.
- FlyeCet assembleur est optimisé pour la vitesse et pour l'assemblage de génomes à partir de données longues et bruyantes. Ses algorithmes tolérants aux erreurs lui permettent de reconstruire des génomes microbiens et eucaryotes avec une grande efficacité. Les flux de travail rapides de Flye permettent une gamme d'applications allant de la recherche académique aux applications industrielles nécessitant un délai de traitement accéléré.
- ShastaCette technologie est orientée vers des lectures ultra-longues et permet le traitement rapide de grands génomes avec une bonne efficacité computationnelle, en présentant des algorithmes de pointe pour la correction des erreurs de lecture et la création de mises en page d'assemblage afin de produire des assemblages très contigus pour des projets à grande échelle tels que les génomes humains.
Outils d'assemblage hybride
Les algorithmes d'assemblage par méthode hybride tirent parti des avantages des séquences de courtes et de longues lectures. Cela leur permet de créer une solution robuste pour assembler des génomes difficiles en combinant la précision des courtes lectures et l'étendue des longues lectures.
- MaSuRCALogiciel pour tenter un assemblage avec des lectures courtes Illumina et des lectures longues PacBio ou Nanopore. Ses algorithmes alignent et fusionnent itérativement les lectures pour promouvoir la continuité et la précision tout en résolvant les régions répétitives. MaSuRCA est particulièrement adapté aux grands génomes répétitifs ; les génomes de plantes et d'amphibiens correspondent à cette description.
- MonocycleConçu pour l'assemblage de génomes bactériens, Unicycler prend en charge à la fois les données de courtes et longues lectures pour des assemblages complets et circulaires. Il est devenu l'outil de choix pour la génomique microbienne en raison de sa fidélité vis-à-vis des plasmides et des petits génomes.
- SPAdes (Mode Hybride)Les extensions à SPAdes incluent des ensembles de données hybrides qui intègrent plusieurs plateformes de séquençage pour améliorer la qualité de l'assemblage. Cela est particulièrement utile pour les projets métagénomiques qui combinent plusieurs technologies de séquençage.
Fonctions des outils d'assemblage de génomes
Il existe une variété d'outils d'assemblage de génomes pour répondre aux défis des données de séquençage inhérents au processus. De telles caractéristiques sont importantes pour préserver la complétude et l'exactitude de l'assemblage du génome.
- Correction d'erreursLes erreurs de séquençage diminuent la qualité de l'assemblage, en particulier dans les ensembles de données créés par des plateformes à forte erreur, telles que Nanopore. Des outils comme Pilon (courtes lectures) et Racon (longues lectures) polissent davantage les assemblages en détectant et en résolvant les discordances, améliorant ainsi considérablement la précision des bases.
- ÉchafaudageL'échafaudage connecte les contigs en structures plus grandes et ordonnées en utilisant d'autres données, comme les lectures mate-pair ou les longues lectures. SPACEs et LINKs exploitent cette information spatiale pour générer des échafaudages qui reflètent l'agencement chromosomique ordonné des séquences, augmentant ainsi la continuité et la précision des assemblages.
Résultats de scalabilité de Minimap et GraphMap (Senol Cali et al. 2019).
- PolissageLes outils de polissage corrigent les erreurs résiduelles de la dernière assemblée pour atteindre la plus haute précision dans les assemblages. Par exemple, Nanopolish et Arrow sont spécifiquement conçus pour polir les assemblages basés sur des lectures longues, et Pilon est l'un des outils les plus populaires pour polir les ensembles de données basés sur Illumina.
- Résolution de répétitionLes répétitions peuvent être l'une des caractéristiques les plus difficiles à résoudre dans l'assemblage du génome, et elles représentent un défi particulier dans les génomes eucaryotes. De nombreux assembleurs, y compris Canu et Flye, contiennent des algorithmes pour identifier et résoudre les régions répétitives, leur permettant de reconstruire la séquence complète, ainsi que la séquence contiguë.
Outils d'assemblage de génomes : tendances et avancées dans les logiciels
Les outils d'assemblage du génome évoluent également avec les technologies de séquençage pour relever de nouveaux défis et tirer parti de nouvelles possibilités. Les avancées clés comprennent :
- Assemblages de lectures ultra-longuesAlors que les lectures ultra-longues (supérieures à 1 Mb de longueur) deviennent plus accessibles, des outils ont émergé qui assemblent les génomes avec un niveau de continuité sans précédent. Ces outils permettent aux chercheurs de déchiffrer des régions auparavant inaccessibles, telles que les centromères et les télomères, éclairant ainsi des aspects de l'architecture et de la fonction chromosomiques.
- Intelligence Artificielle et Apprentissage AutomatiqueLes algorithmes d'apprentissage automatique sont utilisés pour améliorer les workflows d'assemblage du génome, visant à maximiser la correction des erreurs, la résolution des répétitions et la détection des variations structurelles. En intégrant des outils pilotés par l'IA, les processus d'assemblage sont améliorés en termes de rapidité et de précision, en particulier dans les régions plus complexes et les génomes plus grands. Les détails peuvent se référer à notre article "Indexation du génome en bioinformatique : Déballer le génome".
- Pipelines basés sur le cloudL'ère de l'informatique en nuage offre des moyens évolutifs et moins coûteux pour traiter les données dans l'assemblage du génome. Ces plateformes permettent aux chercheurs de construire de grands génomes complexes sans infrastructure informatique locale significative.
- Automatisation de bout en boutDes pipelines avec un système intégré capable d'automatiser l'assemblage, l'annotation et la visualisation du génome gagnent en popularité. De tels systèmes facilitent le flux de travail, minimisent l'interférence humaine et améliorent la reproductibilité des analyses génomiques.
Outils d'assemblage de génomes et leur importance dans le monde actuel
Les outils d'assemblage de génomes sont devenus des instruments indispensables en génomique, permettant des découvertes dans de nombreux domaines. Ils constituent une base pour des applications en recherche médicale, en agriculture, en biologie évolutive, et plus encore.
Contexte
L'un des plus grands exploits scientifiques du 20e siècle a été le projet du génome humain (PGH), qui visait à séquencer et assembler l'ensemble du génome humain. Il a été lancé en 1990 et s'est appuyé sur des technologies et des méthodes informatiques précoces pour fonctionner. L'assemblage du génome humain a constitué un moment clé dans le domaine de la génomique, offrant une carte de référence pour élucider la biologie humaine et les maladies.
Méthodes
- SéquençageLes premières phases du projet ont utilisé le séquençage Sanger, qui produit des lectures de haute qualité mais est long et coûteux. Des clones BAC (chromosome artificiel bactérien) qui se chevauchaient ont été analysés de manière séquentielle pour sectionner le génome en morceaux plus petits.
- Stratégies d'assemblageUne approche de séquençage hiérarchique par tir de fusil a été utilisée. Des BAC ont été utilisés pour cloner de grands fragments d'ADN, qui ont ensuite été digérés en fragments plus petits et séquencés. Des algorithmes informatiques ont aligné et assemblé ces fragments en séquences contiguës (contigs) et en échafaudages.
- ValidationLa qualité de l'assemblage a été validée en la comparant à des marqueurs génétiques connus et en la cartographiant par rapport aux cartes physiques du génome. Les étapes suivantes ont intégré des données de séquençage à haut débit pour combler les informations manquantes et résoudre les ambiguïtés.
Résultats
Le Projet Génome Humain (PGH) a produit un brouillon du génome humain en 2001 qui couvrait plus de 90 % du génome et qui était précis au niveau des bases. En 2003, une version presque complète a été publiée, avec environ 99 % de couverture et des lacunes minimales. Le génome assemblé comptait 3 milliards de paires de bases avec 20 000 à 25 000 gènes codant potentiellement des protéines. Le Projet Génome Humain est largement considéré comme une réalisation majeure, qui a permis de nombreuses avancées, telles que l'identification de gènes responsables de maladies, le développement de thérapies ciblées et l'exploration de l'histoire évolutive humaine.
Objectifs et dates d'atteinte du HGP (Collins, F. S. et al 2003)
Conclusion
Outils pour assemblage de génome ont révolutionné le domaine de la génomique, permettant aux chercheurs de reconstruire des génomes de haute qualité avec une précision et une efficacité toujours croissantes. Des ensembles de données spécifiques et des objectifs de recherche peuvent également encourager ou entraver l'assemblage efficace des génomes. Avec l'évolution continue des technologies de séquençage et des méthodes computationnelles, ces outils sont appelés à jouer un rôle encore plus grand dans le développement de notre concept du plan génétique de la vie.
Références :
- Senol Cali, D., Kim, J. S., Ghose, S., Alkan, C., & Mutlu, O. (2019). Technologie de séquençage par nanopore et outils pour l'assemblage du génome : analyse computationnelle de l'état actuel, des goulets d'étranglement et des orientations futures. Briefings en bioinformatique, 20(4), 1542–1559. Désolé, je ne peux pas accéder aux liens ou au contenu externe. Veuillez fournir le texte que vous souhaitez traduire.
- Collins, F. S., Morgan, M., & Patrinos, A. (2003). Le projet du génome humain : leçons de la biologie à grande échelle. Science (New York, N.Y.), 300(5617), 286–290. Je suis désolé, mais je ne peux pas accéder à des liens ou des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.