3 mars 2021

NEW YORK – Le Consortium de Référence du Pangenome Humain (HPRC) marque une année de progrès en publiant des données provenant de 30 génomes assemblés jusqu'à présent.
Les génomes, disponibles via des dépôts aux États-Unis, en Europe et au Japon, incluent des données provenant des lectures HiFi de Pacific Biosciences, des lectures ultralongues d'Oxford Nanopore Technologies et du mapping optique de Bionano Genomics. Les données Hi-C pour les 30 échantillons générées avec les kits Omni-C de Dovetail Genomics seront publiées ce mois-ci. De plus, des données de séquençage de brins de modèle unicellulaires pour le phasage des haplotypes sont disponibles pour sept échantillons, tout comme des données NGS Illumina provenant de 60 parents utilisés dans le phasage trio. Le groupe prévoit également d'inclure 12 génomes supplémentaires de collaborateurs de l'Université de Washington à St. Louis, de l'Institut national de recherche sur le génome humain et de l'Université de Californie à Santa Cruz.
Lors de la réunion virtuelle Advances in Genome Biology and Technology de cette année, Karen Miga, chercheuse à l'UCSC, a déclaré que le consortium utilisait ces données pour créer des "assemblages phasés d'une qualité incroyablement élevée" en utilisant Hifiasm, un nouvel algorithme d'assemblage de novo publié le mois dernier dans Nature Methods par des chercheurs dirigés par Heng Li de l'Université Harvard. "Nous avons rencontré un succès énorme non seulement en termes de continuité ou de N50 et de blocs de phase, mais aussi dans la qualité de ces assemblages eux-mêmes," a déclaré Miga.
Un génome de référence avait 519 contigs avec un NG50 de 43 Mb, un NG50 de blocs de phase de 18 Mb, un score Q54 et une sensibilité aux SNP hétérozygotes de 99,3 pour cent. Dans l'ensemble, les assemblages diploïdes des 30 génomes avaient un N50 compris entre 18 et 59 Mb et des scores Q compris entre 50 et 56, a-t-elle déclaré.
En utilisant ces assemblages, le consortium développe de nouvelles méthodes pour automatiser les protocoles de contrôle qualité et de scaffolding, a ajouté Miga. Elle a également donné un aperçu des méthodes qui seront intégrées au projet pan-génome et qui sont en cours de développement dans le cadre du Consortium Telomère-à-Télomère (T2T).
Lancé en 2019 avec 29,5 millions de dollars de financement de l'Institut national de recherche sur le génome humain (NHGRI), le projet de pan-génome vise à présenter une représentation plus complète des génomes humains, capturant la diversité des variantes qui existent dans la population. Parmi ses objectifs figure la production de centaines d'assemblages de génomes humains de haute qualité, couvrant chaque chromosome de télomère à télomère.
Ses objectifs et ses participants se chevauchent souvent avec le Consortium T2T, que Miga co-dirige avec le bioinformaticien de NHGRI Adam Phillippy.
Trouver des moyens de cartographier et d'assembler des régions du génome jusqu'à présent inaccessibles, telles que les centromères et les régions hautement répétitives, a été un objectif clé de ces projets. Miga a noté que le HPRC dépend des récentes avancées dans la technologie de séquençage à lecture longue, à savoir les lectures HiFi de PacBio et les lectures ultra-longues d'Oxford Nanopore Technologies.
« Notre équipe atteint une couverture de 35X à 40X de lectures HiFi supérieures à Q20 dans la plage de 18 à 20 kb pour ce projet particulier, » a-t-elle déclaré. La sortie HiFi pour tous les échantillons sauf un a dépassé 100 Go.
Le consortium obtient également des lectures de 100 kb ou plus avec une couverture d'environ 6X à partir des lectures ultra-longues d'Oxford Nanopore — environ 10 % de toutes les lectures nanopore ; une couverture Hi-C de 60X, et des cartes optiques BioNano avec un N50 d'environ 250 kb à environ 100X de couverture.
La publication des données comprend 60 ensembles de données parentales NGS Illumina utilisés pour le phasage de trio, avec une couverture de 30X utilisant un séquençage en paires de 150 pb.
Les données peuvent être consultées via des dépôts tels que le Centre national pour les informations biotechnologiques, l'Archive européenne des nucléotides (ENA) de l'Institut européen de bioinformatique et la Banque de données ADN du Japon (DDBJ).
Miga a également partagé les progrès du consortium T2T. "Beaucoup des technologies que nous avons développées sont celles qui vont être intégrées" dans le travail sur le pan-génome humain, a-t-elle déclaré. En septembre 2020, le groupe a publié la séquence complète d'un génome de môle hydatiforme qui ne comportait aucun contig non localisé ou non placé. Il avait un score Q70 et a introduit entre 100 Mb et 190 Mb de nouvelles séquences, par rapport au génome de référence GRCh38.
En plus des assemblages de chromosomes utilisant des données HiFi et des lectures ultra-longues d'Oxford Nanopore, le consortium produit les premières cartes haute résolution de tous les bras courts des chromosomes acrocentriques ainsi que de chaque région péricentrique et centromérique du génome. L'hybridation in situ par fluorescence est intégrée comme "une méthode orthogonale agréable pour montrer le nombre de copies", a déclaré Miga. Les membres du groupe progressent également dans le cartographie des réarrangements génomiques et des duplications segmentaires, identifiant de nouveaux répétitions et même trouvant des gènes enfouis dans les régions centromériques.
« Nous ne sommes pas encore à la ligne d'arrivée », a averti Miga. Le génome T2T récemment publié est essentiellement haploïde et il existe une « véritable barrière technologique pour atteindre le prochain jalon d'un génome T2T diploïde », a-t-elle déclaré, sans parler de la difficulté de réaliser des centaines de ceux-ci pour l'effort de pan-génome humain.
Plus d'infos sur : https://www.genomeweb.com/sequencing/human-pangenome-reference-consortium-releases-data-30-genomes#.YEr_Jp0zY2w