La plupart des plantes et des animaux ont des génomes complexes avec plusieurs caractéristiques, telles que de grandes tailles, une forte hétérozygotie et la polyploïdie. Les organismes sont génétiquement diversifiés, et les régions génomiques hétérozygotes peuvent être des contributeurs majeurs à la variation phénotypique, et cette complexité pose un défi à l'assemblage du génome. L'augmentation du nombre de jeux de chromosomes accroît la quantité totale d'ADN dans le génome et augmente la complexité du génome en ajoutant des allèles ou d'autres formes de gènes. Bien que la plupart des séquences entre chromosomes appariés soient identiques, ces différences fournissent l'étendue de la variation biologique au sein des espèces. L'utilisation de cartes haplotypiques de haute qualité du génome peut fournir une meilleure compréhension de l'histoire génétique d'une culture ou d'un animal, explorer la domestication des espèces et aider à la recherche sur l'amélioration des espèces.
Le haplotypage des polyploïdes nécessite, en principe, des séquences parentales, ou si elles ne sont pas disponibles, au moins leurs séquences d'espèces ancestrales évolutives/espèces proches ancestrales (pour comparer les différents sous-genomes) et pour aider à les assembler à un stade ultérieur.
Quatre principales stratégies d'assemblage de génomes haploïdes sont actuellement utilisées par les chercheurs.
La première stratégie est la méthode de binning Trio (séquençage Illumina et PacBio) qui repose sur les séquences parentales pour une assemblage efficace. Cette méthode est simple et facile à mettre en œuvre, mais sujette à une mauvaise classification des lectures lorsque les parents sont hétérozygotes.
La deuxième stratégie est la méthode DipAsm (séquençage HiFi et Hi-C) qui ne s'appuie pas sur les séquences parentales et combine les données Hi-C pour produire des haplotypes au niveau des chromosomes, mais est sujette à des erreurs de classification des régions hautement hétérozygotes.
La troisième stratégie est la méthode Hifiasm qui utilise efficacement les lectures HiFi pour générer des haplotypes de haute qualité, qui, comparée à DipAsm, non seulement maintient l'avantage de ne pas dépendre des parents pour l'assemblage, mais réduit également la dépendance aux données Hi-C, simplifie le processus, réalise l'assemblage et le phasage en un clic, et peut intégrer les données Hi-C pour aider à l'assemblage, devenant ainsi progressivement la méthode préférée pour un assemblage de haute qualité.
La quatrième stratégie est la stratégie d'assemblage de génomes polyploïdes, utilisant PolyGembler ou nPhase. La première nécessite la fourniture de données de lignée et la seconde nécessite la fourniture de séquences de génomes de référence.
Callithrix jacchus est un petit mammifère primate et un modèle animal courant pour la recherche médicale. En utilisant des données de séquençage à long et à court reads provenant de familles de tamarins, l'équipe de recherche a assemblé indépendamment deux ensembles de génomes haplotypiques de haute qualité à partir de chaque parent, qui ont été publiés dans Nature.
Les motifs de paysage d'hétérozygotie entre les deux génomes haploïdes de marmoset (Yang C) et al.., 2021)
Il a été constaté que les marmosets possèdent une séquence supplémentaire spécifique aux mâles sur le chromosome Y par rapport aux humains. De plus, les mutations germinales provenant du père étaient deux fois plus élevées que celles de la mère, ce qui pourrait être lié au nombre différent de divisions cellulaires réplicatives qui se produisent lors de la formation des ovocytes et des spermatozoïdes. La comparaison des séquences génomiques parentales renouvelle la compréhension des différences d'information génétique entre les parents et démontre la base génétique des marmosets en tant qu'espèce modèle médicale en analysant les gènes liés à la croissance et au développement. Les résultats connexes peuvent être appliqués à des études dans plusieurs directions telles que les maladies neurodégénératives, la biologie de la reproduction et les maladies infectieuses pharmacocinétiques.
L'Université Cornell, en collaboration avec le Centre de recherche sur les ressources génétiques des plantes de l'USDA-ARS, a obtenu des données génomiques de haute qualité grâce au séquençage à lecture courte et à lecture longue de la pomme cultivée.Malus domestica cv. Gala) et ses principales espèces sauvages ancestrales, M. sieversii et M. sylvestrisDes génomes haplotypiques de haute qualité de pomme ont été obtenus.
Notamment, les génomes résolus par haplotype peuvent aider à résoudre l'origine du génome de la pomme et faciliter l'étude de l'expression spécifique des allèles pendant le développement des espèces. Plusieurs gènes liés au développement et à la qualité des fruits de pomme ont été extraits dans cet article, et le processus d'évolution de la population des pommes a été révélé à l'aide d'analyses de la structure et de l'histoire de la population. Cette étude fournit des données génomiques précises et précieuses pour une étude approfondie de la domestication de la pomme et de la sélection génétique.
Les chromosomes homologues des espèces diploïdes ou polyploïdes présentent une grande similarité, et le processus d'assemblage ne peut généralement pas bien distinguer les chromosomes homologues en raison de la courte longueur des lectures. Cependant, la technologie de séquençage à longues lectures peut nous aider à identifier les différences subtiles entre les chromosomes homologues, et en combinaison avec l'assemblage d'autres données de séquençage, nous pouvons compléter le haplotypage des diploïdes, identifier les différences chromosomiques par rapport aux parents et révéler davantage l'origine ancienne et le processus de domestication des espèces.
CD Genomics fournit Séquençage du génome entier basé sur Illumina et Séquençage SMRT de PacBio plateformes, permettant un accès rapide à des génomes haplotypiques de haute qualité, expliquant davantage de puissance génétique manquante et améliorant la précision de la prédiction génomique.
Références :