Au cours de la longue évolution des espèces, chaque individu a développé des traits génétiques extrêmement spécifiques en raison de la sélection naturelle et anthropique, entre autres facteurs. Dans la vision classique de la variation génétique intraspécifique, le génome de chaque individu est décrit comme un petit ensemble de variantes sur un génome de référence commun. L'analyse des associations variation-trait basée sur les SNP est courante dans les études de génétique des populations pour les QTL. GWAS, etc.
Ces dernières années, des analyses comparatives de génomes ou de fragments génomiques de plusieurs individus de la même espèce ont montré qu'un seul génome de référence n'est pas suffisant pour capturer la diversité génétique d'une espèce : généralement, seulement 50 % à 80 % des données de resequencage provenant de différents écotypes peuvent être comparées à un génome de référence.
Ces résultats suggèrent que les génomes au sein d'une espèce peuvent différer de manière plus significative (y compris la diversité des variants structurels), qui peuvent contenir un ou plusieurs gènes. De nombreuses études ont montré que les variants structurels jouent un rôle clé dans des traits agronomiques importants (par exemple, la résistance aux stress biotiques et abiotiques, le temps de floraison, l'architecture des plantes, le rendement, la qualité des graines ou des fruits). Ces résultats impliquent que le contenu en gènes fonctionnels d'une espèce est plus variable que ce que l'on pensait auparavant.
Ainsi, pour une espèce, une grande quantité d'informations génétiques significatives peut être perdue si un seul génome de référence est utilisé pour l'étude de la variation de domestication génétique. Tous ces facteurs ont ensemble conduit à la construction et à l'étude des pangénomes végétaux et animaux.
La pangenomique atteint sa maturité : des applications chez les bactéries aux plantes et aux animaux. (Golicz et al., 2020)
L'objectif des études de pangenome peut varier selon les espèces : les génomes bactériens sont principalement composés de gènes codants et relativement peu de séquences non génétiques, donc les études de pangenome bactérien se concentrent davantage sur le contenu en gènes codants. En revanche, chez les plantes et les animaux, en raison du grand nombre de séquences non génétiques ayant certaines fonctions dans le génome, les formes de séquences et de gènes sont principalement étudiées chez les eucaryotes. Contrairement aux pangenomes des plantes, les pangenomes animaux publiés sont davantage basés sur les séquences.
Si vous êtes intéressé par les pangenomes des plantes, veuillez consulter notre article. Une revue du pangenome des cultures.
Quantitativement, les plantes ont un pan-génome beaucoup plus vaste. Des études sur plusieurs pangenomes humains ont révélé 5 Mb de séquences supplémentaires dans les génomes humains asiatiques et africains par rapport aux génomes de référence humains, principalement basés sur des échantillons d'origine européenne. Cette étude sur le génome entier humain a montré que le génome entier humain contient 10 % de séquences en plus par rapport au génome de référence. D'autres pangenomes animaux incluent les porcs (72,5 Mb de séquences supplémentaires) et les souris (14-75 Mb de séquences non référencées dans chacune des 16 souris), qui sont tous dans un rapport de trois fois la taille du pangenome humain.
Un aperçu des méthodes de construction, des zones d'étude, des avantages et des applications du pangenome. (Gong et al., 2023)
La réponse à cette question peut être trouvée en considérant les processus mutationnels et génétiques de population qui génèrent la diversité des espèces : tout comme pour la variation à un seul nucléotide, la variation structurelle apparaît initialement sous forme de mutations ; les variants neutres sont soumis à la dérive génétique, tandis que d'autres variants sont soit fixés (sélection positive), soit perdus (sélection négative). Ainsi, les paramètres clés pour analyser le pan-génome sont le taux de mutation des variants structurels et la taille effective de la population pour contrôler la dérive génétique, ainsi que la proportion relative des SVs neutres. Comparés aux animaux, les plantes ont plus de lignées consanguines, possèdent plus de traits agronomiques, peuvent se reproduire de plusieurs manières et ont donc certains avantages numériques qui conduisent à s'attendre à des pan-génomes plus grands.
Au niveau mutationnel, le grand nombre de transposons (TE) récemment amplifiés peut générer des duplications et des suppressions de séquences, fournissant un substrat ample pour une recombinaison homologue non équivalente. Les TEs actifs peuvent également mobiliser des séquences adjacentes et produire des changements structurels. L'hybridation avec d'autres taxons peut également ajouter de nouveaux taxons ; du point de vue de la variation génétique naturelle, l'effet d'une telle migration génétique est similaire à celui de la mutation. De plus, parce que les espèces de plantes à fleurs ont une histoire de duplication ancienne, la redondance effective restante peut permettre à davantage de variations structurelles (en particulier des suppressions) d'être neutres. Un deuxième paramètre clé est la taille effective de la population, car des populations plus grandes produisent plus de mutations et peuvent accueillir une variation plus persistante en raison de la dérive. La taille effective de la population plus grande chez les plantes par rapport aux mammifères explique l'augmentation de plus de 10 fois de la variation persistante des nucléotides uniques.
Pour certains animaux liés à l'élevage de bétail agricole, il existe souvent de nombreuses souches/sous-espèces/variantes au même niveau intra-spécifique en raison d'interventions artificielles ou de la sélection environnementale naturelle. Les grandes différences de phénotypes et de génotypes entre ces populations avant et après la domestication peuvent être cachées dans le génome de chaque souche, il est donc particulièrement important d'avoir un pan-génome qui reflète la communauté au sein de ces souches animales et les différences entre les races.
En général, en plus de la construction du pan-génome, des gènes de base, des gènes dispensables et des gènes privés sont étudiés pour analyser les traits agronomiques liés aux espèces et les gènes fonctionnels. La variation structurelle est le principal axe de recherche sur le pan-génome, et des informations sur la variation structurelle telles que la PAV (variation de présence et d'absence), les inversions, les translocations et la variation du nombre de copies sont utilisées pour identifier les loci de variation clés qui causent des traits différents entre les souches. De plus, le pan-génome peut être combiné avec la régulation épistatique en 3D, évolution génétique des populations, analyse d'association à l'échelle du génome, co-expression transcriptionnelle, métabolites différentiels et construction et stockage de bases de données pour une exploration approfondie des données.
Références: