Analyse du pan-génome représente un changement de paradigme dans les plantes génomique, permettant une caractérisation complète de la diversité génétique au niveau des espèces. En combinant des régions génomiques centrales et variables, il surmonte les limitations des génomes de référence uniques. Nous discutons de la méthodologie du pan-génome et de ses applications dans l'étude de la variation génétique des plantes, de l'histoire de la domestication, de l'amélioration des cultures et de la génomique fonctionnelle.
Le pan-génome représente l'ensemble du répertoire génomique d'une espèce, comprenant à la fois des séquences centrales conservées (présentes universellement dans tous les accès) et des composants accessoires variables (présents dans des lignées spécifiques). Initialement développé pour la génomique prokaryote, ce cadre a été adapté avec succès aux systèmes eucaryotes, avec des études pionnières sur le pan-génome des plantes émergentes de la recherche sur le soja. Des investigations ultérieures ont élargi les analyses pan-génomiques à des cultures majeures, y compris Oryza sativa, Solanum lycopersicum et Triticum aestivum. Cette approche s'avère particulièrement précieuse pour les systèmes végétaux compte tenu de leurs variations structurelles étendues, des événements fréquents de polyploïdisation et des éléments répétitifs abondants - des caractéristiques que les génomes de référence uniques conventionnels échouent souvent à représenter de manière adéquate.
Figure 1. Modèles de pangenome et construction d'un graphique de pangenome. (Ze-Zhen Du, et al., 2025)
Services qui pourraient vous intéresser
En savoir plus
La construction du pan-génome nécessite l'intégration systématique de plusieurs assemblages génomiques par le biais de deux méthodologies principales : les stratégies guidées par référence et de novo. La méthode basée sur la référence aligne les génomes constitutifs contre une séquence de référence établie, incorporant ensuite les variants détectés dans la structure du pan-génome. Cette approche démontre une utilité optimale lorsqu'elle s'appuie sur des génomes de référence de haute qualité comme échafaudages organisationnels. En revanche, la méthodologie de novo assemble indépendamment les génomes individuels avant leur consolidation en un pan-génome complet. Bien que cette stratégie soit intensivement computationnelle, elle s'avère particulièrement efficace pour des taxons génétiquement divers ou lorsque des génomes de référence ne sont pas disponibles. Le choix entre ces approches nécessite une considération attentive des ressources génomiques existantes et de la capacité computationnelle disponible.
Les pan-génomes basés sur des graphes représentent les variations génétiques sous forme de nœuds et d'arêtes dans une structure graphique. Cette approche permet une intégration efficace de plusieurs génomes et la représentation de variations complexes, telles que les variants structurels (SV) et les variations de présence-absence (PAV). Des outils comme Minigraph et PGGB ont été développés pour construire des pan-génomes basés sur des graphes, permettant un alignement de lecture et un appel de variants plus précis par rapport aux pan-génomes linéaires traditionnels. Les pan-génomes basés sur des graphes peuvent gérer plusieurs haplotypes et des régions génomiques complexes de manière plus efficace, les rendant particulièrement utiles pour les génomes de plantes avec des niveaux élevés de séquences répétitives et de variations structurelles.
Les pan-génomes facilitent la détection d'un large éventail de variantes génétiques, y compris les polymorphismes nucléotidiques simples (SNP), les insertions/délétions (indels) et les variations structurelles (SV). Appel de variantes dans les pan-génomes implique d'aligner les lectures de séquençage au graphe du pan-génome et d'identifier les différences entre les lectures et les séquences de référence. Génotypage attribue des allèles spécifiques aux individus en fonction des variants détectés. Des outils comme vg, GraphTyper et BayesTyper ont été développés pour effectuer l'appel de variants et le génotypage dans des contextes de pan-génome. Ces outils peuvent gérer des variations complexes et fournir des résultats de génotypage plus précis, en particulier dans les régions à forte diversité génétique et aux séquences répétées.
Dans une étude révolutionnaire publiée dans Genome Biology, Wang et al. (2023) ont développé un nouveau pipeline d'analyse de pangenome appelé PSVCP (Pipeline d'Appel de Variation de Présence/Absence) pour construire un pangenome de riz de haute qualité et explorer ses applications dans l'identification fonctionnelle des gènes. Cette étude de cas met en évidence le potentiel de l'analyse de pangenome pour découvrir la diversité génétique et améliorer la sélection des cultures.
Contexte
Le riz (Oryza sativa L.) est un aliment de base pour près de la moitié de la population mondiale. Pour répondre à la demande croissante de production alimentaire face au changement climatique, il est crucial d'améliorer la productivité du riz grâce à la sélection assistée par la génomique. L'analyse génétique traditionnelle utilisant un seul génome de référence conduit souvent à des biais, en particulier lorsqu'il s'agit de variations structurelles significatives (SVs) entre les individus. Les pan-génomes, qui représentent la diversité génétique complète au sein d'une espèce, offrent une approche plus complète pour capturer les variations génomiques.
Figure 2. Caractéristique du pangenome du riz. (Jian Wang, et al., 2023)
Méthodes
Les chercheurs ont utilisé une stratégie d'alignement itératif pour construire un pangenome de riz linéarisé avec 12 génomes de riz représentatifs. Ils ont ensuite cartographié des données de séquençage à lecture courte provenant de 413 accès de riz divers à ce pangenome pour détecter des variations de présence/absence (PAV), des translocations et des inversions. Le pipeline comprenait trois étapes principales : (1) identifier de nouveaux segments et les intégrer dans le génome de référence, (2) cartographier les lectures de séquençage au pangenome pour détecter les PAV, et (3) appeler les SV en fonction du pangenome.
Résultats
Le pangenome de riz construit comprenait 24 585 séquences nouvelles, avec 1 250 translocations potentielles et 3 326 inversions. Le taux de cartographie moyen au pangenome était de 97,84 %, significativement plus élevé que le taux de cartographie de 93,05 % au génome de référence Nipponbare. Cela indiquait que le pangenome capturait plus de diversité génétique qu'un seul génome de référence. L'étude a identifié 11 617 gènes dispensables parmi les 413 accès de riz, avec des fonctions liées à la photosynthèse, à la réponse de défense et à la pathogénie.
Identification des gènes fonctionnels
Les chercheurs ont mené une étude d'association à l'échelle du génome (GWAS) en utilisant à la fois des SNP et des PAV. Pour le poids de mille grains (TGW), le SNP-GWAS a identifié 354 associations significatives, mais le PAV-GWAS a directement mis en évidence les variations causales. De même, pour la hauteur des plantes (PH), le PAV-GWAS a identifié un nouveau locus (qPH8-1) non détecté par le SNP-GWAS. Ce locus contenait une insertion de 13 kb associée à des différences significatives de hauteur des plantes.
Conclusions
Le pipeline PSVCP a démontré la puissance de l'analyse du pan-génome pour capturer la diversité génétique et identifier les gènes fonctionnels. Le pan-génome du riz construit dans cette étude fournit des ressources précieuses pour les futures recherches en génomique du riz et le breeding. La capacité à identifier les PAVs causals pour des traits agronomiques importants souligne le potentiel des approches de pan-génome pour accélérer l'amélioration des cultures et relever les défis de la sécurité alimentaire mondiale.
Les pan-génomes ont été essentiels pour identifier des loci fonctionnels associés à la domestication et à la sélection des cultures. Par exemple, un PAV de 10 kb dans le génome du soja a été trouvé pour contrôler la variation des grappes de graines. Dans le riz, des études d'association à l'échelle du génome (GWAS) basées sur des SV ont identifié des SV fonctionnels candidats liés à des traits tels que la sénescence des feuilles. Ces études démontrent que les pan-génomes peuvent capturer des variations génétiques manquées par les approches conventionnelles, améliorant ainsi les efforts de sélection et la compréhension de la diversité génétique au sein des espèces végétales. En intégrant des données de pan-génome dans les programmes de sélection, les chercheurs peuvent identifier et sélectionner des traits souhaitables plus efficacement, conduisant à des variétés de cultures améliorées avec un rendement accru, une résistance aux maladies et une tolérance au stress.
Figure 3. Structure génique de ZmAnn3 (a) et ZmAnn10 (b) dans 26 génomes de maïs. (Liu, X, et al., 2025)
Contexte
Les annexines (Anns) sont une famille de protéines liant les phospholipides et dépendantes du calcium, qui jouent des rôles critiques dans la croissance, le développement et les réponses au stress des plantes. Comprendre les mécanismes génétiques sous-jacents à ces fonctions est essentiel pour améliorer la productivité des cultures et la tolérance au stress. Cette étude s'appuie sur le pan-génome de 26 génomes de maïs de haute qualité pour analyser de manière exhaustive la famille des gènes d'annexines, y compris leurs schémas évolutifs, leurs profils d'expression et leurs rôles dans les réponses au stress.
Méthodes
Les chercheurs ont utilisé HMMER et Blastp pour identifier les gènes annexines dans le pan-génome du maïs, identifiant 12 gènes ZmAnn, dont 9 gènes principaux et 3 gènes quasi-principaux. Une analyse phylogénétique a été réalisée en utilisant un modèle de voisinage, et les valeurs Ka/Ks ont été calculées pour évaluer les pressions de sélection. L'étude a également analysé les éléments cis-régulateurs et les variations structurelles (SV) dans les régions promotrices de ces gènes. Des données de transcriptome provenant de divers tissus de maïs soumis à un stress de froid ont été utilisées pour l'analyse d'expression et la construction de réseaux de co-expression.
Résultats
L'étude a identifié 12 gènes ZmAnn, avec 9 gènes principaux présents dans les 26 lignées de maïs et 3 gènes presque principaux dans 24 à 25 lignées. L'analyse Ka/Ks a révélé que ZmAnn10 était sous sélection positive dans certaines variétés, tandis que les gènes restants montraient une sélection purificatrice. L'analyse phylogénétique a divisé les protéines ZmAnn en six groupes, le groupe VI ne contenant que ZmAnn12. Des variations structurelles ont été trouvées, modifiant des domaines conservés et générant des gènes atypiques. L'analyse du transcriptome a montré des motifs d'expression distincts pour différents membres d'Ann dans divers tissus et sous différents traitements de stress. L'analyse de réseau de co-expression génique pondérée a identifié quatre gènes Ann (ZmAnn2, ZmAnn6, ZmAnn7, ZmAnn9) impliqués dans des modules de co-expression sous stress froid.
Conclusions
Cette étude analyse de manière exhaustive la famille de gènes des annexines chez le maïs, mettant en évidence leur conservation évolutive et leur diversité fonctionnelle. L'identification des gènes essentiels et presque essentiels ainsi que des informations sur leurs motifs d'expression et leurs rôles dans les réponses au stress souligne l'importance de l'analyse du pan-génome pour découvrir la diversité génétique et les mécanismes fonctionnels. Les résultats suggèrent que certains gènes ZmAnn, tels que ZmAnn2 et ZmAnn7, jouent des rôles significatifs dans la tolérance au stress froid, offrant potentiellement de nouvelles cibles pour le développement de variétés de maïs avec une résistance accrue au stress.
La construction et l'analyse des pan-génomes nécessitent des ressources informatiques importantes, en particulier pour les génomes de plantes grands et complexes. Le développement d'algorithmes et d'outils plus efficaces adaptés aux génomes de plantes est essentiel pour relever ce défi. Les outils actuels ont souvent du mal avec la forte utilisation de la mémoire et les longs temps d'exécution nécessaires à la construction de graphes de pan-génomes et à l'appel de variants et au génotypage. Les avancées futures dans les méthodes informatiques et le matériel seront cruciales pour étendre les analyses de pan-génomes à des milliers de génomes.
La détection et la représentation précises des variations structurales (SV) dans les pan-génomes restent un défi en raison de leur complexité et de la présence de séquences répétées. Améliorer la résolution et l'exactitude de la détection des SV renforcera l'utilité des pan-génomes dans la génomique des plantes. Les méthodes actuelles échouent souvent à capturer pleinement les SV dans les régions répétées, conduisant à des représentations incomplètes ou inexactes de la diversité génétique. Le développement de nouveaux outils et techniques bioinformatiques capables de mieux gérer les séquences répétées et les SV complexes sera essentiel pour faire progresser les études sur les pan-génomes chez les plantes.
L'intégration des données du pan-génome avec d'autres données omiques, telles que transcriptomique et épigénomique, fournira une compréhension plus complète de la biologie des plantes. Cette approche intégrative aidera à élucider l'impact fonctionnel des variations génétiques et leurs rôles dans le développement des plantes et les réponses au stress. Les efforts actuels en matière d'intégration multi-omiques en sont encore à leurs débuts, et davantage de travaux sont nécessaires pour développer des méthodes robustes pour combiner et analyser ces ensembles de données divers. Les études futures devraient se concentrer sur le développement de pipelines bioinformatiques intégratifs capables d'exploiter tout le potentiel des données du pan-génome en combinaison avec d'autres données omiques.
Les pan-génomes ont émergé comme un outil puissant en génomique végétale, offrant une représentation plus complète de la diversité génétique par rapport aux génomes de référence traditionnels. Ils ont facilité la découverte de variations génétiques auparavant cachées, fourni des informations sur la domestication et l'élevage des cultures, et permis l'identification de gènes fonctionnels. Malgré les défis, les avancées continues dans les technologies de séquençage et les outils de bioinformatique continueront d'améliorer les applications des pan-génomes dans la recherche et l'élevage des plantes, contribuant finalement à la sécurité alimentaire mondiale et à l'agriculture durable. Les travaux futurs devraient se concentrer sur le développement de méthodes computationnelles plus efficaces, l'amélioration de la précision de la détection des variations structurelles (SV) et l'intégration des données de pan-génome avec d'autres données omiques pour obtenir une compréhension holistique de la biologie des plantes.
Références :