Une revue du pangenome des cultures

Avec le développement continu de technologie de séquençage du génomeDe plus en plus d'espèces ont achevé le déchiffrement de l'ensemble du code génomique, ce qui est important pour des recherches approfondies sur la localisation des gènes fonctionnels et la domestication d'une espèce, basé sur l'analyse complète des informations génomiques. Cependant, au cours du long processus évolutif des espèces, en raison de l'influence de la sélection naturelle et humaine, chaque individu a développé des traits génétiques extrêmement uniques, et le génome de référence d'un seul individu ne peut plus couvrir toutes les informations génétiques de l'espèce. En d'autres termes, si un seul génome de référence est utilisé pour l'étude de la variation génétique, de nombreuses informations sur le code génétique intentionnel peuvent être perdues, car de nombreuses séquences uniques ne figurent pas dans le génome de référence. De plus, le coût du séquençage des gènes étant devenu moins cher, cela a ouvert la possibilité d'études sur le pan-génome, en particulier dans les études sur les cultures telles que le riz, le maïs, le soja, la tomate, le coton, le colza, l'Arabidopsis, etc. Cela est progressivement devenu universel.

The concept of the pangenome and super-pangenome and their use for crop improvement.Le concept de pangenome et de super-pangenome et leur utilisation pour l'amélioration des cultures. (Khan et al., 2020)

Histoire du pan-génome

Le pan-génome est un terme général désignant l'ensemble des gènes d'une espèce, qui se distingue des gènes des génomes individuels. En 2005, Tettelin H et al. ont d'abord proposé le concept de pan-génome microbien (pan venant du grec 'παν' signifiant tout), qui est un terme général pour tous les gènes d'une espèce. En 2009, Li et al. ont utilisé pour la première fois la nouvelle méthode d'assemblage de génomes complets pour assembler plusieurs génomes humains et ont découvert les séquences d'ADN uniques et les gènes fonctionnels des individus, et ont proposé pour la première fois le concept de "pan-génome humain", c'est-à-dire la somme des séquences génétiques des populations humaines. En 2013, le séquençage du pan-génome a été appliqué à la recherche sur les plantes et les animaux ; en 2014, la recherche sur le pan-génome des cultures, telles que le soja, le riz, le maïs, le colza, le coton, etc., a été lancée.

Le contenu principal de recherche des études sur le pan-génome

Le contenu principal de la recherche sur le pan-génome implique l'analyse et la caractérisation du génome central et du génome dispensable des souches de plantes et d'animaux. Le génome central se compose de gènes présents dans toutes les souches, et ils contrôlent généralement les fonctions métaboliques de base des organismes. D'autre part, le génome dispensable ou variable comprend des gènes présents dans une ou plusieurs souches, et ils peuvent contribuer à des traits divers tels que la résistance aux maladies ou la résistance au froid.

Recherche sur le pan-génome se concentre sur la compréhension de la variation structurelle au sein du génome dispensable. Les variations structurelles font référence aux différences dans l'arrangement, la taille ou la présence/absence de matériel génétique, telles que les duplications, les délétions, les inversions ou les insertions. Ces variations structurelles peuvent avoir des implications significatives pour la diversité phénotypique observée chez les individus.

Pour étudier la variation structurelle au sein du pan-génome, les chercheurs utilisent souvent technologies de séquençage à lecture longue comme la technologie PacBio SMRT ou la technologie Nanopore. Ces technologies offrent des avantages en termes d'assemblage du génome et de détection des variations structurelles. Elles peuvent fournir des lectures longues, ce qui permet l'assemblage de régions génomiques complexes difficiles à résoudre avec des technologies de séquençage à lectures courtes. De plus, elles facilitent l'identification des variations structurelles à haute résolution, aidant les chercheurs à comprendre leur impact sur la diversité génétique et les traits phénotypiques.

En enquêtant sur le pan-génome et ses variations structurelles, les chercheurs visent à découvrir la base génétique de divers traits et à comprendre les mécanismes sous-jacents à l'adaptation, à l'évolution et à la susceptibilité aux maladies dans les populations de plantes et d'animaux. Ces connaissances peuvent avoir des applications pratiques dans des domaines tels que l'amélioration des cultures, les programmes de sélection et la médecine personnalisée.

Sélection de Matériaux du Pan-Génome des Cultures

Nombre de matériaux

L'un des principaux déterminants de la taille du pan-génome est le pourcentage de gènes non centraux, qui peut varier de 8 % à 61 % dans les études sur le pan-génome des cultures. La taille de l'échantillon joue un rôle essentiel dans de telles études. Au départ, à mesure que le nombre d'individus avec des gènes nouvellement identifiés augmente, le pan-génome s'élargit. Cependant, cette expansion s'accompagne d'une diminution de la proportion de gènes centraux.

Caractéristiques des matériaux

La sélection des matériaux a une influence profonde sur l'efficacité et l'intégrité des études sur le pan-génome. Deux caractéristiques cruciales méritent d'être soulignées : (1) Proximité des parents : Choisir des matériaux étroitement liés tend à sous-estimer la taille du pan-génome. Il est donc important d'inclure une gamme diversifiée d'individus pour obtenir une compréhension complète du paysage génétique de la culture. (2) Combinaison de germoplasme sauvage et cultivé : La combinaison de germoplasme sauvage et cultivé aboutit à un pan-génome de taille plus grande, avec une proportion de gènes non centraux significativement plus élevée par rapport à l'utilisation de germoplasme cultivé seul. L'incorporation de matériaux sauvages renforce la diversité et l'inclusivité du pan-génome.

Dans la recherche sur les cultures, l'identification de nouveaux gènes tend à diminuer à mesure que le nombre de matériaux d'étude séquencés augmente. Cela suggère qu'il existe un nombre fini de génomes au-delà duquel une inclusion supplémentaire ne conduit pas à une expansion supplémentaire du pan-génome. De plus, lors de la domestication des cultures, le manque de diversité génétique affecte négativement la taille du pan-génome et la proportion de gènes non essentiels. L'augmentation de l'inclusion de matériaux sauvages peut aider à atténuer ce problème en élevant le pourcentage de gènes essentiels dans le pan-génome. Les cultures avec une réduction limitée de la diversité pendant la domestication tendent à présenter une proportion plus élevée de gènes non essentiels. La proportion de gènes non essentiels est un indicateur de la diversité des espèces et peut être influencée par des facteurs tels que le niveau de ploïdie, le mode de reproduction et les périodes de goulot d'étranglement pendant la domestication. Des niveaux de ploïdie plus élevés et des taux d'hybridation hétérozygotes contribuent à une diversité accrue et à une tolérance aux mutations délétères, ce qui entraîne un pan-génome avec un pourcentage plus élevé de gènes non essentiels.

Construction du pan-génome

La construction d'un pan-génome tourne autour de l'identification des variations de présence ou d'absence de gènes parmi les individus. Cela implique de séparer des séquences similaires en allèles distincts, copies supplémentaires ou gènes non essentiels. Le défi réside dans la difficulté de discerner les variations inter-individuelles en raison des similarités de séquence. Par conséquent, rassembler des informations sur la localisation physique et l'ordre des gènes dans le génome assemblé devient crucial. Il existe trois méthodes principales utilisées pour construire un pan-génome : itérative, cartographie vers le pan, et Assemblage de novo.

Les méthodes itérative et map-to-pan impliquent l'identification des variations de présence/absence (PAV) des gènes en comparant des lectures courtes au génome annoté. En revanche, la méthode d'assemblage De novo est utilisée pour inférer davantage les PAV des gènes en comparant les gènes assemblés avec ceux annotés. En conséquence, cette méthode fournit des informations plus précises sur le pan-génome. Cependant, obtenir des génomes de haute qualité d'assemblage par l'assemblage De novo nécessite une profondeur de séquençage élevée, ce qui entraîne un coût significatif.

D'autre part, les techniques d'assemblage itératif et de cartographie vers le pan permettent de réaliser des études sur le pan-génome à des profondeurs de séquençage relativement faibles, réduisant ainsi les coûts et permettant un plus grand nombre d'échantillons individuels pour la sélection. En plus de la méthode d'assemblage, le nombre d'individus et les relations génétiques entre eux jouent un rôle crucial dans l'assurance de l'exhaustivité des études sur le pan-génome. Ils déterminent également l'exactitude de l'estimation de la taille du pan-génome.

Les avancées dans les technologies de séquençage, en particulier les techniques de séquençage à longues lectures et les méthodes d'assemblage, ont considérablement réduit le coût de l'obtention d'un assemblage de novo de haute qualité. Cela facilitera à son tour les futures études utilisant des méthodes d'assemblage de novo.

Référence :

  1. Khan, Aamir W., et al. "Super-pangenome en intégrant le côté sauvage d'une espèce pour un amélioration accélérée des cultures." Tendances en science des plantes 25.2 (2020) : 148-158.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut