Analyse bioinformatique du génome des chloroplastes
Génome des Chloroplastes
Les chloroplastes sont une caractéristique omniprésente des plantes, abritant le génome chloroplastique, une molécule d'ADN circulaire à double brin. Une seule plante contient plusieurs chloroplastes, chacun hébergeant 12 molécules d'ADNcp.
La taille typique du génome chloroplastique d'une plante varie de 150 à 160 kb, tandis que les algues ont tendance à avoir des génomes légèrement plus petits, d'environ 80 à 100 kb. Ces génomes sont organisés en quatre régions distinctes : la Grande Copie Unique (LSC), la Petite Copie Unique (SSC) et deux régions de Répétition Inversée (IR) situées entre la LSC et la SSC. Avec l'avancement de la technologie de séquençage à haut débit à un rythme sans précédent, l'utilisation des chloroplastes comme moyen d'explorer l'origine, la structure et l'évolution des organites suscite un intérêt croissant.
Carte représentative du génome chloroplastique de Chrysosplenium. (Yang et al., 2023)
Analyse de Covariance en Génétique
La covariance, dans le contexte de la génétique, fait référence au phénomène de liaison des gènes. Elle se produit lorsque des gènes homologues sont disposés dans le même ordre sur les chromosomes de différentes espèces. L'étendue de la covariance entre deux espèces sert de métrique précieuse pour évaluer leur divergence évolutive et leur parenté génétique.
Réaliser une analyse de covariance implique l'étude de blocs de covariance spécifiques et localisés au sein des génomes. Cette analyse peut éclairer divers événements évolutifs, y compris les similarités, les réarrangements, les inversions et d'autres altérations génétiques qui ont eu lieu au cours de l'évolution des espèces.
Analyse de l'Arbre Phylogénétique
Un arbre phylogénétique, également connu sous le nom de phylogénie, est un diagramme ramifié qui représente visuellement les relations entre les espèces, nous permettant de comprendre leur histoire évolutive. L'analyse des arbres phylogénétiques sert plusieurs objectifs clés, y compris l'identification des connexions évolutives entre les espèces, la découverte des liens entre les séquences ancestrales et descendantes, et l'estimation du temps de divergence parmi un groupe d'espèces partageant un ancêtre commun.
Les génomes des organites, en raison de leur haute conservation, sont fréquemment utilisés pour construire des arbres phylogénétiques pour la classification et l'évaluation du statut évolutif des plantes et des animaux. Deux méthodes sont disponibles pour construire des arbres phylogénétiques d'organites :
- Construction d'Arbres Basée sur la Matrice SNP de Population : Cette approche implique la génération d'un arbre évolutif utilisant la matrice SNP de population dérivée d'échantillons et de génomes de référence. Pour chaque échantillon, tous les Polymorphismes de Nucleotide Unique (SNP) sont alignés dans le même ordre, produisant des séquences de même longueur au format fasta, y compris une séquence de référence. Ces séquences alignées sont ensuite utilisées comme données d'entrée pour construire l'arbre phylogénétique.
- Construction d'Arbres Basée sur les Gènes de Base : Dans cette méthode, les arbres phylogénétiques sont construits sur la base de gènes de base présents sous forme de gènes à copie unique dans le génome de l'organite. Les multiples séquences de ces gènes de base sont alignées à l'aide du logiciel MUSCLE v3.8.31, et les données d'alignement résultantes sont utilisées pour construire l'arbre évolutif, révélant les relations génétiques entre les espèces.
Détection des Variations Structurelles dans les Génomes Chloroplastiques
Le processus de détection des variations structurelles dans les génomes des organites englobe principalement trois types : Polymorphismes de Nucleotide Unique (SNP), Insertion/Suppression (InDel) et Variations Structurelles (SV). Comparer les génomes des organites d'espèces étroitement apparentées à des génomes de référence est une étape cruciale pour comprendre et analyser les variations présentes au sein des individus ou des populations.
- SNP (Polymorphisme de Nucleotide Unique)
Les SNP sont des variations dans les séquences d'ADN résultant d'un changement de nucléotide unique. Ces changements peuvent se produire au sein de gènes codants ou de séquences non codantes. Les SNP dans les régions codantes, connus sous le nom de SNP codants (cSNP), sont particulièrement importants car ils ont le potentiel d'impacter les attributs fonctionnels d'un individu.
- InDel (Insertion/Suppression)
InDel sert de terme collectif pour l'insertion et la suppression de séquences d'ADN. Dans un contexte plus spécifique, les InDel étroits font référence à des insertions ou suppressions relativement courtes, généralement comprises entre 1 et 10 paires de bases. Dans les régions codantes du génome, les événements InDel peuvent entraîner des mutations de décalage de cadre, des altérations dans les séquences d'acides aminés, et même la formation de pseudogènes. L'accent ici est mis sur l'analyse de ces variations InDel étroites.
- Variation Structurelle (SV)
Les Variations Structurelles englobent une gamme d'altérations génomiques telles que des suppressions, des insertions, des duplications, des inversions et des relocations ectopiques de fragments d'ADN au sein du génome. Pour identifier les SV, le logiciel MUMmer est utilisé pour comparer le génome de l'organite cible avec un génome de référence. Par la suite, LASTZ est utilisé pour effectuer des comparaisons région par région, permettant ainsi de localiser les SV dans le génome de l'organite grâce à l'analyse des résultats de comparaison.
Analyse des Gènes Communs et Spécifiques
Au sein d'un ensemble d'échantillons génétiques, les gènes partageant une homologie à travers tous les échantillons sont appelés 'gènes de base'. En revanche, les gènes qui ne sont pas communs après l'élimination des gènes de base sont classés comme 'gènes dispensables'. Les 'gènes spécifiques' désignent des gènes qui sont uniques à un échantillon particulier. Ces gènes partagés et spécifiques correspondent souvent aux attributs communs et aux caractéristiques distinctives des échantillons respectifs. Ils servent de base fondamentale pour explorer les disparités fonctionnelles entre les échantillons.
Analyse de la Préférence des Codons
La préférence des codons, également connue sous le nom de biais d'utilisation des codons, quantifie la probabilité relative qu'un codon spécifique apparaisse parmi les codons synonymes qui codent le même acide aminé. La valeur de la préférence des codons est généralement déterminée par le calcul de l'Utilisation Relative des Codons Synonymes (RSCU). L'étude des motifs d'utilisation des codons revêt une importance significative, car elle fournit des informations sur les pressions évolutives exercées sur les espèces et joue un rôle crucial dans l'avancement des investigations génétiques.
Analyse des Répétitions de Séquences Simples (SSR)
Les Répétitions de Séquences Simples (SSR), également connues sous le nom de microsatellites (MS), sont des fragments d'ADN caractérisés par la répétition de courtes séquences comprenant 1 à 6 nucléotides. Ces SSR sont abondants, hautement polymorphes, uniformément répartis dans le génome, co-dominants et relativement faciles à détecter. En conséquence, ils ont trouvé des applications étendues en tant que marqueurs moléculaires de deuxième génération dans divers domaines de recherche génétique, y compris le cartographie génétique, la localisation de gènes cibles, les enquêtes sur la diversité génétique, l'identification des ressources génétiques et l'élevage assisté par molécules. Les SSR sont un pilier de la recherche génétique, contribuant de manière significative à la construction de cartes génétiques et à l'identification des ressources.
Référence :
- Yang, Tiange, et al. "Une Analyse Complète du Génome Chloroplastique Fournit de Nouvelles Perspectives sur l'Évolution du Genre Chrysosplenium." International Journal of Molecular Sciences 24.19 (2023) : 14735.