Méthodes de détection et applications des mutations CNV

Qu'est-ce que le CNV ?

La variation du nombre de copies (CNV) fait référence à l'amplification ou à la réduction de grands segments au sein d'un génome, comprenant deux types clés : la délétion et la duplication. Cette variation structurelle génomique modifie la plasticité d'une entité biologique par des altérations de la dose génique et de l'architecture transcriptionnelle. La CNV constitue une pierre angulaire des bases génétiques contribuant à la diversité phénotypique et à l'adaptation évolutive tant au niveau individuel qu'au niveau des populations.

Au sein d'un génome, les formes de variation des CNV englobent principalement l'amplification, la délétion et les multiples répétitions de segments uniques, la duplication segmentaire (SD) étant la plus répandue. Caractéristiquement, les duplications segmentaires présentent plus de 90 % d'homologie de séquence entre les différentes copies. Une analyse comparative du génome intra-espèce peut efficacement mettre au jour des CNV qui impactent de manière significative le phénotype. Actuellement, les CNV sont définis comme des variations d'insertion ou de délétion de séquences génomiques allant de 50 paires de bases (pb) jusqu'à 5 méga paires de bases (Mb).

Mécanismes de formation des CNV

Les CNV représentent une forme de variations structurelles génomiques, qui peuvent être classées en deux niveaux en fonction de leur échelle : le niveau visible et le niveau sub-visible. Le niveau visible des variations structurelles génomiques se manifeste principalement sous forme d'aberrations chromosomiques observables au microscope. Cela inclut les polyploïdies ou aneuploïdies, les délétions, les insertions, les inversions, les translocations et les variants de sites fragiles parmi d'autres variations structurelles. Les CNV dans le génome peuvent se présenter sous plusieurs formes : les deux chromosomes homologues présentent simultanément une réduction du nombre de copies ; un chromosome homologue manque de copies tandis que l'autre est normal ; un chromosome homologue montre une duplication du nombre de copies tandis que l'autre est normal ; un chromosome homologue manque de copies tandis que l'autre montre une duplication du nombre de copies ; les deux chromosomes homologues présentent simultanément une duplication du nombre de copies.

D'autre part, les variations structurelles génomiques de niveau sub-visible font référence aux variations structurelles de segments d'ADN dans la plage génomique de 1Kb à 3Mb. Celles-ci incluent des délétions, des insertions, des duplications, des réarrangements, des inversions et des changements dans le nombre de copies d'ADN, collectivement appelés CNVs. Au départ, les CNVs ont été identifiés dans les génomes de patients. Cependant, des recherches ultérieures ont confirmé leur présence généralisée même dans la population normale, indiquant qu'ils constituent un ensemble de changements structurels génomiques d'importance clinique bénigne, pathogène ou inconnue. À l'heure actuelle, les mécanismes précis de formation des CNVs restent flous mais pourraient impliquer des mécanismes de recombinaison homologue non allèlique (NAHR) et de jonction d'extrémités non homologues (NHEJ).

Different types of copy number variations (CNVs) and an example of genome-wide detection of CNVs.Différents types de variations du nombre de copies (VNC) et un exemple de détection à l'échelle du génome des VNC.

Méthodes de détection des CNV

La détection des CNV, les approches prévalentes peuvent être bifurquées en deux grandes catégories : celles visant à la détection de CNV inconnus à travers tout le génome, et celles ciblant des CNV connus spécifiques à des loci. Pour la détection génomique des CNV inconnus, les techniques courantes comprennent les méthodes par puce et les méthodes de séquençage.

Les méthodes par puce englobent principalement les arrays de hybridation génomique comparative (aCGH) et les arrays de polymorphisme nucléotidique simple (SNP arrays). En revanche, les méthodes de séquençage de l'ADN incluent principalement le séquençage du génome entier (WGS) et le séquençage à longues lectures au niveau des molécules uniques.

Methods for genome-wide identification of copy number variations (CNVs).Méthodes pour l'identification à l'échelle du génome des variations du nombre de copies (VNC).

aCGH

aCGH est une technique biotechnologique utilisée pour détecter les variations dans le nombre de copies d'ADN entre deux échantillons. Le mécanisme opérationnel est le suivant : des quantités égales d'ADN de test et d'ADN de contrôle normal sont marquées avec des colorants fluorescents rouge et vert (tels que Cy5/Cy3), respectivement. Ces échantillons sont ensuite mélangés et hybridés de manière compétitive avec une puce ADN à génome entier. Après l'hybridation, la puce est scannée à l'aide d'un laser, permettant l'analyse de l'intensité lumineuse des spots rouges et verts. Par conséquent, cela permet la détection des CNV, offrant une perspective complète à l'échelle du génome.

puce SNP

Le puce SNP La technologie utilise une approche de hybridation unique, dans laquelle l'échantillon d'ADN en cours d'examen interagit avec le jeu de sondes fixé sur la matrice. Cette technique détermine le nombre de copies à chaque emplacement spécifique en contrastant les intensités de signal entre différents échantillons. Dans ce contexte, les sondes de SNP-array sont des séquences dérivées des sites SNP, permettant de fournir des informations critiques sur les SNP. En plus de détecter les CNV, cette méthode présente l'avantage distinct d'identifier la disomie uniparentale (UPD), la perte d'hétérozygotie (LOH) et le mosaicisme, élargissant ainsi le champ de l'examen génétique.

CNV-seq

La technologie CNV-seq utilise le séquençage à haut débit pour réaliser un séquençage du génome entier à faible profondeur de l'ADN de l'échantillon. Les résultats du séquençage sont ensuite comparés à une séquence de base du génome humain de référence. Grâce à analyse bioinformatiqueDes CNVs au sein des échantillons testés peuvent être révélés.

WGS

WGS, en utilisant des plateformes de séquençage à haut débit, réalise le séquençage de tous les gènes du génome d'un organisme, déterminant les séquences de bases de l'ADN. Cela permet de détecter une gamme complète de mutations à l'échelle du génome entier, y compris les variants de nucléotides uniques (SNVs), les insertions et les délétions (InDels), les CNVs et les variants structurels (SVs). Cependant, les contraintes des technologies de séquençage du génome entier résident dans leurs coûts de détection élevés, le volume considérable de données générées et le défi considérable de l'analyse des données.

WES

Séquençage de l'exome complet (WES) est une méthode d'analyse génomique qui utilise la technologie de capture de séquence pour extraire et enrichir l'ADN de l'ensemble de la région exomique d'un génome pour un séquençage à haut débit. Comparé au WGS, le WES est plus rentable et avantageux pour l'étude des SNP, INDEL, etc. des gènes connus. Les limitations de la technologie WES incluent une capture inégale, une couverture moindre des zones non codantes, une précision inférieure de la détection des CNV, et un potentiel de résultats faux négatifs et faux positifs.

Néanmoins, les rapports sur l'utilisation du séquençage d'exome entier (WES) pour la détection des CNV deviennent de plus en plus fréquents. Cette tendance est probablement attribuable à l'optimisation des algorithmes bioinformatiques et à l'amélioration de la profondeur de séquençage. Pour atténuer efficacement l'impact des erreurs systématiques, telles que le contenu en GC et la capture de séquences, la majorité des logiciels utilisés pour l'analyse WES nécessite des échantillons de référence. En contrastant ces échantillons de référence avec les échantillons test, des écarts peuvent être identifiés, contournant ainsi l'influence des erreurs systématiques. Dans la recherche en oncologie, les CNV somatiques peuvent être déterminés en comparant des échantillons de tissu tumoral avec des échantillons de tissu normal.

Contenu de l'analyse CNV

Les résultats de nombreuses études ont confirmé une relation étroite entre les CNV et les maladies complexes humaines, ainsi que des traits économiques clés chez les animaux et les plantes. Comparés aux SNP à base unique, les CNV ont des longueurs plus longues, couvrent une gamme plus large de séquences géniques et ont le potentiel de modifier les phénotypes par le biais d'effets de dosage génique. Avec l'augmentation de la précision, l'expansion des données et la diminution des coûts de séquençage du génome entierla détection des CNV à haut débit et à grande échelle a connu des avancées rapides. De plus, avec le raffinement continu de Études d'association à l'échelle du génome (GWAS) Des méthodes et des conditions sont mises en place pour l'excavation de CNV plus fiables et fonctionnellement pertinents grâce à la CNV-GWAS. Cela ouvre la voie à l'exploration ultérieure des mécanismes moléculaires des CNV pertinents phénotypiquement et à leur application dans le domaine de la sélection.

Résultats et statistiques de détection des CNV

L'examen des résultats de détection des CNV et des statistiques associées, représenté avec précision par des graphiques en colonnes, illustre la distribution de divers CNV selon différentes longueurs de fragments. Comme le montre la figure référencée, un total de 51 461 événements CNV (avec une moyenne de 24 729 événements de gain et 26 732 événements de perte) a été identifié parmi les 48 individus examinés. Le nombre moyen de CNV par individu s'élevait à 1072, avec une distribution approximative de 557 événements de gain et 515 événements de perte. Le nombre moyen d'événements CNV spécifiques par individu a été enregistré à 107.

Figure 2 CNV size interval distributionFigure 2 Distribution des intervalles de taille des CNV

Carte du génome entier CNVR

La région CNV (CNVR) fait référence à une zone de chevauchement de CNVs détectés entre différents individus. Les CNVs qui se chevauchent sont intégrés et combinés en un seul CNVR. Comme montré dans la Figure 3, les CNVs de 47 vaches ont été fusionnés, identifiant un total de 1 043 CNVRs, couvrant collectivement 44,63 Mb, représentant environ 2,06 % de la séquence du génome typique de la vache. La distribution des CNVRs connus sur les chromosomes est présentée dans la Figure 3, où 702 sont de type perte, 270 de type gain, et 71 appartiennent au type complexe (les deux, CNVR contenant simultanément gain et perte). La quantité de CNVs de type perte est environ 2,6 fois celle de type gain. En ce qui concerne la longueur, le CNVR le plus long mesure 2 111 937 pb, et le CNVR le plus court mesure 3 600 pb. Cette étude a établi une carte précise des CNVRs du génome entier pour les vaches Holstein.

Figure3 Genomic distribution of CNVRsFigure 3 Distribution génomique des CNVRs

Structure génétique des populations et diversité génétique

L'investigation de la structure génétique et de la diversité au sein des populations des espèces de Caprinae a été réalisée en utilisant un ensemble génomique de polymorphismes mononucléotidiques (SNP) identifiés sur les autosomes, à partir desquels des distances génétiques entre individus ont été calculées. Un arbre phylogénétique construit en utilisant la méthode du Neighbor-Joining (NJ) (Fig. 5B) a discerné le Bezoar - une souche de chèvre sauvage iranienne - et les chèvres domestiques comme des branches distinctes, avec cette dernière se subdivisant par origine géographique.

L'analyse de la structure génétique utilisant le logiciel ADMIXTURE (Fig. 5C) a montré une différenciation en trois lignées majeures lorsque K=3 pour les populations de chèvres Bezoar et domestiques. Avec K=6, quatre lignées significatives ont été observées au sein des populations de chèvres domestiques. Afin de mieux délimiter la structure génétique inhérente à ces chèvres domestiques, une analyse en composantes principales (ACP) a été réalisée avec les données SNP de ces populations (Fig. 5D). Les résultats étaient intrigants - PC1 et PC2 ont catégorisé les populations domestiques en quatre sous-groupes individuels en fonction des origines géographiques : chèvres domestiques européennes (EUR), chèvres domestiques africaines (AFR), chèvres domestiques d'Asie du Sud-Ouest (SWA-SAS) et chèvres domestiques d'Asie de l'Est (EAS).

Figure5 Geographic distribution and genetic affinities of wild and domestic goatsFigure 5 Distribution géographique et affinités génétiques des chèvres sauvages et domestiques

Analyse d'association à l'échelle du génome (GWAS) basée sur les CNV

En utilisant les caractéristiques des traits et les génotypes CNV, nous appliquons divers modèles pour effectuer une analyse GWAS. Après avoir terminé l'analyse GWAS à travers ces différents modèles, des graphiques QQ sont utilisés pour comparer la distribution des valeurs P réelles et des valeurs P théoriques dans divers scénarios afin de déterminer les résultats d'analyse optimaux. Après avoir déterminé le modèle optimal, des corrections pour tests multiples sont appliquées pour confirmer les seuils de valeurs P significatives. Cela permet de sélectionner des régions significatives et de filtrer les gènes associés aux loci CNV. Après avoir obtenu ces gènes candidats, nous procédons à une annotation fonctionnelle et à une analyse d'enrichissement. Comme le montre la Figure 6, notre analyse GWAS basée sur l'héritabilité de la survie des porcelets et les CNV a détecté 16 régions situées sur les chromosomes 2, 3, 4, 11, 12, 13, 14, 15, 16 et 17, représentant 22,54 % de la variance phénotypique génétique.

Figure6 Manhattan plot of the GWAS Analysis of Surviving Piglet Number TraitFigure 6 : Graphique de Manhattan de l'analyse GWAS du trait Nombre de porcelets survivants

Des régions significatives des analyses GWAS et CNVR ont été déterminées sur SSC2, SSC3, SSC12 et SSC17, qui contenaient collectivement 56 gènes codants. Ces gènes, comme indiqué dans le tableau 1, affectent le nombre de porcelets survivants par la variation du dosage génique.

detection-methods-and-applications-of-cnv-mutation

Analyse VST

Vst (statistiques de variante), similaire à Fst, sert de mesure statistique de l'étendue des différences de CNVR entre les populations. Le calcul utilise la formule Vst = (Vt - Vs) / Vt, où Vt représente l'écart type du nombre de copies dans la région pour tous les échantillons, et Vs représente la somme des écarts types individuels des deux populations, chacun pondéré en fonction de la taille de la population. Les valeurs de Vst varient de 0 à 1 ; une valeur plus élevée indique une plus grande divergence dans la variante de nombre de copies dans le groupe, tandis qu'une valeur plus basse implique le contraire.

Comme le montre la Figure 7, la valeur moyenne de Vst pour CN par rapport à WL est de 0,11, tout comme la valeur pour CN par rapport à RIR, tandis que la comparaison WL par rapport à RIR donne une moyenne de Vst de 0,15, suggérant un degré de divergence plus élevé. De plus, en sélectionnant des gènes provenant de CNVRs où Vst > 0,79 et en réalisant une annotation fonctionnelle et une analyse d'enrichissement, nous constatons une implication principale dans le développement des organes, le métabolisme et la régulation immunitaire. Cette recherche offre des perspectives précieuses sur les caractéristiques génétiques de la volaille au niveau des CNV, pouvant fournir des informations utiles pour les stratégies d'élevage de poules.

Figure7 Manhattan plot of the genomic Vst values for distinct chicken clustersFigure 7 : Graphique de Manhattan des valeurs Vst génomiques pour des clusters de poules distincts.

Analyse Bayescan

L'analyse Bayescan est utilisée dans la présente étude. Bayescan utilise des méthodes bayésiennes et la distribution empirique de Fst pour détecter des marqueurs aberrants, une technique généralement appliquée lors de la sélection de loci différentiels dans des groupes comparatifs avec des informations de regroupement géographique ou d'autres types. Dans cette recherche, sur la base des informations de regroupement de l'ensemble d'échantillons, Bayescan a été utilisé pour la détection de loci différentiels.

À l'issue du processus de détection, une évaluation de convergence itérative et une filtration des valeurs aberrantes ont été réalisées à l'aide de scripts R. Les valeurs aberrantes détectées ont ensuite été considérées comme des CNVRs candidats (Régions de Variation du Nombre de Copies). La figure 8 présente le résultat de la détection des valeurs aberrantes par Bayescan :

detection-methods-and-applications-of-cnv-mutation

Références :

  1. Lupski JR, Stankiewicz P. Troubles génomiques : mécanismes moléculaires des réarrangements et des phénotypes associés. PLoS Génétique. Déc 2005;1(6):e49.
  2. Implications cliniques des variations du nombre de copies dans les troubles auto-immuns FAU - Yim, Seon-Hee FAU - Jung, Seung-Hyun FAU - Chung, Boram FAU - Chung, Yeun-Jun. Korean J Intern Med, 2015. 30(3) : p. 294-304.
  3. Liu, M., Fang, L., Liu, S. et al. Détection des régions CNV basée sur l'Array CGH et leur association potentielle avec la reproduction et d'autres caractéristiques économiques chez les Holsteins. BMC Genomics 20, 181 (2019).
  4. Stafuzza, N.B., Silva, R.M.d., Fragomeni, B.d. et al. Une analyse des polymorphismes nucléotidiques simples à l'échelle du génome et des variations du nombre de copies pour le nombre de porcelets nés vivants. BMC Genomics 20, 321 (2019).
  5. Seol D, Ko BJ, Kim B, Chai H-H, Lim D, Kim H. Identification de variations du nombre de copies chez le poulet domestique par séquençage du génome entier révèle des preuves de sélection dans le génome. Animaux2019 ; 9(10) : 809.
  6. Kvist L, Honka J, Niskanen M, et al. Sélection chez le Finnhorse, une race de chevaux polyvalents autochtone. Journal de la reproduction animale et de la génétique, 2020.
  7. Wang, H., Chai, Z., Hu, D. et al. Une analyse globale des CNV dans diverses populations de yacks utilisant le séquençage de génome entier. BMC Genomics 20, 61 (2019).
  8. Zhuqing Zheng et al., L'origine des gènes de domestication chez les chèvres. Sci. Avancé.6,eaaz5216(2020).
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut