Analyse de la Variation du Nombre de Copies (VNC)

Aperçu rapide

01 Qu'est-ce que la variation du nombre de copies (CNV) ? 02 Analyse CNV par séquençage 03 Détection des CNV dans la recherche sur le cancer 04 Analyse CNV : Un guide étape par étape 05 Bases de données pour l'analyse des variations du nombre de copies

Qu'est-ce que la variation du nombre de copies (CNV) ?

La variation du nombre de copies (VNC) est un type de variation structurelle génomique qui englobe les modifications du nombre de copies d'un segment d'ADN particulier. Ces variations sont largement classées en deux niveaux en fonction de leur taille : microscopique et submicroscopique.

Les variations structurelles génomiques microscopiques sont observables au microscope et incluent des aberrations chromosomiques telles que l'aneuploïdie, les délétions, les insertions, les inversions, les translocations et les disruptions de sites fragiles. Les CNV se manifestent sous diverses formes au sein du génome, y compris la suppression simultanée de copies sur les deux chromosomes homologues, la suppression sur un chromosome homologue avec l'autre restant normal, et la duplication de copies sur un chromosome homologue tandis que l'autre reste normal.

Types of copy number variants (CNVs). (Mollon et al., 2023) Types de variants du nombre de copies (VNC). (Mollon et al., 2023)

D'autre part, des variations structurelles génomiques submicroscopiques se produisent au niveau des fragments d'ADN dans la plage de 1Kb à 3Mb. Ces variations incluent des délétions, des insertions, des duplications, des réarrangements, des inversions et des changements dans le nombre de copies d'ADN, collectivement appelés CNV.

Initialement découvertes dans les génomes des patients, les CNV se sont révélées être répandues dans les populations humaines normales également, suggérant un spectre de signification clinique allant de bénigne à pathogène ou inconnue. Le mécanisme précis derrière la formation des CNV reste flou, mais les mécanismes potentiels incluent la recombinaison homologue non allèlique (NAHR) et la jonction d'extrémités non homologues (NHEJ).

Les technologies de pointe, telles que le séquençage à haut débit et le séquençage à longues lectures, utilisées par CD Genomics, facilitent la détection des CNV et le génotypage. Cette approche de séquençage avancée permet un examen complet et efficace du matériel génétique, fournissant des informations précieuses sur le paysage moléculaire et les biomarqueurs potentiels associés à diverses conditions.

Analyse CNV par séquençage

La détermination du nombre de copies des fragments cibles par séquençage en profondeur des lectures constitue une méthode puissante capable de détecter simultanément des CNV multi-gènes et d'autres biomarqueurs. Cependant, l'efficacité de cette approche est influencée par une myriade de facteurs, y compris la conception du panel, le contenu en GC des sondes, le contenu tumoral et les niveaux de contamination, qui impactent tous l'exactitude du modèle algorithmique.

Le séquençage à lecture courte et à lecture longue offre une vue d'ensemble des altérations génomiques, permettant aux chercheurs de discerner les variations du nombre de copies avec précision. En analysant la profondeur des lectures à travers les fragments cibles, les chercheurs peuvent révéler des altérations dans le nombre de copies, éclairant ainsi le paysage génomique d'intérêt.

Malgré son potentiel, l'efficacité du séquençage dépend d'une prise en compte soigneuse de divers facteurs. La conception du panel joue un rôle crucial dans la détermination des régions d'intérêt et dans l'assurance d'une couverture complète à travers le génome. De même, le contenu en GC des sondes influence l'efficacité de la capture des cibles et du séquençage, affectant ainsi la précision de la détermination du nombre de copies.

Détection des CNV dans la recherche sur le cancer

Les tumeurs sont des manifestations complexes d'anomalies génomiques, résultant d'une cascade de mutations au sein des cellules somatiques. Parmi ces mutations, les variations du nombre de copies (VNC) dans les échantillons de tumeurs se distinguent comme des acteurs clés. Dans les cellules somatiques normales, le génome est diploïde ; cependant, dans les cellules tumorales, certaines régions génomiques subissent des amplifications ou des suppressions du nombre de copies, modifiant le paysage génomique original dans une plage de taille d'environ 50 bp à 1 Mb.

Les mutations de délétion dans certaines tumeurs déclenchent l'activation de proto-oncogènes, conduisant à l'inactivation d'oncogènes, comme en témoigne RB1, P16, PTEN, et d'autres. À l'inverse, les mutations d'amplification induisent l'activation de proto-oncogènes et d'oncogènes, tels que MYC, HER2, EGFR, respectivement. Ces gènes participent de manière complexe à diverses voies de signalisation, essentielles au développement et à la régulation des processus cellulaires. Ils exercent une influence significative sur la croissance cellulaire, la prolifération, la métastase et la récidive.

La détection des CNV spécifiques aux tumeurs offre non seulement des aperçus sur les bases moléculaires de la tumorigenèse, mais accélère également la découverte de nouveaux proto-oncogènes et oncogènes tumoraux. Cette connaissance devient inestimable dans la quête d'interventions thérapeutiques efficaces contre les tumeurs. De telles études ouvrent la voie à une thérapie ciblée chez les patients atteints de tumeurs, permettant aux cliniciens d'adapter des traitements personnalisés en fonction des variations individuelles du nombre de copies. Par exemple, des médicaments comme le trastuzumab et le patozumab montrent une efficacité accrue dans les cas de cancer du sein métastatique caractérisés par une surexpression du gène HER2.

Identification of copy number variation-driven enhancers in breast cancer. (Zhao et al., 2022) Identification des amplificateurs induits par la variation du nombre de copies dans le cancer du sein. (Zhao et al., 2022)

Analyse CNV : Un guide étape par étape

La réalisation d'une analyse de variation du nombre de copies (CNV) est un processus en plusieurs étapes, allant de la préparation des données à l'identification et à l'annotation des CNV. Ci-dessous se trouve un guide complet décrivant la procédure standard pour l'analyse des CNV, en utilisant le fichier fq.gz fourni par la société de séquençage :

Préparation des données et contrôle de la qualité

Commencez par décompresser le fichier fq.gz pour obtenir des données de séquençage brutes au format FASTQ.

Évaluez la qualité des données de séquençage à l'aide d'outils de contrôle de qualité tels que FastQC. Évaluez des paramètres tels que les scores de qualité des bases, la distribution de la qualité des séquences et la teneur en GC pour garantir l'intégrité des données.

Alignement à un génome de référence

Alignez les lectures de séquençage à un génome de référence en utilisant des outils d'alignement tels que BWA ou Bowtie.

Résultats de l'alignement des processus en utilisant des outils comme SAMtools pour la conversion de format (SAM en BAM), le tri et la dé-duplication afin de rationaliser l'analyse en aval.

Lire l'analyse de couverture

Calculez la couverture des segments lus pour chaque région génomique en fonction des résultats d'alignement.

Utilisez des outils comme BEDTools pour générer des fichiers de couverture pour une caractérisation précise des régions génomiques.

Détection de CNV

Utilisez des outils de détection de CNV tels que CNVnator, DELLY ou LUMPY pour analyser les données de couverture.

Identifier des variations du nombre de copies en s'appuyant sur la couverture des segments de lecture, les informations de couplage et/ou les lectures éclatées.

Filtrage et annotation des résultats

Filtrer les résultats de CNV en fonction de critères prédéfinis tels que la qualité du CNV, la taille et la fréquence pour garantir l'exactitude.

Utilisez des outils d'annotation fonctionnelle comme ANNOVAR ou VEP pour annoter les CNVs détectés, en fournissant des informations sur leur signification biologique.

Bases de données pour l'analyse des variations du nombre de copies

Navigateur de génome UCSC

Le navigateur génomique UCSC constitue une pierre angulaire dans l'analyse des variantes de nombre de copies, offrant des outils indispensables tels que le navigateur génomique et la fonction LiftOver.

Le navigateur génomique UCSC sert de microscope virtuel polyvalent, facilitant la navigation fluide à travers les données génomiques grâce à des affichages graphiques interactifs. Son interface conviviale simplifie l'exploration des paysages génomiques, rendant la récupération des données plus rapide, plus accessible et fiable. En amalgamant un vaste éventail de données d'annotation génomique, ce navigateur permet aux chercheurs d'explorer en profondeur les complexités du génome des chromosomes humains, jusqu'aux minuties des nucléotides individuels. Comme illustré ci-dessous, les utilisateurs peuvent saisir leurs informations de requête dans la fenêtre désignée, tandis que la fenêtre d'affichage des annotations présente les résultats sous un format graphique intuitif.

Base de données DECIPHER

La base de données DECIPHER constitue une pierre angulaire dans le domaine de la bioinformatique, en particulier en génétique moléculaire. Elle sert de ressource précieuse pour les chercheurs à la recherche d'informations complètes sur les maladies génétiques, englobant les loci de mutation, les phénotypes cliniques, et plus encore. Actuellement, DECIPHER héberge des données provenant de 44 153 patients, offrant un riche répertoire d'informations génétiques.

Les utilisateurs peuvent facilement naviguer dans la base de données pour explorer une myriade d'informations sur les maladies génétiques, y compris 65 syndromes de microdélétions et de microduplications liés à des troubles du développement, ainsi que 786 troubles génétiques soigneusement documentés dans GeneReviews. Chaque entrée fournit une description détaillée du trouble, de la taille du fragment, des références littéraires et des informations complètes sur les gènes associés, les variants et les phénotypes.

Interrogation des informations de base sur les maladies au sein des segments de variantes de nombre de copies

Les chercheurs peuvent utiliser la base de données DECIPHER pour interroger rapidement des informations de base sur les maladies au sein des segments de variantes du nombre de copies, tels que les syndromes CNV et les GeneReviews. La base de données facilite la récupération efficace des données pertinentes, aidant à l'élucidation des troubles génétiques et de leurs mécanismes moléculaires sous-jacents.

Nombre de variantes de nombre de copie Nombre de gènes codant pour des protéines dans une requête de fragment

La troisième section de l'outil de notation CNV dans les nouvelles directives ACMG repose sur le nombre de gènes codant des protéines au sein d'un segment de variante du nombre de copies pour attribuer différents scores. La base de données DECIPHER offre une plateforme fluide pour interroger cette information cruciale, permettant aux chercheurs de prendre des décisions éclairées. Par défaut, DECIPHER fonctionne sur la version du génome GRGh38, avec des dispositions pour la conversion si les fragments évalués utilisent une version du génome différente. Une prudence est conseillée lors de l'évaluation des segments contenant des clusters ou des familles de gènes. Dans les cas où la signification clinique d'une famille de gènes n'est pas claire, chaque famille peut être considérée comme un seul gène. Cependant, les gènes ayant une pertinence clinique connue ou des associations claires avec des maladies doivent être comptés séparément, garantissant ainsi l'exactitude de l'analyse et de l'interprétation génétiques.

Base de données ClinGen

ClinGen se présente comme une ressource essentielle, généreusement financée par les National Institutes of Health (NIH), dédiée à la collecte d'informations complètes sur la pertinence clinique des gènes, des variants et des maladies, avec un accent particulier sur l'avancement de la recherche en médecine de précision. Dans notre quête de compréhension des variations du nombre de copies (CNVs), deux outils indispensables de ClinGen émergent : le ClinGen-Dosage Sensitivity et le ClinGen CNV Pathogenicity Calculator.

L'utilisation de la sensibilité au dosage ClinGen est primordiale dans l'analyse des CNV, en particulier pour évaluer si les CNV chevauchent des gènes ou des régions clairement ou prédites pour présenter des effets de sous-dosage unique (effets sensibles au triple dosage), ou à l'inverse, ceux considérés comme clairement bénins. Cette étape critique constitue la deuxième partie de l'outil de notation des CNV décrit dans les nouvelles directives de l'ACMG, guidant les chercheurs dans la détermination de la signification clinique des CNV identifiés.

L'infrastructure robuste de ClinGen permet aux chercheurs de disposer des outils nécessaires pour naviguer avec précision et confiance dans le paysage complexe de l'analyse des CNV. En s'appuyant sur la Sensibilité au Dosage de ClinGen, les chercheurs ont accès à des données soigneusement sélectionnées, essentielles pour prendre des décisions éclairées concernant les implications cliniques des CNV.

Références :

Mollon, Josephine, et al. "La contribution des variants du nombre de copies aux symptômes psychiatriques et à la capacité cognitive." Psychiatrie moléculaire 28.4 (2023) : 1480-1493.
Zhao, Hongying, et al. "Identification de marqueurs pronostiques spécifiques aux sous-types, induits par des enhancers, dans le cancer du sein basé sur des données multi-omiques." Frontières en immunologie 13 (2022) : 990143.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés