What is CNV in the simplest correct definition?

A CNV is a change in DNA copy number of a genomic region, represented as a segment with an inferred CN state relative to a reference baseline.

Is copy number a gene property or a segment property?

It is primarily a segment property supported by bins/probes/reads; gene-level summaries are derived annotations.

How is CNV different from aneuploidy?

Aneuploidy refers to whole-chromosome or large-arm gains/losses; CNVs can be focal or large but are often described as regional segments.

What signals do arrays use for CNV calling?

Arrays rely on intensity-derived CN proxies and allelic signals (LRR/BAF), which are explicitly used in classic array CNV methods like PennCNV.

What signals does sequencing use?

Sequencing CNV calling commonly uses read depth; some pipelines incorporate allelic content and breakpoint evidence depending on data and design. cn.MOPS and Control-FREEC are representative methods.

Why do CNV artifacts appear in GC-rich or GC-poor regions?

GC bias distorts read depth; correction and residual checks are essential in sequencing-based CNV pipelines.

What should I request if I outsource CNV calling?

At minimum: segment table + QC pack (dispersion, GC residuals, callable fraction) + plots + documented reference design and masking policy.

Can exome sequencing support CNV inference?

It can, but coverage unevenness and capture bias can complicate CN inference. If you use exome-derived CN, be explicit about callable intervals and validation strategy.

Qu'est-ce que la variation du nombre de copies (CNV) ? Un guide pour la recherche génomique

La variation du nombre de copies (VNC) est l'un de ces concepts qui semble simple—"plus ou moins de copies"—jusqu'à ce qu'un programme à haut débit essaie de le standardiser à travers des milliers d'échantillons, plusieurs lots et de multiples utilisations en aval. Ce guide est écrit pour RUO (Utilisation à des fins de recherche uniquement) flux de travail en génomique : dépistage de cohortes à l'échelle de la population, contrôle qualité de la plateforme, surveillance de la dérive des lignées cellulaires et caractérisation des modèles précliniques. Il se concentre sur définitions claires, ce que les signaux signifient réellement, contrôle qualité/pratique de dépannage, et livrables prêts pour l'externalisation.

Si vous hésitez entre des plateformes, comparez. LP-WGS vs microarrays pour le dépistage évolutif des CNVPour les modèles de R&D en oncologie préclinique (par exemple, les lignées cellulaires et les modèles de xénogreffe de recherche) et l'interprétation des CNA, voir ceci. guide de profilage CNA préclinique.

1. CNV en Une Page : Définitions Dont Vous Avez Réellement Besoin

Un numéro de copie est un état assigné à un intervalle génomique : CN=0, 1, 2, 3, 4+ (et parfois plus), selon l'essai et le modèle d'appel. A CNV est un changement dans cet état par rapport à une ligne de base de référence choisie—le plus souvent CN=2 pour les régions diploïdes dans un contexte de référence standard.

En pratique, les CNV sont représentés comme segments (chromosome, début, fin, longueur, état CN inféré, confiance/QC) plutôt que des événements à base unique. Cette réalité au niveau des segments est la clé pour rendre l'appel de CNV reproductible et vérifiable dans de grands programmes. Une revue classique résume les principaux mécanismes et les motifs récurrents de changement du nombre de copies (voir Réf. 1).

1.1 Que signifie "nombre de copies" (au niveau des gènes vs au niveau des segments)

Même lorsque votre question biologique est centrée sur les gènes, la mesure est presque toujours centré sur le segment:

CNV au niveau des segmentschr7 : 55,20–55,45 Mb ; CN≈1 (perte)
Résumé de la superposition des gènes"le segment chevauche les exons de GENE1 ; résumé au niveau du gène = semblable à une perte"

Pourquoi cela est important :

Les matrices mesurent l'intensité et les signaux alléliques à sondes.
Le séquençage mesure la profondeur de lecture et (parfois) l'équilibre des allèles à travers bacs/fenêtres.
Les deux impliquent un segmenter "le CN au niveau des gènes" est généralement un dérivé annotation, pas une mesure primaire.

Segment-level copy number states and gene overlap Figure 1. États de nombre de copies au niveau des segments et chevauchement des gènes. Le nombre de copies est attribué aux intervalles génomiques (segments) après normalisation et segmentation ; le "CN" au niveau des gènes est généralement une annotation dérivée basée sur le chevauchement et les bins/probes de soutien.

Si votre programme de référence utilise des arrays, vous commencez généralement par un contrat de laboratoire humide + QC pour les arrays SNP cohérent afin que la variation d'un échantillon à l'autre ne soit pas dominée par le bruit de flux de travail. Pour un travail de cohorte à haut débit, voir microarray SNP.

1.2 CNV vs CNA vs aneuploïdie

Ces termes sont souvent mélangés dans un usage informel. Dans la pratique RUO, il est utile de les garder distincts :

CNV (Variation du Nombre de Copies)un changement du nombre de copies dans une région génomique (déletion/duplication/amplification), utilisé de manière générale dans des contextes de recherche populationnelle et de modèles.
CNA (Altération du Nombre de Copies): couramment utilisé dans modèle d'oncologie préclinique contextes pour mettre en évidence les changements de nombre de copies liés à l'instabilité génomique, à la sous-clonalité et à la sélection en culture.
Aneuploidiegain/perte de chromosome entier ou de bras de chromosome large - variations de nombre de copies à grande échelle distinctes des CNV focaux.

Un cadre pratique : CNV est la mesure générale.CNA est une étiquette de contexte largement utilisée dans l'analyse des modèles oncologiques, et l'aneuploïdie est un résultat de type caryotype à grande échelle.

1.3 Classes typiques de CNV : délétions, duplications, amplifications multi-copies

La plupart des pipelines CNV rapportent :

Suppressions: CN=0 (perte homozygote-like), CN=1 (perte de copie unique)
Duplications: CN=3 (gain en copie unique)
Amplifications: CN≥4 (gain multi-copie ; souvent résumé par "CN=4+" lors du dépistage grossier)

La capacité à distinguer de manière fiable CN=4 de CN=5 (et au-delà) dépend de la modèle de signal et la qualité des données. Dans le criblage à haut débit, il est souvent plus robuste de rapporter états grossiers (par exemple, "CN=4+") plus confiance/QC plutôt que des entiers trop précis.

2. Comment les CNV se forment et pourquoi ils sont importants en recherche

Les CNV peuvent survenir par plusieurs mécanismes qui lient l'architecture du génome (répétitions, duplications segmentaires) aux processus de recombinaison/réplication/réparation. Les travaux de synthèse classiques soulignent que le changement de nombre de copies n'est pas un cas rare en marge - c'est un résultat fréquent de la manière dont les génomes se maintiennent et se réarrangent (voir Réf. 1).

2.1 Mécanismes (niveau élevé) : NAHR, erreurs de réplication, réarrangements

Un mécanisme couramment enseigné est recombinaison homologue non allèlique (RHNA), où la recombinaison se produit entre des séquences similaires qui ne sont pas des allèles, produisant souvent des délétions/duplications récurrentes dans des régions riches en répétitions (voir Réf. 1).

À un niveau opérationnel, le mécanisme est important car il prédit :

points chauds récurrents (loci riches en répétitions/duplications),
régions difficiles à évaluer (faible cartographie pour les courtes lectures ; faible unicité des sondes pour les puces),
et pourquoi les définitions de "région appelable" doivent être explicites.

2.2 Impact fonctionnel : effet de dosage, changements de voie, variabilité phénotypique (pas toujours linéaire)

Les CNV peuvent affecter la fonction biologique par le biais de dosage (moins ou plus d'exemplaires) qui peuvent modifier l'expression et les phénotypes en aval. Mais la relation est souvent dépendant du contexte et non linéaire—la régulation, le tamponnement, l'état épigénétique et la structure des voies modulent tous le résultat (voir Réf. 1).

Dosage effects are context-dependent Figure 2. Les effets de dosage dépendent du contexte. Le nombre de copies peut influencer l'expression et les phénotypes en aval, mais le tamponnement, la régulation et l'état épigénétique peuvent rendre la relation non linéaire—considérez le CNV comme une hypothèse de recherche nécessitant des tests complémentaires.

Lors de la conception d'une étude RUO, cela encourage un état d'esprit pratique :

Utilisez les appels CNV comme contexte génomique et signaux QC (stratification de référence, surveillance de la dérive).
Traitez "la posologie implique le phénotype" comme une hypothèse à tester avec des essais de suivi plutôt que comme une garantie.

Si vous prévoyez une intégration multi-omique (CNV + expression + état épigénétique), gardez l'ensemble du projet ancré dans une cohérence. stratégie de séquençage en génomique (échantillonnage, profondeur, conception de lot et livrables).

2.3 Pourquoi les CNV sont courants dans les cultures cellulaires à long terme et les systèmes de modèles précliniques.

Dans les systèmes cultivés à long terme et de nombreux modèles précliniques, les profils de nombre de copies peuvent dériver sous l'effet de la sélection, du stress et des dynamiques clonales. Dans les flux de travail RUO, le profilage des CNV est souvent utilisé pour :

établir un "état génomique" de référence pour un lot modèle,
surveiller les dérives à travers les passages ou les changements de processus,
et détecter des instabilités à grande échelle qui pourraient perturber les expériences en aval.

3. Paysage de détection des CNV : Arrays vs Séquençage (Signal en premier)

Une méthode fiable pour comparer les méthodes est d'ignorer les noms de marque et de demander : quelles preuves la méthode utilise-t-elle ?

La plupart des appels CNV proviennent d'un ou plusieurs des éléments suivants :

Signal total (intensité de l'array ou profondeur de lecture de séquençage)
Signaux d'équilibre des allèles (par exemple, BAF)
Preuve de point d'arrêt (paires discordantes, lectures éclatées, signaux d'assemblage local)

Evidence signals used for CNV calling by method Figure 3. Signaux de preuve utilisés pour l'appel de CNV par méthode. Les arrays s'appuient sur l'intensité (LRR) et l'équilibre allélique (BAF), tandis que le séquençage met l'accent sur la profondeur de lecture et peut ajouter des preuves allélique/de point de rupture en fonction de la conception ; le choix de la méthode est un compromis entre résolution et débit.

3.1 Microarrays (CMA/arrays SNP) : forces et points aveugles

Les puces SNP fournissent deux signaux principaux :

Ratio de Logarithme (LRR)écart d'intensité totale (proxy pour le nombre de copies)
Fréquence de l'allèle B (FAB)proportion allélique (aide à interpréter les motifs de déséquilibre allélique)

Les algorithmes classiques de CNV par array (par exemple, PennCNV) ont formalisé comment combiner ces signaux pour l'inférence de CNV (voir Réf. 2).

Forces des programmes RUO à haut débit

Conventions de laboratoire et d'analyse matures
Traitement prévisible par échantillon
BAF peut fournir une structure supplémentaire au-delà de l'intensité totale seule.

Points aveugles typiques

Explorer les lacunes de couverture des sondes ou les sondes peu performantes dans des contextes génomiques spécifiques.
Limites des segments déterminées par la densité de sonde
Effets de lot qui se manifestent par des décalages de base dans l'intensité

Si vous avez besoin d'une exécution de laboratoire humide standardisée et de livrables cohérents à travers de grandes cohortes, centralisez l'exécution via services de microarray peut réduire la variabilité entre les sites.

3.2 CNV basé sur le séquençage : profondeur de lecture, contenu allélique, signaux de rupture

La CNV basée sur le séquençage commence souvent par profondeur de lecture:

bin/fenêtre le génome,
compter les lectures par bin,
normaliser (GC/mappabilité),
segment,
inférer CN.

Une méthode représentative est cn.MOPS, qui modélise les comptes à travers les échantillons pour détecter les CNV avec des faux positifs contrôlés (voir Réf. 3).

Lorsque le séquençage soutient l'inférence de génotype (ou a suffisamment de signal pour des approches tenant compte des allèles), certains outils intègrent le contenu allélique. Control-FREEC est un exemple bien connu qui estime le nombre de copies et le contenu allélique à partir des données NGS (voir Réf. 4).

La correction des biais est essentielle : le biais GC et les effets de répétition/mappabilité peuvent déformer la profondeur de lecture. Le guide de l'utilisateur de CNVkit offre une vue pratique des sources de biais et des stratégies de correction utilisées dans de véritables pipelines.

Si votre programme CNV est basé sur le séquençage en premier, le modèle de service principal est généralement séquençage du génome entier pour le profilage des CNV associé à un contrat d'analyse qui spécifie les résultats CNV et les graphiques de contrôle de qualité.

3.3 Pourquoi le WGS à faible passage est de plus en plus utilisé pour le dépistage évolutif

Pour le dépistage des CNV à l'échelle des cohortes, WGS à faible fréquence (LP-WGS) est populaire car il répartit la mesure à travers le génome et peut être ajusté par :

profondeur,
taille de la benne,
conception de référence,
et seuils de contrôle qualité.

Le point pratique : dans le LP-WGS, la résolution effective est limitée par le QC, pas limité au marketing. Vous obtiendrez de meilleurs résultats en définissant explicitement :

quelles tailles vous comptez appeler,
quelles régions sont appelables,
quelles métriques de confiance sont nécessaires,
et comment les lots sont structurés.

Si vous choisissez entre des plateformes, comparez. LP-WGS vs microarrays pour le dépistage évolutif des CNVSi votre équipe a besoin de détails sur l'implémentation de l'appel CNV LP-WGS, voir Bioinformatique pour le WGS à faible couverture : Mise en œuvre de cn.mops et de pipelines.

4. Interprétation des résultats de CNV dans les workflows RUO

Le plus grand mode d'échec dans les programmes CNV n'est pas l'appelant, mais le dérive d'interprétation : différentes équipes interprètent la même liste de segments de manière différente. Vous empêchez cela en standardisant ce que signifient "résolution", "confiance" et "appelabilité".

4.1 Ce que signifie vraiment "résolution" (taille de bin, densité de sondes, région appelable)

Dans la pratique RUO, la résolution n'est pas un seul nombreC'est l'intersection de :

Granularité de mesure: espacement des sondes (ensembles) ou taille de bin/fenêtre (séquençage)
Région appelableQuelles parties du génome sont analysables compte tenu de l'unicité/de la mappabilité et des filtres de contrôle de qualité ?
Niveau de bruit: effets de lot + variabilité de la bibliothèque + qualité de normalisation

Une définition utile par règle générale pour les documents de programme :

Résolution efficace est la plus petite taille de CNV qui reste stable sous QC et reconditionnement dans votre pipeline.

Si vous souhaitez une discussion plus approfondie sur les limites d'interprétation au niveau des gènes par rapport aux appels à l'échelle chromosomique, consultez CNV au niveau des gènes vs. CNV chromosomique : Comprendre la résolution et les limites.

Pour des conceptions axées sur des loci/intervals définis, séquençage de région ciblée peut soutenir des questions plus étroites—il suffit d'être explicite sur la façon dont les lacunes et le biais de capture affectent l'inférence CN.

4.2 Artefacts courants : biais GC, répétitions, problèmes de mappabilité (et comment les détecter)

biais GC se présente souvent sous forme de "vagues" systématiques dans la profondeur de lecture à travers des régions riches ou pauvres en GC ; une correction robuste devrait aplanir les tendances de profondeur en fonction du GC. La documentation sur la correction des biais de CNVkit résume les biais courants et comment ils sont corrigés en pratique.

Répétitions et faible mappabilité faire en sorte que les bacs/probes se comportent de manière imprévisible. Dans le séquençage, le mappage ambigu peut gonfler la profondeur ; dans les puces, l'unicité des probes peut se dégrader. Les atténuations durables incluent :

définir un masque appelable,
excluant les bacs/probes de faible qualité avant la segmentation,
taguer les segments chevauchant des régions problématiques comme "interpréter avec prudence,"
et nécessitant des seuils de preuves plus stricts pour l'interprétation dans des contextes de répétition dense.

4.3 Que rapporter : segments, métriques de confiance et livrables prêts pour l'externalisation

Un package de livrables CNV à l'échelle d'une cohorte qui soit réellement utilisable devrait inclure :

A) Tables de segments principaux

chr, début, fin, longueur
état CN inféré (ou proxy de ratio log2)
score(s) de confiance ou postérieur du modèle
drapeaux de région appelable (par exemple, % bases masquées ; chevauchement avec une faible cartographie)

B) Pack QC

métriques de dispersion de couverture/intensité par échantillon
Graphique de biais GC (avant/après correction)
statistiques de résumé de segmentation (nombre de segments ; distribution des tailles)
métriques de comparabilité au niveau des lots (décalages de distribution entre les exécutions)

C) Intrigues

profil génomique complet par échantillon (ou représentatif)
graphes de zoom au niveau des chromosomes pour des événements importants
résumés de la charge CNV au niveau de la cohorte

Si vous externalisez l'analyse CNV, définissez explicitement. Livrables d'appel CNV et de contrôle qualité dans le cadre de la portée, et nécessitent un contrat de reporting reproductible (fichiers + métriques + graphiques). Pour un support d'analyse de bout en bout, voir Services de bioinformatique.

Pour les programmes d'opérations de grande envergure, standardisez l'entrée et les métadonnées dès le début : directives de soumission d'échantillons (PDF) comprend les métadonnées d'entrée et les exigences d'expédition.

5. QC et Dépannage (Opérationnel, Axé sur les Seuils)

Vous avez demandé des seuils de QC ; pour les CNV, les seuils absolus universels sont difficiles à établir car ils dépendent de la plateforme, de la profondeur, du binning et de la conception du cohort/batch. L'approche la plus robuste dans les pipelines RUO est QC basé sur la distribution (comparer chaque échantillon aux distributions de cohorte) plus un petit ensemble de vérifications spécifiques à la plateforme.

5.1 Portes QC que vous pouvez mettre en œuvre sans surajustement

Portes de contrôle QC multiplateformes

Dispersion des valeurs aberrantes: échantillons de drapeau avec une variance de bin/probe exceptionnellement élevée (par exemple, la partie supérieure de la distribution de variance).
résidu de biais GCAprès correction, la corrélation du signal GC devrait être considérablement réduite (utilisez les résidus de corrélation/ajustement comme critère d'acceptation).
Sanité des segmentsLes comptes de segments extrêmes indiquent généralement du bruit (trop nombreux) ou un sur-lissage (trop peu). Suivez la distribution des comptes de segments par lot.
Fraction appelable: exiger une couverture minimale de la région appelable ; étiqueter les échantillons à faible appelabilité comme "uniquement pour le dépistage / faible confiance."
Répliquer la concordance (s'il y a lieu) : les événements à grande échelle devraient se reproduire à travers des répliques techniques.

Vérifications spécifiques aux tableaux

Base LRR stable et structure BAF (voir Réf. 2).

Contrôles spécifiques au séquençage

Uniformité de profondeur et comportement de duplication ; motifs de cartographie/couverture cohérents à travers le lot.

Si votre programme nécessite un débit prévisible et une exécution en amont standardisée pour de grands volumes d'échantillons, associer le dépistage des CNV à un flux de travail NGS cohérent peut aider (par exemple, Séquençage de nouvelle génération).

5.2 Tableau de dépannage (Symptôme → cause probable → solution)

Symptôme	Cause probable	Corriger (prochaines actions)
De nombreux segments courts à l'échelle du génome	bruit élevé ; normalisation faible ; effets de lot	augmenter la taille des bins (séquençage) ou renforcer le contrôle qualité des sondes (arrays) ; reconstruire la référence ; retirer les échantillons aberrants ; normalisation consciente des lots
Des motifs de "vague" alignés avec les extrêmes de GC	biais résiduel de GC	réajuster la correction GC ; s'assurer que la cohorte de référence correspond à la bibliothèque/au lot ; confirmer la politique de masquage
Appels enrichis en répétitions/dupliquations segmentaires	faible cartographie/unicité de sonde	masquer les bins/probes à faible mappabilité ; annoter les segments avec des indicateurs appelables ; exiger des preuves plus solides pour l'interprétation
Les décalages de base diffèrent d'une exécution à l'autre.	déplacements au niveau du lot	références sensibles aux lots ; équilibrer les cohortes ; inclure des échantillons de contrôle/référence cohérents par lot
Les répliques ne s'accordent pas pour les grands événements.	échantillon QC ou instabilité de pipeline	audit de la cartographie et uniformité de la couverture ; vérifier les paramètres de segmentation ; enquêter sur les échanges d'échantillons / incompatibilité des métadonnées
Les déclarations au niveau des gènes ne correspondent pas aux preuves des segments.	résolution de malentendu	rapport segment d'abord ; dériver des résumés de chevauchement de gènes uniquement avec des bins/probes de soutien adéquats ; lier les parties prenantes à l'explication de la résolution

6. Cadre décisionnel : Quand utiliser l'appel CNV (et quand ne pas l'utiliser)

Voici un raccourci pratique pour la sélection de méthodes conçu pour des équipes interfonctionnelles (laboratoire humide + bioinformatique + opérations de programme). Utilisez-le pour choisir une plateforme "de première intention" et aligner les attentes. résolution efficace, débit et réutilisation en avalEnsuite, confirmez le choix avec un petit pilote qui mesure la dispersion QC, les résidus GC et la stabilité des segments lors du retraitement.

Sélection rapide de méthode (pré-sélection de 30 secondes)

Objectif / contrainte	Meilleure option de premier passage	Pourquoi cela convient-il ?	Avertissements
Cohortes très larges ; coût + débit priorisés ; référence génomique à l'échelle du génome.	LP-WGS CNV (première profondeur de lecture)	scalable, réutilisable, ajustable pour le binning/QC	la résolution efficace est limitée par le contrôle de qualité ; la conception du lot est importante
Génotypage standardisé + CNV à partir de l'intensité/BAF dans des cohortes	Arrays SNP (LRR/BAF)	flux de travail matures, conventions stables	écarts de sonde ; variations d'intensité de lot
Panneaux de loci ciblés ; CN dans des régions définies	Séquençage ciblé	concentrer les ressources sur les lieux d'intérêt	biais de capture ; couverture inégale ; effets de lacune
Besoin d'un contexte structurel riche en points d'arrêt.	séquençage avec preuves de rupture (dépendant du design)	peut ajouter des preuves de lecture fractionnée/discordantes	Les régions répétées restent difficiles ; nécessitent une cartographie/contrôle qualité minutieux.

Lorsque l'analyse CNV est un bon choix pour un usage en recherche.

Dépistage de base de la cohorte pour des bases de données de recherche à l'échelle de la population et leur réutilisation
Contrôle de qualité des lignées cellulaires/modèles et surveillance de la dérive à travers les passages/lotissements
Caractérisation des modèles oncologiques précliniques, où l'instabilité du nombre de copies fait partie de la biologie modèle.

Quand l'appel de CNV sera probablement frustrant.

Vous avez besoin de points de rupture précis dans des régions à forte répétition utilisant des signaux rares.
Vous avez besoin d'événements très petits à haute confiance sans stratégie de profondeur/binning suffisante.
Vous ne pouvez pas contrôler ou modéliser la structure de lot et le design de référence.

Une liste de contrôle pratique "go/no-go" pour les responsables de programme :

Pouvez-vous définir un masque de région appelable et l'acceptation QC ?
Pouvez-vous équilibrer ou au moins modéliser les effets de lot ?
Pouvez-vous standardiser les livrables afin que les équipes en aval ne réinterprètent pas les résultats de manière ad hoc ?

7. Cas d'utilisation RUO courants

7.1 Dépistage de cohortes à haut débit / bases génomiques de population

Pour les grandes cohortes, les objectifs opérationnels sont :

débit prévisible,
taux de rediffusion faible,
taux de réussite QC stables,
et la réutilisation des données dans les analyses futures.

Définir tôt :

Tailles de CNV que vous visez à détecter,
Métriques de contrôle qualité qui définissent l'acceptation,
et les livrables dont les consommateurs ont besoin (segments + pack QC + graphiques).

7.2 Contrôle de qualité des lignées cellulaires et surveillance de la dérive

Un modèle de surveillance pratique :

profil de CN de référence à un stade précoce,
reprofilage périodique après des changements majeurs de processus,
règles d'alerte liées à des changements à grande échelle plutôt qu'à des appels ponctuels.

La standardisation des plateformes et des rapports améliore la comparabilité dans le temps ; maintenez les attentes et les résultats du flux de travail cohérents avec les capacités de votre plateforme (voir Aperçu de la plateforme).

7.3 Modèles oncologiques précliniques (instabilité du nombre de copies et interprétation des CNA)

Dans les modèles de R&D en oncologie préclinique, les profils CN/CNA sont utilisés pour :

comparer les lots et les historiques de passage,
interpréter les changements au niveau des voies sous sélection,
communiquer la comparabilité des modèles entre les équipes.

Pour le cadrage de l'ADN par rapport à l'expression dans les flux de travail d'interprétation CN, voir Validation des CNV RNA-Seq : Pourquoi le séquençage de l'ADN est essentiel.

8. FAQ

1) Qu'est-ce que le CNV dans la définition la plus simple ?
Un CNV est un changement dans le nombre de copies d'ADN d'une région génomique, représenté comme un segment avec un état CN inféré par rapport à une référence de base.

2) Le nombre de copies est-il une propriété du gène ou une propriété du segment ?
C'est principalement un propriété de segment soutenu par des bacs/probes/lectures ; les résumés au niveau des gènes sont des annotations dérivées.

3) En quoi la CNV est-elle différente de l'aneuploïdie ?
L'aneuploïdie fait référence à chromosome entier ou grand bras gains/pertes ; les CNV peuvent être focaux ou larges mais sont souvent décrits comme des segments régionaux.

4) Quels signaux les puces utilisent-elles pour l'appel de CNV ?
Les arrays s'appuient sur des proxies CN dérivés de l'intensité et des signaux alléliques (LRR/BAF), qui sont explicitement utilisés dans les méthodes classiques de CNV par array comme PennCNV (voir Réf. 2).

5) Quels signaux utilise le séquençage ?
L'appel de CNV par séquençage utilise couramment profondeur de lecture; certains pipelines intègrent le contenu allélique et les preuves de rupture en fonction des données et de la conception. cn.MOPS et Control-FREEC sont des méthodes représentatives (voir Réf. 3–4).

6) Pourquoi les artefacts de CNV apparaissent-ils dans des régions riches ou pauvres en GC ?
Le biais GC déforme la profondeur de lecture ; la correction et les vérifications résiduelles sont essentielles dans les pipelines CNV basés sur le séquençage.

7) Que devrais-je demander si je sous-traite l'appel CNV ?
Au minimum : tableau de segments + paquet QC (dispersion, résidus GC, fraction appelable) + graphiques + conception de référence documentée et politique de masquage.

8) La séquençage de l'exome peut-il soutenir l'inférence des CNV ?
Cela peut, mais l'inégalité de couverture et le biais de capture peuvent compliquer l'inférence CN. Si vous utilisez des CN dérivés de l'exome, soyez explicite sur les intervalles appelables et la stratégie de validation. Pour les options de séquençage, voir Séquençage de l'exome entier.

Références:

Hastings PJ, Lupski JR, Rosenberg SM, Ira G. "Mécanismes de changement dans le nombre de copies de gènes." Nat Rev Genet (2009). DOI : 10.1038/nrg2593
Wang K, Li M, Hadley D, et al. "PennCNV : un modèle de Markov caché intégré conçu pour la détection de variations du nombre de copies à haute résolution dans les données de génotypage SNP du génome entier." Recherche Génomique (2007). DOI : 10.1101/gr.6861907
Klambauer G, Schwarzbauer K, Mayr A, et al. "cn.MOPS : mélange de Poissons pour la découverte de variations du nombre de copies dans les données de séquençage de nouvelle génération avec un faible taux de fausses découvertes." Recherches sur les acides nucléiques (2012). DOI : 10.1093/nar/gks003
Boeva V, Popova T, Bleakley K, et al. "Control-FREEC : un outil pour évaluer le nombre de copies et le contenu allélique à l'aide de données de séquençage de nouvelle génération." Bioinformatique (2012). DOI : 10.1093/bioinformatics/btr670
Talevich E, Shain AH, Botton T, Bastian BC. "CNVkit : Détection et visualisation du nombre de copies à l'échelle du génome à partir du séquençage ciblé de l'ADN." PLOS Biologie Computationnelle (2016). DOI : 10.1371/journal.pcbi.1004873
Corrections de biais pour la GC, les répétitions et la densité cible. cnvkit.readthedocs.io/fr/stable/bias.html

Services qui pourraient vous intéresser

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.