Qu'est-ce que la Variation du Nombre de Copies (VNC) ? Un guide pour la recherche génomique
La variation du nombre de copies (VNC) est l'un de ces concepts qui semble simple—"plus ou moins de copies"—jusqu'à ce qu'un programme à haut débit essaie de le standardiser à travers des milliers d'échantillons, plusieurs lots et de multiples utilisations en aval. Ce guide est rédigé pour RUO (Usage de recherche uniquement) flux de travail en génomique : dépistage de cohortes à l'échelle de la population, contrôle qualité de la plateforme, surveillance de la dérive des lignées cellulaires et caractérisation des modèles précliniques. Il se concentre sur définitions claires, ce que les signaux signifient réellement, contrôle qualité/pratique de dépannage, et livrables prêts pour l'externalisation.
Si vous choisissez entre des plateformes, comparez. LP-WGS vs microarrays pour le dépistage évolutif des CNVPour les modèles de R&D en oncologie préclinique (par exemple, les lignées cellulaires et les modèles de xénogreffe de recherche) et l'interprétation des CNA, voir ceci. guide de profilage CNA préclinique.
1. CNV en Une Page : Définitions Dont Vous Avez Vraiment Besoin
A nombre de copies est un état assigné à un intervalle génomique : CN=0, 1, 2, 3, 4+ (et parfois plus), selon le test et le modèle d'appel. A CNV est un changement dans cet état par rapport à une ligne de base de référence choisie—le plus souvent CN=2 pour les régions diploïdes dans un contexte de référence standard.
En pratique, les CNV sont représentés comme segments (chromosome, début, fin, longueur, état CN inféré, confiance/QC) plutôt que des événements à base unique. Cette réalité au niveau des segments est la clé pour rendre l'appel de CNV reproductible et contrôlable dans de grands programmes. Une revue classique résume les principaux mécanismes et les motifs récurrents de changement du nombre de copies (voir Réf. 1).
1.1 Ce que signifie "nombre de copies" (au niveau des gènes vs au niveau des segments)
Même lorsque votre question biologique est centrée sur les gènes, la mesure est presque toujours centré sur le segment:
- CNV au niveau des segmentschr7 : 55,20–55,45 Mb ; CN≈1 (perte)
- Résumé de la superposition des gènes"le segment chevauche les exons de GENE1 ; résumé au niveau du gène = similaire à une perte"
Pourquoi cela importe :
- Les matrices mesurent l'intensité et les signaux alléliques à sondes.
- Le séquençage mesure la profondeur de lecture et (parfois) l'équilibre des allèles à travers bacs/fenêtres.
- Les deux impliquent un segmenter "CN au niveau des gènes" est généralement un dérivé annotation, pas une mesure primaire.
Figure 1. États de nombre de copies au niveau des segments et chevauchement des gènes. Le nombre de copies est attribué aux intervalles génomiques (segments) après normalisation et segmentation ; le "CN" au niveau des gènes est généralement une annotation dérivée basée sur le chevauchement et les bins/probes de soutien.
Si votre programme de référence utilise des arrays, vous commencez généralement par un contrat de laboratoire humide + QC pour les arrays SNP cohérent afin que la variation d'échantillon à échantillon ne soit pas dominée par le bruit du flux de travail. Pour un travail de cohorte à haut débit, voir microarray SNP.
1.2 CNV vs CNA vs aneuploïdie
Ces termes sont souvent mélangés dans un usage informel. Dans la pratique RUO, il est utile de les garder distincts :
- CNV (Variation du Nombre de Copies)un changement du nombre de copies dans une région génomique (déletion/duplication/amplification), utilisé de manière générale dans des contextes de recherche populationnelle et sur des modèles.
- CNA (Altération du Nombre de Copies): couramment utilisé dans modèle d'oncologie préclinique contextes pour mettre en évidence les changements de nombre de copies liés à l'instabilité génomique, à la sous-clonalité et à la sélection en culture.
- Aneuploidiegain/perte de chromosome entier ou de bras de chromosome large — décalages de nombre de copies à grande échelle distincts des CNV focaux.
Un cadre pratique : CNV est la mesure générale.CNA est une étiquette de contexte utilisée largement dans l'analyse des modèles oncologiques, et l'aneuploïdie est un résultat de type caryotype à grande échelle.
1.3 Classes typiques de CNV : délétions, duplications, amplifications multi-copies
La plupart des pipelines CNV rapportent :
- Suppressions: CN=0 (perte homozygote-like), CN=1 (perte de copie unique)
- Duplications: CN=3 (gain en copie unique)
- Amplifications: CN≥4 (gain multi-copie ; souvent résumé par "CN=4+" lors du dépistage grossier)
La capacité à distinguer de manière fiable CN=4 de CN=5 (et au-delà) dépend de la modèle de signal et la qualité des données. Dans le criblage à haut débit, il est souvent plus robuste de rapporter états grossiers (par exemple, "CN=4+") plus confiance/QC plutôt que des entiers trop précis.
2. Comment les CNV se forment et pourquoi ils sont importants dans la recherche
Les CNVs peuvent surgir par plusieurs mécanismes qui lient l'architecture du génome (répétitions, duplications segmentaires) aux processus de recombinaison/réplication/réparation. Les travaux de synthèse classiques soulignent que le changement de nombre de copies n'est pas un cas rare en marge - c'est un résultat fréquent de la manière dont les génomes se maintiennent et se réarrangent (voir Réf. 1).
2.1 Mécanismes (niveau élevé) : NAHR, erreurs de réplication, réarrangements
Un mécanisme couramment enseigné est recombinaison homologue non allèlique (RHNA), où la recombinaison se produit entre des séquences similaires qui ne sont pas des allèles, produisant souvent des délétions/duplications récurrentes dans des régions riches en répétitions (voir Réf. 1).
À un niveau opérationnel, le mécanisme est important car il prédit :
- zones chaudes récurrentes (loci riches en répétitions/duplications),
- régions difficiles à évaluer (mappabilité faible pour les courtes lectures ; faible unicité des sondes pour les puces),
- et pourquoi les définitions de "région appelable" doivent être explicites.
2.2 Impact fonctionnel : effet de dosage, changements de voie, variabilité phénotypique (pas toujours linéaire)
Les CNVs peuvent affecter la fonction biologique par le biais de dosage (moins ou plus de copies) qui peuvent modifier l'expression et les phénotypes en aval. Mais la relation est souvent dépendant du contexte et non linéaire—la régulation, le tamponnement, l'état épigénétique et la structure des voies modulent tous le résultat (voir Réf. 1).
Figure 2. Les effets de dosage dépendent du contexte. Le nombre de copies peut influencer l'expression et les phénotypes en aval, mais le tamponnement, la régulation et l'état épigénétique peuvent rendre la relation non linéaire—considérez les CNV comme une hypothèse de recherche nécessitant des tests complémentaires.
Lors de la conception d'une étude RUO, cela encourage un état d'esprit pratique :
- Utilisez les appels CNV comme contexte génomique et signaux QC (stratification de base, surveillance de la dérive).
- Traitez "la posologie implique le phénotype" comme une hypothèse à tester avec des essais complémentaires plutôt que comme une garantie.
Si vous prévoyez une intégration multi-omique (CNV + expression + état épigénétique), gardez le projet global ancré dans une cohérence. stratégie de séquençage génomique (échantillonnage, profondeur, conception de lot et livrables).
2.3 Pourquoi les CNV sont courants dans les cultures cellulaires à long terme et les systèmes de modèles précliniques
Dans les systèmes cultivés à long terme et de nombreux modèles précliniques, les profils de nombre de copies peuvent dériver sous l'effet de la sélection, du stress et des dynamiques clonales. Dans les workflows RUO, le profilage des CNV est souvent utilisé pour :
- établir un "état génomique" de référence pour un lot modèle,
- surveiller les dérives à travers les passages ou les changements de processus,
- et détecter des instabilités à grande échelle qui pourraient perturber les expériences en aval.
3. Paysage de détection des CNV : Arrays vs Séquençage (Signals-First)
Une manière fiable de comparer les méthodes est d'ignorer les noms de marque et de demander : quelles preuves la méthode utilise-t-elle ?
La plupart des appels de CNV proviennent d'un ou plusieurs des éléments suivants :
- Signal total (profondeur de lecture d'intensité de tableau ou de séquençage)
- Signaux d'équilibre des allèles (par exemple, BAF)
- Preuve de point d'arrêt (paires discordantes, lectures éclatées, signaux d'assemblage local)
Figure 3. Signaux de preuve utilisés pour l'appel de CNV par méthode. Les tableaux s'appuient sur l'intensité (LRR) et l'équilibre allélique (BAF), tandis que le séquençage met l'accent sur la profondeur de lecture et peut ajouter des preuves allélique/de point de rupture en fonction du design ; le choix de la méthode est un compromis entre résolution et débit.
3.1 Microarrays (CMA/SNP arrays) : forces et faiblesses
Les puces SNP fournissent deux signaux principaux :
- Rapport Log R (LRR)écart d'intensité totale (proxy pour le nombre de copies)
- Fréquence de l'allèle B (FAB)proportion allélique (aide à interpréter les motifs de déséquilibre allélique)
Les algorithmes classiques de CNV par microarray (par exemple, PennCNV) ont formalisé comment combiner ces signaux pour l'inférence de CNV (voir Réf. 2).
Forces des programmes RUO à haut débit
- Conventions de laboratoire et d'analyse matures
- Traitement par échantillon prévisible
- BAF peut fournir une structure supplémentaire au-delà de l'intensité totale seule.
Angles morts typiques
- Explorer les lacunes de couverture des sondes ou les sondes peu performantes dans des contextes génomiques spécifiques.
- Limites des segments définies par la densité de sondes
- Effets de lot qui se manifestent par des décalages de base dans l'intensité.
Si vous avez besoin d'une exécution de laboratoire humide standardisée pour des ensembles de données et de résultats cohérents à travers de grandes cohortes, centralisez l'exécution via services de microarray peut réduire la variabilité entre les sites.
3.2 CNV basé sur le séquençage : profondeur de lecture, contenu allélique, signaux de rupture
La CNV basée sur le séquençage commence souvent par profondeur de lecture:
- bin/fenêtre le génome,
- compter les lectures par bin,
- normaliser (GC/mappabilité),
- segment,
- inférer CN.
Une méthode représentative est cn.MOPS, qui modélise les comptes à travers les échantillons pour identifier les CNV avec des faux positifs contrôlés (voir Réf. 3).
Lorsque le séquençage soutient l'inférence de génotype (ou a suffisamment de signal pour des approches tenant compte des allèles), certains outils intègrent le contenu allélique. Control-FREEC est un exemple bien connu qui estime le nombre de copies et le contenu allélique à partir des données NGS (voir Réf. 4).
La correction des biais est essentielle : le biais GC et les effets de répétition/mappabilité peuvent fausser la profondeur de lecture. Le guide de l'utilisateur de CNVkit offre une vue pratique des sources de biais et des stratégies de correction utilisées dans de véritables pipelines.
Si votre programme CNV est basé sur le séquençage en premier, le modèle de service principal est généralement séquençage du génome entier pour le profilage des CNV accompagné d'un contrat d'analyse qui spécifie les résultats CNV et les graphiques de contrôle de qualité.
3.3 Pourquoi le WGS passe-bas est de plus en plus utilisé pour le dépistage évolutif
Pour le dépistage des CNV à l'échelle des cohortes, WGS à passage bas (LP-WGS) est populaire car il répartit la mesure à travers le génome et peut être ajusté par :
- profondeur,
- taille de la benne,
- conception de référence,
- et les seuils de contrôle qualité.
Le point pratique : dans le LP-WGS, la résolution effective est limitée par le QC, pas limité au marketing. Vous obtiendrez de meilleurs résultats en définissant explicitement :
- quelles tailles vous avez l'intention d'appeler,
- quelles régions sont appelables,
- quelles métriques de confiance sont nécessaires,
- et comment les lots sont structurés.
Si vous devez choisir entre des plateformes, comparez. LP-WGS vs microarrays pour le dépistage évolutif des CNVSi votre équipe a besoin de détails sur l'implémentation de l'appel CNV LP-WGS, voir Bioinformatique pour le séquençage génomique à faible couverture : Mise en œuvre de cn.mops et de pipelines.
4. Interprétation des résultats CNV dans les flux de travail RUO
Le plus grand mode de défaillance dans les programmes CNV n'est pas l'appelant, mais le dérive d'interprétation : différentes équipes interprètent la même liste de segments de manière différente. Vous prévenez cela en standardisant ce que signifient "résolution", "confiance" et "appelabilité".
4.1 Ce que signifie réellement "résolution" (taille de bin, densité de sondes, région appelable)
Dans la pratique RUO, la résolution n'est pas un seul nombreC'est l'intersection de :
- Granularité de mesure: espacement des sondes (ensembles) ou taille de bin/fenêtre (séquençage)
- Région appelableQuelles parties du génome sont analysables compte tenu de l'unicité/de la cartographie et des filtres de contrôle de qualité ?
- Niveau de bruit: effets de lot + variabilité de la bibliothèque + qualité de normalisation
Une définition pratique des documents de programme :
Résolution efficace est la plus petite taille de CNV qui reste stable sous QC et retraitement dans votre pipeline.
Si vous souhaitez une discussion plus approfondie sur les limites d'interprétation au niveau des gènes par rapport aux appels à l'échelle chromosomique, consultez CNV au niveau des gènes vs. CNV chromosomique : Comprendre la résolution et les limites.
Pour des conceptions axées sur des loci/intervals définis, séquençage de région ciblée peut soutenir des questions plus étroites—il suffit d'être explicite sur la manière dont les lacunes et le biais de capture affectent l'inférence CN.
4.2 Artefacts courants : biais GC, répétitions, problèmes de mappabilité (et comment les détecter)
biais GC se présente souvent sous forme de "vagues" systématiques dans la profondeur de lecture à travers des régions riches ou pauvres en GC ; une correction robuste devrait aplanir les tendances de profondeur en fonction du GC. La documentation sur la correction des biais de CNVkit résume les biais courants et comment ils sont corrigés en pratique.
Répétitions et faible cartographie faire en sorte que les bacs/probes se comportent de manière imprévisible. Dans le séquençage, le mappage ambigu peut gonfler la profondeur ; dans les arrays, l'unicité des probes peut se dégrader. Les mesures d'atténuation durables incluent :
- définir un masque appelable,
- excluant les bacs/probes de faible qualité avant la segmentation,
- taguer les segments chevauchant des régions problématiques comme "interpréter avec prudence,"
- et nécessitant des seuils de preuve plus stricts pour l'interprétation dans des contextes de répétition dense.
4.3 Que rapporter : segments, métriques de confiance et livrables prêts pour l'externalisation
Un package de livrables CNV à l'échelle d'une cohorte qui soit réellement utilisable devrait inclure :
A) Tables de segments principaux
- chr, début, fin, longueur
- état CN inféré (ou proxy de ratio log2)
- score(s) de confiance ou postérieur du modèle
- drapeaux de région appelable (par exemple, % bases masquées ; chevauchement avec faible mappabilité)
B) Pack QC
- métriques de dispersion de couverture/intensité par échantillon
- Graphique de biais GC (avant/après correction)
- statistiques de résumé de segmentation (nombre de segments ; distribution des tailles)
- métriques de comparabilité au niveau du lot (déplacements de distribution entre les exécutions)
C) Intrigues
- profil génomique complet par échantillon (ou représentatif)
- graphes de zoom au niveau des chromosomes pour des événements majeurs
- résumés de la charge CNV au niveau des cohortes
Si vous sous-traitez l'analyse CNV, définissez explicitement. Livrables d'appel CNV et de contrôle qualité dans le cadre de la portée, et nécessitent un contrat de reporting reproductible (fichiers + métriques + graphiques). Pour un support d'analyse de bout en bout, voir Services de bioinformatique.
Pour les programmes d'opérations de grande envergure, standardisez l'intégration et les métadonnées dès le début : directives de soumission d'échantillons (PDF) comprend les métadonnées d'entrée et les exigences d'expédition.
5. QC et dépannage (Opérationnel, Orienté seuil)
Vous avez demandé des seuils de contrôle qualité ; pour les CNV, les seuils absolus universels sont difficiles à établir car ils dépendent de la plateforme, de la profondeur, du regroupement et de la conception de la cohorte/du lot. L'approche la plus robuste dans les pipelines RUO est QC basé sur la distribution (comparer chaque échantillon aux distributions de cohorte) plus un petit ensemble de vérifications spécifiques à la plateforme.
5.1 Portes QC que vous pouvez mettre en œuvre sans surajustement
Portes de contrôle QC multiplateformes
- Dispersion des valeurs aberrantes: échantillons de drapeaux avec une variance de bin/probe exceptionnellement élevée (par exemple, la partie supérieure de la distribution de variance).
- résidu de biais GCAprès correction, la corrélation du signal GC devrait être considérablement réduite (utilisez les résidus de corrélation/ajustement comme critère d'acceptation).
- Sanité des segmentsLes comptes de segments extrêmes indiquent généralement du bruit (trop nombreux) ou un lissage excessif (trop peu). Suivez la distribution des comptes de segments par lot.
- Fraction appelable: exiger une couverture minimale de la région appelable ; étiqueter les échantillons à faible appelabilité comme "uniquement pour le dépistage / faible confiance."
- Répliquer la concordance (si disponible) : les événements à grande échelle devraient être reproduits à travers des réplicats techniques.
Vérifications spécifiques aux tableaux
- Base LRR stable et structure BAF (voir Réf. 2).
Contrôles spécifiques à la séquence
- Uniformité de profondeur et comportement de duplication ; motifs de cartographie/couverture cohérents à travers le lot.
Si votre programme nécessite un débit prévisible et une exécution en amont standardisée pour de grands volumes d'échantillons, associer le dépistage CNV à un flux de travail NGS cohérent peut aider (par exemple, Séquençage de nouvelle génération).
5.2 Tableau de dépannage (Symptôme → cause probable → solution)
| Symptôme | Cause probable | Corriger (prochaines actions) |
|---|---|---|
| De nombreux segments courts à l'échelle du génome | bruit élevé ; normalisation faible ; effets de lot | augmenter la taille des bacs (séquençage) ou resserrer le contrôle qualité des sondes (arrays) ; reconstruire la référence ; retirer les échantillons aberrants ; normalisation sensible aux lots |
| Des motifs de "vague" alignés avec les extrêmes de GC | biais résiduel de GC | réajuster la correction GC ; s'assurer que la cohorte de référence correspond à la bibliothèque/au lot ; confirmer la politique de masquage |
| Appels enrichis en répétitions/duplications segmentaires | faible cartographie/unicité de sonde | masquer des bins/probes à faible mappabilité ; annoter les segments avec des indicateurs appelables ; exiger des preuves plus solides pour l'interprétation |
| Les décalages de base diffèrent d'une exécution à l'autre. | déplacements au niveau des lots | références sensibles aux lots ; équilibrer les cohortes ; inclure des échantillons de contrôle/référence cohérents par lot |
| Les répliques divergent pour les grands événements. | échantillon de QC ou instabilité de pipeline | audit de la cartographie et uniformité de la couverture ; vérifier les paramètres de segmentation ; enquêter sur les échanges d'échantillons / incohérence des métadonnées |
| Les déclarations au niveau des gènes ne correspondent pas aux preuves segmentaires. | résolution de malentendu | rapportez d'abord le segment ; dérivez des résumés de chevauchement de gènes uniquement avec des bins/probes de soutien adéquats ; reliez les parties prenantes à l'explication de la résolution |
6. Cadre de Décision : Quand Utiliser l'Appel CNV (et Quand Ne Pas le Faire)
Voici un raccourci pratique pour la sélection de méthodes conçu pour des équipes interfonctionnelles (laboratoire humide + bioinformatique + opérations de programme). Utilisez-le pour choisir une plateforme "première approche" et aligner les attentes. résolution efficace, débit et réutilisation en avalEnsuite, confirmez le choix avec un petit pilote qui mesure la dispersion QC, les résidus GC et la stabilité des segments lors du retraitement.
Sélection rapide de méthode (pré-sélection de 30 secondes)
| Objectif / contrainte | Meilleure option de premier passage | Pourquoi cela convient-il ? | Avertissements |
|---|---|---|---|
| Cohortes très larges ; coût + débit priorisés ; référence génomique à l'échelle du génome. | LP-WGS CNV (première profondeur de lecture) | scalable, réutilisable, ajustable pour le binning/QC | la résolution efficace est limitée par le contrôle qualité ; la conception du lot est importante |
| Génotypage standardisé + CNV à partir de l'intensité/BAF dans des cohortes | Arrays SNP (LRR/BAF) | flux de travail matures, conventions stables | écarts de sonde ; variations d'intensité par lot |
| Panneaux de loci ciblés ; CN dans des régions définies | Séquençage ciblé | concentrer les ressources sur des lieux d'intérêt | biais de capture ; couverture inégale ; effets de lacune |
| Besoin d'un contexte structurel riche en points d'arrêt. | séquençage avec preuves de rupture (dépendant du design) | peut ajouter des preuves de lecture fractionnée/discordantes | Les régions répétées restent difficiles ; nécessitent une cartographie/contrôle qualité minutieux. |
Lorsque l'analyse CNV est un bon choix pour un usage en recherche.
- Dépistage de base de la cohorte pour des bases de données de recherche à l'échelle de la population et leur réutilisation
- Contrôle qualité des lignées cellulaires/modèles et surveillance de la dérive à travers les passages/lotissements
- Caractérisation des modèles oncologiques précliniquesoù l'instabilité du nombre de copies fait partie de la biologie modèle
Quand l'appel de CNV sera probablement frustrant
- Vous avez besoin de points de rupture précis dans des régions à forte répétition en utilisant des signaux rares.
- Vous avez besoin d'événements très petits à haute confiance sans stratégie de profondeur/binning suffisante.
- Vous ne pouvez pas contrôler ou modéliser la structure de lot et le design de référence.
Une liste de contrôle pratique "go/no-go" pour les responsables de programme :
- Pouvez-vous définir un masque de région appelable et l'acceptation QC ?
- Pouvez-vous équilibrer ou au moins modéliser les effets de lot ?
- Pouvez-vous standardiser les livrables afin que les équipes en aval ne réinterprètent pas les résultats de manière ad hoc ?
7. Cas d'utilisation RUO courants
7.1 Dépistage de cohorte à haut débit / bases génomiques de population
Pour de grandes cohortes, les objectifs opérationnels sont :
- débit prévisible,
- taux de rediffusion faible,
- taux de réussite QC stables,
- et la réutilisation des données dans les analyses futures.
Définir tôt :
- tailles de CNV que vous visez à détecter,
- Métriques de contrôle qualité qui définissent l'acceptation,
- et les livrables nécessaires aux consommateurs (segments + pack QC + graphiques).
7.2 Contrôle de qualité des lignées cellulaires et surveillance de la dérive
Un modèle de surveillance pratique :
- profil de CN de référence à un stade précoce,
- reprofilage périodique après des changements majeurs de processus,
- règles d'alerte liées à des changements à grande échelle plutôt qu'à des appels ponctuels.
La normalisation des plateformes et des rapports améliore la comparabilité dans le temps ; maintenez les attentes et les résultats du flux de travail cohérents avec les capacités de votre plateforme (voir Aperçu de la plateforme).
7.3 Modèles oncologiques précliniques (instabilité du nombre de copies et interprétation des CNA)
Dans les modèles de R&D en oncologie préclinique, les profils CN/CNA sont utilisés pour :
- comparer les historiques des lots et des passages,
- interpréter les changements au niveau des voies sous sélection,
- communiquer la comparabilité des modèles entre les équipes.
Pour le cadrage de l'ADN par rapport à l'expression dans les flux de travail d'interprétation des CN, voir Validation des CNV RNA-Seq : Pourquoi le séquençage de l'ADN est essentiel.
8. FAQ
1) Qu'est-ce que le CNV dans la définition la plus simple et correcte ?
Un CNV est un changement dans le nombre de copies d'ADN d'une région génomique, représenté comme un segment avec un état CN inféré par rapport à une référence de base.
2) Le nombre de copies est-il une propriété du gène ou une propriété du segment ?
C'est principalement un propriété de segment soutenu par des bacs/probes/lectures ; les résumés au niveau des gènes sont des annotations dérivées.
3) En quoi la CNV est-elle différente de l'aneuploïdie ?
L'aneuploïdie fait référence à chromosome entier ou grand bras gains/pertes ; les CNV peuvent être focaux ou larges mais sont souvent décrits comme des segments régionaux.
4) Quels signaux les puces utilisent-elles pour l'appel de CNV ?
Les arrays s'appuient sur des proxies CN dérivés de l'intensité et des signaux alléliques (LRR/BAF), qui sont explicitement utilisés dans les méthodes classiques de CNV par array comme PennCNV (voir Réf. 2).
5) Quels signaux utilise le séquençage ?
L'appel de CNV par séquençage utilise couramment profondeur de lecture; certains pipelines intègrent le contenu allélique et les preuves de rupture en fonction des données et de la conception. cn.MOPS et Control-FREEC sont des méthodes représentatives (voir Réf. 3–4).
6) Pourquoi les artefacts de CNV apparaissent-ils dans des régions riches ou pauvres en GC ?
Le biais GC distord la profondeur de lecture ; la correction et les vérifications résiduelles sont essentielles dans les pipelines CNV basés sur le séquençage.
7) Que devrais-je demander si je sous-traite l'appel CNV ?
Au minimum : tableau de segments + paquet QC (dispersion, résidus GC, fraction appelable) + graphiques + conception de référence documentée et politique de masquage.
8) Le séquençage de l'exome peut-il soutenir l'inférence de CNV ?
Cela peut, mais l'irrégularité de la couverture et le biais de capture peuvent compliquer l'inférence de CN. Si vous utilisez des CN dérivés de l'exome, soyez explicite sur les intervalles appelables et la stratégie de validation. Pour les options de séquençage, voir Séquençage de l'exome entier.
Références:
- Hastings PJ, Lupski JR, Rosenberg SM, Ira G. "Mécanismes de changement dans le nombre de copies de gènes." Nat Rev Genet (2009). DOI : 10.1038/nrg2593
- Wang K, Li M, Hadley D, et al. "PennCNV : un modèle de Markov caché intégré conçu pour la détection de variations du nombre de copies à haute résolution dans les données de génotypage SNP du génome entier." Recherche sur le génome (2007). DOI : 10.1101/gr.6861907
- Klambauer G, Schwarzbauer K, Mayr A, et al. "cn.MOPS : mélange de Poissons pour la découverte de variations du nombre de copies dans les données de séquençage de nouvelle génération avec un faible taux de faux positifs." Recherche sur les acides nucléiques (2012). DOI : 10.1093/nar/gks003
- Boeva V, Popova T, Bleakley K, et al. "Control-FREEC : un outil pour évaluer le nombre de copies et le contenu allélique en utilisant des données de séquençage de nouvelle génération." Bioinformatique (2012). DOI : 10.1093/bioinformatics/btr670
- Talevich E, Shain AH, Botton T, Bastian BC. "CNVkit : Détection et visualisation de la variation du nombre de copies à l'échelle du génome à partir du séquençage ciblé de l'ADN." PLOS Biologie Computationnelle (2016). DOI : 10.1371/journal.pcbi.1004873
- Corrections de biais pour la GC, les répétitions et la densité cible. cnvkit.readthedocs.io/fr/stable/bias.html