What is “gene copy number” in practical terms?

Gene copy number is the inferred number of DNA copies overlapping a gene. Most pipelines infer it from segments whose boundaries may not match gene boundaries—so “gene-level CNV” is often a segment interpretation unless the assay provides dense locus evidence.

Can low-pass WGS reliably detect gene-level deletions/duplications?

Sometimes, but not consistently across loci. Low-pass is strongest for broad events. Gene-level detection depends on locus mappability, GC, bin size, and noise. If you must be right, plan deeper coverage or targeted confirmation.

Does smaller bin size always improve resolution?

No. Smaller bins increase spatial detail but also increase noise per bin. If coverage is not increased accordingly, smaller bins can produce more false positives and unstable segmentation.

Why do some loci show “recurrent CNVs” across many unrelated samples?

Often technical artifacts: low mappability, repeats, or reference bias. Cohort-wide recurrence in the same region is a strong signal to use masks/blacklists and treat that region cautiously.

What deliverables should we require for cohort CNV work?

At minimum: genome-wide plots, segment tables, QC summaries, and mask/blacklist reporting. For scale, request cohort QC dashboards and documented parameter defaults (bin size, segmentation rules, normalization approach).

How should we handle “tentative” gene-level calls in RUO pipelines?

Label them explicitly as tentative and route them to a predefined confirmation path (targeted sequencing, MLPA, or higher-depth WGS). Avoid embedding tentative calls into downstream decisions without confirmation.

How do microarrays compare for gene-level resolution?

Arrays can provide higher locus density in some regions, but probe placement is uneven and repeat regions remain difficult. Arrays and WGS have different bias profiles; the best choice depends on your question type and cohort scale.

What’s the most common reason CNV results differ between batches?

Batch effects: changes in library prep, sequencing runs, or sample handling that alter coverage bias patterns. The fix is rigorous batch QC, consistent protocols, and batch-aware normalization.

CNV au niveau des gènes vs. CNV chromosomique : Comprendre la résolution et les limites

L'analyse de la variation du nombre de copies (CNV) ne fonctionne que si la résolution effective correspond à votre question de recherche et à votre seuil de bruit. Pour de grandes cohortes, vous n'avez peut-être besoin de signaler que les événements de chromosomes entiers et de bras de chromosomes de manière cohérente. Mais si la question est "Ce gène spécifique est-il amplifié ou supprimé ?", le même design à faible couverture qui excelle dans les CNA larges peut devenir ambigu—surtout dans les régions répétitives, biaisées en GC ou à faible capacité de cartographie.

Cette ressource explique ce que signifie réellement la "résolution" des CNV, ce qui la contrôle dans les microarrays par rapport au séquençage du génome entier, pourquoi le "CNV au niveau des gènes" n'est pas toujours identifiable dans les conceptions à faible couverture, et comment sélectionner les bons paramètres de plateforme et de pipeline pour les flux de travail des cohortes RUO.

1. Ce que signifie "Résolution" dans l'appel CNV

"La résolution" n'est pas un nombre unique. C'est la plus petite taille d'événement que vous pouvez détecter et appeler de manière cohérente avec un risque acceptable de faux positifs/faux négatifs compte tenu de votre niveau de bruit. En pratique, la résolution CNV est contrainte par :

Densité du signal : combien d'observations indépendantes soutiennent un changement de CN (par exemple, des bacs, des sondes)
Bruit : variance de couverture, vagues GC, pertes de mappabilité, effets de lot
Comportement de segmentation : les algorithmes ne "voient pas les gènes" ; ils infèrent des segments à variation constante par morceaux qui expliquent le mieux les données.

Une façon utile de penser à la résolution dans les cohortes RUO est : quelle est la plus petite CNV qui reste stable si vous réexécutez le même échantillon dans un lot, un couloir ou une semaine différents ? Si la réponse change, vous êtes en dessous de la résolution effective de votre flux de travail.

1.1 Événements au niveau des gènes, au niveau des segments et au niveau chromosomique

Séparez votre intention en trois "échelles d'événements" :

Événements au niveau chromosomique
Gains/pertes de chromosomes entiers (aneuploïdie) ou CNAs très larges.
Événements au niveau des segments
Des changements continus de CN s'étendant sur des mégabases à des centaines de kilobases. De nombreux pipelines à faible couverture fonctionnent effectivement dans ce régime.
Événements au niveau des gènes (CNVs focaux)
Petites suppressions/duplications qui chevauchent un ou quelques gènes. Celles-ci peuvent faire des dizaines de kb (ou moins), parfois avec des points de rupture complexes et des répétitions.

Un point pratique clé : même lorsqu'un CNV chevauche un gène, l'appel est généralement dérivé du segment, et non véritablement "résolu par gène", à moins que le test ne fournisse une densité suffisante (sondes) ou une profondeur/benches (WGS) à travers ce gène.

1.2 Ce qui contrôle la résolution : densité de sonde (réseaux) vs profondeur/taille de bin (WGS)

Microarrays : La résolution effective est principalement limitée par la densité des sondes et le placement des sondes. Les régions avec des sondes rares (répétitions, duplications segmentaires) réduisent la résolution utilisable. Les conceptions à haute densité peuvent approcher une couverture au niveau des exons/gènes dans des régions bien comportées, mais la performance est inégale à travers le génome.
CNV de profondeur de lecture WGS : La résolution est contrôlée par deux boutons liés :

Couverture (×) : une couverture plus élevée réduit le bruit d'échantillonnage.
Taille de la fenêtre : des bacs plus petits augmentent le détail spatial mais augmentent le bruit par bac.

Intuition sur la taille du bin × profondeur (pas de formules, juste la réalité) :
Réduire la taille des bins sans augmenter la profondeur tend à gonfler la variance dans chaque bin. Cela produit souvent des profils "chargés" avec de nombreux segments courts—exactement le motif qui ressemble à des CNVs focaux mais qui est en réalité de l'instabilité. Si vous réduisez agressivement la taille des bins à faible couverture, vous échangez généralement un "détail" apparent contre un taux de faux positifs plus élevé et une moins bonne reproductibilité entre les lots. La Figure 1 est un rappel utile : la résolution est obtenue par la densité du signal, pas par un zoom souhaité.

Pour les flux de travail à l'échelle des cohortes, les équipes visent généralement une standardisation stable de bout en bout : un flux de travail standardisé de séquençage de génome entier (WGS) associé à un pipeline d'appel de variantes répétable et les paramètres CNV documentés (binning, masques, valeurs par défaut de segmentation).

Voir la Figure 1 pour aligner votre échelle de question avec la densité de signal minimale nécessaire avant d'interpréter les résultats au niveau des gènes.

Figure 1. CNV Resolution Ladder: What You Can Call at Each Scale. Chromosome → arm → Mb segment → kb segment → gene; arrays are constrained by probe density, WGS by coverage and bin size. Figure 1. Échelle de résolution CNV : Ce que vous pouvez appeler à chaque échelle. Chromosome → bras → segment de Mb → segment de kb → gène ; les arrays sont contraints par la densité des sondes, le WGS par la couverture et la taille des bins.

1.3 Pourquoi le "CNV au niveau des gènes" n'est pas toujours identifiable dans les conceptions à faible couverture

Les conceptions à filtre passe-bas sont optimisées pour la scalabilité. Mais le "CNV au niveau des gènes" nécessite des preuves locales de haute confiance sur une courte étendue génomique.

Raisons courantes pour lesquelles le low-pass a des difficultés à l'échelle des gènes :

Trop peu de bins informatifs chevauchent le locus (surtout si les bins sont ≥100 kb)
Limites de mappabilité : les courtes lectures dans les répétitions/dupliqués segmentaires produisent une couverture ambiguë.
Des ondes guidées par le GC : de petits loci peuvent être dominés par un biais local en GC plutôt que par un véritable CN.
Lissage de segmentation : les algorithmes privilégient les segments plus longs et stables lorsque le bruit est élevé.

En résumé : dans des contextes à passage bas, les appels au niveau des gènes sont souvent mieux considérés comme des hypothèses à moins que vous ne puissiez montrer un fort soutien local et un contrôle de qualité stable.

2. Événements chromosomiques : Ce dans quoi le Low-Pass excelle

Si votre objectif de cohorte est d'identifier de manière fiable des changements de nombre de copies à grande échelle (chromosome / bras / multi-mégabase), le séquençage génomique à faible couverture est souvent une solution adaptée.

2.1 Gains/pertes de chromosomes entiers (aneuploïdie)

Les changements de CN à l'échelle du chromosome entier génèrent un signal large et cohérent sur tout un chromosome. Même avec une couverture modeste, ces événements peuvent apparaître comme des déviations stables dans le rapport de copie à travers de nombreux bins, les rendant ainsi relativement robustes au bruit et aux biais locaux.

Dans les programmes de cohortes RUO, une approche courante consiste à standardiser la "détection large de CNA" en tant que livrable de production sous Séquençage CNV avec un binning fixe, un masquage et des portes de contrôle qualité. L'objectif n'est pas de maximiser le détail par échantillon ; il s'agit de maximiser la cohérence du groupe.

2.2 Événements sur les bras des chromosomes et grandes CNA

Les événements au niveau des bras (perte du bras p, gain du bras q) sont également des signaux "larges". Ils ont tendance à être détectables lorsque votre binning et votre normalisation sont stables et que votre pipeline exclut correctement les régions problématiques.

Opérationnellement, c'est ici que la "résolution" devient actionnable : si vous pouvez accepter "niveau bras et au-dessus", vous pouvez prioriser le traitement standardisé et la comparabilité des cohortes. De nombreux dépistages à grande échelle utilisent approches de séquençage léger (WGS à faible profondeur) spécifiquement parce qu'ils préservent une grande sensibilité aux événements tout en maintenant l'empreinte par échantillon à un niveau gérable.

Voir la Figure 2 pour la signature visuelle des CNA larges et stables qui sont appropriés pour le rapport de niveau de segment.

Figure 2. Example CNA Landscape: Broad Shifts Across Chromosomes. Whole-chromosome and arm-level events create smooth shifts in copy ratio across many bins. Figure 2. Exemple de paysage CNA : grands changements à travers les chromosomes. Les événements à l'échelle du chromosome entier et des bras créent des variations fluides dans le rapport de copie à travers de nombreux bins.

2.3 Formats de rapport courants (graphiques à l'échelle du génome, tableaux de segments)

Pour le travail de la cohorte RUO, les résultats de CNV devraient soutenir :

QC au niveau de la cohorte (identifier les valeurs aberrantes, effets de lot),
revue d'événement (qu'est-ce qui a changé, où, quelle ampleur)
intégration en aval (annotation, stratification, reporting).

Livrables typiques :

Graphique du rapport de copie à l'échelle du génome (par échantillon et/ou résumé de cohorte)
Table des segments (chr, début, fin, ratio log2, état CN inféré, confiance optionnelle)
Résumé QC (métriques de cartographie, métriques de bruit, indicateurs de biais)
Rapport de masque/liste noire (régions exclues telles que les centromères/ faible cartographie)

Si vous avez déjà des bibliothèques préparées et que vous souhaitez maintenir la cohérence du traitement des cohortes, séquençage de bibliothèque préfabriquée peut aider à standardiser les conditions d'un cycle à l'autre tout en maintenant votre pipeline CNV en aval comparable.

3. Événements au niveau des gènes : Quand vous avez besoin de plus de signal

Lorsque votre question est ciblée—« ce gène a-t-il un gain/perte ? »—supposez que vous avez besoin d'une densité de signal plus élevée ou d'une stratégie ciblée.

3.1 Amplifications/délétions focales petites : pourquoi elles sont plus difficiles

Les événements focaux sont difficiles car ils rivalisent avec des sources de bruit à des échelles de longueur similaires :

Les vagues GC peuvent sembler représenter un petit gain/perte.
L'ambiguïté de l'alignement local réduit les lectures utilisables.
la segmentation peut fusionner de petits événements avec la ligne de base voisine si les preuves sont minces

En d'autres termes, la détection des CNV focaux n'est pas simplement un "zoom". Il s'agit de modifier l'expérience et le pipeline afin que le locus dispose de suffisamment de preuves indépendantes.

3.2 Boutons pratiques : couverture plus approfondie, tests ciblés, stratégies hybrides

Trois stratégies courantes :

A) Augmenter la couverture et resserrer les bacs
Si vous pouvez passer d'un filtre passe-bas à un WGS plus profond, vous réduisez la variance par bin et pouvez réduire les tailles de bin plus en toute sécurité. Cela augmente la sensibilité aux événements plus petits, mais augmente également le calcul et le stockage, et peut amplifier les effets de lot si les protocoles ne sont pas verrouillés.

B) Utilisez l'enrichissement ciblé lorsque seul un sous-ensemble de loci est important.
Si vous vous souciez des loci définis, les approches ciblées concentrent les lectures là où vous en avez besoin :

séquençage de région ciblée pour des loci personnalisés
a service de séquençage de panneaux de gènes lorsque les loci sont stables et bien définis

Les conceptions ciblées peuvent améliorer la confiance au niveau du locus, mais vous devez tenir compte du biais de densité des cibles et du comportement de normalisation qui diffère de celui du WGS.

C) Stratégie hybride : filtrer largement, confirmer de manière ciblée
Un schéma de cohorte courant est : WGS à faible passage pour un dépistage large → méthode ciblée/orthogonale pour une confirmation focale. Cela préserve le contexte à l'échelle de la cohorte tout en protégeant les décisions au niveau des gènes qui doivent être correctes.

Pour la confirmation orthogonale du nombre de copies à des loci spécifiques, utilisez essais de nombre de copies orthogonaux (par exemple, MLPA) lorsque cela est approprié pour le locus et les besoins en débit.

3.3 Interpréter les appels au niveau des gènes avec prudence (répétitions, GC, mappabilité)

Si vous devez signaler des appels au niveau des gènes à partir d'un design à faible signal, faites-le avec des avertissements explicites et des seuils de contrôle qualité :

Les duplications segmentaires et les paralogues peuvent fausser la profondeur de lecture.
Extrêmes GC : les artefacts de couverture systématique augmentent les faux positifs locaux.
Mappabilité : une faible unicité réduit le nombre de lectures effectives soutenant le locus.
Ambiguïté des limites : les points de rupture s'alignent rarement proprement avec les bacs/probes.

Une habitude de reporting pratique est de qualifier les résultats au niveau des gènes comme :

"soutenu" (plusieurs bacs/probes adjacents soutiennent le changement, faibles résidus GC, bruit acceptable), ou
"tentatif" (quelques bacs, risque de GC/mappabilité) avec une méthode de suivi recommandée.

4. Choisir la bonne plateforme en fonction du type de question

Cette section est conçue pour deux publics : les responsables des opérations (échelle, débit) et les propriétaires de pipeline (préparation QC). Voir la Figure 3 pour un chemin rapide "question → méthode".

4.1 Dépistage de grandes cohortes : prioriser le débit + détection d'événements larges

Si votre objectif est le dépistage à l'échelle de cohortes pour des événements chromosomiques/bras/segments larges, privilégiez :

paramètres de préparation de bibliothèque et de séquençage standardisés,
normalisation stable entre les lots,
livrables faciles à contrôler en qualité à grande échelle.

Pour la compatibilité en aval (études d'association, structure, stratification), certains programmes associent les résultats des CNV avec des couches de génotypage telles que génotypage SNP du génome entier où la conception de l'étude bénéficie des métriques basées sur les SNP.

Pour une comparaison au niveau de la plateforme entre le WGS à passe-bas et les microarrays pour le dépistage des CNV, voir ce guide.

4.2 Confirmation de la cible du modèle / programme (RUO) : décider si la sensibilité focale est requise

Si l'étape suivante dépend d'une conclusion au niveau des gènes (par exemple, si un locus est gagné/perdu dans un modèle de recherche non clinique), décidez à l'avance si vous avez besoin de :

appels de CNV focaux à haute confiance, ou
contexte large de CNA + une confirmation explicite de suivi.

Lorsque la sensibilité focale est requise, envisagez :

WGS plus profond, ou
enrichissement ciblé (par exemple, un) service de séquençage de panneaux génétiques), plus
un flux de travail de confirmation orthogonal.

Pour certains programmes, un ensemble de confirmation pratique cible le séquençage des loci plus la validation des points de rupture par Séquençage de Sanger lorsque des jonctions spécifiques sont connues ou peuvent être amplifiées.

4.3 Préparation du pipeline : ce dont les équipes internes ont besoin pour le contrôle qualité et la compatibilité

Pour les bioinformaticiens et les propriétaires de plateformes, la préparation concerne la répétabilité :

Choix de référence et masques : construction de génome cohérente et listes noires de mappabilité
Stratégie de normalisation : correction de la GC/mappabilité et contrôles sensibles aux lots
Paramètres de segmentation : valeurs par défaut stables avec des règles de réglage documentées.
Tableau de bord QC de cohorte : détecter les valeurs aberrantes, les dérives et les effets de lot tôt.
Spécifications des livrables : graphiques standardisés, tableaux de segments, seuils de contrôle qualité.

Pour les détails de mise en œuvre - binning, QC et attentes en matière de livrables dans les pipelines passe-bas - voir cet article de bioinformatique WGS passe-bas.

Figure 3. Question → Method Decision Tree. Choose broad screening vs higher-resolution follow-up vs orthogonal confirmation, with QC checkpoints. Figure 3. Question → Arbre de décision Méthode. Choisir entre un dépistage large, un suivi à plus haute résolution ou une confirmation orthogonale, avec des points de contrôle de QC.

5. QC et dépannage : Rendre la "Résolution" fiable à grande échelle

Les revendications de résolution ne sont significatives que si vous pouvez démontrer que les données sont stables. Ci-dessous se trouve un manuel de contrôle qualité pratique orienté vers le travail RUO à l'échelle des cohortes.

5.1 Signaux QC minimum à suivre (par échantillon)

Suivez-les au minimum :

Nombre de lectures mappées (lectures utilisables après filtrage)
Uniformité de couverture / complétude des bins (fraction de bins avec un nombre suffisant de lectures)
Résidu de biais GC (pente/résidu après correction)
Métrique de bruit (MAD des rapports log2, variance entre les bins, ou résidu de segmentation)
Fraction d'outliers/blacklistés (proportion de bacs masqués)

Astuce : définissez une "plage de passage QC" en utilisant les 50 à 100 premières échantillons, puis verrouillez les seuils pour la production afin d'éviter de changer les objectifs.

Module B : tableau de seuil de QC de départ (calibrer, puis verrouiller)
Ce sont des points de départ à calibrer sur vos 50 à 100 premiers échantillons ; verrouillez les seuils pour la production une fois validés.

métrique de contrôle qualité	Démarrer le groupe "Go" (RUO)	groupe "Caution"	Ce que cela impacte	Action typique
Taux de cartographie (alignement principal)	≥ 90 %	80–90 %	densité de signal efficace	révision de la taille/référence ; échantillon de drapeau
Taux de duplication	≤ 30 %	30 à 50 %	bruit, instabilité de segmentation	ajuster la bibliothèque/entrées ; envisager de relancer
Complétude des bacs (bacs non masqués avec couverture)	≥ 95 %	90–95 %	résolution efficace partout	vérifier la contamination/cartographie ; signaler
Résidu GC après correction (qualitatif)	bas/plat	vagues modérées	faux positifs focaux	resserrer la normalisation ; augmenter la taille des bins
MAD des rapports log2 (à l'échelle du génome)	≤ 0,25	0,25–0,35	segmentation fausse	augmenter la taille des bacs ; ajuster la segmentation
Bacs masqués/noirs en fraction	≤ 10 %	10–20 %	interprétabilité	annoter ; éviter d'appeler dans des loci masqués
Dérive de lot (dérive du rapport log2 médian)	~0	dérive cohérente	comparabilité des cohortes	normalisation consciente des lots ; processus d'audit

(Les points de départ sont intentionnellement conservateurs et doivent être personnalisés en fonction de la méthode de bibliothèque, de la couverture et de la référence.)

5.2 Tableau de dépannage (symptôme → cause probable → solution)

Symptôme (ce que vous voyez)	Cause probable	Ce que cela casse	Correction / prochaine action
Fort motif "onde" à travers de nombreux chromosomes	biais GC, biais de bibliothèque, effet de lot	gonfle les faux positifs à petite échelle	resserrer la correction GC ; vérifier la cohérence du protocole ; envisager des bacs plus grands
De nombreux segments courts ("sous-segmentation")	bruit trop élevé pour la taille de bin choisie	CNV focaux spurius	augmenter la taille des bacs ; augmenter les pénalités de segmentation ; supprimer les bacs aberrants
Une grande fraction de bacs manquants/près de zéro	mauvaise cartographie, contamination, configuration d'alignement	diminue la résolution effective	vérifier le taux de correspondance ; confirmer la construction de référence ; examiner le trimming ; envisager une nouvelle exécution
"Points chauds de CNV" récurrents aux mêmes loci dans de nombreux échantillons	faible mappabilité/répétitions/artéfacts	événements faux à l'échelle de la cohorte	appliquer des masques de mappabilité ; régions sur liste noire ; éviter l'interprétation là-bas
Un lot systématiquement décalé	effet de lot / différences de lot de bibliothèque	détruit la comparabilité des cohortes	normalisation consciente des lots ; rééquilibrer les lots ; auditer les étapes en laboratoire humide
Appel au niveau des gènes non pris en charge par les voisins	trop peu de bacs informatifs ; biais local	inférence de locus peu fiable	étiquette provisoire ; confirmer par méthode ciblée/orthogonale

5.3 Garde-fous pratiques pour la résolution (règles empiriques)

Parce que les cohortes diffèrent, définissez des seuils validés. Garde-fous pratiques pour les programmes RUO :

Traitez les appels au niveau des chromosomes/bras comme des résultats principaux pour le dépistage à faible couverture.
Traitez les appels au niveau sub-mégabase / gène comme des hypothèses, à moins que vous ne puissiez démontrer :

plusieurs bacs/probes adjacents soutiennent le décalage,
résidus GC faibles / artefacts d'onde minimaux,
bruit génomique acceptable (MAD/variance stable),
le locus n'est pas dans un contexte de faible mappabilité/riche en répétitions.

Si votre programme nécessite une certitude constante au niveau du locus, intégrez-la dans la conception (WGS plus approfondi ou enrichissement ciblé) plutôt que de forcer des appels de gènes à partir d'un faible passage.

6. Cadre de Décision : Quand Utiliser Quoi (et Quand Ne Pas Le Faire)

Rappel de la limite RUO (à conserver avec cette section) :
Toutes les recommandations ici sont destinées aux flux de travail de recherche tels que le contrôle de qualité des cohortes, le dépistage exploratoire, la caractérisation des modèles et le développement de méthodes. Les résultats de CNV et les seuils de QC doivent être interprétés comme des signaux analytiques pour guider les expériences suivantes et la prise de décision interne dans les programmes RUO. Ils ne sont pas conçus ni validés pour des revendications diagnostiques, pronostiques ou thérapeutiques, et ne doivent pas être utilisés pour inférer des résultats ou guider des actions cliniques. Pour toute étude nécessitant des conclusions de locus de haute confiance, planifiez une stratégie de confirmation appropriée (par exemple, séquençage à plus grande profondeur, enrichissement ciblé ou tests de nombre de copies orthogonaux) et définissez des critères d'acceptation avant de passer à des milliers d'échantillons.

Module A : tableau de décision d'une minute (méthode de sélection + rapport de note)

Utilisez ce tableau pour choisir une méthode et définir les attentes concernant ce que vous allez rapporter comme "note de segment" par rapport à "note d'hypothèse".

Votre question principale	Méthode primaire recommandée	Note de rapport typique	Suivi courant (RUO)	Remarques / pièges
CNA de chromosome entier / bras à travers de nombreux échantillons	CNV de profondeur de lecture WGS à faible fréquence	Segment de note	aucun ou contrôle qualité par échantillonnage	robuste au bruit si le QC est stable
CNA multi-Mb segment	Filtre passe-bas WGS + binning/segmentation stable	Segment de note	confirmer les cas limites	la taille du bin est trop petite, ce qui peut gonfler le FP
Gain/perte de gènes focaux nécessaire pour les décisions du programme	Enrichissement ciblé ou WGS approfondi	Gene-grade (si validé)	essai orthogonal	les répétitions/GC/mappabilité dominent souvent
"Point d'intérêt" depuis l'écran passe-bas	Filtre passe-bas	Hypothèse de grade	essai ciblé / MLPA / séquençage génomique complet approfondi	ne pas surinterpréter des bacs isolés
Caractérisation au niveau des points d'arrêt	Séquençage ciblé / lecture longue (selon le cas)	structure-classe	validation de jonction selon les besoins	La cartographie des points d'arrêt nécessite des preuves différentes.

Utilisez le WGS passe-bas lorsque :

votre objectif principal est le dépistage CNA large (chromosome entier, bras, grands segments)
vous avez besoin d'un haut débit pour des milliers d'échantillons
vous voulez des données qui peuvent être réutilisées ultérieurement (CQ, stratification, analyses secondaires)
les critères d'acceptation peuvent être formulés à la résolution de segment/chromosome

Évitez de vous fier uniquement au WGS passe-bas lorsque :

les décisions dépendent de la confiance dans les CNV au niveau des gènes
le locus se situe dans des répétitions / des duplications segmentaires / un GC extrême
vous avez besoin de points de rupture précis ou de détection d'événements très petits
les types d'échantillons de cohorte créent des schémas de biais instables

Considérez une stratégie hybride lorsque :

vous souhaitez un dépistage large à grande échelle mais devez être précis sur un sous-ensemble
Exemple : écran passe-bas → confirmer les loci sélectionnés via séquençage ciblé ou MLPA (RUO).

FAQ

1) Qu'est-ce que le "nombre de copies de gènes" en termes pratiques ?

Le nombre de copies de gènes est le nombre déduit de copies d'ADN chevauchant un gène. La plupart des pipelines l'infèrent à partir de segments dont les limites peuvent ne pas correspondre aux limites des gènes, donc le "CNV au niveau des gènes" est souvent une interprétation de segment, à moins que l'essai ne fournisse des preuves de locus denses.

2) Les WGS à faible passage peuvent-ils détecter de manière fiable les délétions/duplications au niveau des gènes ?

Parfois, mais pas de manière cohérente à travers les loci. Le low-pass est le plus efficace pour les événements larges. La détection au niveau des gènes dépend de la cartographie des loci, du GC, de la taille des bins et du bruit. Si vous devez être certain, prévoyez une couverture plus profonde ou une confirmation ciblée.

3) La taille de bin plus petite améliore-t-elle toujours la résolution ?

Non. Des bacs plus petits augmentent le détail spatial mais augmentent également le bruit par bac. Si la couverture n'est pas augmentée en conséquence, des bacs plus petits peuvent produire plus de faux positifs et une segmentation instable.

4) Pourquoi certains loci présentent-ils des "CNV récurrents" dans de nombreux échantillons non apparentés ?

Souvent des artefacts techniques : faible mappabilité, répétitions ou biais de référence. La récurrence à l'échelle de la cohorte dans la même région est un signal fort pour utiliser des masques/listes noires et traiter cette région avec prudence.

5) Quels livrables devrions-nous exiger pour le travail sur les CNV de la cohorte ?

Au minimum : graphiques à l'échelle du génome, tableaux de segments, résumés de contrôle qualité et rapports de masques/liste noire. Pour l'échelle, demandez des tableaux de bord de contrôle qualité des cohortes et des paramètres par défaut documentés (taille de bin, règles de segmentation, approche de normalisation).

6) Comment devrions-nous gérer les appels au niveau des gènes "provisoires" dans les pipelines RUO ?

Étiquetez-les explicitement comme provisoires et dirigez-les vers un chemin de confirmation prédéfini (séquençage ciblé, MLPA ou WGS à plus haute profondeur). Évitez d'incorporer des appels provisoires dans des décisions en aval sans confirmation.

7) Comment les microarrays se comparent-ils en termes de résolution au niveau des gènes ?

Les arrays peuvent offrir une densité de locus plus élevée dans certaines régions, mais le placement des sondes est inégal et les régions répétées restent difficiles. Les arrays et le séquençage génomique complet (WGS) ont des profils de biais différents ; le meilleur choix dépend de votre type de question et de l'échelle de votre cohorte.

8) Quelle est la raison la plus courante pour laquelle les résultats de CNV diffèrent entre les lots ?

Effets de lot : changements dans la préparation de la bibliothèque, les séquences ou la manipulation des échantillons qui modifient les motifs de biais de couverture. La solution consiste en un contrôle qualité rigoureux des lots, des protocoles cohérents et une normalisation tenant compte des lots.

Références

Klambauer G, Schwarzbauer K, Mayr A, et al. cn.MOPS : Mélange de Poissons pour la Découverte de Variations du Nombre de Copies dans les Données de Séquençage de Nouvelle Génération avec un Faible Taux de Découverte Erronée. Nucleic Acids Research (2012). DOI : 10.1093/nar/gks003
Talevich E, Shain AH, Botton T, Bastian BC. CNVkit : Détection et visualisation du nombre de copies à l'échelle du génome à partir du séquençage ciblé de l'ADN. PLOS Computational Biology (2016). DOI : 10.1371/journal.pcbi.1004873
Boeva V, Popova T, Bleakley K, et al. Control-FREEC : un outil pour évaluer le nombre de copies et le contenu allèlique en utilisant des données de séquençage de nouvelle génération. Bioinformatics (2012). DOI : 10.1093/bioinformatics/btr670
Smolander J, Khan S, Singaravelu K, et al. Évaluation des outils pour identifier les grandes variations du nombre de copies à partir de données de séquençage du génome entier à ultra-faible couverture. BMC Genomics (2021). DOI : 10.1186/s12864-021-07686-z
Chaubey A, Shenoy S, Mathur A, et al. Séquençage génomique à faible passage : validation et utilité à partir de 409 cas… The Journal of Molecular Diagnostics (2020). DOI : 10.1016/j.jmoldx.2020.03.008

Services qui pourraient vous intéresser

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.