CNV au niveau des gènes vs. CNV chromosomique : Comprendre la résolution et les limites
L'analyse de la variation du nombre de copies (CNV) ne fonctionne que si la résolution effective correspond à votre question de recherche et à votre seuil de bruit. Pour de grandes cohortes, vous n'avez peut-être besoin de signaler que les événements à l'échelle des chromosomes entiers et des bras de chromosomes de manière cohérente. Mais si la question est "Ce gène spécifique est-il amplifié ou supprimé ?", le même design à faible couverture qui excelle dans les CNA larges peut devenir ambigu—surtout dans les régions répétitives, biaisées en GC ou à faible cartographie.
Cette ressource explique ce que signifie réellement la "résolution" des CNV, ce qui la contrôle dans les microarrays par rapport au séquençage du génome entier, pourquoi le "CNV au niveau des gènes" n'est pas toujours appelable dans des conceptions à faible couverture, et comment sélectionner les bons paramètres de plateforme et de pipeline pour les flux de travail de cohortes RUO.
1. Ce que signifie "Résolution" dans l'appel CNV
"La 'résolution' n'est pas un chiffre unique. C'est la plus petite taille d'événement que vous pouvez détecter et appeler de manière cohérente avec un risque acceptable de faux positifs/faux négatifs compte tenu de votre niveau de bruit. En pratique, la résolution CNV est contrainte par :"
- Densité du signal : combien d'observations indépendantes soutiennent un changement de CN (par exemple, des bacs, des sondes)
- Bruit : variance de couverture, vagues GC, abandons de mappabilité, effets de lot
- Comportement de segmentation : les algorithmes ne "voient pas les gènes" ; ils infèrent des segments de valeur constante par morceaux qui expliquent le mieux les données.
Une façon utile de penser à la résolution dans les cohortes RUO est : quelle est la plus petite CNV qui reste stable si vous réexécutez le même échantillon dans un lot, un couloir ou une semaine différents ? Si la réponse change, vous êtes en dessous de la résolution effective de votre flux de travail.
1.1 Événements au niveau des gènes, au niveau des segments et au niveau chromosomal
Séparez votre intention en trois "échelles d'événements" :
- Événements au niveau chromosomal
Gains/pertes de chromosomes entiers (anomalies du nombre de chromosomes) ou CNAs très larges. - Événements au niveau des segments
Des changements CN continus s'étendant sur des mégabases à des centaines de kilobases. De nombreux pipelines à faible couverture se situent effectivement dans ce régime. - Événements au niveau des gènes (CNV focaux)
Petites suppressions/duplications qui chevauchent un ou quelques gènes. Celles-ci peuvent mesurer des dizaines de kb (ou moins), parfois avec des points de rupture complexes et des répétitions.
Un point pratique clé : même lorsqu'un CNV chevauche un gène, l'appel est généralement dérivé du segment, et non véritablement "résolu par gène", à moins que le test ne fournisse une densité suffisante (probes) ou une profondeur/segments (WGS) à travers ce gène.
1.2 Quels sont les facteurs qui contrôlent la résolution : la densité de sondes (réseaux) par rapport à la profondeur/taille de bin (WGS) ?
- Microarrays : La résolution effective est principalement limitée par la densité des sondes et leur placement. Les régions avec des sondes rares (répétitions, duplications segmentaires) réduisent la résolution utilisable. Les conceptions à haute densité peuvent approcher une couverture au niveau des exons/gènes dans des régions bien comportées, mais les performances varient à travers le génome.
- CNV de profondeur de lecture WGS : La résolution est contrôlée par deux boutons liés :
- Couverture (×) : une couverture plus élevée réduit le bruit d'échantillonnage.
- Taille de la fenêtre : des bacs plus petits augmentent le détail spatial mais augmentent le bruit par bac.
Intuition sur la taille du bin × profondeur (pas de formules, juste la réalité) :
Réduire la taille des bins sans augmenter la profondeur tend à gonfler la variance dans chaque bin. Cela produit souvent des profils "chargés" avec de nombreux segments courts—exactement le modèle qui ressemble à des CNV focaux mais qui est en réalité de l'instabilité. Si vous réduisez agressivement la taille des bins à faible couverture, vous échangez généralement un "détail" apparent contre un taux de faux positifs plus élevé et une moins bonne reproductibilité entre les lots. La figure 1 est un rappel utile : la résolution est obtenue par la densité du signal, et non par un zoom optimiste.
Pour les flux de travail à l'échelle des cohortes, les équipes visent généralement une standardisation stable de bout en bout : un flux de travail standardisé de séquençage du génome entier (WGS) associé à un pipeline d'appel de variantes répétable et les paramètres CNV documentés (binnage, masques, valeurs par défaut de segmentation).
Voir la Figure 1 pour aligner votre échelle de question avec la densité de signal minimale nécessaire avant d'interpréter les résultats au niveau des gènes.
Figure 1. Échelle de résolution CNV : Ce que vous pouvez identifier à chaque échelle. Chromosome → bras → segment de Mb → segment de kb → gène ; les puces sont limitées par la densité des sondes, le WGS par la couverture et la taille des bins.
1.3 Pourquoi le "CNV au niveau des gènes" n'est pas toujours identifiable dans les conceptions à faible couverture
Les conceptions à passe-bas sont optimisées pour l'évolutivité. Mais le "CNV au niveau des gènes" nécessite des preuves locales à haute confiance sur une courte portée génomique.
Raisons courantes pour lesquelles le low-pass a des difficultés à l'échelle des gènes :
- Trop peu de bins informatifs chevauchent le locus (surtout si les bins sont ≥100 kb)
- Limites de mappabilité : les lectures courtes dans les répétitions/duplications segmentaires produisent une couverture ambiguë.
- Des vagues influencées par le GC : de petits loci peuvent être dominés par un biais local en GC plutôt que par un véritable CN.
- Lissage de segmentation : les algorithmes privilégient les segments plus longs et stables lorsque le bruit est élevé.
En résumé : dans des contextes de filtrage passe-bas, les appels au niveau des gènes sont souvent mieux considérés comme des hypothèses, à moins que vous ne puissiez démontrer un fort soutien local et une qualité de contrôle stable.
2. Événements chromosomiques : Ce dans quoi le Low-Pass excelle
Si votre objectif de cohorte est d'identifier de manière fiable des changements de nombre de copies à grande échelle (chromosome / bras / multi-mégabases), le séquençage génomique à faible couverture est souvent un bon choix.
2.1 Gains/pertes de chromosomes entiers (aneuploïdie)
Les changements de CN sur l'ensemble du chromosome génèrent un signal large et cohérent sur tout un chromosome. Même avec une couverture modeste, ces événements peuvent apparaître comme des écarts stables dans le rapport de copie à travers de nombreux bins, les rendant relativement robustes au bruit et aux biais locaux.
Dans les programmes de cohorte RUO, une approche courante consiste à standardiser la "détection large de CNA" en tant que livrable de production sous séquençage CNV avec binning fixe, masquage et portes de contrôle qualité. L'objectif n'est pas de maximiser le détail par échantillon ; c'est de maximiser la cohérence du groupe.
2.2 Événements de bras de chromosome et grands CNAs
Les événements au niveau des bras (perte du bras p, gain du bras q) sont également des signaux "larges". Ils ont tendance à être détectables lorsque votre binning et votre normalisation sont stables et que votre pipeline exclut correctement les régions problématiques.
Opérationnellement, c'est ici que la "résolution" devient actionnable : si vous pouvez accepter "niveau bras et au-dessus", vous pouvez prioriser le traitement standardisé et la comparabilité des cohortes. De nombreux dépistages à grande échelle utilisent approches de séquençage léger (WGS à faible profondeur) spécifiquement parce qu'ils préservent une large sensibilité aux événements tout en maintenant l'empreinte par échantillon gérable.
Voir la Figure 2 pour la signature visuelle des CNA larges et stables qui sont appropriés pour le reporting par segment.
Figure 2. Exemple de paysage CNA : grands changements à travers les chromosomes. Les événements à l'échelle du chromosome entier et des bras créent des variations fluides dans le ratio de copie à travers de nombreux bins.
2.3 Formats de rapport courants (graphiques à l'échelle du génome, tableaux de segments)
Pour le travail de la cohorte RUO, les résultats CNV devraient soutenir :
- QC au niveau de la cohorte (flaguer les valeurs aberrantes, effets de lot),
- revue de l'événement (qu'est-ce qui a changé, où, quelle taille)
- intégration en aval (annotation, stratification, reporting).
Livrables typiques :
- Graphique du ratio de copie à l'échelle du génome (par échantillon et/ou résumé de cohorte)
- Table de segments (chr, début, fin, ratio log2, état CN inféré, confiance optionnelle)
- Résumé QC (métriques de cartographie, métriques de bruit, indicateurs de biais)
- Rapport de masque/liste noire (régions exclues telles que les centromères/ faible mappabilité)
Si vous avez déjà des bibliothèques préparées et que vous souhaitez maintenir un traitement cohérent des cohortes, séquençage de bibliothèque préfabriquée peut aider à standardiser les conditions d'un run à l'autre tout en maintenant votre pipeline CNV en aval comparable.
3. Événements au niveau des gènes : Quand vous avez besoin de plus de signal
Lorsque votre question est ciblée—"ce gène a-t-il un gain/perte ?"—supposez que vous avez besoin d'une densité de signal plus élevée ou d'une stratégie ciblée.
3.1 Amplifications/délétions focales petites : pourquoi elles sont plus difficiles
Les événements focaux sont difficiles car ils entrent en concurrence avec des sources de bruit à des échelles de longueur similaires :
- Les vagues GC peuvent ressembler à un petit gain/perte.
- L'ambiguïté de l'alignement local réduit les lectures utilisables.
- la segmentation peut fusionner de petits événements avec la ligne de base voisine si les preuves sont minces
En d'autres termes, la détection des CNV focaux n'est pas simplement un "zoom". Il s'agit de modifier l'expérience et le pipeline afin que le locus dispose de suffisamment de preuves indépendantes.
3.2 Boutons pratiques : couverture plus approfondie, tests ciblés, stratégies hybrides
Trois stratégies courantes :
A) Augmenter la couverture et resserrer les bacs
Si vous pouvez passer d'un filtre passe-bas à des WGS plus profonds, vous réduisez la variance par bin et pouvez réduire la taille des bins de manière plus sécurisée. Cela augmente la sensibilité aux événements plus petits, mais augmente également les besoins en calcul et en stockage, et peut amplifier les effets de lot si les protocoles ne sont pas verrouillés.
B) Utilisez l'enrichissement ciblé lorsque seul un sous-ensemble de loci est important.
Si vous vous souciez des loci définis, les approches ciblées concentrent les lectures là où vous en avez besoin :
- séquençage de région ciblée pour des loci personnalisés
- a service de séquençage de panneaux génétiques lorsque les loci sont stables et bien définis
Les conceptions ciblées peuvent améliorer la confiance au niveau du locus, mais vous devez tenir compte du biais de densité des cibles et du comportement de normalisation qui diffère de celui du WGS.
C) Stratégie hybride : filtrer largement, confirmer de manière ciblée
Un schéma de cohorte courant est : WGS passe-bas pour un dépistage large → méthode ciblée/orthogonale pour une confirmation focale. Cela préserve le contexte à l'échelle de la cohorte tout en protégeant les décisions au niveau des gènes qui doivent être correctes.
Pour la confirmation orthogonale du nombre de copies à des loci spécifiques, utilisez essais de nombre de copies orthogonaux (par exemple, MLPA) lorsque cela est approprié pour le lieu et les besoins en débit.
3.3 Interpréter les appels au niveau des gènes avec prudence (répétitions, GC, mappabilité)
Si vous devez rapporter des appels au niveau des gènes provenant d'un design à faible signal, faites-le avec des avertissements explicites et des seuils de contrôle qualité :
- Les duplications segmentaires et les paralogues peuvent fausser la profondeur de lecture.
- Extrêmes de GC : les artefacts de couverture systématique augmentent les faux positifs locaux.
- Mappabilité : une faible unicité réduit le nombre de lectures effectives soutenant le locus.
- Ambiguïté des frontières : les points de rupture s'alignent rarement proprement avec les bacs/probes.
Une habitude de rapport pratique est de qualifier les résultats au niveau des gènes comme :
- "soutenu" (plusieurs bacs/probes adjacents soutiennent le décalage, faibles résidus de GC, bruit acceptable), ou
- "tentative" (quelques bacs, risque de GC/mappabilité) avec une méthode de suivi recommandée.
4. Choisir la bonne plateforme en fonction du type de question
Cette section est conçue pour deux publics : les leaders opérationnels (échelle, débit) et les propriétaires de pipeline (préparation à l'assurance qualité). Voir la Figure 3 pour un chemin rapide "question → méthode".
4.1 Dépistage de grandes cohortes : prioriser le débit + détection d'événements larges
Si votre objectif est le dépistage à l'échelle des cohortes pour des événements chromosomiques/de bras/de grands segments, priorisez :
- paramètres standardisés de préparation de bibliothèque et de séquençage,
- normalisation stable entre les lots,
- livrables faciles à contrôler en qualité à grande échelle.
Pour la compatibilité en aval (études d'association, structure, stratification), certains programmes associent les résultats des CNV avec des couches de génotypage telles que génotypage SNP du génome entier où la conception de l'étude bénéficie des métriques basées sur les SNP.
Pour une comparaison au niveau de la plateforme entre le séquençage du génome entier à basse fréquence et les microarrays pour le dépistage des CNV, voir ce guide.
4.2 Confirmation de la cible du modèle / programme (RUO) : décider si une sensibilité focale est requise
Si l'étape suivante dépend d'une conclusion au niveau des gènes (par exemple, si un locus est gagné/perdu dans un modèle de recherche non clinique), décidez à l'avance si vous avez besoin de :
- appels de CNV focaux à haute confiance, ou
- large contexte CNA + une confirmation explicite de suivi.
Lorsque la sensibilité focale est requise, envisagez :
- WGS plus profond, ou
- enrichissement ciblé (par exemple, un) service de séquençage de panneaux de gènes), plus
- un flux de travail de confirmation orthogonal.
Pour certains programmes, un ensemble de confirmation pratique vise le séquençage des loci ciblés ainsi que la validation des points de rupture par Séquençage de Sanger lorsque des jonctions spécifiques sont connues ou peuvent être amplifiées.
4.3 Préparation du pipeline : ce dont les équipes internes ont besoin pour le contrôle qualité et la compatibilité
Pour les bioinformaticiens et les propriétaires de plateformes, la préparation concerne la répétabilité :
- Choix de référence et masques : construction de génome cohérente et listes noires de mappabilité
- Stratégie de normalisation : correction de la GC/mappabilité et contrôles sensibles aux lots
- Paramètres de segmentation : valeurs par défaut stables avec des règles de réglage documentées.
- Tableau de bord QC de cohorte : détecter les valeurs aberrantes, le dérive et les effets de lot tôt.
- Spécifications des livrables : graphiques standardisés, tableaux de segments, seuils de contrôle qualité.
Pour les détails de mise en œuvre - binning, QC et attentes en matière de livrables dans les pipelines passe-bas - voir cet article de bioinformatique WGS à faible fréquence.
Figure 3. Question → Arbre de décision méthode. Choisir un dépistage large vs un suivi à plus haute résolution vs une confirmation orthogonale, avec des points de contrôle de QC.
5. QC et Dépannage : Rendre la "Résolution" Fiable à Grande Échelle
Les revendications de résolution ne sont significatives que si vous pouvez démontrer que les données sont stables. Ci-dessous se trouve un manuel pratique de contrôle qualité orienté vers le travail RUO à l'échelle des cohortes.
5.1 Signaux QC minimum à suivre (par échantillon)
Suivez-les au minimum :
- Nombre de lectures mappées (lectures utilisables après filtrage)
- Uniformité de couverture / complétude des bins (fraction de bins avec un nombre de lectures suffisant)
- Résidu de biais GC (pente/résidu post-correction)
- Métrique de bruit (MAD des rapports log2, variance bin à bin, ou résidu de segmentation)
- Fraction d'outliers/blacklistés (proportion de bins masqués)
Astuce : définissez une "plage de passage QC" en utilisant les 50 à 100 premières échantillons, puis verrouillez les seuils pour la production afin d'éviter de changer les objectifs.
Module B : tableau de seuil QC de départ (calibrer, puis verrouiller)
Ce sont des points de départ à calibrer sur vos 50 à 100 premiers échantillons ; verrouillez les seuils pour la production une fois validés.
| métrique de QC | Démarrer le groupe "Go" (RUO) | groupe "Caution" | Ce que cela impacte | Action typique |
| Taux de cartographie (alignement principal) | ≥ 90 % | 80–90 % | densité de signal efficace | révision de la coupe/référence ; échantillon de signalement |
| Taux de duplication | ≤ 30 % | 30–50 % | bruit, instabilité de segmentation | ajuster la bibliothèque/entrées ; envisager de relancer |
| Complétude des bacs (bacs non masqués avec couverture) | ≥ 95 % | 90–95 % | résolution efficace partout | vérifier la contamination/cartographie ; signaler |
| Résidu GC après correction (qualitatif) | bas/plat | vagues modérées | faux positifs focaux | resserrer la normalisation ; augmenter la taille des bins |
| MAD des rapports log2 (à l'échelle du génome) | ≤ 0,25 | 0,25–0,35 | faux segmentement | augmenter la taille des bacs ; ajuster la segmentation |
| Bacs masqués/noirs en fraction | ≤ 10 % | 10–20 % | interprétabilité | annoter ; éviter d'appeler dans des loci masqués |
| Déplacement par lot (dérive du rapport log2 médian) | ~0 | dérive constante | comparabilité des cohortes | normalisation consciente du lot ; processus d'audit |
(Les points de départ sont intentionnellement conservateurs et doivent être personnalisés en fonction de la méthode de la bibliothèque, de la couverture et de la référence.)
5.2 Tableau de dépannage (symptôme → cause probable → solution)
| Symptôme (ce que vous voyez) | Cause probable | Ce qu'il casse | Correction / prochaine action |
| Fort motif "onde" sur de nombreux chromosomes | biais GC, biais de bibliothèque, effet de lot | gonfle les faux positifs à petite échelle | resserrer la correction GC ; vérifier la cohérence du protocole ; envisager des bacs plus grands |
| De nombreux segments courts ("sous-segmentation") | bruit trop élevé pour la taille de bin choisie | CNVs focaux spuriques | augmenter la taille des bacs ; augmenter les pénalités de segmentation ; supprimer les bacs aberrants |
| Une grande partie des bacs est manquante ou proche de zéro. | mauvaise cartographie, contamination, configuration d'alignement | diminue la résolution effective | vérifier le taux de correspondance ; confirmer la construction de référence ; examiner le trimming ; envisager une nouvelle exécution |
| "Points chauds de CNV récurrents" dans les mêmes loci à travers de nombreux échantillons | faible cartographie/répétitions/artéfacts | événements faux à l'échelle de la cohorte | appliquer des masques de mappabilité ; régions sur liste noire ; éviter l'interprétation là-bas |
| Un lot systématiquement décalé | effet de lot / différences de lot de bibliothèque | détruit la comparabilité des cohortes | normalisation consciente des lots ; rééquilibrer les lots ; auditer les étapes en laboratoire humide |
| Appel au niveau des gènes non pris en charge par les voisins | trop peu de bacs informatifs ; biais local | inférence de locus peu fiable | étiquette provisoire ; confirmer par méthode ciblée/orthogonale |
5.3 Garde-fous pratiques pour la résolution (règles empiriques)
Parce que les cohortes diffèrent, définissez des seuils validés. Garde-fous pratiques pour les programmes RUO :
- Traitez les appels au niveau des chromosomes/des bras comme des résultats principaux pour le dépistage à faible couverture.
- Traitez les appels au niveau sub-mégabase / gène comme des hypothèses à moins que vous ne puissiez démontrer :
- plusieurs bacs/probes adjacents soutiennent le décalage,
- résidus GC faibles / artefacts d'onde minimaux,
- bruit génomique acceptable (MAD/variance stable),
- le locus n'est pas dans un contexte de faible mappabilité/riche en répétitions.
Si votre programme nécessite une certitude constante au niveau du locus, intégrez-la dans la conception (WGS plus approfondi ou enrichissement ciblé) plutôt que de forcer les appels de gènes à partir d'un faible passage.
6. Cadre de Décision : Quand Utiliser Quoi (et Quand Ne Pas Utiliser)
Rappel de la limite RUO (à conserver avec cette section) :
Toutes les recommandations ici sont destinées aux flux de travail de recherche tels que le contrôle de qualité des cohortes, le dépistage exploratoire, la caractérisation des modèles et le développement de méthodes. Les résultats de CNV et les seuils de contrôle de qualité doivent être interprétés comme des signaux analytiques pour guider les expériences suivantes et la prise de décision interne dans les programmes RUO. Ils ne sont pas conçus ni validés pour des revendications diagnostiques, pronostiques ou thérapeutiques, et ne doivent pas être utilisés pour inférer des résultats ou guider des actions cliniques. Pour toute étude nécessitant des conclusions de locus de haute confiance, planifiez une stratégie de confirmation appropriée (par exemple, séquençage à plus grande profondeur, enrichissement ciblé ou tests orthogonaux de nombre de copies) et définissez des critères d'acceptation avant de passer à des milliers d'échantillons.
Module A : tableau de décision d'une minute (méthode de sélection + rapport de note)
Utilisez ce tableau pour choisir une méthode et définir les attentes concernant ce que vous allez rapporter comme "note de segment" par rapport à "note d'hypothèse".
| Votre question principale | Méthode primaire recommandée | Note de rapport typique | Suivi commun (RUO) | Remarques / pièges |
| CNA de chromosome entier / bras à travers de nombreux échantillons | CNV de profondeur de lecture WGS à faible fréquence | Segment de qualité | aucun ou contrôle qualité par échantillonnage | robuste au bruit si le QC est stable |
| CNA multi-Mb segment | Filtre passe-bas WGS + binning/segmentation stable | Segment de qualité | confirmer les cas limites | la taille du bin est trop petite, cela peut gonfler le FP |
| Gain/perte au niveau des gènes focaux nécessaire pour les décisions du programme | Enrichissement WGS plus approfondi ou ciblé | Gene-grade (si validé) | essai orthogonal | les répétitions/GC/mappabilité dominent souvent |
| "Point d'intérêt" depuis l'écran passe-bas | Filtre passe-bas | Hypothèse de qualité | essai ciblé / MLPA / séquençage génomique complet approfondi | ne pas surinterpréter des bacs isolés |
| Caractérisation au niveau des points d'arrêt | Séquençage ciblé / lecture longue (selon le cas) | Structure-classe | validation de jonction au besoin | La cartographie des points d'arrêt nécessite des preuves différentes. |
Utilisez le WGS passe-bas lorsque :
- votre objectif principal est le dépistage CNA large (chromosome entier, bras, grands segments)
- vous avez besoin d'un haut débit pour des milliers d'échantillons
- vous souhaitez des données qui peuvent être réutilisées ultérieurement (CQ, stratification, analyses secondaires)
- les critères d'acceptation peuvent être formulés à la résolution de segment/chromosome
Évitez de vous fier uniquement au WGS passe-bas lorsque :
- les décisions dépendent de la confiance dans les CNV au niveau des gènes
- le locus se trouve dans des répétitions / des duplications segmentaires / un GC extrême
- vous avez besoin de points de rupture précis ou de détection d'événements très petits
- les types d'échantillons de cohortes créent des schémas de biais instables
Considérez une stratégie hybride lorsque :
- vous souhaitez un dépistage large à grande échelle mais devez être précis sur un sous-ensemble
Exemple : écran passe-bas → confirmer les loci sélectionnés par séquençage ciblé ou MLPA (RUO).
FAQ
1) Qu'est-ce que le "nombre de copies de gènes" en termes pratiques ?
Le nombre de copies de gènes est le nombre de copies d'ADN qui chevauchent un gène. La plupart des pipelines l'infèrent à partir de segments dont les limites peuvent ne pas correspondre aux limites des gènes, donc le "CNV au niveau des gènes" est souvent une interprétation de segment à moins que l'essai ne fournisse des preuves de locus denses.
2) Le WGS à passage bas peut-il détecter de manière fiable les délétions/duplications au niveau des gènes ?
Parfois, mais pas de manière cohérente à travers les loci. Le faible passage est le plus fort pour les événements larges. La détection au niveau des gènes dépend de la cartographie des loci, du GC, de la taille des bins et du bruit. Si vous devez avoir raison, prévoyez une couverture plus profonde ou une confirmation ciblée.
3) Une taille de bin plus petite améliore-t-elle toujours la résolution ?
Non. Des bacs plus petits augmentent le détail spatial mais augmentent également le bruit par bac. Si la couverture n'est pas augmentée en conséquence, des bacs plus petits peuvent produire plus de faux positifs et une segmentation instable.
4) Pourquoi certains loci montrent-ils des "CNV récurrents" dans de nombreux échantillons non apparentés ?
Souvent des artefacts techniques : faible mappabilité, répétitions ou biais de référence. La récurrence à l'échelle de la cohorte dans la même région est un signal fort pour utiliser des masques/listes noires et traiter cette région avec prudence.
5) Quels livrables devrions-nous exiger pour le travail sur les CNV de la cohorte ?
Au minimum : graphiques à l'échelle du génome, tableaux de segments, résumés de contrôle qualité et rapports de masques/liste noire. Pour l'échelle, demandez des tableaux de bord de contrôle qualité de cohorte et des paramètres par défaut documentés (taille de bin, règles de segmentation, approche de normalisation).
6) Comment devrions-nous traiter les appels de gènes "provisoires" dans les pipelines RUO ?
Étiquetez-les explicitement comme provisoires et dirigez-les vers un chemin de confirmation prédéfini (séquençage ciblé, MLPA ou WGS à plus haute profondeur). Évitez d'incorporer des appels provisoires dans des décisions en aval sans confirmation.
7) Comment les microarrays se comparent-ils en termes de résolution au niveau des gènes ?
Les arrays peuvent offrir une densité de locus plus élevée dans certaines régions, mais le placement des sondes est inégal et les régions répétées restent difficiles. Les arrays et le WGS ont des profils de biais différents ; le meilleur choix dépend de votre type de question et de l'échelle de votre cohorte.
8) Quelle est la raison la plus courante pour laquelle les résultats de CNV diffèrent entre les lots ?
Effets de lot : changements dans la préparation de la bibliothèque, les séquences ou la manipulation des échantillons qui modifient les motifs de biais de couverture. La solution consiste en un contrôle qualité rigoureux des lots, des protocoles cohérents et une normalisation tenant compte des lots.
Références
- Klambauer G, Schwarzbauer K, Mayr A, et al. cn.MOPS : Mélange de Poissons pour la découverte de variations du nombre de copies dans les données de séquençage de nouvelle génération avec un faible taux de fausses découvertes. Nucleic Acids Research (2012). DOI : 10.1093/nar/gks003
- Talevich E, Shain AH, Botton T, Bastian BC. CNVkit : Détection et visualisation des variations du nombre de copies à l'échelle du génome à partir du séquençage ciblé de l'ADN. PLOS Computational Biology (2016). DOI : 10.1371/journal.pcbi.1004873
- Boeva V, Popova T, Bleakley K, et al. Control-FREEC : un outil pour évaluer le nombre de copies et le contenu allélique à l'aide de données de séquençage de nouvelle génération. Bioinformatics (2012). DOI : 10.1093/bioinformatics/btr670
- Smolander J, Khan S, Singaravelu K, et al. Évaluation des outils pour identifier les grandes variations du nombre de copies à partir de données de séquençage du génome entier à très faible couverture. BMC Genomics (2021). DOI : 10.1186/s12864-021-07686-z
- Chaubey A, Shenoy S, Mathur A, et al. Séquençage génomique à faible passage : validation et utilité à partir de 409 cas… The Journal of Molecular Diagnostics (2020). DOI : 10.1016/j.jmoldx.2020.03.008