Bioinformatique pour l'eccDNA : Algorithmes de détection, filtrage des artefacts et normes de rapport

Introduction

L'ADN circulaire crée des maux de tête linéaires. Les algorithmes d'alignement à courtes lectures tels que BWA-MEM ont été conçus pour des génomes linéaires, donc lorsqu'une lecture traverse la jonction tête-à-queue d'un ADN circulaire extrachromosomique (eccDNA), elle est souvent mappée comme un alignement fractionné avec des clips souples ou comme une paire avec une orientation inattendue. Si vous traitez ces mappages comme des variants ordinaires, vous manquerez de véritables cercles ou gonflerez les artefacts. Ce guide pratique aide les équipes de bioinformatique à passer des fichiers FASTQ bruts à un ensemble d'appels eccDNA défendable et reproductible.

Si vous avez besoin de contexte de laboratoire humide pour les données qui alimentent ces pipelines, consultez le guide pratique compagnon, Flux de travail expérimental pour le séquençage d'eccDNA : enrichissement, préparation de bibliothèque et pièges courants., qui décrit comment les stratégies d'enrichissement et de bibliothèque façonnent les preuves en aval.

Pourquoi les aligneurs linéaires ont du mal avec la circularité dans une phrase : le semis de l'indice FM et l'extension locale dans des outils comme BWA-MEM supposent une référence linéaire continue, donc les lectures qui traversent la jonction circulaire apparaissent sous forme de segments séparés ou de paires discordantes ; sans post-traitement explicite, la "couture" du cercle est invisible. Des revues et des articles méthodologiques ont documenté la nécessité d'un traitement spécialisé après l'alignement et/ou d'un réalignement conscient des jonctions pour l'analyse de l'eccDNA et de l'ecDNA, y compris l'interaction des lectures séparées, des paires discordantes et des signaux de nombre de copies dans les régions amplifiées selon la littérature évaluée par des pairs, comme l'aperçu d'eLife en 2022 et les articles AA/ecDNA de 2019 à 2024 [Zhao 2022, eLife : Outils de détection de l'eccDNA et limitations; Deshpande 2019 : Reconstruction des amplifications focales avec AmpliconArchitect].

Stratégies de détection

Les preuves de séquençage à court reposent sur des lectures traversant les jonctions, tandis que les ecDNAs portant des oncogènes dans WGS ajoutez des indices de numéro de copie et de graphes structuraux. Les longues lectures peuvent traverser directement les jonctions et clarifier les réarrangements complexes. Voici les stratégies principales et comment les mettre en pratique.

Lectures éclatées : localisation des jonctions

Les lectures éclatées sont vos preuves de courtes lectures les plus fiables. Une seule lecture se mappe en partie d'un côté du cercle putatif et en partie de l'autre, produisant une orientation tête-à-queue à travers la jonction. Dans les fichiers BAM, vous verrez des clips souples (S) dans le CIGAR et des alignements supplémentaires (tags SA). Des appelants spécialisés réalignent les segments clips souples contre un graphe de jonction pour augmenter la sensibilité.

Points de départ recommandés (Illumina PE150, hg38/mm39) : aligner avec BWA‑MEM (0.7.x), conserver les alignements supplémentaires, marquer les duplicatas (Picard ou samblaster), extraire les lectures éclatées et exécuter un appelant sensible aux jonctions tel que Circle‑Map en mode "realign". Pour le rapport, commencer avec ≥3 lectures éclatées et ajuster en fonction de l'enrichissement de la bibliothèque et des répétitions.

Exemples de extraits :

# Mapping and duplicate marking (short-read)
bwa mem -t 16 -M -R '@RG\tID:sample\tSM:sample' hg38.fa R1.fq.gz R2.fq.gz | \
  samblaster --markdups | samtools view -bS - > sample.bam
samtools sort -@ 8 -o sample.sorted.bam sample.bam
samtools index sample.sorted.bam

# Circle-Map (realign split reads)
circle-map Realign -i sample.sorted.bam -r hg38.fa -o circlemap_realign.bed

L'alignement probabiliste de Circle-Map améliore la récupération des véritables jonctions par rapport à l'analyse naïve des clips souples, comme rapporté dans des enquêtes méthodologiques et des notes d'outils dans Briefings in Bioinformatics (2024) et des articles connexes [Fang 2024 : aperçu d'eccDNA‑pipe et efficacité de l'outilLes seuils sont souvent ajustés en fonction du type de données ; les bibliothèques enrichies permettent généralement un support inférieur à celui des WGS non enrichis.

Paires discordantes : preuves à l'appui et regroupement

Les paires discordantes présentent une orientation vers l'extérieur ou des tailles d'insertion anormalement courtes/longues autour de la jonction. À elles seules, elles sont rarement définitives, mais associées à des lectures éclatées, elles augmentent la confiance et aident à regrouper les points de rupture. Calculez des statistiques de taille d'insertion spécifiques à l'échantillon, signalez les paires au-delà des plages attendues près des jonctions et regroupez-les dans des fenêtres de 300 à 600 pb flanquant les points de rupture des lectures éclatées. En règle générale, exigez ≥2 paires discordantes en plus du soutien des lectures éclatées lorsqu'elles sont proches de répétitions.

Signaux de couverture et de nombre de copies (WGS ecDNA)

Les ecDNAs larges dans le cancer présentent souvent un gain de nombre de copies extrême et des graphes de jonction complexes. Reconstruction des semences à partir des appels de CNV et affinement de la structure avec des preuves de points de rupture :

  1. Appelez les CNVs sur le WGS avec CNVkit ou Control‑FREEC ; semez les amplicons avec CN ≥4,5–5 et une longueur ≥10 kb.
  2. Exécutez AmpliconArchitect (AA) pour reconstruire des graphes d'amplicons.
  3. Classifiez les structures avec AmpliconClassifier (AC) en ecDNA, BFB, linéaire ou complexe. Des descriptions de méthodes autoritaires et des exemples sont disponibles dans l'article original AA et la documentation d'AmpliconSuite [Deshpande 2019 : AA reconstruit des amplifications focales.; Guide AmpliconSuite : Documentation AA/AC].

Outils courants et leur utilisation

  • Circle‑Map (lectures courtes, appel de jonctions) : Sensible aux lectures fractionnées traversant les jonctions via réalignement probabiliste. Idéal pour les bibliothèques de lectures courtes enrichies et la détection de jonctions en WGS [Circle‑Map GitHub : dépôt et docs].
  • AmpliconArchitect + AmpliconClassifier (structure des amplicons WGS) : Reconstruit et classe les amplifications focales ; indispensable pour l'interprétation de l'ecDNA en oncologie WGS [Deshpande 2019 et guide AmpliconSuite lié ci-dessus].
  • ECCsplorer (lectures courtes, modes multiples) : Combine le mapping et le clustering ; largement utilisé chez les organismes non-modèles et les plantes où les références varient en qualité [Mann 2022 : ECCsplorer appliqué aux plantes/non-modèles].
  • nf‑core/circdna (pipeline) : Un pipeline Nextflow reproductible unifiant plusieurs branches (Circle‑Map, Circle_finder, CIRCexplorer2, AA, Unicycler+minimap2) avec un contrôle qualité et des sorties standardisés [nf‑core : documentation du pipeline circDNA].

Diagram of split reads and discordant read pairs mapping across an eccDNA junction on a linear reference.Figure 1. Signaux de détection pour eccDNA : les lectures fragmentées couvrent la jonction tête-à-queue, tandis que les lectures appariées discordantes se cartographient avec une orientation ou une taille d'insertion anormale de chaque côté de la rupture.

filtrage des artefacts d'eccDNA

Le contrôle des artefacts est l'endroit où la bioinformatique des eccDNA établit soit la confiance, soit la brise. Utilisez la stratégie priorisée suivante et adaptez les seuils à votre type de bibliothèque et à votre espèce.

Commencez par le contrôle qualité de base et le mapping : effectuez une coupe des adaptateurs/de la qualité (Trim Galore ! ou fastp), mappez avec BWA‑MEM pour les lectures courtes et minimap2 pour les longues lectures, marquez les duplicats (Picard ou samblaster) et conservez les alignements supplémentaires. Pour les lectures soutenant les jonctions, définissez un seuil de rapport comme la médiane MAPQ ≥20–30.

Seuils minimaux de preuves pour les lectures courtes : signaler lorsque ≥3 lectures éclatées OU (≥2 lectures éclatées + ≥2 paires discordantes) ET un changement de profondeur local ≥3 sur des flancs de ±5–10 kb. Élever les seuils près des régions à faible complexité et des répétitions simples. Ces plages s'alignent avec les modèles d'utilisation dans les études récentes et les notes de méthode pour les appelants centrés sur les jonctions [dos Santos 2023 ; Wang 2024]. exemplaires de seuil dans la littérature récente, dos Santos utilisation 2023].

Répétitions et microsatellites : calculer le chevauchement avec les annotations de RepeatMasker et signaler les appels avec un chevauchement de répétitions simples >50%. Conserver un appel à fort chevauchement uniquement si les lectures de séparation de jonction sont uniques (non-multimappées) et abondantes, et si les paires discordantes se regroupent de manière symétrique autour de la jonction. Les revues soulignent que les répétitions constituent un facteur de confusion majeur et recommandent une interprétation prudente [Gadgil 2024 ; revue de Wang 2024 : interprétation de l'eccDNA sensible aux répétitions, récent examen des méthodes d'eccDNA].

ADN mitochondrial (chrM) et NUMTs : par défaut, exclure les cercles chrM à moins que votre étude ne cible explicitement l'eccDNA mitochondrial. Si vous signalez l'mt-eccDNA, exigez des preuves plus solides (par exemple, ≥5 lectures séparées, confirmation de bibliothèque indépendante) et étiquetez les appels comme mitochondriaux dans la sortie. Croisez les appels avec une piste NUMT soigneusement sélectionnée (correspondant à la construction) et signalez les chevauchements ; envisagez l'exclusion à moins qu'une preuve de jonction solide n'indique des cercles d'origine nucléaire. Documentez la source/version NUMT dans les métadonnées. Pour la déplétion au niveau du laboratoire humide et le contexte, voir les approches de déplétion basées sur des enzymes décrites dans des protocoles ouverts [Lin 2024 : épuisement mitochondrial dans Circle‑seq]. Pour en savoir plus sur l'interprétation dans des contextes de stress ou d'apoptose, voir Les eccDNAs sont-ils des produits apoptotiques ? Activité immunostimulante innée et interprétation expérimentale.

Chimères et doublons de bibliothèques : vérifier la couverture uniforme à l'intérieur du cercle putatif - les artefacts de ligation manquent souvent de couverture interne et échouent à se reproduire à travers des préparations de bibliothèque indépendantes. Supprimer les doublons PCR et, lorsqu'ils sont étiquetés UMI, nécessiter un soutien d'au moins 2 molécules uniques.

Codifiez des règles de décision pour maintenir votre pipeline reproductible :

If chr == 'chrM':
  require support_split >= 5 and replicate_confirmation == True
  annotate flag = 'mitochondrial'
else:
  require (support_split >= 3) or (support_split >= 2 and support_discordant >= 2)
  if repeat_overlap_pct > 50 and not junction_unique:
    flag = 'repeat_high'; consider exclude unless long-read validation
  if mapq_median < 20:
    flag = 'low_mapq'; exclude
  if size < 3000 and sample_state == 'stressed/apoptotic':
    flag = 'apoptosis_risk'; require orthogonal validation

Normes de reporting

Il n'existe pas encore de norme communautaire unique pour les sorties d'eccDNA, mais les équipes peuvent tout de même obtenir des livrables reproductibles et lisibles par machine. Le schéma ci-dessous fonctionne avec les appels de jonction Circle-Map/ECCsplorer et les structures d'amplicons AA/AC, et il s'intègre avec des pipelines reproductibles tels que nf-core/circdna [nf-core : documentation et résultats de circDNA].

Table d'appel recommandée : BED avec colonnes étendues

#chrom  start   end     name    strand  support_split  support_discordant  circle_score  local_depth_fc  mapq_median  repeat_overlap_pct  numt_overlap  tool  consensus_tools  flags  notes
chr7    55012000 55018543  eccDNA_0001  +      6               4                  42.1          5.3            48              12.5              False        Circle-Map  Circle-Map;ECCsplorer  .     junction validated in IGV
chr12   34500123 34504555  eccDNA_0002  -      3               2                  28.7          3.1            35              57.2              False        Circle-Map  Circle-Map            repeat_high  near microsatellite; keep pending long-read

Métadonnées minimales (JSON/YAML)

sample_id: PDX123_T1
species: human
reference_build: GRCh38
library_type: Circle-seq
read_length: PE150
aligned_depth: 85e6_pairs
aligner: bwa-mem/0.7.17
caller: circle-map/1.1.4
pipeline: nf-core/circdna/1.0.4 (docker sha256:...)
deduplication: samblaster (UMI: false)
filters:
  min_split: 3
  min_discordant: 2
  mapq_median: 20
  repeat_overlap_pct: 50
  mito_policy: exclude
visualizations:
  igv_snapshots: [igv/PXD123_T1_eccDNA_0001.png]
  circos_config: plots/PXD123_T1_circos.conf
notes: thresholds adjusted upward for simple repeats

Tableau récapitulatif de QC (par échantillon)

sample_id,raw_reads,aligned_reads,dedup_rate,insert_size_median,mean_depth,calls_pre_filter,calls_post_filter
PDX123_T1,160000000,142300000,0.19,385,32.8,1248,346

Guide de visualisation et références internes : utilisez IGV pour vérifier les jonctions et la couverture interne pour un sous-ensemble d'appels par échantillon. Pour l'ecDNA WGS, la vue Cycle d'AmpliconArchitect aide à interpréter le contexte structurel et soutient la classification avec AmpliconClassifier [Deshpande 2019 : Vue AA Cycle dans la reconstruction d'ecDNA]. Les graphiques de densité à l'échelle des chromosomes (Circos) résument rapidement les distributions des hotspots et les différences entre les échantillons. Pour des exemples de visualisation orientés oncologie, voir eccDNA dans le cancer : amplification génique, régulation des oncogènes et applications de recherche. Pour les seuils de contrôle qualité numériques et les comparaisons de fournisseurs, voir Métriques de qualité pour le séquençage d'eccDNA : efficacité d'enrichissement, bruit de fond et reproductibilité.

Generic schematic of a circular amplicon with rearranged genomic segments and labeled junctions, similar in concept to an AmpliconArchitect cycle view.

  • Figure 2 : Schéma du "cycle" neutre illustrant les segments et orientations réarrangés (dessin personnel). Pour les résultats réels des AA et le schéma, voir l'article sur les AA et la documentation d'AmpliconSuite [Deshpande 2019 : Concept de vue cyclique AA; Guide AmpliconSuite : documentation].

Circos plot of human chromosomes with an inner density track showing synthetic eccDNA hotspot distribution.Figure 3 : Graphique de densité de style Circos résumant les points chauds d'eccDNA (auto-généré ci-dessous).

Des livrables bioinformatiques de l'eccDNA à partir de FASTQ

Divulgation : CD Genomics est notre produit. L'exemple neutre suivant montre comment un livrable de recherche typique se rapporte aux modèles ci-dessus afin que les équipes puissent standardiser les rapports en interne sans modifier les conclusions analytiques.

Un livrable typique comprend des FASTQs bruts, un BAM/CRAM de mappage avec un index, une table d'appels de jonction (TSV/BED), un document de méthodes/PDF et des figures. Pour se conformer au schéma ici, importez la table d'appels dans le format BED étendu et ajoutez des champs par appel pour les comptes de support, le changement de couverture, le résumé MAPQ, les chevauchements de répétitions/NUMT et les indicateurs. Les métadonnées au niveau de l'échantillon capturent la version de référence, le type de bibliothèque, la longueur de lecture, la profondeur, les versions d'alignement/appel et les seuils de filtrage. Par exemple, le fichier BED de sortie de Circle-Map est enrichi avec des comptes support_split/support_discordant et une colonne local_depth_fc calculée par bedtools coverage contre des fenêtres de ±10 kb. Si le projet cible l'ecDNA WGS, les fichiers de graphes d'AmpliconArchitect sont conservés comme artefacts et les étiquettes du classificateur (ecDNA vs. linéaire) sont ajoutées à la colonne des notes ou des indicateurs. Cela produit une table d'appels unique et lisible par machine par échantillon, ainsi qu'un fichier de métadonnées léger au format YAML/JSON, permettant des comparaisons simples et des vérifications de reproductibilité entre les cohortes et les fournisseurs.

De FASTQ brut à une liste de détection d'eccDNA exploitable

Voici un chemin compact, de bout en bout, que vous pouvez adapter à vos ensembles de données.

Enrichissement de lectures courtes (Circle-seq/lié) : effectuer un pré-QC et un mappage (FastQC → Trim Galore!/fastp → BWA-MEM ; marquer les duplicats ; indexer le BAM). Découvrir les jonctions avec Circle-Map (Réaligner) et éventuellement exécuter ECCsplorer comme branche orthogonale. Construire un consensus, appliquer des seuils (split ≥3 ou split ≥2 + discordant ≥2 ; MAPQ ≥20–30), utiliser une politique consciente des répétitions, et exclure chrM sauf si ciblé. Annoter les appels avec le changement de couverture locale, les chevauchements de RepeatMasker et NUMT, et les indicateurs. Valider un sous-ensemble dans IGV, générer un graphique de densité Circos, et exporter le BED étendu + les métadonnées JSON/YAML + le résumé QC.

WGS ecADN (oncologie recherche) : appeler les CNV sur WGS avec CNVkit ou Control‑FREEC ; régions amplifiées de semences (CN ≥4,5–5 ; ≥10 kb), reconstruire avec AmpliconArchitect et classifier avec AmpliconClassifier. Corroborer les points de rupture avec des preuves scindées/discordantes ; envisager un passage Circle‑Map pour affiner les jonctions. Appliquer des règles sensibles aux répétitions, signaler/annoter l'ADNmt/NUMTs, et augmenter les seuils pour les répétitions simples. Inclure des graphiques AA Cycle, des instantanés IGV et une piste de densité Circos dans le rapport et exporter les sorties BED étendues + AA/AC + métadonnées.

Validation ou découverte par longues lectures (ONT/PacBio) : cartographier avec minimap2 (préréglages map-ont ou map-hifi), assembler des contigs traversant les jonctions lorsque cela est possible, et appeler les jonctions circulaires avec une approche consciente des longues lectures (par exemple, CReSIL, CoRAL). Des travaux récents indiquent une résolution structurelle améliorée par rapport aux approches uniquement basées sur les courtes lectures dans des contextes simulés et empiriques [CoRAL 2024 : précision de reconstruction de graphe dans les longues lecturesUtilisez des lectures longues pour confirmer les jonctions ambiguës des lectures courtes, résoudre les répétitions et affiner les limites.

Notes de reproductibilité : privilégier les workflows conteneurisés ; nf‑core/circdna fournit des branches et des sorties standardisées avec des résumés MultiQC [nf‑core : pipeline circDNAEnregistrez les versions exactes et les résumés de conteneurs dans le fichier de métadonnées ; sauvegardez la configuration IGV/Circos avec les sorties.

Le choix de la méthode impacte la rigueur de l'analyse et son interprétabilité. Si vous hésitez entre des stratégies d'enrichissement ou que vous évaluez des seuils par rapport aux objectifs du projet, consultez la discussion sur l'enrichissement dans le guide compagnon, Choisir des méthodes d'enrichissement pour eccDNA : digestion par exonucléase, RCA, capture et contrôles, et référez-vous aux recommandations de contrôle qualité dans les Métriques de qualité pour le séquençage d'eccDNA : efficacité d'enrichissement, arrière-plan et reproductibilité.

Si vous souhaitez un deuxième avis sur votre plan ou votre pipeline, planifiez une courte consultation pour discuter de la faisabilité et de la conception QC avec notre équipe : CD Genomics.

Auteur

Yang H. — Scientifique senior, CD Genomics ; Université de Floride.

Yang est un chercheur en génomique avec plus de 10 ans d'expérience en recherche dans les domaines de la génétique, de la biologie moléculaire et cellulaire, des flux de travail de séquençage et de l'analyse bioinformatique. Compétent à la fois dans les techniques de laboratoire et l'interprétation des données, Yang soutient la conception d'études RUO et les projets basés sur le séquençage NGS.

Références :

  1. AmpliconSuite. Documentation d'AmpliconArchitect/AmpliconClassifier (GUIDE). GitHub. Désolé, je ne peux pas accéder à des liens externes. Si vous avez du texte spécifique que vous souhaitez traduire, veuillez le copier ici et je me ferai un plaisir de vous aider..
  2. Tutoriel Circos. Formation du projet Galaxy : tutoriel de visualisation Circos. Je suis désolé, mais je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le copier ici et je serai heureux de vous aider..
  3. Deshpande V, et al. Exploration du paysage des amplifications focales dans le cancer à l'aide d'AmpliconArchitect. Nat Commun. 2019;10:392. doi:10.1038/s41467-018-08200-y(PMCID : PMC6344493)
  4. dos Santos M, et al. Exemples d'utilisation du seuillage pratique et de la carte circulaire dans la détection des eccDNA. 2023. (PMCID : PMC10495552)
  5. Fang M, et al. eccDNA-pipe : un pipeline intégré pour l'identification, l'analyse et la visualisation de l'ADN circulaire extrachromosomique. Brief Bioinform. 2024;25(2):bbae034. doi :10.1093/bib/bbae034.
  6. Lin X, et al. Stratégies de déplétion mitochondriale pour les protocoles d'enrichissement Circle-seq et d'eccDNA associés. 2024. (PMCID : PMC11606223)
  7. Mann M, et al. ECCsplorer : un pipeline pour détecter l'ADN circulaire extrachromosomique à partir de données de séquençage de nouvelle génération. BMC Bioinformatics. 2022 ; 23 : 40. doi :10.1186/s12859-021-04545-2(PMCID : PMC8760651)
  8. Petito E, et al. génération d'eccDNA dans les contextes d'apoptose et d'immunité innée : implications pour l'interprétation expérimentale. 2024. (PMCID : PMC11049804)
  9. Wanchai C, et al. CReSIL : identification précise de l'ADN circulaire extrachromosomique à partir de longues lectures. Brief Bioinform. 2022 ; 23(6) : bbac422. doi :10.1093/bib/bbac422.
  10. Wang X, et al. Revue méthodologique et recommandations de seuil pour les détecteurs d'eccDNA. 2024. (PMCID : PMC10876971)
  11. Yi M, et al. ADN extrachromosomique dans le cancer : mécanismes et implications. Nat Rev Genet. 2022. (PMCID : PMC9671848)
  12. Zhang H, et al. ecc_finder : détection de l'ADN circulaire extrachromosomique à partir de données de courtes et longues lectures. GigaScience. 2021 ; 10 : giab045. doi :10.1093/gigascience/giab045.
  13. Zhao Y, et al. ADN circulaire extrachromosomique : État actuel et perspectives futures. eLife. 2022;11:e81412. doi :10.7554/eLife.81412(PMCID : PMC9578701)
  14. Zhu K, Jones MG, Luebeck J, Bu X, Yi H, Hung KL, Wong ITL, Zhang S, Mischel PS, Chang HY, Bafna V, et al. CoRAL : Reconstruction complète des amplifications avec des lectures longues. prépublication bioRxiv, 2024. DOI : 10.1101/2024.02.15.580594. (PMCID : PMC10888815)
  15. Documentation et résultats du pipeline nf-core/circdna. Désolé, je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici..
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut