La plupart des études sur le génome du cancer menées jusqu'à présent ont utilisé le séquençage à lecture courte, ce qui a principalement permis d'identifier des altérations génomiques à petite échelle telles que les variants de nucléotides uniques (SNVs) et les courtes insertions et délétions (InDels). Cependant, les avancées récentes dans technologies de séquençage ont permis la détection de variants structurels génomiques (SV) plus importants dans divers types de cancer. Ces SV devraient avoir une signification biologique et clinique importante.
Les variants structurels impliquent des réarrangements substantiels dans le génome, tels que des inversions et des translocations chromosomiques. Ces altérations peuvent donner naissance à des gènes de fusion oncogéniques, tels que BCR-ABL, EML4-ALK et KIF5B-RET. De grandes délétions de segments sont également courantes dans les gènes suppresseurs de tumeurs comme TP53, RB1 et PTEN, entraînant l'inactivation de leur expression et de leur fonction.
Reconnaissant l'importance des SV. l'analyse pan-cancer à l'échelle du génome Le consortium s'est concentré sur l'investigation des variations structurelles génomiques à grande échelle en plus des SNV. Le consortium a rapporté des signatures de SV pour 38 sous-types de cancer différents, visant à améliorer notre compréhension de ces altérations à travers divers cancers.
Bien que les méthodes analytiques conventionnelles puissent inférer la présence de SVs à partir de données de séquençage à lecture courte, ils fournissent souvent uniquement des informations partielles sur la structure complète de ces variantes. Pour obtenir une détection des SVs plus précise et complète, technologies de séquençage à lecture longue devrait être utilisé. Le séquençage à lecture longue permet de générer des lectures étendues, permettant l'observation directe et la caractérisation précise des réarrangements structurels complexes au sein du génome cancéreux.
En utilisant le séquençage à longues lectures, les chercheurs peuvent obtenir une vue plus détaillée et holistique des variants structuraux génomiques, permettant ainsi une compréhension plus approfondie de leurs implications fonctionnelles et de leur signification clinique potentielle dans la recherche sur le cancer.
La recherche a utilisé l'analyse des haplotypes génomiques pour étudier le cancer du poumon non à petites cellules (NSCLC) chez 20 patients japonais. Ils ont utilisé à la fois des lectures longues et des lectures courtes. séquençage du génome entier (SGE) données pour effectuer une analyse de phasage conjoint.
Pour identifier les polymorphismes nucléotidiques simples (SNPs), les chercheurs ont comparé les données de deuxième génération en utilisant BWA-MEM et GATK. Ils ont utilisé minimap2 pour comparer les séquences à longue longueur de lecture. Sur la base des SNPs identifiés, ils ont effectué un typage pour élucider la variabilité des variations structurelles somatiques (SVs) et des variations nucléotidiques simples (SNVs) au niveau des haplotypes.
L'étude a montré que le haplotypage basé sur Informations sur les SNP a été couronné de succès, et environ 56 % des SNPs détectés dans le génome normal ont été assignés à des blocs haplotypiques. La profondeur de séquençage a été évaluée, et les résultats ont indiqué que la construction des haplotypes semblait se saturer à une profondeur d'environ 20x-30x, avec environ 5000 constructions. L'étude a conclu que les données de séquençage avec une profondeur minimale de 20x pouvaient être raisonnablement utilisées pour l'analyse de phasage des tumeurs.
Pour évaluer l'exactitude des résultats de typage, les chercheurs ont spécifiquement évalué la corrélation des blocs d'haplotypes obtenus pour deux SNP donnés. Les résultats ont démontré que le taux de différence entre les génomes tumoraux et normaux pour ces deux SNP était similaire aux résultats précédents, indiquant une précision raisonnable. De plus, en comparant les résultats de typage avec ceux d'une autre cohorte japonaise saine, 98,7 % des associations SNP-SNP étaient cohérentes. Cela suggère que les informations de phasage obtenues à partir des génomes tumoraux et normaux sont précises et peuvent servir de référence pour une analyse plus approfondie des mutations génomiques au niveau de l'haplotype.
Tout d'abord, en comparant les blocs haplotypiques des tumeurs avec ceux des tissus normaux, il a été observé que les blocs haplotypiques des tumeurs avaient un nombre inférieur mais étaient plus longs en termes de N50 (une mesure de continuité). Cependant, ils contenaient un nombre similaire de polymorphismes nucléotidiques simples (SNP) comparé aux tissus normaux. Cela suggère que les génomes tumoraux avaient des blocs d'haplotype plus grands et plus contigus, probablement en raison de l'expansion clonale des cellules tumorales et de la perte d'hétérozygotie dans les génomes cancéreux.
Deuxièmement, l'association entre les blocs haplotypiques séquencés et la profondeur de séquençage ou la longueur des lectures a été évaluée. Il a été constaté que la profondeur de séquençage présentait une corrélation positive avec la longueur des blocs de phase. Cela suggère qu'une profondeur de séquençage plus élevée augmente la probabilité d'obtenir des blocs haplotypiques plus longs. De plus, une forte corrélation a été détectée entre la longueur des lectures individuelles et la longueur des blocs de phase construits. Cela implique que la longueur des lectures individuelles joue un rôle plus significatif dans la détermination des blocs de phase résultants par rapport à la profondeur de séquençage.
De plus, la génération précise des blocs d'haplotypes a été évaluée dans les 20 cas. Les résultats ont montré qu'en moyenne, 78 % des régions génomiques contribuaient aux blocs phasés. Cela indique qu'une portion significative du génome pourrait être phasée avec précision. Cependant, les 22 % restants des blocs phasés, appelés régions à faible couverture, n'ont pas pu être couverts de manière adéquate. Ces régions à faible couverture étaient principalement associées à des régions caractérisées par des SNPs peu hétérozygotes, suggérant que la présence de régions à faible diversité ou homozygotes pose des défis pour un phasage précis des haplotypes.
Dans l'ensemble, ces résultats soulignent l'impact de la profondeur de séquençage et de la longueur des lectures sur la génération de blocs d'haplotypes et mettent en évidence l'influence des caractéristiques tumorales sur la composition et la continuité des haplotypes dans les génomes cancéreux.