Service d'analyse des données de séquençage de l'exome complet

Le séquençage de l'exome est une méthode d'analyse génomique qui utilise la technologie de capture de séquence pour capturer et enrichir l'ADN dans les régions exoniques du génome entier, suivie d'un séquençage à haut débit. En séquençant seulement environ 2 % du génome entier, le séquençage de l'exome peut fournir des informations sur plus de 95 % des régions fonctionnelles connues, y compris 95 % des mutations pathogènes associées aux maladies mendéliennes et divers loci de susceptibilité aux maladies. Par conséquent, le séquençage de l'exome est devenu une méthode courante pour les tests génétiques liés aux maladies, largement utilisée dans l'identification des gènes causatifs et des gènes de susceptibilité pour les maladies complexes.

Filtrage des variants, classification et analyse statistique

1) Filtrage des variants SNP et InDel

Les variants SNP et InDel subissent un processus de filtrage basé sur les critères suivants : Taux d'appel >= 10 % : Les variants avec un taux d'appel inférieur à 10 % sont filtrés ; Fréquence allélique mineure < 0,05 : Les variants avec une fréquence allélique mineure inférieure à 0,05 sont filtrés ; Sites non en équilibre de Hardy-Weinberg (HWE) : Les variants qui ne respectent pas l'HWE, indiqués par une valeur P HWE inférieure à 0,001, sont filtrés.

Après avoir appliqué ces critères de filtrage, les variantes restantes sont sélectionnées pour une analyse et une interprétation plus approfondies.

Filter SNP siteFigure 1 : Filtrer le site SNP

2) Calcul de la fréquence

Le calcul de la fréquence implique de déterminer les fréquences des allèles et des génotypes pour chaque variante dans les groupes de cas et de témoins.

Dans cette étape, les fréquences des différents allèles et génotypes sont calculées séparément pour les groupes de cas et de témoins. Ces fréquences fournissent des informations précieuses sur la distribution et l'occurrence de variantes génétiques spécifiques au sein de la population étudiée.

3) Analyse d'association

Dans l'analyse d'association, divers tests statistiques sont effectués pour examiner la relation entre les variants génétiques et les groupes cas-témoins.

L'analyse comprend une analyse stratifiée, un test du chi carré, un test exact de Fisher et un test de tendance de Cochran-Armitage. Ces tests sont utilisés pour comparer la distribution de fréquence des allèles et des génotypes entre les groupes de cas et de contrôle et déterminer s'il existe des différences statistiquement significatives.

L'analyse stratifiée aide à évaluer l'association entre les variants génétiques et le risque de maladie dans des sous-groupes spécifiques de la population. Le test du chi carré, le test exact de Fisher et le test de tendance de Cochran-Armitage sont appliqués pour examiner s'il existe des différences statistiquement significatives dans la distribution des fréquences des allèles et des génotypes entre les deux groupes. Ces tests fournissent des informations précieuses sur l'association potentielle entre des variants génétiques spécifiques et le phénotype ou la maladie étudiée.

4) Analyse des haplotypes

Dans l'analyse des haplotypes, les régions génomiques contenant des SNPs significatifs sont sélectionnées pour une enquête plus approfondie à l'aide de logiciels d'analyse des haplotypes, tels que Haploview.

L'analyse vise à identifier et caractériser les haplotypes communs au sein de ces régions. Les fréquences des haplotypes identifiés sont comparées entre les groupes cas et témoins. Cette comparaison est réalisée à l'aide de statistiques du chi carré pour déterminer s'il existe une association significative entre des haplotypes spécifiques et la maladie ou le phénotype étudié.

En examinant la distribution et les fréquences des différents haplotypes dans les groupes de cas et de témoins, l'analyse fournit des informations sur la pertinence potentielle de haplotypes spécifiques par rapport à la maladie étudiée. Le test du chi carré et les p-values correspondantes sont utilisés pour évaluer la signification statistique des associations observées.

Haplotype AnalysisFigure 2 : Analyse des haplotypes

5) Filtrage des variantes

Dans le processus de filtrage des variants, plusieurs critères sont appliqués pour sélectionner des variants candidats de haute qualité.

Tout d'abord, le score de qualité Phred est obtenu pour chaque base, et les variants candidats avec un score de qualité inférieur à 45 sont éliminés. Ce seuil garantit que les variants de faible qualité de séquençage sont exclus de l'analyse ultérieure.

Ensuite, les variants hétérozygotes sont examinés. Les variants hétérozygotes doivent avoir une profondeur de couverture d'au moins 10 fois. De plus, les lectures de séquence correspondantes doivent avoir des positions de début et de fin différentes, indiquant la présence de variation allélique. Les variants qui ne répondent pas à ces critères sont filtrés.

Il est important de noter que le génome humain contient des variations génétiques normales, y compris des polymorphismes mononucléotidiques (SNP). Pour distinguer les variants associés à des maladies de ces variations normales, des bases de données telles que dbSNP, le Projet 1000 Genomes et NHLBI-ESP6500 sont utilisées. Les variants candidats qui correspondent à des variations normales connues présentes dans ces bases de données sont filtrés, réduisant ainsi le taux de faux positifs et se concentrant sur les variants potentiellement causateurs de maladies.

6) Variantes synonymes

Ces variantes se produisent dans la région codante d'un gène mais ne modifient pas la séquence d'acides aminés de la protéine. Elles sont souvent considérées comme bénignes ou neutres en termes d'impact fonctionnel.

Variantes non synonymes : Ces variantes entraînent un changement dans la séquence d'acides aminés de la protéine. Selon la nature du changement d'acide aminé, elles peuvent être classées en variantes de type missense (un acide aminé différent est codé), variantes de type nonsense (un codon d'arrêt prématuré est introduit) ou variantes de décalage de cadre (le cadre de lecture est perturbé).

Variantes de terminaison prématurée : Ces variantes introduisent un codon d'arrêt prématuré dans la séquence codante, entraînant la troncature de la protéine. Elles sont associées à la perte de fonction de la protéine et peuvent être pathogènes.

Variants de site d'épissage : Ces variants affectent les sites d'épissage, qui sont cruciaux pour un épissage correct de l'ARN. Les perturbations dans l'épissage peuvent entraîner une expression génique anormale et une production de protéines altérée.

Indels : Les indels font référence aux insertions ou suppressions de nucléotides dans la séquence d'ADN. Ils peuvent provoquer des décalages de cadre ou modifier le cadre de lecture, entraînant des changements dans la séquence protéique résultante.

En classifiant et en analysant ces variantes, il est possible de déterminer leurs nombres et des informations de base. Ces informations sont précieuses pour comprendre l'impact fonctionnel potentiel des variantes et leur pertinence par rapport aux maladies ou aux traits génétiques.

7) Fusion de gènes

L'identification des fusions géniques est réalisée à l'aide d'outils tels que FusionMap et GASVPro pour rechercher des réarrangements génomiques potentiels impliquant des fusions de gènes.

8) Prédiction de la structure des protéines des variants : L'outil Swiss-Model est utilisé pour la modélisation par homologie afin de prédire la structure tridimensionnelle des protéines variants. De plus, des outils comme Chimera ou DS peuvent être utilisés pour l'analyse du module de mutagenèse dirigée. Après la modélisation, une optimisation dynamique est effectuée pour prédire l'impact des mutations sur la structure des protéines.

Protein structure prediction of the variantFigure 3 : Prédiction de la structure protéique du variant

Analyse d'association de la fonction des gènes

Si un petit nombre de variations génétiques associées au phénotype étudié est obtenu, une revue de la littérature et des recherches dans des bases de données (comme ClinVar, la base de données COSMIC) sont effectuées pour obtenir des fonctions génétiques potentiellement liées qui soutiennent les résultats expérimentaux. Si un grand nombre de gènes pertinents est obtenu, une analyse GO est choisie pour vérifier si les gènes mutés sont enrichis dans des fonctions spécifiquement associées au phénotype.

Détermination des mutations conductrices

Étape 1 : Priorisation des mutations candidates de conducteurs de cancer à partir des mutations somatiques.

Pour évaluer l'impact des mutations rares et courantes sur le développement du cancer, nous utilisons d'abord une machine à vecteurs de support radiale (SVM) entraînée sur des variants de nucléotides uniques non synonymes (nsSNVs) provenant des bases de données COSMIC et UniProt. En utilisant les mutations somatiques comme entrée, le système de détermination calcule les scores SVM radiaux correspondants pour prédire le potentiel de chaque mutation à devenir un moteur du cancer.

Étape 2 : Identification des gènes conducteurs candidats à partir des mutations conductrices candidates.

S'appuyant sur des décennies de connaissances précieuses générées par la recherche, nous ajoutons une autre couche par-dessus la couche SVM radiale. Cette couche mesure le poids de chaque mutation en fonction du score Phenolyzer correspondant à son gène, évaluant ainsi l'association génétique entre chaque génotype de mutation et phénotype sur la base des connaissances antérieures. Les gènes contenant des mutations délétères sont ensuite filtrés et classés en fonction de leurs scores pondérés totaux.

Étape 3 : Identification des médicaments candidats à partir des gènes conducteurs candidats.

Pour mieux aider les chercheurs/investigateurs cliniques dans les traitements personnalisés potentiels, nous introduisons une troisième étape dans le processus de détermination, fournissant un catalogue de médicaments priorisé pour chaque gène conducteur de cancer. Cette étape identifie les médicaments candidats en fonction de leurs interactions avec nos gènes conducteurs de cancer prédits et les évalue en utilisant les scores d'interaction des gènes cibles correspondants. Les scores d'activité des médicaments sont obtenus en interrogeant la base de données PubChem.

Analyse de la structure secondaire de l'ARN

L'impact des variations de nucléotides uniques (SNVs) sur la structure secondaire de l'ARN est évalué à l'aide du logiciel RNAsnp. L'évaluation de la structure est la suivante :

Impact of SNVs on RNA Secondary StructureFigure 4 : Impact des SNV sur la structure secondaire de l'ARN

Association des Régulateurs Transcriptionnels

L'association des régulateurs transcriptionnels avec les SNV cibles est déterminée par une analyse combinée utilisant la base de données ENCODE. Cette analyse aide à identifier les facteurs de transcription dont la liaison est affectée par les SNV.

Transcription Factors at the Positions Corresponding to SNVsFigure 5 : Facteurs de transcription aux positions correspondant aux SNV

Réseau de régulation post-transcriptionnelle

L'impact des SNV cibles sur la régulation post-transcriptionnelle est analysé à l'aide de notre système d'analyse de réseau développé en interne, RBP-Var. Ce système évalue les effets des SNV sur la régulation post-transcriptionnelle et identifie les mécanismes régulateurs potentiels.

Network Analysis System for Post-transcriptional Regulation of SNVsFigure 6 : Système d'analyse de réseau pour la régulation post-transcriptionnelle des SNV

Réseau d'interaction des gènes du cancer

Nous utilisons dSysMap : exploration du rôle edgétique des mutations liées aux maladies pour construire un réseau d'interaction des gènes du cancer. Cet outil nous permet d'explorer l'impact fonctionnel des mutations liées aux maladies sur les interactions protéine-protéine dans le contexte du cancer.

Prédiction de la structure des protéines mutantes

En utilisant des logiciels de prédiction, nous pouvons évaluer l'impact des SNV cibles sur la structure tertiaire des protéines. Cette analyse révèle des changements structurels dans la protéine causés par des mutations délétères par rapport au gène de type sauvage. De plus, elle nous permet également d'étudier l'impact des protéines mutées sur les interactions protéine-protéine. En outre, elle permet d'étudier les effets des mutations sur les interactions protéiques.

Impact of SNVs on protein tertiary structure.Figure 7 : Impact des SNV sur la structure tertiaire des protéines.

Impact of SNVs on protein-protein interactions.Figure 8 : Impact des SNV sur les interactions protéine-protéine.

Références :

  1. Joon Ki Hong Une étude d'association à l'échelle du génome des effets génétiques sociaux chez les porcs Landrace 2017 Journal asiatique-australien des sciences animales
  2. Noriaki Itoh Analyse de ségrégation en masse basée sur le séquençage de nouvelle génération pour le cartographie des QTL dans l'espèce hétérozygote Brassica rapa 2019 Génétique Théorique et Appliquée
  3. Alan P Boyle Annotation de la variation fonctionnelle dans les génomes personnels en utilisant RegulomeDB Recherche génomique 2012
  4. Mao Fengbiao RBP-Var : une base de données des variantes fonctionnelles impliquées dans la régulation médiée par des protéines liant l'ARN, 2015 Nucleic Acids Research
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut