Sujets avancés et innovations dans les GWAS : de l'intégration multi-omique aux nouvelles percées

Aperçu rapide

01 GWAS multi-caractéristiques et inter-populations 02 Intégration avec les données omiques 03 Apprentissage automatique et IA dans les GWAS 04 Analyse de corrélation entre GWAS et variations rares 05 Conclusion

Étude d'association à l'échelle du génome (GWAS), en tant qu'outil central pour analyser la base génétique des traits complexes, s'est progressivement développé, passant de l'association simple de traits uniques et de populations uniques à une direction multidimensionnelle, inter-échelles et intelligente. Dans le domaine de la recherche en sciences de la vie, l'exploration des mystères génétiques humains est sans fin, et la mise à niveau itérative de la technologie GWAS offre une nouvelle voie pour surmonter les maladies complexes et analyser la biodiversité. Les premières recherches sur les GWAS se concentraient sur une seule maladie ou un seul phénotype, cherchant des variations génétiques communes associées à des traits dans une petite population d'échantillons. Cependant, avec la réduction des coûts et l'amélioration de la puissance de calcul des technologies de séquençage, cette technologie a franchi le paradigme de recherche traditionnel.

Dans l'étude des traits multiples et des populations croisées, le mécanisme génétique commun des espèces croisées et des types de maladies peut être exploité en intégrant des données multi-populations et multi-phénotypes. Intégration des données multiomiques franchit la limite de la génomique unique et analyse de manière exhaustive la régulation de la variation génétique sur les réseaux biomoléculaires par une analyse collaborative de données multidimensionnelles telles que les groupes de transcription et les groupes de protéines.

L'introduction de l'apprentissage automatique et des algorithmes d'intelligence artificielle améliore considérablement l'efficacité du traitement des données complexes et aide à détecter des signaux génétiques faibles qui sont difficiles à capturer par des méthodes traditionnelles ; l'analyse d'association entre les GWAS et les mutations rares compense le manque d'attention porté uniquement aux mutations communes dans les premières étapes et ouvre une nouvelle direction pour analyser la base génétique des maladies rares et des maladies complexes.

L'article explore des sujets avancés et des innovations dans les GWAS, y compris les études multi-traits et inter-populations, l'intégration multi-omique, les applications de l'apprentissage automatique et de l'IA, ainsi que les GWAS avec analyse de corrélation de variations rares, en plus des tendances futures.

GWAS multi-traits et inter-populations

Les GWAS traditionnels se concentrent sur un seul trait ou une seule population, et il est difficile de saisir le mécanisme de co-régulation génétique entre les traits et l'hétérogénéité génétique entre les populations. Les GWAS multi-traits et inter-populations ont considérablement amélioré la profondeur et l'étendue de l'analyse génétique en intégrant des données phénotypiques et de population multidimensionnelles.

Services qui pourraient vous intéresser

En savoir plus

Stratégie d'analyse des GWAS multi-traits

En analysant simultanément plusieurs traits liés (tels que la taille et le poids, les niveaux de sucre dans le sang et d'insuline), les GWAS multi-traits peuvent exploiter les loci génétiques partagés qui contrôlent les "clusters de traits" et révéler le réseau de régulation synergique des traits complexes. Sa méthode principale comprend :

Modèle mixte linéaire multivarié (MMLM)Ce modèle prend plusieurs traits comme variables de réponse et considère la corrélation génétique entre les individus et les facteurs environnementaux. En introduisant une matrice de variance-covariance, le MVLMM peut capturer efficacement la covariance génétique entre les traits, identifiant ainsi des loci pléiotropiques affectant plusieurs traits.
Méthode bayésienne : Une méthode d'analyse multi-traits basée sur le cadre bayésien, telle que la Sélection de Variables Multi-traits Bayésienne (BMVS), modélise les effets génétiques en introduisant une distribution a priori. Cette méthode peut efficacement identifier les véritables sites d'association dans des données de haute dimension et décrire en détail la structure génétique de plusieurs traits, étant particulièrement adaptée à l'analyse combinée de traits ayant des relations génétiques complexes.
Stratégie d'intégration de l'analyse en composantes principales (ACP) : Plusieurs traits sont transformés en composants principaux indépendants grâce à l'ACP, ce qui réduit la dimension des données tout en conservant les principales informations de variation entre les traits. L'analyse GWAS subséquente des composants principaux peut non seulement réduire la complexité computationnelle, mais aussi identifier les facteurs génétiques qui affectent la variation globale de plusieurs traits, ce qui est souvent utilisé pour traiter des ensembles de traits complexes présentant une forte corrélation.

Layout of multiple-trait genome-wide association studies (GWAS) based on principal component analysis (PCA) compared with single-trait GWAS (Zhang et al., 2018) Disposition des études d'association génomique à large échelle (GWAS) basées sur l'analyse en composantes principales (PCA) pour plusieurs traits par rapport aux GWAS pour un seul trait (Zhang et al., 2018)

Valeurs fondamentales et défis des GWAS intergroupes

Les GWAS montrent leurs avantages uniques dans le domaine de la recherche génétique en intégrant des données de population avec différents arrière-plans génétiques (tels que les populations européennes, asiatiques et afro-américaines), ce qui peut être réalisé comme suit :

Améliorer l'efficacité de la détection de la variation génétique : Les différences de fond génétique entre les différentes populations entraînent des différences significatives dans la distribution des polymorphismes génétiques. L'intégration de données multi-population peut surmonter le goulot d'étranglement génétique d'une seule population, permettre de découvrir davantage de sites de mutations rares et à faible fréquence, et améliorer considérablement le taux de détection des loci génétiques liés aux maladies complexes.
Améliorer l'universalité des résultats : Les résultats de la recherche sur un seul groupe ont des limitations. L'analyse intergroupes peut vérifier la stabilité de l'association génétique dans différentes populations, éviter le biais de recherche causé par la spécificité de la population, rendre les résultats de la recherche plus universels et fournir une base fiable pour la pratique de la médecine de précision dans différentes populations à travers le monde.
Révéler le mécanisme génétique spécifique à la population : En comparant et en analysant différentes populations ancestrales, nous pouvons identifier les loci génétiques spécifiques à chaque population affectés par la sélection naturelle, l'adaptation environnementale et d'autres facteurs, comprendre en profondeur les différences dans les mécanismes génétiques des maladies entre différentes populations, et fournir de nouvelles cibles pour les soins médicaux personnalisés, la recherche et le développement de médicaments.
Optimisation du modèle de prédiction du risque génétique : Le modèle de prédiction des risques basé sur des données génétiques multi-populations peut intégrer davantage d'informations génétiques et de facteurs environnementaux, améliorer considérablement l'exactitude et la fiabilité de la prédiction des risques de maladie, et fournir des outils plus efficaces pour l'alerte précoce et la prévention des maladies.

The similarity of genetic signals across four superpopulations (Zhang et al., 2018) Similarité du signal génétique à travers 4 superpopulations (Zhang et al., 2018)

Intégration avec les données omiques

Les loci significatifs des GWAS sont principalement situés dans des régions non codantes, et il est difficile de clarifier leur mécanisme fonctionnel uniquement par l'association génotype-phénotype. En intégrant les données de transcriptome, de phénotype, de groupes de protéines et d'autres omiques, nous pouvons construire une chaîne d'association de "génotype-phénotype moléculaire-phénotype" et réaliser le saut de "localisation" à "mécanisme".

Niveaux et Méthodes d'Intégration Multi-groupes

Intégration du transcriptome : Sur la base du cadre d'analyse des loci de traits quantitatifs d'expression (eQTL), le modèle de corrélation statistique entre les loci des études d'association à l'échelle du génome et le niveau d'expression génique a été construit, et les gènes cibles potentiels ont été identifiés par analyse de colocalisation.

Intégration épisomale : La combinaison de technologies à haut débit telles que le séquençage de l'accessibilité de la chromatine (ATAC-seq) et séquençage par immunoprécipitation de la méthylation de l'ADN (MeDIP-seq), les caractéristiques de distribution des loci GWAS dans les éléments régulateurs du génome (tels que les promoteurs et les amplificateurs) ont été analysées de manière systématique. Grâce à l'algorithme de prédiction des éléments cis-régulateurs, le mécanisme d'influence potentiel de la variation génétique sur la régulation de l'expression génique a été évalué, y compris le changement du site de liaison des facteurs de transcription et le remodelage de la conformation de la chromatine.
Intégration du groupe de protéines et du groupe métabonomique : Avec l'aide de l'analyse des loci de traits quantitatifs protéiques (pQTL) et des loci de traits quantitatifs de métabolites (mQTL), un réseau régulateur causal de variation génétique, de phénotype moléculaire et de phénotype clinique a été construit.

Genetic-Glycan joint principal components derived using the OmicsPLS R-package. The loading values of each IgG1 glycan variable are shown for each component (Bouhaddani et al., 2018) Composantes principales conjointes génétiques-glycanes obtenues avec le package R OmicsPLS. Les valeurs de chargement de chaque variable de glycanes IgG1 sont représentées par composante (Bouhaddani et al., 2018).

Intégrer le développement de plateformes et d'outils

Ces dernières années, avec le développement rapide de la technologie biomédicale quantitative chez Qualcomm, la collecte de diverses données "omiques" a atteint un niveau de détail sans précédent. Dans ce contexte, les outils d'intégration multi-omiques émergent constamment.

OmicsIntegrator : En construisant un cadre d'analyse conjoint des données multi-omiques, il est possible de réaliser une exploitation collaborative des données génomiques, transcriptomiques, des groupes de protéines et de métabolomique, et d'identifier efficacement des marqueurs moléculaires multi-omiques liés à des maladies complexes.
MixOmics : Basé sur un algorithme d'apprentissage automatique, il peut trouver l'association potentielle entre des variables dans des données multidisciplinaires à haute dimension et aider les chercheurs à extraire des voies biologiques clés et des réseaux de régulation à partir de données massives.
IGUIDE : Concentrez-vous sur l'intégration des données de l'épigénome et du transcriptome, et utilisez un modèle d'apprentissage profond pour analyser le mécanisme de régulation de la modification épigénétique sur l'expression génique, fournissant une nouvelle perspective pour comprendre l'apparition et le développement des maladies.
Analyse des facteurs multi-omiques (MOFA) : En utilisant un modèle de graphique de probabilité, plusieurs ensembles de données omiques peuvent être traités simultanément, les signaux biologiques partagés et spécifiques parmi les omiques peuvent être séparés, et le mode de régulation multi-omique derrière des phénotypes complexes peut être révélé.

Training of Supervised Machine Learning Algorithms (Nicholls et al., 2020) Formation d'algorithmes d'apprentissage automatique supervisé (Nicholls et al., 2020)

Apprentissage automatique et IA dans les GWAS

L'apprentissage automatique (AA) et l'intelligence artificielle (IA) offrent une nouvelle solution pour les GWAS afin de surmonter les limites des modèles statistiques traditionnels, en particulier dans l'analyse de données complexes et la modélisation prédictive.

A. Prétraitement des données et filtrage du bruit
- a) Les données GWAS contiennent souvent du bruit tel que des erreurs techniques et un mélange de groupes, et les algorithmes d'apprentissage automatique peuvent optimiser efficacement la qualité des données.
- b) Dans la phase de prétraitement des données, sur la base d'un algorithme de clustering (tel que K-means), les échantillons anormaux peuvent être identifiés avec précision en analysant quantitativement les caractéristiques génétiques multidimensionnelles des échantillons (telles que la fréquence génotypique des loci SNP et la distribution de fréquence des allèles).
- c) Dans l'identification des signaux connexes, l'algorithme des forêts aléatoires, grâce à son avantage d'apprentissage intégré, améliore efficacement la capacité à capturer de véritables signaux connexes en construisant plusieurs arbres de décision et en synthétisant les résultats de vote. La machine à vecteurs de support (SVM) utilise une fonction de noyau non linéaire pour trouver l'hyperplan de classification optimal dans un espace de haute dimension, ce qui permet de distinguer avec précision le véritable signal de corrélation du faux signal de corrélation causé par la stratification de groupe, et en même temps, avec la correction de Bonferroni et d'autres stratégies, elle peut réduire de manière significative les problèmes de faux négatifs causés par des tests multiples.
- d) Face aux millions de sites de polymorphisme à un seul nucléotide (SNP) dans les données GWAS, l'auto-encodeur mappe les données SNP de haute dimension vers un espace caché de faible dimension en construisant une architecture de réseau de neurones comprenant une couche de codage et une couche de décodage, ce qui réduit la complexité computationnelle d'environ 80 % tout en conservant les caractéristiques génétiques clés. Cette réduction de dimension accélère non seulement l'analyse statistique ultérieure, mais évite également efficacement le risque de surajustement causé par la malédiction de la dimensionnalité.

A hypothetical GWAS locus featuring two signals that impact two genes (Cannon et al., 2018) Locus GWAS hypothétique avec deux signaux affectant deux gènes (Cannon et al., 2018)

B. Extraction de modèles d'association complexes
- a) L'apprentissage automatique offre des méthodes innovantes pour des relations complexes qui sont difficiles à saisir dans des modèles traditionnels, comme l'interaction gène-gène (effet épistatique) et l'interaction gène-environnement.
- b) Les modèles d'apprentissage profond (tels qu'un réseau de neurones convolutionnel, CNN) peuvent extraire automatiquement les caractéristiques d'association non linéaires des combinaisons de SNP et identifier avec succès cinq sites d'interaction manqués par les méthodes traditionnelles dans les GWAS sur les maladies mentales.
- c) L'arbre de décision par gradient boosting (GBDT) intègre les facteurs génétiques et environnementaux (tels que les précipitations et la température) dans l'étude des traits de rendement des cultures en construisant un modèle de prédiction multivarié, et prédit avec précision les effets génétiques dans différents environnements.
C. Prédiction phénotypique et annotation fonctionnelle
- a) Le modèle de prédiction par apprentissage automatique basé sur des marqueurs GWAS (tel que la version optimisée par apprentissage profond du score de risque multi-gènes PRS) peut améliorer de manière significative la précision de la prédiction du risque de maladie (par exemple, la valeur AUC de la prédiction du risque de cancer du sein est passée de 0,68 à 0,75).
- b) La technologie de traitement du langage naturel (NLP) peut annoter automatiquement les fonctions potentielles des loci GWAS en exploitant les textes biomédicaux dans la littérature et les bases de données, par exemple en les combinant avec la base de données Gene Ontology pour prédire les processus biologiques auxquels les loci pourraient participer.

Analyse de corrélation entre GWAS et variations rares

Traditionnel GWAS se concentre principalement sur les variations courantes (fréquence des allèles > 5 %), mais les variations rares (fréquence < 1 %) jouent un rôle important dans les maladies complexes (telles que les maladies rares et certaines maladies génétiques complexes) et les différences de réponse aux médicaments. L'analyse de corrélation entre les GWAS et les mutations rares est devenue un sujet de recherche brûlant dans ce domaine.

A. Défis techniques de l'analyse d'association des variations rares
- a) La demande en taille d'échantillon est énorme : En raison de la fréquence extrêmement basse des mutations rares dans la population (généralement une fréquence allélique < 1 %), la taille d'échantillon de plusieurs dizaines de milliers de personnes requise par les GWAS traditionnels est difficile à atteindre pour répondre aux exigences des tests statistiques, et il est souvent nécessaire d'inclure des centaines de milliers, voire des millions d'échantillons pour obtenir une efficacité de test suffisante, ce qui entraîne une augmentation considérable des coûts de recherche et rend la collecte d'échantillons extrêmement difficile.
- b) Le fardeau des multiples tests est aggravé : Lorsque des mutations rares sont détectées dans l'ensemble du génome, le nombre de sites de mutation qui doivent être testés en même temps augmente considérablement, ce qui aggrave encore le problème d'un seuil strict causé par les tests multiples et les corrections, rendant le véritable signal de corrélation plus facilement enfoui dans le bruit.
- c) Hétérogénéité génétique complexe : Une mutation rare a généralement une spécificité de population plus forte et une hétérogénéité fonctionnelle, et le mécanisme pathogène de la même mutation rare peut être différent chez différents individus ou populations, il est donc difficile de capturer avec précision son modèle d'association avec le phénotype à l'aide d'un modèle statistique unifié.

Presented here are the outcomes of the multivariate analysis on pleiotropy: for each locus, the method yields the optimal fitting solution indicating which phenotypes were associated with that locus (Liu et al., 2019) Représentés ici sont les résultats de l'analyse multivariée de la pléiotropie. Pour chaque locus, la méthode renvoie la solution la mieux ajustée des phénotypes associés à ce locus (Liu et al., 2019).

B. Méthodes et outils d'analyse des cœurs
- a) Tests de charge : Cette méthode agrège les mutations rares dans le même gène dans le groupe de cas et le groupe témoin, et juge si le gène est lié à la maladie en comparant la différence de nombre ou de fréquence des mutations entre les deux groupes.
- b) Test d'association basé sur un ensemble : Cette méthode ne se contente pas de prêter attention à la quantité de variation, mais prend également en compte de manière exhaustive les informations, telles que l'annotation fonctionnelle et la fréquence allélique de la variation. En construisant un modèle statistique, la corrélation entre les ensembles de variations rares dans les gènes et les phénotypes a été évaluée.
- c) Stratégie d'analyse de stratification : Selon l'influence fonctionnelle de la variation (telle que la mutation non-sens, la mutation de décalage de cadre, etc.), la position dans le gène (comme la région codante et la région non codante) ou le sous-groupe de population, la variation rare est stratifiée. L'analyse de corrélation des ensembles de variations de différents niveaux est utile pour localiser plus précisément les variations rares liées aux maladies.
- d) Méthode d'apprentissage automatique : Utiliser un algorithme d'apprentissage automatique pour intégrer plusieurs données omiques, telles que les données d'expression génique, les données de structure protéique, etc., combinées avec des informations sur les mutations rares pour l'analyse d'association avec des maladies.

Conclusion

L'innovation technologique des GWAS propulse la recherche génétique des traits complexes à un nouveau stade. L'analyse multi-traits inter-populations brise la barrière des données, la multi-omique intègre le chemin génétique-phénotype, l'apprentissage automatique améliore l'efficacité de l'analyse des données, la recherche sur les mutations rares améliore la carte génétique et construit conjointement un système de recherche intelligent multidimensionnel.

À l'avenir, les GWAS présenteront trois tendances de développement : premièrement, la fusion de données à différentes échelles, combinée avec l'omics à cellule unique et d'autres technologies pour analyser les effets génétiques. Deuxièmement, l'innovation collaborative interdisciplinaire, intégrant l'évolution et d'autres théories, révèle l'importance de la variation génétique. Troisièmement, la transformation clinique est accélérée, et un diagnostic et un traitement précis des maladies sont réalisés grâce à l'analyse de corrélation.

Bien que des défis subsistent, avec les avancées continues des méthodes techniques, les GWAS continueront de fournir un outil d'analyse génétique puissant pour analyser la complexité de la vie et promouvoir le développement de la médecine de précision et de l'agriculture moderne.

Références :

Zhang W, Gao X, Shi X, et al. "Analyse GWAS multi-traits basée sur l'ACP : un modèle puissant pour explorer la pléiotropie." Animaux (Bâle). 2018 8(12): 239
Troubat L, Fettahoglu D, Henches L, Aschard H, Julienne H.GWAS multi-traits pour des ascendants divers : combler le fossé des connaissances." BMC Genomics2024 25(1) : 375
Bouhaddani SE, Uh HW, Jongbloed G, Hayward C., et al. "Intégration des ensembles de données omiques avec le package OmicsPLS." BMC Bioinformatique2018 19(1) : 371
Nicholls HL, John CR, Watson DS, Munroe PB, Barnes MR, Cabrera CP. "Atteindre la fin du jeu pour les GWAS : Approches d'apprentissage automatique pour la priorisation des loci de maladies complexes." Front Genet. 2020 11 : 350
Cannon ME, Mohlke KL. "Déchiffrer les complexités émergentes des mécanismes moléculaires aux loci GWAS." Am J Hum Genet2018 103(5) : 637-653
Liu M, Jiang Y, Wedow R, et al. "Des études d'association portant sur jusqu'à 1,2 million d'individus offrent de nouvelles perspectives sur l'étiologie génétique de l'utilisation du tabac et de l'alcool." Nat Genet2019 51(2) : 237-244

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés