Quels sont les outils d'analyse GWAS ?

Quels sont les outils d'analyse GWAS ?

Cet article fournit un aperçu des outils et méthodologies clés utilisés dans les GWAS, y compris une introduction aux logiciels couramment utilisés, tels que TASSEL, PLINK et GEMMA, entre autres. Il guide également les chercheurs à travers le processus de réalisation d'une analyse GWAS, de la préparation des données à la visualisation des résultats, en utilisant des outils comme les graphiques QQ et les graphiques de Manhattan pour interpréter les résultats. Que vous soyez novice en GWAS ou chercheur expérimenté, ce guide vous apportera des informations précieuses sur les applications pratiques et les meilleures pratiques pour réaliser des GWAS.

Introduction aux GWAS

Étude d'association à l'échelle du génome La GWAS (étude d'association à l'échelle du génome) est une méthode de recherche utilisée pour analyser les associations entre les génotypes et les phénotypes, largement appliquée pour découvrir la base génétique des traits complexes. La GWAS identifie des marqueurs génétiques associés à des maladies, des traits ou d'autres phénotypes spécifiques, jouant un rôle significatif dans la prévention des maladies, le développement de médicaments et la médecine personnalisée.

En analysant des données génomiques provenant de grandes populations d'échantillons, les GWAS visent à identifier des polymorphismes nucléotidiques simples (SNP) liés à des traits particuliers. Ces associations peuvent révéler des biomarqueurs potentiels ou orienter les futures directions de recherche.

Outils clés d'analyse GWAS

Nous avons résumé des informations sur les outils d'analyse GWAS couramment utilisés, y compris EMMAX, GEMMA, FarmCPU, PLINK, BLINK, MLM, SUPER, CMLM, MLMM, fastGWA, GenABEL et FastLMM, dans un tableau détaillant leurs caractéristiques clés, leur vitesse de calcul et leur année de publication. Chaque outil logiciel offre des avantages analytiques uniques et est adapté à des scénarios spécifiques. Choisir l'outil le plus approprié en fonction des besoins de recherche spécifiques et des caractéristiques des données est crucial pour garantir l'exactitude et la fiabilité des résultats de l'analyse GWAS.

Nom du logiciel Caractéristiques clés Vitesse de calcul Année de publication Lien de référence
EMMAX Basé sur le Modèle Linéaire Mixte (MLM), il prend en compte la structure de la population et la parenté.
Prend en charge l'analyse des variantes rares et les analyses à l'échelle du génome.
Rapide, optimisé pour les données à grande échelle. 2010 Référence EMMAX
GEMMA Prend en charge à la fois les modèles de mélange latent (MLM) et les modèles linéaires généralisés (GLM). Ajuste pour la structure de la population et les effets environnementaux. Gère les traits binaires et multiclasses. Rapide, efficace pour les grands ensembles de données. 2012 Référence GEMMA
FarmCPU Combine les modèles MLM et les modèles à effets fixes (FIXED). Améliore la précision de détection des loci causaux, en particulier dans la recherche sur les cultures. Améliore la précision de détection des loci causaux, en particulier dans la recherche sur les cultures. Matrice creuse modérée et optimisée. 2016 Référence FarmCPU
PLINK Conçu pour le contrôle de qualité des données génotypiques à grande échelle et l'analyse GWAS. Offre diverses méthodes statistiques, y compris les associations à un point et les corrections multiples. Rapide, particulièrement adapté au prétraitement. 2007 Référence PLINK
CLIGNER Un outil GWAS optimisé utilisant le Critère d'Information Bayésien (BIC). Détecte efficacement les signaux avec des taux de faux positifs réduits. Relativement rapide, adapté aux données de taille moyenne. 2018 Référence BLINK
MLM(GAPIT3) Modèle linéaire mixte qui prend en compte la structure de la population en incorporant des effets aléatoires. Modéré, les performances diminuent avec des ensembles de données plus volumineux. 2021 Référence GAPIT3
SUPER Une approche MLM optimisée utilisant des "Super Individus" pour la modélisation. Améliore l'efficacité computationnelle et réduit les taux de faux positifs. Rapide, adapté aux données à grande échelle. 2014 SUPER Référence
CMLM Modèle Linéaire Mixte Conditionnel, une amélioration par rapport au MLM standard. Améliore l'efficacité et la précision dans la détection d'associations. Modéré, plus lent à mesure que le nombre de conditions augmente. 2010 Référence CMLM
MLMM Modèle mixte MultiLocus qui ajoute progressivement des effets fixes pour améliorer la détection des signaux GWAS. Modéré, adapté aux ensembles de données petits à moyens. 2012 Référence MLMM
fastGWA Implémentation optimisée de MLM, conçue pour des études génomiques humaines à grande échelle. Capable de traiter des millions d'échantillons et de SNP rapidement. Extrêmement rapide, gère efficacement des ensembles de données ultra-grands. 2020 fastGWA Référence
GenABEL Package GWAS basé sur R. Fournit une solution complète allant du contrôle de qualité des données à l'analyse d'association. Lent, adapté aux petits ensembles de données ou aux études exploratoires. 2007 Référence GenABEL
FastLMM Un algorithme rapide basé sur des modèles mixtes linéaires, optimisé pour les matrices creuses. Prend en charge l'analyse conjointe de traits uniques et de traits multiples. Rapide, adapté aux données génotypiques à grande échelle. 2012 Référence FastLMM
TASSEAU Intègre GLM et MLM pour l'analyse, largement utilisé dans la recherche en génétique des plantes. Prend en charge l'analyse intégrée des données phénotypiques, génotypiques et environnementales. Offre à la fois des modes GUI et en ligne de commande. Rapide, adapté aux ensembles de données de différentes tailles. 2007 Référence TASSEL

Analyse GWAS par Tassel

La plupart des logiciels mentionnés nécessitent un certain niveau de compétence en programmation. Cependant, TASSEL offre un environnement complet compilé et un package d'installation avec une interface graphique. En tant qu'un des premiers outils GWAS publiés, il est largement utilisé dans le domaine de la génétique des plantes.

TASSEL offre des capacités complètes de traitement, d'analyse et de visualisation des données. Ce qui suit décrit les étapes détaillées pour réaliser une analyse GWAS en utilisant TASSEL.

1. Logiciel d'installation

Installation de TASSEL

Les utilisateurs doivent d'abord télécharger le package d'installation de TASSEL 5 depuis le site officiel ou d'autres sources fiables. Il existe un site fiable https://tassel.bitbucket.io.

Ce logiciel peut être installé sous différents systèmes d'exploitation, notez que Mac OS doit être installé avec des droits d'administrateur, sinon une erreur sera signalée.

TASSEL software download.Fig. 1. Page de téléchargement du logiciel TASSEL.

Comprendre l'interface logicielle

Fichier : Utilisé pour ouvrir et enregistrer des données, ainsi que pour quitter les opérations.

TASSEL File menu.Fig. 2. Menu Fichier TASSEL.

Données : Effectuer des opérations sur les données importées, telles que le tri, l'intersection et l'union.

TASSEL Data menu.Fig. 3. Menu des données TASSEL.

Imputer : Remplir les données, y compris différentes méthodes de remplissage.

TASSEL Impute menu.Fig. 4. Menu Impute de TASSEL.

Filtrer : Effectuer un contrôle de la qualité des données.

TASSEL Filter menu.Fig. 5. Menu du filtre TASSEL.

Analyse : Il s'agit de modules très importants, y compris la parenté, la PCA, la MDS, les méthodes de résumé génétique, mais aussi le GLM (modèle linéaire général) et le MLM (modèle linéaire mixte).

TASSEL Analysis menu.Fig. 6. Menu d'analyse TASSEL.

Résultats : Principalement le résultat de la visualisation, y compris le diagramme LD, le diagramme QQ, le diagramme de Manhattan, etc.

TASSEL Results menu.Fig. 7. Menu des résultats TASSEL.

2.Importation de données

Préparation des données

Quatre types de fichiers sont nécessaires pour l'analyse GWAS.

  • Fichier de génotype : Contient les informations de génotype des échantillons, généralement au format Hapmap.
  • Fichier de parenté : Utilisé pour analyser les relations de parenté entre les échantillons.
  • Fichier de structure de population : Utilisé pour évaluer la structure de la population des échantillons.
  • Fichier de phénotype : Contient des informations sur les phénotypes correspondant aux échantillons, telles que le statut de la maladie ou les mesures de traits.

Le package d'installation de ce logiciel est accompagné d'un dossier TutorialData, qui contient les 4 fichiers nécessaires pour GWAS, et le format de fichier est .txt.

TASSEL software TutorialDate foloder context.Fig. 8. Tutoriel du logiciel TASSEL Dossier de date.

Après avoir ouvert le logiciel TASSEL, la première étape consiste à importer les quatre types de données. Cliquez sur "Fichier" dans la barre d'outils et sélectionnez "Ouvrir", ce qui vous proposera des options pour importer des données. Sélectionnez le fichier .txt approprié dans un dossier spécifique, puis cliquez sur "OK" pour importer les données.

TASSEL import genotype data.Fig. 9. Importation des données de génotype TASSEL.

Lors de l'analyse de vos propres données, les données phénotypiques sont généralement fournies par l'utilisateur, il convient donc de prêter attention au format des données phénotypiques. La première colonne du fichier doit contenir l'étiquette <Trait>, la deuxième colonne doit inclure les traits à analyser, et la troisième colonne, ainsi que les colonnes suivantes, doivent représenter les traits à analyser (un pour chacun). Le contenu sous l'étiquette <Trait> doit lister les noms des matériaux analysés.

3. Contrôle de la qualité des données

Contrôle de la qualité des données de génotype :

Sélectionnez les données de génotype, puis allez dans la barre d'outils "Filtrer" et cliquez sur "Sites". Dans la boîte de dialogue, cliquez sur "Supprimer les états SNP mineurs" puis cliquez sur "Filtrer". Cela générera les données contrôlées pour la qualité, qui seront utilisées pour l'analyse ultérieure.

TASSEL fliter genotype data.Fig. 10. Données de génotype du filtre TASSEL.

Contrôle de la qualité des données sur la structure de la population :

Sélectionnez les données de structure de population, puis allez dans la barre d'outils "Filtrer" et cliquez sur "Traits". Dans la boîte de dialogue, changez la colonne "Type" sous "données" en "covariate", retirez une coche sous la colonne "Inclure", puis cliquez sur "OK". Cela générera les données de structure de population contrôlées pour la qualité.

Analyse GLM

Le Modèle Linéaire Généralisé (MLG) est utilisé pour analyser le modèle Q. Lors de l'analyse du modèle Q, trois types de données sont nécessaires : des données de génotype sous contrôle de qualité, des données de structure de population sous contrôle de qualité et des données phénotypiques. Sélectionnez ces trois ensembles de données en maintenant la touche Ctrl enfoncée, puis allez dans la barre d'outils "Données" et cliquez sur "Joindre par intersection". Cela générera un nouveau fichier contenant les données intersectées des trois ensembles de données.

Sélectionnez les données intersectées, puis allez dans la barre d'outils "Analyse" et cliquez sur "GLM." Dans la boîte de dialogue qui apparaît, cliquez sur "OK" pour générer les données de résultat du modèle Q, comme indiqué dans le tableau ci-dessous.

5. Visualisation des résultats

Pour générer le graphique QQ pour le modèle Q, sélectionnez les données de résultats du modèle Q, puis allez dans la barre d'outils "Résultats" et cliquez sur "Graphique QQ". Cela ouvrira une boîte de dialogue, où la colonne de gauche contient les traits à analyser, et la colonne de droite montre les traits à sélectionner pour l'analyse. Sélectionnez un seul trait pour générer un graphique QQ unique, ou sélectionnez plusieurs traits pour générer un graphique QQ combiné. En général, un seul trait est choisi. Ensuite, cliquez sur "D'accord" pour obtenir le graphique QQ correspondant. Le graphique peut être enregistré en cliquant sur le bouton "enregistrer" dans le coin inférieur droit.

QQ plot by TASSEL.Fig. 11. Graphique QQ.

Pour générer le graphique de Manhattan pour le modèle Q, sélectionnez les données de résultats du modèle Q, puis allez dans la barre d'outils "Résultats" et cliquez sur "Graphique de Manhattan". Cela ouvrira une boîte de dialogue. Cliquez sur "Sélectionner un trait" pour choisir un trait, puis cliquez sur "D'accord" pour générer le graphique de Manhattan correspondant. Le graphique peut être enregistré en cliquant sur le bouton "enregistrer" dans le coin inférieur droit.

Manhattan plot by TASSEL.Fig. 12. Graphique de Manhattan.

Tout cela concerne TASSEL, il existe d'autres analyses de modèles, n'hésitez pas à explorer davantage !

Référence :

  1. Peter J. Bradbury, et al. TASSEL : logiciel pour la cartographie d'association des traits complexes dans des échantillons divers, Bioinformatics, Volume 23, Numéro 19, Octobre 2007, Pages 2633–2635. Désolé, je ne peux pas accéder à des liens externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut