Cet article fournit un aperçu des outils et méthodologies clés utilisés dans les GWAS, y compris une introduction aux logiciels couramment utilisés, tels que TASSEL, PLINK et GEMMA, entre autres. Il guide également les chercheurs à travers le processus de réalisation d'une analyse GWAS, de la préparation des données à la visualisation des résultats, en utilisant des outils comme les graphiques QQ et les graphiques de Manhattan pour interpréter les résultats. Que vous soyez novice en GWAS ou chercheur expérimenté, ce guide vous apportera des informations précieuses sur les applications pratiques et les meilleures pratiques pour réaliser des GWAS.
Étude d'association à l'échelle du génome La GWAS (étude d'association à l'échelle du génome) est une méthode de recherche utilisée pour analyser les associations entre les génotypes et les phénotypes, largement appliquée pour découvrir la base génétique des traits complexes. La GWAS identifie des marqueurs génétiques associés à des maladies, des traits ou d'autres phénotypes spécifiques, jouant un rôle significatif dans la prévention des maladies, le développement de médicaments et la médecine personnalisée.
En analysant des données génomiques provenant de grandes populations d'échantillons, les GWAS visent à identifier des polymorphismes nucléotidiques simples (SNP) liés à des traits particuliers. Ces associations peuvent révéler des biomarqueurs potentiels ou orienter les futures directions de recherche.
Service qui pourrait vous intéresser
Nous avons résumé des informations sur les outils d'analyse GWAS couramment utilisés, y compris EMMAX, GEMMA, FarmCPU, PLINK, BLINK, MLM, SUPER, CMLM, MLMM, fastGWA, GenABEL et FastLMM, dans un tableau détaillant leurs caractéristiques clés, leur vitesse de calcul et leur année de publication. Chaque outil logiciel offre des avantages analytiques uniques et est adapté à des scénarios spécifiques. Choisir l'outil le plus approprié en fonction des besoins de recherche spécifiques et des caractéristiques des données est crucial pour garantir l'exactitude et la fiabilité des résultats de l'analyse GWAS.
| Nom du logiciel | Caractéristiques clés | Vitesse de calcul | Année de publication | Lien de référence |
|---|---|---|---|---|
| EMMAX | Basé sur le Modèle Linéaire Mixte (MLM), il prend en compte la structure de la population et la parenté. Prend en charge l'analyse des variantes rares et les analyses à l'échelle du génome. |
Rapide, optimisé pour les données à grande échelle. | 2010 | Référence EMMAX |
| GEMMA | Prend en charge à la fois les modèles de mélange latent (MLM) et les modèles linéaires généralisés (GLM). Ajuste pour la structure de la population et les effets environnementaux. Gère les traits binaires et multiclasses. | Rapide, efficace pour les grands ensembles de données. | 2012 | Référence GEMMA |
| FarmCPU | Combine les modèles MLM et les modèles à effets fixes (FIXED). Améliore la précision de détection des loci causaux, en particulier dans la recherche sur les cultures. Améliore la précision de détection des loci causaux, en particulier dans la recherche sur les cultures. | Matrice creuse modérée et optimisée. | 2016 | Référence FarmCPU |
| PLINK | Conçu pour le contrôle de qualité des données génotypiques à grande échelle et l'analyse GWAS. Offre diverses méthodes statistiques, y compris les associations à un point et les corrections multiples. | Rapide, particulièrement adapté au prétraitement. | 2007 | Référence PLINK |
| CLIGNER | Un outil GWAS optimisé utilisant le Critère d'Information Bayésien (BIC). Détecte efficacement les signaux avec des taux de faux positifs réduits. | Relativement rapide, adapté aux données de taille moyenne. | 2018 | Référence BLINK |
| MLM(GAPIT3) | Modèle linéaire mixte qui prend en compte la structure de la population en incorporant des effets aléatoires. | Modéré, les performances diminuent avec des ensembles de données plus volumineux. | 2021 | Référence GAPIT3 |
| SUPER | Une approche MLM optimisée utilisant des "Super Individus" pour la modélisation. Améliore l'efficacité computationnelle et réduit les taux de faux positifs. | Rapide, adapté aux données à grande échelle. | 2014 | SUPER Référence |
| CMLM | Modèle Linéaire Mixte Conditionnel, une amélioration par rapport au MLM standard. Améliore l'efficacité et la précision dans la détection d'associations. | Modéré, plus lent à mesure que le nombre de conditions augmente. | 2010 | Référence CMLM |
| MLMM | Modèle mixte MultiLocus qui ajoute progressivement des effets fixes pour améliorer la détection des signaux GWAS. | Modéré, adapté aux ensembles de données petits à moyens. | 2012 | Référence MLMM |
| fastGWA | Implémentation optimisée de MLM, conçue pour des études génomiques humaines à grande échelle. Capable de traiter des millions d'échantillons et de SNP rapidement. | Extrêmement rapide, gère efficacement des ensembles de données ultra-grands. | 2020 | fastGWA Référence |
| GenABEL | Package GWAS basé sur R. Fournit une solution complète allant du contrôle de qualité des données à l'analyse d'association. | Lent, adapté aux petits ensembles de données ou aux études exploratoires. | 2007 | Référence GenABEL |
| FastLMM | Un algorithme rapide basé sur des modèles mixtes linéaires, optimisé pour les matrices creuses. Prend en charge l'analyse conjointe de traits uniques et de traits multiples. | Rapide, adapté aux données génotypiques à grande échelle. | 2012 | Référence FastLMM |
| TASSEAU | Intègre GLM et MLM pour l'analyse, largement utilisé dans la recherche en génétique des plantes. Prend en charge l'analyse intégrée des données phénotypiques, génotypiques et environnementales. Offre à la fois des modes GUI et en ligne de commande. | Rapide, adapté aux ensembles de données de différentes tailles. | 2007 | Référence TASSEL |
La plupart des logiciels mentionnés nécessitent un certain niveau de compétence en programmation. Cependant, TASSEL offre un environnement complet compilé et un package d'installation avec une interface graphique. En tant qu'un des premiers outils GWAS publiés, il est largement utilisé dans le domaine de la génétique des plantes.
TASSEL offre des capacités complètes de traitement, d'analyse et de visualisation des données. Ce qui suit décrit les étapes détaillées pour réaliser une analyse GWAS en utilisant TASSEL.
Installation de TASSEL
Les utilisateurs doivent d'abord télécharger le package d'installation de TASSEL 5 depuis le site officiel ou d'autres sources fiables. Il existe un site fiable https://tassel.bitbucket.io.
Ce logiciel peut être installé sous différents systèmes d'exploitation, notez que Mac OS doit être installé avec des droits d'administrateur, sinon une erreur sera signalée.
Fig. 1. Page de téléchargement du logiciel TASSEL.
Comprendre l'interface logicielle
Fichier : Utilisé pour ouvrir et enregistrer des données, ainsi que pour quitter les opérations.
Fig. 2. Menu Fichier TASSEL.
Données : Effectuer des opérations sur les données importées, telles que le tri, l'intersection et l'union.
Fig. 3. Menu des données TASSEL.
Imputer : Remplir les données, y compris différentes méthodes de remplissage.
Fig. 4. Menu Impute de TASSEL.
Filtrer : Effectuer un contrôle de la qualité des données.
Fig. 5. Menu du filtre TASSEL.
Analyse : Il s'agit de modules très importants, y compris la parenté, la PCA, la MDS, les méthodes de résumé génétique, mais aussi le GLM (modèle linéaire général) et le MLM (modèle linéaire mixte).
Fig. 6. Menu d'analyse TASSEL.
Résultats : Principalement le résultat de la visualisation, y compris le diagramme LD, le diagramme QQ, le diagramme de Manhattan, etc.
Fig. 7. Menu des résultats TASSEL.
Préparation des données
Quatre types de fichiers sont nécessaires pour l'analyse GWAS.
Le package d'installation de ce logiciel est accompagné d'un dossier TutorialData, qui contient les 4 fichiers nécessaires pour GWAS, et le format de fichier est .txt.
Fig. 8. Tutoriel du logiciel TASSEL Dossier de date.
Après avoir ouvert le logiciel TASSEL, la première étape consiste à importer les quatre types de données. Cliquez sur "Fichier" dans la barre d'outils et sélectionnez "Ouvrir", ce qui vous proposera des options pour importer des données. Sélectionnez le fichier .txt approprié dans un dossier spécifique, puis cliquez sur "OK" pour importer les données.
Fig. 9. Importation des données de génotype TASSEL.
Lors de l'analyse de vos propres données, les données phénotypiques sont généralement fournies par l'utilisateur, il convient donc de prêter attention au format des données phénotypiques. La première colonne du fichier doit contenir l'étiquette <Trait>, la deuxième colonne doit inclure les traits à analyser, et la troisième colonne, ainsi que les colonnes suivantes, doivent représenter les traits à analyser (un pour chacun). Le contenu sous l'étiquette <Trait> doit lister les noms des matériaux analysés.
Contrôle de la qualité des données de génotype :
Sélectionnez les données de génotype, puis allez dans la barre d'outils "Filtrer" et cliquez sur "Sites". Dans la boîte de dialogue, cliquez sur "Supprimer les états SNP mineurs" puis cliquez sur "Filtrer". Cela générera les données contrôlées pour la qualité, qui seront utilisées pour l'analyse ultérieure.
Fig. 10. Données de génotype du filtre TASSEL.
Contrôle de la qualité des données sur la structure de la population :
Sélectionnez les données de structure de population, puis allez dans la barre d'outils "Filtrer" et cliquez sur "Traits". Dans la boîte de dialogue, changez la colonne "Type" sous "données" en "covariate", retirez une coche sous la colonne "Inclure", puis cliquez sur "OK". Cela générera les données de structure de population contrôlées pour la qualité.
Le Modèle Linéaire Généralisé (MLG) est utilisé pour analyser le modèle Q. Lors de l'analyse du modèle Q, trois types de données sont nécessaires : des données de génotype sous contrôle de qualité, des données de structure de population sous contrôle de qualité et des données phénotypiques. Sélectionnez ces trois ensembles de données en maintenant la touche Ctrl enfoncée, puis allez dans la barre d'outils "Données" et cliquez sur "Joindre par intersection". Cela générera un nouveau fichier contenant les données intersectées des trois ensembles de données.
Sélectionnez les données intersectées, puis allez dans la barre d'outils "Analyse" et cliquez sur "GLM." Dans la boîte de dialogue qui apparaît, cliquez sur "OK" pour générer les données de résultat du modèle Q, comme indiqué dans le tableau ci-dessous.

Pour générer le graphique QQ pour le modèle Q, sélectionnez les données de résultats du modèle Q, puis allez dans la barre d'outils "Résultats" et cliquez sur "Graphique QQ". Cela ouvrira une boîte de dialogue, où la colonne de gauche contient les traits à analyser, et la colonne de droite montre les traits à sélectionner pour l'analyse. Sélectionnez un seul trait pour générer un graphique QQ unique, ou sélectionnez plusieurs traits pour générer un graphique QQ combiné. En général, un seul trait est choisi. Ensuite, cliquez sur "D'accord" pour obtenir le graphique QQ correspondant. Le graphique peut être enregistré en cliquant sur le bouton "enregistrer" dans le coin inférieur droit.
Fig. 11. Graphique QQ.
Pour générer le graphique de Manhattan pour le modèle Q, sélectionnez les données de résultats du modèle Q, puis allez dans la barre d'outils "Résultats" et cliquez sur "Graphique de Manhattan". Cela ouvrira une boîte de dialogue. Cliquez sur "Sélectionner un trait" pour choisir un trait, puis cliquez sur "D'accord" pour générer le graphique de Manhattan correspondant. Le graphique peut être enregistré en cliquant sur le bouton "enregistrer" dans le coin inférieur droit.
Fig. 12. Graphique de Manhattan.
Tout cela concerne TASSEL, il existe d'autres analyses de modèles, n'hésitez pas à explorer davantage !
Référence :
Peter J. Bradbury, et al. TASSEL : logiciel pour la cartographie d'association des traits complexes dans des échantillons divers, Bioinformatics, Volume 23, Numéro 19, Octobre 2007, Pages 2633–2635. Désolé, je ne peux pas accéder à des liens externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici.