La base de données GWAS la plus complète

Études d'association à l'échelle du génome Les études d'association à l'échelle du génome (GWAS) révèlent la base génétique des traits complexes et des maladies en analysant les associations entre les variations génomiques et les caractéristiques phénotypiques. Les bases de données GWAS servent de ressources essentielles, intégrant des données génétiques et phénotypiques pour soutenir des analyses génomiques à grande échelle. Cet article résume les caractéristiques, les types de données et les exigences d'accès des bases de données GWAS couramment utilisées, telles que le GWAS Catalog, OpenGWAS et UK Biobank. Il fournit également des conseils détaillés sur les méthodes de téléchargement et d'utilisation des données, permettant aux chercheurs d'utiliser efficacement ces ressources pour faire progresser la recherche génétique.

Qu'est-ce qu'une base de données GWAS ?

Une base de données GWAS sert de répertoire pour les données génétiques et phénotypiques collectées à partir de diverses études, permettant aux chercheurs d'accéder à des ensembles de données complets pour l'analyse. Ces bases de données incluent généralement des données de génotype (par exemple, SNPs, insertions) et des données phénotypiques (traits observables), facilitant des analyses à grande échelle qui renforcent la capacité à détecter des associations génétiques.

Les données GWAS dont nous parlons souvent font généralement référence au résumé GWAS, qui enregistre les informations des sites SNP un par un, y compris les sites, les valeurs P et d'autres informations.

GWAS summary table.Figure 1. Données résumées de GWAS.

Liste des bases de données GWAS

Voici quelques bases de données GWAS couramment utilisées :

Catalogue GWAS

Maintenue par l'Institut européen de bioinformatique (EMBL-EBI), cette base de données compile et organise les résultats des études d'association à l'échelle du génome (GWAS) menées dans le monde entier. Elle offre des données complètes sur l'association gène-phénotype, y compris les emplacements des variants génétiques, les phénotypes associés, les tailles d'effet et la signification statistique. La base de données est entièrement en accès libre, permettant aux utilisateurs de rechercher et de télécharger des données gratuitement.

OpenGWAS

La base de données, maintenue par l'Unité d'Épidémiologie Intégrative du MRC à l'Université de Bristol, offre de nombreuses options de téléchargement de données et un accès API, y compris certains résultats de GWAS non publiés. Les chercheurs utilisant cette ressource doivent vérifier régulièrement les mises à jour pour accéder aux dernières données, examiner attentivement les conditions d'utilisation et les exigences de citation, et prêter attention aux informations sur le contrôle de la qualité et les sources de population des données.

GIANT (Investigation Génétique des Traits Anthropométriques)

Un projet collaboratif international axé sur l'étude des facteurs génétiques influençant la taille et la forme du corps humain, tels que la taille, l'indice de masse corporelle (IMC) et les niveaux d'obésité.

Biobanque du Royaume-Uni

Une base de données à grande échelle d'échantillons biologiques et d'informations sur la santé couramment utilisée dans la recherche GWAS. Elle fournit des données génétiques et phénotypiques étendues adaptées aux analyses de randomisation mendélienne liées à divers résultats de santé et de maladies. L'accès aux données nécessite une demande, une évaluation éthique et un paiement.

EGA (Archive Européenne du Génome et du Phénotype)

Une base de données spécifiquement conçue pour stocker et distribuer des données génétiques et phénotypiques liées à la recherche biomédicale. Elle met l'accent sur la confidentialité et la sécurité des données, en particulier pour les informations génétiques humaines sensibles. L'EGA contient des données provenant d'études d'association à l'échelle du génome (GWAS), de projets de séquençage et d'autres études génétiques à grande échelle liées aux maladies et aux traits phénotypiques normaux. L'accès aux données de l'EGA implique un processus strict, nécessitant que les chercheurs soumettent une demande détaillant l'objectif d'utilisation, qui doit être approuvée avant que l'accès aux données ne soit accordé.

dbGaP (Base de données des génotypes et des phénotypes)

Géré par le Centre national pour les informations biotechnologiques (NCBI), cette base de données archive, organise et diffuse des données de recherche explorant l'interaction entre les génotypes et les phénotypes. Les données proviennent généralement d'études d'association à l'échelle du génome (GWAS), de projets de séquençage médical, d'études de diagnostic moléculaire et d'autres domaines de recherche génétique et clinique. L'accès nécessite un processus de demande détaillé, incluant la soumission d'un plan de recherche, l'objectif d'utilisation, et souvent l'approbation d'un comité d'éthique ou d'un conseil d'examen institutionnel (IRB). Les chercheurs approuvés obtiennent l'accès à des ensembles de données spécifiques pour leurs projets.

FinnGen

Une base de données génétique finlandaise contenant des données génétiques étendues de la population finlandaise. En raison de la grande homogénéité génétique de la population, elle est particulièrement précieuse pour identifier la base génétique des maladies complexes. Les données sont disponibles publiquement à des fins de recherche, mais l'accès peut nécessiter le respect de politiques spécifiques ou des accords de collaboration.

IEU (Unité d'Estimation par Variables Instrumentales en Épidémiologie)

Cette base de données et plateforme de ressources fournissent des variables instrumentales (typiquement des polymorphismes nucléotidiques simples, SNPs) et un soutien méthodologique pour les analyses de randomisation mendélienne. De nombreuses ressources méthodologiques et certaines données de variables instrumentales sont disponibles gratuitement.

PGC (Consortium de Génétique Psychiatrique)

Un consortium axé sur la recherche génétique liée aux troubles psychiatriques. Il fournit des données GWAS qui sont essentielles pour étudier les mécanismes causaux sous-jacents aux problèmes de santé mentale.

CKD Gén

Une base de données spécialisée dans l'étude génétique de la maladie rénale chronique et des traits associés, tels que le taux de filtration glomérulaire estimé (eGFR). Elle soutient les analyses de randomisation mendélienne dans la recherche sur les maladies rénales.

GEFOS (Facteurs Génétiques pour l'Ostéoporose)

Une alliance axée sur la génétique de l'ostéoporose, fournissant des données GWAS liées à la santé osseuse et à l'ostéoporose.

GLGC (Consortium Mondial sur la Génétique des Lipides)

Offre des données génétiques liées aux niveaux de lipides sanguins, servant de ressource précieuse pour les études de randomisation mendélienne dans les domaines cardiovasculaires et connexes.

SSGAC (Consortium d'Association Génétique en Sciences Sociales)

Se concentre sur la recherche génétique dans des domaines des sciences sociales tels que le statut socio-économique et le niveau d'éducation.

Les données générées par des consortiums (par exemple, PGC, CKD Gen, GEFOS, GLGC, SSGAC) ou des projets sont souvent partagées librement avec la communauté de recherche par le biais de publications scientifiques ou de bases de données publiques une fois publiées.

Comment télécharger des données GWAS

Rechercher des articles dans PubMed

Recherche bibliographiqueCommencez par rechercher sur PubMed en utilisant des mots-clés tels que "GWAS", "étude d'association à l'échelle du génome", ainsi que le nom de la maladie ou du trait spécifique d'intérêt. Cela aidera à identifier des articles de recherche pertinents.

Revue AbstraiteLa révision des résumés peut fournir une évaluation initiale de la pertinence des études et de l'applicabilité des données.

Données d'identification Sources : De nombreuses études GWAS mentionnent les ensembles de données qu'elles ont utilisés ou spécifient les bases de données publiques où les données sont stockées, telles que le GWAS Catalog, l'EGA (European Genome-Phenome Archive) ou le dbGaP (Database of Genotypes and Phenotypes).

Accéder aux bases de données et ressources GWAS: Suivant les recommandations de la littérature, accédez directement à des bases de données comme le GWAS Catalog. Ces bases de données offrent souvent des options de téléchargement de données, qui peuvent nécessiter une inscription et l'acceptation de conditions d'utilisation spécifiques.

Télécharger dans la base de données OpenGWAS

Après avoir accédé au site officiel, l'interface est la suivante : effectuez une recherche dans la barre de recherche, tapez le nom d'une maladie ou d'un trait, par exemple "graisse".

OpenGWAS database home page.Figure 2. Page d'accueil de la base de données OpenGWAS.

Les résultats de la recherche sont des informations de base, principalement axées sur l'ID, car nous pouvons utiliser cet ID pour analyser directement le package TwoSampleMR. La première lettre de l'ID indique à quelle base de données il appartient.

OpenGWAS database search page.Figure 3. Page de recherche de la base de données OpenGWAS.

Cliquez sur les données dans la boîte rouge, entrez pour obtenir une description détaillée des données. Si vous voyez que cet ensemble de données a un drapeau Télécharger VCF, cela signifie que les données sont généralement téléchargeables. En général, s'il n'y a pas un tel drapeau, cela indique que les données peuvent ne pas être ouvertes ou ne peuvent pas être téléchargées, mais ce n'est pas absolu.

OpenGWAS database download page.Figure 4. Page de téléchargement de la base de données OpenGWAS.

Télécharger dans la base de données GWAS Catalog

C'est une base de données couramment utilisée, mais cette base de données présente souvent des données incomplètes, donc nous devons faire attention lors de la recherche. Allez à l'écran suivant à partir des statistiques résumées.

GWAS Catalog database home page.Figure 5. Page d'accueil de la base de données GWAS Catalog.

Allez à l'écran de recherche suivant à partir des études disponibles.

GWAS Catalog database summary statistics page.Figure 6. Page de statistiques récapitulatives de la base de données GWAS Catalog.

L'option Traits permet aux utilisateurs de rechercher et de localiser les données requises. Lors de l'accès aux fichiers téléchargeables via FTP Download, il est important de vérifier la taille du fichier ; les fichiers d'environ 400 Mo ou plus contiennent généralement des ensembles de données complets, tandis que les fichiers plus petits peuvent manquer de loci SNP suffisants pour l'analyse GWAS. De plus, certains ensembles de données avec des identifiants préfixés par GCST peuvent également être trouvés dans la base de données openGWAS.

GWAS Catalog database search page.Figure 7. Page de recherche de la base de données GWAS Catalog.

En conclusion, les bases de données GWAS jouent un rôle essentiel dans l'avancement de la recherche génétique en fournissant des ressources indispensables qui facilitent l'exploration des facteurs génétiques sous-jacents aux traits et maladies complexes. Avec une large gamme de bases de données accessibles au public et spécialisées telles que le GWAS Catalog, OpenGWAS et UK Biobank, les chercheurs peuvent accéder efficacement à d'énormes quantités de données génétiques et phénotypiques.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut