Résumé des bases de données courantes pour le séquençage de nouvelle génération.
Le rôle de la base de données de séquençage NGS
À la lumière des avancées technologiques accélérées, en particulier l'évolution fulgurante dans le domaine de la bioinformatique, l'importance de Séquençage de nouvelle génération (NGS) Les technologies en tant qu'instrument essentiel dans la recherche en sciences de la vie ont considérablement augmenté. Distingué par son haut débit, son efficacité et son exactitude infaillible, le séquençage de nouvelle génération (NGS) offre des perspectives sans précédent pour explorer les complexités des sciences de la vie. Dans ce contexte, le rôle des bases de données de séquences NGS a de plus en plus pris une place centrale. Ces dépôts ont mûri pour devenir une pierre angulaire irremplaçable dans le domaine des sciences de la vie, façonnant et élargissant progressivement notre compréhension globale de la tapisserie complexe que sont les systèmes biologiques.
La base de données NGS se présente comme un référentiel complet intégrant une vaste étendue de données de séquençage. À l'intérieur de ses limites, il amalgame les efforts assidus et les réalisations de recherche des scientifiques du monde entier, fournissant aux chercheurs un trésor riche et inestimable de ressources de données expérimentales. Facilitée par le NGS Grâce à une base de données de séquençage, les chercheurs ont un accès facile aux données de séquençage provenant de divers échantillons biologiques, ce qui permet de déchiffrer les principes biologiques sous-jacents et les mystères dissimulés dans les données.
Analyse de séquençage de nouvelle génération. a Fonctions des logiciels et des bases de données utilisés pour l'analyse NGS. b Pipeline d'analyse des variants génomiques. (Andrés López-Cortés et al., 2020)
Le rôle des bases de données NGS se manifeste à travers plusieurs dimensions :
Stockage et gestion des données :
NGS les bases de données de séquençage possèdent des capacités robustes pour le stockage et la gestion des données. Elles organisent de manière efficace d'énormes quantités de données de séquençage de manière efficace et structurée, offrant une multitude d'outils de requête et de récupération pratiques qui permettent aux chercheurs de localiser rapidement les données souhaitées. De plus, ces bases de données disposent de mécanismes de sauvegarde et de récupération des données, garantissant la sécurité et la fiabilité des données.
Analyse et exploration des données :
En plus de fournir des ressources de données abondantes, NGS les bases de données sont équipées d'outils d'analyse de données puissants. Les chercheurs exploitent ces outils pour réaliser des analyses approfondies et des explorations de données de séquençage, dévoilant des phénomènes biologiques tels que les variations génétiques et la régulation de l'expression. Ces connaissances fournissent des bases scientifiques pour le diagnostic des maladies, le développement de médicaments et les thérapies personnalisées.
Partage et échange de données :
Le partage et l'échange de données sont essentiels dans le domaine de NGS bases de données, agissant comme des plateformes expansives pour des efforts collaboratifs entre chercheurs. Ici, les scientifiques ont l'opportunité de contribuer leurs propres données de séquençage, facilitant ainsi la diffusion de leurs résultats de recherche auprès de leurs pairs au sein de la communauté scientifique. Parallèlement, les chercheurs ont accès aux données fournies par d'autres, élargissant ainsi leurs horizons de recherche et favorisant la collaboration interdisciplinaire. Ce modèle collaboratif de partage et d'échange de données est essentiel pour propulser les avancées rapides dans la recherche en sciences de la vie, faisant progresser la collaboration académique et l'innovation.
Soutien et assistance à la décision :
NGS Les bases de données jouent un rôle crucial dans le soutien et l'assistance à la décision. Elles fournissent aux décideurs, aux cliniciens et aux chercheurs un soutien en données concernant les mécanismes de la maladie, le développement de médicaments et l'efficacité des traitements, les aidant à prendre des décisions plus scientifiquement éclairées et rationnelles.
En résumé, les bases de données de séquençage NGS sont indispensables dans la recherche en sciences de la vie. Elles offrent non seulement d'immenses ressources de données de séquençage, mais englobent également diverses fonctionnalités telles que le stockage et la gestion des données, l'analyse et l'exploration des données, le partage et l'échange de données, ainsi que le soutien et l'assistance à la décision. Avec l'avancement et le perfectionnement continus de la technologie NGS, l'importance des bases de données de séquençage NGS sera encore accentuée, contribuant davantage au progrès et à l'innovation de la recherche en sciences de la vie. Cet article vise à décrire et à expliquer de manière systématique les ressources de bases de données couramment utilisées pour interpréter les rapports de séquençage NGS.
Vous pourriez être intéressé par
Bases de données de population
Base de données RefSeqGene
La base de données RefSeqGene, accessible à l'adresse http://www.ncbi.nlm.nih.gov/refseq/rsg, constitue un dépôt ouvert contenant des séquences nucléotidiques (ADN, ARN) ainsi que leurs produits protéiques correspondants. Conçue et développée par le National Center for Biotechnology Information (NCBI) en 2000, elle est responsable de la curation et de l'entretien de cette ressource inestimable.
Distinguée par sa diversité taxonomique, son absence de redondance, ses annotations méticuleuses et son intégration transparente, la base de données RefSeq émerge comme une pierre angulaire de la recherche moléculaire. S'adressant à un éventail de questions scientifiques englobant la génomique, les analyses d'expression génique, les annotations fonctionnelles et une myriade d'autres poursuites d'investigation, elle présente un recueil de séquences de référence provenant d'un large éventail d'organismes. Ce champ d'application englobant inclut, sans s'y limiter, les bactéries, les archées, les plantes, les animaux, les champignons et les virus.
RefSeq est un référentiel complet abritant des séquences de référence couvrant les génomes, les transcrits et les protéines. Au sein de la base de données RefSeq, des méthodologies de gestion rigoureuses sont mises en œuvre pour maintenir la fidélité des séquences génétiques. Chaque séquence est accompagnée d'annotations méticuleuses, fournissant des informations détaillées sur les positions des gènes, les frontières exon/intron, les isoformes de splicing alternatif, les modifications post-traductionnelles et les domaines fonctionnels. S'appuyant sur une variété de ressources, y compris des observations empiriques, des prédictions computationnelles et des citations académiques, RefSeq intègre des données pour offrir des annotations fiables pour les séquences de référence.
Des mises à jour régulières de la base de données RefSeq intègrent sans effort les nouvelles connaissances génomiques, transcriptomiques et protéomiques, garantissant aux chercheurs un accès aux séquences de référence les plus récentes. Cette base de données dynamique favorise le croisement avec d'autres ressources du NCBI, telles que GenBank et PubMed, permettant aux utilisateurs d'explorer des informations supplémentaires et des ensembles de données associés en profondeur.
Base de données du navigateur génomique UCSC
La base de données du UCSC Genome Browser (https://genome.ucsc.edu/) est l'une des ressources les plus largement utilisées dans le domaine de la biologie. Établie et maintenue par l'Université de Californie à Santa Cruz, elle englobe une richesse de données génomiques, y compris des informations sur l'annotation des gènes (ENCODE), des alignements de génomes, des séquences répétitives, des séquences homologues, des séquences de référence (ARNm, EST), des phénotypes, des profils d'expression, des informations réglementaires, des données de conservation, des variations et des régions répétitives, entre autres. UCSC couvre des informations génomiques pour divers organismes communs, y compris les humains, les souris, les mouches des fruits, les poissons zèbres, les nématodes, la levure, et d'autres.
De plus, il offre une suite d'outils d'analyse pour aider les utilisateurs à naviguer dans les informations génétiques, accéder aux annotations génomiques existantes et télécharger des séquences génétiques. Dans le domaine de l'analyse bioinformatique, le besoin de fichiers de données dans des formats tels que fasta, GTF ou BED est omniprésent, et UCSC sert de source principale pour accéder à ces fichiers. Notamment, Hg19 est une séquence de référence largement utilisée pour le génome humain dans le répertoire d'UCSC.
base de données ExAC
(http://gnomad.broadinstitute.org)
La base de données du Consortium d'Agrégation de l'Exome (ExAC), située à l'adresse http://gnomad.broadinstitute.org, occupe une position centrale dans le domaine de la génomique. Servant de version fondamentale de la base de données gnomAD, ExAC est dédiée exclusivement à données de séquençage de l'exomeSon objectif principal est de consolider et de standardiser les données de séquençage de l'exome provenant de diverses initiatives de séquençage à grande échelle, enrichissant ainsi la communauté scientifique d'un ensemble complet de données récapitulatives. Il est à noter qu'ExAC a été intégré de manière transparente dans la base de données gnomAD, représentant un progrès notable dans l'amélioration de l'accessibilité aux données génomiques et la promotion des efforts de recherche collaborative.
Base de données dbSNP
(https://www.ncbi.nlm.nih.gov/snp/)
La base de données dbSNP, officiellement connue sous le nom de Base de données des polymorphismes nucléotidiques simples, et accessible à l'adresse https://www.ncbi.nlm.nih.gov/snp/, occupe une position centrale en tant que ressource fondamentale élaborée par le Centre national d'information biotechnologique (NCBI). Elle fonctionne comme un dépôt complet pour les données de polymorphismes nucléotidiques simples (SNP) couvrant les génomes humains et certains autres organismes. Les SNP constituent la forme prédominante de variation génétique au sein des génomes, résultant souvent de modifications d'un seul nucléotide qui peuvent contribuer à la diversité génétique interindividuelle.
S'appuyant sur un large éventail de littérature de recherche, de nombreuses bases de données et d'initiatives multidisciplinaires, la base de données dbSNP collecte et synthétise systématiquement les données sur les SNP, offrant un référentiel complet des paramètres de variation génétique. Cela inclut des spécificités cruciales telles que les loci SNP, la prévalence des allèles, les variétés de variation génétique et des informations pertinentes sur les corrélations entre la santé humaine et la pathologie. Les chercheurs exploitent les utilités de la base de données dbSNP pour obtenir des données détaillées sur les SNP, corroborer les incidences des SNP et expliciter les relations entre les SNP et certaines caractéristiques phénotypiques ou pathologies.
Les données hébergées dans dbSNP sont principalement classées en deux types distincts : les données soumises par les utilisateurs, identifiées par des identifiants "submitted SNP" (ss), et les données compilées à partir de diverses soumissions et d'autres sources, identifiées par des identifiants "reference SNP" (rs).
gnomAD
La base de données d'agrégation du génome (gnomAD), accessible à l'adresse http://gnomad.broadinstitute.org, représente un effort collaboratif entre chercheurs visant à collecter et harmoniser les données d'exome et données de séquençage du génome provenant de divers projets de séquençage à grande échelle, fournissant ainsi des données consolidées à la communauté scientifique au sens large. gnomAD se présente comme l'un des dépôts les plus complets de données sur la variation génomique à ce jour, englobant des variants provenant de diverses populations à travers le monde.
Une distinction principale entre gnomAD et la base de données dbSNP, qui existe depuis longtemps, réside dans leurs méthodologies respectives pour cataloguer les variations génomiques. Alors que dbSNP agrège les variations découvertes par diverses méthodes de recherche et attribue des identifiants à ces variations, gnomAD utilise des normes uniformes pour l'analyse de données de séquençage de nouvelle génération à partir des échantillons inclus pour calculer avec précision les fréquences alléliques. Cette harmonisation du traitement des données est une caractéristique clé de gnomAD. De plus, gnomAD dispose de données de haute qualité pour les variations structurelles génomiques dépassant 50 paires de bases.
gnomAD (v3.1.1), basé sur l'assemblage du génome de référence GRCh38, comprend un ensemble de données sur les variants courts comprenant des données de séquençage génomique de 76 156 individus non apparentés. Cette ressource constitue un élément essentiel des investigations spécifiques aux maladies et des recherches en génétique des populations.
gnomAD (v2.1.1), basé sur l'assemblage du génome de référence GRCh37, comprend un ensemble de données de variantes courtes englobant 125 748 exomes et 15 708 génomes. Ces séquences génomiques proviennent d'individus non apparentés constituant un total de 141 456 échantillons, formant une composante intégrale des investigations spécifiques aux maladies et des recherches en génétique des populations.
1000 Génomes
(https://www.internationalgenome.org/)
L'objectif du Projet 1000 Génomes est d'identifier des variantes avec une fréquence supérieure à 1 % au sein des populations humaines. En séquençant un grand nombre d'échantillons provenant de populations diverses, le projet a identifié de nombreux sites de variantes, fournissant ainsi une ressource complète pour l'étude de la variation génétique humaine.
Bases de données sur les maladies
Base de données HGMD
(http://www.hgmd.org)
La Base de Données des Mutations Génétiques Humaines (HGMD) est le référentiel de référence pour les variants génétiques impliqués dans les maladies héréditaires humaines. Elle est soigneusement élaborée grâce à l'examen approfondi de la littérature de haute qualité par des experts en conseil génétique. Cette base de données compile et organise des informations relatives aux sites de mutation pertinents.
HGMD fournit une pléthore de données associées aux sites de mutation, y compris les transcrits correspondants, les types de mutation, les évaluations de pathogénicité, les phénotypes associés, la littérature de référence, les fréquences dans la population, les prédictions fonctionnelles et les domaines structuraux.
De plus, l'édition professionnelle de HGMD offre des détails supplémentaires tels que la nomenclature HGVS pour les sites de mutation, les altérations protéiques, les grades de classification, les coordonnées génomiques dans les assemblages Hg19 et Hg38, les domaines structuraux des protéines, les fréquences dans la population et les résultats des prédictions logicielles.
Base de données OMIM
(https://www.ncbi.nlm.nih.gov/omim/)
La base de données Online Mendelian Inheritance in Man (OMIM) se présente comme une ressource complète et autoritaire éclairant la relation entre les phénotypes et les génotypes humains. Elle catalogue tous les troubles mendéliens connus et fournit des informations sur plus de 16 000 gènes, couvrant une part significative du génome humain.
OMIM sert de conservateur et d'intégrateur méticuleux des résultats de recherche publiés, offrant une organisation systématique et des mises à jour quotidiennes gratuites. Une page typique d'OMIM dédiée à une maladie spécifique ressemble à un article de revue, comprenant un éventail de contenus incluant la relation entre le phénotype et le génotype, un synopsis clinique, des informations essentielles sur la maladie et des descriptions, des caractéristiques cliniques, le diagnostic, la prise en charge clinique, la pathogénèse, la génétique moléculaire, la génétique des populations, des modèles animaux, un contexte historique, des progrès de la recherche et des références.
La base de données ClinVar
(https://www.ncbi.nlm.nih.gov/clinvar/)
ClinVar sert de référentiel accessible au public contenant des données sur les variations génétiques humaines et leurs corrélations avec les maladies. Il englobe une large gamme d'altérations génétiques, comprenant des polymorphismes nucléotidiques simples (SNP), des insertions, des délétions (indels), entre autres. ClinVar s'est établi comme la principale base de données publique autorisée et complète éclairant les associations entre les variations génétiques humaines et les phénotypes de maladies. Il représente un élément clé dans le paysage des ressources d'information sur le génome humain.
Les principales caractéristiques de cette base de données sont les suivantes :
1. Sources de données : La base de données ClinVar tire principalement ses données d'une variété de sources littéraires, y compris des articles de recherche scientifique, des rapports de diagnostic clinique et des bases de données curées.
2. Format des données : ClinVar adopte une structure de base de données non relationnelle, stockant les données au format XML. Les données sont catégorisées en plusieurs dimensions, telles que les génotypes des variants, les associations entre les maladies et les variations génétiques, les propriétés des variants, l'impact des variants sur les gènes hôtes et les preuves.
3. Qualité des données : ClinVar maintient des critères stricts pour l'inclusion des variations génétiques, nécessitant une représentation standardisée, un soutien probant et des voies de preuve transparentes. Ces mesures garantissent l'exactitude et l'autorité des données.
Base de données InterVar
(http://wintervar.WGlab.org/)
La base de données InterVar sert de plateforme pour l'évaluation automatisée de la pathogénicité aux loci de variantes. Elle permet l'évaluation automatisée de 18 des 28 critères énoncés dans les directives du Collège américain de génétique médicale et de génomique (ACMG). Les 10 critères restants nécessitent des preuves supplémentaires ou des ajustements de paramètres, tels que des résultats de validation provenant du séquençage Sanger ou une validation familiale.
Base de données ClinGen
(https://www.clinicalgenome.org/)
ClinGen, parrainé par les National Institutes of Health (NIH), constitue une ressource de base de données essentielle en médecine de précision, facilitant l'exploration de la pertinence clinique des gènes et des variations. Il fournit des informations sur la sensibilité au dosage des variations, aidant à l'identification de la visibilité des mutations et des motifs anormaux récessifs. De plus, ClinGen intègre des preuves cliniques, génétiques, populationnelles, fonctionnelles et des revues d'experts pour classer la pathogénicité des variations selon les directives ACMG/AMP, avec des résultats archivés dans ClinVar. Les laboratoires et les praticiens cliniques peuvent utiliser les outils de curation des variantes de ClinGen pour évaluer les preuves de pathogénicité des variations qui n'ont pas encore été examinées par des experts.
Base de données complète sur le cancer
OncoKB
(https://www.oncokb.org/)
Développé et maintenu par le Memorial Sloan Kettering Cancer Center, OncoKB sert de base de données oncologique complète centrée sur les mutations génétiques chez les patients atteints de cancer. Elle englobe des informations sur l'utilisation des médicaments ciblés, les effets biologiques et oncologiques des mutations, ainsi que la fréquence de distribution et les caractéristiques pronostiques cliniques des mutations dans les populations. OncoKB tire ses données de diverses sources, y compris la FDA, le NCCN, l'ASCO, les articles des conférences ESMO, le consensus parmi les experts en oncologie, la littérature scientifique, ainsi que des bases de données publiques telles que cBioPortal et COSMI. Chaque information subit un examen et une révision réguliers par le Clinical Genomics Annotation Committee (CGAC).
En visitant la page d'accueil d'OncoKB, la base de données classe les informations sur les mutations génétiques dans les tumeurs en quatre niveaux de données en fonction de différents niveaux de preuve :
Les données de niveau 1 consistent en des mutations recommandées par la FDA comme biomarqueurs de l'efficacité des médicaments approuvés par la FDA pour le traitement des tumeurs.
Les données de niveau 2 incluent les mutations reconnues par le NCCN ou d'autres consensus d'experts comme biomarqueurs de l'efficacité des médicaments approuvés par la FDA pour le traitement standard des tumeurs.
Les données de niveau 3A représentent des mutations soutenues par des preuves convaincantes d'essais cliniques en tant que cibles potentielles pour l'efficacité du traitement médicamenteux dans les tumeurs.
Les données de niveau 3B englobent les mutations identifiées par des enquêtes indiquant des biomarqueurs pour l'efficacité des médicaments dans le traitement standard des tumeurs, qu'ils soient approuvés ou non par la FDA, mais qui n'ont pas encore été validés par un consensus d'experts.
Les données de niveau 4 comprennent des mutations identifiées dans des publications expérimentales de haute qualité sur des cellules ou des animaux comme cibles potentielles pour l'efficacité du traitement médicamenteux dans les tumeurs.
De plus, les données de niveau R1/R2 concernent les informations sur les mutations associées à la résistance tumorale : R1 désigne les mutations servant de biomarqueurs pour les indicateurs de résistance aux médicaments approuvés par la FDA dans le traitement standard des tumeurs, tandis que R2 concerne les mutations associées aux preuves de traitement des tumeurs résistantes aux médicaments dans les études cliniques.
base de données COSMIC
(https://cancer.sanger.ac.uk/cosmic)
La base de données COSMIC est le plus grand et le plus complet répertoire mondial des mutations somatiques dans le cancer et de leurs implications. Cette ressource sert de catalogue en ligne des mutations somatiques acquises dans les cancers humains—mutations se produisant dans des cellules non germinales, donc non héritées des enfants. L'acronyme COSMIC représente le Catalogue des Mutations Somatiques dans le Cancer, extrait d'un vaste éventail de littérature scientifique et de dépistages expérimentaux à grande échelle réalisés par le Projet de Génome du Cancer de l'Institut Sanger.
Disponible gratuitement pour les chercheurs académiques et sous licence pour d'autres usages commerciaux, COSMIC compte actuellement plus de 50 000 utilisateurs dans le monde. Il abrite un référentiel de plus de 23 000 000 de mutations ponctuelles codant pour des protéines et non codantes, 1 207 190 variations du nombre de copies de gènes, 19 422 gènes de fusion et 7 930 489 sites différentiels de méthylation. De plus, la base de données est mise à jour trimestriellement pour garantir sa pertinence et son exactitude.
Englobant des milliers de mutations somatiques associées au développement du cancer, COSMIC collecte des données à partir de deux sources principales :
1. Mutations de gènes cancéreux connues extraites de la littérature : Les gènes soumis à une curation manuelle sont identifiés en fonction de leur présence dans les listes de recensement des gènes cancéreux.
2. Données intégrées provenant d'études de resequencement du génome entier d'échantillons de cancer réalisées par des projets de génome du cancer.
TCGA
(https://www.cancer.gov/ccg/research/genome-sequencing/tcga)
Le Cancer Genome Atlas (TCGA), lancé conjointement par le National Cancer Institute (NCI) et le National Human Genome Research Institute (NHGRI) en 2006, sert de référentiel complet de données cliniques, de variations génomiques, d'expression d'ARNm, d'expression de miARN, de méthylation, et plus encore pour divers cancers humains, y compris les sous-types. Il constitue une ressource essentielle pour les chercheurs en cancer à l'échelle mondiale.
TCGA abrite une multitude de données, y compris des variants de nucléotides uniques (SNV), des analyses de transcriptome, des informations sur les biospécimens, des données de séquençage brutes, des variations du nombre de copies (CNV), de la méthylation de l'ADN, des données cliniques, entre autres. Ces données sont classées en trois niveaux :
Niveau 1 : Données de séquençage brutes (par exemple, fichiers fasta, fastq).
Niveau 2 : Fichiers bam alignés.
Niveau 3 : Données traitées et standardisées.
| Type de données | Description |
| Clinique | Informations de base sur le patient, diagnostic, stadification TNM, pathologie tumorale, statut de survie, et plus encore. |
| ARNm | données d'expression d'ARNm obtenues à partir de microarrays d'ARNm ou de séquençage d'ARN |
| microARN | données d'expression de microARN obtenues à partir de microarrays de microARN ou de RNA-seq |
| NombreDeCopie | Variations du nombre de copies des segments tumoraux par rapport aux tissus normaux obtenus à partir de microarrays SNP |
| Mutation | Changements de nucléotides dans les données de séquençage de tumeurs par rapport à la séquence du génome de référence, y compris les insertions, les délétions, etc. |
| Protéine | Niveaux d'expression de plus de 200 protéines liées au cancer obtenus à partir de microarrays de protéines. |
| Méthylation | Niveaux de méthylation de l'ADN obtenus à partir de microarrays de méthylation |
PharmGKB
(https://www.pharmgkb.org/)
La base de données PharmGKB, connue sous le nom de base de connaissances en pharmacogénétique et pharmacogénomique, incarne l'autorité et l'exhaustivité dans le domaine des bases de données pharmacogénomiques. Établie sous l'égide des National Institutes of Health (NIH), PharmGKB fonctionne comme un réservoir d'informations sur la manière dont les variations génétiques humaines influencent les réponses aux médicaments.
La pharmacogénomique (PGx) explore les mécanismes complexes par lesquels les variations génétiques contribuent aux réponses divergentes aux agents pharmacologiques. À une époque marquée par les avancées technologiques post-génomiques, la recherche en pharmacogénomique promet d'améliorer l'efficacité des médicaments tout en atténuant les risques de toxicité. Servant de lien essentiel entre l'exploration scientifique et la pratique clinique, la pharmacogénomique détient un potentiel immense pour faire progresser les frontières de la médecine de précision.
Fondé en 2000, PharmGKB s'efforce de rassembler, organiser et diffuser des connaissances en pharmacogénomique provenant de diverses sources, y compris la littérature scientifique, l'étiquetage des médicaments et les directives cliniques. Il occupe un rôle central en tant que principal dépôt d'informations pharmacogénomiques, englobant des directives de dosage des médicaments, des annotations sur les étiquettes des médicaments, des annotations cliniques et sur les variants, des voies centrées sur les médicaments, des résumés pharmacogénomiques et des éclaircissements sur l'interaction entre les gènes, les médicaments et les maladies.