Comment soumettre des données de séquence à GenBank

Soumission de données de séquence aux archives NCBI

Séquençage de nouvelle génération, Séquençage SMRT de PacBioet Séquençage par nanopore, peut générer de nombreuses données de séquence en une seule exécution. Les lectures brutes ou les séquences assemblées doivent être soumises à un dépôt de séquences public (DDBJ/ENA/GenBank - INSDC), ce qui est requis par la grande majorité des revues, car les numéros d'accès de ces données de séquence doivent être présentés dans les articles publiés. Le portail de soumission (https://submit.ncbi.nlm.nih.gov/) est une interface programmatique permettant aux utilisateurs de soumettre des données de séquence et de télécharger les données de séquence des autres. En plus des données de séquence brutes, vous pouvez également soumettre des séquences assemblées par calcul, des génomes, des données de génomique fonctionnelle, des données de microarray, des données cliniques, des variations génomiques et d'autres types de données, telles que les données de méthylation PacBio. La soumission à SRA, GEO, ou dbGap ou GenBank est considérée comme des soumissions acceptables. Dans cet article, nous allons introduire comment soumettre des données de séquence à GenBank.

Soumission à GenBank

GenBank (https://submit.ncbi.nlm.nih.gov/subs/genbank/) accepte des milliers de nouvelles soumissions de séquences par mois de la part de chercheurs du monde entier. Les séquences couramment soumises incluent des séquences d'ARNm avec des régions codantes, des grappes de gènes d'ARN ribosomique, des fragments d'ADN génomique, et un génome viral ou d'organite complet. Vous pouvez soumettre une seule séquence ou des ensembles de séquences. Si une partie de la séquence code une protéine, une caractéristique de séquence codante (CDS) et la traduction conceptuelle résultante doivent être annotées. Chaque séquence soumise se voit attribuer un numéro d'accès pour les dossiers de séquence, généralement dans les deux jours ouvrables. Les soumissionnaires et les utilisateurs peuvent consulter chaque séquence ou un ensemble de séquences qui sont classées en fonction de leur relation biologique. Chaque ensemble est contenu dans Entrez PopSet (https://www.ncbi.nlm.nih.gov/popset/), permettant aux chercheurs de visualiser la relation au sein de l'ensemble grâce à un alignement.

Vous pouvez soumettre directement des séquences d'ARN ribosomal (rRNA), d'ITS-rRNA ou de la grippe à GenBank. D'autres types de séquences doivent être soumis avec l'un des outils alternatifs. Pour les lectures de séquences brutes non assemblées, vous pouvez les soumettre à l'Archive de lectures de séquences (SRA).

  • BankIt

BankIt (https://www.ncbi.nlm.nih.gov/WebSub/?tool=genbank), un outil de soumission basé sur le WWW, accepte toutes les soumissions standard de GenBank sauf : (i) les séquences avec un alignement (vous pouvez utiliser Sequin), (ii) les données de lecture brutes (vous pouvez utiliser Submission Portal-SRA), (iii) les données d'assemblage de transcriptome par tir de shotgun (vous pouvez utiliser Submission-TSA), et les données de génome (vous pouvez utiliser Submission Portal-Genomes), et (iv) les séquences d'ARNr, d'ARNr-ITS ou de grippe (vous pouvez utiliser Submission Portal).

  • Tbl2asn

Tbl2asn (https://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/) est un programme en ligne de commande qui combine des séquences d'entrée et des tableaux pour produire des fichiers appropriés pour la soumission à GenBank. Les fichiers d'entrée comprennent des séquences au format FASTA, des informations sur l'organisme et des annotations de caractéristiques. Les soumissions effectuées avec Tbl2asn doivent être envoyées par mail à gb-sub@ncbi.nlm.nih.gov.

  • Paillette

Sequin (https://www.ncbi.nlm.nih.gov/Sequin/) est une application autonome qui guide les utilisateurs à travers les processus de soumission. Sequin peut être utilisé pour soumettre des séquences ou de petits génomes complets. Avec cet outil, l'annotation et l'analyse des séquences nucléotidiques peuvent être effectuées. Si vous souhaitez des options d'affichage et d'édition graphiques telles que l'édition d'alignement, Sequin est un bon choix. Les soumissions effectuées avec Sequin doivent être envoyées à gb-sub@ncbi.nlm.nih.gov.

Lors de la soumission de plusieurs séquences liées, à la fois Tbl2asn et Sequin peuvent accepter la sortie de packages d'alignement de séquences populaires tels que PHYLIP, NEXUS et FASTA + GAP. Les alignements contribuent à l'annotation des séquences dans l'ensemble.

Après soumission 

Après la soumission à GenBank, le personnel d'annotation de GenBank vérifiera les problèmes suivants :

(i) La longueur de la séquence et le type de molécule (type de molécule unique ou un mélange d'ARNm et d'ADN génomique).
(ii) Validité biologique.
(iii) La séquence est-elle exempte de contamination vectorielle ?
(iv) Si la séquence est publiée, un identifiant PubMed peut être ajouté à l'enregistrement afin que la séquence et la publication puissent être liées.
(v) Mise en forme et orthographe.

S'il y a des problèmes, l'annotateur contactera le soumissionnaire par e-mail pour correction.

CD Genomics dispose d'une équipe de professionnels en bioinformatique qui s'occupent du contrôle qualité des lectures brutes, de l'alignement des séquences, de l'assemblage du génome, de l'exploration du génome et des études génomiques comparatives. Si vous avez des questions concernant le traitement des données, n'hésitez pas à nous contacter.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut