GenBank

生活百科 2023-01-17 20:14生活百科www.aizhengw.cn

GenBank

GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列资料库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计画( Benson等, 1998)。为保证数据儘可能的完全,GenBank与EMBL(欧洲EMBL-DNA资料库)、DDBJ(日本DNA资料库DNA Data Bank of Japan)建立了相互交换数据的合作关係。

基本介绍

  • 中文名DNA序列资料库
  • 外文名national Center for Biotechnology Information
  • 建立机构美国国家生物技术信息中心
  • 缩写NCBI

简介

大型资料库分成若干子库,有许多好处。,可以把资料库查询限定在某一特定部分,以便加快查询速度。,基因组计画快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于资料库查询和搜寻时“有的放矢”。GenBank将这些数据按高通量基因组序列(HighThroughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(SequenceTaggedSites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。儘管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。
可通过Entrez资料库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构资料库整合在一起。,通过该系统的文献摘要资料库MEDLINE,可获取有关序列的进一步信息。在全球资讯网上,进入NCBI的主页,可以用BLAST程式对GenBank资料库进行未知序列的同源性搜寻(详见第六章)。
完整的GenBank资料库包括序列档案,索引档案以及其它有关档案。索引档案是根据资料库中作者、参考文献等子段建立的,用于资料库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列资料库,其数据格式为FastA。GenBank曾以CD-ROM光碟的形式分发,价格比较便宜。随着资料库容量的增长,一套最新版的GenBank需要12张光碟存放,不仅生产成本很高,也不便于使用。现在,光碟分发的方式已经停止,可以通过网路下载GenBank资料库。
GenBank中最常用的是序列档案。序列档案的基本单位是序列条目,包括核甘酸硷基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网路提供该资料库档案。下面,我们介绍序列档案的结构。
序列档案由单个的序列条目组成。序列条目由栏位组成,每个栏位由关键字起始,后面为该栏位的具体说明。有些栏位又分若干次子栏位,以次关键字或特性表说明符开始。每个序列条目以双斜槓“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个栏位可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。
序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键字(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),硷基组成(BASE COUNT)及硷基排列顺序(ORIGIN)。
代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该栏位还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明栏位是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。
序列代码具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为準。核酸标识符NID对序列信息的当前版本提供?
关键字栏位由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。数据来源栏位说明该序列是从什幺生物体、什幺组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献栏位说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂誌名(JOURNAL)等,以次关键字列出。该栏位中还列出医学文献摘要资料库MEDLINE的代码。该代码实际上是个网路连结指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有‘/db-xref/’标誌的字元可以连线到其它资料库内(本例,您看到的是一个分类资料库(taxon 9606),以及一个蛋白质资料库(PIDg181254));序列中各部分的位置都加以标明,5’非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。
NCBI
接下来是BASE COUNT记录,计算出不同硷基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个硷基在基因组中可能的位置。,核酸的序列全部列出,并以//作为结尾。检索方式
如果在文献中看到过你感兴趣的基因,而且文中还提到了该基因在Genbank中的ID号,进入NCBI ,在Search后的下拉框中选择Nucleotide,把Genbank ID号输入GO前面的文本框中,点“GO”,即可以检索到所需序列。

使用说明

用户可以通过NCBI(National Center for Biotechnology Information美国国家生物技术信息中心信息中心,隶属于NLM-美国国家医学图书馆)的主页使用GenBank。GenBank的宗旨是鼓励科研团体对DNA序列的获取,从而促进资料库中DNA序列的丰富和更新,所以NCBI对GenBank的数据使用与传送没有任何限制。用户可从GenBank主页上下载Banklt(NCBI提供的WWW格式,用于便捷的提交DNA序列的数据)、Sequin(NCBI的独立于作业系统的提交软体,可用于MAC、PC和UNIX平台,也可以通过FTP远程获取)以及VecScreen(带菌污染物的筛选工具)等便于提交和更新研究成果的套用软体。其页面上的简单检索界面提供19种相关检索选项,分别是PubMed、Protein(蛋白质)、Nucleotide(核苷)、Structure(结构)、Genome(基因组)、PMC、LocusLink、PopSet、OMIM、Taxonomy(分类学)、Books(图书)、ProbeSet、3D Domains(三维区域)、UniSTS、Domains、SNP、Journals(期刊)、UniGene、NCBI Web Site(NCBI站点)。
GenBank可以与DNA Star软体结合使用,进行基因序列分析和比对。
上一篇:Leonid Kuravlyov 下一篇:Location

Copyright@2015-2025 www.aizhengw.cn 癌症网版板所有