GenBank

简介

大型资料库分成若干子库，有许多好处。，可以把资料库查询限定在某一特定部分，以便加快查询速度。，基因组计画快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于资料库查询和搜寻时“有的放矢”。GenBank将这些数据按高通量基因组序列（HighThroughput Genomic Sequences，HTG）、表达序列标记（Expressed Sequence Tags，EST）、序列标记位点（SequenceTaggedSites，STS）和基因组概览序列（Genome Survey Sequences，GSS）单独分类。儘管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。

可通过Entrez资料库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构资料库整合在一起。，通过该系统的文献摘要资料库MEDLINE，可获取有关序列的进一步信息。在全球资讯网上，进入NCBI的主页，可以用BLAST程式对GenBank资料库进行未知序列的同源性搜寻（详见第六章）。

完整的GenBank资料库包括序列档案，索引档案以及其它有关档案。索引档案是根据资料库中作者、参考文献等子段建立的，用于资料库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列资料库，其数据格式为FastA。GenBank曾以CD-ROM光碟的形式分发，价格比较便宜。随着资料库容量的增长，一套最新版的GenBank需要12张光碟存放，不仅生产成本很高，也不便于使用。现在，光碟分发的方式已经停止，可以通过网路下载GenBank资料库。

GenBank中最常用的是序列档案。序列档案的基本单位是序列条目，包括核甘酸硷基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网路提供该资料库档案。下面，我们介绍序列档案的结构。

序列档案由单个的序列条目组成。序列条目由栏位组成，每个栏位由关键字起始，后面为该栏位的具体说明。有些栏位又分若干次子栏位，以次关键字或特性表说明符开始。每个序列条目以双斜槓“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个栏位可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。

序列条目的关键字包括代码（LOCUS），说明（DEFINITION），编号（ACCESSION），核酸标识符(NID），关键字（KEYWORDS），数据来源（SOURCE），文献（REFERENCE），特性表（FEATURES），硷基组成（BASE COUNT）及硷基排列顺序（ORIGIN）。

代码LOCUS是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该栏位还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明栏位是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。

GenBank

GenBank

基本介绍

简介

使用说明

搜索

癌症治疗

癌症预防

癌症症状

GenBank

GenBank

基本介绍

简介

使用说明

生活常识

搜索

癌症治疗

癌症预防

癌症症状