fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或胺基酸均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为生物信息学领域的一项标準。
基本介绍
- 中文名fasta档案格式
- 外文名The Fasta Format
- 适用学科生物信息学
- 又名Pearson格式
- 用途表示核苷酸或胺基酸序列的格式
- 发明人威廉·皮尔森和戴维德.李普曼
背景知识
发明人
fasta格式,又称Pearson格式,主要发明人是威廉·皮尔森(William Raymond Pearson)和戴维德.李普曼(David J. Lipman),威廉·雷蒙德·皮尔森是美国维吉尼亚大学的生物化学与分子遗传学教授,戴维德.李普曼在1989年至2017年期间担任NCBI主任,他也是BLAST算法的发明人之一。1985年3月,双方在科学期刊Science上合作发表了相关成果。
资料库冗余
DNA和蛋白质资料库中的很多记录是属于同一基因和蛋白质家族,或在不同生物体上发现的同源基因。不同的研究机构可能向资料库传送了相同的序列数据,如果没有被检查出来,则这些记录或多或少地紧密相关。,这些记录如果的确非常相近,可以被认定为它们是相同序列,但一些显着的差异可能是由于基因组多样性的结果。
冗余数据至少可能导致以下3个潜在的错误
一是如果一组DNA或胺基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大。
二是序列间不同部分的显着相关可能是在数据样本抽样时是有偏的和不正确的。
是如果这些数据是被用于预测,则这些序列将使预测方法—如人工智慧方法—发生偏离。
非冗余(non-redundant, nr)
生物数据非常複杂,它远非“冗余”二字可以準备描述。例如,同一位点上的2个等位基因是不是冗余的?同一生物体内的2个同功酶是否冗余?,过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除,应在数据规模和非冗余之间找到一个合理的平衡点。
序列数据的偏差或人为假象(artifacts) 主要来自实验过程,这与其它科学数据的情况相同。这些人为假象主要来自以下几个方面
(1) 载体序列污染在测定序列等实验过程中,载体序列可能造成污染,致使序列记录数据中包含了载体序列。
(2) 异源(heterologous)序列污染有研究表明一些人类cDNA测序结果在实验过程中被酵母和细菌序列污染。
(3) 序列的重排和缺失。
(4) 重複因子污染cDNA克隆方法有时会受到逆转录因子(如Alus)的影响 。
(5) 测序误差和自然多态性测序过程存在一定的误差机率。
资料库格式
以下为EMBL和GenBank资料库的主要格式及内容
序列名称、长度、日期
序列说明、编号、版本号
物种来源、学名、分类学位置
相关文献作者、题目、刊物、日期
序列特徵表
硷基组成
序列(每行60个硷基)
EMBL标识字 GenBank标识字 含义
ID LOCUS 序列名称
DE DEFINITION 序列简单说明
AC ACCESSION 序列编号
SV VERSION 序列版本号
KW KEYWORDS 与序列相关的关键字
OS SOURCE 序列来源的物种名
OC ORGANISM 序列来源的物种学名和分类学位置
DT 建立日期
RN REFERENCE 相关文献编号或提交注册信息
RA AUTHORS 相关文献作者或提交序列作者
RT TITLE 相关文献题目
RL JOURNAL 相关文献刊物名或作者单位
RX MEDLINE 相关文献Medline引文代码
RC REMARK 相关文献注释
RP 相关文献其它注释
CC COMMENT 关于序列的注释信息
DR 相关资料库交叉引用号
FH FEATURES 序列特徵表起始
FT 序列特徵表子项
SQ BASE CONTENT 序列长度、硷基数目统计数
空格 ORIGIN 序列
// // 序列结束标誌、空行
常见格式
fasta格式档案的第一行是由大于号“>”(较常用)或分号“;”打头的任意文字说明,用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或胺基酸编码符号(参见支持代码类型)。通常核苷酸符号大小写均可,而胺基酸常用大写字母。使用时应注意有些程式对大小写有明确要求。一般每行60~80个字母。
核苷酸序列
fasta格式以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与资料库中的流水号,由数字组成,一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变),不能重複。
gi号后面是序列的标识符,下表是来源于不同资料库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。
档案中和每一行通常60到80个字元。
对于核酸序列,除了为大家所熟知的A、C、G、T、U外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G 或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。
胺基酸序列
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK
支持代码类型
核苷酸代码
核苷酸代码 | 意义 | 核苷酸代码 | 意义 |
A | 腺苷(adenosine) | S | G或C (强作用strong) |
C | 胞嘧啶(cytidine) | W | A或T (弱作用weak) |
G | 鸟嘌呤(guanine) | B | G或T或C |
T | 胸腺嘧啶核苷(thymidine) | D | G或A或T |
U | 尿嘧啶(uridine) | H | A或C或T |
R | G或A (puRine) | V | G或C或A |
Y | T或C (嘧啶pyrimidine) | N | A 或G或C或T (任意1种) |
K | G或T (酮化keto) | X | 未知的 |
M | A或C (胺化amino) | - | 片段长度不定 |
胺基酸代码
胺基酸代码 | 意义 | 胺基酸代码 | 意义 |
A | 丙氨酸(Alanine) | O | 吡咯赖氨酸(Pyrrolysine) |
B | 天冬氨酸(Aspartic acid)或 天冬醯胺(Asparagine) | P | 脯氨酸(Proline) |
C | 半胱氨酸(Cysteine) | Q | 谷氨醯胺(Glutamine) |
D | 天冬氨酸(Aspartic acid) | S | 丝氨酸(Serine) |
E | 谷氨酸(Glutamic acid) | T | 苏氨酸(Threonine) |
F | 苯丙氨酸(Phenylalanine) | U | 硒半胱氨酸(Selenocysteine) |
G | 甘氨酸(Glycine) | V | 缬氨酸(Valine) |
H | 组氨酸(Histidine) | W | 色氨酸(Tryptophan) |
I | 异亮氨酸(Isoleucine) | X | 任意胺基酸 |
K | 赖氨酸(Lysine) | Y | 酪氨酸(Tyrosine) |
L | 亮氨酸(Leucine) | Z | 谷氨酸(Glutamic acid)或 谷氨醯胺(Glutamine) |
M | 甲硫氨酸(Methionine) | 翻译终止 | |
N | 天冬醯胺(Asparagine) | - | 不确定长度空白占位符 |
R | 精氨酸(Arginine) | J | 亮氨酸(Leucine)或 异亮氨酸(Isoleucine) |
标识符
资料库名称(Database Name) | 标识符(Identifier Syntax) |
GenBank | gb | accession | locus |
EMBL Data Library | emb|accession|locus |
DDBJ, DNA Database of Japan | dbj|accession|locus |
NBRF PIR | pir||entry |
Protein Research Foundation | prf||name |
SWISS-PROT | sp|accession|entry name |
Brookhaven Protein Data Bank | pdb|entry|chain |
Patents | pat|country|number |
GenInfo Backbone Id | bbs|number |
General database identifier | gnl|database|identifier |
NCBI Reference Sequence | ref|accession|locus |
Local Sequence identifier | lcl|identifier |