好文档 - 专业文书写作范文服务资料分享网站

蛋白质PDB文件说明

天下 分享 时间: 加入收藏 我要投稿 点赞

字符集合

只是一些非控制型字符,象空格和结束符,出现在PDB文件记录中。也就是: abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ 1234567890

` - = [ ] \\ ; ' , . / ~ ! @ # $ % ^ & * ( ) _ + { } | : \

空格和结束符。结束符根据系统而定,Unix用一行字符,而其他的系统可能就用一个回车来表示。

特殊字符

希腊字母就详细的拼写出来。比如:α, β, γ 原子用DOT表示。 右箭头用-->表示。 左箭头用<--表示。

上标用两个等号表示开始和结束。比如:S==2+== 下标用一个等号来表示开始和结束。比如:F=c=

如果等号两边至少有一边有一个空格,那么这个字符就是表示等号。比如:2 + 4 = 6 逗号,冒号和括号用来表示文档中的分界苻,也就是下面几种中的一种: List SList

Specification List Specification

如果逗号,冒号或者括号在任何一片文档中使用不是作为分界苻的话,那么肯定有字符被漏掉了。比如下边例子中第四行的\:

COMPND MOL_ID: 1;

COMPND 2 MOLECULE: GLUTATHIONE SYNTHETASE; COMPND 3 CHAIN: NULL;

COMPND 4 SYNONYM: GAMMA-L-GLUTAMYL-L-CYSTEINE\\:GLYCINE LIGASE COMPND 5 (ADP-FORMING); COMPND 6 EC: 6.3.2.3;

COMPND 7 ENGINEERED: YES COMPND MOL_ID: 1;

COMPND 2 MOLECULE: S-ADENOSYLMETHIONINE SYNTHETASE; COMPND 3 CHAIN: A, B;

COMPND 4 SYNONYM: MAT, ATP\\:L-METHIONINE S-ADENOSYLTRANSFERASE; COMPND 5 EC: 2.5.1.6;

COMPND 6 ENGINEERED: YES;

COMPND 7 BIOLOGICAL_UNIT: TETRAMER;

COMPND 8 OTHER_DETAILS: TETRAGONAL MODIFICATION

数据类型-------------------------------------

该部分该部分主要用来描述试验和记录中该大分子的一些基本信息,有 以下几种记录:

HEADER,OBSLTE,TITTITLE,CAVEAT,COMPND,SOURCE,KEYWDS,EXPDTA,

AUTHOR,REVDAT,SPRSDE,JRNL和REMARK部分。以下来具体说明一下各个记录。

记录类型-------------------------------------- 按照在记录中出现的频率区分:

SINGLE

一个文件中只出现一次.按字母顺序列出如下:

记录类型 说明 CRYST1 晶胞参数 END 结束

HEADER 分子类,公布日期,ID号 MASTER 版权拥有者 ORIGXn 直角-PDB坐标

SCALEn 直角部分结晶学坐标

如果这些记录在一个记录中重复出现是错误的。

SINGLE CONTINUED

在记录中概念性的只出现一次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:

记录类型 说明

AUTHOR 结构测定者 CAVEAT 可能的错误提示 COMPND 化合物名称

EXPDTA 测定结构所用的试验方法 KEYWDS 关键词

OBSLTE 注明该id号已改为新号 SOURCE 化合物来源

SPRSDE 已撤消或更改的相关记录 TITLE 说明试验方法类型

MULTIPLE

大部分记录类型多次出现,经常出现在这些组中,组中的信息理论上并没有连接,但已呈现为列表的组成部分.这种记录类型中的许多习惯连载可能不仅仅制定记录还和其他记录相联.按字母顺序列出如下:

记录类型 说明 ANISOU 温度因子

ATOM 标准基因的原子坐标 CISPEP 顺势残基 CONECT 有关记录

DBREF 其他序列库的有关记录 HELIX 螺旋 HET 非标准残基

HETSYM 非标准残基的同义字 HYDBND 氢键

LINK 残基间化学键

MODRES 对标准残基的修饰 MTRIXn 显示非晶相对称 REVDAT 修订日期及相关内容 SEQADV PDB与其它记录的出入 SEQRES 残基序列 SHEET 片层

SIGATM 标准差 SIGUIJ 温度因子 SITE 特性位点 SLTBRG 盐桥 SSBOND 二硫键 TURN 转折 TVECT 转换因子

Multiple Continued

在记录中概念性的出现多次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:

记录类型 说明

FORMUL 非标准残基化学式 HETATM 非标准集团原子坐标 HETNAM 非标准残基的化学名称

Grouping

有三种记录类型用来聚合其他记录. 按字母顺序列出如下:

记录类型 说明

ENDMDL 亚基结束

MODEL 多亚基时,示亚基号 TER 链末端

MODEL/ENDMDL 记录包围着 ATOM, HETATM, SIGATM, ANISOU, SIGUIJ,和 TER 记录. TER 记录预示链的末端.

Other

其他记录类型有详细的内部结构.按字母顺序列出如下:

记录类型 说明

JRNL 发表坐标集的文献 REMARK 注解

记录的表示

PDB数据库中的数据都应按照一定的规定来出现,强制记录类型必须出现在所有的记录中,当强制数据没有提供,记录名必须出现在记录中并以NULL表示当此条件存在时选择项表就变成强制记录类型。以下表格是对这两种类型的具体划分和描述: 记录类型 HEADER OBSLTE TITLE CAVEAT COMPND SOURCE KEYWDS EXPDA AUTHOR REVDAT SPRSDE JRNL REMARK 1 REMARK 2 REMARK 3 REMARK N DBREF SEQADV SEQRES MODRES HET HETNAM HETSYN FORMUL HELIX SHEET TURN SSBOND LINK HYDBND SLTBRG CISPEP SITE CRYST1 ORIGX1 ORIGX2 ORIGX3 SCALE1 SCALE2 SCALE3 MTRIX1 MTRIX2 MTRIX3 TVECT MODEL ATOM SIGATM ANISOU SIGUIJ 说明 强制 可选 强制 可选 强制 强制 强制 强制 强制 强制 可选 可选 可选 强制 强制 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 可选 强制 强制 强制 可选 可选 可选 可选 可选 可选 可选 变为强制的条件 个别记录中强制 该记录中有错误 在被替代的记录中 出版物描述了该试验 出版物描述了该试验 一定条件下强制,如记录在备注描述 每个缩氨酸链的长度大于十个残基并且核酸记录存在于核算蛋白库中(NDB) 有序列冲突 ATOM记录存在 有修饰存在 有不标准的残基除了水分子 有不标准的残基除了水分子 有不标准的残基或水 有二硫键存在 完全不对称单元 非晶相对称 记录中多于一个MODEL 有标准的残基存在 TER ENDMDL CONNECT MASTER END 记录部分的划分

可选 可选 可选 强制 强制 有ATOM记录存在 有MODEL存在 不标准的团存在 Title Remark 大概描述 参考书目,最大分辨率,注解等 一级结构 氨基酸或核苷酸序列和PDB序列与其他序列库的有关记录 不标准组的描述 二级结构 化学元素连接 大分子的特征 晶体细胞描述 坐标描述 原子坐标数据 化学键连接 概要信息和结束标志 HEADER, OBSLTE, TITLE,CAVEAT, COMPND, SOURCE,KEYWDS, EXPDTA, AUTHOR,REVDAT, SPRSDE, JRNL REMARKs 1, 2, 3 and others Primary structure DBREF, SEQADV, SEQRES,MODRES Heterogen Secondary structure Connectivity annotation Miscellaneous feature Crystallographic Coordinate transformation Coordinate Connectivity Bookkeeping HET, HETNAM, HETSYN, FORMUL HELIX, SHEET, TURN SSBOND, LINK, HYDBND, SLTBRG,CISPEP SITE CRYST1 ORIGXn, SCALEn, MTRIXn, TVECT MODEL, ATOM, SIGATM,ANISOU, SIGUIJ, TER, HETATM, ENDMDL CONECT MASTER, END

对数据类型的说明 数据类型 Achar Atom Character Continuation Date IDcode Integer Token List Lstring LString(n) Real(n,m) Record name Residue name Slist Specification Specification list String String(n) SymOP 残基名字

描述

一个英文字母(A-Z,a-z) 原子名 ASCII码和空格

如果一行描述不完用此表示序列号,占两个字符右对齐,第一个用空格

占九个字符dd-mmm-yy, DD表日期,右对齐不足左补零;MMM表月份用常用的三个英文字母表示;YY表20世纪的一年,他们都必须是有效日期

占四个字符,第一个是阿拉伯数字(0-9),余下的三个由希腊数字组成,字母必须是大写的。若第一个是阿拉伯数字零则对此蛋白质的描述中没有坐标数据 右对齐,不足的用空格填充的整型数据

由一组没有空格的字符组成,结尾部分紧跟着冒号和空格 一个由逗号分开的字符串

字符串,任何空格都有意义必须保存 有N个字符的Lstring 实型

记录的名字,由六个字符组成,左对齐,不足的用空格补充

右对齐格式标准氨基酸或核苷酸中的一个,后有列表.不标准组分在HET中详细说明 由一些内容组成的字符串,有分号分开 由一些token记录组成的字符串,由冒号分开 由Specifications组成的序列,由分号分开 由字符组成的序列,可能有些空格,但应该详细说明 由N个字符组成String

由4-6个数字组成的整数,右对齐格式.详细资料在Appendix 1

在PDB格式中出现的标准残基的名字: 残基类型 氨基酸 核酸 其他

残基名字

ALA, ARG, ASN, ASP, CYS, GLN, GLU, GLY, HIS, ILE, LEU, LYS A, C, G, T, U, I, +A, +C, +G, +T, +U, +I UNK(unknown)

Appendix 4中有更多关于标准残基名和缩写的信息, Appendix 5中有他们的化学式和分子量.

标题部分

HEADER(分子类,公布日期、ID号) 综述

该记录包含三个方面的内容:蛋白质的种类,被该数据库接收的日期和唯一区分该蛋白质的id CODE. 记录格式 列 1 – 6 11 – 50 51 – 59 63 – 66 细节

改分类表示是左对齐的,并且由于分给字符位的限制,有时分类名太长,要用简写表示。在KEYWDS记录中存着改分类的全称。 示例

1 2 3 4 5 6 7 1234567890123456789012345678901234567890123456789012345678901234567890 HEADER MUSCLE PROTEIN 02-JUN-93 1MYS

HEADER HYDROLASE (CARBOXYLIC ESTER) 08-APR-93 2PHI

HEADER COMPLEX (LECTIN/TRANSFERRIN) 07-JAN-94 1LGB

OBSLTE (注明此ID号已改为新号) 综述

该记录出现在已经被收回的蛋白质的描述中,可以作为一个标志。任何新的记录都能代替别回收的记录.这个版本允许多个新纪录代替现有记录. 记录格式 列 1 – 6 9 – 10 12 – 20 22 – 25 32 – 35

数据类型 Record name Continuation Date IDcode IDcode

字段名称 \continuation repDate idCode rIdCode

定义描述

允许多重记录串联表示不同行的顺序号 被替代的日期 该记录的id code 替换的id code

数据类型 Record name String(40) Date IDcode

字段名称 \classification depDate idCode

定义描述

该蛋白质的分类 被数据库接收的日期 唯一标识某个蛋白

蛋白质PDB文件说明

字符集合只是一些非控制型字符,象空格和结束符,出现在PDB文件记录中。也就是:abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890`-=[]\\;',./~!@#$%^&*()_+{}|:\空格和结束符。结束
推荐度:
点击下载文档文档为doc格式
8vasl1nn761wxgu8jpvp
领取福利

微信扫码领取福利

微信扫码分享