蛋白质的序列分析及结构预测.ppt-得力文库

资源描述

《蛋白质的序列分析及结构预测.ppt》由会员分享，可在线阅读，更多相关《蛋白质的序列分析及结构预测.ppt（139页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、蛋白质的序列分析及结构预测,一、蛋白质数据库介绍二、蛋白质序列分析三、蛋白质结构预测四、应用分子设计,一、蛋白质数据库介绍,蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构以及四级结构。依据这种结构层次, 将蛋白质数据库分为: 1. 蛋白质序列数据库：如PIR、SWISS-PROT、NCBI , 这些数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释; 2. 蛋白质模体及结构域数据库：如PROSITE、Pfam, 这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列; 3. 蛋白质结构数据库：如PDB 等, 这些数据库主要以蛋白质的结构测量数据为主; 4. 蛋白质分类

2、数据库：如SCOP、CATH、FSSP 等, 这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。,蛋白质数据库特征: 这些数据库种类有差别, 但内部是相互联系的. 每个数据库都有指针指向其他数据库, 而且数据库之间的序列以及相应的结构是共享的, 同一种蛋白质依次会出现在不同的数据库. 这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息, 这些数据库是融序列信息的索取、处理、存储、输出于一身的。,1. 蛋白质序列数据库,（1）PIR(protein information resource, PIR)和PSD (protein sequence database

3、, PSD) http:/pir.georgetown.edu/pirwww PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。（2）SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot,数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的

4、相似性、序列残缺与疾病的关系、序列变异体等信息。,2. 模体以及结构域数据库,模体数据库（1）PROSITE 蛋白质家族及结构域数据库( www.expasy.org/prosite/ ) PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分析数据库。 PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质

5、结合区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱( profile) , 能更敏感地发现序列中的信息。,PROSITE同时数据库提供了序列分析工具: ScanProsite 是用于搜索所提交的序列数据是否包含 PROSITE 数据库中的序列模式或者SWISS-PROT 数据库中已提交的序列模式; MotifScan 用于查找未知序列中所有可能的已知结构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。,(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrows

6、er/PRINTS/ 这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。 (3) BLOCKS ( www.blocks.fhcrc.org/ ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来的无空位的片段。,模体数据库,蛋白质结构域数据库 (1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam( protein families database of alignments and HMMs) Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是: www.sanger.ac.uk/Software/Pfam/index.shtml。 (2)

7、蛋白质结构域数据库ProDom http:/prodes.toulouse.inra.fr/prodom/doc/prodom.html (3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。 http:/smart.embl-heidelberg.de/,3. 蛋白质结构数据库,PDB( protein data bank , PDB) http:/www.rcsb.org

8、/pdb/ PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构, 并由RCSB 维护和注释。,4.蛋白质结构分类数据库,(1) CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html (2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html,二、蛋白质的序列分析,1. 蛋

9、白质序列信息的获取 2. 蛋白质序列分析,1. 蛋白质序列信息的获取,（1）直接测序（2）翻译编码的DNA序列 ORF Finder （3）在数据库中搜索运用ID 号、入口号、条目号等搜索。运用关键词搜索其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。,（1）直接测序,e.g. Protein Sequencing and Identification by Tandem Mass Spectrometry，即用串联质谱仪测序,1. 蛋白质序列信息的获取,串联质谱及其作用,两个或更多的质谱连接在一起，称为串联质谱。最简单的串联质谱（MS|MS）由两

10、个质谱串联而成，其中第一个质量分析器（MS1）将离子预分离或加能量修饰，由第二级质量分析器（MS2）分析结果。,串联质谱仪的组合方式： (1) 磁分析器-静电分析器-磁分析器(2) 静电分析器-磁分析器-静电分析器(3) 三重四极滤质器质谱仪(4) 混合式串联质谱仪，如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。,优点：可以避免底物分子产生的干扰，大大降低背景噪音。其次，可使分子离子通过与反应气的碰撞来产生断裂。因此能提供更多的结构信息，所以串联质谱特别适合于复杂组分体系且干扰严重的样品中低含量组分分析测定，具有比GC-MS和LC-MS等一级质谱更高的选择性和灵

11、敏度。,Masses of Amino Acid Residues,Protein backbone,H.-HN-CH-CO-NH-CH-CO-NH-CH-CO-OH,Ri-1,Ri,Ri+1,AA residuei-1,AA residuei,AA residuei+1,N-terminus,C-terminus,Breaking Protein into Peptides and Peptides into Fragment Ions,Proteases, e.g. trypsin（胰蛋白酶）, break protein into peptides. A Tandem Mass Spec

12、trometer（串联式质谱仪） further breaks the peptides down into fragment ions and measures the mass of each piece.,General for sequencing,Breaking Protein into Peptides and Peptides into Fragment Ions,Mass Spectrometer accelerates the fragmented ions; heavier ions accelerate slower than lighter ones. Mass Sp

13、ectrometer measure mass/charge ratio of an ion.,General for sequencing,Peptide Fragmentation,Peptides tend to fragment along the backbone. Fragments can also loose neutral chemical groups like NH3 and H2O.,H.-HN-CH-CO . . . NH-CH-CO-NH-CH-CO-OH,Ri-1,Ri,Ri+1,H+,Prefix Fragment,Suffix Fragment,Collisi

14、on Induced Dissociation,N- and C-terminal Peptides,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,N-terminal peptides,C-terminal peptides,Terminal peptides and ion types,G,F,P,N,Peptide,Mass (D) 57 + 97 + 147 + 114 = 415,H2O,Peptide,Mass (D) 57 + 97 + 147 + 114 18 = 397,G,F,P,N,H2O,without,N- and

15、 C-terminal Peptides,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,N-terminal peptides,C-terminal peptides,415,486,301,154,57,71,185,332,429,N- and C-terminal Peptides,N-terminal peptides,C-terminal peptides,415,486,301,154,57,71,185,332,429,Peptide Fragmentation,y3,b2,y2,y1,b3,a2,a3,HO NH3+ | |

16、 R1 O R2 O R3 O R4 | | | | | | | H - N - C - C - N - C - C - N - C - C - N - C - COOH | | | | | | | H H H H H H H,b2-H2O,y3 -H2O,b3- NH3,y2 - NH3,Mass Spectra,mass,0,The peaks in the mass spectrum: Prefix Fragments with neutral losses (-H2O, -NH3) Noise and missing peaks.,and Suffix Fragments.,Prote

17、in Identification with MS/MS,Tandem Mass-Spectrometry,Breaking Proteins into Peptides,peptides,MPSER,GTDIMR,PAKID,HPLC,To MS/MS,MPSERGTDIMRPAKID.,protein,Mass Spectrometry,Matrix-Assisted Laser Desorption/Ionization (MALDI) 基质辅助激光解吸质谱,基质辅助激光解吸飞行时间质谱仪 MALDI-TOF-MS,MALDI-TOF-MS是近年来发展起来的一种软电离新型有机质谱。近年

18、来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、糖蛋白、高聚物以及多种合成聚合物的强有力工具。原理：当用一定强度的激光照射样品与基质形成的共结晶薄膜，基质从激光中吸收能量，基质-样品之间发生电荷转移使得样品分子电离，电离的样品在电场作用下加速飞过飞行管道，根据到达检测器的飞行时间不同而被检测，即测定离子的质量电荷之比与离子的飞行时间成正比来检测离子。 MALDI-TOF-MS的中心技术就是依据样品的质荷比（m/z）的不同来进行检测，并测得样品分子的分子量。,Tandem Mass Spectrometry,Scan 1708,LC,Scan 1707,MS,MS/MS,多肽片段指纹

19、图谱（PFF）,步骤：用酶专一性酶解蛋白质，经过分离，得到的肽段在质谱中被选择和破碎后得到MS/MS谱图，与数据库中的谱图比较进行鉴定代表方法： LC-ESI-MS/MS 2D-LC-MS/MS（shotgun）,1. 蛋白质序列信息的获取,（2）翻译编码的DNA序列 e.g.用“ORF Finder”程序找到DNA的开放阅读框。网址：ncbi.nlm.nih.gov/gorf/gorf.html,1. 蛋白质序列信息的获取,（3）在数据库中搜索 e.g. PIR-PSD database: pir.georgetown.edu/pirwww SWISS-PROT/TrEMBL datab

20、ase www.expasy.org/swissprot,目前大部分蛋白质序列是通过DNA 人工翻译过来的, 实际上很少有人能获得真正的蛋白质, 因而实验证据就很难直接获得, 因此对蛋白质序列初始分析是很有价值的。比如，通过一些序列分析工具进行蛋白质理化特性的预测、修饰位点的预测等。,2. 蛋白质序列分析,1.蛋白质序列的基本性质分析理化性质分析，疏水性分析，跨膜区分析，信号肽预测，Coil区分析，亚细胞定位 2.序列数据库搜索相似性搜索，模体的搜索 3.结构域定位 4.空间结构预测二级结构及三级结构预测，结构预测方法评价,蛋白质序列分析主要内容：,1. 蛋白质序列的基本性质分析（1

21、）理化性质分析分子质量、分子式、理论等电点、氨基酸组成、消光系数、稳定性等理化特性。例，利用ProtParam工具 http:/us.expasy.org/tools/protparam.html,CL和CLAP的理化性质预测结果,CL：组织蛋白酶L,CLAP：组织蛋白酶L相关蛋白,（2）疏水性分析氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示，蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用。 e.g.利用ProtScale工具 http:/web.expasy.org/protscale/ 利用BioEdit软件分析,海参溶菌酶亲水性/疏水性分析,Score

22、0，表示疏水性； Score 0，表示亲水性,（3）跨膜区分析蛋白质含有跨膜区提示它可能作为膜受体起作用，也可能是定位在膜上的锚定蛋白或离子通道蛋白。例，使用TMHMM Server v.2.0在线分析 http:/www.cbs.dtu.dk/services/TMHMM/,铝激活苹果酸的转运蛋白(TaALMT1)跨膜结构分析,（4）信号肽预测信号肽：指分泌蛋白表达时氨基端的20余个氨基酸，将引导该蛋白质最终分泌至细胞外，但这段信号肽会被信号肽酶切掉，所以成熟的分泌蛋白是不含这段信号肽的。用于指导蛋白质的跨膜转移（定位）的N末端的氨基酸序列，一般由15-30个氨基酸组成。使用S

23、ignalP在线分析 http:/www.cbs.dtu.dk/services/SignalP/,海参溶菌酶信号肽预测,Conclusion：cleavage site between pos. 20 and 21: ASG-QV,（5） Coil区分析蛋白质中由2-7条螺旋链相互缠绕形成类似麻花状结构的总称；主要存在形式是2-5条相互缠绕形成的平行或反平行同寡聚体或异寡聚体；是控制蛋白质寡聚化的元件，转录因子、骨架蛋白、动力蛋白、膜蛋白、酶等；七肽重复区。 e.g. 使用COILS服务器分析 http:/www.ch.embnet.org/software/COILS_form.h

24、tml,（6）亚细胞定位根据氨基酸组成可以进行亚细胞定位不同细胞器多具不同的理化环境，它会根据蛋白质的结构及表面理化特征选择性容纳蛋白质；蛋白质表面直接暴露于细胞器环境中，它由序列折叠过程决定，而后者取决于氨基酸组成。亚细胞定位的步骤在线分析工具 e.g.使用TargetP http:/www.cbs.dtu.dk/services/TargetP/,组织蛋白酶CL和相关蛋白CLAP的亚细胞定位,结果证明，CL和CLAP出现几率最高的位点都为胞质，说明它们都为胞浆内蛋白，这也为今年来在溶酶体内外都发现组织蛋白酶活性提供了证据。,(1)相似性搜索（或同源搜索）, 一个新序列与序列数

25、据库中的序列比对，从而找到同源或者相似序列。常用程序是BLASTp。,2. 序列数据库搜索,(2) 模体（motif）的搜索这是另一种序列搜索方法, 其目的是寻找蛋白质中结构域或者功能域。这个方法不是给每个位置的氨基酸打分, 然后得到一个相似程度, 而是直接描述关键的几个保守残基, 同时忽略其他位置的氨基酸多态性, 这些保守的序列有时会称为“标志” ( signature) , 就是所谓的模式序列( pattern ) 。,Motif 搜索即模体搜索，是序列中局部的保守区域，或是一组序列中共有的一小段序列模式。使用PROSITE数据库进行motif搜索 www.expasy.org

26、/prosite 模式序列常表示为： AG-x-V-x(2)-x-YW shows either amino acid x is any amino acid x(2) any amino acid in the next 2 positions shows any amino acid except these,模体的搜索举例：有序列表示为： H- FW-x- LIVM -x-G-x ( 5 )- LV-H- x( 3)-DE 这是描述一个DNA 结合蛋白质家族的, 可以理解为组氨酸, 接着是苯丙氨酸或者色氨酸, 紧接一个氨基酸x, 然后可以是亮氨酸、异亮氨酸、缬氨酸、或者甲硫氨酸 , 这

27、样一段序列由于处于活性区域或者蛋白质的重要结构区, 所以特别保守, 因此也是序列搜索的目标之一。,3. 结构域定位,通过将序列在数据库中搜索，可以了解到序列的一些信息，接下来就可以进行结构域的定位，这样就对以后的结构预测有了一个比较清醒的认识。如果蛋白质序列的长度大于500个氨基酸，就可以根据搜索的情况（比如按相似性高低或者结构域多少等）将蛋白质分割成多个不连续的区域，最好将这一段一段的序列分别鉴别。,什么是结构域？,结构域是在二级结构或超二级结构的基础上形成三级结构的局部折叠区，一条多肽链在这个域范围内来回折叠，但相邻的域常被一个或两个多肽片段连结。通常由50-300个氨基酸残基组成，其

28、特点是在三维空间可以明显区分和相对独立，并且具有一定的生物功能如结合小分子。模体（motif）是结构域的亚单位，通常由23二级结构单位组成，一般为螺旋、折叠和环（loop）。,结构域定位,二聚体蛋白结构域,结构域和功能域,对那些较小的球状蛋白质分子或亚基来说,结构域和三级结构是一个意思,也就是说这些蛋白质或亚基是单结构域的，如红氧还蛋白等；较大的蛋白质分子或亚基其三级结构一般含有两个以上的结构域，即多结构域的,其间以柔性的铰链（hinge）相连，以便相对运动。结构域有时也指功能域。功能域是蛋白质分子中能独立存在的功能单位,它可以是一个结构域，也可以是由两个或两个以上结构域组成。,结构域定位

29、,结构域定位,结构域是蛋白序列的功能、结构和进化单元分析方法：序列比对单条蛋白质序列可以包含一个或多个结构域,基本类型：,64,-螺旋型,全-折叠型,/型,+型,结构域定位分析一般流程：,(1)探测序列与其他全序列之间有无同源性.如果有，那么这是该段序列为结构域的很好证据，然后进行结构数据库的搜索，也可以搜索注释好的数据库，从而得到一些有关结构域的说明。 (2)分析低复杂度的区域。在多结构域的蛋白质中，这些低复杂度序列常常间隔结构域，长的重复序列特别是pro、glu、ser、thr等常常是连接序列，也是很好的结构域剪接位置。,结构域定位,结构域定位分析一般流程：,(3)跨膜区域。由于跨膜

30、结构是一个非常典型的结构，这种结构连续性较强，而且预测容易，准确性也比较高，因此也是一个分割的区域，这样就很容易区分胞外和胞内区域。 (4)卷曲螺旋结构(coiled-coil)。这个结构有时也可能是蛋白质结构域之间的间隔区，可以在COIL网站上预测coiled-coil结构。,结构域定位,结构域定位分析一般流程：,(5)二级结构预测。这个方法常常用来预测一个结构中包含的不同折叠子。例如，一个序列中的一部分可能会被预测成只有-螺旋，而另一个部分可能会被预测成只含有-折叠，这些都可能预示有域的结构存在。 (6)如果序列已被成功地分解成成形的结构域，那么重复进行数据库搜索并且进行独立比对是很重要的

31、.,结构域定位,结构域定位,结构域分析工具介于二级和三级结构之间可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。通常由25-300个氨基酸残基组成；全平行结构域、反平行结构域、+结构域、 /结构域及其他折叠类型。利用SMART服务器进行结构与分析 http:/smart.embl-heidelberg.de/,结构域定位分析举例,实例分析：,海参溶菌酶序列和其它i型溶菌酶保守区域的比对,结果：高度保守的2个活性位点（E34和S50）和特有的氨基酸保守序列MDVGSLSCG(PY)(YF)QIK,i-型溶菌酶含

32、有两个结构域,模体搜索和结构域定位举例,实例分析：,海参i-型溶菌酶3D结构模式图,4. 蛋白质空间结构预测,（1）蛋白质二级结构预测蛋白质二级结构是蛋白质分子中重要的组成“部件”，是研究蛋白质氨基酸序列和三级结构之间的桥梁。基本的二级结构：螺旋，折叠，转角，无规则卷曲（coils）以及模体（motif）等蛋白质局部结构组件,蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题。二级结构预测的目标：判断每一段中心的残基是否处于螺旋、折叠、转角（或其它状态）之一的二级结构态，即三态。,蛋白质二级结构预测,二级结

33、构的预测方法：基于统计和机器学习方法进行预测 Chou-Fasman算法 GOR算法多序列列线预测基于神经网络的序列预测基于已有知识的预测方法（knowledge based method）混合方法（hybrid system method）,蛋白质二级结构预测,二级结构中氨基酸出现频率的影响：氨基酸残基在二级结构元件中出现频率的研究揭示，某些残基如 Glu 、 Met 、 Ala 和 Leu 在螺旋中出现的频率比在其他二级结构元件中高。相反，Gly 和 Pro 在螺旋中频率很低。但它们在转角中很高。另一些残基包括 Val 、Ile 和芳香族氨基酸在折叠片中频率很高，而

34、Asp 、Glu 和 Pro 在折叠片中则很低。这表明各种残基形成各种二级结构的倾向性是不同的。,蛋白质二级结构预测,蛋白质二级结构分析工具,蛋白质二级结构分析工具（续）,PredictProtein http:/www.predictprotein.org/ 可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息该方法的平均准确率超过72%，最佳残基预测准确率达90%以上。因此，被视为蛋白质二级结构预测的标准需要注册帐号用于学术研究,蛋白质二级结构预测,PredictProtein 提交界面详解,提交邮件地址（必填）,蛋白名称（可选）,分析方法,分析方法程序详

35、解,跨膜螺旋预测（PHDhtm）专家选项,Ambivalent序列识别（ASP）专家选项,CHOP结构域分析工具专家选项,比对内容,从SWISS-PROT数据库返回BLAST搜索结果,MaxHom参数选项,最低序列比对一致性,空位间隔罚分,空位延伸罚分,比对矩阵,最大击中值,选择保存分析结果,是否返回多序列比对结果,HTML结果形式,AGAPE结果,PROF/PHD结果形式,以下拉框中所指定的输入格式将待测序列粘贴此提交栏,PredictProtein 分析结果,PredictProtein 分析结果,(2) 蛋白质三维结构预测,方法一：同源模建 comparative modeling 1.

36、同源模建的基础蛋白质的三级结构比一级结构更保守。研究表明如果两个蛋白质的同源性达到50%，二者90%的Ca的RMS 小于1埃。 2.原理：序列高度相似的蛋白质具有相似的三维结构。同源蛋白质之间具有保守的结构内核，差异仅存在分子表面的回折区。当一个蛋白质的序列与一个已知结构的蛋白质序列相似的时候，该蛋白质的结构可以被模建。,3.同源模建的前提和条件：要模建的目标蛋白必须有一个或多个已知结构的与之同源（同源性不低于25）的蛋白。数据库：蛋白质结构、序列数据计算机：工作站分子模拟系统：软件系统 4.同源模建的发展历史 1969年，Browne利用溶菌酶的结构手工模建了牛乳白蛋

37、白的结构。八十年代，Blundel发展了利用多种同源蛋白质进行结构预测的方法。随着计算机技术的发展、结构测定数据的增加，同源模建技术也在快速发展。,5.同源模建的主要算法刚体装配模建（modeling by rigid body assembly ）片段匹配模建（modeling by segment matching）空间制约模建（modeling by satisfaction of spatial restraints）,（1）刚体装配模建从一些刚体包括核心区、环区和侧链来构造模型，这些刚体都来自分解的相关结构（参考蛋白）。模型的装配涉及计算一个框架，这个框架定义为折叠模式的保守

38、区域的模板原子的平均，并把刚体装进框架。（2）片段匹配模建依赖于从模板蛋白的保守原子的相近位置来计算其它原子的坐标。它可以通过使用蛋白质结构的短片数据库、能量或几何规则、以及这些标准的某些联合来完成。（3）空间制约满足：首先从参考蛋白结构中抽取出一些空间制约条件，将这些制约条件用几率密度函数来表示，然后根据氨基酸类型、等位残基的主链构象和序列之间局部的相似程度而对空间制约条件施加以不同的权重因子。模建时将几率密度函数应用到未知结构蛋白质序列上，通过优化分子的几率密度函数使制约条件有最小的冲突而得到目标蛋白的三维结构，整个优化过程通过分子力学和分子动力学模拟来实现。,6. 同源建模法分

39、析步骤：多序列比对与已有晶体结构的蛋白质序列比对确定是否有可以使用的模板序列相似度30% 序列相似度30%，结合功能，蛋白质一级序列、二级结构或结构域信息构建三维模型三维模型准确性检验 Whatcheck 程序 Ramachandran plot计算检验手工调整多序列比对，重新拟和，构建新的模型,蛋白质三维结构预测,SWISS-MODEL工具 http:/www.expasy.ch/swissmod/SWISS-MODEL.html 同源建模方法与PDB数据库已知结构的蛋白质序列比对进行预测,主要参数/选项,输出结果,方法二：折叠识别/ 穿线方法对蛋白质结构的预测,背景：序列

40、比对后所击中的相似序列不是完整的而是一段一段的结构域，也可以通过二级结构预测和折叠识别（fold recognition)找到合适的折叠子，再以这些已知结构的折叠子为模板来构建模型。,折叠识别/ 穿线方法,观察：有限的蛋白质折叠种类（1,000?）与“从头开始”来预测蛋白质结构不同，我们可以从有限的蛋白质折叠条目中得到正确的结果。基于序列技巧可以做到这一点，或者通过穿线法将序列按顺序投到模板上，并评价每一个匹配好坏程度,折叠识别/ 穿线方法,原理：将序列“穿”入已知的各种蛋白质折叠子骨架内，通过目的蛋白序列与已知折叠子的逐一比对，计算出未知结构序列折叠成各种已知折叠子的可能性；

41、折叠子一般包括一个或多个蛋白质超家族；每个折叠子的结构内核有确定的结构特征；基于序列同源性很低的蛋白质都可能存在结构相同的折叠子进行预测。例如，通过PHYRE系统进行折叠识别预测 http:/www.sbg.bio.ic.ac.uk/phyre/index.cgi,折叠识别或穿线法,目标序列SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ 可能折叠的库（哪些具有已知序列和结构）：,序列结构比对,目标序列SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ t1t2t3t4t5tn,已知折叠结构的序列s1s2s3s4s5s

42、n 已知折叠结构的位置p1p2p3p4p5pn 怎样将目标序列与结构进行比对？,同源模建与结构类型识别方法的比较蛋白质家族与蛋白质结构类型 Family 蛋白质家族依据序列同源性将蛋白质分为不同的家族：一般将序列同源性大于30%的蛋白质归属为一个家族。一个蛋白质家族的成员可能由一个共同的祖先进化而来。自然界存在的可能蛋白质家族数目大约为23100种。同一个家族的蛋白质一般具有相近的功能和相同的结构类型（折叠模式）。,3D-PSSM工具 http:/www.sbg.bio.ic.ac.uk/3dpssm/index2.html 由英国伦敦帝国理工学院维护，其数据库中含有9864个蛋白折叠结构

43、 3D-PSSM先用PSI-BLAST标准方法通过多序列比对得到轮廓（profile），然后对家族中的一系列成员进行结构比对得出该家族的结构轮廓，接着用线串法将模板结构轮廓和待测蛋白的序列轮廓进行1D-3D轮廓之间的比对，此外也考虑了溶剂可及性和二级结构信息,输入用户Email（必需）,蛋白质描述（选填）,序列提交框（氨基酸单字母）,Phyre -http:/www.sbg.bio.ic.ac.uk/phyre/ 3d-PSSM的升级版，增加了fold数据，并且性能上提高10-15，采用了新的分析界面,二级结构预测,序列比对结果,序列比对一致性,模板长度,靶标蛋白模型,模板蛋白结构分类信息,折

44、叠子描述,常用蛋白质三维结构观察和修改工具,Chime网络游览器插件,Chime- 基于游览器的三维结构观察工具安装后在Internet Explorer下的 PLUGINS文件夹中会有： npchime.dll (plugins folder) npchime.zip (plugins folder, used for LiveConnect) NOTE: Do not unzip this file chimepro.html (plugins folder, the release notes for Chime) chime26.isu (plugins folder, used t

45、o uninstall Chime) sculptapi.dll (Windows System folder, used for Sculpt) ChimeShim.dll (plugins folder, Internet Explorer only),SWISS-PdbView观察三维模型,SWISS-PdbView工具 http:/swissmodel.expasy.org/spdbv/ 观察和修改分子的三维结构,Ramachandran图,结构叠加,蛋白质序列分析汇总表,课程总结,课程总结,四、蛋白质结构预测的应用,蛋白质的分子设计,蛋白质分子设计与基因工程技术、多肽合成技术和化学合

46、成技术一起开创了新药设计和开发研究的新局面。这个领域的研究方向主要包括蛋白三维结构预测、蛋白质结构功能关系研究、蛋白相互作用、蛋白与DNA相互作用、蛋白质突变体的分子设计、全新蛋白质设计等。,1. 分子设计的意义,分子生物学最激动人心的进展之一是能够设计和生产新的蛋白质分子。重组DNA技术使人们能够定向改变蛋白质中的氨基酸序列，包括氨基酸的取代、插入或缺失，甚至包括蛋白质的融合等。蛋白质工程则是在深入了解蛋白质结构与功能关系的基础上，利用分子生物学方法和手段有目的地改造蛋白质，使之性能得到改善。作为蛋白质工程的组成部分，蛋白质分子设计在其中起着十分重要的作用。,从预期的蛋白质功能出发设计预

47、期的蛋白质结构推测应有的氨基酸序列找到相对应的脱氧核苷酸（基因）,2. 分子设计的种类,小改：少数残基的替换，突变或修饰中改：分子拼接，肽段或结构域的替换大改：从头设计，全新蛋白质的设计,3.分子设计与蛋白质结构蛋白质分子内部的电荷分布、相互作用有其特定的结构特征，随意选择突变位点在蛋白质分子中改变氨基酸，不仅达不到预期目的，反而可能影响蛋白质分子的活性中心，使蛋白质的活性降低或丧失。,4. 蛋白质分子设计的应用应用1：酶稳定性的改善酶的稳定性在蛋白质工程的实践中，一般可以通过在酶分子内增加二硫键或静电作用来提高酶分子的稳定性。例1：核糖核酸酶的稳定性的提高（1）已知条件：核糖

48、核酸酶三维结构已由晶体衍射方法测定。分子内有两对二硫键：Tyr24与Asn84正对，二者的Ca之间的距离为6.0A，满足二硫键的特征（二硫键的Ca的平均距离：4.5- 6.8），可能形成一个潜在的二硫键；二者附近没有干扰形成二硫键的基团；二者离催化活性中心较远，突变后不会影响活性。（2）设计方案：将Tyr24与Asn84突变为Cys实验结果：突变体的稳定性大大提高,例2.葡萄糖异构酶（GI）在工业上应用广泛，为提高其热稳定性，朱国萍等人在确定第138位甘氨酸(Gly138)为目标氨基酸后，用双引物法对GI基因进行体外定点诱变，以脯氨酸（Pro138）替代Gly138，含突变体的重组质粒在大肠杆菌中表达，结果突变型GI比野生型的热半衰期长一倍；最适反应温度提高1012；酶比活相同。据分析，Pro替代Gly138后，可能由于引入了一个吡咯环，该侧链刚好能够填充于Gly138附近的空洞，使蛋白质空间结构更具刚性，从而提高了酶的热稳定性。,应用2：融合蛋白质脑啡肽(Enk)N端5肽线形结构是与型受体结合的基本功能区域，干扰素（IFN）是一种广谱

展开阅读全文