2022年蛋白质序列结构的分析与预测 .pdf

上传人:H****o 文档编号:33403048 上传时间:2022-08-10 格式:PDF 页数:26 大小:3.17MB
返回 下载 相关 举报
2022年蛋白质序列结构的分析与预测 .pdf_第1页
第1页 / 共26页
2022年蛋白质序列结构的分析与预测 .pdf_第2页
第2页 / 共26页
点击查看更多>>
资源描述

《2022年蛋白质序列结构的分析与预测 .pdf》由会员分享,可在线阅读,更多相关《2022年蛋白质序列结构的分析与预测 .pdf(26页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、1 蛋白质体学报告生物数据库简介蛋白质序列结构的分析与预测(5/9) 演讲老师:吕平江老师指导老师:李永安老师生命科学系四组长:曾瓘钧 488340444 组员:林泰宏 488340030 廖智凯 488340195 李岳锜 488340547 前言:这本书之前的章节关于数据库得到知识的讨论,可以运用不同的数据库得到大量可用的序列讯息, 当我们准备看核甘酸序列及所有的蛋白质序列时,无论是直接决定,或是经由核甘酸序列中 open reading frame的转译,这些包含决定其结构及功能的内在讯息,不幸的,实验针对这些讯息 不能用 未加工 的讯息 数据 来产生 ,一些 判定的 技术, 像是cir

2、cular 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 26 页 - - - - - - - - - 2 dichroism spectroscopy、 optical rototary dispersion、X-ray晶 体 绕 射 ( X-ray crystallography)及核磁共振(NMR ) ,对于结构的特性是非常强而有力,但这些费时的技术实行, 需要高度熟练和技术性上高要求的操作,在蛋白质序列和结构数据库的大小上比较中,SWISS PORT 中有 87

3、143 个蛋白质( Release 39.0 ) ,但只有 12624 的蛋白质结构在PDB中出现( July, 2000) ,试图关掉环绕在预测结构跟功能的方法中的gap center,然后这些方式可以在生化资料缺乏时,提供一个看的见蛋白质特性的方法。此章节焦点集中在计算的技术,可以提供学上的发现基于本身蛋白质序列或其本身蛋白质家族的比较, 不像核甘酸序列,是由 4 个化学上相似的base 所组成, 蛋白质中找到20 个胺基酸,提供了结构及功能非常大的变异,这些残基具有不同的化学构造,因为胺基酸是碱或是酸、是亲水性或是厌水性、还是直炼或是具有分支链、或是芳香族, 所以每一个残基皆可影响蛋白质

4、全部物理特性,因此,在蛋白质domain 上,每一个残基具有某一倾向去形成不同型的结构,这些特性,基于一个生化中心的教条:序列详述构造。不管用何种预测性的技术,它的结果都只是预测,不同的方法, 用不同的规则系统,或许是、或许不是我们所预测的结果,重要的是, 如何去操作一个特有的预测方法,而不是系统规则上的黑盒子: 一个方法或许是适用一个特有的事件,但不能完全适用于另一个事件,即使如此,适当的利用这些技术和初期的生化数据,可以对于蛋白质结构及功能上提供有价值的鉴识。PROTEIN IDENTITY BASED ON COMPOSTION 20 个胺基酸的物理及化学特性完全的了解,基于这些特性,许

5、多有用的计算工具,已经发展用来预测未知蛋白质的辨别,在the Swiss Institute of Bioinformatics中,很多工具经由 ExPASy server获得。ExPASy的焦点是双倍功能,一个经由2-D 电泳分离的未知蛋白质之协助分析,和预测已知蛋白质的未知特性,这些利用SWISS PORT的批注来作它们的预测,虽然计算结果例如在电泳分析上是有用的,但是在很多的实验范围上是有价值的,例如一些色层分析和沉淀分析的研究,在这这段落及接下来的段落,在这个ExPASy suite中是可被辨识的,但是接下来的讨论也包含很多有用的程序,包括许多有用的程序internet资源和这些工具的

6、关联,会在这个章节陆续列出来讨论。AACompldent and AACompSim(ExPASy )与其利用胺基酸序列去搜寻SWISS PORT ,还不如 AACompldent 用未知蛋白质胺基酸的组成去辨识是同似组成的已知蛋白质,当输入时程序,需要合适胺基酸组成、等电点(pI ) 、和蛋白质的分子量(如果已知)、适当的分类taxonomic class和任何特殊的关键词,除此之外,使用者必须选择6 个胺基酸中的一个(constellations) ,这个可以影响分析如何执行,例如某一群( constellations)结合残基像似AspAsn(DN) 、GlnGlu(Q E)变成为Asx

7、(B) 、Glx(Z) ,或某些残基从分析中完全被除去,为了在数据库每一个序列,规则系统基于不同的序列和查询的组成之间,计算出分数,这个的结果可以用e-mail答复,其中包含三个等级的列表:一个列表基于从记载从taxonomic class来的所有蛋白质,不用考虑pI 或蛋白质的分子量。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 26 页 - - - - - - - - - 3 一个列表基于所有的蛋白质,不管 taxonomic class ,不用考虑 pI 或蛋白质

8、的分子量。一个列表基于记载的taxonomic class但是要考虑pI 和蛋白质的分子量。因为计算的分数是不同的测定,分数为零暗只在查询组成按序列记载之间的有正确一致性。AACompSim ,它是 AACompldent 的变形,执行分析的类似型态,但是,与其利用实验上来的胺基酸组成作基本的组成搜寻,还不如用SWISS PORT protein的序列,在不同分数的计算用于 Compute pI MW 之前,理论上的pI 和分子量先被计算,它可以提供证据指出跨越种界线的胺基酸是可以很好的被保留下来,而且藉由考虑胺基酸的组成,研究员可以侦测蛋白质间的微弱相似性, (这些蛋白质序列falls be

9、low 25) ,因此,除了执行典型的数据库搜寻之外,组成的考虑可以提供暂蛋白质之间,提供额外的鉴识。PROPSEARCH 顺着像 AACompSim 的同路径, PROPSEARCH利用蛋白质的胺基酸组成,去侦测蛋白质之间微弱的关系,而且作者已经说明这个技术,可以简单地被用于去辨识相同protein family的成员, 然而,这个技术比具有144 个物理特性的AACompSim 来的费力, 而被用于分析其中包含分子量案大量残基的内含物厌水值和平均电荷,这个物理特性的搜集称为查询载体(query vector ) ,而且,在目标数据库中,先计算每一个相同型态载体可以被比较(SWISS POR

10、T和 PIR)这个载体的数据库的计算有利于促进查询的过程时间,输入 PROPSEARCH Web server可以查询序列,程序输猪的例子例如图11.1 这里 human autoantigen NOR-90的序列,被用于作输入的查询,这个结果可以藉由distance score被分类,然后这个score代表经由PROPSEARCH找到查询序列和新序列属于相同family可能性,因此,在多数的事件中暗示共同的功能, distance score为 10 或 10 以下,指出大于87的机会在两个蛋白质之间是有相似性的, 而这个分数低于于8.7 ,可增加可靠性达94,而分数低于7.5 则,可增加可

11、靠性达 99.6 ,这个结果的检查显示NOR-90 它和很多核仁转录因子、protein kinases、a retinoblastoma-binding protein、 the actin-binding protein radixin,和 RalBP1、假定的 GTPase target有相似性,一但这些蛋白质的功能不相似时,没有任何的hit需要被预期的;然而,这些大多数为DNA-binding protein,这些蛋白质可以打开相似domain 的可能性而被运用两者选一的功能上之状况,至少,BLASTP search 对于证明结果和确认critical residues是不可或缺的。名

12、师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 26 页 - - - - - - - - - 4 MOWSE The Molecular Weight Search(MOWSE)的运算法则,是利用mass spectrometric(MS )techniques所得到的讯息, 完整的蛋白质分子量和一些因用特殊的protease得到的相同蛋白质的分解物, 都可以一起使用,给予数个实验测定的结果,一个未知的蛋白质可以很清晰的被确认,一但未知蛋白质没有完整或部分被定序,这个方法大

13、致上可以缩减实验的时间。和经由试剂所产生的the resultant masses 以及 peptide的组成一样, The MOWSE Web front end 需要一开始序列的分子量和化学试剂的使用,a tolerance value可能被记载,指出在决定 the determined fragment massese的正确性中的错误许可,计算方式基于the OWL nonredudant protein sequence database中的讯息,得分基于如何在分子量给予范围内的蛋白质中,片段分子量的存在,而输出是回复分类列表顶端30 个分数,用OWL entry the name 、

14、相配的peptide序列和其它统计上的知识,simulation studies用 5 个或较少的输入 peptide重量可以产生99的正确率。PHYSICAL PROPERTIES BASED ON SEQUENCE Compute pI MW and ProtParam (ExPASy )Compute pI MW 这个工具可以计算输入序列的等电点和分子量,pI 的决定基于pK值,描述从中性到酸性pH 值的变性环境中,对于蛋白质迁徙的研究,因为这个原因,作者警告pI对于碱性蛋白质的测定是不正确的,分子量藉由在序列中,每一个胺基酸的平均isotopic mass 添加,再加上一个水分子,藉由

15、这些东西被计算出来,藉由FASTA格式化中的使用者、或 a SWISSPORT identifier、或加入数目,序列可以被供应而被记载,假如序列是被供给的,工具可以自动计算晚整的序列长度的pI 值和分子量,如果SWISS PORT identifier是被给予的, 进去的定义和生物路径是被显示出来的,而使用者可以详述胺基酸的范围,已至于计算在片段而不是在完整的蛋白质中被做出来,ProtParam 它是更进一步的过程,根据名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 2

16、6 页 - - - - - - - - - 5 输入的序列, ProtParam计算分子量、等电点、全部的胺基酸组成、理论上的estinction coefficeient、脂肪性索引、the protein s grand average of hydrophobicity(GRAVY )value ,和其它碱性的physicochemical parameters ,虽然这些似乎是非常简单的程序,某一个可以开始推测关于蛋白质在细胞得所在地,例如,具有高度比例的lysine和 arginine残基的一个碱性蛋白质,也许是一个DNA-binding protein。PeptideMass (E

17、xPASy )设计用于peptide mapping 的实验, PeptideMass在暴露于 protease ,或是化学试剂之后决定一个protein的分裂产物, PeptideMass中可用于裂解的酵素和试剂为trypsin,chymotrypisn, LysC, cyanogen bromite , ArgC, AspN, 和 GluC (bicarbonate或 phosphste ) ,在合成 peptide的分子量计算之前,Cystenines和 methionines可以被修饰,藉由供应一个 SWISS PORT identifier而不是过去一排的序列,PeptideMass

18、在 SWISS PORT 批注之内可以利用知识去促进计算,例如,在裂解之前,移除signal sequences,或是包含已知的 posttransnational modifications;在 tabular format中给予开始的protein理论上的 pI 值及分子量,然后从SWISS PORT来的变异中的the mass位置,被修饰的masses,以及 peptide片段的序列,其结果可以被回复。TGREASE TGREASE 顺着 protein的长度去计算它的厌水性,20 个胺基酸天生具有它的厌水性:酸性的胺基酸相对倾向于陷入蛋白质的核心中,而远离周围的水分子,这个连结ster

19、ic和其它considerstions的倾向,影响protein最终如何折迭成其最后的3D立体结构,和球状蛋白陷入区域之预测一样,TGREASE 在假定的transmembrane sequences 可以找到应用, TGREASE是从University of Virginia得到之部分的FASTA suite程序,和像a stand-alone application一样,可以被下载,而且可以跑Macintosh或 DOS-based computers 。此方法依赖于hydropathy scale ,每一个胺基酸基于很多的物理特性反应出其厌水数值(例如可溶性、经由蒸气态转移的自由能等等

20、),胺基酸伴随较高的正值为较厌水性的;较多负值的表示较亲水性,移动的平均值或是hydropathic index 可以穿过蛋白质而被计算,窗口的长度是可调整的, 大约 711 个残基的兼具, 推荐 minmize noise 和 masimize information content ,这个结果的hydropathic index对于 残基的数目然后去作图表, the human interleukin-8 receptor B的序列,被用来产生一个TGREASE 图表, 如图 11.2 显示 the peaks和 the traesmembrane segments 的实际位置间的一致性,

21、虽然不是正确的,不过非常的好,要牢记 在心 这个分 法, 因为 此方法 可以 预测 所有厌 水性 的区 域,不 只是 在这 些位于traesmembrane 区域而已, traesmembrane 区域的特殊侦测法,下面会更进一步讨论。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 26 页 - - - - - - - - - 6 SAPS The Statistical Analysis of Protein sequence(SAPS )运算法则对于任何给予查询的序列

22、提供广泛统计学上的知识,当一个protein序列经由the SAPS Web 接口,服务器对于蛋白质可以回复成大量的物理与化学讯息,只能根据从序列来的暗示,输出开始伴随组成的分析,和胺基酸的总计,这个因循着电荷散布的分析包含正电或负电的位置、高数值的电荷及非电荷的部分,和电荷的跑动,最后一部份和周期性分析一样,在高数值厌水性和traesmembrane 的部分显示出讯息、重复的结构和multiplets。MOTIFS AND PATTERNS 在第八章中,直接将序列比较的点子被呈现出来,那里的BLAST searches 在公开的数据库中与所要查询的序列类似可以执行去辨识序列;经常地, 这个直

23、接的比较也许不能产生想要的结果, 或是一点也不能产生任何的结果。然而, 有非常微弱的序列决定因素会呈现,来循着 query sequence去和序列的family结合,藉由相同的步骤,一个序列的family可以用来辨识相同protein family之新的且关系疏远的成员,这个的例子是PSI-BLAST(在第八章中讨论),在讨论利用这些的步骤的两种方法之前,多数的条件,必须被定义,首先是轮廓的观念,轮廓是十分简单,是一个多样sequence 排列的数目描写,大多像多数序列的排列,可从第九章讨论出的方法得来,嵌入含多数序列排列内是本身序列的讯息,它代表带有共有特征且特别搜集的序列,经常地为一个p

24、rotein family,藉由轮廓可以运用这些嵌入且共同特征, 可以找出序列间的相似性,而这些序列鲜少有或没有序列的一致性,要考虑到确认和疏远关系蛋白质的分析,藉由拿一个多数序列排列代表的protein family使轮廓被构成,并且问了一连串的问题:什么样的残基可以在排列位置中被看到吗?一个特殊的残基多常出现在排列的位置吗?名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 26 页 - - - - - - - - - 7 那里有可以显示完全保留的位置吗?缺口可以在排列的

25、任何地方被采用吗?一但这些问题被回答,a position-specific(PSST )是可以被建构,而且在作业平台中的数目,现在可以代表多数序列的排列,多数包含PSST反映出任何既定胺基酸发生在每个位置的机率,也可以在排列时的每个位置反映出保守的或非保守的交替的效应,大多像PAM或 BLOSUM matrix 就是,这个PSST现在可以用来比喻抵抗单独的序列,第二条件需要定义的是 pattern或 signature,这个 signature通常也表现出protein family的共同特征 (或一个多数序列的排列) ,但是,不能包含任何重要的讯息,无论它为了某个残基可以呈现在既定的位置而

26、简单地提供一套速记的记号,例如:the signature可以被读成下列形式:【IV】 G XGT【 LIVMF】 X( 2)【 GS 】 ,第一个位置包含不是isoleucine就是 valine ,第二个位置只有glycine等等, X 表示任何一个残基可以出现在这个位置,X (2)简单地意味两个位置可以被任何胺基酸占据,数字只是反映出没有专一性的跑动。ProfileScan 基于 the classic Gribskov method of profile analysis,ProfileScan利用一个方法称之 pfscan ,去找到一个蛋白质或核甘酸的query sequence和一

27、个 profile library间的相似之处,在这个事件有三个profile library可再搜寻时获得, 首先是 PROSIDE 为一个 ExPASy database ,可经由motif和序列轮廓的利用和patterns,将有生物学上有含意的位置去作成目录,第二个是Pfam,它是一个protein domain families的集中,与多数如此搜集方式在某个重要的观点上有所不同:protein domains 的开始排列,是藉由手完成的,而不是依赖自动照相机,本身地,Pfam 包含稍许超过500 entries,但是这个entries可能有很高的特性,第三个profile set意指

28、为 Gribskov collection。对于搜集的搜寻,可以经由ProfileScan Web page去完成,它需要的不是在plain text format中输入的序列就是identifier,如 SWSS-PROT ID ,使用者可以选择搜寻的敏感度,回复只有重要的配对,或是所有的配对,其中包含一些不明确的案件,为了要解释输出的格式化, 人类 heat-shock-induced protein的序列被送至服务器而只有准备PROSITE profiles的搜寻。Normailized raw from- to ProfileDescription 355.9801 41556 pos

29、. 6- 612 PF00012HSP70 Heat shock hsp70 proteins 虽然实际的PROSITE entry的回复,没有很大的惊奇,输出包含值得去理解的分数,未加以修饰的分数是实际的分数从搜寻期间scoring matrix而来的计算,较多讯息的数目是标准化或是N-score , N-score正式地代表配对的数目,此配对的数目在给予大小的database中被预期,在上述的例子中355 的 N-score 译成 1.94 10-349期待机会配对,from 和 to 的数字简单地显示query 和 matching 的轮廓之间重复的位置。BLOCKS BLOCKS 数据

30、库利用阻碍物的观念去辨识一个蛋白质family ,而不是依赖它们个体本身的序列,阻碍物的想法来自motif较亲密的概念, 通常起因于胺基酸的保存扩张,而此胺基酸可以给予蛋白质其功能或是结构,当这些个体motif来自于相同family中的蛋白质,其不需名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 26 页 - - - - - - - - - 8 要引入裂缝而被排列时,结果是个阻碍物,而此”阻碍物”字义起因于排列,而不是他们本身序列的问题; 明显地, 一个个体protein

31、可以含有或多个阻碍物,且与它功能上以及结构上的 motif一致。BLOCKS 数据库可以从PROSITE中进入,当利用所要的序列去完成BLOCKS 的搜寻时, query sequence 在数据库中所有可能的位置其排列不利于所有的阻碍物,为了每一个排列,分数的计算利用position-sepcific scoring matrix,而且最好配对结果回到使用者身上,搜寻可以随意地抵抗PRINTS数据库去执行, 其中包含超过300 family的讯息不能进入BLOCKS数据库,为了保证完整的适用范围,它建议两种数据库都该被搜寻。BLOCKS 搜寻可利用在西雅图内的the Fred Hutchin

32、son Cancer Research Center 中的 BLOCKS Web site可以被执行,the Web site是容易的,允许用sequence 或是关键词去执行,假如DNA sequence 是用来作输入,使用者可以记载基因密码的使用和strand的搜寻,不管查询是否经由序列或是经由关键词去执行,一个成功的搜寻将会回到到适当阻碍物,例如图11.3 ,在这个entry (一个 nuclear hormone receptor称作 steroid finger) ,它的首项按照顺序标示着ID、AC和 DE ,藉由 block family的简短叙述、BLOCKS 数据库加入的数字和

33、family的较长叙述而被描写出来,Blline给予关于原始序列motife的讯息,使motife可以用来建构独特的block ,宽度和seqs 参数显示出block有多广泛,在一些残基中,和有多少的序列在block 中,一些讯息循着关于统计学上的正确和结构的强度,最后, 一个列表的序列被呈现, 显示出只有部分的序列和它独特的motife有一致, 每一条 line会在序列上伴随着加入SWSS-PROT 的数字,第一个残基的数字显示基于完整的序列、序列本身,和position-based序列的重量,这些只可以用来制作成图,伴随着100 个描写中的序列,而此序列相较其它的group 为最远的,注意

34、blank lines在一些序列之间,部分完全的排列是群集的而且在每一团有80序列残基是相同的。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 26 页 - - - - - - - - - 9 CDD 近来, NCBI提供一个新的搜寻服务,目的在辨认含有蛋白质序列内保留的domain,这些搜寻的来源数据库称为the Conserved Domain Database 或 CDD , 这是第二数据库, 会得到 Pfam和 SMART (Simple Modular Arch

35、itecture Research Tool) ,SMART 可用来辨识遗传学上的domain 和分析 domain 的结构,它会在第15 章比较基因体学中详细的比较,实际的搜寻利用 reverse position-specific BLAST (RPS-BLAST )而被执行,RPS-BLAST利用查询序列去搜寻一个计算过的PSSTs的数据库。CDD接口是简单的,为了输入的序列(两者选一的,加入数字可以被记载),它提供一个盒子,并且为了选择目标数据库,而拉下明细表,假如保存的domains 在输入序列内被确认,以文字图案显示每个保留domain 的位置,依循藉由查询实际排列至目标domai

36、n,而由RPS-BLAST所产生的,在这些排列中,the default view 显示出相同的残基是红色的,假如所保留 被替 代则成 蓝色 的, 使用者 也可 以从 牛血中 的变 异作 选择, 其中 包含 典型的BLAST-style alignment display,Hyperlinks可以退回到源头的数据库,提供更多的讯息在独特的 domain,这个“ CD Summary ” page 优先给予源头数据库讯息、参考数据、分类单位和在这群中具有代表性的序列,这个page 比较低的部分中,使用者可以从这一群中建构想要的序列排列, 两者选其一地, 使用者可以容许计算机去选择高等级的序列或序

37、列的子集合,这些在这群内很有分歧,如果 3D结构和 CD相符合可以被获得的话,它可以直接用Cn3D看见,在CD连结可以进入CD Summary page,本质上地,从开始整个过程不断的重复,运用序列去执行新的RPS-BLAST搜寻来对抗CDD 。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 26 页 - - - - - - - - - 10 SECONDARY STRUCTURE AND FOLDING CLASSES 在未知功能新发现的蛋白质或基因产物中,第一个步骤是

38、执行BLAST或其它相似的搜寻来对抗公开化的数据库,然而这些搜寻不能产生相符合的已知蛋白质;如果有统计学上的意义,在序列纪录关于蛋白质二级的结构也许没任何讯息,讯息在生化实验的合理设计中非常重要,缺乏已知的讯息,必须有方法去预测序列行成-helices及 -strand的能力, 这个方法依赖于观察一群的蛋白质,而此蛋白质的3D结构由实验上决定,二级结构和折迭类型的简洁回顾,这他们本身的技术之前已经讨论过了,暗示有厌水性side chain胺基酸的重要数字, 那里主要的chain 或是骨架是亲水性的,这两个相反力之间是平衡的,可经由描述二级结构元素的组成而被达成,首先描述的是Linus Paul

39、ing and colleagues in 1951, -helices是一个螺旋状的结构, 主要德 chain 形成骨架,而胺基酸的 side chain 则朝向 helix的外面,骨架可藉由每个胺基酸的CO group 和残基四个位置的C-端( n+4)之 NH group 所形成的氢键来稳定,进而产生一个紧密、棒状的结构,一些的残基对于形成-helices比其它来的要好,alanine 、 glutamine 、leucine ,和 methionine通常可以在 -helices中找到,而 proline、 glycine、 tyrosine, 和 serine通常是找不到的, pro

40、line通常视为helix的破坏者,因为它大量的环状结构会破坏n+4 氢键的形成。相反的, -strand为一个非常延伸的结构其稳定作用经由一个或多个邻近的-strand结合,而不是在此二级结构中形成氢键,经由这些个别的-strand之间的交互作用所形成的完整结构称之为-pleated sheet,这些 sheets 可以平行或是反向平行,依赖于每个组成的-strand其 N-端和 C-端的方向, -sheet的变形为 -turn ; 在此结构中, polypeptide链制造出一个尖的,如发夹弯曲,并且在次过程中产生反向平行 -sheet 。在 1976 年,Levitt和 Chothia

41、提出一个分类系统,其基于蛋白质内的二级结构要素,十分简单地,-structure初期是由 -helices所形成的, 而-structure初期是由 -strand所形成的, Myoglobin为一个 -helices所组成蛋白质的典型例子,Plastocyanin是一个class的很好例子, 氢键在八个 -strand间形成一个致密且为桶状的结构;结合的类型,/ ,为先前的 -strand交替着 -helices所组成的, Flavodoxin为/ 的一个好例子,其中间为 -strand构成的中心,而周围是-helices。从线形的初级的序列来预测正确二级结构的方式可以广泛利用neural

42、networks ,其利用模式和倾向所作的分析, 主要地,neural networks提供一个计算的过程, 每个 neural networks有输入层和输出层,在二级结构的预测事件中,输入层为从本身序列来的讯息,而输出层为独特的残基是否可以形成特殊的结构的机率,在输入层和输出层之间有一个或是数个隐藏层,实际的学习就是在那里发生的,这可以藉由网络提供一个训练用的数据而去完成,这里,适当的训练,则所有的序列之三度空间结构可以被推论出来,network 可以处理讯息而找到胺基酸序列和结构可能的微弱关系,而可以形成一个特殊的背景,更多完整的neural networks 应用于二级结构的预测,可以

43、在Kneller等中找到。nnpredict nnpredict的运算规则是利用两层、feed-forward neural network去分配每个残基的预测型态,在做预测中,和蛋白质的folding class一样( ,或是 / ) ,服务器可利用FASTA format和序列在单字母或是三字母中的密码,残基被分类为在-helix(H) , 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 26 页 - - - - - - - - - 11 -strand(E) ,或

44、是都没有,如果没有预测可以作为记载,那一个question mark(?)可以被回复去指出工作无法执行,如果没有关于folding class讯息可以利用,预测可以在没有被记载的folding class而去做;这为default,为了 best-case预测, nnpredict的正确率在报告中超过65% 。可以藉由送电子邮件留言到nnpredictceleste.ucsf.edu或是藉由Web-based 将序列送到nnpredict,用 flavodoxin当做例子,电子邮件留言的格式化举例如下:option :a/b flavodoxin Anacystis nidulans Pred

45、ictProtein AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL PredictProteinPredictProtein用少许不同的方法去做预测,首先蛋白质序列在SWISS-PROT 中查询找到相似的序列,当相似的序列被找到,称为MaxHom 的运算法则可以用来产生profile-based多数序

46、列的排列:在SWISS-PROT 的首先搜寻之后,全部找到的序列用查询序列和轮廓的计算来排列,轮廓被再次用来搜寻SWISS-PROT 去设至于新的、配对的序列,MaxHom 所产生的多数排列藉由PHD的方式供给到neural network去做预测, PHDsec ,可以用来作为预测二级结构的方法, 不分派每一个残基到二级结构的类型中,而且在序列上的每一个位置中,提出统计学上的数值去指出预测的信用程度,这个方法产生平均的正确性大于72% ,最好的残基预测有超过90% 的正确性,可以藉由送电子邮件或是利用Web front end将序列送至PredictProtein,多数送出去的序列是 能利用

47、 的,查 询序 列要当 作单 一字母 的胺基 酸密 码或是 藉由 它的SWISS-PROT identifier而被送出去,此外,在FASTA format中的多数序列排列或是如PIR 排列可以因二级结构的预测而被送出去。输入的留言,寄至predictproteinembl-heidelberg.de,如下列的型式:Joe Buzzcut National Human Genome Research Institute, NIH buzzcutbaldguys.org do NOT align FASTA list homeodomain protein ANTP -KRGRQTYTRYQTL

48、ELEKEFHFNRYLTRRRRIEIAHALSLTERQIKIWFQNRRMKWKK HDD MDEKRPRTAFSSEQLARLKREFNENRYLTERRRQQLSSELGLNEAQIKIWFQNKRAKIKK DLX -KIRKPRTIYSSLQLQALNHRFQQTQYLALPERAELAASLGLTQTQVKIWFQNKRSKFKK FTT 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 26 页 - - - - - - - - - 12 -RKRRVLF

49、SQAQVYELERRFKQQKYLSAAPEREHLASMIHLTPTQVKIWFQNHRYKMKR Pax6 -LQRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQVWFSNRRAKWRR 上面是 homeodomain 蛋白质为了要做二级结构预测的FASTA-formatted多数序列排列之例子,在名字、 affiliation和住址后, #字的讯号至服务器其序列为一连串单一字母的密码,为了这个的排列,必须一开始有#字的讯号可以防止不会再重新排列,用电子邮件的方式将输出寄出需要大量适切的讯息,从ftp site中结果可以藉由开始有#字的讯号之前,添

50、加不能回信的限制者而被恢复,这对于这些电子邮件的服务器是个有用的特征,而此电子邮件不能处理大量的输出档案,输出档案的格式化可以是有或无的PHD文字图形的plain text或是 HTML档案。MaxHom搜寻的结果可以被回复,多数的排列可以用于更进一步的研究,如profile搜寻或是 phylogenetic studies,如果送出的序列在PDB 中有了相同已知的相同物,这个PDB identifier会被供给,在最近的释放中,输出也可以藉由记载可利用的选择而被定做,PredictProtein回复预测的可靠性之范围为0 到 9,9 为对于此二级结构的最大信用程度,也就是说此二级结构排列是正

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com