生物信息学的算法.ppt-得力文库

资源描述

《生物信息学的算法.ppt》由会员分享，可在线阅读，更多相关《生物信息学的算法.ppt（30页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、生物信息学方法简介（以下讲义来自北京大学生物信息中心）,1生物信息学研究方法概述,1.1生物信息学研究的三个层面,初级层面中级层面高级层面,初级层面基于现有的生物信息数据库和资源，利用成熟的生物信息学工具（专业网站、软件）解决生物信息学问题生物信息数据库（NCBI、EBI等）基因组序列分析、序列比对软件（GCG、BLAST、CLUSTAL等）系统发育树构造软件（PHYLIP、PALM、MEGA等）分子动力学模拟软件（GROMACS、NAMD等）搜集、整理有特色的生物信息学数据集,中级层面利用数值计算方法、数理统计方法和相关的工具，研究生物信息学问题概率、数理统计基础科学计算基础现有的数理统计和

2、科学计算工具（EXCEL、SPSS、SAS、MATLAB等）建立有特色的生物信息学数据库,高级层面提出有重要意义的生物信息学问题；自主创新，发展新型方法，开发新型工具，引领生物信息学领域研究方向。面向生物学领域，解决生物学问题数学、物理、化学、计算科学等思想和方法建立模型，发展算法自行编程，开发软件，建立网页（Linux系统、C/C+、PERL、数据库技术）,从事生物信息学研究应具备多方面的科学基础：（1）、一定的计算能力，包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统；（2）、强有力的创新算法和软件。没有算法创新，生物信息学就无

3、法获得持续的发展；（3）、与实验科学，特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术，既是产生生物信息数据的主要方法，又是验证生物信息学研究结果的关键手段。从事生物信息学研究的人员必须具备多学科交叉的知识。,1.2生物信息学的“降龙十八掌”,第一式见龙在田,（1）要掌握生物信息数据库及其查询搜索方法(Database&searching),对分子生物信息数据库的种类以及某些具体数据库的掌握和了解从现有数据库中熟练获得需要的数据信息（尤其是二级数据库）能熟练地进行数据库查询和数据库搜索（数据库查询系统Entrez、SRS；搜索工具BLAST等）数据库技术、互

4、联网技术,第二式飞龙在天,（2）要学会生物信息学软件和工具的应用(Software&application),利用成熟的生物信息学工具（专业网站、软件）解决生物信息学问题基因组序列分析、序列比对软件（GCG、BLAST、CLUSTAL等）系统发育树构造软件（PHYLIP、PALM等）基因芯片检测分析软件（商业软件ScanArray、Array-Pro等）分子动力学模拟软件（GROMACS、NAMD等）,第三式鸿渐于陆,（3）概率论基础(Probabilitytheory),随机事件、概率随机变量、概率分布大数定律、中心极限定理几乎用于生物信息学的各个方面,“Mostoftheproblemsi

5、ncomputationalsequenceanalysisareessentiallystatistical.”“Biologicalsequenceanalysis”,第四式或跃在渊,（4）数理统计基础(Statisticalmethods),样本和统计量（方差、均值）参数估计、假设检验基本的统计分析（方差分析、协方差分析、回归分析）常用统计软件的运用（SPSS、SAS）几乎用于生物信息学的各个方面,第五式羚羊触藩,（5）基于频率的组分分析方法和权重矩阵方法(Compositionanalysis&weightmatrixmethod),符号（如碱基）频率反映具有生物学意义的序列特征，如内

6、含子剪接位点的发现，KOZAK规则的发现等核酸组分、氨基酸组分、密码子使用频率主要用于具有特定生物学意义的序列特征的分析,权重矩阵分析方法举例,针对序列信号（一段核酸、蛋白），计算每一位点所使用的词汇或叫符号（碱基、氨基酸）频率，频率的偏好性反映信号的序列特征（sequencepattern）。,例：人类基因内含子/外显子剪接位点的序列特征分析,Bayesian打分函数用于剪接位点预测的公式,Thelikelihoodthatapropertyvaluev(ofanewstructure)isdrawnfromthesplicingsiteis:,Scorefortheoveralllikel

7、ihoodofthequerysequencebeingasiteis:,SaywehaveasequenceS=S1S2Sn.Thenoneneedtocalculate,Sotolookforadonorsiteinthesequence,wemightcalculate,第六式潜龙勿用,（6）信息论方法(Informationmethod),信息熵,信息的度量：是信息符号出现何种状态的一种不确定性程度，信息的获得要对不确定性进行否定。生物信息的符号如ACGT四种符号，状态空间即其所有可能的排列用于结构预测,信息熵H刻画了由pi表示的随机试验结果的先验不确定性，或观察到输出时所获得的信息量

8、。,第七式利涉大川,（7）期望最大化（EM）方法(ExpectationMaximization),EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。适用于具有隐变量的模型和问题，用于结构的识别，如Motif识别的MEME方法、HMM中的Baum-Welch算法,第八式神龙摆尾,（8）动态规划方法(DynamicProgramming),一种常用的多阶段决策的寻优算法动态规划用得最多的方面是DNA序列或者蛋白质序列比对,第九式密云不雨,（9）迭代方法(Iteration),迭代的目的通常是在状态空间找到目标函数收敛的稳定解在运用模式识别方法时，对系统参数的学习通常要经过迭

9、代来实现迭代必须能够不断逼近稳定解用于上述某些方法的方法,第十式突如其来,（10）回归、拟合、相关性分析、关联分析(Regression,fitting,correlation&association),经典的统计分析方法主要目的：描述和预测自变量与因变量间的关系用于上述某些方法的方法,第十一式双龙取水,（11）判别分析方法(Discriminantanalysis),用于判别样品所属类型的统计分析方法条件：已知研究对象总体的类别数目及其特征（如：分布规律，或各类的训练样本）目的：判断未知类别的样本的归属类别用于基因识别、医学诊断、人类考古学,第十二式鱼跃于渊,（12）聚类分析方法(Clust

10、eringmethod),聚类分析（群分析）是实用多元统计分析的一个新分支，正处于发展阶段。理论上尚未完善，但应用十分广泛。实质上是一种分类问题，目的是建立一种分类方法，将一批数据按照特征的亲疏、相似程度进行分类。条件：研究对象总体的类别数目未知，也不知总体样本的具体分类情况目的：通过分析，选定描述个体相似程度的统计量、确定总体分类数目、建立分类方法；对研究对象给出合理的分类。(“物以类聚”是聚类分析的基本出发点),定性、经验的分类的局限分类较粗、数据量小、凭借经验谱系聚类法（系统聚类法）、动态聚类法、模糊聚类法生物信息学中的聚类分析问题：根据DNA芯片获得的基因表达数据进行基因聚类（数据量庞

11、大）蛋白质相互作用网络的分类根据不同物种的大分子序列进行相似性比较并构建系统发育树,黑猩猩,猩猩,猿猴,第十三式震惊百里,（13）Markov模型的应用(Markovmodel),Markov过程：从一种状态转移到另一种状态时，过程仅取决于前面n种状态，是一种有序n模型。n是影响下一个状态选择的状态数。最简单的Markov过程是一阶过程，状态的选择完全取决于前一状态，这种选择是依照概率来选择的。状态的选择是概率的，而非确定的。故Markov过程本质上是一种随机过程。,第十四式损则有孚,（14）隐Markov模型方法(HMMmethod),将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编

12、码部分在核苷酸的选用频率上对应着不同的Markov模型。由于这些Markov,模型的统计规律是未知的，而HMM能够自动寻找出它们隐藏的统计规律。对于高等生物这样复杂的DNA序列，HMM必须学习不同的基因结构的信号。,隐Markov模型(HMM),语音识别(Speechrecognition),光字符识别(Opticalcharacterrecognition),生物序列分析(Biologicalsequenceanalysis),（1）序列比较与搜寻（尤其是多序列比对）（2）基因及信号的识别、预测（包括DNA编码与非编码区的识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识别

13、）（3）蛋白质二级结构、家族、超家族预测、分类等,生物特征识别(Biometrics),第十五式时乘六龙,（15）感知器与人工神经网络方法(Perceptron&ANNmethod),计算机人工神经网络是对大脑神经网络的模拟，在生物信息学研究中，无论是基因识别还是蛋白质结构预测，神经网络都取得了比其它方法更为准确的结果。,第十六式龙战于野,（16）决策树、支持向量机及其它模式识别方法(Decisiontree&SVMmethod),模式识别是在输入样本中寻找特征并识别对象的一种方法。模式识别主要有两种方法，一种是根据统计特征进行识别，另一种是根据对象的结构特征进行识别，而后者常用的方法为句法识

14、别。在基因识别中，对于DNA序列上的功能位点和特征信号的识别都需要用到模式识别。,第十七式履霜冰至,（17）微分方程的数值方法(Numericalmethods),分子动力学模拟：研究生物大分子的构象，主要还是用基于半经验势函数的分子动力学方法，而量子力学则在确定势函数的参数和研究局部性质时起作用。对蛋白质进行动力学研究是利用计算机进行模拟实验的基础。分子动力学得到一组动力学微分方程，要求得到初值问题的解。微分方程的数值求解：有限差分法、有限元法,十七式合一亢龙有悔,（18）最终要诀：各类方法综合运用Allinone!,综合运用不同的研究方法始终面向生物学问题知识和技能的学习方法文献的查阅和阅读方法中、英文论文的写作方法,

展开阅读全文