多元统计分析精.ppt-得力文库

资源描述

《多元统计分析精.ppt》由会员分享，可在线阅读，更多相关《多元统计分析精.ppt（46页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、多元统计分析第1页，本讲稿共46页1问题引入问题引入2思路点思路点拨拨3判判别别分析方法分析方法4DNA序列分序列分类问题类问题的求解的求解5.参参考文考文献献目目录录第2页，本讲稿共46页首先，我首先，我们们来来考考虑虑一下一下2000年年“网网易杯易杯”全全国国大大学学生生数学数学建模建模竞赛竞赛的的A题题是是关关于于“DNA序列分序列分类类”的的问题问题 1问题问题引入引入第3页，本讲稿共46页人类基因组中的人类基因组中的DNA全序列是由全序列是由4个碱基个碱基A，T，C，G按一定顺序排成的长约按一定顺序排成的长约30亿的序列，毫亿的序列，毫无疑问，这是一本记录着人类自身生老病死及

2、无疑问，这是一本记录着人类自身生老病死及遗传进化的全部信息的遗传进化的全部信息的“天书天书”。但是，除了。但是，除了这四种碱基外，人们对它所包含的内容知之甚这四种碱基外，人们对它所包含的内容知之甚少，如何破译这部少，如何破译这部“天书天书”是二十一世纪最重是二十一世纪最重要的任务之一。在这个目标中，研究要的任务之一。在这个目标中，研究DNA全序列全序列具有什么结构，由这具有什么结构，由这4个字符排成的看似随机的个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学（基础，是生物信息学（Bioinformatics）最重要）最重要

3、的课题之一。的课题之一。第4页，本讲稿共46页虽然人类对这部虽然人类对这部“天书天书”知之甚少，但也发现了知之甚少，但也发现了DNA序列中的一些规律性和结构。例如，在全序列序列中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的个字符组成的64种不同的种不同的3字符串，其中大多数用字符串，其中大多数用于编码构成蛋白质的于编码构成蛋白质的20种氨基酸。又例如，在不种氨基酸。又例如，在不用于编码蛋白质的序列片段中，用于编码蛋白质的序列片段中，A和和T的含量特别的含量特别多些，于是以某些碱基特别丰富作为特征去研究多些，

4、于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，等等。这些发现让人们相信，DNA序列中存在着局序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。全序列是十分有意义的。第5页，本讲稿共46页作为研究作为研究DNA序列的结构的尝试，试对以下序列进行分序列的结构的尝试，试对以下序列进行分类：类：问题一：下面有问题一：下面有20个已知类别

5、的人工制造的序列（见附个已知类别的人工制造的序列（见附件件1），其中序列标号），其中序列标号110 为为A类，类，11-20为为B类。请从类。请从中提取特征，构造分类方法，并用这些已知类别的序列，中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，衡量你的方法是否足够好。然后用你认为满意的方法，对另外对另外20个未标明类别的人工序列（标号个未标明类别的人工序列（标号2140）进行）进行分类，把结果用序号（按从小到大的顺序）标明它们的分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）：类别（无法分类的不写入）：A类类；B类类

6、。第6页，本讲稿共46页问题二：请对问题二：请对 182个自然个自然DNA序列序列（http:/ 问题的问题的本本质质对另外对另外20个未标明类别的个未标明类别的DNA序列进行分类序列进行分类根据根据所给所给的的20个已个已知类知类别的别的DNA序列序列所提所提供的供的信息信息对对182个自然个自然DNA序序列进行分类列进行分类第8页，本讲稿共46页如果将每一个如果将每一个DNADNA序列都看作样本，那么该序列都看作样本，那么该问题就进一步提炼成一个纯粹的数学问题：问题就进一步提炼成一个纯粹的数学问题：设有两个总体（类）设有两个总体（类）和和，其分布其分布特征（来自各个总体的样本）

7、已知，对给定特征（来自各个总体的样本）已知，对给定的新品的新品，我们需要判断其属于哪个总，我们需要判断其属于哪个总体（类）。体（类）。对于上面的数学问题，可以用很多成熟对于上面的数学问题，可以用很多成熟的方法来解决，例如：的方法来解决，例如：（1 1）BPBP神经网络；神经网络；（2 2）聚类分析；）聚类分析；（3 3）判别分析；等等。）判别分析；等等。第9页，本讲稿共46页如何选取方法是建模过程中需要解决的另外一个问如何选取方法是建模过程中需要解决的另外一个问题：题：BPBP神经网络是人工神经网络的一种，它通过对训练神经网络是人工神经网络的一种，它通过对训练样本的学习，提取样本的隐含信息

8、，进而对新样本的类样本的学习，提取样本的隐含信息，进而对新样本的类别进行预测。别进行预测。BPBP神经网络可以用以解决上面的神经网络可以用以解决上面的DNADNA序列序列分类问题，但是，如何提取特征、如何提高网络的训练分类问题，但是，如何提取特征、如何提高网络的训练效率、如何提高网络的容错能力、如何建立网络结构是效率、如何提高网络的容错能力、如何建立网络结构是能否成功解决能否成功解决DNADNA序列分类问题的关键所在；聚类分析序列分类问题的关键所在；聚类分析和判别分析都是多元统计分析中的经典方法，都可以用和判别分析都是多元统计分析中的经典方法，都可以用来将对象（或观测值）分成不同的集合或类别，

9、但是，来将对象（或观测值）分成不同的集合或类别，但是，聚类分析更侧重于聚类分析更侧重于“探索探索”对象（或观测值）的自然分对象（或观测值）的自然分组方式，而判别分析则侧重于将未知类别的对象（或观组方式，而判别分析则侧重于将未知类别的对象（或观测值）测值）“归结归结”（或者说，分配）到已知类别中。显然，（或者说，分配）到已知类别中。显然，判别分析更适合用来解决上面的判别分析更适合用来解决上面的DNADNA序列分类问题。序列分类问题。第10页，本讲稿共46页3判判别别分析方法分析方法判别分析是用于判别样品所属类别的一种多元统计判别分析是用于判别样品所属类别的一种多元统计分析方法。判别分析问题都可

10、以这样描述：设有分析方法。判别分析问题都可以这样描述：设有个个维的总体维的总体，其分布特征已知（如已知分布函，其分布特征已知（如已知分布函数分别为数分别为或者已知来自各个总体的样本），或者已知来自各个总体的样本），对给定的一个新样品对给定的一个新样品，我们需要判断其属于哪个总体。，我们需要判断其属于哪个总体。一般来说，根据判别规则的不同，可以得到不同的判别一般来说，根据判别规则的不同，可以得到不同的判别方法方法，例如，距离判别、贝叶斯（，例如，距离判别、贝叶斯（Bayes）判别、费希）判别、费希尔（尔（Fisher）判别、逐步判别、序贯判别等。这里，我）判别、逐步判别、序贯判别等。这

11、里，我们简单介绍三个常用的判别方法：距离判别、贝叶斯们简单介绍三个常用的判别方法：距离判别、贝叶斯（Bayes）判别和费希尔（）判别和费希尔（Fisher）判别。）判别。第11页，本讲稿共46页判判别别分分析析方方法法1.1.距离判距离判别别2.2.贝贝叶斯（叶斯（BayesBayes）判）判别别3.3.费费希尔（希尔（FisherFisher）判）判别别4.4.判判别别分析模型的分析模型的显显著性著性检验检验第12页，本讲稿共46页3.1 距离判距离判别别距离判别的基本思想：样品距离判别的基本思想：样品 X X离离哪个总体的距离最近，就判断哪个总体的距离最近，就判断 X X

12、属于哪个总体。属于哪个总体。这里的这里的“距离距离”是通常意义下的距离是通常意义下的距离（欧几里得距离：在（欧几里得距离：在 m m 维欧几里得空间维欧几里得空间 R R 中，两点中，两点与与的欧几里得距离，也就是通常的欧几里得距离，也就是通常我们所说的距离为我们所说的距离为）吗？）吗？带着这个疑问，我们来考虑这样一个带着这个疑问，我们来考虑这样一个问题问题：第13页，本讲稿共46页设有两个正态总体设有两个正态总体，和和，现在有一个新的样品位于现在有一个新的样品位于 A A 处（参见图处（参见图1 1）从图中不难看出：从图中不难看出：，是否，是否 A A 处的样品属处的样品属于总

13、体于总体呢？呢？图图 1第14页，本讲稿共46页显然不是，因为从概率的角度来看，总显然不是，因为从概率的角度来看，总体体的样本比较分散，而总体的样本比较分散，而总体的样本则的样本则非常集中，因此非常集中，因此处的样品属于总体处的样品属于总体的的概率明显大于属于总体概率明显大于属于总体的概率，也就是的概率，也就是说，说，处的样品属于总体处的样品属于总体的的“可能性可能性”明明显大于属于总体显大于属于总体的的“可能性可能性”！这也说！这也说明了用欧几里得距离来度量样品到总体距明了用欧几里得距离来度量样品到总体距离的局限性。因此，需要引入新的距离概离的局限性。因此，需要引入新的距离

14、概念念这就是下面给出的马氏距离。这就是下面给出的马氏距离。第15页，本讲稿共46页定义定义1 1（马氏距离）：设总体（马氏距离）：设总体 G 为为 m 维总体维总体（m m 个因素或指标），其均值向量个因素或指标），其均值向量为为（这里（这里 T T 表示转置），协表示转置），协方差阵为方差阵为，则样品，则样品到总体到总体 G G 的的马氏距离定义为马氏距离定义为第16页，本讲稿共46页3.1.1 3.1.1 两总体的距离判别两总体的距离判别先考虑两个总体（先考虑两个总体（）的情况。设有两）的情况。设有两个总体个总体和和 ,和和分别是分别是和和的协方差阵，的协方差阵，和和分

15、别是分别是和和的均值。对于新的样品的均值。对于新的样品，需，需要判断它来自那个总体。要判断它来自那个总体。设来自设来自（）的训练样本为）的训练样本为其中其中表示来自哪个总体，表示来自哪个总体，表表示来自总体示来自总体的样本量。的样本量。第17页，本讲稿共46页要判断新样品要判断新样品来自哪个总体，一般的想法是分别计来自哪个总体，一般的想法是分别计算新样品到两个总体的马氏距离算新样品到两个总体的马氏距离和和：如果如果则判定则判定；反之，如果反之，如果则判定则判定：即即（1 1）A.A.时的判别方法时的判别方法第18页，本讲稿共46页其中其中，记记为了得到更简单的判

16、别规则，我们下面计为了得到更简单的判别规则，我们下面计算新样品到两个总体的马氏距离算新样品到两个总体的马氏距离和和的差的差第19页，本讲稿共46页显然，判别规则（显然，判别规则（1 1）式等价于）式等价于（2 2）通常，称通常，称为判别系数向量称为判别系数向量称为线性判别函数。为线性判别函数。注意判别准则（注意判别准则（1 1）式或者（）式或者（2 2）式将）式将维空间维空间划分成两部分：划分成两部分：和和也即也即。距离判别的实质就是：给出空间。距离判别的实质就是：给出空间的的一个划分一个划分和和，如果样品，如果样品落入落入之中，则判定之中，则判定；如；如果样品果

17、样品落入落入之中，则判定之中，则判定。第20页，本讲稿共46页当当时，根据判别准则（时，根据判别准则（1 1）式，我们同样）式，我们同样的给出判别函数的给出判别函数为为相应的判别规则为相应的判别规则为（3 3）B.B.时的判别方法时的判别方法第21页，本讲稿共46页在实际应用中，总体的均值和协方差阵一般是未在实际应用中，总体的均值和协方差阵一般是未知的，我们所知道的仅仅是一组样本或者观测值，知的，我们所知道的仅仅是一组样本或者观测值，在这种情况下，就需要利用数理统计的知识，对在这种情况下，就需要利用数理统计的知识，对进行估计。进行估计。利用已知样本，易得利用已知样本，易得的

18、无偏估计分别的无偏估计分别为为C.C.的估计的估计第22页，本讲稿共46页对于多个总体的情况，可以类似于两个总体的处理过对于多个总体的情况，可以类似于两个总体的处理过程，我们给出如下的步骤：程，我们给出如下的步骤：第一步：计算样品第一步：计算样品到每个总体的马氏距离到每个总体的马氏距离；第二步：比较第二步：比较的大小，将样品的大小，将样品判为距离最小的那个总体。判为距离最小的那个总体。如果均值为：如果均值为：和协方差：和协方差：未知，可以类似两个总体的情形运用训练样本来进行未知，可以类似两个总体的情形运用训练样本来进行估计。这里不再赘述。估计。这里不再赘述。3.1.2 多多总总体的

19、距离判体的距离判别别第23页，本讲稿共46页3.1.3 3.1.3 距离判别的不足距离判别的不足距离判别方法简单实用，容易实现，并且结论的距离判别方法简单实用，容易实现，并且结论的意义明确。但是，距离判别没有考虑：意义明确。但是，距离判别没有考虑：（1 1）各总体本身出现的可能性在距离判别中没）各总体本身出现的可能性在距离判别中没有考虑；有考虑；（2 2）错判造成的损失在距离判别中也没有考虑。）错判造成的损失在距离判别中也没有考虑。在很多情况下，不考虑上面的两种因素是不合理在很多情况下，不考虑上面的两种因素是不合理的。贝叶斯（的。贝叶斯（BayesBayes）判别方法克服了距离判别的不）判别

20、方法克服了距离判别的不足。足。第24页，本讲稿共46页与前面距离判别方法不同的是：所谓贝叶与前面距离判别方法不同的是：所谓贝叶斯（斯（BayesBayes）判别，就是在考虑各总体的）判别，就是在考虑各总体的先验概率和错判损失的情况下，给出空间先验概率和错判损失的情况下，给出空间的一个划分：的一个划分：，使得运用此划分来判别归类时，所带来的使得运用此划分来判别归类时，所带来的平均错判损失最小。平均错判损失最小。3.2 贝贝叶斯判叶斯判别别第25页，本讲稿共46页贝叶斯（贝叶斯（BayesBayes）判别问题的数学描述为：设有）判别问题的数学描述为：设有个个维的总体维的总体，其密度函数分别

21、为，其密度函数分别为，若已知这若已知这个总体各自出现的概率（先验概率）为个总体各自出现的概率（先验概率）为（，且，且），假设已知将本来），假设已知将本来属于总体属于总体的样品错判为总体的样品错判为总体所造成的损失为所造成的损失为。在这样的情形下，对于新的样品在这样的情形下，对于新的样品，需要判断它来，需要判断它来自那个总体。自那个总体。为了给出贝叶斯（为了给出贝叶斯（BayesBayes）判别准则，我们从下面）判别准则，我们从下面几个方面来讨论：几个方面来讨论：第26页，本讲稿共46页先验概率表示对各总体的先知认识，或者说，事先验概率表示对各总体的先知认识，或者说，事先对所研

22、究的问题所具有的认识。一般来说，先先对所研究的问题所具有的认识。一般来说，先验概率并不容易获得，其更多的来自于长期累积验概率并不容易获得，其更多的来自于长期累积的经验。先验概率可以通过下面几种赋值方法得的经验。先验概率可以通过下面几种赋值方法得到：到：基于经验或者历史资料进行估计；基于经验或者历史资料进行估计；利用训练样本中各种样品所占的比例利用训练样本中各种样品所占的比例作为作为的的值。其中值。其中表示第表示第类总体的样品数，类总体的样品数，是总训练样本数，该方法要求训练样本是通过随机抽样是总训练样本数，该方法要求训练样本是通过随机抽样得到的；得到的；3.3.假定假定。A.A.确定

23、先验概率确定先验概率第27页，本讲稿共46页这里用这里用表示将本来属于总体表示将本来属于总体的样品错判为总体的样品错判为总体的概率，即误判概率，显然，根据概率的定义，易得：的概率，即误判概率，显然，根据概率的定义，易得：（）（4 4）实际上，（实际上，（4 4）式的几何意义是很明显的，见图）式的几何意义是很明显的，见图2 2。B.B.确定错判概率确定错判概率图图2 2表示的是两个正态总体的误判概率示意图。表示的是两个正态总体的误判概率示意图。第28页，本讲稿共46页误判概率的估计方法有以下几种：误判概率的估计方法有以下几种：（1 1）利用训练样本为检验集，用判别方法对训）利用训练样本

24、为检验集，用判别方法对训练样本进行判断，统计误判的样本个数，计算误判练样本进行判断，统计误判的样本个数，计算误判样本占总样本的比例，并作为误判概率的估计值；样本占总样本的比例，并作为误判概率的估计值；（2 2）当训练样本足够大时，从训练样本中预留一部）当训练样本足够大时，从训练样本中预留一部分作为检验集，并记录判错的比率，作为误判概率的估分作为检验集，并记录判错的比率，作为误判概率的估计值；计值；（3 3）运用舍一法：每次预留一个样本来检验，用剩）运用舍一法：每次预留一个样本来检验，用剩下下的样本建立判别准则，循环检验完所有训练样的样本建立判别准则，循环检验完所有训练样本，记录判错的比率，以

25、此作为误判概率的估计值。本，记录判错的比率，以此作为误判概率的估计值。第29页，本讲稿共46页C.C.确定错判损失确定错判损失错判必然带来损失。现实中，错判的损失错判必然带来损失。现实中，错判的损失一般来说很难定量给出。但是可以运用赋值法一般来说很难定量给出。但是可以运用赋值法来确定：来确定：（1）根据经验或者实际问题的特征人为根据经验或者实际问题的特征人为确定；确定；（2）假设各种误判损失都相等。假设各种误判损失都相等。第30页，本讲稿共46页基于前面的讨论，运用概率知识：判别法基于前面的讨论，运用概率知识：判别法将本来属于总体将本来属于总体的样本错判给其它总体的平均的样本错判给其

26、它总体的平均损失为损失为那么，关于先验概率的平均错判损失那么，关于先验概率的平均错判损失为为（5 5）如果能找到如果能找到使得平均损失使得平均损失达达到最小，那么到最小，那么就称为贝叶斯（就称为贝叶斯（BayesBayes）判别的）判别的解。解。D.D.确定平均损失确定平均损失第31页，本讲稿共46页定理定理1 1：设有：设有个总体：个总体：，已知，已知的联合密度函数为的联合密度函数为，先验概率为，先验概率为，错判损失为，错判损失为，则贝叶，则贝叶斯（斯（BayesBayes）判别的解）判别的解为为其中其中（6 6）下面给出贝叶斯（下面给出贝叶斯（BayesBayes）

27、判别的解的主要结论）判别的解的主要结论：第32页，本讲稿共46页 3.3 3.3 费希尔判别费希尔判别费希尔判别的基本思想：借助于方差分析的思想，费希尔判别的基本思想：借助于方差分析的思想，利用投影将利用投影将元的数据投影到某一个方向，使得投影元的数据投影到某一个方向，使得投影后组与组之间的差异尽可能的大，然后根据一定的判后组与组之间的差异尽可能的大，然后根据一定的判别规则对新样本的类别进行判断。别规则对新样本的类别进行判断。首先构造一个线性判别函数首先构造一个线性判别函数（7 7）可见上面的函数将可见上面的函数将元的数据投影到了一个方向，元的数据投影到了一个方向，系数系数的确定原则

28、是使得总体的确定原则是使得总体间的差异最大，总体内部的离差最小。间的差异最大，总体内部的离差最小。第33页，本讲稿共46页A.A.确定线性判别函数确定线性判别函数设有设有个个元总体：元总体：，它们的均值为：，它们的均值为：；协方差为：；协方差为：。在在的条件下，有的条件下，有令令这里这里确定确定，使得，使得个总体间的差异最大，总体内部的离个总体间的差异最大，总体内部的离差最小，则差最小，则应该达到最大。应该达到最大。第34页，本讲稿共46页为了确保为了确保的唯一性，不妨设的唯一性，不妨设。因此，问题转化为：。因此，问题转化为：在条件在条件约束下，求约束下，求使得使得式

29、达到最大式达到最大这是大家非常熟悉的条件极值的问题。根据拉格朗日乘子法：这是大家非常熟悉的条件极值的问题。根据拉格朗日乘子法：求解得求解得（8 8）由方程（由方程（8 8）第一式知，）第一式知，是是的特征根，的特征根，是相是相应的特征向量。可以证明应的特征向量。可以证明（的大小可以衡的大小可以衡量判别函数量判别函数的判别效果，故称的判别效果，故称为判别效为判别效率）。设率）。设的非零特征根为的非零特征根为，相应的满，相应的满足约束条件的特征向量为足约束条件的特征向量为，显然，取，显然，取时时达到最大。达到最大。第35页，本讲稿共46页B.B.确定判别规则确定判别规则假设系

30、数假设系数已经求出，那么线性判已经求出，那么线性判别函数别函数就完全确定下来，对于一个新的样品就完全确定下来，对于一个新的样品，可以构造下面的判别规则：，可以构造下面的判别规则：（9 9）第36页，本讲稿共46页3.4 3.4 判别分析模型的显著性检验判别分析模型的显著性检验建立了判别分析模型以后还需要对模型进行评价，这就建立了判别分析模型以后还需要对模型进行评价，这就需要对判别分析模型的显著性进行检验，主要包括两个方面：需要对判别分析模型的显著性进行检验，主要包括两个方面：判别效果的检验和各变量判别能力的检验判别效果的检验和各变量判别能力的检验11，22。所谓判别效。所谓判别效果的检

31、验就是检验果的检验就是检验 k k 个总体的均值是否有显著的差异，反映个总体的均值是否有显著的差异，反映了采用判别分析模型的有效性问题；各变量判别能力的检验反了采用判别分析模型的有效性问题；各变量判别能力的检验反映的是各指标（因素）对判别分类所起的作用时候显著。具体映的是各指标（因素）对判别分类所起的作用时候显著。具体的检验方法因为过于复杂，这里不再赘述。的检验方法因为过于复杂，这里不再赘述。需要说明的是，作为多元统计分析中的经典方法，判别需要说明的是，作为多元统计分析中的经典方法，判别分析在许多关于多元统计分析的教材中均有详细而深刻的论述。分析在许多关于多元统计分析的教材中均有详细而深刻的论

32、述。第37页，本讲稿共46页4 4DNADNA序列分类问题的求解序列分类问题的求解关于关于DNADNA序列分类问题的讨论和分析，我们在第序列分类问题的讨论和分析，我们在第1 1部分和部分和第第2 2部分已经作了详细的分析和讨论。这里，我们将根据多元统部分已经作了详细的分析和讨论。这里，我们将根据多元统计分析的知识建立判别分析模型来求解计分析的知识建立判别分析模型来求解DNADNA序列的分类问题（这序列的分类问题（这里只求解问题一）。里只求解问题一）。首先，需要提取每条序列的所蕴含的特征首先，需要提取每条序列的所蕴含的特征因为因为将序列的全部信息都作为指标（因素）来建立判别模型是将序列的全部信

33、息都作为指标（因素）来建立判别模型是不可能的。不可能的。第38页，本讲稿共46页A.A.特征的提取特征的提取 DNA DNA序列中所蕴含的信息是非常丰富的，因此，如何提序列中所蕴含的信息是非常丰富的，因此，如何提取特征、提取什么特征是一个非常困难的问题取特征、提取什么特征是一个非常困难的问题这个问这个问题涉及到生物学的知识，此处将不深入展开讨论。我们考题涉及到生物学的知识，此处将不深入展开讨论。我们考虑采用序列中虑采用序列中4 4个碱基个碱基A A，T T，C C，G G的含量百分比作为的含量百分比作为DNADNA序序列的特征。列的特征。为了便于讨论，我们用为了便于讨论，我们用表示碱基表示碱

34、基A A在序列中所占的百在序列中所占的百分比；分比；表示碱基表示碱基T T在序列中所占的百分比；在序列中所占的百分比；表示碱基表示碱基C C在在序列中所占的百分比；序列中所占的百分比；表示碱基表示碱基G G在序列中所占的百分比。在序列中所占的百分比。因为，因为，+=1+=1，因此，因此、和和中只有三个变量是独立的，不失一般性，我们选中只有三个变量是独立的，不失一般性，我们选取取、和和为指标，以为指标，以表示第表示第个个DNADNA序列的特征向量，换句话说，序列的特征向量，换句话说，“完全完全”代表第代表第个个DNADNA序列。序列。第39页，本讲稿共46页正如前面第正如前面第2

35、 2部分中所分析的：在此部分中所分析的：在此DNADNA序列分类问题中，序列分类问题中，共有两个已知的总体（类）共有两个已知的总体（类）（A A类）和类）和（B B类），而且，训练样本共有类），而且，训练样本共有个，其中，个，其中，前前1010个样本（记为个样本（记为）属于总体（类）属于总体（类）；后后 10 10个样本（记为个样本（记为）属于总体）属于总体（类）（类）。需要解决的问题是：对给定的新样品需要解决的问题是：对给定的新样品，我们需要判断，我们需要判断其属于哪个总体（类）。其属于哪个总体（类）。第40页，本讲稿共46页B.B.建立判别模型建立判别模型这里分别建立距离判别

36、和费希尔（这里分别建立距离判别和费希尔（FisherFisher）判别模型。）判别模型。（1 1）距离判别模型）距离判别模型在距离判别模型中，首先需要估计总体（类）在距离判别模型中，首先需要估计总体（类）和和的均值的均值和协方差阵和协方差阵，运用前面，运用前面3.1.13.1.1小节的公式，可以得到均值小节的公式，可以得到均值和协方差阵和协方差阵的无偏估计。的无偏估计。然后，计算样本然后，计算样本到总体（类）到总体（类）和和的马氏距离的马氏距离；根据判别准则（根据判别准则（1 1），可得：），可得：若若，则判定，则判定为为A A类；类；若若，则判定，则判定为为B B类。

37、类。第41页，本讲稿共46页（2 2）费希尔判别模型）费希尔判别模型首先，确定判别函数首先，确定判别函数利用费希尔利用费希尔(Fisher)(Fisher)判别准则，可以求出判别准则，可以求出确定了判别函数，就可以根据费希尔确定了判别函数，就可以根据费希尔(Fisher)(Fisher)判别准则（判别准则（9 9）式，判断新的）式，判断新的DNADNA序序列的类别问题了。列的类别问题了。第42页，本讲稿共46页C.C.模型求解和软件实现模型求解和软件实现判别分析的计算机实现是非常简单的，运用Matlab和SPSS等软件都可以进行判别分析。经过计算，结果如下：（1）距离判别：运用上面算法

38、对已知类别的训练本进行判定，结果为：A类：1，2，3，5，6，7，8，9，10B类：4，11，12，13，14，15，16，17，18，19，20只有第4个样本发生了误判，故正确率为95%。运用上面算法对21-40进行分类，结果为A类：22，23，25，27，29，30，32，33，34，35，36，37B类：21，24，26，28，31，38，39，40第43页，本讲稿共46页（2 2）费希尔判别）费希尔判别运用上面算法对已知类别的训练本进行判定，结果运用上面算法对已知类别的训练本进行判定，结果为：为：A A类：类：1 1，2 2，3 3，5 5，6 6，7 7，8 8，9 9，1010

39、B B类：类：4 4，1111，1212，1313，1414，1515，1616，1717，18 18，1919，2020 只有第只有第4 4个样本发生了误判，故正确率为个样本发生了误判，故正确率为95%95%。运用上面算法对运用上面算法对21-4021-40进行分类，结果为：进行分类，结果为：A A类：类：2222，2323，2525，2727，2929，34 34，3535，3636，3737B B类：类：2121，2424，2626，2828，3030，3131，3232，3333，38 38，39 39，4040第44页，本讲稿共46页参考文献参考文献1 1 高惠璇，应用多元统计分析，

40、北京大学出版社，高惠璇，应用多元统计分析，北京大学出版社，2005 2005。2 2 张尧庭张尧庭,方开泰，多元统计分析引论，科学出版社，方开泰，多元统计分析引论，科学出版社，1982 1982。3 3 陈家鼎，孙山泽，李东风，数理统计学讲义，高等教陈家鼎，孙山泽，李东风，数理统计学讲义，高等教育出版社，育出版社，19981998。4 4 梁之舜，邓集贤，杨维权等，概率论与数理统计（第梁之舜，邓集贤，杨维权等，概率论与数理统计（第二版）（上），高等教育出版社，二版）（上），高等教育出版社，19981998。5 5 朱建平，应用多元统计分析，科学出版社，朱建平，应用多元统计分析，科学出版社，20062006。6 6 全国大学生数学建模竞赛优秀论文汇编（全国大学生数学建模竞赛优秀论文汇编（1999-1999-2000 2000），中国物价出版社，），中国物价出版社，20022002。第45页，本讲稿共46页第46页，本讲稿共46页

展开阅读全文