概率密度函数的参数估计.ppt-得力文库

资源描述

《概率密度函数的参数估计.ppt》由会员分享，可在线阅读，更多相关《概率密度函数的参数估计.ppt（61页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、模式识别概率密度函数的参数估计关于概率密度函数关于概率密度函数的参数估计的参数估计现在学习的是第1页，共61页模式识别概率密度函数的参数估计3.0 引言引言贝叶斯分类器的学习贝叶斯分类器的学习：类条件概率密度函数的：类条件概率密度函数的估计。估计。问题的表示问题的表示：已有：已有c个类别的训练样本集合个类别的训练样本集合D1，D2，Dc，求取每个类别的类条件概率密，求取每个类别的类条件概率密度度。现在学习的是第2页，共61页模式识别概率密度函数的参数估计概率密度函数的估计方法概率密度函数的估计方法参数估计方法参数估计方法：预先假设每一个类别的概：预先假设每一个类别的概率密度函数的形式已

2、知，而具体的参数未率密度函数的形式已知，而具体的参数未知；知；最大似然估计最大似然估计(MLE,Maximum Likelihood Estimation)；贝叶斯估计贝叶斯估计(Bayesian Estimation)。非参数估计方法非参数估计方法。现在学习的是第3页，共61页模式识别概率密度函数的参数估计3.1 最大似然估计最大似然估计独立同分布假设独立同分布假设：样本集：样本集D中包含中包含n个样本：个样本：x1，x2，,xn，样本都是，样本都是独立同分布独立同分布的随机变量的随机变量(i.i.d，independent identically distributed)。对类条件概率密

3、度函数的函数形式作出假设，参对类条件概率密度函数的函数形式作出假设，参数可以表示为参数矢量数可以表示为参数矢量：现在学习的是第4页，共61页模式识别概率密度函数的参数估计最大似然估计最大似然估计现在学习的是第5页，共61页模式识别概率密度函数的参数估计似然函数似然函数样本集样本集D出现的概率出现的概率：对数似然函数对数似然函数：现在学习的是第6页，共61页模式识别概率密度函数的参数估计最大似然估计最大似然估计最大似然估计最大似然估计：寻找到一个最优矢量：寻找到一个最优矢量，使得似，使得似然函数然函数最大。最大。现在学习的是第7页，共61页模式识别概率密度函数的参数估计正态分布的似然

4、估计正态分布的似然估计Gauss分布的参数分布的参数：由均值矢量：由均值矢量和协方差矩和协方差矩阵阵构成，最大似然估计结果为：构成，最大似然估计结果为：现在学习的是第8页，共61页模式识别概率密度函数的参数估计3.2 期望最大化算法期望最大化算法(EM算法算法)EM算法的应用可以分为两个方面：算法的应用可以分为两个方面：1.训练样本中某些训练样本中某些特征丢失特征丢失情况下，分布参数情况下，分布参数的最大似然估计；的最大似然估计；2.对某些对某些复杂分布模型复杂分布模型假设，最大似然估计很假设，最大似然估计很难得到解析解时的迭代算法。难得到解析解时的迭代算法。现在学习的是第9页，共61页模式

5、识别概率密度函数的参数估计混合密度模型混合密度模型混合密度模型混合密度模型：一个复杂的概率密度分布函数：一个复杂的概率密度分布函数可以由多个简单的密度函数混合构成：可以由多个简单的密度函数混合构成：高斯混合模型高斯混合模型：GMM，Gauss Mixture Model现在学习的是第10页，共61页模式识别概率密度函数的参数估计两个高斯函数的混合两个高斯函数的混合现在学习的是第11页，共61页模式识别概率密度函数的参数估计样本的产生过程样本的产生过程高斯模型样本的产生高斯模型样本的产生：每一个样本都是按：每一个样本都是按照正态分布产生的；照正态分布产生的；GMM样本的产生样本的产生：先按

6、照先验概率：先按照先验概率ai选择选择一个子类，然后按照这个子类满足的正态一个子类，然后按照这个子类满足的正态分布产生样本。分布产生样本。现在学习的是第12页，共61页模式识别概率密度函数的参数估计GMM模型产生的模型产生的2维样本数据维样本数据现在学习的是第13页，共61页模式识别概率密度函数的参数估计GMM模型的参数估计模型的参数估计GMM的参数的参数：参数估计参数估计：已知样本：已知样本x1,xn，估计参数，估计参数。存在的问题存在的问题：每个样本是由哪一个子集产生的未：每个样本是由哪一个子集产生的未知。知。现在学习的是第14页，共61页模式识别概率密度函数的参数估计训练样本：训练

7、样本：来自子类：来自子类：已知已知y的条件下，参数的估计：的条件下，参数的估计：已知参数条件下，已知参数条件下，y的估计：的估计：K-mean算法算法现在学习的是第15页，共61页模式识别无监督学习与聚类K-均值聚类均值聚类1.begin initialize 样本数样本数n，聚类数，聚类数K，初始聚类中，初始聚类中心心1,c；2.do 按照最近邻按照最近邻i分类分类n个样本；个样本；3.重新计算聚类中心重新计算聚类中心1,c；4.until i不再改变；不再改变；5.return 1,c;6.end现在学习的是第16页，共61页模式识别概率密度函数的参数估计存在的问题：样本存在的问题：样

8、本xt可能来自于任何一个子类，但在可能来自于任何一个子类，但在参数估计时只出现在一个子类中。参数估计时只出现在一个子类中。修改计算过程：修改计算过程：EM算法算法现在学习的是第17页，共61页模式识别概率密度函数的参数估计GMM的参数估计算法的参数估计算法(EM)1.随机初始化参数：随机初始化参数：2.计算：计算：3.重新估计参数重新估计参数；4.迭代计算迭代计算2，3步，直到收敛为止。步，直到收敛为止。现在学习的是第18页，共61页模式识别概率密度函数的参数估计基本基本EM算法算法样本集样本集：令：令X是观察到的样本数据集合，是观察到的样本数据集合，Y为丢为丢失的数据集合，完整的样本集合

9、失的数据集合，完整的样本集合D=X Y。似然函数似然函数：由于：由于Y未知，在给定参数未知，在给定参数时，时，似然函似然函数可以看作数可以看作Y的函数：的函数：现在学习的是第19页，共61页模式识别概率密度函数的参数估计基本基本EM算法算法由于由于Y未知，因此我们需要寻找到一个在未知，因此我们需要寻找到一个在Y的所的所有可能情况下，平均意义下的似然函数最大值，有可能情况下，平均意义下的似然函数最大值，即似然函数对即似然函数对Y的期望的最大值：的期望的最大值：E步：步：M步：步：现在学习的是第20页，共61页模式识别概率密度函数的参数估计基本基本EM算法算法1.begin initializ

10、e ，T，i0；2.do ii+13.E步：计算步：计算 ;4.M步：步：5.until 6.return现在学习的是第21页，共61页模式识别概率密度函数的参数估计EM算法的性质算法的性质收敛性收敛性：EM算法具有收敛性；算法具有收敛性；最优性最优性：EM算法只能保证收敛于似然函数算法只能保证收敛于似然函数的局部最大值点（极值点），而不能保证的局部最大值点（极值点），而不能保证收敛于全局最优点。收敛于全局最优点。现在学习的是第22页，共61页模式识别概率密度函数的参数估计隐含隐含Markov模型模型(Hidden Markov Model,HMM)应用领域应用领域：识别对象存在着先后次序

11、信息，：识别对象存在着先后次序信息，如语音识别，手势识别，唇读系统等；如语音识别，手势识别，唇读系统等；模式描述模式描述：特征矢量序列。：特征矢量序列。现在学习的是第23页，共61页模式识别概率密度函数的参数估计输入语音波形输入语音波形现在学习的是第24页，共61页模式识别概率密度函数的参数估计观察序列观察序列观察序列观察序列：信号的特征需要用一个特征矢：信号的特征需要用一个特征矢量的序列来表示：量的序列来表示：其中的其中的vi为一个特征矢量，称为一个观察值。为一个特征矢量，称为一个观察值。现在学习的是第25页，共61页模式识别概率密度函数的参数估计一阶一阶Markov模型模型M个状态：

12、个状态：w1,w2,wM时刻时刻t：处于状态：处于状态w(t)；经过经过T个时刻：个时刻：WT=w(1),w(T)。现在学习的是第26页，共61页模式识别概率密度函数的参数估计一阶一阶Markov模型的状态转移模型的状态转移Markov性性：模型在时刻：模型在时刻t处于状态处于状态wj的概率完全由的概率完全由t-1时刻的状态时刻的状态wi决定，而且与时刻决定，而且与时刻t无关，即：无关，即：现在学习的是第27页，共61页模式识别概率密度函数的参数估计Markov模型的初始状态概率模型的初始状态概率模型初始于状态模型初始于状态wi的概率用的概率用表示。表示。模型参数模型参数：一阶：一阶Ma

13、rkov模型可以用参数模型可以用参数表表示，其中：示，其中：现在学习的是第28页，共61页模式识别概率密度函数的参数估计一阶一阶Markov模型输出状态序列的模型输出状态序列的概率概率输出状态序列的概率输出状态序列的概率：由初始状态概率与各次状态：由初始状态概率与各次状态转移概率相乘得到。转移概率相乘得到。例如：例如：W5=w1,w1,w3,w1,w2，则模型输出该序列，则模型输出该序列的概率为：的概率为：现在学习的是第29页，共61页模式识别概率密度函数的参数估计一阶一阶Markov模型实例模型实例某个城市天气的变化可以采用一阶马尔科夫模型描某个城市天气的变化可以采用一阶马尔科夫模型描

14、述述，每天的天气有每天的天气有4种状态种状态晴、阴、雨、雪晴、阴、雨、雪。现在学习的是第30页，共61页模式识别概率密度函数的参数估计一阶隐含一阶隐含Markov模型模型隐含隐含Markov模型模型中，状态是不可见的，在中，状态是不可见的，在每一个时刻每一个时刻t，模型当前的隐状态输出一个，模型当前的隐状态输出一个观察值。观察值。隐状态输出的观察值可以是离散值，连续隐状态输出的观察值可以是离散值，连续值，也可以是一个矢量。值，也可以是一个矢量。现在学习的是第31页，共61页模式识别概率密度函数的参数估计一阶隐含一阶隐含Markov模型实例模型实例我们我们不知道不知道某城市某城市的天气情况，

15、的天气情况，只只知道当地知道当地某人某人每天的每天的活动情况活动情况散步、购物、做家务散步、购物、做家务。现在学习的是第32页，共61页模式识别概率密度函数的参数估计HMM的工作原理的工作原理观察序列的产生过程观察序列的产生过程：HMM的内部状态转移过程同的内部状态转移过程同Markov模型相同，在每次状态转移之后，由该状态输出一个观模型相同，在每次状态转移之后，由该状态输出一个观察值，只是状态转移过程无法观察到，只能观察到输出的观察值察值，只是状态转移过程无法观察到，只能观察到输出的观察值序列。序列。输出概率输出概率：以离散的：以离散的HMM为例，隐状态可能输出的观察值集为例，隐状态可能输

16、出的观察值集合为合为v1,v2,vK，第，第i个隐状态输出第个隐状态输出第k个观察值的概率为个观察值的概率为bik。例如：例如：T=5时，可能的观察序列时，可能的观察序列V5=v3v2v3v4v1现在学习的是第33页，共61页模式识别概率密度函数的参数估计HMM的参数表示的参数表示状态转移矩阵状态转移矩阵：A，M*M的方阵；的方阵；状态输出概率状态输出概率：B，M*K的矩阵；的矩阵；初始概率初始概率：，包括，包括M个元素。个元素。M个状态，个状态，K个可能的输出值。个可能的输出值。现在学习的是第34页，共61页模式识别概率密度函数的参数估计HMM的三个核心问题的三个核心问题估值问题估值问题

17、：已有一个：已有一个HMM模型，其参数已知，计算模型，其参数已知，计算这个模型输出特定的观察序列这个模型输出特定的观察序列VT的概率；的概率；解码问题解码问题：已有一个：已有一个HMM模型，其参数已知，计算最模型，其参数已知，计算最有可能输出特定的观察序列有可能输出特定的观察序列VT的隐状态转移序列的隐状态转移序列WT；学习问题学习问题：已知一个：已知一个HMM模型的结构，其参数未知，模型的结构，其参数未知，根据一组训练序列对参数进行训练；根据一组训练序列对参数进行训练；现在学习的是第35页，共61页模式识别概率密度函数的参数估计估值问题估值问题一个一个HMM模型产生观察序列模型产生观察序列

18、VT可以由下式计算：可以由下式计算：rmax=MT为为HMM所有可能的状态转移序列数；所有可能的状态转移序列数；为状态转移序列为状态转移序列输出观察序列输出观察序列的概率；的概率；为为状态转移序列状态转移序列发生的概率。发生的概率。现在学习的是第36页，共61页模式识别概率密度函数的参数估计估值问题的计算估值问题的计算计算复杂度：计算复杂度：现在学习的是第37页，共61页模式识别概率密度函数的参数估计HMM估值算法的简化估值算法的简化现在学习的是第38页，共61页模式识别概率密度函数的参数估计HMM的前向算法的前向算法1.初始化：初始化：2.迭代计算：迭代计算：3.结束输出：结束

19、输出：计算复杂度：计算复杂度：现在学习的是第39页，共61页模式识别概率密度函数的参数估计解码问题解码问题解码问题的计算：解码问题的计算：同估值问题的计算类似，同估值问题的计算类似，最直观的思路是遍历所有的可能状态转移序最直观的思路是遍历所有的可能状态转移序列，取出最大值，计算复杂度为：列，取出最大值，计算复杂度为：O(MTT)。同样存在着优化算法：同样存在着优化算法：Viterbi算法。算法。现在学习的是第40页，共61页模式识别概率密度函数的参数估计Viterbi算法算法1.因为需要回朔最优路径，所以建立一个矩阵因为需要回朔最优路径，所以建立一个矩阵，其元素，其元素保存第保存第t t

20、步，第步，第i i个状态在第个状态在第t-1t-1步的最优状态。步的最优状态。2.2.初始化：初始化：3.3.迭代计算：迭代计算：4.4.结束：结束：5.5.路径回朔：路径回朔：现在学习的是第41页，共61页模式识别概率密度函数的参数估计Viterbi算法图示算法图示现在学习的是第42页，共61页模式识别概率密度函数的参数估计学习问题学习问题HMM的学习问题的学习问题：已知一组观察序列已知一组观察序列(训练样本集合训练样本集合)：如何确定最优的模型参数如何确定最优的模型参数，使得模型产生训练集合，使得模型产生训练集合V V的联合概率最大的联合概率最大这同样是一个最大似然估计问题，需要采用这

21、同样是一个最大似然估计问题，需要采用EMEM算法。算法。现在学习的是第43页，共61页模式识别概率密度函数的参数估计图示图示现在学习的是第44页，共61页模式识别概率密度函数的参数估计变量说明变量说明：表示在：表示在t-1时刻时刻HMM处于状态处于状态i，并且从，并且从1t-1时刻之间时刻之间产生观察序列产生观察序列V1t-1的概率；的概率；：表示在：表示在t时刻时刻HMM处于状态处于状态j，并且从，并且从t+1T时刻之间产时刻之间产生观察序列生观察序列Vt+1T的概率；的概率；现在学习的是第45页，共61页模式识别概率密度函数的参数估计变量说明变量说明输出观察序列输出观察序列VT时，

22、时，在在t-1时刻时刻HMM处处于于i状态，在时刻状态，在时刻t处于处于j状态的概率：状态的概率：现在学习的是第46页，共61页模式识别概率密度函数的参数估计前向前向-后向算法后向算法(Baum-Welch算法算法)迭代公式：迭代公式：初始概率：初始概率：状态转移概率：状态转移概率：输出概率：输出概率：现在学习的是第47页，共61页模式识别概率密度函数的参数估计HMM的其它问题的其它问题连续连续HMM模型模型：在观察序列中每个观察值是一个特征矢量，：在观察序列中每个观察值是一个特征矢量，相应的模型中输出概率相应的模型中输出概率b就需要用一个概率密度函数描述，其就需要用一个概率密度函数描述，

23、其函数形式需要假设，通常使用函数形式需要假设，通常使用GMM。训练问题训练问题：通常可以用每个训练样本分别计算：通常可以用每个训练样本分别计算值，然后分值，然后分子和分母部分分别进行累加，最后统一进行参数修正；子和分母部分分别进行累加，最后统一进行参数修正；模型的拓扑结构模型的拓扑结构：模型结构可以根据实际问题的需要来设：模型结构可以根据实际问题的需要来设计，在初始化状态转移矩阵计，在初始化状态转移矩阵A时，将某些元素设为时，将某些元素设为0即可。即可。现在学习的是第48页，共61页模式识别概率密度函数的参数估计“左左-右右”模型结构模型结构现在学习的是第49页，共61页模式识别概率密度函

24、数的参数估计带跨越的带跨越的“左左-右右”结构结构HMM模型模型现在学习的是第50页，共61页模式识别概率密度函数的参数估计3.3 贝叶斯估计贝叶斯估计为什么要采用贝叶斯估计？为什么要采用贝叶斯估计？贝叶斯估计与最大似然估计有什么差别？贝叶斯估计与最大似然估计有什么差别？现在学习的是第51页，共61页模式识别概率密度函数的参数估计贝叶斯估计与最大似然估计的差别贝叶斯估计与最大似然估计的差别观点不同观点不同：最大似然估计认为最大似然估计认为是一个确定的未知矢量是一个确定的未知矢量;贝叶斯估计认为贝叶斯估计认为是一个随机是一个随机矢量矢量。过程不同：过程不同：最大似然估计：样本集最大似然估计：

25、样本集D D 估计最优参数估计最优参数*；贝叶斯估计：样本集贝叶斯估计：样本集D D和先验分布和先验分布p(p()估计参数的后验估计参数的后验分布分布p(p(|D)|D)；优点优点：提高小样本集条件下的估计准确率；：提高小样本集条件下的估计准确率；缺点缺点：计算复杂：计算复杂现在学习的是第52页，共61页模式识别概率密度函数的参数估计贝叶斯估计的一般理论贝叶斯估计的一般理论识别过程识别过程：类条件概率密度的计算：类条件概率密度的计算学习过程学习过程：参数后验概率密度的估计：参数后验概率密度的估计现在学习的是第53页，共61页模式识别概率密度函数的参数估计单变量正态分布的贝叶斯估计单变量正态

26、分布的贝叶斯估计已知概率密度函数满足正态分布，其中方差已知概率密度函数满足正态分布，其中方差2 2已已知，均值知，均值未知，假设未知，假设的先验概率满足正态分的先验概率满足正态分布，即：布，即：现在学习的是第54页，共61页模式识别概率密度函数的参数估计均值的后验概率均值的后验概率经推导可得，在已知训练样本集合经推导可得，在已知训练样本集合D的条件下，的条件下，参数参数的分布：的分布：现在学习的是第55页，共61页模式识别概率密度函数的参数估计均值的后验概率均值的后验概率均值的后验概率仍满足正态分布，其中：均值的后验概率仍满足正态分布，其中：现在学习的是第56页，共61页模式识别概率密度

27、函数的参数估计均值分布的变化均值分布的变化现在学习的是第57页，共61页模式识别概率密度函数的参数估计类条件概率密度的计算类条件概率密度的计算现在学习的是第58页，共61页模式识别概率密度函数的参数估计类条件概率密度的计算类条件概率密度的计算现在学习的是第59页，共61页模式识别概率密度函数的参数估计共轭先验分布共轭先验分布如果假设参数的如果假设参数的先验分布先验分布为其为其共轭分布共轭分布，则参数的后验分布与先验分布属于则参数的后验分布与先验分布属于同一分同一分布族布族。GMM中参数的共轭先验分布：中参数的共轭先验分布：的共轭先验为的共轭先验为Gauss分布；分布；的共轭先验分布为的共轭先验分布为Wishart分布；分布；的共轭先验分布为的共轭先验分布为Dirichlet分布。分布。现在学习的是第60页，共61页模式识别概率密度函数的参数估计感谢大家观看现在学习的是第61页，共61页

展开阅读全文