朴素贝叶斯分类.pptx

上传人:莉*** 文档编号:88334813 上传时间:2023-04-25 格式:PPTX 页数:48 大小:335.55KB
返回 下载 相关 举报
朴素贝叶斯分类.pptx_第1页
第1页 / 共48页
朴素贝叶斯分类.pptx_第2页
第2页 / 共48页
点击查看更多>>
资源描述

《朴素贝叶斯分类.pptx》由会员分享,可在线阅读,更多相关《朴素贝叶斯分类.pptx(48页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、会计学1朴素贝叶斯分类朴素贝叶斯分类1.定义 ABAB条件概率若 是全集,A、B是其中的事件(子集),P表示事件发生的概率,则 为事件B发生后A发生的概率。第1页/共48页乘法定理乘法定理乘法定理乘法定理注:当P(AB)不容易直接求得时,可考虑利用P(A)与P(B|A)的乘积或P(B)与P(A|B)的乘积间接求得。第2页/共48页乘法定理的推广乘法定理的推广乘法定理的推广乘法定理的推广第3页/共48页1.集合(样本空间)的划分二、全概率公式第4页/共48页2.全概率公式全概率公式第5页/共48页图示证明化整为零各个击破第6页/共48页说明 全概率公式的主要用途在于它可以将一个复杂事件的概率计算

2、问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.第7页/共48页例1 有一批同一型号的产品,已知其中由一厂生产的占 30%,二厂生产的占 50%,三厂生产的占 20%,又知这三个厂的产品次品率分别为2%,1%,1%,问从这批产品中任取一件是次品的概率是多少设事件 A 为“任取一件为次品”,解第8页/共48页由全概率公式得30%20%50%2%1%1%AB1B2B3第9页/共48页贝叶斯公式第10页/共48页BayesBayesBayesBayes公式的意义公式的意义公式的意义公式的意义n n假设导致事件假设导致事件A A发生的发生的“原因原因”有有B Bi i(i=

3、1,2,n)(i=1,2,n)个。个。它们互不相容。它们互不相容。n n现已知事件现已知事件A A确已经发生确已经发生了,若要估计它是由了,若要估计它是由“原原因因”B Bi i所导致的概率,则可用所导致的概率,则可用BayesBayes公式求出公式求出.n n即可从结果分析原因即可从结果分析原因.第11页/共48页证明乘法定理:第12页/共48页例2 贝叶斯公式的应用第13页/共48页解第14页/共48页(1)由全概率公式得(2)由贝叶斯公式得第15页/共48页第16页/共48页由以往的数据分析得到的概率,叫做先验概率.而在得到信息之后再重新加以修正的概率 叫做后验概率.先验概率与后验概率第

4、17页/共48页贝叶斯分类贝叶斯分类贝叶斯分类贝叶斯分类n n贝叶斯分类器是一个统计分类器。它们能够预测类别贝叶斯分类器是一个统计分类器。它们能够预测类别所属所属的概率的概率,如:一个数据对象属于某个类别的概率。贝叶斯,如:一个数据对象属于某个类别的概率。贝叶斯分类器是分类器是基于贝叶斯定理基于贝叶斯定理而构造出来的。而构造出来的。n n对分类方法进行比较的有关研究结果表明:简单贝叶斯分对分类方法进行比较的有关研究结果表明:简单贝叶斯分类器(称为基本贝叶斯分类器)在分类类器(称为基本贝叶斯分类器)在分类性能上与决策树和性能上与决策树和神经网络都是可比的神经网络都是可比的。n n在处理大规模数据

5、库时,贝叶斯分类器已表现出较高的分在处理大规模数据库时,贝叶斯分类器已表现出较高的分类准确性和运算性能。类准确性和运算性能。第18页/共48页20贝叶斯分类贝叶斯分类贝叶斯分类贝叶斯分类n n定定义义:设设X X是是类类标标号号未未知知的的数数据据样样本本。设设H H为为某某种种假假定定,如如数数据据样样本本X X属属于于某某特特定定的的类类CC。对对于于分分类类问问题题,我我们们希希望望确确定定P(H|X)P(H|X),即即给给定定观观测测数数据据样样本本X X,假假定定H H成成立立的的概概率率。贝贝叶斯定理给出了如下计算叶斯定理给出了如下计算P(H|X)P(H|X)的简单有效的方法的简单

6、有效的方法:n nP(H)P(H)是是先先验验概概率率,或或称称H H的的先先验验概概率率。P(X|H)P(X|H)代代表表假假设设H H成成立的情况下,观察到立的情况下,观察到X X的概率。的概率。n nP(H|X)P(H|X)是后验概率是后验概率,或称条件,或称条件X X下下H H的后验概率。的后验概率。第19页/共48页21贝叶斯分类贝叶斯分类贝叶斯分类贝叶斯分类n n先先验验概概率率泛泛指指一一类类事事物物发发生生的的概概率率,通通常常根根据据历历史史资料或主观判断,未经实验证实所确定的概率。资料或主观判断,未经实验证实所确定的概率。n n而而后后验验概概率率涉涉及及的的是是某某个个特

7、特定定条条件件下下一一个个具具体体的的事事物发生的概率物发生的概率第20页/共48页22贝叶斯分类贝叶斯分类贝叶斯分类贝叶斯分类n n例例如如:P(x1)=0.9:P(x1)=0.9:细细胞胞为为正正常常细细胞胞的的概概率率0.90.9(先先验验概概率)率)n n P(x2)=0.1:P(x2)=0.1:细胞细胞为异常细胞的概率为异常细胞的概率0.10.1(先验概率)(先验概率)n n对对某某个个具具体体的的对对象象y y,P(x1|yP(x1|y):表表示示y y的的细细胞胞正正常常的的概概率是率是0.820.82(后验概率后验概率)n nP(x2|yP(x2|y):表示表示y y的细胞异常

8、的概率是的细胞异常的概率是0.180.18(后验概率后验概率)第21页/共48页朴素贝叶斯分类朴素贝叶斯分类朴素贝叶斯分类朴素贝叶斯分类n n朴素贝叶斯分类的工作过程如下:朴素贝叶斯分类的工作过程如下:n n(1)(1)每每个个数数据据样样本本用用一一个个n n维维特特征征向向量量X X=x x1 1,x x2 2,x xn n 表表示示,分分别别描描述述对对n n个个属属性性A A1 1,A A2 2,A An n样样本本的的n n个度量。个度量。n n(2)(2)假假定定有有mm个个类类C C1 1,C C2 2,C Cmm,给给定定一一个个未未知知的的数数据据样样本本X X(即即没没有有

9、类类标标号号),分分类类器器将将预预测测X X属属于于具具有有最最高高后后验验概概率率(条条件件X X下下)的的类类。也也就就是是说说,朴朴素素贝贝叶叶斯斯分分类类将将未未知知的的样样本本分分配配给给类类C Ci i(11i imm)当当且且仅仅当当P P(C Ci i|X X)P P(C Cj j|X X),对对任任意意的的j j=1=1,2 2,mm,j ji i。这这样样,最最大大化化P P(C Ci i|X X)。其其P P(C Ci i|X X)最最大大的的类类C Ci i称称为为最最大大后后验验假假定定。根根据据贝贝叶斯定理叶斯定理第22页/共48页24朴素贝叶斯分类朴素贝叶斯分类

10、朴素贝叶斯分类朴素贝叶斯分类(3)(3)由由于于P P(X X)对对于于所所有有类类为为常常数数,只只需需要要P P(X X|C Ci i)*)*P P(C Ci i)最大即可。最大即可。如如果果C Ci i类类的的先先验验概概率率未未知知,则则通通常常假假定定这这些些类类是是等等概概率率的的,即即P P(C C1 1)=)=P P(C C2 2)=)=P P(C Cmm),因因此此问问题题就就转转换换为为对对P P(X X|C Ci i)的的最最大大化化(P P(X X|C Ci i)常常被被称称为为给给定定C Ci i时时数数据据X X的的似似然然度度,而而使使P P(X X|C Ci i

11、)最最大大的的假假设设C Ci i称称为为最最大大似似然然假假设设)。否否则则,需需要要最最大大化化P P(X X|C Ci i)*)*P P(C Ci i)。注注意意,类类的的先先验验概概率率可可以以用用P(P(C Ci i)=)=s si i/s s计计算算,其其中中s si i是是类类C Ci i中中的的训训练样本数,而练样本数,而s s是训练样本总数。是训练样本总数。第23页/共48页25朴素贝叶斯分类朴素贝叶斯分类朴素贝叶斯分类朴素贝叶斯分类n n(4)(4)给给定定具具有有许许多多属属性性的的数数据据集集,计计算算P P(X X|C Ci i)的的开开销销可可能能非非常常大大。为为

12、降降低低计计算算P P(X X|C Ci i)的的开开销销,可可以以做做类类条条件件独独立立的朴素假定。的朴素假定。n n给给定定样样本本的的类类标标号号,假假定定属属性性值值相相互互条条件件独独立立,即即在在属属性间,不存在依赖关系。这样性间,不存在依赖关系。这样联合概率分布第24页/共48页26朴素贝叶斯分类朴素贝叶斯分类朴素贝叶斯分类朴素贝叶斯分类(5)(5)对对未未知知样样本本X X分分类类,也也就就是是对对每每个个类类C Ci i,计计算算P(P(X X|C Ci i)*P)*P(C Ci i)。样样 本本X X被被 指指 派派 到到 类类C Ci i,当当 且且 仅仅 当当 P(P

13、(C Ci i|X X)P(P(C Cj j|X X),11j jmm,j ji i,换换言言之之,X X被被指指派派到到其其P(P(X X|C Ci i)*P()*P(C Ci i)最最大大的类的类。第25页/共48页“打网球打网球打网球打网球”的决定的决定的决定的决定No.天气气温湿度风类别1晴热高无N2晴热高有N3多云热高无P4雨适中高无P5雨冷正常无P6雨冷正常有N7多云冷正常有PNo.天气气温湿度风类别8晴适中高无N9晴冷正常无P10雨适中正常无P11晴适中正常有P12多云适中高有P13多云热正常无P14雨适中高有N第26页/共48页No.天气气温湿度风类别1晴热高无N2晴热高有N3

14、多云热高无P4雨适中高无P5雨冷正常无P6雨冷正常有N7多云冷正常有PNo.天气气温湿度风类别8晴适中高无N9晴冷正常无P10雨适中正常无P11晴适中正常有P12多云适中高有P13多云热正常无P14雨适中高有N实例统计结果天气温度湿度有风打网球 P N PN PN PNPN晴 2/93/5热 2/92/5高 3/94/5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/91/5是 3/93/5雨 3/92/5凉 3/91/5第27页/共48页统计结果天气 E1温度 E2湿度 E3有风 E4打网球 P N PN PN PNPN晴 2/93/5热 2/92/5高 3/94/

15、5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/91/5是 3/93/5雨 3/92/5凉 3/91/5对下面的情况做出决策:天气温度湿度有风打网球晴凉高是?第28页/共48页统计结果天气 E1温度 E2湿度 E3有风 E4打网球 D P N PN PN PNPN晴 2/93/5热 2/92/5高 3/94/5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/91/5是 3/93/5雨 3/92/5凉 3/91/5对下面的情况做出决策:天气温度湿度有风打网球晴凉高是?模型:决策:?贝叶斯公式:E为第二个表中的取值、分别计算D=yes/no的概

16、率第29页/共48页统计结果天气 E1温度 E2湿度 E3有风 E4打网球 D P N PN PN PNPN晴 2/93/5热 2/92/5高 3/94/5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/91/5是 3/93/5雨 3/92/5凉 3/91/5对下面的情况做出决策:天气温度湿度有风打网球晴凉高是?第30页/共48页已经计算出:同理可计算:利用公式:最后得到:决策:第31页/共48页天气 E1温度 E2湿度 E3有风 E4打网球 D P N PN PN PNPN晴 2/93/5热 2/92/5高 3/95/5否 6/92/59/145/14云 4/90/

17、5暖 4/92/5正常 6/90/5是 3/93/5雨 3/92/5凉 3/91/5对下面的情况做出决策:天气温度湿度有风打网球云凉正常是?第32页/共48页利用朴素贝叶斯对文档利用朴素贝叶斯对文档利用朴素贝叶斯对文档利用朴素贝叶斯对文档分类分类分类分类为了对文档进行分类,首先我们需要把文档进行向量化,而组成这个向量的分量,通常是一个文档集合中重要的关键词。Bag of words,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者

18、说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。第33页/共48页利用朴素贝叶斯对文档利用朴素贝叶斯对文档利用朴素贝叶斯对文档利用朴素贝叶斯对文档分类分类分类分类将多个文档转换成一个词袋矩阵后,即可通过朴素贝叶斯方法对文档进行分类。足球足球高考高考航母航母基金基金量子量子分类分类10000体育00000娱乐00001科技01001教育00010财经00100军事第34页/共48页扩展:使用0,1方式表达的词袋模型虽然简单,但它并不能表达出不同词语的重要性,因此在信息检索领域,TF-IDF模型更常用。第35页/共48页TFTF(定义定义定义定义)关键词在该文档中出现

19、的次数除以该文档的总字数。我们把这个商称为“关键词的频率”,或者单文本词频(term frequency,TF)对关键词的次数进行归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)第36页/共48页TFTF(举例举例举例举例)短语“原子能的应用”可以分成三个关键词:原子能、的、应用在某个一共有1000词的文档中,其中“原子能”、“的”和“应用”分别出现了2次、35次和5次,那么它们的词频就分别是0.002、0.035和0.005。我们将这三个数相加,其和0.042就是相应文档和查询“原子能的应用”的“单文本词频”第37页/共48页TFTF(

20、概括概括概括概括)因此,度量文档和查询的相关性,有一个简单的方法,就是直接使用各个关键词在文档中出现的总词频具体地讲,如果一个查询包含N个关键词 w1,w2,.,wN,它们在一个特定文档中的词频分别是:TF1,TF2,.,TFN。那么,这个查询和该文档的相关性就是:TF1+TF2+.+TFN。第38页/共48页TFTF(漏洞漏洞漏洞漏洞)由上例可知:词词“的的”占占了了总总词词频频的的80%80%以以上上,而而它它对对确确定定文文档的档的主题几乎没有用处主题几乎没有用处 这种词叫这种词叫“停止词停止词”,也就是说,在度量相关性时不,也就是说,在度量相关性时不应考虑它们的频率应考虑它们的频率 忽

21、略这些停止词后,忽略这些停止词后,上述文档和上述文档和查询的相关性就查询的相关性就变成了变成了0.0070.007,其中,其中“原子能原子能”贡献了贡献了0.0020.002,“应用应用”贡献了贡献了 0.0050.005在汉语中,在汉语中,“应用应用”是个很通用的词,而是个很通用的词,而“原子原子能能”是个很专业的词,后者在相关性排名中比前是个很专业的词,后者在相关性排名中比前者重要。因此,我们需要给汉语中的每一个词给者重要。因此,我们需要给汉语中的每一个词给一个一个权重权重。第39页/共48页权重权重权重权重(设定条件设定条件设定条件设定条件)这个权重的设定必须满足下面两个条件:一一个个词

22、词预预测测主主题题的的能能力力越越强强,权权重重就就越越大大,反反之之,权权重重就就越越小小。在在文文档档中中看看到到“原原子子能能”这这个个词词,或或多多或或少少地地能能了了解解文文档档的的主主题题。而而看看到到“应应用用”一一词词,则则对对主主题题基基本本上上还还是是一一无无所所知知。因因此此,“原子能原子能“的权重就应该比的权重就应该比“应用应用”大大停止词的权重应该是零。停止词的权重应该是零。第40页/共48页权重权重权重权重(概括概括概括概括)很容易发现,如果一个关键词只在很少的文档中出现,通过它就容易锁定搜索目标,它的权重也就应该大。反之,如果一个词在大量文档中出现,看到它仍然不很

23、清楚要找什么内容,因此它的权重就应该小概括地讲,假定一个关键词w在Dw个文档中出现过,那么Dw越大,w的权重越小,反之亦然第41页/共48页IDFIDF(逆向文件频率逆向文件频率逆向文件频率逆向文件频率)在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部文档数。比如,假定中文文档数是D=10亿,停止词“的”在所有的文档中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)=log(1)=0假如专用词“原子能”在200万个文档中出现,即 Dw=200万,则 它 的 权 重ID

24、F=log(500)=8.96又假定通用词“应用”,出现在五亿个文档中,它的权重IDF=log(2)则只有1第42页/共48页TF-IDFTF-IDF也就只说,在文档中找到一个“原子能”的命中率相当于找到九个“应用”的命中率利用IDF,上述相关性计算的公式就由词频的简单求和变成了加权求和,即TF1*IDF1+TF2*IDF2+.+TFN*IDFN在上面的例子中,该文档和“原子能的应用”的相关性为0.0161,其中“原子能”贡献了0.0126,而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。第43页/共48页查询查询查询查询如果结合文档排名(PageRank)算法,那么给定一个查

25、询,有关文档的综合排名大致由相关性和文档排名的乘积决定第44页/共48页TF-IDFTF-IDF值值值值(应用应用应用应用)经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性比如:新闻分类第45页/共48页新闻分类新闻分类新闻分类新闻分类(找数字找数字找数字找数字)对于一篇新闻中的所有实词,计算出它的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排列,就得到一个向量如果单词表中的某个词在新闻中没有出现,对应的值为零我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。每一篇新闻都可以对应这样一个特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献第46页/共48页新闻分类新闻分类新闻分类新闻分类(相似性相似性相似性相似性)根据余弦定理,求出特征向量之间的夹角夹角在0度到90度之间两向量夹角的余弦等于1时,也就是夹角为0,两条新闻完全相同:当夹角的余弦接近1时,两条新闻相似,从而可以归成一类夹角的余弦越小,夹角越大,两条新闻越不相关当两个向量正交时(90度),夹角的余弦为0,说明两篇新闻根本没有相同的主题,它们毫不相关第47页/共48页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com