机器学习实验报告-朴素贝叶斯学习和分类文本(共6页).docx

上传人:飞****2 文档编号:14981569 上传时间:2022-05-10 格式:DOCX 页数:6 大小:104.77KB
返回 下载 相关 举报
机器学习实验报告-朴素贝叶斯学习和分类文本(共6页).docx_第1页
第1页 / 共6页
机器学习实验报告-朴素贝叶斯学习和分类文本(共6页).docx_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《机器学习实验报告-朴素贝叶斯学习和分类文本(共6页).docx》由会员分享,可在线阅读,更多相关《机器学习实验报告-朴素贝叶斯学习和分类文本(共6页).docx(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上机器学习实验报告朴素贝叶斯学习和分类文本(2015年度秋季学期)一、 实验内容问题:通过朴素贝叶斯学习和分类文本目标:可以通过训练好的贝叶斯分类器对文本正确分类二、 实验设计实验原理与设计:在分类(classification)问题中,常常需要把一个事物分到某个类别。一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,xn),用x这个向量来代表这个事物。类别也是有很多种,用集合Y=y1,y2,ym表示。如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别。这就是所谓的分类(Classification)。x的集合记为X,称为属性集

2、。一般X和Y的关系是不确定的,你只能在某种程度上说x有多大可能性属于类y1,比如说x有80%的可能性属于类y1,这时可以把X和Y看做是随机变量,P(Y|X)称为Y的后验概率(posterior probability),与之相对的,P(Y)称为Y的先验概率(prior probability)。在训练阶段,我们要根据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P(Y|X)。分类时,来了一个实例x,在刚才训练得到的一堆后验概率中找出所有的P(Y|x), 其中最大的那个y,即为x所属分类。根据贝叶斯公式,后验概率为 在比较不同Y值的后验概率时,分母P(X)总是常数,因此可以忽略。先验概

3、率P(Y)可以通过计算训练集中属于每一个类的训练样本所占的比例容易地估计。在文本分类中,假设我们有一个文档dX,X是文档向量空间(document space),和一个固定的类集合C=c1,c2,cj,类别又称为标签。显然,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合作为训练样本,XC。例如:=Beijing joins the World Trade Organization, China对于这个只有一句话的文档,我们把它归类到 China,即打上china标签。我们期望用某种训练算法,训练出一个函数,能够将文档映射到某一个类别: :XC这种类型的学习方法叫做有监督学习,因为事

4、先有一个监督者(我们事先给出了一堆打好标签的文档)像个老师一样监督着整个学习过程。朴素贝叶斯分类器是一种有监督学习。实验主要代码:1、由于中文本身是没有自然分割符(如空格之类符号),所以要获得中文文本的特征变量向量首先需要对文本进行中文分词。这里采用2、先验概率计算,N表示训练文本集总数量。3、条件概率计算,为在条件A下发生的条件事件B发生的条件概率。x给定的文本属性,c给定的分类4、对给定的文本进行分类三、测试数据训练集文本:数据样例选用的文本分类数据的mini版本类别及标号测试数据文本:通过观察可知,该文本预期为IT类文章三、 实验结果运行结果如下图根据数据集的分类编号可知,该测试文本属于IT,与预期相符五、遇到的困难及解决方法、心得体会通过此次实验,让我对朴素贝叶斯有了更深刻的理解,原本只是了解基本的先验概率公式。实验过程中学习了中文的分词以及停用词的使用,使分类更加的准确,也认识到了贝叶斯广阔的实用空间,对于机器学习这门课的兴趣也更加浓厚。专心-专注-专业

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com