【精编】基于K近邻的手写数字识别.pdf

上传人:索**** 文档编号:85742469 上传时间:2023-04-12 格式:PDF 页数:23 大小:4.22MB
返回 下载 相关 举报
【精编】基于K近邻的手写数字识别.pdf_第1页
第1页 / 共23页
【精编】基于K近邻的手写数字识别.pdf_第2页
第2页 / 共23页
点击查看更多>>
资源描述

《【精编】基于K近邻的手写数字识别.pdf》由会员分享,可在线阅读,更多相关《【精编】基于K近邻的手写数字识别.pdf(23页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、基于 K近邻的手写数字识别作者:日期:暑 期 生 产 实 习 报 告题目基于 K-近邻算法的手写数字识别学院电子工程学院专业智能科学与技术学生姓名学号指导老师提交日期摘要基于-近邻算法对经典的手写数字集mn st 中的测试数据进行分类。用 MTAB语言编写代码,将原始数据读入,形成三维矩阵,再通过近邻算法计算出待测数据周围最近的k 个数据,将待测数据分为 k 个数据中最多的类。本次实验只是用 mnist 数据中训练图像前 600 张,测试图像前 1000 张。关键词:-近邻算法,数据分类,手写数字集,m ist数据集目录一 绪论.5 11 k-近邻算法的基本概念.5 1.2 mn st 数据集

2、?5二-近邻算法?621 k 近邻算法的工作原理.6.2 k近邻算法的算法步骤?623 k-近邻算法的优缺点.三 k-近邻算法分类 ns的具体方法 .错误!未定义书签。四 实验结果与分析?74.1 待测图像.7 4.2 实验结果?943 结果分析?1 五实验代码 .17 六总结与展望 .16 6总结?1 6 展望.6 参考文献?17一、绪论11 手写数字识别的基本概念手写数字识别是图像识别的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写的阿拉伯数字。在整个 CR 领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实

3、用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决方案。1.手写数字识别的实际背景字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字、英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通

4、过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。1.3 手写数字识别的理论意义手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值:(1)阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背景无关,这样就为各国、各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨,比较各种研究方法。(2)由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这方面最明显的例子就是人工神经网络,相当一部分的人工神经网络模型都以手写数字识别作为具

5、体的实验平台,验证理论的有效性,评价各种方法的优缺点。(3)尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问题。()手写数字的识别方法很容易推广到其它一些相关问题,一个直接的应用是对英文这样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识别放在一块儿研究的。1.4 基于手写数字识别的典型应用手写数字识别有着极为广泛的应用前景,这也正是它受到世界各国的研究工作者重视的一个主要原因。下面我们将介绍基于手写数字识别的应用系统的特殊要求,以及一些以手写数字识别技术为基础的典型应用。(1)手写数字识

6、别在大规模数据统计中的应用在大规模的数据统计(如:行业年鉴、人口普查等)中,需要输入大量的数据,以前完全要手工输入,则需要耗费大量的人力和物力。近年来在这类工作中采用C技术已成为一种趋势。因为在这种应用中,数据的录入是集中组织的,所以往往可以通过专门设计表格和对书写施加限制以便于机器的自动识别。目前国内的大多数实用系统都要求用户按指定规范在方格内填写。另外,这些系统往往采用合适的用户界面对识别结果做全面的检查,最终保证结果正确无误。可以看出,这是一类相对容易的应用,对识别核心算法的要求比较低,是目前国内很多单位应用开发的热点。(2)手写数字识别在财务、税务、金融领域中的应用财务、税务、金融是手

7、写数字识别大有可为的又一领域。随着我国经济的迅速发展,每天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把它们用计算机自动处理,无疑可以节约大量的时间、金钱和劳力。与上面提到的统计报表处理相比,在这个领域的应用难度更大,原因有:1、对识别的精度要求更高;2、处理的表格往往不止一种,一个系统应能智能地同时处理若干种表格;、由于处理贯穿于整个日常工作之中,书写应尽量按一般习惯(如:不对书写者的写法做限定,书写时允许写连续的字串,而不是在固定的方格内书写),这样对识别及预处理的核心算法要求也提高了。()手写数字识别在邮件分拣中的应用随着人们生活水平的提高,经济活动的发展,通信联系的需求使信

8、函的互换量大幅度增加,我国函件业务量也在不断增长,预计到 00 年,一些大城市的中心邮局每天处理量将高达几百万件,业务量的急剧上升使得邮件的分拣自动化成为大势所趋。在邮件的自动分拣中,手写数字识别(OC)往往与光学条码识别、人工辅助识别等手段相结合,完成邮政编码的阅读。目前使用量最大的OVS分拣机的性能指标:OCR 拒分率 30%,CR 分拣差错率.。.手写数字识别技术展望随着国家信息化进程的加快,手写数字识别的应用需求将越来越广泛,因此应当加强这方面的研究工作。作者认为,应用系统的性能的关键与瓶颈仍然在于手写数字识别核心算法性能上,最终目标是研究零误识率和低拒识率的高速识别算法。此外,尽早建

9、立反映中国人书写习惯的、具有国家标准性质的手写数字样本库也是当务之急。二、k 近邻算法.1 k 近邻算法的基本概念k近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的个数据,这 k 个数据的多数属于某个类,就把该输入实例分类到这个类中。k-近邻算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。k-近邻方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于k-近邻方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的

10、待分样本集来说,k近邻方法较其他方法更为适合。?k近邻算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k 个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weigh),如权值与距离成正比(组合函数)。该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响

11、运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K 个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。.2 k 近邻算法的工作原理存在一个样本数据集合(即训练样本集),并且样本集中每个数据都存在标签(即每个数据与所属分类的对应关系)。输入没有标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,算法将提取出样本集中特征最

12、相似数据(最近邻)的分类标签。一般选择样本数据集中前K 个最相似的数据,一般不大于 20的整数。.k 近邻算法的算法步骤tep.1 计算已知类别数据集中的点与当前点之间的距离;221221)()(dyyxxSe.2 按照距离递增次序排序;Step.3 选取与当前点距离最小的k 个点;St 4 确定前 k 个点所在类别的出现频率;?Ste.5 返回前 k 个点出现频率最高的类别作为当前点的预测分类。.4 -近邻算法的优缺点-近邻算法拥有以下优点:精度高、对异常值不敏感、无输入数据假定?k-近邻算法拥有以下缺点:时间复杂度和空间复杂度都很高三k 近邻算法分类n t 的具体方法数据先预处理,将下载的

13、初始图像数据读入TLA,并储存为三维的矩阵,再读入标签文件,储存为二维矩阵,以便后面的使用。手写数字图像都为28 像素*28 像素,对于每一个数字图像,计算其与每一张训练图像的距离,对于一张待测图像与训练图像,计算每一个像素的差值,如果差值大于参数,则这两站图的距离加一,直到784 个像素点全部计算完毕,得到两张图的距离。再用排序找到与该张数字图像最近的k 张图像,对距离最近的k 张图像根据训练数据标签进行分类,找到k 张图像中最多的数字,该张测试数字图像即划分为该数字类。四实验结果与分析4 待测图像图.1待测第 1 张图图 4.待测第张图图 4.3 待测第张图图 4.4待测第张图图 45待测

14、第张图图 4待测第 6 张图.2 实验结果图 4.7 训练样本三维矩阵图 4.8 测试样本三维矩阵图 49 距离矩阵图.10 测试图像分类结果图 4.正确率图 4.12 工作区4.3 结果分析因为所使用的电脑限制,只选取了部分数据集进行实验,所以准确性会有所下降,训练样本数据的增加在一定程度上可以提升正确率。其次参数的选择对于实验结果的影响比较巨大,本次实验中用到了两个参数,即计算距离时的参数 5,以及参数,两个参数需要多次实验以选取最佳参数来得到最优分类结果。4 m s数据集Google 实验室的Corinna Co te 和纽约大学柯朗研究所的aneCun建有一个手写数字数据库,含有0-的

15、 6000张训练图像和 9 的0测试图像两种,每张图片灰度级都是8,且每张图片可以使用一个784 大小的向量表征。下载网址五实验代码1 主程序lclar k=100;%k 距离a=1000;%待测数据个数b=600;训练数据个数l d(t _IMAG.mat);%载入待测图像矩阵lod(ni t_ rin.ma);%载入训练图像矩阵distnce=z os(a,b);numer=eos(1,0);tested_ umber ero(,a);FD=f(t10k-la elsid1-uy e,r);载入待测图像标签magicnumbr red(I,2);ze=frea(FID,2);row=fr

16、d(FI,2);c ums=fea(FD,);test_ el ad(ID);FD2=fope(train-bel.dx1-bt,);%载入训练图像标签aicnumberfread(FI,2);ze=frea(FD2,);rows=fread(F D2,2);o ms=read(FID2,2);ra label=f e(2);fi=1:a fo j1:b fo p1:28 foq=1:28 if(test MAGE(p,,)-trn_IMAGE(p,q,)4distance(,j)=ance(,j)+1;eenend nd nd%计算距离矩阵srted_disance,orte_ si on=

17、sort(ds ane,2);%距离矩阵排序ori1:a or 1:10 umber(q)=0;end or j=1:fp=:10 itri_labe(srted_position(,j)=(-1)nmbe()=number(p)+1;nd end%计算距离内数据个类数目orted numbe,biggest ort(number,2);tete numer(,)=igest(10)-;%给待测图像分类nd rght=0;or i=1:a if t sted_ub r()=tes labl(i)ri t=right+1;ed end righ_ate=right/a;%计算正确率2 读取原始数

18、据程序clcear tet_MA E=ers(28,2,1000);FID ope(1k-ima es 3-te,);mginmbr=f ea(FID,4);sze=read(FID,4);rows=frea(FI,);colus=fread(FID,);fr i=1:10000 train_image=f ead(FI,28);msh w(r in_image);o=1:28 for q=:8 t t_IMA(p,q,i)ai_iage(p,q);赋值给三维矩阵eneend 六 总结与展望6.总结本文开始介绍了k 近邻算法与需要处理的数据集nt,并且讲述了k近邻算法的基本思路及步骤,然后对于

19、这次的实验也给出了具体的方法。最终是实验代码与结果,并对于结果进行了分析。通过本次实验,首先对于 k 近邻算法有了一个更加清晰的理解,看了一些其他用 k 近邻算法来分类手写数字集mnis的优化方法,也明白了自己的一些不足,学习到了新的思路。其次也学习了手写数字识别的方法,以及数据预处理的基本步骤,总的来说,还是学到了很多知识。6.2 展望这次的实验结果正确率只有72.%,还是比较低的,所以我想继续来学习好的优化方法,新的分类方法,来提高分类的正确率。并且数据挖掘、大数据处理已经成为网络世界的重点,需要更多的学习相关的算法,来更好地充实自己。参考文献 Peter Har ing .机器学习实战 M北京:人民邮电出版社,201.2Han J.w,.ambe.数据挖掘概念与技术 .北京:机械工业出版社,2001.3 王玲.基于 BP的特征提取研究 D.北京:北京交通大学图书馆,2 9

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com