模式识别(第一章).pdf

上传人:asd****56 文档编号:69684001 上传时间:2023-01-07 格式:PDF 页数:15 大小:6.20MB
返回 下载 相关 举报
模式识别(第一章).pdf_第1页
第1页 / 共15页
模式识别(第一章).pdf_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《模式识别(第一章).pdf》由会员分享,可在线阅读,更多相关《模式识别(第一章).pdf(15页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、1Xuegong Zhang Tsinghua University1模式识别基础Fundamental Pattern Recognition张学工TA:吕雪松,李婷婷吕雪松,李婷婷Xuegong Zhang Tsinghua University2Lecture 1绪论什么是模式识别?Xuegong Zhang Tsinghua University3什么是模式识别?看到东西?得出看法观察?判断观测?决策量化观测?分类决策xRd?y-1,1模式识别Xuegong Zhang Tsinghua University4Souroce:MIT AI LabXuegong Zhang Tsingh

2、ua University5Souroce:MIT AI LabXuegong Zhang Tsinghua University6Souroce:UC Berkeley1Lecture 2模式识别系统举例contintuedExample Application of PR in Geophysical Exploration简介:石油的形成与开采石油地球物理勘探原理简介根据地震数据进行储层分析 石油物探中的模式识别问题 地震反射的到达时间 反映地层的构造信息 地震数据的波形、频率成分 与地层的岩性、含油气性质有关储层性质地震数据已知数据实例2实例(续)方案1.监督模式识别提取与储层性质关系

3、密切的地震数据特征 振幅、能量、频率、相位将待研究的储层性质归纳为几个类别用已知井(旁的地震数据)作为训练样本得到某种分类器,对未知位置进行分类预测 问题:训练样本过少训练样本缺乏充分的代表性实例(续)方案2.非监督模式识别提取与储层性质关系密切的地震数据特征对这些数据进行聚类分析考察聚类结果,根据有关地质知识和已知井信息判断结果的合理性,对聚类进行解释根据聚类结果对未知位置进行判断 问题:只能得到定性结果,对已知井的信息利用不充分实例(续)方案3.非监督模式识别+监督模式识别首先进行非监督模式识别分析根据非监督分析结果指定若干虚拟训练样本用已知井和虚拟训练样本组成训练样本集利用监督模式识别再

4、次进行学习和预测实例(续)非监督分析结果实例(续)非监督分析基础上,定量监督学习后的预测结果Sand ThicknessWellsDepth(m)ActualpredictedTH-A21233-141035.7mknownTH-A51242-142051.9mknownTH-A61239-141621.8mknownTH-A511264-144142.1m42.4mTH-A521261-144045.6m43.8m模式识别属于基于数据的机器学习范畴复杂疾病复杂疾病已知病例数据已知病例数据基因表达数据语音识别结果语音识别结果声音电平数据声音电平数据语料库语料库储层性质地震数据已知数据3PR i

5、n cancer genomicsGene expression(from microarray)+clinical dataGene selectionClassification Validation Result:ClassifierRelevant genesPR in cancer genomics-unsupervised learningGene expression Gene selectionClusteringExplanation Result:ClassifierRelevant genes从这些例子我们看到了什么?特征 特征很重要领域知识特征选择特征提取分类和聚类 分

6、类和聚类是模式识别系统的核心依据概率分布模型直接依据数据 监督学习分类器对样本的要求/样本的选择 非监督学习聚类方法结果的解释(统计)模式识别系统的基本组成 有已知样本情况:监督模式识别(supervised PR)无已知样本情况:非监督模式识别(unsupervised PR)信息获取与预处理特征提取与选择分类器设计(训练)分类决策(识别)信息获取与预处理特征提取与选择聚类(自学习)结果解释4处理监督模式识别问题的一般步骤1.分析问题分析问题:看是否属于模式识别问题,把研究的目标抽象为类别;分析问题中哪些(可以观测的)因素可能与分类有关2.原始特征获取原始特征获取:设计实验方法,得到已知样本

7、,对这些样本实施观测和预处理,获取与样本分类有关的观测向量(原始特征)3.特征选择与提取特征选择与提取:为了更好地进行分类,对特征进行必要的提取与选择4.分类器设计分类器设计:利用已知样本设计(训练)某种分类器5.分类分类:对未知样本,实施同样对信息获取与预处理、特征提取与选择,用设计对分类器进行识别处理非监督模式识别问题的一般步骤1.分析问题分析问题:看研究对目标是否可能抽象为若干类别;分析问题中哪些(可以观测的)因素可能与所关心对类别有关2.获取原始观测获取原始观测:观测未知样本,获取原始特征3.特征提取与选择特征提取与选择:进行必要的特征提取与选择4.聚类分析聚类分析:采用某种方法将未知

8、样本分类5.结果解释结果解释:分析所得的类别与所关心的目标之间对关系;如问题需要,用同样的方法对新的未知样本进行分类1Xuegong Zhang Tsinghua University1Lecture 1绪论(续)Xuegong Zhang Tsinghua University2模式 与 模式识别Pattern and Pattern RecognitionXuegong Zhang Tsinghua University3何谓“模式(Pattern)”?说文:说文:模,法也。模,法也。式,法也。现代英汉词典:式,法也。现代英汉词典:拉丁词根 pat(父亲),父是子的“模型”拉丁词根 pat

9、(父亲),父是子的“模型”图案,花样;方式;样品;型,式样,纸样,模型;模范,典型;图案,花样;方式;样品;型,式样,纸样,模型;模范,典型;模式模式A physical arrangement of elementsRepeating;with some degree of correspondence in successive trials or observationsAmerican Heritage DictionaryA model or an original used as an archetype.A person or thing considered worthy of

10、 imitation.A plan,diagram,or model to be followed in making things:a dress pattern.A representative sample;a specimen.An artistic or decorative design:a paisley pattern.A design of natural or accidental origin:patterns of bird formations.A consistent,characteristic form,style,or method,as:A composit

11、e of traits or features characteristic of an individual or a group:ones pattern of behavior.Form and style in an artistic work or body of artistic works.The configuration of gunshots upon a target that is used as an indication of skill in shooting.The distribution and spread,around a targeted region

12、,of spent shrapnel,bomb fragments,or shot from a shotgun.Enough material to make a complete garment.A test pattern.The flight path of an aircraft about to land:a flight pattern.Xuegong Zhang Tsinghua University4常见模式举例Xuegong Zhang Tsinghua University5常见模式举例(续)心电图Xuegong Zhang Tsinghua University6常见模

13、式举例(续)The English Language2Xuegong Zhang Tsinghua University7常见模式举例(续)Xuegong Zhang Tsinghua University8常见模式举例(续)社会模式:信用:收入、消费习惯、贷款、保险:驾龄、出险次数、车型、驾驶习惯、信息服务:爱好、浏览习惯、文化程度、择偶:背景、爱好、性格、经济状况、性格:文化:事件:政治:Xuegong Zhang Tsinghua University9常见模式举例(续)人脸的模式 共性:“人脸”作为一类目标区别于其他 个性:每个人作为一类区别于其他人Xuegong Zhang Tsin

14、ghua University10什么是“模式(Pattern)”?对象的组成成分或影响因素之中所存在的直接或间接的规律性的关系or 存在确定性或随机规律的对象、过程或事件的集合Xuegong Zhang Tsinghua University11什么是“识别(recognition)”?说文识,知也。回乡偶书:儿童相见不相识,笑问客从何处来。别,分解也。荀子君道:知国之安危臧否,若别白黑。现代英汉词典 The act or process of identifying(or associating)an input withone of a set of known possible alt

15、ernatives 美国传统辞典 An awareness that something perceived has been perceived before.Xuegong Zhang Tsinghua University12何为“模式识别”?Pattern Recognition the recognition of patterns To see something 1 as something 2 通过对事物的观察对其某种性质某种性质的认识尤指分类性质尤指分类性质3Xuegong Zhang Tsinghua University13何为“模式识别”?(续)对象:样本 Sample

16、 (模式)模式:类Class (模式类)观察:特征 Features (属性)模式识别:把样本根据其特征归类 又称“模式分类”(pattern classification)例如:硬币分类六类:1分、2分、5分、1角、5角、1元特征:重量、颜色、体积、文字、图案、.Xuegong Zhang Tsinghua University14何为模式识别?(续)完全确定完全随机模式识别研究的范畴Xuegong Zhang Tsinghua University15模式识别系统的基本组成特征提取与选择特征提取与选择分类方法分类方法原始观测获取原始观测获取Xuegong Zhang Tsinghua Un

17、iversity16解决模式识别问题的几类方法 基于知识的方法(Knowledge-based)AI、专家系统(Expert Systems)句法(结构)模式识别(Syntax PR or Structural PR)基于数据的方法(Data-based)统计模式识别方法统计模式识别方法(Statistical PR)人工神经网络(ANN)、支持向量机(SVM)混合方法(Hybrid Methods)Xuegong Zhang Tsinghua University17统计模式识别的基本概念Xuegong Zhang Tsinghua University18概念和名词约定 样本sapmle:

18、待研究对象的个体,包括性质已知或未知的个体(注意:统计学中有不同的约定)类别class:将所研究的样本性质离散化为有限的类别,认为同一类的样本在该性质上是不可区分的 习惯上,类别用 表示,如1、2,也用-1,1表示 已知样本known samples:类别情况已知的样本 未知样本unknown samples:类别情况未知的样本 样本集sample set:若干样本的集合,分已知样本集和未知样本集4Xuegong Zhang Tsinghua University19概念和名词约定(续)特征features:样本的任何可区分的(且可观测的)方面 包括定量特征和定性特征,但通常最后转化为定量特征

19、 特征向量feature vectors:样本的所有特征组成的 n 维向量是样本在数学上的表达,因此也称作样本样本 特征空间feature space:特征向量所在的 n 维空间,每一个样本(特征向量)是该空间中的一个点,一个类别是该空间中的一个区域Xuegong Zhang Tsinghua University20概念和名词约定(续)分类器classifier:能够将每个样本都分到某个类别中去(或者拒绝)的计算机算法 Decision region:分类器将特征空间划分为若干区域(决策域)Decision boundary:不同类别区域之间的边界称作分类边界、决策边界或分类面、决策面Xue

20、gong Zhang Tsinghua University21统计模式识别(Statistical Pattern Recognition):用统计的方法解决模式识别问题Xuegong Zhang Tsinghua University22一个最简单的例子Xuegong Zhang Tsinghua University23硬币的分类:最简单的情况 两类:比如1角(1)和1分(2)首先考虑没有任何观测的情况 分类:依据概率 先验概率(a prior probabilities)如果 P(1)P(2),则 x 1 如果 P(1)P(2|x),则 x 1 如果 P(1|x)P(2|x),则 x

21、2 如何计算后验概率?Bayes公式)()()|()(),()|(xpPxpxpxpxPiiii=5Xuegong Zhang Tsinghua University25硬币的分类:略微复杂一些(续)如何计算后验概率?)()()|()(),()|(xpPxpxpxpxPiiii=所有硬币的 x 分布密度函数(假定只有1角/5角硬币)对不同类别,此部分相同,不影响比较大小,因此不必要计算 统计很多情况,估算先验概率 到央行询问总共发行了多少各种硬币 根据猜测确定一个大概(比如0.5)类条件概率密度:类条件概率密度:到央行或造币厂询问硬币的国家标准 收集一定数量的各种硬币,统计其类条件概率密度Xu

22、egong Zhang Tsinghua University26硬币的分类:更复杂一些 两类:1角(1)和5角(2)有一种或几种观测特征 x(比如重量或重量和直径)进一步考虑:风险风险 Risk(of the decision)“把1角识别成5角”和“把5角识别成1角”的风险是不同的!而且,识别本身是有成本和前提的!?针对各种情况的统计模式识别理论和方法Xuegong Zhang Tsinghua University27从这个例子我们看到了什么?特征 分类器(判别函数)g1(x)、g2(x)错误率、风险 多类Xuegong Zhang Tsinghua University28问题 利用什

23、么特征、多少特征?如何得到分类器?基于知识基于数据基于数据利用样本估计先验概率、概率密度函数利用样本估计先验概率、概率密度函数直接利用设计某种分类器直接利用设计某种分类器统计模式识别Xuegong Zhang Tsinghua University29非监督模式识别Unsupervised Pattern RecognitionXuegong Zhang Tsinghua University30监督学习(supervised learning)以上讨论的基本思路:给出若干已知答案的样本(训练样本 training samples)由机器从这些样本中进行学习(训练training/learni

24、ng)学习的目的在于从这些样本中总结规律,使之能够对新的样本进行判断 监督学习监督模式识别6Xuegong Zhang Tsinghua University31另一种学习物以类聚Xuegong Zhang Tsinghua University32非监督学习(Unsupervised Learning)无指导情况下的学习 所面对的只有未知答案的样本 由机器从这些样本中进行学习(自学习)学习的目的在于从这些样本中发现规律,这种规律应该是某种固有的关系,或者依据这种规律对对象的分类有某种功用 非监督学习非监督模式识别聚类分析 cluster analysis or clusteringXuego

25、ng Zhang Tsinghua University33这些人应该分成几类?根据什么分?如果要求把这些人分成两类,如何分?根据性别?是否戴眼镜?头发颜色?长相?casesexglassesmoustachesmilehairslooking1mynygrey0.52fnnyyellow0.63mynngreen0.84mnnnyellow0.25mnny?black0.16mnynblack0.37mynybrown0.78mnnygrey0.39myyyno0.110fnnnyellow0.811mnynno0.312fnnnbrown0.4如何根据这些特征将这些样本分类?分类的目的是什

26、么?Xuegong Zhang Tsinghua University34特征的重要性特征提取与选择特征提取与选择分类方法分类方法原始观测获取原始观测获取Xuegong Zhang Tsinghua University35Example:To determine(recognize)whether a patient has inflammation,what feature(s)should we use?height?No weight?No blood-pressure?No body temperature?Maybe leukocyte(white blood cells)?Yes

27、 Feature selection based on domain knowledgeXuegong Zhang Tsinghua University36例:要从一段语音识别说话人是男是女,依靠什么特征?直接利用声音信号(时间序列)?声音大小?说话快慢?说话内容?音调高低(频率)maybe 要从股价曲线上判断一支股票的状态,用什么特征?直接利用曲线上的数值?从曲线计算出新特征(比如股价对时间的导数)?7Xuegong Zhang Tsinghua University37模式识别系统的评价 错误率正确率、错误率(虚警/误判)、拒识率理论估算实验测算 对训练样本集 交叉验证 对测试样本集2X

28、uegong Zhang Tsinghua University7Xuegong Zhang Tsinghua University8Xuegong Zhang Tsinghua University9summarized in Table 2.More than 40%of the group A VSAS events were found to be conserved in mouse and rat,whereas in group B VSAS events,this percentage is much lower(20%).Although a significant corr

29、elation between the grouping and the number of conserved events is not observed Xuegong Zhang Tsinghua University10Not only pictures,of course!Xuegong Zhang Tsinghua University11统计模式识别Xuegong Zhang Tsinghua University123Xuegong Zhang Tsinghua University13PR in GenomicsXuegong Zhang Tsinghua Universi

30、ty14DNAmRNAProteinPhenotypemiRNAGenomeTranscriptomeProteomePhenomeXuegong Zhang Tsinghua University15 Xuegong Zhang Tsinghua University16 People recognize things,from observations.-识别 People recognize things by recognizing patterns,rather than individual observations.-模式识别 Pattern Reognition with Ma

31、chines People like to make machines that can do what we can.Because we are curious Because we are lazy Because we are not so able再看什么叫模式识别Xuegong Zhang Tsinghua University17本课程主要内容 模式识别的概念 模式识别问题的数学表达 基本模式识别系统的组成 解决模式识别问题的基本理论与方法 一些代表性方法/算法 一些最新进展和存在问题Xuegong Zhang Tsinghua University18教材和参考书Duda,Ha

32、rt,Stork著,李宏东等译,模式分类,机械工业出版社,中信出版社,20034Xuegong Zhang Tsinghua University19课程安排课程大纲要求:听课阅读作业/实验考试:期末开卷考试+平时作业和报告Xuegong Zhang Tsinghua University20选作大作业预告 大作业本着自愿的原则,完全凭兴趣,做得好则考虑到成绩中,一般则不计;可以合作;不求实用,但求体验 大作业1设计并实现一个玩具系统,从麦克风采语音数据(限内容或不限内容),用计算机来判断说话人的性别(如果想进一步则可做说话人识别)大作业2设计并实现一个试验软件,根据用户近一段时间内对邮件的处理规律,对新来的邮件按内容自动分类为“立即处理”、“一般邮件”、“垃圾邮件”三类(或其中的两类)大作业3其他类似的工作,比如照片的分类(人物/风景、好看/不好看等)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com