(本科)第9章人工神经网络教学ppt课件.ppt

上传人:春哥&#****71; 文档编号:17118151 上传时间:2022-05-21 格式:PPT 页数:70 大小:2.68MB
返回 下载 相关 举报
(本科)第9章人工神经网络教学ppt课件.ppt_第1页
第1页 / 共70页
(本科)第9章人工神经网络教学ppt课件.ppt_第2页
第2页 / 共70页
点击查看更多>>
资源描述

《(本科)第9章人工神经网络教学ppt课件.ppt》由会员分享,可在线阅读,更多相关《(本科)第9章人工神经网络教学ppt课件.ppt(70页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、(本科)第9章 人工神经网络教学ppt课件LOGO第九章第九章 人工神经网络人工神经网络东北财经大学电子商务学院东北财经大学电子商务学院人工神经网络知识结构人工神经网络知识结构概述概述1人工神经元模型人工神经元模型2人工神经网络的结构人工神经网络的结构3感知机感知机4多层前馈网络多层前馈网络5后向传播后向传播6解释结果解释结果7学习任务学习任务89.1 人工神经网络概述人工神经网络概述 v 人脑由大约1010个大脑皮层神经元组成,每个神经元都是一个信息处理单元,这些神经元之间相互连接,传递信息。人工神经网络试图去模拟人脑信息处理的功能,是人脑及其活动的一个理论化的数学模型。 v 人工神经网络(

2、Artificial Neural Network, ANN),有时把“人工”两个字省略,亦称为神经网络(Neural Network, NN),是一个由很多节点通过方向性链接组成的一个网络结构,每一个节点代表一个处理单元,由大量并行分布式处理单元组成的处理机。v 它通过调整连接强度而从经验知识进行学习,并可以将这些知识进行运用。 一、定义一、定义9.1 人工神经网络概述人工神经网络概述 v 1988年,Hecht-Nielsen曾经给人工神经网络做了如下的定义:v 人工神经网络是一个并行、分布处理结构,它由处理单元及称为联接的无向信号通道互连而成。这些处理单元(Processing Elem

3、ent, PE)具有局部内存,并可以完成局部操作。每个处理单元有一个单一的输出联接,这个输出可以根据需要被分支成希望个数的许多并行联接,且这些并行联接都输出相同的信号,即相应处理单元的信号,信号的大小不因分支的多少而变化。处理单元的输出信号可能是任何需要的数学模型,每个处理单元中进行的操作必须是完全局部的。也就是说,它必须仅仅依赖于经过输入联接到达处理单元的所有输入信号的当前值和存储在处理单元局部内存中的值。一、定义一、定义9.1 人工神经网络概述人工神经网络概述v 人工神经网络不公在形式上模拟了生物神经系统的结构,它也确实具有大脑的一些基本特征:v 大规模并行分布处理结构信息在大脑单个神经元

4、之间的传递时间与计算机中信息的传递时间相比十分缓慢,但处理信息的整体速度却比许多计算机快很多。可见大脑的信息处理是并行的而不是串行的。人工神经网络是一个高效率的并行处理机。v 具有很强的容错性当发生神经元断开、干扰或者数据丢失等不利情况时,神经网络的效率并不会显著地降低,即任何局部的损伤不会影响整体结果。v 具有很强的自适应能力自适应能力也称为学习能力或自组织特性。人工神经网络在学习过程中,通过调整神经元之间的连接强度,具有初步的自适应与自组织的能力。当外部环境改变的时候,稍加训练神经网络就可以适应新的环境。v 高度非线性作为基本单元的神经网络可以是线性的或非线性的处理元素,但是由大量神经元构

5、成的整个神经网络是复杂异常的高度非线性的。一、定义一、定义9.1 人工神经网络概述人工神经网络概述 人工神经网络的研究始于20世纪40年代,经过了一条曲折的道路,发展至今大致可分为以下五个阶段:二、人工神经网络的发展二、人工神经网络的发展萌芽期萌芽期19431949第一个高潮期第一个高潮期19501968反思期反思期19601981第二个高潮期第二个高潮期19821991持续发展阶段持续发展阶段20世纪世纪90年代后年代后9.1 人工神经网络概述人工神经网络概述 二、人工神经网络的发展二、人工神经网络的发展(1)萌芽期v 1943年,精神病学家和神经解剖学家McCulloch与数学家Pitts

6、在数学生物物理学会刊Bulletin of Mathematical Biophysics上发表了一片文章。总结了生物神经元的一些基本特征,提出了一种简单的神经元的数学模型和构造方法,即著名的阈值加权和模型,简称MP模型。此模型一直沿用至今,它的提出兴起了神经网络的研究。v 1949年,生理学家D.O.Hebb出版了The Organization of Behavior一书,提出神经元之间突触联系是可变的假说,并第一次鲜明地提出了改变神经元连接强度的Hebb规则。他认为,人类的学习过程是发生在突触上的,突触的联系强度随其前后神经元的活动而变化。当某一突触(连接)两端的神经元同步激活(同为激活

7、或同为抑制)时,该连接的强度应增强,反之应减弱。称之为Hebb学习律。Hebb学习律为神经网络的学习算法奠定了基础,被认为是人工神经网络学习训练算法的起点,是里程碑,使神经网络的研究进入了一个重要的发展阶段。9.1 人工神经网络概述人工神经网络概述 二、人工神经网络的发展二、人工神经网络的发展(2)第一个高潮期v 第一个高潮大体上可以认为是从1950年到1968年,也就是从单层感知器(Perceptron)的构造成功开始,到单层感知器被无情地否定为止。这是人工神经网络的研究被广为重视的一个时期。v 1957年,美国计算机学家F.Rosenblatt提出了著名的感知器模型,此模型类似于MP模型,

8、但连接权值是可变的,输入一定的值,神经网络经过训练可以达到对一定的输入向量模式进行分类和识别的目的,使神经网络具有学习功能。v 在感知器盛行的20世纪60年代,人们对神经网络的研究过于乐观,不少人认为,只要其他的技术条件成熟,建立一个足够大的网络就可以解决人脑思维的模拟问题。因此当时有上百家实验室纷纷投入这项研究,美国军方也投入了巨额资金,当时神经网络在声纳信号识别等领域的应用取得了一定的成绩。9.1 人工神经网络概述人工神经网络概述 二、人工神经网络的发展二、人工神经网络的发展(3)反思期v 1969年,美国麻省理工学院人工智能专家M.Minsky与S.Papert在其合著的感知器一书中指出

9、单层感知器的计算具有根本的局限性,从理论上证明了当时的单层感知器无法解决许多简单的问题,甚至连异或问题这样基本的问题也不能解决。这结论的提出使得当时许多神经网络研究人员感到前途渺茫,放弃了除心理学和神经学之外的其他领域,政府、企业也削减了相应的投资,人工神经网络在随后的10年左右处于萧条状态。v Cowan在1990年提出了三个导致神经网络研究十多年滞后的原因。v 难能可贵的是,在此期间,仍有不少学者在极端艰难的条件下,致力于这一研究。在20世纪70年代和80年代早期,他们的研究结果很难得到发表,而且是散布于各种杂志之中。使得不少有意义的成果即使在发表之后,也难以被同行看到,这导致了反思期的延

10、长。著名的BP算法的研究就是一个例子。是技术上的,没有个人计算机和工作空间站进行实验,如Gabor发展了他的非线性学习滤波器,却花费了额外的六年时问建造了含有类推装置的滤波器;一半是心理上的,即Minsky和Papert对感知器的悲观结论,一半是资金上的,即没有代理商资助;是神经网络和晶格旋转之间的类推还未成熟,直到1975年才由Sherrington和Kirkpartrick创建出旋转镜片模型。9.1 人工神经网络概述人工神经网络概述 二、人工神经网络的发展二、人工神经网络的发展(4)第二个高潮期v 学术界公认,标志人工神经网络研究高潮的又一次到来是美国加州理工学院生物物理学家J.Hopfi

11、eld教授于1982年和1984年发表在美国科学院院刊上的两篇文章以及1986年Rumelhart与McLelland的两册书。v 1982年,J. Hopfield提出循环网络,并将Lyapunov函数引入人工神经网络,作为网络性能判定的能量函数,阐明了人工神经网络与动力学的关系,用非线性动力学的方法来研究人工神经网络的特性,建立了人工神经网络稳定性的判别依据,指出信息被存放在网络中神经元的联接上。v 1984年,J.Hopfield设计研制了后来被人们称为Hopfield网的电路。指出神经元可以用运算放大器来实现,所有神经元的连接可用电子线路来模拟。作为该研究的一项应用验证,它较好地解决了

12、著名的旅行商(TSP)优化问题,找到了最佳解的近似解,引起了较大的轰动。9.1 人工神经网络概述人工神经网络概述 二、人工神经网络的发展二、人工神经网络的发展(4)第二个高潮期v 1986年,Rumelhart, Hinton和Williams发展了反向传播算法(Back-Propagation algorithm, BP)。同年,Rumelhart和McClelland编写的名为Parallel Distributed Processing: Explorations in the Microstructures of Cognition一册两本出版,此书的出版对反向传播算法的应用产生了重要

13、影响。说他发展了,是因为后来人们发现早在1974年类似的算法由美国哈佛大学的P.Werbos提出过,只是当时没有受到应有的重视。BP算法从原则上解决了神经网络的训练方法问题,使人工神经网络有了很强的运算能力,大大拓宽了神经网络的应用范围。v 这个期间,人们对神经网络的研究达到了第二个高潮。1987年6月在美国加州举行了第一届神经网络国际会议,来自世界各地的1000多名学者参加了大会,并成立了国际神经网络学会。我国1990年3月在北京召开了首届神经网络学术大会。1991年在南京成立中国神经网络学会。9.1 人工神经网络概述人工神经网络概述 二、人工神经网络的发展二、人工神经网络的发展(5)再认识

14、与应用研究期v 步入20世纪90年代后,人们发现,关于人工神经网络还有许多待解决的问题,其中包括许多理论问题。所以,近期要想用人工神经网络的方法在人工智能的研究中取得突破性的进展还为时过早。因此又开始了新一轮的再认识。v 目前,大多数的研究主要集中在以下三个方面:1建立理论模型。从生理学、神经科学等学科对生物神经细胞和神经网络的研究成果出发,建立概念模型、知识模型、数学模型等。2网络模型与算法研究。在理论模型的基础上构造具体的神经网络模型,以便实现计算机模拟和硬件制造。3应用研究。在网络模型与算法研究的基础上,利用人工神经网络组成实际的应用系统,以便实现某种实际功能。9.2 人工神经元的模型人

15、工神经元的模型一、生物神经元一、生物神经元v 人类的大脑主要由称为神经元(neuron)的神经细胞组成,神经元不但是组成大脑的基本单元,而且也是大脑进行信息处理的基本元件。典型的生物神经元(即神经细胞)分为四个部分,细胞体:神经元的主体轴突(axon):连接细胞体的纤维丝,每个神经元只有一个轴突,可以把兴奋从胞体传送到另一个神经元或其他组织,如肌肉或腺体 树突(dendrite):细胞体通过它连接到其它神经元的轴突,树突是神经元细胞体的延伸物,每个神经元可以有一或多个树突,可以接受刺激并将兴奋传入细胞体神经键(synapse,又称突触):树突与轴突的连接点9.2 人工神经元的模型人工神经元的模

16、型二、人工神经元二、人工神经元v 神经元是构成神经网络的最基本单元(构件)。因此,要想构造一个人工神经网络系统,首要任务是构造人工神经元模型。v上图表示作为ANN基本单元的神经元模型,它有三个基本要素: (1)一组连接权(对应于生物神经元的突触),连接强度由各连接上的权值表示,权值为正表示激励,为负表示抑制。(2)加法器,用于求取各输入信息的加权和(线性组合)。(3)激活函数,起非线性映射作用并限制神经元输出幅度在一定的范围之内(一般限制在0,1或1,+1之间)。v此外,还包括一个外部的偏差,用 来表示。偏差有增大或者减小激活函数的净输入的作用,取决于该偏差是负值还是正值。像其它输入一样,它有

17、权重且包含在组合函数中,偏差充当整体偏移以便帮助网络较好地理解模式。训练阶段调整固定输入的权重的方法与网络对其它权重的调整方法相同。kb. f(net) netX1 X2 X3 W K1 W Kmb k y k第第K个神经元个神经元 神经元模型神经元模型W K2 9.2 人工神经元的模型人工神经元的模型二、人工神经元二、人工神经元v 我们来用数学术语对一个人工神经元的处理能力进行正式化。设n个输入分别用x1,x2,xn表示,它们对应的连接权值依次为w1,w2,wn,用net表示该神经元所获得的输入信号的累积效果,即输入和相应权重乘积的累加xiwki。用符号wko表示bk,并且默认输入x0=1,

18、新的net的求和的统一形式为:同样,还可以用矢量符号来将其表示成两个n维向量的无向量乘积:其中,Xx0,x1,xn Ww0,w1,wn最后,计算netk的某个函数值作为输出值yk: 函数 f 叫做激活函数。kknnkkkbwxwxwxnet2211ikiiknnkkkkwxwxwxwxwxnet221100WXnetk)(kknetfy 9.2 人工神经元的模型人工神经元的模型v 一些常用的激活函数激活函数输入输出关系图像阶跃对称阶跃线性函数分段线性函数对称分段线性函数对称S型双曲正切曲线neteneteneteneteynetey111 0111 1netnetnetnety如果如果如果00

19、1 1netnetnety如果如果nety 0如果00如果1netnety0如果10如果 1netnety9.2 人工神经元的模型人工神经元的模型二、人工神经元二、人工神经元v 将人工神经元的基本模型和激活函数合在一起构成人工神经元,这就是著名的MeCulloch-Pitts模型,简称为MP模型,也可以称之为处理单元(PE)。可以在单个神经元中分析所有处理阶段。v 单个节点的计算基本法则举例 对于3个输入和一个输出的神经元,计算三种激活函数所对应的输出值y。v 1. 激活函数为Symmetrical Hard Limit函数net=0.50.3+0.50.2+0.20.5+(-0.2) 1=0

20、.15y=f (net)=f (0.15)=1v 2. 激活函数为Saturationg Liear函数net=0.50.3+0.50.2+0.20.5+(-0.2) 1=0.15y=f (net)=f (0.15)=0.15v 3. 激活函数为Log-Sigmoid函数net=0.50.3+0.50.2+0.20.5+(-0.2) 1=0.15y=f (net)=f (0.15)=1/(1+e-0.15)=0.54(a)单个节点9.2 人工神经元的模型人工神经元的模型二、人工神经元二、人工神经元v 多个节点的计算法则举例假设给定的3个节点的偏差为0,并且所有节点的激活函数都是Symmetri

21、cal Hard Limit函数。问节点3的最终输出y3为多少?v 第一步,神经网络执行第一层中节点1和节点2的计算:net1=10.2+0.50.5=0.45 y1=f (0.45) =0.45 net2=1(-0.6)+0.5(-1)=-1.1 y2=f (-1.1)= -1v 第二步,第一层节点中的输出y1和y2是第二层中节点3的输入:net3=y1 1+y2 (-0.5)=0.45 1+(-1) (-0.5)=0.95 y3=f(0.95)=0.95 (b)三个相互链接的结点v 人工神经网络的结构是通过节点的特性以及网络中节点连接的特性来定义的。v 典型地,网络结构可以用网络的输入数目

22、,输出数目,基本节点的总数(通常节点单元的总数和整个网络的处理单元的数目相等),以及节点间的组织和连接方式来表示。v 按照连接的类型,神经网络通常分为两类:前向型和回馈型。v 虽然很多神经网络模型都可以归为这两类,但是有反向传播学习机理的多层前向型网络仍是在实际中运用得最为广泛的一种模型。可能有超过90%的商业和工业的应用软件都是基于此模型建立的。v 为什么是多层的网络呢?一个简单的异或问题将会展示单层和多层神经网络之间在应用需求上的根本的不同。前向型网络前向型网络各神经元接受前一层的输入,并输出给下一层,没有反馈。节点分为输入单元和计算单元,每一计算单元可有任意多个输入,但只有一个输出(它可

23、耦合到任意多个其它节点作为其输入)。前向型网络可分为不同的层,同一层上的节点之间是没有相互连接的,第i层的输入只与第i-1层输出相连,输入和输出节点与外界相连,而其它中间层则称为隐层。回馈型网络回馈型网络如果有反馈连接组成网络中的封闭回路(通常有一个延迟单元作为同步组件),那么这种神经网络就是回馈型的。所有节点都是计算单元,同时也可接受输入,长向外界输出9.3 人工神经网络的结构人工神经网络的结构一、人工神经网络的经典结构一、人工神经网络的经典结构9.3 人工神经网络的结构人工神经网络的结构二、异或问题二、异或问题v 在神经网络著作中常常用最简单和最著名的异或问题来做示例。v 异或问题是不可能

24、线性分离的,即不能用一个单层的网络构建一条直线来将一个二维的输入空间划分成为两个部分,每个部分都包含只有同意类别的数据点。 图:异或问题样本示意图?9.3 人工神经网络的结构人工神经网络的结构二、异或问题二、异或问题v 两层的神经网络就可能解决异或问题,下图展示了一种联接权重和阈值的求解。该神经网络可以在二维的空间产生一个非线性的分割点。图:异或问题求解:以阶跃函数为激活函数的两层ANNv 从该例子得出的最基本的结论是:v 对那些基于线性模型的简单问题,单层的神经网络是最为方便的建模工具。但是,对绝大多数的实际问题,模型都是高度非线性的,多层神经网络是更好的解决方法甚至可能是惟一的解决方法。9

25、.4 感知机感知机一、感知机一、感知机v 生物神经元对信息的传递与处理是通过各神经元之间神经键的兴奋或抑制作用来实现的。根据这一事实,美国学者F.Rosenblatt于1957年在M-P模型和Hebb学习规则的基础上提出了具有自学习能力的感知机(perceptron)模型。v 感知机包含两种结点:输入结点用来表示输入属性;输出结点用来提供模型输出。v 在感知机中,每个输入结点都通过一个加权的链连接到输出结点。这个加权的链用来模拟神经元间的神经链连接的强度。图:一个简单的神经网络结构感知机9.4 感知机感知机二、训练感知机模型二、训练感知机模型v 像生物神经系统一样,训练一个感知机模型就相当于不

26、断调整链的权值,直到能拟和训练数据的输入输出关系为止。感知机的训练算法的基本原理来源于著名的Hebb学习律,其基本思想是:逐步地将样本集中的样本输入到网络中,根据输出结果和理想输出之间的差别来调整网络中的权矩阵。如图中的神经元K,构成网络中唯一的运算节点。设网络输入模式向量为: 对应的输出为: ,k=1,2,m,由输入层至输出层的连接权向量为: )(,),(),(21kxkxkxXnkkO),(21nwwwW9.4 感知机感知机二、训练感知机模型二、训练感知机模型v 感知机按如下规则进行学习:初始化 将输入层至输出层的连接权向量及输出单元的阈值 赋予(1,+1)区间内的随机值。连接权的修正 每

27、个输入模式对 ,k1,2,m完成如下计算。(a)计算网络输出: (b)计算输出层单元希望输出yk与实际输出y之间的误差: (c)修正输入层各单元与输出层之间的连接权与阀值: 式中,i=1,2,n;t为学习回数; 为正常数,称为学习率(0 1)。对m个输入模式重复步骤,直到误差 (k=1,2,m)趋于零可小于预先给定的误差限 。),(kkYX)(1niiikkxwfOkkkOyd)()() 1(twtwtwiii)()(kxdtwiki)()() 1(tttiiikdt)(9.4 感知机感知机二、训练感知机模型二、训练感知机模型v 一个只有三个输入单元的网络例子 T(样本)x1x2x3y1110

28、.50.72-10.7-0.50.230.30.3-0.30.5该神经元的调整权重因子的过程中将设定学习率 。神经元的偏差为0,并且激活函数是线性的。学习过程的第一次迭代有以下这些步骤,这里仅仅写出第一个训练样本的迭代过程:805. 0005. 08 . 0) 1 () 1 ()2(005. 05 . 01 . 01 . 0) 1 (29. 001. 03 . 0) 1 () 1 ()2(01. 011 . 01 . 0) 1 (51. 001. 05 . 0) 1 () 1 ()2(01. 011 . 01 . 0) 1 (1 . 06 . 07 . 0) 1 () 1 () 1 (6 .

29、0)6 . 0()1 () 1 (6 . 05 . 08 . 01) 3 . 0(15 . 0) 1 (333322221111wwwwwwwwwwwwOydfnetfOnet(a)数据集(b)感知机1 . 09.4 感知机感知机二、训练感知机模型二、训练感知机模型v 一个只有三个输入单元的网络例子 同样地,可以有第二次和第三次迭代(t=2和t=3)参数参数t=2t=3X1-10.3X20.70.3X3-0.5-0.3O-1.1555-0.18y0.20.5d1.35550.68W1(t)-0.140.02W2(t)0.0980.02W3(t)-0.07-0.02W1(t+1)0.370.39

30、W2(t+1)-0.19-0.17W3(t+1)0.7350.7159.4 感知机感知机二、训练感知机模型二、训练感知机模型v 整个学习和记忆过程,就是根据实际输出与希望输出之间的误差d,调整参数w和,放到平面空间中也就是调整截割平面的空间位置使之不断移动直到它能将各类模式恰当地划分出来的过程。如果将输入模式由三维推广至n维,则学习过程可看作是由下式决定n维超平面不断向正确划分输入模式的位置移动的过程。v 感知机模型网络并不限定只有一个输出单元,它也可以多输出单元形式。图:多输出单元感知机模型网络 niiikxw10)(9.4 感知机感知机二、训练感知机模型二、训练感知机模型v 对于线形可分的

31、分类问题,感知机学习算法保证收敛到一个最优解。如果问题不是线形可分的,那么算法就不会收敛。v 也许有人会想到,如果计算单元的作用函数用其它比较复杂的非线性函数,情况是否会好些呢?事实上,只要是单层网络,不论用什么样的非线性函数其分类能力都一样,即只能解决线性可分的问题。v 增强分类能力的唯一出路是采用下一节所要讲的多层网络,即在输入及输出层之间加上隐层,构成多层前馈网络。9.5 多层前馈型网络多层前馈型网络一、多层感知机一、多层感知机v 多层前馈型神经网络是人工神经网络类型中在真实世界中应用得最为广泛且最为重要的一种。v 多层感知机(MLPs),一般是由组成网络输入层的一组输入,一个或者多个具

32、有计算节点的隐层,和一个具有计算节点的输出层所构成的。处理过程是一层层地前向进行的。 MLP代表一般化的简单感知机。v 多层感知机有三个显著的特征: 1.神经网络中的每个神经元模型通常包含一个非线性的函数,曲线或者双曲线函数; 2.神经网络保护神经元的一个或者多个隐层,它不是神经网络的输入或者输出的一部分。这些隐藏节点使得神经网络从输入模式中不断获取有意义的特性来学会复杂和高度非线性的任务; 3.神经网络中的层与层之间高度的连接性。9.5 多层前馈型网络多层前馈型网络一、多层感知机一、多层感知机v 这个网络拓扑是用作预测和分类的典型网络。有一个用于处理的隐层节点及一个输出层的多层感知机的图式结

33、构。这里展示的神经网络是全连接的。就是说神经网络中任何一层的神经元都和上一层的所有节点(神经元)相连接。神经网络中数据流的方向是前向的,从左边到右边,一层层地流动。图:含一个隐层的多层感知机的结构图9.5 多层前馈型网络多层前馈型网络一、多层感知机一、多层感知机(1)输入层v 多层感知机的每层由单元组成。在左边的层与输入相连接,被称为输入层,输入层的每个单元只与一个源数据(字段)相连,通常映射在1到1范围。v 神经网络调整权重的过程对进入数据的表示法比较敏感。如果一个输入变量具有比其它输入变量大很多的值,这个变量就会在目标变量的计算过程中占有优势,神经网络就会消耗宝贵的迭代来减少这一输入的权重

34、,以减小它对输出的影响。v 也就是说,神经网络的输入通常应该是小一点的数值,最好将其限制在小范围内,如1到1,而这需要在训练网络之前映射所有的数值,像绘制地图那样按比例变换数值,包括连续型和分类型数值。9.5 多层前馈型网络多层前馈型网络一、多层感知机一、多层感知机(1)输入层v 映射连续数值的一种方法是把它们变成分数,一般是用该值减去数值范围的中值,将结果除以范围的大小,然后乘以2。这个基本过程可应用于任何连续型特征,从而得到在1到1之间的值。例例 为得到房屋建造年代(1923年)的映射值。样本数据中年代的数值范围是18501986 中值(1850+1986)/2=1918 范围198618

35、50+1137 映射值(19231918)/137*20.0730v 映射分类型特征的一种方式是在1和1之间为每个类给出一个分数值。如如 一个输入单元是一个分类变量,有两个值,则1代表一个类,0代表另一个类,假如有三个值,就可以分配一个为1,另外一个为0,第三个为1。9.5 多层前馈型网络多层前馈型网络一、多层感知机一、多层感知机(2)隐藏层v 既不与网络输入相连,也不与网络输出相连,隐藏层的每个单元通常与输入层的所有单元相连。v 由于这个网络包含许多标准单元,隐藏层的众多单元把每一个输入值乘以对应的权重,然后将这些值求和,最后运用转换函数计算各自的输出值。v 神经网络允许有任意数目的隐藏层,

36、但通常来说,有一个隐藏层就足够了。这个层越宽泛(即包含较多的单元),网络识别出模式的能力就越高。然而这个更高的能力也存在缺陷,因为神经网络可能记住在训练实例中的某一种模式。我们希望网络能够从训练集中得到总结,而不是记住它,为达到这个目的,隐藏层不应该太宽。9.5 多层前馈型网络多层前馈型网络一、多层感知机一、多层感知机(3)输出层v 右边的最后一个单元就是输出层,与神经网络的输出相连接,它也与隐藏层中的所有单元相连接。输出层可以有一个以上的单元,多数情况下,神经网络是用来计算单一值,因此在输出层中只有一个单元和一个值。我们必须把这个数值映射回来以便理解输出结果,详细内容会在后续章节中做介绍。v

37、 上图的多层神经网络具有两层输出单元。因此,称为两层神经网络。(不计输入层,因为它只用来传递输入值到下一层。)类似地,包含两个隐藏层的网络称作三层神经网络,如此等等。9.5 多层前馈型网络多层前馈型网络二、异或问题(续)二、异或问题(续)v 考虑前面描述的异或问题,可以用两个超平面进行分类,这两个超平面把输入空间划分到各自的类,如图(a)所示。因为单层感知器只能构造一个超平面,所以它无法找到最优解。该问题可以使用两层前馈神经网络加以解决,见图(b)。直观上,我们可以把每个隐藏结点看作一个感知器,每个感知器构造两个超平面中的一个,输出结点简单地综合各感知器的结果,得到的决策边界如图(a)所示。(

38、a)决策边界 (b)神经网络拓扑结构 图:异或问题的两层前馈神经网络 9.6 后向传播后向传播v 训练神经网络的过程就是设定连接网络所有单元之间的边的最佳权重。目标是使用训练集来计算权重,对于训练集中尽可能多的实例,使得网络的输出尽可能接近期望结果。v 多层网络可以解决非线性可分问题这一结论早已有了,由于有隐层后学习比较困难,限制了多层网络的发展。反向传播(Back Propagation,BP)算法的出现解决了这一困难,促使多层网络的研究重新得到重视。v 虽然误差后向传播算法不再是调整权重的优先方法,但是它提供关于如何动作的信息,并且它是训练前馈网络的最普遍方法。有时也将按这一学习算法进行训

39、练的多层神经网络直接称为误差逆传播神经网络。一、反向传播一、反向传播9.6 后向传播后向传播v 这种算法是基于误差纠正学习规则的,可以看作是由其衍生而来的。v 基本上,误差后向传播学习过程是通过神经网络中不同的网络层执行的两个阶段组成的:前向传播和后向传播。v 在前向传播过程中,一个训练样本(输入数据向量)被应用到神经网络的输入节点,并且其作用在神经网络中一层一层传播。最后,作为神经网络的实际响应,会产生一组输出。在前向传播阶段,神经网络中的所有权重都是固定不变的。v 另一方面,在后向阶段,所有的权重都按照误差纠正规则进行调整。明确一点说,是通过比较实际已知的目标值和每个训练实例产生的值,用神

40、经网络的期望(目标)响应减去实际响应,其中,目标响应是训练样本的一部分,测定网络的总体误差,然后修改权重使网络训练实例产生的值和实际目标值之间的均方误差最小。这种“修改”向后进行,从输出层经各中间隐层逐层修正各连接权,最后回到输入层,故得名“误差逆传播算法”。v 随着这种误差逆传播修正的不断进行,网络对输入模式响应的正确率也不断上升。一、反向传播一、反向传播9.6 后向传播后向传播v 反向传播的核心是以下三个步骤:一、反向传播一、反向传播 网络得到训练实例,使用网络现有的权重,计算一个或多个输出;1 反向传播通过计算结果和预期结果(实际结果)之差来计算误差;2 通过网络反馈误差,并且调整权重将

41、误差减至最小。39.6 后向传播后向传播v BP网络表示:输入结点为 ,隐结点为 ,输出结点为 。v 输入结点与隐结点间的网络权值为 ,隐结点与输出结点间的网络权值为 ,输出结点的期望输出为 ,是单元的偏差,偏差充当阈值,用来改变单元的活性。二、二、BP算法的推导算法的推导ixjylOijwjltlT 隐结点的输出其中 9.6 后向传播后向传播v (1)初始化权重网络的权重初始化为很小的随机数(例如,由-1.0 1.0,或由-0.50.5)。每个单元有一个关联的偏差,偏差也类似地初始化为小随机数。v (2)向前计算输出首先,训练元组提供给网络的输入层。输入通过输入单元,不发生变化。然后,计算隐

42、藏层和输出层每个单元的净输入和输出。隐藏层或输出层单元的净输入用其输入的线性组合计算。每个单元有公积金输入,是连接它的上一层各单元的输出。每个连接都有一个权重。为计算该单元的净输入,连接该单元的每个输入都乘以其对应的权重,然后求和。二、二、BP算法的推导算法的推导jiiijjxwnet)()(jjiiijjnetfxwfy 输出结点计算输出 其中 )()(ljljjllnetfytfOjljjllytnet9.6 后向传播后向传播v (3)向后传播误差v 通过更新权重和反映网络预测误差的偏差,向后传播误差。正式的后向传播算法始于一个假设在第n次迭代过程中(即是说,第n次训练样本的表述),神经元

43、 上存在误差信号,误差采用下面的定义: v 误差的信号是学习算法的控制机理的原动力,其目的是对神经元的输入权重进行一系列的偏差调整。偏差调整的目的是通过一步步的迭代使得输出信号 同期望输出 之间的差值越来越小。该目标可以通过将成本函数E(n)最小化来实现,其中函数E(n)是误差能量的瞬时值,使用误差 来对这个简单的例子进行定义: 即 二、二、BP算法的推导算法的推导)()()(nOnTnelllle)(n)(21)(2nenEllljljjlllllytfTOTE22)(21)(212)(21llijiijjjllxwftfTlTlO9.6 后向传播后向传播v (3)向后传播误差v 基于成本函

44、数的最小化的学习过程是指误差纠正学习方法。v 在特殊情况下,E(n)的最小化使得学习规则通常指delta规则或者是指Widrow-Hoff规则。v delta规则可以这样陈述:对输入神经元连接的权重因子的调节同问题中误差信号与连接的输入值之间的误差成正比。二、二、BP算法的推导算法的推导 (因为 ) (因为 ) (因为 )9.6 后向传播后向传播v (3)向后传播误差v 对输出结点的误差计算后向传播算法将一个纠正量 应用到突触权重 ,该数值同下面的偏层数成正比。它表示敏感因子,决定在权重空间的搜索方向。使用微分链式法则,这个偏微分可以表达成下面的形式: 其中E是多个 的函数,但只有一个 与 有

45、关,各 间相互独立。 二、二、BP算法的推导算法的推导)(nwij)(nwijjltEjlllllnkjlkklljltOOeeEtOOeeEtE1kOlOjltkOlleeE /lleE2211/llOelllOTejljllynetftO)( /)()(jljjlllytfnetfO9.6 后向传播后向传播v (3)向后传播误差v 于是,我们可以将偏微分表示成如下的形式: v 设输出结点误差 则 v 由于权值的修正 正比于误差函数沿梯度下降,有 v 输出层网络权值修正: v 其中 是后向传播算法的学习率,使用负号是考虑到在权重空间上梯度的下降方向,即是说,为减少E(n)的数值改变权重的方向

46、。v 局部梯度 指向突触权重需要的改变方向,按照它的定义,输出神经元的局部梯度 同该神经元相应的误差信号 以及相关激活函数的微分 是相等的。二、二、BP算法的推导算法的推导jllljlynetfOTtE)( )()( )(llllnetfOT jljlytEjltjljljlytEtjljljljljlykttktkt)()() 1(lllle)( lnetf9.6 后向传播后向传播v (3)向后传播误差 对隐结点的误差计算与输出结点的误差计算原理相同。其中 E是多个 的函数,针对某个 ,对应一个 ,它与所有 有关二、二、BP算法的推导算法的推导ljijjjllllijwyyOOeeEwElO

47、lOijwjy (因为 ) (因为 ) (因为 ) (因为 ) 则lleeE /lleE2211/llOelllOTejlljltnetfyO)( /)()(jljjlllytfnetfOijijjxnetfwy)( /)()(jiiijjjxwfnetfylijjllijxnetftwE)( 设隐结点误差 则ljlljjtnetf)( ijijxwE9.6 后向传播后向传播v (3)向后传播误差由于权值 正比于误差函数沿梯度下降,有 隐结点网络权值修正: 其中,隐结点误差 的含义: 表示输出层结点 的误差 通过权值 向隐结点i反向传播(误差 乘权值 再累加)成为隐结点i的误差。二、二、BP算

48、法的推导算法的推导ijwijijijxwEwljlljjtnetf)( ijijijijijxkwwkwkw)()() 1(jljlltlljltljlt9.6 后向传播后向传播v (4)阈值的修正阈值也是一个变化值,在修正权值的同时也修正它,原理同权值的修正。 对输出结点的正式推导其中 ,对某个 对应一个 。二、二、BP算法的推导算法的推导llllOOEE)(lllOTOEllO) 1)( lllnetfOlllllnetfOTE)( )(lllElllkk)() 1(则则由于9.6 后向传播后向传播v (4)阈值的修正 对隐结点的公式推导其中二、二、BP算法的推导算法的推导则则由于jjjl

49、ljjjjyyOOEyyEE)(lllOTOEjlljltnetfyO)( )( ) 1)( jjjjnetfnetfyljjjllljjlllljnetftnetftnetfOTE)( )( )( )(jjjEjjjkk)() 1(9.6 后向传播后向传播v (5)激活函数对于标准的激活函数,其微分 是易于计算的,能够进行求导是这些函数的唯一要求。如果激活函数是S型曲线函数,即是说是如下的形式:二、二、BP算法的推导算法的推导xexf11)()(1)()( xfxfxf)(1)()( kkknetfnetfnetf)(llnetfO )1 ()( lllOOnetf)(jjnetfy )1

50、()( jjjyynetf)(1 ()(1 ()( xfxfxf存在关系则对输出结点 对隐结点则则如果激活函数是双曲正切函数,相似的计算过程之后同样可以得到第一次微分后的等式实际 和 的计算是非常简单的,因为局部梯度求导公公取决于节点的输出值 和 。ijwjltjylT9.6 后向传播后向传播v 每处理一个元组就更新权重和偏差,这称作实例更新(case update)。权重和偏差的增量也可以累积到变量中,可以在处理完训练集中的所有元组之后再更新权重和偏差。后一种策略称作周期更新(epoch update),扫描训练集的一次迭代是一个周期。v 理论上,后向传播的数学推导使用周期更新,而实践中实例

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com