支持向量机中科院.ppt-得力文库

资源描述

《支持向量机中科院.ppt》由会员分享，可在线阅读，更多相关《支持向量机中科院.ppt（81页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、支持向量机中科院 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望内容提要内容提要n统计学习方法概述统计学习方法概述n统计学习问题统计学习问题n学习过程的泛化能力学习过程的泛化能力n支持向量机支持向量机nSVMSVM寻优算法算法n应用应用2022/11/132Chap8 SVM Zhongzhi Shi统计学习方法概述统计学习方法概述统计方法是从事物的外在数量上的表现去推断该统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。事物可能的规律性。科学规律性的

2、东西一般总是科学规律性的东西一般总是隐藏得比较深，最初总是从其数量表现上通过统隐藏得比较深，最初总是从其数量表现上通过统计分析看出一些线索，然后提出一定的假说或学计分析看出一些线索，然后提出一定的假说或学说，作进一步深入的理论研究。当理论研究说，作进一步深入的理论研究。当理论研究提出提出一定的结论时，往往还需要在实践中加以验证。一定的结论时，往往还需要在实践中加以验证。就是说，观测一些自然现象或专门安排的实验所就是说，观测一些自然现象或专门安排的实验所得资料，是否与理论相符、在多大的程度上相符、得资料，是否与理论相符、在多大的程度上相符、偏离可能是朝哪个方向等等问题，都需要用统计偏离可能是朝

3、哪个方向等等问题，都需要用统计分析的方法处理。分析的方法处理。2022/11/133Chap8 SVM Zhongzhi Shi统计学习方法概述统计学习方法概述近百年来，统计学得到极大的发展。我们可用下近百年来，统计学得到极大的发展。我们可用下面的框架粗略地刻划统计学发展的过程：面的框架粗略地刻划统计学发展的过程：n1900-1920 数据描述数据描述n1920-1940 统计模型的曙光统计模型的曙光n1940-1960 数理统计时代数理统计时代n随机模型假设的挑战随机模型假设的挑战n松弛结构模型假设松弛结构模型假设n1990-1999 建模复杂的数据结构建模复杂的数据结构2022/11/1

4、34Chap8 SVM Zhongzhi Shi统计学习方法概述统计学习方法概述从从1960年至年至1980年间，统计学领域出现了一场革命，年间，统计学领域出现了一场革命，要从观测数据对依赖关系进行估计，只要知道未知要从观测数据对依赖关系进行估计，只要知道未知依赖关系所属的函数集的某些一般的性质就足够了。依赖关系所属的函数集的某些一般的性质就足够了。引导这一革命的是引导这一革命的是60年代的四项发现：年代的四项发现：nTikhonov,Ivanov 和和 Philips 发现的关于解决不适定发现的关于解决不适定问题的正则化原则；问题的正则化原则；nParzen,Rosenblatt 和和Ch

5、entsov 发现的非参数统计学；发现的非参数统计学；nVapnik 和和Chervonenkis 发现的在泛函数空间的大数发现的在泛函数空间的大数定律，以及它与学习过程的关系；定律，以及它与学习过程的关系；nKolmogorov,Solomonoff 和和Chaitin 发现的算法复杂发现的算法复杂性及其与归纳推理的关系。性及其与归纳推理的关系。这四项发现也成为人们对学习过程研究的重要基础。这四项发现也成为人们对学习过程研究的重要基础。2022/11/135Chap8 SVM Zhongzhi Shi统计学习方法概述统计学习方法概述统计学习方法统计学习方法：n传统方法传统方法:统计学在解决

6、机器学习问题中起着基础性统计学在解决机器学习问题中起着基础性的作用。传统的统计学所研究的主要是渐近理论，的作用。传统的统计学所研究的主要是渐近理论，即当样本趋向于无穷多时的统计性质。统计方法主即当样本趋向于无穷多时的统计性质。统计方法主要考虑测试预想的假设和数据模型拟合。它依赖于要考虑测试预想的假设和数据模型拟合。它依赖于显式的基本概率模型。显式的基本概率模型。n模糊集模糊集n粗糙集粗糙集n支持向量机支持向量机2022/11/136Chap8 SVM Zhongzhi Shi统计学习方法概述统计学习方法概述统计方法处理过程可以分为三个阶段：统计方法处理过程可以分为三个阶段：n（1）搜集数据：

7、采样、实验设计）搜集数据：采样、实验设计n（2）分析数据：建模、知识发现、可视化）分析数据：建模、知识发现、可视化n（3）进行推理：预测、分类）进行推理：预测、分类常见的统计方法有常见的统计方法有:回归分析（多元回归、自回归等）回归分析（多元回归、自回归等）判别分析（贝叶斯判别、费歇尔判别、非参数判别等）判别分析（贝叶斯判别、费歇尔判别、非参数判别等）聚类分析（系统聚类、动态聚类等）聚类分析（系统聚类、动态聚类等）探索性分析（主元分析法、相关分析法等）等。探索性分析（主元分析法、相关分析法等）等。2022/11/137Chap8 SVM Zhongzhi Shi支持向量机支持向量机nSVM是

8、一种基于统计学习理论的机器学习方法，它是由Boser,Guyon,Vapnik在COLT-92上首次提出，从此迅速发展起来nVapnik V N.1995.The Nature of Statistical Learning Theory.Springer-Verlag,New York n564Vapnik V N.1998.Statistical Learning Theory.Wiley-Interscience Publication,John Wiley&Sons,Incn目前已经在许多智能信息获取与处理领域都取得了成功的应用。2022/11/138Chap8 SVM Zhongzh

9、i Shi统计学习理论统计学习理论n统计学习理论是小样本统计估计和预测学习的最佳理论。n假设输出变量Y与输入变量X之间存在某种对应的依赖关系,即一未知概率分布P(X,Y)，P(X,Y)反映了某种知识。学习问题可以概括为:根据l个独立同分布(independently drawn and identically distributed)的观测样本train set，(x1,y1),(x2,y2),(xn,yn)2022/11/139Chap8 SVM Zhongzhi Shi函数估计模型函数估计模型n学习样本的函数学习样本的函数:n产生器产生器(G)(G)generates observatio

10、ns x(typically in Rn),independently drawn from some fixed distribution F(x)n训练器训练器Supervisor(S)Supervisor(S)labels each input x with an output value y according to some fixed distribution F(y|x)n学习机学习机Learning Machine(LM)Learning Machine(LM)“learns”from an i.i.d.l-sample of(x,y)-pairs output from G

11、and S,by choosing a function that best approximates S from a parameterised function class f(x,),where is in the parameter setn关键概念关键概念:F(x,y),an i.i.d.l-sample on F,functions f(x,)and the equivalent representation of each f using its index GSLMxyy2022/11/1310Chap8 SVM Zhongzhi Shi期望风险学习到一个假设H=f(x,w

12、)作为预测函数,其中w是广义参数.它对F(X,Y)的期望风险R(w)是(即统计学习的实际风险)：其中，f(x,w)称作预测函数集，w为函数的广义参数。f(x,w)可以表示任何函数集。L(y,f(x,w)为由于用f(x,w)对y进行预测而造成的损失。不同类型的学习问题有不同形式的损失函数。2022/11/1311Chap8 SVM Zhongzhi Shi 而对train set上产生的风险Remp(w)被称为经验风险(学习的训练误差):首先Remp(w)和R(w)都是w的函数，传统概率论中的定理只说明了(在一定条件下)当样本趋于无穷多时Remp(w)将在概率意义上趋近于R(w)，却没有保证使R

13、emp(w)最小的点也能够使R(w)最小(同步最小)。经验风险2022/11/1312Chap8 SVM Zhongzhi Shi 根据统计学习理论中关于函数集的推广性的界的结论，对于两类分类问题中的指示函数集f(x,w)的所有函数(当然也包括使经验风险员小的函数)，经验风险Remp(w)和实际风险R(w)之间至少以不下于1-(01)的概率存在这样的关系:经验风险2022/11/1313Chap8 SVM Zhongzhi Shi h是函数H=f(x,w)的VC维,l是样本数.VCVC维维(Vapnik-Chervonenkis Dimension)(Vapnik-Chervonenkis D

14、imension)。模式识别方法。模式识别方法中中VCVC维的直观定义是：对一个指示函数集，如果存在维的直观定义是：对一个指示函数集，如果存在h h个个样本能够被函数集里的函数按照所有可能的样本能够被函数集里的函数按照所有可能的2h2h种形式分开，种形式分开，则称函数集能够把则称函数集能够把h h个样本打散。函数集的个样本打散。函数集的VCVC维就是它能维就是它能打散的最大样本数目打散的最大样本数目h h。VCVC维维2022/11/1314Chap8 SVM Zhongzhi Shi 一般的学习方法(如神经网络)是基于 Remp(w)最小,满足对已有训练数据的最佳拟和,在理论上可以通过增加算

15、法（如神经网络）的规模使得Remp(w)不断降低以至为0。但是,这样使得算法（神经网络）的复杂度增加,VC维h增加,从而(h/l)增大,导致实际风险R(w)增加,这就是学习算法的过拟合(Overfitting).过学习过学习2022/11/1315Chap8 SVM Zhongzhi Shi过学习过学习Overfitting and underfittingProblem:how rich class of classifications q(x;)to use.underfittingoverfittinggood fitProblem of generalization:a small e

16、mprical risk Remp does not imply small true expected risk R.2022/11/1316Chap8 SVM Zhongzhi Shi学习理论的四个部分学习理论的四个部分1.学习过程的一致性理论学习过程的一致性理论What are(necessary and sufficient)conditions for consistency(convergence of Remp to R)of a learning process based on the ERM Principle?2.学习过程收敛速度的非渐近理论学习过程收敛速度的非渐近理论H

17、ow fast is the rate of convergence of a learning process?3.控制学习过程的泛化能力理论控制学习过程的泛化能力理论How can one control the rate of convergence(the generalization ability)of a learning process?4.构造学习算法的理论构造学习算法的理论 How can one construct algorithms that can control the generalization ability?2022/11/1317Chap8 SVM Zh

18、ongzhi Shi结构风险最小化归纳原则结构风险最小化归纳原则(SRM)nERM is intended for relatively large samples(large l/h)nLarge l/h induces a small which decreases the the upper bound on risknSmall samples?Small empirical risk doesnt guarantee anything!we need to minimise both terms of the RHS of the risk bounds1.The empirical

19、 risk of the chosen 2.An expression depending on the VC dimension of 2022/11/1318Chap8 SVM Zhongzhi Shi结构风险最小化归纳原则结构风险最小化归纳原则(SRM)nThe Structural Risk Minimisation(SRM)PrinciplenLet S=Q(z,),.An admissible structure S1S2SnS:nFor each k,the VC dimension hk of Sk is finite and h1h2hnhSnEvery Sk is eith

20、er is non-negative bounded,or satisfies for some(p,k)2022/11/1319Chap8 SVM Zhongzhi ShinThe SRM Principle continuednFor given z1,zl and an admissible structure S1S2Sn S,SRM chooses function Q(z,lk)minimising Remp in Sk for which the guaranteed risk(risk upper-bound)is minimalnThus manages the unavoi

21、dable trade-off of quality of approximation plexity of approximationS1S2Snhh1hnh*结构风险最小化归纳原则结构风险最小化归纳原则(SRM)2022/11/1320Chap8 SVM Zhongzhi Shi Sn S*经验风险经验风险Empirical risk置信范围置信范围Confidence interval风险界限风险界限Bound on the riskh1h*hnhS1S*Sn结构风险最小化归纳原则结构风险最小化归纳原则(SRM)2022/11/1321Chap8 SVM Zhongzhi Shi支持向量

22、机支持向量机 SVMnSVMs are learning systems that nuse a hyperplane of linear functionsnin a high dimensional feature space Kernel functionntrained with a learning algorithm from optimization theory LagrangenImplements a learning bias derived from statistical learning theory Generalisation SVM is a classifi

23、er derived from statistical learning theory by Vapnik and Chervonenkis2022/11/1322Chap8 SVM Zhongzhi Shi 线性分类器线性分类器ayestf xf(x,w,b)=sign(w.x-b)denotes+1denotes-1How would you classify this data?2022/11/1323Chap8 SVM Zhongzhi Shi线性分类器线性分类器f xayestdenotes+1denotes-1f(x,w,b)=sign(w.x-b)How would you cl

24、assify this data?2022/11/1324Chap8 SVM Zhongzhi Shi线性分类器线性分类器f xayestdenotes+1denotes-1f(x,w,b)=sign(w.x-b)How would you classify this data?Copyright 2001,2003,Andrew W.Moore2022/11/1325Chap8 SVM Zhongzhi Shi线性分类器线性分类器f xayestdenotes+1denotes-1f(x,w,b)=sign(w.x-b)How would you classify this data?Cop

25、yright 2001,2003,Andrew W.Moore2022/11/1326Chap8 SVM Zhongzhi Shi线性分类器线性分类器f xayestdenotes+1denotes-1f(x,w,b)=sign(w.x-b)How would you classify this data?Copyright 2001,2003,Andrew W.Moore2022/11/1327Chap8 SVM Zhongzhi Shi最大间隔最大间隔f xayestdenotes+1denotes-1f(x,w,b)=sign(w.x-b)The maximum margin linea

26、r classifier is the linear classifier with the maximum margin.This is the simplest kind of SVM(Called an LSVM)Linear SVMCopyright 2001,2003,Andrew W.Moore2022/11/1328Chap8 SVM Zhongzhi Shi分类超平面分类超平面nTraining set:(xi,yi),i=1,2,N;yi+1,-1nHyperplane:wx+b=0nThis is fully determined by(w,b)2022/11/1329Ch

27、ap8 SVM Zhongzhi Shi最大间隔最大间隔According to a theorem from Learning Theory,from all possible linear decision functions the one that maximises the margin of the training set will minimise the generalisation error.2022/11/1330Chap8 SVM Zhongzhi Shi最大间隔原则最大间隔原则Note1:decision functions(w,b)and(cw,cb)are th

28、e sameNote2:but margins as measured by the outputs of the function xwx+b are not the same if we take(cw,cb).Definition:geometric margingeometric margin:the margin given by the canonical decision canonical decision functionfunction,which is when c=1/|w|Strategy:1)we need to maximise the geometric mar

29、gin!(cf result from learning theory)2)subject to the constraint that training examples are classified correctly wwx+b=0wx+b0wx+b1wx+b非线性分划代价：2维空间内积6维空间内积非线性分类非线性分类2022/11/1355Chap8 SVM Zhongzhi Shi为此，引进函数有比较(2)和(3)，可以发现这是一个重要的等式，提示6维空间中的内积可以通过计算中2维空间中的内积得到。非线性分类非线性分类2022/11/1356Chap8 SVM Zhongzhi

30、Shi实现非线性分类的思想实现非线性分类的思想给定训练集后，决策函数仅依赖于而不需要再考虑非线性变换如果想用其它的非线性分划办法，则可以考虑选择其它形式的函数，一旦选定了函数，就可以求解最优化问题得，而决策函数2022/11/1357Chap8 SVM Zhongzhi Shi决策函数其中实现非线性分类的思想实现非线性分类的思想2022/11/1358Chap8 SVM Zhongzhi Shi设是中的一个子集。称定义在上的函数是核函数(正定核或核)，如果存在着从到某一个空间的映射使得其中表示中的内积核函数核函数(核或正定核核或正定核)定义定义2022/11/1359Cha

31、p8 SVM Zhongzhi Shin多项式内核n径向基函数内核RBFnSigmoind内核目前研究最多的核函数主要有三类：得到q 阶多项式分类器每个基函数中心对应一个支持向量，它们及输出权值由算法自动确定包含一个隐层的多层感知器，隐层节点数是由算法自动确定核函数的选择核函数的选择2022/11/1360Chap8 SVM Zhongzhi Shi多项式内核多项式内核nThe kind of kernel represents the inner product of two vector(point)in a feature space of dimension.nFor example2

32、022/11/1361Chap8 SVM Zhongzhi ShiEdgar Osuna(Cambridge,MA)等人在等人在IEEE NNSP97发表发表了了An Improved Training Algorithm for Support Vector Machines,提出了提出了SVM的分解算法，即将原问题分解为若的分解算法，即将原问题分解为若干个子问题，按照某种迭代策略，通过反复求解子问题，干个子问题，按照某种迭代策略，通过反复求解子问题，最终使得结果收敛于原问题的最优解。最终使得结果收敛于原问题的最优解。传统的利用二次型优化技术解决对偶问题时：传统的利用二次型优化技术解决对偶问

33、题时：n 需要计算存储核函数矩阵。当样本点数较大时，需要很大需要计算存储核函数矩阵。当样本点数较大时，需要很大的存储空间。例如：当样本点超过的存储空间。例如：当样本点超过4000时，存储核函数矩时，存储核函数矩阵就需要多达阵就需要多达128兆内存；兆内存；n SVM在二次型寻优过程中要进行大量的矩阵运算，通常在二次型寻优过程中要进行大量的矩阵运算，通常寻优算法占用了算法时间的主要部分。寻优算法占用了算法时间的主要部分。SVMSVM寻优寻优算法算法2022/11/1362Chap8 SVM Zhongzhi Shi考虑去掉Lagrange乘子等于零的训练样本不会影响原问题的解，采用一部分样本构成

34、工作样本集进行训练，移除其中的非支持向量，并把训练结果对剩余样本进行检验，将不符合KKT条件的样本与本次结果的支持向量合并成为一个新的工作集。然后重新训练，如此重复获得最优结果。例如：基于这种思路的算法。根据子问题的划分和迭代策略的不同，大致分为：1.块算法(Chunking Algorithm)：SVM寻优寻优算法算法2022/11/1363Chap8 SVM Zhongzhi ShiSMO使用了块与分解技术，而SMO算法则将分解算法思想推向极致，每次迭代仅优化两个点的最小子集，其威力在于两个数据点的优化问题可以获得解析解，从而不需要将二次规划优化算法作为算法一部分。尽管需要更多的迭代才收

35、敛，但每个迭代需要很少的操作，因此算法在整体上的速度有数量级的提高。另外，算法其他的特征是没有矩阵操作，不需要在内存中存储核矩阵。块算法(Chunking Algorithm)：SVM寻优寻优算法算法2022/11/1364Chap8 SVM Zhongzhi ShiSMO算法每次迭代时，在可行的区域内选择两点，最大化目标函数，从而优化两个点的最小子集。无论何时，当一个乘子被更新时，调整另一个乘子来保证线性约束条件成立，保证解不离开可行区域。每步SMO选择两个参数优化，其他参数固定，可以获得解析解。尽管需要更多的迭代才收敛，但每个迭代需要很少的操作，因此算法在整体上的速度有数量级的提高。另外，

36、算法其他的特征是没有矩阵操作，不需要在内存中存储核矩阵。SVM寻优寻优算法算法2022/11/1365Chap8 SVM Zhongzhi ShiSVM寻优寻优算法算法类别名称测试样本数错误分类数准确度（%）政治146497.26军事830100经济137397.81法律32293.75农业106298.11体育90198.89卫生34197.06工业87297.70科技111298.20交通40197.50生活91198.90宗教30100天气24291.67合计9842197.872022/11/1366Chap8 SVM Zhongzhi ShiSMO算法核缓存算法SMO算法在每次迭代只

37、选择两个样本向量优化目标函数，不需要核矩阵。虽然没有核矩阵操作，但仍需要计算被选向量和训练集中所有样本向量的核函数，计算次数为2n（n为训练集中的样本数）。如果训练集中的样本选取有误，在噪声比较多的情况下，收敛会很慢，迭代次数很多，则核函数的计算量也是非常可观的，SMO 算法的优点就完成失去了。同时，考虑到文本分类的文本向量一般维数比较大，核函数的计算将会非常耗时，尤其在高价多项式核和高斯核等核函数的计算中表现更加明显。SVM寻优寻优算法算法2022/11/1367Chap8 SVM Zhongzhi ShiSMO算法核缓存算法在内存中为SMO算法核函数开辟n行m列的核矩阵空间。其中：n为训练

38、集中的样本数；m是为可调节参数，根据实际的内存大小进行调整，每列存放训练集中某个样本向量与训练集中所有样本向量的核函数计算结果列表。在核矩阵列头生成m个节点的双向循环链表队列，每个节点指向核矩阵的列，通过双向循环链表队列实现核矩阵中的核函数列唤入唤出操作。同时，为了实现样本向量的核函数列的快速查找，为每个训练样本向量设计了快速索引列表，通过索引列表判断该训练样本向量的核函数列是否在核矩阵中，并确定在哪一列。SVM寻优寻优算法算法2022/11/1368Chap8 SVM Zhongzhi ShiSVM寻优寻优算法算法n选择一个训练集，通过调整核缓冲参数的大小，记录不同核缓存大小情况下训练时间，

39、结果如下表：核缓存大小(Mb)训练样本数核矩阵迭代次数训练时间(M:S)156245624*23407267:061056245624*233407263:502056245624*466407262:413056245624*699407261:564056245624*932407261:295056245624*1165407261:236056245624*1398407261:087056245624*1631407261:058056245624*1864407261:049056245624*2097407261:0710056245624*2330407261:37250562

40、45624*5624407261:122022/11/1369Chap8 SVM Zhongzhi Shi通过引入核缓存机制，有效的改进了通过引入核缓存机制，有效的改进了SMOSMO算法，提算法，提高了文本分类的训练速度。在核缓存机制中采用简高了文本分类的训练速度。在核缓存机制中采用简单的单的hashhash查找算法和队列查找算法和队列FILOFILO算法，有效提高了核算法，有效提高了核矩阵查找和唤入唤出操作的效率。设置核矩阵列参矩阵查找和唤入唤出操作的效率。设置核矩阵列参数，通过调节列参数，可以灵活的根据系统运行情数，通过调节列参数，可以灵活的根据系统运行情况调整训练的时间和空间开销，避免因

41、系统空间开况调整训练的时间和空间开销，避免因系统空间开销过大使系统运行效率下降，反而影响训练速度。销过大使系统运行效率下降，反而影响训练速度。SVM寻优寻优算法算法2022/11/1370Chap8 SVM Zhongzhi Shi活动向量集选择算法当训练样本数非常大的时候，如果系统能够提供的核缓冲当训练样本数非常大的时候，如果系统能够提供的核缓冲大小很有限，那么能够同时保存在核缓冲中训练样本的核大小很有限，那么能够同时保存在核缓冲中训练样本的核函数数目在训练样本数中所占比例将非常的小。在训练过函数数目在训练样本数中所占比例将非常的小。在训练过程中，训练样本在核缓冲中的核函数命中率将显著下降

42、，程中，训练样本在核缓冲中的核函数命中率将显著下降，导致核缓冲中的核函数被频繁的唤入唤出，而每执行一次导致核缓冲中的核函数被频繁的唤入唤出，而每执行一次唤入唤出操作将引起系统重新计算训练样本的核函数，核唤入唤出操作将引起系统重新计算训练样本的核函数，核缓存的作用被很大程度的削弱了。如果出现这样的情况，缓存的作用被很大程度的削弱了。如果出现这样的情况，要么增加系统的存储空间；要么减少训练样本数，才能提要么增加系统的存储空间；要么减少训练样本数，才能提高系统的训练速度。为解决训练样本数多，系统内存空间高系统的训练速度。为解决训练样本数多，系统内存空间小的矛盾，本文通过活动向量集选择算法，比较好地解

43、决小的矛盾，本文通过活动向量集选择算法，比较好地解决了这个问题。了这个问题。SVM寻优寻优算法算法2022/11/1371Chap8 SVM Zhongzhi Shi活动向量集选择算法算法的主要思想是：定期检查训练样本集，在收敛前预先算法的主要思想是：定期检查训练样本集，在收敛前预先确定训练样本集中一些边界上的点（确定训练样本集中一些边界上的点（alpha=0alpha=0，或者，或者alpha=Calpha=C）是否以后不再被启发式选择，或者不再被判定为）是否以后不再被启发式选择，或者不再被判定为最有可能违例，如果存在这样的点，将它们从训练样本集最有可能违例，如果存在这样的点，将它们从训练

44、样本集中剔除出去，减少参加训练的样本数。该算法基于如下的中剔除出去，减少参加训练的样本数。该算法基于如下的认识：经过多次迭代后，如果样本的拉格朗日乘子一直为认识：经过多次迭代后，如果样本的拉格朗日乘子一直为0 0，该点被当前估计的支持向量集所确定的超平面区分得很，该点被当前估计的支持向量集所确定的超平面区分得很开，即使以后支持向量集发生变化，该点也不会是最靠近开，即使以后支持向量集发生变化，该点也不会是最靠近超平面的点，则可以确定该样本不是支持向量；经过多次超平面的点，则可以确定该样本不是支持向量；经过多次迭代后，如果样本的拉格朗日乘子一直为非常大的迭代后，如果样本的拉格朗日乘子一直为非常大的

45、C C常数，常数，即使以后支持向量集发生变化，该点也不会远离超平面，即使以后支持向量集发生变化，该点也不会远离超平面，则可以确定该样本是上边界处的支持向量则可以确定该样本是上边界处的支持向量SVM寻优寻优算法算法2022/11/1372Chap8 SVM Zhongzhi Shi活动向量集选择算法这样就可以在这样就可以在SMO算法收敛前，提前将边界上的点从训算法收敛前，提前将边界上的点从训练样本集中剔除，逐渐缩小参加训练的活动样本集，从而练样本集中剔除，逐渐缩小参加训练的活动样本集，从而减少减少SMO算法对核缓存空间的要求，提高训练速度。算法对核缓存空间的要求，提高训练速度。训练开始前，训练

46、活动集样本初始化为全部训练样本。每训练开始前，训练活动集样本初始化为全部训练样本。每经过一定次数的迭代（比如迭代经过一定次数的迭代（比如迭代1000次），如果算法还没次），如果算法还没有收敛，应检查活动集中的向量，检查是否有训练样本可有收敛，应检查活动集中的向量，检查是否有训练样本可以不参加迭代运算。以不参加迭代运算。检查完当前活动向量集中所有样本后，产生了新的活动向检查完当前活动向量集中所有样本后，产生了新的活动向量集。如果新的活动向量集的样本数减少一成以上（含一量集。如果新的活动向量集的样本数减少一成以上（含一成），则可以收缩当前活动向量集，用新的活动向量集替成），则可以收缩当前活动向量集

47、，用新的活动向量集替换当前活动向量集。当活动向量集的样本数减少到一定的换当前活动向量集。当活动向量集的样本数减少到一定的程度，对核缓存空间的要求不是很大的时候，继续减少训程度，对核缓存空间的要求不是很大的时候，继续减少训练样本对训练速度的提高就非常有限了，这时就没有必要练样本对训练速度的提高就非常有限了，这时就没有必要再减少训练样本了。再减少训练样本了。SVM寻优寻优算法算法2022/11/1373Chap8 SVM Zhongzhi Shi将工作样本集的大小固定在算法速度可以容忍的限度内，将工作样本集的大小固定在算法速度可以容忍的限度内，迭代过程选择一种合适的换入换出策略，将剩余样本中的迭代

48、过程选择一种合适的换入换出策略，将剩余样本中的一部分与工作样本集中的样本进行等量交换，即使支持向一部分与工作样本集中的样本进行等量交换，即使支持向量的个数超过工作样本集的大小，也不改变工作样本集的量的个数超过工作样本集的大小，也不改变工作样本集的规模，而只对支持向量中的一部分进行优化。规模，而只对支持向量中的一部分进行优化。例如例如:算法算法2.固定工作样本集固定工作样本集(Osuna et al.)：SVM寻优寻优算法算法2022/11/1374Chap8 SVM Zhongzhi ShiSVM applicationsnPattern recognitionoFeatures:words

49、countsnDNA array expression data analysisoFeatures:expr.levels in diff.conditionsnProtein classificationoFeatures:AA composition2022/11/1375Chap8 SVM Zhongzhi ShiHandwritten Digits Recognition2022/11/1376Chap8 SVM Zhongzhi ShiApplying SVMs to Face DetectionnThe SVM face-detection system1.Rescale the

50、 1.Rescale the input image input image several timesseveral times2.Cut 19x19 2.Cut 19x19 window patterns window patterns out of the out of the scaled imagescaled image3.Preprocess the 3.Preprocess the window using masking,window using masking,light correction and light correction and histogram equal

展开阅读全文