第六讲-聚类分析课件.ppt

上传人:醉**** 文档编号:11517824 上传时间:2022-04-20 格式:PPT 页数:112 大小:1.80MB
返回 下载 相关 举报
第六讲-聚类分析课件.ppt_第1页
第1页 / 共112页
第六讲-聚类分析课件.ppt_第2页
第2页 / 共112页
点击查看更多>>
资源描述

《第六讲-聚类分析课件.ppt》由会员分享,可在线阅读,更多相关《第六讲-聚类分析课件.ppt(112页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、n俗话说“物以类聚,人以群分”。就是聚类分析的道理。n市场营销中市场细分和客户细分问题n学校里有些同学经常会在一起,关系密切;有些同学很少往来,关系疏远。第一节第一节 什么是聚类分析什么是聚类分析 例例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行归类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424例子例子k例题分析n我们直观地来看,这个归类是否合理? 计算4号和6号得分的离差平方和: (21-2

2、0)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236n计算1号和3号得分的离差平方和为482,由此可见一般,归类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。n由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?n基本思想基本思想:根据事物本身的特性研究个体分类的方法;即在没有先验知识的情况下进行的。多元统计分析方法就是对样品或指标进行量化分类的问题,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循。n聚类原则聚类原则:同一类中

3、的个体有较大的相似性,不同类中的个体差异很大。n常见方法常见方法:Q型聚类法、R型聚类法、灰色聚类法和模糊聚类法等。聚类的程序n基本程序基本程序:根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量统计量,然后利用统计量将样品或指标进行归类。 如对上市公司的经营业绩进行聚类;又如对企业的经济效益进行评价n由此可知,聚类分析(Cluster Analysis)也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与多元假设检验、回归分析等一起被称为多元分析的三大方法。n聚类分析的步骤:根据已知数据,计算各观察个体或变量之

4、间亲疏关系的统计量。根据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。 思考:样品点间、样品点和小类之间、思考:样品点间、样品点和小类之间、小类与小类之间按什么刻画亲疏关系小类与小类之间按什么刻画亲疏关系第二节第二节 “亲疏程度亲疏程度”度量度量一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度三、样品与小类、小类与小类三、样品与小类、小类与小类 之间之间“亲疏程度亲疏程度”的度量方法的度量方法四、聚类分析的几点说明四、聚类分析的几点说明n(1)(1)间隔尺度间隔尺度(Scale):用数量来表示,其数值由测量(连续)或计数

5、(离散)、统计得到。n(2)(2)顺序尺度顺序尺度(Ordinal):没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。n(3)3)名义尺度名义尺度(Nominal):既没有数量表示也没有次序关系,只有一些特性状态。如眼睛的颜色,化学中催化剂的种类等。一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度n亲疏程度:包含个体间的相似程度和个体间的差异程度n亲疏程度测定方法: 距离:样品间的聚类,Q型聚类分析。 相似系数:变量间的聚类, R型聚类

6、分析。 1 1、定义、定义距离距离的准则的准则 距离满足条件:;0成立和对一切的jidij;0成立当且仅当jidij;0成立和对一切的jiddjiij.成立和对于一切的jidddkjikij(一)距离(一)距离2 2、常用距离的算法、常用距离的算法(数值型变量)(数值型变量)设 和是第i和 j 个样品的观测值,则二者之间的距离为:qpkqjkikijxxqd11)|()(pkjkikijxxqd12)()2(ipiixxx,21ix),(21jpjjxxxjx特别:欧氏距离Euclidean distance(1) (1) 闵可夫斯基距离(闵可夫斯基距离(Minkowski) )pkjkiki

7、jxxqd1) 1(绝对距离(block)闵可夫斯基距离缺点闵可夫斯基距离缺点与指标量纲有关未考虑总体变异对“距离”远近的影响。12A近一些处,应该认为离左侧处,位于右侧位于:近,但从概率论角度看离总体用欧氏距离的话,离哪个总体近?,那么中心,距的中心距现有一点,设有两正态总体,yAxAAyxANyNx5 . 1232),4 ,(),(212212(2)马氏距离(广义欧氏距离)n是印度著名统计学家马哈拉诺比斯是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义的一种距离。所定义的一种距离。特点:特点:n考虑了观测变量之间的相关性考虑了观测变量之间的相关性。如果各变量间相互独立,即

8、观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。n考虑到了各个观测指标取值的差异程度考虑到了各个观测指标取值的差异程度,不再受各指标量纲的影响。将原始数据做线性变换后,马氏距离不变。n为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。的马氏距离:维样品,则两个样品间中的总体)的(,协方差为是来自均值向量为pGxxji0,)()(2ji1jixxxxijd19 . 09 . 01,002N19 . 09 . 0119. 011两点。和设) 1, 1 () 1 , 1 (BA05. 1)(MdA20)(

9、MdB2)(UdA2)(UdB例如,假设有一个二维正态总体,它的分布为: 马氏距离的缺点马氏距离的缺点:样品协方差矩阵不变不合理。切比雪夫距离:(Chebychev)jkikpkijxxd1max)(pljliljlilijxxxxpd11兰氏距离:兰氏距离: 适合于一切变量值大于零的情况。该距离与变量单位无关,对大的异常值不敏感,适用于较大变异的数据,但未考虑变量相关性问题。倍)氏距离(相差一个常数斜交空间距离退化为欧即个变量互不相关时,当的相关系数。与变量是变量,/ )2()(1*21112*pddpxxrrXXXXpdijlkklpkplklljlikjkiijij斜交空间距离可考虑变量

10、间相关性问题000pGqG1G2GnG1G2GnG12dnd121d1nd2ndnd2 样品点间的距离表样品点间的距离表3 3、距离选择的原则距离选择的原则n一般来说,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式侧重点和实际意义都不相同。因此我们在聚类分析时,应注意距离公式的选择。在选择距离公式时应注意以下原则:n应考虑变量类型应考虑变量类型(不同类型变量计算距离的方法不同)n所选择的亲疏测度指标在实际应用中应有所选择的亲疏测度指标在实际应用中应有明确的意义明确的意义。(欧几里得距离具有明确的空间距离的概念,马氏距离有消除量纲影响的作用)n要

11、综合考虑对要综合考虑对样本观测数据的预处理和将要采用的聚类样本观测数据的预处理和将要采用的聚类分析方法分析方法。(如在进行聚类分析之前已经对变量作了标准化处理,则通常采用欧几里得距离)n适当地考虑适当地考虑研究对象的特点和计算工作量的大小研究对象的特点和计算工作量的大小。(在实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。)(二)相似系数(二)相似系数n夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量ipiiixxx,21x1、夹角余弦、夹角余弦jpjjjxxx,21xpkpkj

12、kikpkjkikijxxxxcij11221cos 2 2、相关系数、相关系数),(;),(2121jpjjjipiiixxxXjxxxXi个样品观测值:第个样品观测值:第之间的相似测度为和jiXXpkpkjjkiikpkjjkiikijxxxxxxxxcij11221)()()(221ijijcd有:有:ijc例如夹角余弦夹角余弦相关系数相关系数 三、个体与小类、小类与小类间三、个体与小类、小类与小类间 “亲疏程度亲疏程度”的度量方法的度量方法1 、最短距离(Nearest Neighbor)x21x12x1113d2、最长距离(Furthest Neighbor )x11x2112d99

13、1dd3、组间平均连接(Between-group Linkage) 4、组内平均连接法(Within-group Linkage)1234566dddddd 每一步均考虑了小类内部相似性的变化 克服了最远、最近距离中距离受极端值影响的特点5、重心距离(Centroid clustering)11,xy22,xy为样品数合并成的小类,是npqrDnnnnDnnDnnDpqrqrpqkrqpkrprk 该方法充分利用了所涉及的距离信息,同时将小类的样本数也考虑进来了n是Ward提出的。其原则是:聚类过程中使小类内离差平方和增加最小的两小类首先合并为一类。n步骤:首先各个体自成一类,然后逐步凝聚成

14、小类。随着小类的不断凝聚,类内离差平方和必然不断增大。应选择使类内离差平方和增加最小的两类凝聚,直到所有个体合并成一类为止。6、离差平方和法连接(Wards method)例如:例如:例:5商厦个体间欧氏距离CASEEuclidean distanceABCDEABCDE0.0008.06217.80426.90730.4148.0620.00025.45634.65538.21017.80425.4560.0009.22012.80626.90734.6559.2200.0003.60630.41438.21012.8063.6060.000例题分析nD、E首先聚成一类,A、B、C与该小类n

15、最近邻距离依次为26.907、34.655、9.22n最远距离30.414、38.210、12.806n组间平均连接距离(26.907+30.414)/2、(34.655+38.210)/2、(9.22+12.806)/2n组内平均连接距离(26.907+30.414+3.606)/3、(34.655+38.210+3.606)/3、(9.22+12.806+3.606)/3n重心法:606. 32121414.3021907.2621,2121,21,21,EDDEADDADEDAD 四、聚类分析的几点说明四、聚类分析的几点说明(1 1)1 1、选择变量、选择变量 (1)根据聚类分析的目的选

16、择聚类变量(聚类是在选变量的基础上对样本数据进行的,分类结果是各变量综合计算的结果) (2)各变量的变量值不应有数量级上的差异(数量级对距离有较大影响,将影响最终聚类结果) (3)变量之间不能高度相关(如变量间有较强的线性相关关系,那么计算距离时同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量)2 2、计算相似性指标。、计算相似性指标。3 3、聚类、聚类 (1)选择聚类的方法 (2)确定形成的类数 根据分类问题本身的专业知识结合实际需要来选择;用多种分类方法去作,把其中的共性取出来,反映了事物的本质,将有争议的样品暂放在一边;观察样品散点图,从直觉上来判断所采用

17、的聚类方法是否合理。4 4、聚类结果的解释和证实、聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类别的原因。 四、聚类分析的几点说明四、聚类分析的几点说明(2)第三节第三节 系统聚类法系统聚类法一、含义:一、含义:又叫层次聚类。聚类过程是又叫层次聚类。聚类过程是按一定层次进行的,有按一定层次进行的,有Q Q型聚类和型聚类和R R型型聚类。聚类。二、聚类步骤二、聚类步骤三、常用的聚类方法三、常用的聚类方法四、系统聚类法的性质四、系统聚

18、类法的性质二、步骤:n1、对数据进行变换处理,消除量纲;n2、构造n个类,每个类只包含一个样品;n3、n个样品两两间的距离dij;n4、合并距离最近的两类为一新类;n5、计算新类与当前各类的距离,重复(4)、(5),直到所有的类合并为一类;n6、画聚类图;n7、决定类的个数和类。 1、根据样品的特征,规定样品之间的距离 ,共有 个。将所有距离列表,记为D D(0)表。 2、选择D D(0)表中最小的非零数,不妨假设 ,于是将 和 合并为一类,记为 。pqdpGqGqprGGG,2nCijd3、分别删除D(0)表的第p行和第q列,并新增一行和一列,利用递推公式计算新类与其它类之间的距离。产生D(

19、1)表。4、在D(1)表再选择最小的非零数,其对应的两类又构成新类,分别删除D(1)表的相应的行和列,并新增一行和一列,再利用递推公式计算新类与其它类之间的距离。结果,产生D(2)表。类推直至所有的样本点归为一类为止。例题:下表给出了某地区九个农业区的七项指标表表 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 区代号人均耕地x1(hm2/人)劳均耕地x2(hm2/个)水田比重x3(%)复种指数x4(%)粮食亩产x5(kg/ hm2)人均粮食x6(kg/人)稻谷占粮食比重x7(% )G10.2941.0935.63113.64510.51036.412.2G20.3150

20、.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17 表表 极差标准化处理后的数据极差标准化处理后的数据x

21、1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00它们经过极差标准化处理后,如下表所

22、示。minmaxminxxxxx 根据上述数据,计算可得九个农业区之间的绝对值距离矩阵如下040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(99ijdD 在距离矩阵D中,除对角线元素外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第4列;

23、 在余下的元素中,除对角线元素外,d75= d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第5列; 在第二步之后余下的元素之中,除对角线元素外,d82= d28=0.88为最小者,故将第2区与第8区并为一类,划去对应的行和列; 在第三步之后余下的元素中,除对角线元素外,d43= d34=1.23为最小者,故将第3区与第4区并为一类,划去对应的行和列,此时,第3、4、9区已归并为一类; 用Block距离计算距离,对某地区的九个农业区进行聚类分析,步骤如下: 在第四步之后余下的元素中,除对角线元素外,d21= d12=1.52为最小者,故将第1区与第2区并为一类,划去对应的行和

24、列,此时,第1、2、8区已归并为一类; 在第五步之后余下的元素中,除对角线元素外,d65= d56=1.78为最小者,故将第5区与第6区并为一类,划去对应的行和列,此时,第5、6、7区已归并为一类; 在第六步之后余下的元素中,除对角线元素外,d31= d13=3.10为最小者,故将第1区与第3区并为一类,划去对应行、列,此时,第1、2、3、4、8、9区已归并为一类; 在第七步之后余下的元素中,除去对角线元素外,只有d51= d15=5.86,故将第1区与第5区并为一类,划去对应行、列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类;G1G2G8G3G4G9G5G7G6根据上述步骤,

25、可以作出聚类过程的谱系图n以当前某个样品与已经形成的小类中的各样品距离中的最小值作为当前样品与该小类之间的距离。 Gr= Gp,Gq, drl=mindpl,dql。n类Gp与Gq之间的距离定义为两类最近样品的距离,即:qpijpqGGdMinDjixx,:定义距离:三、常用的种类三、常用的种类1、最短距离法(、最短距离法(Nearest Neighbor) 假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最短距离法为:qplDDMinDqlplrl,递推公式:最短距离法的分析步骤n定义样品之间的距离,计算n个样品的距离矩阵D(0),开始每个样品自成一类,显然这时Dijdijn找出D

26、(0)中非对角线最小元素,设为Dpq,将Gp和Gq合并为一个新类,记为Gr,即Gr = Gp,Gq 。n按计算公式计算出新类与其它类的距离。n重复以上步骤,直到所有元素并为一类为止。 如果某一步最小元素不止一个,则对应这些最小元素的类可以同时合并。例:为了研究以下5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海 7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.64 8.49 11.35 8.20 9.0110.5212.9413.30 8.14 9.3210.0519.2719.

27、2516.1715.9916.1811.0514.59 9.42 9.10 8.392.042.751.551.821.9613.2914.87 9.7611.3510.812112)(pkjkikijxxdd12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)21/2=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d3

28、5=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 1

29、2.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3= 7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6G8=G1,G2d78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2 如果某一步最小非零元素不止一个时,则对应于这些最小元素的类可以同时合并。n以当前某个样品与已经形成的小类中的各样品距离中的最大值作为当前样品与该小类之间的距离。n最长距离法的

30、并类与最短距离法的并类步骤完全一样。也就是先将各个样品自成一类,然后将类间距离最短的两类合并。 2 2、最长距离法、最长距离法( furthest neighbor)pqijpqDMax dGGijxx定义距离:, 假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最长距离法为:rlplqlDMax DDlpq递推公式:,例:对前例的数据以最长距离法聚类。 1 2 3 4 5 1 0 2 11.67 0 D1= 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.

31、80 d62=d(3,4)2=maxd23,d24=24.63d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2= 1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6d71=d(3,4,5)1=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3= 7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,

32、d72=24.63 7 8D4= 7 0 8 24.63 0G8=G1,G2G8=G1,G2河南1甘肃4G6G7G8G9青海5辽宁1浙江23 3、中间距离法、中间距离法当为中点时,递推公式:2222412121pqqlplrlDDDD 最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离。04121212222,一般情形:pqqlplrlDDDD 例:例:对对5 5个样品(个样品(1 1、2 2、3.53.5、7 7、9 9)进行分类。用绝对)进行分类。用绝对距离计算距离计算距离平方距离平方矩阵:矩阵:)0(D12231363412DDDD4141225. 225. 6

33、63D(1)将每个样品看作自成一类,因此Dij=dij,得下表。G6G3G4G5G6=X1、X20G3 =X340G4 =X430.2512.250G5 =X556.2530.2540(2)找出上表中非对角线最小元素是1,则将G1,G2合并为一个新类G6.计算新类与其它类的距离。(3)找出上表中非对角线最小元素是4,则将G3,G6合并为一个新类G7,将G4,G5合并为一个新类G8.最后计算它们的距离。) 1 (DG7G8G7 =X1、X2、 X30G8=X4 、X530.250X1X2 X3X4X5G6G7G8G914425.3041412121214121212141212124523625

34、6253236246243245275274278DDDDDDDDDDD)2(D4、类平均法:、类平均法:两类间样品距离的平均数。对两类间样品距离的平均数。对应组间平均连接应组间平均连接n用两类样品两两之间的距离的平方和的平均值作为两类间的距离的平方。它利用了所有样品对距离的信息。设聚类到某一步将Gp和Gq合并为Gr,则任一类Gl与Gr的距离为:2222222211111qlrqplrpGiGiijqlrqGiGiijplrpGiGiijrlGiGiijrlGiGiijrlrlDnnDnndnnnndnnnndnndnndnnDlqlplqlplrG1G2G3G4G5G1=X10G2 =X21

35、0G3 =X3 6.252.250G4 =X4362512.250G5 =X5644930.2540 找出上表中非对角线最小元素是1,则将G1,G2合并为一个新类G6.按类均法计算新类与其它类的距离。 例:例:对对5 5个样品(个样品(1 1、2 2、3.53.5、7 7、9 9)进行分类。用绝对)进行分类。用绝对距离计算距离计算距离平方距离平方矩阵:矩阵:)0(DG6G3G4G5G6=X1、X20G3 =X34.250G4 =X430.512.250G5 =X556.530.254025. 425. 22125. 621 5 , 4 , 3 2121236222126DkDDDkkk如其中

36、找出上表中非对角线最小元素是4,则将G4,G5合并为一个新类G7.按类平均法计算新类与其它类的距离。) 1 (DG6G3G7G60G3 4.250G7 43.521.250 找出上表中非对角线最小元素是4.25,则将G3,G6合并为一个新类G8.按类均法计算新类与其它类的距离。G6G7G60G7 36.080X1X2 X3X4X5G6G8G7G914.25436.08)2(D)3(D5 5、中间距离法的变形、中间距离法的变形可变法可变法 如果让中间距离法的递推公式前两项的系数也依赖于,则递推公式为: 2222)(21pqqlplrlDDDD即为可变法。取显然在可变类平均法中。是可变的,且其中,

37、211 rqrpnnnn6、可变类平均法、可变类平均法n由于类平均法中没有反映Gp和Gq之间的距离Dpq的影响,所以给出可变类平均法。对所有样品对的距离求平均值,包括小类之间的样品对、小类内的样品对。计算公式为:2222(1)pplqqlrlpqpqn Dn DDDnn 用此递推公式进行聚类就是可变类平均法。递推公式由: p类和q类与L类的距离的加权平均数 p类和q类的距离两项的加权和构成,的大小根据哪项更重要而定的大小根据哪项更重要而定。是可变的,且其中1 可变类平均法与可变法的分类效果与可变类平均法与可变法的分类效果与的选择的选择关系很大,在实际应用中关系很大,在实际应用中常取负值常取负值

38、。G1G2G3G4G5G1=X10G2 =X210G3 =X3 6.252.250G4 =X4362512.250G5 =X5644930.2540 找出上表中非对角线最小元素是1,则将G1,G2合并为一个新类G6.按可变类均法计算新类与其它类的距离。取-1/4。得下表。 例:例:对对5 5个样品(个样品(1 1、2 2、3.53.5、7 7、9 9)进行分类。用绝对)进行分类。用绝对距离计算距离计算距离平方距离平方矩阵:矩阵:G6G3G4G5G6=X1、X20G3 =X35.060G4 =X437.8812.250G5 =X570.3830.2540 上表中非对角线最小元素是4,则将G4,G

39、5合并为一个新类G7. 计算新类与其它类的距离。G6G3G7G6=X1、X20G3 =X35.060G7 =X4 、 X566.6625.560 上表中非对角线最小元素是5.06,则将G3,G6合并为一个新类G8. 计算新类与其它类的距离。G6G7G6=X1、X2 、 X30G7 =X4 、 X564.940X1X2 X3X4X5G6G8G7G915.06464.947 7、离差平方和法:、离差平方和法:是Ward提出的,基本思想来自于方差分析的想法,如类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。ktniiikttniiitttttXtXtXtXSSktXtXt

40、XtXSG1111) )()()()() )()()()(为:个类的类内离差平方和:中样品的离差平方和为nikkikiCkknR01) 1(!1),(将k固定时,要选择使S达到极小的分类,一切可能的分法有:nWard 寻找到一个局部最优解的方法。n先将n个样本各成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和S增加最小的两类合并,直至所有样本归为一类为止。2222pqlrlqllrlqpllrlprlDnnnDnnnnDnnnnDn如果分类正确,同类样品的离差平方和应该较小,类与类的离差平方和应当较大。因此应使小类内各样本的欧欧氏距离氏距离总平方和增加最小的两小类合并为

41、一类。用Ward法分类。(1)将五个样品各自分成一类,显然这时类内离差平方和S=0。(2)将一切可能的任意两列合并,计算所增加的离差平方和,取其中较小的S所对应的类进行合并,例如将G1=X1 , G2 =X2合并成一类,它的离差平方和S12=(1-1.5)2+(2-1.5)2=0.5,如果将G1=X1 ,G3 =X3合并成一类,它的离差平方和为 S13=(1-2.25)2+(3.5-2.25)2=3.125。将一切可能的两类合并的离差平方和都计算出来,并列表如下: 例:例:对对5 5个样品(个样品(1 1、2 2、3.53.5、7 7、9 9)进行分类)进行分类G1G2G3G4G5G1=X10

42、G2 =X20.50G3 =X33.1251.1250G4 =X41812.56.1250G5 =X53224.515.12520 上表中非对角线最小元素是0.5,说明将G1,G2合并为一个新类G6增加的S最少. 计算新类G6与其它类的距离,得下表。)0(DG6G3G4G5G6=X1、X20G3 =X32.6670G4 =X420.1676.1250G5 =X537.515.12520667. 25 . 031125. 132125. 332 2, 15 , 4 , 3 -23665432121262262216126DnnnnnnkDnnnDnnnnDnnnnDkkkkkkkkk如其中 上表

43、中非对角线最小元素是2,则将G4,G5合并为一个新类G7. 计算新类G7与其它类的距离。) 1 (DG6G3G7G6=X1、X20G3 =X32.6670G7 =X4 、 X542.2513.50 上表中非对角线最小元素是2.667,则将G3,G6合并为一个新类G8. 计算新类G8与其它类的距离。)2(DG6G7G6=X1、X2 、 X30G7 =X4 、 X540.830X1X2 X3X4X5G6G8G7G90.52.667240.8383.40667. 25225.42545 .1353 -23687727687672738737278DnnnDnnnnDnnnnD)3(D 分别为Gp和G

44、q的重心,类与类之间的距离定义为两个类重心(类内样品平均值)间的平方距离。1pipnpixGpXxn1qiqnqixGqXxn8、重心法:也称为样品的均值法。设Gp和Gq 为两个类qpqqpprnnXnXnX重心法递推公式重心法递推公式 假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按重心法为:()11ipqilrlrliixGGxGpqlDxxnnnxx111ipiqiliixGxGxGpqpqlxxnnnnn1ipiqilpqiiixGxGxGrprqlnnxxxn nn nnpqpqlrrnnxxxnn2222pqpqplqlpqrrrnnn nDDDnnnpqpqpqllrr

45、rrnnnnxxxxnnnnppqqplqlrrrrnnnnxxxxnnnn2rlD 重心法的归类步骤与以上方法基本相同,所不同的是每合并一次,就要重新计算新类的重心及各类与新类的距离。GrGl时,变成中间距离法当qpnn例:设5个样品(1,2,3.5,7,9)。重心法的初始距离与中间距离法相同。G1G2G3G4G5G1=X10G2 =X210G3 =X3 6.252.250G4 =X4362512.250G5 =X5644930.2540找出上表中非对角线最小元素是1,则将G1,G2合并为一个新类G6.计算新类的重心,其与其它类的距离。)0(D25.3014125213621 2, 1, 1

46、5 . 124662124666DnnnDGX,间的距离。如计算与其它各类重心之,计算其重心为G6G3G4G5G6=X1、X20G3 =X340G4 =X430.2512.250G5 =X556.2530.2540) 1 (D找出上表中非对角线最小元素是4,则将G3,G6合并为一个新类G7,将G4,G5合并为一个新类G8.最后计算它们的距离。G7G8G7 =X1、X2、 X30G8=X4 、X534.03003.34419232312192323121412121245236256253236246243245275274278DDDDDDDDDDD)2(DX1X2 X3X4X5G6G7G8G

47、9144 以上聚类方法的计算步骤完全相同,仅类与类之间距离的定义不同。Lance(兰斯)和Williams(威廉姆斯)于1967年将其统一为:它们取不同的数。类法,是参数,不同的系统聚,222222qpqlplpqqlqplprlDDDDDD方法pq最短距离法0-1/2最长距离法0中间距离法-1/40重心法np/nrnq/nr-pq0类平均法np/nrnq/nr00可变类平均法(1-) np/nr(1-) nq/nr10可变法(1-)/2(1-)/210离差平方和法(np+nl)/( nr+ nl)(nq+nl )/( nr+ nl)-nl/( nr+ nl)0 实例分析选取指标 y1人均GD

48、P,它反映了经济社会发展的总体状况和一般水平; y2人均第三产业增加值,它反映了人均服务产品占有量或服务密度; y3第二产业增加值比重,它反映了工业化水平和产业结构现代化程度; y4第三产业增加值比重,它反映了第三产业的发展程度及其对国民经济的贡献; y5第三产业从业人员比重,它反映了第三产业对劳动力的吸纳能力; y6第三产业固定资产投资比重,它反映了第三产业的资金投入程度; y7城市化水平,它反映了农村人口转化为城市人口的程度及对服务的需求量。 例: 对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析- 用标准差标准化方法对7项指标的原始数据进行处理。 采用欧氏距离测度

49、31个省(市、区)之间的样本间距离。 选用组平均法计算类间的距离,并对样本进行归类。具体的数据与计算过程在此略。经过上述聚类计算步骤,得到的聚类结果见下图。 聚类计算聚类计算( (计算过程计算过程 ) ) 样本 Num +-+-+-+-+-+ 安徽 12 河南 16 甘肃 28 四川 23 贵州 24 河北 3 山东 15 山西 4 湖北 17 重庆 22 陕西 27 宁夏 30 江西 14 湖南 18 广西 20 云南 25 江苏 10 浙江 11 广东 19 福建 13 辽宁 6 黑龙江 8 吉林 7 新疆 31 内蒙古 5 青海 29 海南 21 西藏 26 北京 1 上海 9 天津 2

50、 图图 中国中国31个省级区域第三产业发展水平组平均聚类谱系图个省级区域第三产业发展水平组平均聚类谱系图 聚类结果分析当类间距离取为4.0和2.5时,全国各省份被合并成以下几类: 上海、北京、天津3直辖市为一类,而上海和北京更接近; 西藏、海南为一特殊类;青海、内蒙古、新疆、吉林为一类,其中内蒙古、新疆、吉林合并为一亚类;江苏、浙江、广东、福建、辽宁、黑龙江为一类,其中江苏、浙江、广东合并为一亚类; 重庆、陕西、宁夏、江西、湖南、广西为一类,其中重庆、陕西、宁夏和江西、湖南、广西各自为一亚类,云南为一孤立点; 河北、山东、山西、湖北为一类; 安徽、河南、甘肃、四川、贵州为一类。例:例:为了更深

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 工作办公

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com