数学实验05聚类分析.ppt-得力文库

资源描述

《数学实验05聚类分析.ppt》由会员分享，可在线阅读，更多相关《数学实验05聚类分析.ppt（52页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、聚类分析俗话说：“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。所谓类，通俗地说，就是指相似元素的集合。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类

2、法、聚类预报法等。n第一节第一节聚类分析方法聚类分析方法n第二节第二节聚类统计量聚类统计量n第三节第三节数据变换方法数据变换方法n第四节第四节系统聚类法系统聚类法n第五第五节节 k-k-均值均值聚类法聚类法第一节第一节聚类分析方法聚类分析方法n聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。n基本思想基本思想是根据事物本身的特性研究个体分类的方法；聚类原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。n基本程序：是根

3、据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量统计量，然后利用统计量将样品或指标进行归类。n具体进行聚类时，由于目的、要求不同，因而产生各种不同的聚类方法：n由小类合并到大类的方法n由大类分解为小类的方法n静态聚类法、动态聚类法n按样本聚类（Q）、按指标聚类（R）饮料数据饮料数据n16种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量第二节第二节聚类统计量聚类统计量n一、概述一、概述n二、二、Q Q型聚类统计量型聚类统计量n三、三、R R型聚类统计量型聚类统计量概述n设有n个样本单位，每个样本测得p项指标（变量），原始资料阵为：nQ型聚

4、类一般以距离作为统计量，R型聚类一般以相似系数作为统计量。Q型聚类统计量（距离）n把n个样本点看成p维空间的n个点n1、绝对距离（Block距离）n2、欧氏距离(Euclidean distance)n3、明考斯基距离(Minkowski)n4、兰氏距离n5、马氏距离n6、切比雪夫距离(Chebychev)R型聚类统计量n对两个指标之间的相似程度用相似系数来刻划，相似系数的绝对值越接近于1，表示指标间的关系越密切，绝对值越接近于0，表示指标间的关系越疏远。n1、夹角余弦n2、相关系数距离和相似系数选择的原则距离和相似系数选择的原则一般说来，同一批数据采用不同的亲疏测度指标，会得到不同的分类结

5、果。产生不同结果的原因，主要是由于不不同同的的亲亲疏疏测测度度指指标标所所衡衡量量的的亲亲疏疏程程度度的的实实际际意意义义不不同同，也就是说，不同的亲疏测度指标代表了不同意义上的亲疏程度。因此我们在进行聚类分析时，应注意亲疏测度指标的选择。通常，选择亲疏测度指标时，应注意遵循的基本原则主要有：(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。如在标准化变换之下，夹角余弦实际上就是相关系数；又如若在进行聚类分析之前已经对变量的相关性作了处理，则通常就可采用欧氏距离，而不必选用斜交空间距离。此外，所选择的亲疏测度指标，还须和所选用的聚类分析方法一致。(1)

6、所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中，常用相关系数表示经济变量之间的亲疏程度。(3)适当地考虑计算工作量的大小。如对大样本的聚类问题，不适宜选择斜交空间距离，因采用该距离处理时，计算工作量太大。样品间或变量间亲疏测度指标的选择是一个比比较较复复杂杂且且带带主主观观性性的问题，我们应根据研究对象的特点作具体分折，以选择出合适的亲疏测度指标。实践中，在开始进行聚类分析时，不妨试试探探性性地地多选择几个亲疏测度指标，分别进行聚类，然后对聚类分析的结果进行对比分析，以确定出合适的亲疏测度指标。第三节第三节数据变换方法数据变换方法n所谓数据变换（无量纲化）处理，是将原始数据

7、矩阵中每个元素按照某种特定的运算把它变成一个新值，且是数值的变化不依赖于原始数据中其它数据的新值。1 1、中心化变换、中心化变换中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。设原始观测数据矩阵为：中心化变换的结果是使每列数据之和均为0，即每个变量的均值为0，而且每列数据的平方和是该列变量样本方差的(n1)倍，任何不同两列数据之交叉乘积之和是这两列变量样本协方差的n倍，所以这是一种很方便地计算方差与协方差的变换。2 2、极差规格化变换、极差规格化变换规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者

8、之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差，就得到规格化数据。即有：经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在01之间；并且变换后的数据都不再具有量纲，便于不同的变量之间的比较。3 3、标准化变换、标准化变换标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。即有：经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。变换后，数据短阵中任何两列数据乘积之和是两个变量

9、相关系数的n倍，所以这是一种很方便地计算相关矩阵的变换。4 4对数变换对数变换对数变换是将各个原始数据取对数，将原始数据的对数值作为变换后的新值。即：n例：某年我国部分省市经济效益情况n用以上几种方法对其进行数据变换。指标实际值北京天津上海江苏广东产品销售率（%）资金利税率（%）成本利润率（%）劳动生产率（元/人）流动资金周转次数(次)净资产率（%）96.0114.909.51148301.6828.4095.729.213.35100041.7926.4898.4213.887.55155451.8025.5693.4310.753.9997082.2122.3095.1610.255.0

10、3145901.8725.01第四节第四节系统聚类法系统聚类法n系统聚类法（层次聚类法）系统聚类法（层次聚类法）：在聚类分析的开始，每个样本自成一类；然后，按照某种方法度量所有样本之间的亲疏程度，并把最相似（近）的样本首先聚成一小类；接下来，度量剩余的样本和小类间的亲疏程度，并将当前最接近的样本或小类再聚成一类；再接下来，再度量剩余的样本和小类间的亲疏程度，并将当前最接近的样本或小类再聚成一类；如此反复，直到所有样本聚成一类为止。越是后来合并的类，距离就越远。步骤：n1、对数据进行变换处理，消除量纲n2、构造n个类，每个类只包含一个样本计算n3、n个样本两两间的距离个样本两两间的距离dijn4

11、、合并距离最近的两类为一新类n5、计算新类与当前各类的距离，重复（4）n6、画聚类图n7、决定类的个数和类n1、对数据进行变换处理，消除量纲n2、构造n个类，每个类只包含一个样本计算n3、n个样本两两间的距离个样本两两间的距离dijn4、合并距离最近的两类为一新类n5、计算新类与当前各类的距离距离，重复（4）n6、画聚类图n7、决定类的个数和类类与类间距离的确定n一、最短距离法n二、最长距离法n三、中间距离法n四、重心距离法n五、类平均法n六、离差平方和最短距离法最短距离法(Nearest Neighbor)n以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离

12、。省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81例1：为了研究辽宁省等5省区某年城镇居民生活消费的分布规律，根据调查资料做类型划分C1=辽宁，C2=浙江，C3=河南，C4=甘肃，C5=青海 d12=(7.9-7.6

13、8)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近，河

14、南与甘肃的距离最近，先将二者（先将二者（3和和4）合为）合为一类一类C6=C2，C4d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青

15、海并河南、甘肃与青海并为一新类为一新类C7=C6，C5=C3，C4，C6C8=C1,C2C8=C1,C2d78=mind71,d72=12.80 7 8D4=7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2最长距离法(furthest neighbor)n以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离。例2：对例1的数据以最长距离法聚类。d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.6

16、7 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2=1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南与甘肃的距离最近，河南与甘肃的距离最近，先将二者（先将二者（3和和4）合为）合为一类一类C6=C3，C4河南、甘肃与青海并为一新河南、甘肃与青海并为一新类类C7=C6，C5=

17、C3，C4，C6d71=d(3,4,5)1=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3=7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4=7 0 8 24.63 0C8=C1,C2C8=C1,C2中位数法（Median clustering)n用两个类的中位数间的距离作为两类的距离GtGlGm重心法n用两类的重心间的距离作为两类的距离GrGt离差平方和法（Wards method word)n使小类内各样本的欧氏距离欧氏距离总平方和增加最小的两小类合并

18、为一类。n将q固定时，要选择使S达到极小的分类，一切可能的分法有：nWard 寻找到一个局部最优解的方法。n先将n个样本各成一类，然后每次缩小一类，每缩小一类离差平方和就要增大，选择使离差平方和S增加最小的两类合并，直至所有样本归为一类为止。饮料数据饮料数据n16种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量对于对于饮料聚类。饮料聚类。输出为输出为确定类的个数确定类的个数在聚类分析过程中类的个数如何来确定才合适呢？这是一个十分困难的问题，人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。简单的做法是根据实际问题给定一个特定的阈值。给定阈值通过观测聚类图

19、，给出一个合适的阈值T。要求类与类之间的距离不要超过T值。n系统聚类可以不事先确定有多少类；但是这里的k-均值聚类（k-means cluster，也叫快速聚类，quick cluster）却要求事先说好要分多少类。看起来有些主观！n假定要分3类，这个方法还进一步要求事先确定3个点为“聚类种子”(凝聚点)；也就是说，把这3个点作为三类中每一类的基石。第五节第五节k-均值聚类均值聚类事先确定分多少类事先确定分多少类n然后，根据和这三个点的距离远近，把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了)，再重新按照距离分类。n如此叠代下去，直到达到停止叠代的要求（比如

20、，各类最后变化不大了，或者叠代次数太多了）。显然，前面的聚类种子的选择并不必太认真，它们很可能最后还会分到同一类中。下面用饮料例的数据来做k-均值聚类。第五节第五节k-均值聚类均值聚类事先确定分多少类事先确定分多少类K-均值（快速）聚类步骤均值（快速）聚类步骤n1、选择分析变量n2、指定聚类数目n3、选择k个样本作为凝聚点n4、按照距初始类中心最小的原则将各观察量分到聚类中心所在的类中去，形成第一步迭代的k类n5、计算每类中所有变量的均值，作为第二次迭代的中心n6、重复4、5步，直至指定的迭代次数或达到终止的条件饮料数据饮料数据n16种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、

21、钠及价格四种变量假定要把这假定要把这1616种饮料分成种饮料分成3 3类。利用类。利用SPSSSPSS，只叠只叠代了三次就达到目标了。这样就可以得到最后的代了三次就达到目标了。这样就可以得到最后的三类的中心以及每类有多少点三类的中心以及每类有多少点根据需要，可以输出哪些点分在一起。结果是：第一类为饮料：1、10；第二类为饮料：2、4、8、11、12、13、14；第三类为剩下的饮料：3、5、6、7、9、15、16。凝聚点的选择n1、经验选择n2、对样本人为或随机分类，以每类的重心作为凝聚点n3、最小最大距离法。如果欲将n个样本点分为q类，先选取距离最大的两点xi1,xi2为前两个凝聚点，然后选

22、取第3个凝聚点xi3，由于其余所有点与前两个凝聚点都有最短距离，在全部最短距离中选择最长距离，这个距离的两端一个是xi1或xi2，而另一个就是我们要选择的xi3.n聚类结果主要受所选择的变量影响。如果去掉一些变量，或者增加一些变量，结果会很不同。相比之下，聚类方法的选择则不那么重要了。因此，聚类之前一定要目标明确。聚类要注意的问题聚类要注意的问题聚类要注意的问题聚类要注意的问题n另外就分成多少类来说，也要有道理。只要你高兴，从分层聚类的计算机结果中可以得到任何可能数量的类。但是，聚类的目的是要使各类之间的距离尽可能地远，而类中点的距离尽可能的近，并且分类结果还要有令人信服的解释。这一点就不是数

23、学可以解决的了。根据美国等20个国家和地区的信息基础设施的发展状况进行分类。Call每千人拥有的电话线数；movel每千人户居民拥有的蜂窝移动电话数；fee高峰时期每三分钟国际电话的成本；comp每千人拥有的计算机数；mips每千人计算机功率（每秒百万指令）；net每千人互联网络户主数。作业作业1：分别用系统聚类和：分别用系统聚类和K-均值聚类法对下均值聚类法对下面问题进行分类。面问题进行分类。国家国家callcallmovelmovelfeefeecompcompmipsmipsnetnetmeiguomeiguo631.6631.6161.9161.90.360.3640340326073

24、2607335.3435.34ribenriben498.4498.4143.2143.23.573.5717617610223102236.266.26deguodeguo557.6557.670.6070.602.182.1819919911571115719.849.84ruidianruidian684.1684.1281.8281.81.41.4246246166601666029.3929.39ruishiruishi64464493.593.51.981.98234234136211362122.6822.68xinjiapoxinjiapo498.4498.4147.5147.

25、52.52.5284284135781357813.4913.49taiwantaiwan469.4469.456.156.13.683.68119119691169111.721.72hanguohanguo434.5434.573733.363.369999579557951.661.66baxibaxi81.981.916.316.33.023.0219198768760.520.52zhilizhili138.6138.68.208.201.41.43131141114111.281.28moxigemoxige92.292.29.89.82.612.613131175117510.3

26、50.35eluosieluosi174.9174.95 55.125.122424110111010.480.48bolanbolan1691696.56.53.683.684040179617961.451.45xiongyalixiongyali262.2262.249.449.42.662.666868306730673.093.09malaixiyamalaixiya195.5195.588.488.44.194.195353273427341.251.25taiguotaiguo78.678.627.827.84.954.952222166216620.110.11yinduyin

27、du13.613.60.300.306.286.282 21011010.010.01faguofaguo559.1559.142.942.91.271.2720120111702117024.764.76yingguoyingguo521.10521.10122.5122.50.980.98248248144611446111.9111.91作作业业2 我国经济发展的总目标是到2000年人民生活达到小康标准，因此，了解各地区目前对小康生活质量的实现程度。对各地区实现小康生活质量的状况进行综合评价，对各级政府部门具有重要意义。数据是1990年全国30个省在经济（jj）、教育（jy）、健康（jk

28、）和居住环境（jz）四个方面对小康标准已经实现的程度，1表示已经达到或超过小康水平，0表示低于或刚达到温饱水平。希望利用该数据对15个地区进行分类研究。jjjjjyjyjkjkjzjzbeijngshbeijngsh0.72580.72580.94130.94131.00001.00000.50000.5000anghaianghai0.53460.53460.98480.98481.00001.00000.50000.5000ianjinianjin0.32460.32460.97330.97331.00001.00000.50000.5000hennahenna0.23010.23010.

29、46210.46211.00001.00001.00001.0000ejiangejiang0.50250.50250.23740.23741.00001.00000.88820.8882jilinjilin0.34460.34460.77550.77550.82800.82800.50000.5000elongjielongji0.28910.28910.78350.78350.80800.80800.50000.5000fujianfujian0.14060.14060.35240.35241.00001.00000.71020.7102uangxiuangxi0.09390.09390.

30、64980.64980.44350.44351.00001.0000anhuianhui0.11040.11040.08020.08021.00001.00000.95450.9545ingxiaingxia0.27080.27080.31270.31270.54250.54250.90530.9053hunanhunan0.06180.06180.56870.56870.43850.43850.50000.5000jiangxijiangxi0.05490.05490.30420.30420.35200.35200.61550.6155inghaiinghai0.07510.07510.01180.01180.00000.00000.82580.8258uizhouuizhou0.02860.02860.06000.06000.05900.05900.50000.5000

展开阅读全文