聚类分析金融证券期货金融证券期货.pdf-得力文库

资源描述

《聚类分析金融证券期货金融证券期货.pdf》由会员分享，可在线阅读，更多相关《聚类分析金融证券期货金融证券期货.pdf（14页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、页眉内容聚类分析（一）聚类分析基本概念（1）有若干个变量（或指标），例 3-1的 2 个变量是样本均值和样本标准差；例 3-2的变量是对式样、图案、颜色、材料的态度；例 3-3的变量是销售增长、销售利润和新客户销售额；例3-4的变量是出生率、死亡率和婴儿死亡率；。这些变量称为自变量或聚类变量。（2）有若干次观测，每次观测值由若干个数值组成，每次观测值称为1 个个体或 1 个样品：例 3-1其观测次数共有 4 次（甲、乙、丙、丁），其观测值都是 2 个值组成：第 1 次观测（第 1 个样品）是向量(18.002 0.003),第 2 次观测（第 2 个样品）是(17.997 0.004)，。

2、例 3-2有 5 次观测（5 位顾客），每人 4 项指标；例 3-3、3-4、3-5，的变量各有 50、97、39 次观测值；而例 3-6将许多次原始观测整理为协方差阵，并未提供原始观测数据。（3）要求分类（或分组）：例 3-3、3-4要求把观测值分为 3 类，而例 3-1和例 3-2则不限定观测值分为几类；例 3-1、3-2、3-3、3-4要求按观测值分类，而例 3-5，3-6要求按变量分类。因为是把大量的样品变为少量的类，通常这种分类称为聚类。（二）聚类原理 1）聚类原则选定观测值（点）间距离，类间距离，按照距离最近两类合并在一起的原则合并。（也有用相似远离）。常用聚类方法分为：（1）系

3、统聚类 MINITAB译为观测值聚类（得到谱系图或树状图）（2）动态聚类 MINITAB译为 K均值聚类。可由统计多变量观测值聚类，统计多变量K均值聚类分别进入。2）常用点间距离（距离度量）有时先把数据标准化再聚类以免单位影响，例如 x1 观测值 3，2，1，0，-1；x2 取值 30，20，10，0，-10。X1均值 1，样本标准差 1.581；将 x1 观测值减去平均值 1，除以 1.581，得到 1.26502，0.63251，0.00000，-0.63251，-1.26502；1.26502，0.63251，0.00000，-0.63251，-1.26502是 3，2，1，0，-1的标

4、准化。X2标准化后也得到 1.26502，0.63251，0.00000，-0.63251，-1.26502。标准化后的数与单位无关。系统聚类从“统计多变量观测值聚类”进入观测值聚类框；点间距离，类间距离根据情况选取。动态聚类从“统计多变量K均值聚类”进入 K均值聚类框；点间距离固定为 Euclidean，类间距离固定为质心法，无需再选取。（1）欧氏距离页眉内容欧氏（Euclidean）距离定义为：m2ijikjkk=1d=(x-x)，(,1,)i jn (3-2)欧氏距离是聚类分析中使用最广泛的距离，上式也称为简单欧氏距离。另一种常用的形式是平方欧氏距离，即取上式的平方，记为2ijd。平

5、方欧氏距离的优点是，因为不再计算平方根，不仅理论上简单，而且提高了计算机的运算速度。（2）Pearson距离欧氏距离虽然使用最为广泛，但是该距离是有量纲的，而且它与各变量的量纲有关，因而从数值上说，各维之间可能因单位而相差悬殊；也没有考虑各变量方差的不同。从欧氏距离的定义中易见，方差大的变量在距离中的作用（贡献）就会大。为此我们引入了 Pearson距离的概念。m2ijikjkkk=1d=(x-x)/V(,1,)i jn，(3-3)其中kV是第k个变量的方差。这个距离考虑到了各个变量的不同标准差，但未考虑各变量间可能存在的相关。对上式取平方，就得到 Pearson平方距离。（3）绝对值距离（

6、又称为 Manhattan distance）绝对值距离定义为：mijikjkk=1d=x-x，(,1,)i jn (3-4)绝对值距离是一个应用很广泛的距离，它具有稳健性：野点的影响较小。平方绝对值距离是对上式取平方。（4）马氏距离（Mahalanobis distance）欧氏距离、Pearson 距离和绝对值距离都没有考虑变量间的相关性：当变量之间不相关时效果较好，如果变量之间相关，则聚类结果往往不够好，为此考虑马氏距离。设样本方差阵为S，设ijX,X是 2个样品所成向量。则ijX,X的马氏距离是-1ijij(X-X)S(X-X)（3-5）有时为了避免开平方，称-1ijij(X-X)S(

7、X-X)为平方马氏距离。严格地说，由于样品属于多个类，计算样本总协方差阵S应当按第 2 章式（2-3）即各样本协方差阵iS的加权平均计算，但由于聚类过程结束前，真正分类无法知道，通常按（3-5）计算，即按全体样本合为 1 类计算样本协方差阵。马氏距离的优点是能消除变量间的相关性带来的不利影响。色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例

8、和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容（5）配合距离以上几种距离的定义均要求变量是连续型的，如果使用的变量是有序尺度或名义尺度变量，则也要有相应的一些定义距离的方法。下例说明如何对一类向量定义距离：这类向量的分量为名义尺度变量。设有两个向量：),()1(HVGAPX，),()2(HVGBQX 它们的 5 个分量均为名义尺度变

9、量：第 1 个分量分别取值P和Q，称第 1 个变量值不配合；第 2 个分量分别取值A和B，称第 2 个变量值不配合；第 3 个分量取相同值G，第 4 个分量取相同值V，第 5个分量取相同值H，称第 3，4，5个分量值配合。定义两个向量之间的配合距离为 2/（2+3）。一般的，设1m为两个向量样品配合的分量数，2m为不配合的分量数，则可定义两个样品之间的配合距离为:例 3-2中 5 名顾客表 5 名顾客对某服装的看法表顾客式样图案颜色材料 1 0 1 0 1 2 1 1 1 1 3 1 1 0 0 4 1 0 1 1 5 1 0 1 0 例 3-2中 5 名顾客间的不配合数（看法不同

10、处）形成矩阵，列在表 3-3中。表 3-3例 3-2不配合数矩阵顾客 1 顾客 2 顾客 3 顾客 4 顾客 5 顾客 1 0 2 2 3 4 顾客 2 2 0 2 1 2 顾客 3 2 2 0 3 2 顾客 4 3 1 3 0 1 顾客 5 4 2 2 1 0 因为例 3-2配合数与不配合数之和总和为 4。所以例 3-2顾客间的配合距离矩阵如表 3-4 所示（原始数据在表 3-2，数据文件：MV_服装顾客.MTW）表 3-4 例 3-2配合距离矩阵顾客 1 顾客 2 顾客 3 顾客 4 顾客 5 顾客 1 0 0.5 0.5 0.75 1 顾客 2 0.5 0 0.5 0.25 0.5

11、顾客 3 0.5 0.5 0 0.75 0.5 顾客 4 0.75 0.25 0.75 0 0.25 顾客 5 1 0.5 0.5 0.25 0 3）常用类间距离（联接法）色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为

12、系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容(1)最短距离法（SINgle linkage）定义类与类之间的距离为两类内最近样品间的距离，即,minpqpqiji Gj GDd（这里piG表示()ipXG，以下同）(3-13)称这种系统聚类法为最短距离法。(2)最长距离法（COMplete method）类与类之间的距离定义为两类内相距最远的样品间的距离，即：,maxpqpqiji Gj GDd (3-14)称这种系统聚类法为最长距离法。(3)中间距离

13、法（MEDian method）如果类与类之间的距离既不采用两类内样品间的最近距离，也不采用两类内样品间的最远距离，而是采用类似于三角形中线公式的计算类之间的距离方法，这种方法称为中间距离法（应当译为中线法）。当某步骤类pG和qG合并成rG后，按中间距离法计算新类rG与其它类kG的类间距离，其递推公式为 2222()rkpkqkpq1DDDD2 (1/40,)kp q，(3-15)常取1/4。(4)重心法或质心法（Centroid method）每一类的重心就是属于该类的所有样品的均值向量。将两类间的距离定义为两类重心间的距离，这种距离方法称为重心法。重心法一般采用欧氏距离定义样品间的距离。重

14、心法比其它系统聚类方法考虑得更全面。其主要缺点是在聚类过程中，不能保证合并的类之间的距离值呈单调增加的趋势，也即本次合并的两类之间的距离可能小于上一次合并的两类之间的距离，在树状图上会出现图形逆转；也不能保证相似性水平呈单调减少的趋势。(5)类平均法（AVErage linkage）类平均法有两种定义，一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离，即,1pqpqiji Gj GpqDdn n，(3-16)其中,pqnn分别为类pG和类qG的样品个数。简称为平均法。另一种定义方法为定义类与类之间的平方距离为样品对之间平方距离的平均值，即 22,1pqpqiji Gj GpqDd

15、n n (3-17)色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚

16、类以免单位影响例如观测值取页眉内容 MINTTAB 中使用的是第一种距离定义方法（3-16）来进行类平均聚类。(6)离差平方和法（WARD）假设已经将n个样品分为k类，()tX表示tG的重心，()()tiX表示tG中第i个样品(1,)tin，则tG中样品的离差平方和为：()()()()()()1()()tntttttiiiWXXXX，(3-18)其中()()(),ttiXX为m维向量，tW为一数值(1,)tk，代表tG类内的分散程度。k个类的总离差平方和为：()()()()()()111()()tnkktttttiittiWWXXXX (3-19)它们反映了各类内样品的分散程度的总和。设某一

17、步将类pG和qG合并成rG，而pG、qG和rG类中样品的离差平方和分别为pW、qW和rW。如果pG和qG这两类相距较近，则合并之后所增加的离差平方和rpqWWW应较小；否则，应较大。于是我们定义pG和qG之间的平方距离为：2()pqrpqDWWW (3-20)按照这种原则实施系统聚类的方称为法称为离差平方和法或 Ward 方法。可以验证，定义（3-20）满足通常定义距离所需的三个条件（见 3.2.2.1）。重心法的类间距离与两类的样品数无关，而离差平方和法的类间距离与两类的样品数有较大的关系，两个大的类倾向于有较大的距离，因而不易合并，这往往符合我们对聚类的实际要求。离差平方和法在许多场合下优

18、于重心法，是比较好的一种系统聚类法，但它对异常值较敏感。(7)McQuitty 相似分析法（MCQ）当某一步将类pG和qG合并成rG后，McQuitty 相似分析法把rG与其它类kG的距离定义为：222()/2rkpkqkDDD (3-21)又称为简单平均法。在进行聚类分析的过程中，上述 5 种点间距离，7 种类间距离的定义方法各有优缺点，很难保证说哪种定义方法一定最优，因此应根据实际情况选取合适的类间距离定义。如果无法从机理上进行选取，则可以都试验一下，再根据结果的合理性来选取之。表 MINITAB供选择点间距离 MINITAB记号实际使用距离色材料的态度例的变量是销售增长销售利润和新客

19、户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容框名：距离量度指定 MI

20、NITAB使用距离 Euclidean 欧式距离 Manhattan 绝对值距离 Pearson Pearson 距离 Pearson 平方 Pearson 距离的平方 Euclidean 平方欧式距离的平方表 MINITAB供选择类间距离 MINITAB记号实际使用距离框名：联结法类间距离最短距离最短距离法平均类平均法质心质心法最长距离最长平均法简单平均 McQuitty 相似分析法中间距离中间距离法离差平方和离差平方和法（三）实例例 3-1设某零件标准长度为 18。检验 4 家供货商提供的产品，得到的数据如表（数据文件：MV_零件聚类.MTW）。试对这

21、 4 家产品聚类。表 3-1 4家供货商提供的产品数据供货商样本均值样本标准差甲 18.002 0.003 乙 17.997 0.004 丙 18.05 0.002 丁 18.2 0.5 解点间距离采用绝对值距离（Manhattan），类间距离采用最短距离法，用系统聚类法聚类。具体步骤是：先将表中给出的数据输入工作表；然后采用指令：从“统计多变量观测值聚类（Stat Multivariate Cluster Observations）”进入“观测值聚类”对话框，在“变量或距离矩阵（Variables or distance matrix）”中填入“样本均值样本标准差”,在“联结

22、法（Linkage Method）”窗中选择“最短距离（Single）”，在“距离量度（Distance Measure）”中选择“Manhattan（绝对值）”。选中“标准化变量（Standardize variables）”，在“指定最终分类，按（Specify Final Partition by）”中选择聚类数，并且指定为“1”（最终聚为 1 类），选中“显示树状图（Show dendrogram）”。打开“自定义（Customize）”窗，弹出“观测值聚类树状图自定义”对话框，在“标题（Title）”一栏里填入“零件聚类树状图”，在“大小写标签（Case labels）”一栏里填入“

23、供货商”（用以指明横轴），在“轴标签指标为（Label Y Axis with）”选择“相似性（Similarity）”（用以得到相似性以便确定类数），在色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值

24、聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容“显示树状图于（Show Dendrogram in）”选择“一个图形（One graph）”，对各框点击“确定(OK)”（界面见图 3-2）。图 3-2 观测值聚类最短距离法 MINITAB 操作图得到最小距离法树状图（如图 3-3）。图 3-3 最小距离法树状图从图 3-3可见，未聚类前有 4 类，各家产品自成 1类：甲是第 1 类，样本均值有小的正偏差，精度高；乙是第 2类，样本均值有小的负偏差，精度高；丙是第 3

25、类，样本均值有较大的正偏差，精度高；丁是第 4类，样本均值有大的正偏差，精度差。聚类第 1 步，甲乙两家聚成 1类，即样本均值误差小，精度高的类，其余 2家各成1 类。聚类第 2步，甲乙丙三家（精度高的类）聚成 1 类，其余丁自成 1类。聚类第 3步，甲乙丙丁聚成 1类，即全部产品。当观测值个数较多时，以会话区的聚类过程分类为好例 3-3某公司 10 名销售人员业绩(包括销售增长、销售利润及新客户销售额 3 项指标)数据见网络参考资料下表，数据文件：MV_业绩.MTW，试根据业绩将这 10 人类。系统聚类，分多 10 类，用欧式距离，质心法销售人员销售增长销售利润新客户销售额 1 9

26、3.0 96.0 97.8 2 88.8 91.8 96.8 3 95.0 100.3 99.0 4 101.3 103.8 106.8 5 102.0 107.8 103.0 6 95.8 97.5 99.3 7 95.5 99.5 99.0 8 110.8 122.0 115.3 9 102.8 108.3 103.8 10 106.8 120.5 102.0 当观测值比较多，不知聚为几类合适时，可以检查每两步间相似水平之差。若第 k 步与第 k+1步之间的相似性水平变化最大，可以把第 k 步的结果作为一个比较合理的分类。下面例 3-4介绍动态聚类的步骤。动态聚类从“统计多变量K均值聚类”

27、进入 K均值聚类框；点间距离固定为 Euclidean，类间距离固定为质心法，无需再选取。例 3-4：97 个国家和地区的出生率、死亡率和婴儿死亡率数据见网络参考资料下表，数据文件：MV_出生死亡率.MTW，按照这 3个指标把 97 个国家或地区分成 3类。序号出生率死亡率婴儿死亡率国家或地区 1 40.4 18.7 181.6 Afghanistan 2 24.7 5.7 30.8 Albania 3 35.5 8.3 74.0 Algeria 色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若

28、干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容 4 47.2 20.2 137.0 Angola 5 20.7 8.4 25.7 Argentina 6 14.9 7.4

29、 8.0 Austria 7 28.4 3.8 16.0 Bahrain 8 42.2 15.5 119.0 Bangladesh 9 12.0 10.6 7.9 Belgium 10 46.6 18.0 111.0 Bolivia 11 48.5 11.6 67.0 Botswana 12 28.6 7.9 63.0 Brazil 13 12.5 11.9 14.4 Bulgaria 14 15.2 9.5 13.1 Byelorussia_SSR 15 41.4 16.6 130.0 Cambodia 16 14.5 7.3 7.2 Canada 17 23.4 5.8 17.1 Chil

30、e 18 21.2 6.7 32.0 China 19 27.4 6.1 40.0 Columbia 20 46.1 14.6 73.0 Congo 21 13.4 11.7 11.3 Czechoslovakia 22 12.4 11.9 7.5 Denmark 23 32.9 7.4 63.0 Ecuador 24 38.8 9.5 49.4 Egypt 25 48.6 20.7 137.0 Ethiopia 26 13.2 10.1 5.8 Finland 27 12.0 12.4 7.6 Former_E._Germany 28 13.6 9.4 7.4 France 29 39.4

31、16.8 103.0 Gabon 30 47.4 21.4 143.0 Gambia 31 11.4 11.2 7.4 Germany 32 44.4 13.1 90.0 Ghana 33 10.1 9.2 11.0 Greece 34 28.3 7.3 56.0 Guyana 35 11.7 4.9 6.1 Hong_Kong 36 11.6 13.4 14.8 Hungary 37 30.5 10.2 91.0 India 38 28.6 9.4 75.0 Indonesia 39 42.5 11.5 108.1 Iran 40 42.6 7.8 69.0 Iraq 41 15.1 9.1

32、 7.5 Ireland 42 22.3 6.3 9.7 Israel 43 9.7 9.1 8.8 Italy 44 9.9 6.7 4.5 Japan 45 38.9 6.4 44.0 Jordan 46 47.0 11.3 72.0 Kenya 47 23.5 18.1 25.0 Korea 色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为

33、类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容 48 26.8 2.2 15.6 Kuwait 49 31.7 8.7 48.0 Lebanon 50 44.0 9.4 82.0 Libya 51 48.3 25.0 130.0 Malawi 52 31.6 5.6 24.0 Malaysia 53 29.0 23.2 43.0

34、 Mexico 54 36.1 8.8 68.0 Mongolia 55 35.5 9.8 82.0 Morocco 56 45.0 18.5 141.0 Mozambique 57 44.0 12.1 135.0 Namibia 58 39.6 14.8 128.0 Nepal 59 13.2 8.6 7.1 Netherlands 60 48.5 15.6 105.0 Nigeria 61 14.3 10.7 7.8 Norway 62 45.6 7.8 40.0 Oman 63 30.3 8.1 107.7 Pakistan 64 34.8 6.6 42.0 Paraguay 65 32

35、.9 8.3 109.9 Peru 66 33.2 7.7 45.0 Philippines 67 14.3 10.2 16.0 Poland 68 11.9 9.5 13.1 Portugal 69 13.6 10.7 26.9 Romania 70 42.1 7.6 71.0 Saudi_Arabia 71 48.2 23.4 154.0 Sierra_Leone 72 17.8 5.2 7.5 Singapore 73 50.1 20.2 132.0 Somalia 74 32.1 9.9 72.0 South_Africa 75 10.7 8.2 8.1 Spain 76 21.3 6

36、.2 19.4 Sri_Lanka 77 44.6 15.8 108.0 Sudan 78 46.8 12.5 118.0 Swaziland 79 14.5 11.1 5.6 Sweden 80 12.5 9.5 7.1 Switzerland 81 50.5 14.0 106.0 Tanzania 82 22.3 7.7 28.0 Thailand 83 31.1 7.3 52.0 Tunisia 84 29.2 8.4 76.0 Turkey 85 13.6 11.5 8.4 U.K.86 16.7 8.1 9.1 87 17.7 10.0 23.0 USSR 88 52.2 15.6

37、103.0 Uganda 89 13.4 11.6 13.0 Ukrainian_SSR 90 22.8 3.8 26.0 United_Arab_Emirates 91 18.0 9.6 21.9 Uruguay 色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样

38、品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容 92 27.5 4.4 23.3 Venezuela 93 31.8 9.5 64.0 Vietnam 94 14.0 9.0 20.2 Yugoslavia 95 45.6 14.2 83.0 Zaire 96 51.1 13.7 80.0 Zambia 97 41.7 10.3 66.0 Zimbabwe 解本例用 K 均值聚类法，且已知希望分为 3 类,我们

39、指定工作表 C6 记录分类结果，最好在 c8 列填变量类别或分类（因为动态聚类没有图，必须另外存储聚类结果）,以便使变量命名为“分类”。从“统计多变量 K 均值聚类（Stat Multivar iate Cluster K-Means）”入口，进入“K 均值聚类”对话框，在K均值聚类对话框上，在“变量（Variables）”中填入“出生率死亡率婴儿死亡率”，在“聚类数(Nember of Clusters)”中填“3”，由于本例各变量的量纲都一致，因此不必进行标准化。点击“存储（Storage）”，弹出“K 均值聚类聚类-存储”对话框，在“聚类成员列（Cluster membership

40、 column）”中填写“分类”，各框点击“确定（OK）”（界面见图 3-8）即可得到结果。图3-8 K 均值聚类法操作步骤图最后计算结果的汇总部分如下：结果:MV_出生死亡率.MTW K 均值聚类分析:出生率,死亡率,婴儿死亡率最终分割聚类数 3 观测值到质心的到质心的个数类内平方和平均距离最大距离聚类1 22 9277.814 17.542 56.905 聚类2 46 5285.595 9.743 27.519 聚类3 29 7927.463 14.905 27.476 聚类质心变量聚类1 聚类2 聚类3 总质心出生率 44.3955 16.8109 37.424

41、1 29.2299 死亡率 16.5136 8.6978 9.9207 10.8361 婴儿死亡率 124.8773 14.7326 65.5310 54.9010 聚类质心之间的距离聚类1 聚类2 聚类3 聚类1 0.0000 113.8150 60.1169 聚类2 113.8150 0.0000 54.8350 聚类3 60.1169 54.8350 0.0000 这些结果可供比较分析用，例如我们可以从聚类质心的数据中看出3个类型的主要特点，第1类是出生率、死亡率、婴儿死亡率三率都高的国家（多半是极贫困型的）；第2类是出生率死亡率婴儿死亡率三率都低的国家（多半是较富裕型的）；第3类

42、是介于中间状态的国家（多半是一般发达的）。样本量太大，因而绘制树状图意义不大，还是用列表法较好。这些结果已经体现在工作表中（见图3-9），其中“分类（C6列）”上的数字1，2，3代表该国家或地区属于哪一类。例如Afghanistan属于第1类；Albania属于第2类；Algeria属于第3类。图3-9 97 个国家出生、死亡率分类结果工作表色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提

43、供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容为了更清楚显示分类结果，可以将上述工作表排序，即按“分类”的值从小到大排序。排序的操作见例3-7（参考图3-6）。排序后结果如图3-10 所显示，工作表中得到更清楚的分类结果（完整工作表见网络参考资料图3-10A）。图3-10 97个国

44、家出生、死亡率分类结果排序结果图聚类方法还有其他如变量聚类等以下我们用例 3-3比较系统聚类和动态聚类的异同。例 3-3某公司 50 名销售人员业绩(包括销售增长、销售利润及新客户销售额 3 项指标)数据见网络参考资料下表，数据文件：MV_业绩.MTW，试根据业绩将这 50 人类。（1）系统聚类，并考虑分多少类为宜（2）系统聚类与动态聚类都分为 3 类，比较两种分类法的异同（都用欧式距离，质心法）销售人员销售增长销售利润新客户销售额 1 93.0 96.0 97.8 2 88.8 91.8 96.8 3 95.0 100.3 99.0 4 101.3 103.8 106.8 5 102

45、.0 107.8 103.0 6 95.8 97.5 99.3 7 95.5 99.5 99.0 8 110.8 122.0 115.3 9 102.8 108.3 103.8 10 106.8 120.5 102.0 11 103.3 109.8 104.0 12 99.5 111.8 100.3 13 103.5 112.5 107.0 14 99.5 105.5 102.3 15 100.0 107.0 102.8 16 81.5 93.5 95.0 17 101.3 105.3 102.8 18 103.3 110.8 103.5 19 95.3 104.3 103.0 20 99.5

46、 105.3 106.3 21 88.5 95.3 95.8 22 99.3 115.0 104.3 23 87.5 92.5 95.8 24 105.3 114.0 105.3 25 107.0 121.0 109.0 26 93.3 102.0 97.8 27 106.8 118.0 107.3 28 106.8 120.0 104.8 29 92.3 90.8 99.8 30 106.3 121.0 104.5 31 106.0 119.5 110.5 32 88.3 92.8 96.8 33 96.0 103.3 100.5 色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量

47、是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取页眉内容 34 94.3 94.5 99.0 35

48、106.5 121.5 110.5 36 106.5 115.5 107.0 37 92.0 99.5 103.5 38 102.0 99.8 103.3 39 108.3 122.3 108.5 40 106.8 119.0 106.8 41 102.5 109.3 103.8 42 92.5 102.5 99.3 43 102.8 113.8 106.8 44 83.3 87.3 96.3 45 94.8 101.8 99.8 46 103.5 112.0 110.8 47 89.5 96.0 97.3 48 84.3 89.8 94.3 49 104.3 109.5 106.5 50 1

49、06.0 118.5 105.0 解我们对于例3-3 的50名销售人员的数据分别使用两种方法计算，样品间距离都采用“Euclidean”，类间距离都采用“平均（Average）”，不进行变量标准化。对系统聚类和动态聚类效果加以比较。首先用系统方法聚类。得到计算结果：第1类为1，2，16，21，23，29，32，34，44，47，48，销售人员共11人；第2类为3，4，5，6，7，9，11，12，14，15，17，18，19，20，22，26，33，37，38，41，42，45，49，销售人员共23人；其余16名销售人员为第3类。从运行窗输出的聚类质心中可以看出：第1类销售业绩最差，第2类次之，

50、第3类最好。动态聚类得也到 3类。“1”是最好，类别“2”是中等，类别“3”是最差。为了便于与系统聚类结果相比较，我们将“动态聚类”所得结果中“1 类”与“3 类”交换，形成一列“新编动态”，动态聚类结果为：第 1类（最差者）有号为 1，2，16，21，23，29，32，34，44，47，48的销售人员，共 11 人；第 2 类（中等）有号为 3，4，5，6，7，9，12，14，15，17，19，20，26，33，37，38，41，42，45的销售人员，共 19 人；其余 20 名销售人员为第 3 类。两种聚类法的结果相比：第11，18，22，49名销售人员在系统聚类法属于业绩中等类，而在

展开阅读全文