统计章聚类分析.pptx-得力文库

资源描述

《统计章聚类分析.pptx》由会员分享，可在线阅读，更多相关《统计章聚类分析.pptx（39页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、会计学1统计统计(tngj)章章聚类分析聚类分析第一页，共39页。表19-3 沥青工和焦炉工的生物标志物检测及聚类分析结果工人编号(样品号)年龄工龄吸烟支/d血清P21P21倍数P53SCE染色体畸变数染色体畸变细胞数聚类结果14625521381.680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834

2、172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.4

3、0001193821529362.310.6911.401112044272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.80221第2页/共39页第二页，共39页。判别分析判别分析判别分析判别分析:在已知分为若干个类的前提下，获得

4、判在已知分为若干个类的前提下，获得判在已知分为若干个类的前提下，获得判在已知分为若干个类的前提下，获得判别模型，并用来判定观察对象的归属。别模型，并用来判定观察对象的归属。别模型，并用来判定观察对象的归属。别模型，并用来判定观察对象的归属。聚类分析聚类分析聚类分析聚类分析:将随机现象归类的统计学方法，在不知将随机现象归类的统计学方法，在不知将随机现象归类的统计学方法，在不知将随机现象归类的统计学方法，在不知道应分多少类合适的情况下，试图借助数理统计道应分多少类合适的情况下，试图借助数理统计道应分多少类合适的情况下，试图借助数理统计道应分多少类合适的情况下，试图借助数理统计的方法用已收集到的资料

5、的方法用已收集到的资料的方法用已收集到的资料的方法用已收集到的资料(zlio)(zlio)找出研究对象找出研究对象找出研究对象找出研究对象的适当归类方法。已成为发掘海量基因信息的首的适当归类方法。已成为发掘海量基因信息的首的适当归类方法。已成为发掘海量基因信息的首的适当归类方法。已成为发掘海量基因信息的首选工具。选工具。选工具。选工具。二者都是研究分类问题的多元统计分析方法。二者都是研究分类问题的多元统计分析方法。二者都是研究分类问题的多元统计分析方法。二者都是研究分类问题的多元统计分析方法。第3页/共39页第三页，共39页。聚类分析属于探索性统计分析方法，按照分类目聚类分析属于探索性统计分析

6、方法，按照分类目聚类分析属于探索性统计分析方法，按照分类目聚类分析属于探索性统计分析方法，按照分类目的可分为两大类。的可分为两大类。的可分为两大类。的可分为两大类。例如测量了例如测量了例如测量了例如测量了n n个病例（样品）的个病例（样品）的个病例（样品）的个病例（样品）的mm个变量（指个变量（指个变量（指个变量（指标），可进行标），可进行标），可进行标），可进行(jnxng)(jnxng)：（1 1）R R型聚类型聚类型聚类型聚类:又称指标聚类，是指将又称指标聚类，是指将又称指标聚类，是指将又称指标聚类，是指将mm个指标个指标个指标个指标归类的方法，其目的是将指标降维从而选择有代归类的方法，

7、其目的是将指标降维从而选择有代归类的方法，其目的是将指标降维从而选择有代归类的方法，其目的是将指标降维从而选择有代表性的指标。表性的指标。表性的指标。表性的指标。（2 2）QQ型聚类型聚类型聚类型聚类:又称样品聚类，是指将又称样品聚类，是指将又称样品聚类，是指将又称样品聚类，是指将n n个样品个样品个样品个样品归类的方法，其目的是找出样品间的共性。归类的方法，其目的是找出样品间的共性。归类的方法，其目的是找出样品间的共性。归类的方法，其目的是找出样品间的共性。第4页/共39页第四页，共39页。无论是无论是无论是无论是R R型聚类或是型聚类或是型聚类或是型聚类或是QQ型聚类的关型聚类的关型聚类的

8、关型聚类的关键是如何定义相似性，即如何把相似键是如何定义相似性，即如何把相似键是如何定义相似性，即如何把相似键是如何定义相似性，即如何把相似性数量化。聚类的第一步需要给出两性数量化。聚类的第一步需要给出两性数量化。聚类的第一步需要给出两性数量化。聚类的第一步需要给出两个个个个(li(li n n )指标或两个指标或两个指标或两个指标或两个(li(li n n )样品间相似性的度量样品间相似性的度量样品间相似性的度量样品间相似性的度量相似系数相似系数相似系数相似系数（similarity coefficientsimilarity coefficient）的定义。）的定义。）的定义。）的定义。第

9、5页/共39页第五页，共39页。第一节第一节第一节第一节相似系数相似系数相似系数相似系数1 1R R型（指标型（指标型（指标型（指标(zh(zh bio)bio)）聚类的相似系数）聚类的相似系数）聚类的相似系数）聚类的相似系数 X1X1，X2X2，XmXm表示表示表示表示mm个变量，个变量，个变量，个变量，R R型聚类常用简单相关系数的绝对型聚类常用简单相关系数的绝对型聚类常用简单相关系数的绝对型聚类常用简单相关系数的绝对值定义变量与间的相似系数：值定义变量与间的相似系数：值定义变量与间的相似系数：值定义变量与间的相似系数：绝对值越大表明两变量间相似程度越高。绝对值越大表明两变量间相似程度越

10、高。绝对值越大表明两变量间相似程度越高。绝对值越大表明两变量间相似程度越高。同样也可考虑用同样也可考虑用同样也可考虑用同样也可考虑用SpearmanSpearman秩相关系数定义非正态变量与间的相似秩相关系数定义非正态变量与间的相似秩相关系数定义非正态变量与间的相似秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时，最好用列联系数定义类间的相似系数。系数。当变量均为定性变量时，最好用列联系数定义类间的相似系数。系数。当变量均为定性变量时，最好用列联系数定义类间的相似系数。系数。当变量均为定性变量时，最好用列联系数定义类间的相似系数。第6页/共39页第六页，共39页。2 2QQ型（样品

11、）聚类常用相似系数型（样品）聚类常用相似系数型（样品）聚类常用相似系数型（样品）聚类常用相似系数将将将将n n例（样品）看成是例（样品）看成是例（样品）看成是例（样品）看成是mm维空间的维空间的维空间的维空间的n n个点，用两点间的距离定义个点，用两点间的距离定义个点，用两点间的距离定义个点，用两点间的距离定义(dngy)(dngy)相似系数，距离越小表明两样品间相似程度越高。相似系数，距离越小表明两样品间相似程度越高。相似系数，距离越小表明两样品间相似程度越高。相似系数，距离越小表明两样品间相似程度越高。（1 1）欧氏距离）欧氏距离）欧氏距离）欧氏距离:欧氏距离（欧氏距离（欧氏距离（欧氏距

12、离（Euclidean distanceEuclidean distance）（2 2）绝对距离：绝对距离（）绝对距离：绝对距离（）绝对距离：绝对距离（）绝对距离：绝对距离（Manhattan distanceManhattan distance）（3 3）MinkowskiMinkowski距离：距离：距离：距离：绝对距离是绝对距离是绝对距离是绝对距离是q=1q=1时的时的时的时的MinkowskiMinkowski距离；欧氏距离是距离；欧氏距离是距离；欧氏距离是距离；欧氏距离是q=2q=2时的时的时的时的MinkowskiMinkowski距离。距离。距离。距离。MinkowskiMink

13、owski距离的优点是定义距离的优点是定义距离的优点是定义距离的优点是定义(dngy)(dngy)直观，计直观，计直观，计直观，计算简单；缺点是没有考虑到变量间的相关关系。基于此引进马算简单；缺点是没有考虑到变量间的相关关系。基于此引进马算简单；缺点是没有考虑到变量间的相关关系。基于此引进马算简单；缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。氏距离。氏距离。氏距离。第7页/共39页第七页，共39页。（4 4）马氏距离：用表示）马氏距离：用表示）马氏距离：用表示）马氏距离：用表示mm个变量间的样本协方差矩阵，马氏距离个变量间的样本协方差矩阵，马氏距离个变量间的样本协方差矩阵，马氏距离个

14、变量间的样本协方差矩阵，马氏距离（Mahalanobis distanceMahalanobis distance）的计算公式为）的计算公式为）的计算公式为）的计算公式为其中向量其中向量其中向量其中向量。不难看出，当（单位矩阵。不难看出，当（单位矩阵。不难看出，当（单位矩阵。不难看出，当（单位矩阵）时，马氏距离就是欧氏距离的平方。）时，马氏距离就是欧氏距离的平方。）时，马氏距离就是欧氏距离的平方。）时，马氏距离就是欧氏距离的平方。以上定义的以上定义的以上定义的以上定义的4 4种距离适用于定量变量，对于定性变量和有序变量种距离适用于定量变量，对于定性变量和有序变量种距离适用于定量变量，对于定

15、性变量和有序变量种距离适用于定量变量，对于定性变量和有序变量必须必须必须必须(bx)(bx)在数量化后方能应用。在数量化后方能应用。在数量化后方能应用。在数量化后方能应用。第8页/共39页第八页，共39页。第二节第二节第二节第二节系统聚类系统聚类系统聚类系统聚类系统聚类（系统聚类（系统聚类（系统聚类（hierarchical clustering analysishierarchical clustering analysis）是将相）是将相）是将相）是将相似的样品或变量归类的最常用似的样品或变量归类的最常用似的样品或变量归类的最常用似的样品或变量归类的最常用(chn(chn yn yn)

16、方法，聚类方法，聚类方法，聚类方法，聚类过程如下：过程如下：过程如下：过程如下：1 1）开始将各个样品（或变量）独自视为一类，即各类）开始将各个样品（或变量）独自视为一类，即各类）开始将各个样品（或变量）独自视为一类，即各类）开始将各个样品（或变量）独自视为一类，即各类只含一个样品（或变量），计算类间相似系数矩阵，其只含一个样品（或变量），计算类间相似系数矩阵，其只含一个样品（或变量），计算类间相似系数矩阵，其只含一个样品（或变量），计算类间相似系数矩阵，其中的元素是样品（或变量）间的相似系数。相似系数矩中的元素是样品（或变量）间的相似系数。相似系数矩中的元素是样品（或变量）间的相似系数。相

17、似系数矩中的元素是样品（或变量）间的相似系数。相似系数矩阵是对称矩阵；阵是对称矩阵；阵是对称矩阵；阵是对称矩阵；2 2）将相似系数最大（距离最小或相关系数最大）的两）将相似系数最大（距离最小或相关系数最大）的两）将相似系数最大（距离最小或相关系数最大）的两）将相似系数最大（距离最小或相关系数最大）的两类合并成新类，计算新类与其余类间相似系数；类合并成新类，计算新类与其余类间相似系数；类合并成新类，计算新类与其余类间相似系数；类合并成新类，计算新类与其余类间相似系数；重复第二步，直至全部样品（或变量）被并为一类。重复第二步，直至全部样品（或变量）被并为一类。重复第二步，直至全部样品（或变量）被并

18、为一类。重复第二步，直至全部样品（或变量）被并为一类。第9页/共39页第九页，共39页。一、类间相似系数的计算一、类间相似系数的计算一、类间相似系数的计算一、类间相似系数的计算系统聚类的每一步都要计算类间相似系数系统聚类的每一步都要计算类间相似系数系统聚类的每一步都要计算类间相似系数系统聚类的每一步都要计算类间相似系数（即：新形成的类别与其他类之间的类间相似（即：新形成的类别与其他类之间的类间相似（即：新形成的类别与其他类之间的类间相似（即：新形成的类别与其他类之间的类间相似系数的确定），当两类各自仅含一个样品或变系数的确定），当两类各自仅含一个样品或变系数的确定），当两类各自仅含一个样品或

19、变系数的确定），当两类各自仅含一个样品或变量量量量(binling)(binling)时，两类间的相似系数即是两样时，两类间的相似系数即是两样时，两类间的相似系数即是两样时，两类间的相似系数即是两样品或变量品或变量品或变量品或变量(binling)(binling)间的相似系数或，按第一间的相似系数或，按第一间的相似系数或，按第一间的相似系数或，按第一节的定义计算。节的定义计算。节的定义计算。节的定义计算。第10页/共39页第十页，共39页。当类内含有两个或两个以上样品或变量时，计算类间相似系数有多种方法可供当类内含有两个或两个以上样品或变量时，计算类间相似系数有多种方法可供当类内含有两个或两

20、个以上样品或变量时，计算类间相似系数有多种方法可供当类内含有两个或两个以上样品或变量时，计算类间相似系数有多种方法可供选择，下面列出选择，下面列出选择，下面列出选择，下面列出5 5种计算方法。用分别表示两类，各自含有个样品或变量。种计算方法。用分别表示两类，各自含有个样品或变量。种计算方法。用分别表示两类，各自含有个样品或变量。种计算方法。用分别表示两类，各自含有个样品或变量。(np(np与与与与nqnq分别代表分别代表分别代表分别代表G pG p与与与与GqGq两类的样品或变量数两类的样品或变量数两类的样品或变量数两类的样品或变量数)1 1最大相似系数法最大相似系数法最大相似系数法最大相似系

21、数法类中的个样品或变量与类中的个样品或变量两两间类中的个样品或变量与类中的个样品或变量两两间类中的个样品或变量与类中的个样品或变量两两间类中的个样品或变量与类中的个样品或变量两两间(li(li n n jin)jin)共有个相似系数，以其中最大者定义为与的类间相似系数。共有个相似系数，以其中最大者定义为与的类间相似系数。共有个相似系数，以其中最大者定义为与的类间相似系数。共有个相似系数，以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。注意距离最小即相似系数最大。注意距离最小即相似系数最大。注意距离最小即相似系数最大。2 2最小相似系数法最小相似系数法最小相似系数法最小相似系数

22、法类间相似系数计算公式为类间相似系数计算公式为类间相似系数计算公式为类间相似系数计算公式为3 3重心法（仅用于样品聚类）重心法（仅用于样品聚类）重心法（仅用于样品聚类）重心法（仅用于样品聚类）用分别表示的均值向量（重心），其分量是各个用分别表示的均值向量（重心），其分量是各个用分别表示的均值向量（重心），其分量是各个用分别表示的均值向量（重心），其分量是各个指标类内均数，类间相似系数计算公式为指标类内均数，类间相似系数计算公式为指标类内均数，类间相似系数计算公式为指标类内均数，类间相似系数计算公式为第11页/共39页第十一页，共39页。4 4类平均类平均类平均类平均(pngjn)(pngjn

23、)法（仅用于样品聚类）法（仅用于样品聚类）法（仅用于样品聚类）法（仅用于样品聚类）对对对对G p G p 类中的类中的类中的类中的 np np 个样品与个样品与个样品与个样品与GqGq类中的类中的类中的类中的nqnq个样品两两间的个平个样品两两间的个平个样品两两间的个平个样品两两间的个平方距离求平均方距离求平均方距离求平均方距离求平均(pngjn)(pngjn)，得到两类间的相似系数，得到两类间的相似系数，得到两类间的相似系数，得到两类间的相似系数类平均类平均类平均类平均(pngjn)(pngjn)法是系统聚类方法中较好的方法之法是系统聚类方法中较好的方法之法是系统聚类方法中较好的方法之法是系

24、统聚类方法中较好的方法之一，它充分反映了类内样品的个体信息。一，它充分反映了类内样品的个体信息。一，它充分反映了类内样品的个体信息。一，它充分反映了类内样品的个体信息。第12页/共39页第十二页，共39页。5 5离差平方和法离差平方和法离差平方和法离差平方和法又称又称又称又称WardWard法，仅用于样品聚类。法，仅用于样品聚类。法，仅用于样品聚类。法，仅用于样品聚类。此法效仿方此法效仿方此法效仿方此法效仿方差分析的基本思想，即合理的分类使得差分析的基本思想，即合理的分类使得差分析的基本思想，即合理的分类使得差分析的基本思想，即合理的分类使得(sh(sh de)de)类内离差平方和类内离差平

25、方和类内离差平方和类内离差平方和较小，而类间离差平方和较大。假定较小，而类间离差平方和较大。假定较小，而类间离差平方和较大。假定较小，而类间离差平方和较大。假定n n个样品已分成个样品已分成个样品已分成个样品已分成g g类，是其类，是其类，是其类，是其中的两类。此时有个样品的第中的两类。此时有个样品的第中的两类。此时有个样品的第中的两类。此时有个样品的第k k类的离差平方和定义为：，其类的离差平方和定义为：，其类的离差平方和定义为：，其类的离差平方和定义为：，其中为类内指标的均数。所有中为类内指标的均数。所有中为类内指标的均数。所有中为类内指标的均数。所有g g类的合并离差平方和为。如果将类的

26、合并离差平方和为。如果将类的合并离差平方和为。如果将类的合并离差平方和为。如果将与合并，形成与合并，形成与合并，形成与合并，形成g-1g-1类，它们的合并离差平方和。由于并类引起的类，它们的合并离差平方和。由于并类引起的类，它们的合并离差平方和。由于并类引起的类，它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然，当合并离差平方和的增量定义为两类间的平方距离。显然，当合并离差平方和的增量定义为两类间的平方距离。显然，当合并离差平方和的增量定义为两类间的平方距离。显然，当n n个样品各自成一类时，个样品各自成一类时，个样品各自成一类时，个样品各自成一类时，n n

27、类的合并离差平方和为类的合并离差平方和为类的合并离差平方和为类的合并离差平方和为0 0。第13页/共39页第十三页，共39页。例例例例19-1 19-1 测量了测量了测量了测量了34543454名成年女子身高（名成年女子身高（名成年女子身高（名成年女子身高（X1X1）、下肢长（）、下肢长（）、下肢长（）、下肢长（X2X2）、腰围）、腰围）、腰围）、腰围（X3X3）和胸围（）和胸围（）和胸围（）和胸围（X4X4），计算得相关矩阵：），计算得相关矩阵：），计算得相关矩阵：），计算得相关矩阵：试用系统聚类法将这试用系统聚类法将这试用系统聚类法将这试用系统聚类法将这4 4个指标聚类。个指标聚类。个指标

28、聚类。个指标聚类。本例是本例是本例是本例是R R型（指标）聚类，相似系数选用简单型（指标）聚类，相似系数选用简单型（指标）聚类，相似系数选用简单型（指标）聚类，相似系数选用简单(ji(ji ndn)ndn)相关系数，相关系数，相关系数，相关系数，类间相似系数采用最大相似系数法计算。类间相似系数采用最大相似系数法计算。类间相似系数采用最大相似系数法计算。类间相似系数采用最大相似系数法计算。第14页/共39页第十四页，共39页。聚类过程如下：聚类过程如下：聚类过程如下：聚类过程如下：（1 1）各个指标）各个指标）各个指标）各个指标(zh(zh bio)bio)独自成一类独自成一类独自成一类独自成一

29、类G1=X1G1=X1，G2=X2G2=X2，G3=X3G3=X3，G4=X4G4=X4，共，共，共，共4 4类。类。类。类。（2 2）将相似系数最大的两类合并成新类，）将相似系数最大的两类合并成新类，）将相似系数最大的两类合并成新类，）将相似系数最大的两类合并成新类，由于由于由于由于G1G1和和和和G2G2类间相似系数最大，等于类间相似系数最大，等于类间相似系数最大，等于类间相似系数最大，等于0.8520.852，将两类合并成，将两类合并成，将两类合并成，将两类合并成G5=X1,X2G5=X1,X2，形成，形成，形成，形成3 3类。计算类。计算类。计算类。计算G5G5与与与与G3G3、G4G

30、4间的类间相似系数间的类间相似系数间的类间相似系数间的类间相似系数 G3G3，G4G4，G5G5的类间相似矩阵的类间相似矩阵的类间相似矩阵的类间相似矩阵第15页/共39页第十五页，共39页。（3 3）由于）由于）由于）由于G3G3和和和和G4G4类间相似类间相似类间相似类间相似(xin(xin s)s)系数最大，等于系数最大，等于系数最大，等于系数最大，等于0.7320.732，将两类合并，将两类合并，将两类合并，将两类合并成成成成G6=G3,G4G6=G3,G4，形成两类。计算，形成两类。计算，形成两类。计算，形成两类。计算G6G6与与与与G5G5间的类间相似间的类间相似间的类间相似间的类间

31、相似(xin(xin s)s)系数。系数。系数。系数。（4 4）最终将）最终将）最终将）最终将G5,G6G5,G6合并成合并成合并成合并成G7=G5,G6,G7=G5,G6,所有指标形成一大类。所有指标形成一大类。所有指标形成一大类。所有指标形成一大类。第16页/共39页第十六页，共39页。根据聚类过程，绘制出系根据聚类过程，绘制出系根据聚类过程，绘制出系根据聚类过程，绘制出系统聚类图（见图统聚类图（见图统聚类图（见图统聚类图（见图19-119-1）。图）。图）。图）。图中显示分成两类较好：中显示分成两类较好：中显示分成两类较好：中显示分成两类较好：X1X1，X2X2，X3X3，X4X4，即长

32、度，即长度，即长度，即长度指标指标指标指标(zh(zh bio)bio)归为一类，归为一类，归为一类，归为一类，围度指标围度指标围度指标围度指标(zh(zh bio)bio)归为另归为另归为另归为另一类。一类。一类。一类。身高下肢长腰围胸围 G1 G2 G3 G4图19-1 4个指标聚类的系统聚类图0.8520.7320.234第17页/共39页第十七页，共39页。例例例例19-2 19-2 今测得今测得今测得今测得6 6名运动员名运动员名运动员名运动员4 4个运动项目（样品）的能个运动项目（样品）的能个运动项目（样品）的能个运动项目（样品）的能耗、糖耗的均数见表耗、糖耗的均数见表耗、糖

33、耗的均数见表耗、糖耗的均数见表19-119-1，欲对运动项目归类，以，欲对运动项目归类，以，欲对运动项目归类，以，欲对运动项目归类，以便提供相应的膳食标准，提高运动成绩便提供相应的膳食标准，提高运动成绩便提供相应的膳食标准，提高运动成绩便提供相应的膳食标准，提高运动成绩(chngj)(chngj)。试用样品系统聚类法将运动项目归类。试用样品系统聚类法将运动项目归类。试用样品系统聚类法将运动项目归类。试用样品系统聚类法将运动项目归类。表19-1 4个运动项目的测定值运动项目名称能耗 X1（焦耳/分、m2）糖耗 X2（%）负重下蹲G127.89261.421.3150.688引体向上G223.47

34、556.830.1740.088俯卧撑G318.92445.13-1.001-1.441仰卧起坐G420.91361.25-0.4880.665变量(binling)的标准化 X1 X2第18页/共39页第十八页，共39页。本例选用欧氏距离，类间距离选用最小相似系数本例选用欧氏距离，类间距离选用最小相似系数本例选用欧氏距离，类间距离选用最小相似系数本例选用欧氏距离，类间距离选用最小相似系数(xsh)(xsh)法。为了克服变量量纲的影响，分析前先法。为了克服变量量纲的影响，分析前先法。为了克服变量量纲的影响，分析前先法。为了克服变量量纲的影响，分析前先将变量标准化，将变量标准化，将变量标准化

35、，将变量标准化，分别是分别是分别是分别是Xi Xi 的样本的样本的样本的样本均数与标准差。变换后的数据列在表均数与标准差。变换后的数据列在表均数与标准差。变换后的数据列在表均数与标准差。变换后的数据列在表19-119-1的的的的，列。列。列。列。第19页/共39页第十九页，共39页。聚类过程如下：聚类过程如下：聚类过程如下：聚类过程如下：（1 1）计算）计算）计算）计算4 4个样品间的相似系数矩阵，样品聚类中又称为距离矩阵。个样品间的相似系数矩阵，样品聚类中又称为距离矩阵。个样品间的相似系数矩阵，样品聚类中又称为距离矩阵。个样品间的相似系数矩阵，样品聚类中又称为距离矩阵。负重下蹲与引体向上之

36、间的距离按公式负重下蹲与引体向上之间的距离按公式负重下蹲与引体向上之间的距离按公式负重下蹲与引体向上之间的距离按公式(gngsh)(gngsh)（19-319-3）计算得）计算得）计算得）计算得同样负重下蹲与俯卧撑之间的距离同样负重下蹲与俯卧撑之间的距离同样负重下蹲与俯卧撑之间的距离同样负重下蹲与俯卧撑之间的距离同理，计算出距离矩阵同理，计算出距离矩阵同理，计算出距离矩阵同理，计算出距离矩阵第20页/共39页第二十页，共39页。（2 2）G2G2，G4G4间距离最小，将间距离最小，将间距离最小，将间距离最小，将G2G2，G4G4并成一新类并成一新类并成一新类并成一新类G5=G2G5=G2，G4

37、G4。应用最小相似系。应用最小相似系。应用最小相似系。应用最小相似系数法，按公式（数法，按公式（数法，按公式（数法，按公式（19-819-8）计算）计算）计算）计算(j sun)G5(j sun)G5与其他各类之间的距离与其他各类之间的距离与其他各类之间的距离与其他各类之间的距离G1G1，G3G3，G5G5的距离矩阵的距离矩阵的距离矩阵的距离矩阵（3 3）G1G1，G5G5间距离最小，将间距离最小，将间距离最小，将间距离最小，将G1G1，G5G5并成一新类并成一新类并成一新类并成一新类G6=G1G6=G1，G5G5。计算。计算。计算。计算(j sun)G6(j sun)G6 与与与与G3G3之

38、间的距离之间的距离之间的距离之间的距离（4 4）最终将）最终将）最终将）最终将G1,G6G1,G6合并成合并成合并成合并成G7=G1,G6,G7=G1,G6,所有指标形成一大类。所有指标形成一大类。所有指标形成一大类。所有指标形成一大类。d15=Max（d12，d14）=Max（1.289，1.803）=1.803d35=Max（d23，d34）=Max（1.928，2.168）=2.168第21页/共39页第二十一页，共39页。根据聚类过程，绘制出根据聚类过程，绘制出根据聚类过程，绘制出根据聚类过程，绘制出系统聚类图（见图系统聚类图（见图系统聚类图（见图系统聚类图（见图19-219-2）。）

39、。）。）。结合系统聚类图和专业知识结合系统聚类图和专业知识结合系统聚类图和专业知识结合系统聚类图和专业知识认为分成两类较好：认为分成两类较好：认为分成两类较好：认为分成两类较好：G1 G1，G2G2，G4G4，G3 G3。负重下蹲、。负重下蹲、。负重下蹲、。负重下蹲、引体向上、仰卧起坐三个运引体向上、仰卧起坐三个运引体向上、仰卧起坐三个运引体向上、仰卧起坐三个运动项目体能动项目体能动项目体能动项目体能(t(t nn nn)消耗较消耗较消耗较消耗较大，训练时应提高膳食标准。大，训练时应提高膳食标准。大，训练时应提高膳食标准。大，训练时应提高膳食标准。图19-2 4个运动项目样品聚类的系统聚类图

40、G2 G4 G1 G3 G5G6G7第22页/共39页第二十二页，共39页。例例例例19-3 19-3 调查了调查了调查了调查了2727名沥青工和焦炉工的年龄、工龄、吸烟名沥青工和焦炉工的年龄、工龄、吸烟名沥青工和焦炉工的年龄、工龄、吸烟名沥青工和焦炉工的年龄、工龄、吸烟(x yn)(x yn)情况，检测了血清情况，检测了血清情况，检测了血清情况，检测了血清P21P21、P53P53、外周血淋巴细胞、外周血淋巴细胞、外周血淋巴细胞、外周血淋巴细胞SCESCE、染色体畸变数和染色体畸变细胞数。数据列于表、染色体畸变数和染色体畸变细胞数。数据列于表、染色体畸变数和染色体畸变细胞数。数据列于表、染色

41、体畸变数和染色体畸变细胞数。数据列于表19-319-3，其中，其中，其中，其中P21P21倍数倍数倍数倍数=P21=P21检测值检测值检测值检测值/对照组对照组对照组对照组P21P21均数。试用均数。试用均数。试用均数。试用系统聚类法将系统聚类法将系统聚类法将系统聚类法将2727名工人归类。名工人归类。名工人归类。名工人归类。第23页/共39页第二十三页，共39页。表19-3 沥青工和焦炉工的生物标志物检测及聚类分析结果工人编号(样品号)年龄工龄吸烟支/d血清P21P21倍数P53SCE染色体畸变数染色体畸变细胞数聚类结果14625521381.680.358.1144123512203510

42、2.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010

43、.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.40001193821529362.310.6911.401112044272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.815522428920261

44、22.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.80221第24页/共39页第二十四页，共39页。本例选择了欧氏距离下的最小相似系数法、本例选择了欧氏距离下的最小相似系数法、本例选择了欧氏距离下的最小相似系数法、本例选择了欧氏距离下的最小相似系数法、类平均法和离差平方和法对数据进行聚类分析。类平均法和离差平方和法对数据进行聚类分析。类平均法和离差平方和法对数据进行聚类分析。类平均法和离差平方和法对数据进行聚类分析。分析结果分别见图分析结果分别见图分析结果分

45、别见图分析结果分别见图19-319-3、图、图、图、图19-419-4、图、图、图、图19-519-5。数据。数据。数据。数据分析前，各变量分析前，各变量分析前，各变量分析前，各变量(binling)(binling)已作标准化处理。已作标准化处理。已作标准化处理。已作标准化处理。第25页/共39页第二十五页，共39页。图19-3 27名沥青工和焦炉(jio l)工的最小相似系数法系统聚类图第26页/共39页第二十六页，共39页。图图图图19-4 2719-4 27名沥青名沥青名沥青名沥青(lqng)(lqng)工和焦炉工的类平均法系统聚类图工和焦炉工的类平均法系统聚类图工和焦炉工的类平均法系

46、统聚类图工和焦炉工的类平均法系统聚类图第27页/共39页第二十七页，共39页。图19-5 27名沥青工和焦炉工离差平方和法的系统聚类图第28页/共39页第二十八页，共39页。三种聚类结果有较大的出入，可见这些方三种聚类结果有较大的出入，可见这些方三种聚类结果有较大的出入，可见这些方三种聚类结果有较大的出入，可见这些方法分类效果是有差异的，特别是在分类变量较法分类效果是有差异的，特别是在分类变量较法分类效果是有差异的，特别是在分类变量较法分类效果是有差异的，特别是在分类变量较多时差异愈加明显，这就要求在聚类分析前，多时差异愈加明显，这就要求在聚类分析前，多时差异愈加明显，这就要求在聚类分析前，多

47、时差异愈加明显，这就要求在聚类分析前，尽可能地选择有效变量，如本例的变量尽可能地选择有效变量，如本例的变量尽可能地选择有效变量，如本例的变量尽可能地选择有效变量，如本例的变量P21P21和和和和P53P53倍数。详细倍数。详细倍数。详细倍数。详细(xingx)(xingx)解读聚类图，一般都解读聚类图，一般都解读聚类图，一般都解读聚类图，一般都能够获得许多有用的信息。能够获得许多有用的信息。能够获得许多有用的信息。能够获得许多有用的信息。第29页/共39页第二十九页，共39页。（聚类实例分析结果）（聚类实例分析结果）（聚类实例分析结果）（聚类实例分析结果）相似系数的定义相似系数的定义相似系数的

48、定义相似系数的定义(dngy)(dngy)以及类间相似系以及类间相似系以及类间相似系以及类间相似系数的定义数的定义数的定义数的定义(dngy)(dngy)的不同将导致系统聚类结果的不同将导致系统聚类结果的不同将导致系统聚类结果的不同将导致系统聚类结果有所差异。聚类分析的结果解释除了要了解聚有所差异。聚类分析的结果解释除了要了解聚有所差异。聚类分析的结果解释除了要了解聚有所差异。聚类分析的结果解释除了要了解聚类方法外，还必须结合专业知识。类方法外，还必须结合专业知识。类方法外，还必须结合专业知识。类方法外，还必须结合专业知识。第30页/共39页第三十页，共39页。结合专业知识，本例认为类平均法聚

49、类结果结合专业知识，本例认为类平均法聚类结果结合专业知识，本例认为类平均法聚类结果结合专业知识，本例认为类平均法聚类结果比较比较比较比较(b(b jio)jio)合理，分类结果列入表合理，分类结果列入表合理，分类结果列入表合理，分类结果列入表19-319-3最后一最后一最后一最后一栏。它将栏。它将栏。它将栏。它将1010，2020，2323号工人分为一类，其余分号工人分为一类，其余分号工人分为一类，其余分号工人分为一类，其余分为另一类。研究者最终发现为另一类。研究者最终发现为另一类。研究者最终发现为另一类。研究者最终发现1010，2020，2323号工人为号工人为号工人为号工人为癌症高危人群。

50、根据离差平法和法聚类图，不癌症高危人群。根据离差平法和法聚类图，不癌症高危人群。根据离差平法和法聚类图，不癌症高危人群。根据离差平法和法聚类图，不难发现难发现难发现难发现1010，2020，2323，8 8，1616，2626号聚在一类，号聚在一类，号聚在一类，号聚在一类，提示提示提示提示8 8，1616，2626号工人也可能是癌症高危人群之号工人也可能是癌症高危人群之号工人也可能是癌症高危人群之号工人也可能是癌症高危人群之一。一。一。一。第31页/共39页第三十一页，共39页。以下列出类平均法具体以下列出类平均法具体以下列出类平均法具体以下列出类平均法具体(jt(jt)聚类过程，供参考。聚类

展开阅读全文