集群分析.ppt

上传人:s****8 文档编号:82469284 上传时间:2023-03-25 格式:PPT 页数:30 大小:400.50KB
返回 下载 相关 举报
集群分析.ppt_第1页
第1页 / 共30页
集群分析.ppt_第2页
第2页 / 共30页
点击查看更多>>
资源描述

《集群分析.ppt》由会员分享,可在线阅读,更多相关《集群分析.ppt(30页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、集群分析 Cluster Analysis基本定義一個分類系統的創造:將一群物體加以分類的過程In statistics,the search for relatively homogeneous groups of objects is called cluster analysis(SPSS)應用議題:生物學:分類物種生物學:分類物種醫學:疾病分類醫學:疾病分類消費行為:消費型態分類消費行為:消費型態分類2 2集群分析法:三種測量集群相似性的方法相關測量(相關測量(correlational measurescorrelational measures)求取每一不同配對受測樣本之間在特定題

2、目的不同相求取每一不同配對受測樣本之間在特定題目的不同相關性關性 分析重點在於不同受測個體在分析重點在於不同受測個體在不同分類變項不同分類變項的關係型的關係型態變異態變異差異測量(差異測量(distance measuresdistance measures)求取受測樣本之間距離的差異求取受測樣本之間距離的差異 分析重點在於受測樣本在所有的不同分類變項形成的分析重點在於受測樣本在所有的不同分類變項形成的整體分類概念上的整體分類概念上的整體性差異整體性差異聯結測量(聯結測量(association measuresassociation measures)求取受測樣本之間在類別變項上的分佈差異特

3、性求取受測樣本之間在類別變項上的分佈差異特性3 3Cluster vs.Factor Analysis4 4這一個班的同學要如何分類5 5他們的成績6 6單變項集群分析結果7 7歐幾里得平方距離個體第一次形成集群的階段下一次進行集群歸類的階段8 8Example 9 91234561010Profile diagram:Preliminary screening for outliersV1V21111網路購物被騙時,你怎麼辦?ID打電話寫信告消基會大一1 1 1 小二1 1 1 李三0 0 1 邱SIR0 0 1 王五0 0 1 趙六0 1 0 劉妻0 1 0 八八1 1 0 酒鬼1 1 0

4、 石頭1 1 0 12121313 階段一:定向確立研究的目的分類系統的建立:兼顧探索性與確認性分類系統的建立:兼顧探索性與確認性資料簡化資料簡化關係的探究關係的探究重要的議題分類變項的選擇:選擇具有鑑別力的適當變分類變項的選擇:選擇具有鑑別力的適當變項項1414 階段二:研究設計三個決策的重點1.1.偏離值如何檢測偏離值如何檢測?2.2.樣本相似性如何測量?樣本相似性如何測量?3.3.資料是否需要經過標準化?資料是否需要經過標準化?重要議題集群分析涉及一連串研究者的主觀判斷,因集群分析涉及一連串研究者的主觀判斷,因此判斷的合理性與依恃的的基礎便格外重要此判斷的合理性與依恃的的基礎便格外重要1

5、515階段三:假定的考量集群分析不是母數統計,而是一套客觀的分類程序,涉及複雜的數學計算程序,並沒有嚴格的統計假定必須遵守兩個重要的分析影響條件representativenessrepresentativeness樣本的代表性樣本的代表性multicollinearitymulticollinearity變項的多元共線性變項的多元共線性1616階段四:集群的分離與評鑑決定形成集群的策略決定集群的合理數目集群分析的程序階層法階層法 凝聚法凝聚法 (agglomerative)(agglomerative)分離法分離法 (divisive)(divisive)非階層法非階層法二階段法(二階段法(

6、WardWard法):結合變異數分析法):結合變異數分析,找出找出兩群最佳的集群使兩群最佳的集群使MSwithinMSwithin最小最小1717階段五:集群的解釋集群分離出來之後,決定集群性質的過程類似於因素分析法的命名問題非標準化資料非標準化資料:就原始資料意義來說明:就原始資料意義來說明標準化資料標準化資料:需迴歸資料原始狀態:需迴歸資料原始狀態可以使用區別分析來釐清1818階段六:集群的效度驗證一旦集群確立之後,對於集群的性質的區辨力以及穩定性與類化性的評估進行相關性的研究,選取重要的變項來進行預測與分類分析1919集群分析的技術特性測量集群距離的方法測量集群距離的方法 最近法(最近法

7、(single linkagesingle linkage)最遠法(最遠法(complete linkagecomplete linkage)平均法平均法 (centroidcentroid method,average linkage method,average linkage)測量差異的方法測量差異的方法 Squared Euclidean distanceSquared Euclidean distance歐幾里得距離歐幾里得距離(個體差距平方個體差距平方和和)City-block approach(City-block approach(個體差距絕對值總和個體差距絕對值總和)謝比雪夫

8、法:個體最大差距的距離謝比雪夫法:個體最大差距的距離 MinkowskiMinkowski:乘冪距離法乘冪距離法資料的型態資料的型態 標準化標準化 vs.vs.非標準化非標準化2020分類的層次 階層測量距離方法階層測量距離方法 Agglomerative hierarchical clusteringAgglomerative hierarchical clustering 匯聚法:將所有物體歸入越來越大的類別中直到所有的物體匯聚法:將所有物體歸入越來越大的類別中直到所有的物體屬於同一類屬於同一類 當物體前一個步驟歸入所屬的類別後即不得改變當物體前一個步驟歸入所屬的類別後即不得改變 Divi

9、sive hierarchical clusteringDivisive hierarchical clustering 分裂法:將所有的物體從一個大類區分成兩類直到所有的物分裂法:將所有的物體從一個大類區分成兩類直到所有的物體都自成一類體都自成一類 非階層測量距離方法非階層測量距離方法 階段性閾值:選擇一個種子階段性閾值:選擇一個種子,針對某一個距離標準來分類針對某一個距離標準來分類 平行閾值:同時選擇多個種子平行閾值:同時選擇多個種子,針對某一個距離標準來分類針對某一個距離標準來分類2121資料標準化當變項對於測量的尺度(單位)有相當的敏感度時,應採用標準化策略優點易於比較易於比較有一致的

10、變動性有一致的變動性缺點失去原有變項的變異特性失去原有變項的變異特性2222分析技術 Squared Euclidean distance:(non-Squared Euclidean distance:(non-standardized)standardized)(157-144)(157-144)2 2+(43-48)+(43-48)2 2=194=194 缺點:受單位的影響缺點:受單位的影響啤酒啤酒 品牌品牌熱量熱量價格價格B B品牌品牌1441444343L L品牌品牌15715748482323分析技術 Squared Euclidean distance:(standardized

11、)Squared Euclidean distance:(standardized)(.38-.81)(.38-.81)2 2+(-.46-(-.11)+(-.46-(-.11)2 2=.307=.307 缺點:失去測量變項的特質缺點:失去測量變項的特質啤酒啤酒 品牌品牌熱量熱量價格價格B B品牌品牌Z=.38Z=.38Z=-.46Z=-.46L L品牌品牌Z=.81Z=.81Z=-.11Z=-.112424Outliers2525Raw Data and Standardized Scores2626歐幾里德距離平方Squared Euclidean distanceD2=(.38-.61)2+(.01-.62)2+(.34-.61)2+(-.46-(-.46)2=.49272728282929集群樹狀圖3030

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com