SPSS主成份因子分析.ppt

上传人:qwe****56 文档编号:80585735 上传时间:2023-03-23 格式:PPT 页数:102 大小:1.16MB
返回 下载 相关 举报
SPSS主成份因子分析.ppt_第1页
第1页 / 共102页
SPSS主成份因子分析.ppt_第2页
第2页 / 共102页
点击查看更多>>
资源描述

《SPSS主成份因子分析.ppt》由会员分享,可在线阅读,更多相关《SPSS主成份因子分析.ppt(102页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、主主成成分分分分析析和和因因子子分分析析 汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的所假定你是一个公司的财务经理,掌握了公司的所有数据,比如有数据,比如固定资产、流动资金、每一笔借贷固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教产值、利润、折旧、职工人数、职工的分工和教育程度等等育程度等等。如果让你向上面介绍公司状况,你能够把这些指如果让你向上面介绍公司状况,你能够把这些指标和数字都标和数字都原封不动地摆出去吗原封不动地摆出去吗?当然不能。当然不能。你必须要把各个

2、方面作出高度概括,你必须要把各个方面作出高度概括,用一两个指用一两个指标简单明了地把情况说清楚。标简单明了地把情况说清楚。主成分分析主成分分析每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比比如如全全国国或或各各个个地地区区的的带带有有许许多多经经济济和和社社会会变变量量的的数数据据;各各个个学学校校的的研研究究、教教学学等等各各种种变变量量的的数数据等等。据等等。这这些些数数据据的的共共同同特特点点是是变变量量很很多多,在在如如此此多多的的变变量量之之中中,有有很很多多是是相相关关的的。人人们们希希望望能能够够找找出出它它们的们的少数少数“代表代表”来对它们进行描述。来对它

3、们进行描述。本本章章就就介介绍绍两两种种把把变变量量维维数数降降低低以以便便于于描描述述、理理解解和和分分析析的的方方法法:主主成成分分分分析析(principal principal component component analysisanalysis)和和因因子子分分析析(factor factor analysisanalysis)。实实际际上上主主成成分分分分析析可可以以说说是是因因子子分分析析的的一一个个特特例例。在在引引进进主主成成分分分分析析之之前前,先先看看下下面的例子。面的例子。成绩数据(成绩数据(student.sav)100个个学学生生的的数数学学、物物理理、化化学学

4、、语语文文、历历史史、英语的成绩如下表(部分英语的成绩如下表(部分)。)。从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个个变变量量用用一一两两个个综综合合变变量量来来表表示呢?示呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的信息呢?的信息呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行行分析、排序、判别和分类等问题。分析、排序、判别和分类等问题。主成分分析主成分分析例例中中的的的的数

5、数据据点点是是六六维维的的;也也就就是是说说,每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。我我们们希希望望把把6维维空空间间用用低维空间表示。低维空间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴轴的的两两个个坐坐标标值值;如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在变变量量的的二二维维正正态态的的假假定下是可能的)定下是可能的)那那么么这这个个椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短

6、轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变变化化了了;这这样样,由由二二维维到到一一维维的的降降维维就就自自然完成了。然完成了。主成分分析主成分分析当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量就描述了数据的次要变化。量就描述了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻

7、寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新变量和椭圆的长短轴平行。新变量和椭圆的长短轴平行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降维就完成了。,降维就完成了。椭椭圆圆(球球)的的长长短短轴轴相相差差得得越越大大,降降维维也也越越有有道道理。理。主成分分析主成分分析对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过无无法法直直观观地地看看见罢了。见罢了。首首先先把把高高维维椭椭球球的的主主轴轴找

8、找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成成分分分分析析就就基基本完成了。本完成了。注注意意,和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的线线性性组组合合,叫叫做主成分做主成分(principalcomponent)。主成分分析主成分分析正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就就有有几个主成分。几个主成分。选选择择越越少少的的主主成成

9、分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选选几几个个,要要看看实实际情况而定。际情况而定。对于我们的数据,对于我们的数据,SPSSSPSS输出为输出为这这里里的的InitialEigenvalues就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(

10、数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的81.142%。后后面面的的特特征征值值的的贡贡献献越越来来越越少。少。特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出怎么解释这两个主成分。前面说过主成分怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的是原始六个变量的线性组合。是怎么样的组合呢?组合呢?SPSSSPSS可以可以输出下面的表。输出下面的表。这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数(比比例例)。比比如如第第一一主

11、主成成分分为为数数学学、物物理理、化化学学、语语文文、历历史史、英英语语这这六六个个变变量量的的线线性性组组合合,系系数数(比比例例)为为-0.806,-0.674,-0.675,0.893,0.825,0.836。如如用用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分分别别表表示示原原先先的的六六个个变变量量,而而用用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表表示示新新的的主主成成分,那么,第一和第二主成分为分,那么,第一和第二主成分为这这些些系系数数称称为为主主成成分分载载荷荷(loading),它它表表示示主

12、主成分和相应的原先变量的相关系数。成分和相应的原先变量的相关系数。比比如如y1表表示示式式中中x1的的系系数数为为-0.806,这这就就是是说说第第一主成分和数学变量的相关系数为一主成分和数学变量的相关系数为-0.806。相相关关系系数数(绝绝对对值值)越越大大,主主成成分分对对该该变变量量的的代代表表性性也也越越大大。可可以以看看得得出出,第第一一主主成成分分对对各各个个变变量量解解释释得得都都很很充充分分。而而最最后后的的几几个个主主成成分分和和原原先先的变量就不那么相关了。的变量就不那么相关了。可以把第一和第二主成可以把第一和第二主成分的载荷点出一个二维图分的载荷点出一个二维图以直观地显

13、示它们如何解以直观地显示它们如何解释原来的变量的。这个图释原来的变量的。这个图叫做载荷图。叫做载荷图。该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点右边三个点是语文、历史、外语三科。是语文、历史、外语三科。图中的六个点由于比较挤,图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。可以识别的。因子分析因子分析主主成成分分分分析析从从原原理理上上是是寻寻找找椭椭球球的的所所有有主主轴轴

14、。因因此此,原原先有几个变量,就有几个主成分。先有几个变量,就有几个主成分。而而因因子子分分析析是是事事先先确确定定要要找找几几个个成成分分,这这里里叫叫因因子子(factor)()(比如两个),那就找两个。比如两个),那就找两个。这这使使得得在在数数学学模模型型上上,因因子子分分析析和和主主成成分分分分析析有有不不少少区区别别。而而且且因因子子分分析析的的计计算算也也复复杂杂得得多多。根根据据因因子子分分析析模模型型的的特特点点,它它还还多多一一道道工工序序:因因子子旋旋转转(factorrotation););这个步骤可以使结果更好。这个步骤可以使结果更好。当当然然,对对于于计计算算机机来

15、来说说,因因子子分分析析并并不不比比主主成成分分分分析析多多费多少时间。费多少时间。从从输输出出的的结结果果来来看看,因因子子分分析析也也有有因因子子载载荷荷(factorloading)的的概概念念,代代表表了了因因子子和和原原先先变变量量的的相相关关系系数数。但但是是在在输输出出中中的的因因子子和和原原来来变变量量相相关关系系数数的的公公式式中中的的系系数数不不是是因因子子载载荷荷,也也给给出出了了二二维维图图;该该图图虽虽然然不不是是载载荷荷图,但解释和主成分分析的载荷图类似。图,但解释和主成分分析的载荷图类似。主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别主成分分

16、析主成分分析因子分析因子分析(m1(默认默认)Rotation:(我加入我加入loadingplot)Options:可能有的问题:可能有的问题:如何把文本文件或其他形式如何把文本文件或其他形式的数据读入到的数据读入到SPSS中去中去?特征值、累积贡献率特征值、累积贡献率特征值图特征值图二主成分因二主成分因子负荷图子负荷图主成分的因子负荷主成分的因子负荷(每列平方和为相应特征值每列平方和为相应特征值,而而每列除以相应特征值的平方根为相应的特征向量每列除以相应特征值的平方根为相应的特征向量)这是主成分与各个变量的相关系数这是主成分与各个变量的相关系数有的书把它当成特征向量了有的书把它当成特征向量

17、了SPSS没有给出特征向量没有给出特征向量(?!)x=scan(G:bankd1501.txt)x=matrix(x,12,length(x)/12,byrow=T)z=as.data.frame(x)names(z)=c(pop,school,employ,services,house“y=sweep(x,2,apply(x,2,mean),-)s=(t(y)%*%y)/12s1=s/sqrt(outer(diag(s),diag(s),*)s1就是相关阵等于就是相关阵等于cor(x)ex=eigen(cor(x)$values12.873313591.796660090.214836890

18、.099934050.01525537$vectorshouseservicesemployschoolpoppop0.3427304-0.601629270.05951715-0.204032740.6894972617school0.45250670.406414490.688822450.353570600.1748611748employ0.3966948-0.541665000.24795775-0.02293716-0.6980136963services0.55005650.07781686-0.664075650.50038572-0.0001235807house0.4667

19、3840.41642892-0.13964890-0.76318182-0.0824254824ex=eigen(cor(x)plot(ex$va,type=b)plot(cumsum(ex$va),type=b)ex=eigen(cor(z);ex$values1 2.87331359 1.79666009 0.21483689 0.09993405 0.01525537$vectors house services employ school poppop 0.3427304-0.60162927 0.05951715-0.20403274 0.6894972617school 0.452

20、5067 0.40641449 0.68882245 0.35357060 0.1748611748employ 0.3966948-0.54166500 0.24795775-0.02293716-0.6980136963services 0.5500565 0.07781686-0.66407565 0.50038572-0.0001235807house 0.4667384 0.41642892-0.13964890-0.76318182-0.0824254824sweep(ex$ve,2,sqrt(ex$va),*)载荷载荷 house services employ school p

21、oppop 0.5809571-0.8064212 0.02758650-0.064499538 8.516163e-02school 0.7670373 0.5447561 0.31927265 0.111771968 2.159757e-02employ 0.6724314-0.7260453 0.11492966-0.007250974-8.621352e-02services 0.9323926 0.1043054-0.30780239 0.158183675-1.526378e-05house 0.7911612 0.5581795-0.06472796-0.241259690-1.

22、018059e-02正交性验证正交性验证t(ex$ve)%*%ex$vehouseservicesemployschoolpophouse1.00e+00-5.55e-176.9e-17-1.11e-160.00e+00services-5.55e-171.00e+004.16e-170.00e+00-8.33e-17employ6.94e-174.16e-171.00e+002.78e-175.38e-17school-1.11e-160.00e+002.78e-171.00e+00-1.39e-17pop0.00e+00-8.33e-175.38e-17-1.39e-171.00e+00相

23、关阵的特征值相关阵的特征值:(R输出输出)2.87331.79670.21480.09990.0153特征向量矩阵特征向量矩阵(列向量列向量)A(R输出输出)0.343-0.60160.0595-0.20400.6894970.4530.40640.68880.35360.1748610.397-0.54170.2480-0.0229-0.6980140.5500.0778-0.66410.5004-0.0001240.4670.4164-0.1396-0.7632-0.082425The SAS System 11:15 Sunday,September 22,2002Eigenvalues

24、 of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.87331 1.07665 0.574663 0.57466 PRIN2 1.79666 1.58182 0.359332 0.93399 PRIN3 0.21484 0.11490 0.042967 0.97696 PRIN4 0.09993 0.08468 0.019987 0.99695 PRIN5 0.01526 .0.003051 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN

25、5 X1 0.342730 0.601629 0.059517 0.204033 0.689497 X2 0.452507 -.406414 0.688822 -.353571 0.174861 X3 0.396695 0.541665 0.247958 0.022937 -.698014 X4 0.550057 -.077817 -.664076 -.500386 -.000124 X5 0.466738 -.416429 -.139649 0.763182 -.082425(SAS输出输出)销售人员数据销售人员数据(salesmen.sav)(50个观测值)个观测值)销售增长销售增长销售利

26、润销售利润新客户销售额新客户销售额创造力创造力机械推理机械推理抽象推理抽象推理数学推理数学推理93.0096.0097.809.0012.009.0020.0088.8091.8096.807.0010.0010.0015.0095.00100.3099.008.0012.009.0026.00101.30103.80106.8013.0014.0012.0029.00102.00107.80103.0010.0015.0012.0032.0095.8097.5099.3010.0014.0011.0021.0095.5099.5099.009.0012.009.0025.00110.8012

27、2.00115.3018.0020.0015.0051.00102.80108.30103.8010.0017.0013.0031.00106.80120.50102.0014.0018.0011.0039.00103.30109.80104.0012.0017.0012.0032.0099.50111.80100.3010.0018.008.0031.00103.50112.50107.0016.0017.0011.0034.0099.50105.50102.308.0010.0011.0034.00特征值、累积贡献率特征值、累积贡献率特征值图特征值图二主成分因二主成分因子负荷图子负荷图主成

28、分的因子负荷主成分的因子负荷(每列平方和为相应特征值每列平方和为相应特征值,而而每列除以相应特征值的平方根为相应的特征向量每列除以相应特征值的平方根为相应的特征向量)这是主成分与各个变量的相关系数这是主成分与各个变量的相关系数有的书把它当成特征向量了有的书把它当成特征向量了SPSS没有给出特征向量没有给出特征向量The SAS System Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 5.03460 4.10108 0.719228 0.71923 PRIN2 0

29、.93352 0.43560 0.133359 0.85259 PRIN3 0.49792 0.07667 0.071131 0.92372 PRIN4 0.42125 0.34021 0.060178 0.98390 PRIN5 0.08104 0.06070 0.011577 0.99547 PRIN6 0.02034 0.00900 0.002906 0.99838 PRIN7 0.01134 .0.001620 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 PRIN6 PRIN7 SALE 0.433672 -.111754 -.

30、075489 -.042373 0.632494 -.336596 -.527825 BENEFIT 0.420214 0.029287 -.442479 0.010753 -.000118 0.785342 -.099483 NEWSALE 0.421051 0.009202 0.204189 -.324928 -.701026 -.156811 -.399164 CREATIV 0.294286 0.668416 0.451492 -.302712 0.261008 0.114171 0.299960 MECHD 0.349092 0.294944 0.005922 0.846604 -.

31、174263 -.196909 0.072311 ABSD 0.289167 -.642378 0.603780 0.153674 0.086959 0.236261 0.228444 MATHD 0.407404 -.200368 -.434040 -.246013 -.049583 -.371111 0.636224(SAS输出输出)后面是因子分析后面是因子分析(FactorAnalysis)因子分析因子分析(FactorAnalysis)男子径赛记录数据男子径赛记录数据(MTF,p384)100m200m400m800m1500m5000m10000mMarathon10.39 20.8

32、1 46.84 1.813.7014.04 29.36 137.72argentin10.31 20.06 44.84 1.743.5713.28 27.66 128.30 australi10.44 20.81 46.82 1.793.6013.26 27.72 135.90 austria10.34 20.68 45.04 1.733.6013.22 27.45 129.95 belgium10.28 20.58 45.91 1.803.7514.68 30.55 146.62 bermuda10.22 20.43 45.21 1.733.6613.62 28.62 133.13 braz

33、il女子径赛记录数据女子径赛记录数据(FTF,p34)100m200m400m800m1500m3000mMarathon11.6122.94 54.50 2.154.439.79178.52 argentin11.2022.35 51.08 1.984.139.08152.37 australi11.4323.09 50.62 1.994.229.34159.37 austria11.4123.04 52.00 2.004.148.88157.85 belgium11.4623.05 53.30 2.164.589.81169.98 bermuda11.3123.17 52.80 2.104

34、.499.77168.75 brazil.人口普查数据人口普查数据(census,p383)5.9414.22.272.272.911.5213.1.60.752.622.60 12.71.241.111.724.0115.21.65.813.02(两个方法区别不大两个方法区别不大)股票数据股票数据(stock,p382).00.00.00.04.00.03-.04.00-.01.04.12.06.09.09.08.06.03.07.01.02.1995中国社会数据中国社会数据(317.sav)变量变量:人均人均GDP(元元)新增固定资产新增固定资产(亿元亿元)城镇居民人均年可支配收入城镇居民

35、人均年可支配收入(元元)农村农村居民家庭人均纯收人居民家庭人均纯收人(元元)高等学校数高等学校数(所所)卫生机构数卫生机构数(个个)地区地区:北京北京天津天津河北河北山西山西内蒙内蒙辽宁辽宁吉林吉林黑龙江黑龙江上海上海江苏江苏浙江浙江安徽安徽福建福建江江西西山东山东河南河南湖北湖北湖南湖南广东广东广西广西海南海南四川四川贵州贵州云南云南陕西陕西甘肃甘肃青海青海宁夏宁夏新疆新疆(296矩阵矩阵)北京北京1026530.8162353223654955天津天津816449.1349292406213182河北河北337677.76392116684710266山西山西281933.97330512

36、06265922内蒙内蒙301354.5128631208194915.于秀林书上说可有三个因子于秀林书上说可有三个因子:收入因子收入因子,社会因子社会因子,投资因子投资因子35家家中国上市公司中国上市公司2000年年报数据年年报数据(Chcomp.sav)变量变量:净资产收益率净资产收益率%,总资产报酬率总资产报酬率%,资产负债率资产负债率%,总资产周转率总资产周转率,流动资产周转率流动资产周转率,已获利息倍数已获利息倍数,销售增长率销售增长率%,资本积累率资本积累率%公司公司:深能源深能源,深南电深南电,富龙热力富龙热力,穗恒运穗恒运,粤电力粤电力,韶能股份韶能股份,惠天热电惠天热电,原水

37、股份原水股份,大连热电大连热电,龙电股份龙电股份,华银电力华银电力,长春经开长春经开,兴业房产兴业房产,金丰投资金丰投资,新黄新黄浦浦,浦东金桥浦东金桥,外高桥外高桥,中华企业中华企业,渝开发渝开发,辽房天辽房天,粤宏远粤宏远,ST中中福福,倍特高新倍特高新,三木集团三木集团,寰岛实业寰岛实业,中关中关村村,中兴通讯中兴通讯,长城电脑长城电脑,青鸟华青鸟华光光,清华同方清华同方,永鼎光缆永鼎光缆,宏图高科宏图高科,海星科技海星科技,方正科技方正科技,复华实业复华实业(358矩阵矩阵)深能源深能源16.8512.3542.32.371.787.1845.7354.5深南电深南电22.0015.3

38、046.51.761.7715.6748.1119.41富龙热力富龙热力8.977.9830.56.17.5810.4317.809.44.SpearmansExample有一组古典文学、法语、英语、数学和音乐的测验成绩有一组古典文学、法语、英语、数学和音乐的测验成绩,从它们的相关性表明存在一个潜在的从它们的相关性表明存在一个潜在的“智力智力”因子(因子(F1)。)。而另一组变量,表示身体健康的得分,只要有效就可以对而另一组变量,表示身体健康的得分,只要有效就可以对应另一个潜在的因子(应另一个潜在的因子(F2)。)。记这些变量为记这些变量为(X1,Xp).我要我要寻求下面这样的结构:寻求下面这

39、样的结构:正交因子模型:正交因子模型:X=m m+AF+e em mi=变量变量i的均值的均值e ei=第第i个特殊因子个特殊因子Fi=第第i个公共因子个公共因子aij=第第i个变量在个变量在第第j个因子上的载荷个因子上的载荷不能观测的值满足下列条件:不能观测的值满足下列条件:F和和e e独立独立E(F)=0,Cov(F)=IE(e e)=0,Cov(e e)=Y Y,Y Y是对角矩阵是对角矩阵F为公共因子向量为公共因子向量,每个公共因子每个公共因子(如如Fi)是对模型中每个变量都起是对模型中每个变量都起作用的因子作用的因子;而而e e为特殊因子向量为特殊因子向量,每个特殊因子每个特殊因子(如

40、如e ei)只对一个变只对一个变量量(第第i个个)起作用起作用.(协方差结构为协方差结构为S S=AA+Y Y的的)模型模型X=m m+AF+e e因子分析的步骤因子分析的步骤1根据问题选取原始变量;根据问题选取原始变量;2求其相关阵求其相关阵R,探讨其相关性;探讨其相关性;3从从R求解初始公共因子求解初始公共因子F及因子及因子载荷矩阵载荷矩阵A(主成分法或最大似然法主成分法或最大似然法);4因子旋转;因子旋转;5由由X=AF到到F=bX(因子得分函数因子得分函数);6根据因子得分值进行进一步分析根据因子得分值进行进一步分析.正交模型正交模型X=m m+AF+e e的协方差结构的协方差结构根据

41、前面模型,可以得出下面结果:根据前面模型,可以得出下面结果:上面上面s sii2=S Sjaij2+y yi2中中,S Sjaij2称为称为共性方共性方差差(公共方差公共方差或或变量共同度变量共同度commonvariance,communalities),而,而y yi2称为称为特殊方差特殊方差.变变量共同度刻画全部公共因子对变量量共同度刻画全部公共因子对变量Xi的的总方差所做的贡献总方差所做的贡献.因子分析的目的在于估计因子分析的目的在于估计S S=AA+Y Y和和Y Y,再分解以得到再分解以得到A.X的协方差阵的协方差阵S S可以可以分解成分解成这里这里l l1l l2l lp为为S S

42、的特征值的特征值;而而e1,ep为相应的特征向量为相应的特征向量(e1,ep为为主成分的系数主成分的系数,因此称为主成分法因此称为主成分法).上上面分解总是取和数的重要的头几项来近面分解总是取和数的重要的头几项来近似似.的统计意义就是第的统计意义就是第i个变量与第个变量与第j个公共个公共因子的相关系数因子的相关系数,表示表示Xi依赖依赖Fj的的份量份量,这里这里eij是相应于特征值是相应于特征值l li的特征向量的特征向量ei的的第第j个分量个分量.因子载荷阵中各列元素的平方和因子载荷阵中各列元素的平方和Sj=S Siaij2称为公共因子称为公共因子Fj对对X诸变量的方差贡诸变量的方差贡献之总

43、和献之总和因子载荷因子载荷X的协方差阵的协方差阵S S可以近似为可以近似为(如如Y Y忽略忽略)如如Y Y不忽略不忽略,S S可以近似为可以近似为应用中应用中,S S可以用样本相关阵可以用样本相关阵R代替代替.除主成分法外还有最大似然法来估计除主成分法外还有最大似然法来估计A,m m和和Y Y(在多元正态分布的假定下在多元正态分布的假定下).当然当然,还有其他方法还有其他方法(有些互相类似有些互相类似).).令令T为为任意任意m正交方阵正交方阵(TT=TT=I),则则X-m m=AF+e=e=ATTF+e=Ae=A*F*+e,e,这里这里A A*=AT,F*=TF.因此因此S S=AA+Y Y

44、=ATTA+Y Y=(A*)(A*)+Y Y因此因此,因子载荷因子载荷A只由一个正交阵只由一个正交阵T决定决定.载荷载荷A A*=AT与与A都给出同一个都给出同一个表示表示.由由AA=(A*)(A*)对角元给出对角元给出的共性方差的共性方差,也不因也不因T的选择而改变的选择而改变.正交变换正交变换T相当于相当于刚体刚体旋转旋转(或反射或反射),因子载荷因子载荷A的正的正交变换交变换AT称为称为因子旋转因子旋转估计的协方差阵或相关阵估计的协方差阵或相关阵,残差阵残差阵,特殊方差及共性方特殊方差及共性方差都不随旋转而变差都不随旋转而变.这里这里“残差阵残差阵”为协方差阵或相关阵为协方差阵或相关阵与

45、估计的与估计的AA+Y Y之差之差.因子旋转的因子旋转的一个一个准则为最大方差准则准则为最大方差准则.它使旋转后的因子载荷的总方差达到它使旋转后的因子载荷的总方差达到最大最大.如如即要选变换即要选变换T使下式最大使下式最大(计算机循环算法计算机循环算法)需要由需要由X=AF变成变成F=b bX.或或Fj=b bj1X1+b bjpXp j=1,m,称为称为因子得分因子得分(函数函数).这通常用加权最小二乘法或回归法等这通常用加权最小二乘法或回归法等来求得来求得.总结总结(再重复一次再重复一次)模型模型X=m m+AF+e e因子分析的步骤因子分析的步骤1根据问题选取原始变量;根据问题选取原始变

46、量;2求其相关阵求其相关阵R,探讨其相关性;探讨其相关性;3从从R求解初始公共因子求解初始公共因子F及因子及因子载荷矩阵载荷矩阵A(主成分法或最大似然法主成分法或最大似然法);4因子旋转;因子旋转;5由由X=AF到到F=bX(因子得分函数因子得分函数);6根据因子得分值进行进一步分析根据因子得分值进行进一步分析.洛衫矶对洛衫矶对12个人口调查区的数据个人口调查区的数据(data15-01)编号编号总人口总人口总雇员数总雇员数中等校中等校专业服务专业服务中等房价中等房价平均校龄平均校龄项目数项目数1570012.82500270250002100010.96001010000334008.810

47、001090004380013.61700140250005400012.8160014025000682008.3260060120007120011.440010160008910011.5330060140009990012.534001801800010960013.73600390250001196009.63300801200012940011.4400010013000StatisticsDataReductionFactor:Variables:pop,school,employ,service,houseDescriptive:Statistics(UnivariateDes

48、criptives,Initialsolution),CorrelationMatrix(Coefficients,Significancelevels)Extraction:Method(Principalcomponent),Analyze(Correlationmatrix),Extract(Number=2factors)Display(Unrotatedfactorsolution,Screeplot),MaximumIterationsfor(25)Rotation:Method(Varmax),Display(Rotatedsolusion,Loadingplot),Maximu

49、mIterationsfor(25)Score:Saveasvariables,Method(Regression),DisplayfactorscorecoefficientmatrixOptions:MissingValue(ExcludecasesListwise),Coefficientdisplayformat(Sortedbysize)共同度共同度S Sjaij旋转前的因子载荷旋转前的因子载荷旋转后的因子载荷旋转后的因子载荷第一主因子对中等房价第一主因子对中等房价,中等校平均校中等校平均校龄龄,专业服务项目有绝对值较大的载荷专业服务项目有绝对值较大的载荷(代表一般社会福利代表一般社

50、会福利-福利条件因子福利条件因子);而而第二主因子对总人口和总雇员数有较大第二主因子对总人口和总雇员数有较大的载荷的载荷(代表人口代表人口-人口因子人口因子).正交变换阵正交变换阵旋转后的旋转后的因子载荷图因子载荷图因子得分的计算基础因子得分的计算基础(F=b bX)中的中的b b。把把n个观测值代入得到个观测值代入得到FACT_1和和FACT_2存存入数据对每个观测值有两个因子得分入数据对每个观测值有两个因子得分(一点一点)Fj=b bj1X1+b bj5X5,j=1,2因子得分之间不相关因子得分之间不相关销售人员数据销售人员数据(salesmen.sav)(50个观测值)个观测值)销售增长

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com