Feng笔记-SPSS操作中的各种检验统计量和判别准则(完整手册10天完成).doc-得力文库

资源描述

《Feng笔记-SPSS操作中的各种检验统计量和判别准则(完整手册10天完成).doc》由会员分享，可在线阅读，更多相关《Feng笔记-SPSS操作中的各种检验统计量和判别准则(完整手册10天完成).doc（34页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、SPSS操作中的各种检验统计量和判别准则（冯登超整理 2011 3.163.25）专题一回归分析1 一元线性回归分析（Analyze-Regression, Linear）(1) 拟合优度检验：检验样本数据聚集在样本回归直线周围的密集程度，从而判断回归方程对样本数据的代表程度。拟合优度用判定系数R2实现。越接近1，说明回归直线的拟合程度越好。越接近0，说明回归直线的拟合程度越差。(2) 回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量和所有自变量之间的线性关系是否显著的一种假设检验。如果零假设成立，说明回归总体是无显著线性的，即所有自变量对y没有显著的线性作用；反之说明回归

2、总体存在线性关系。若F值大于临界值，则拒绝原假设（回归总体无显著线性关系），接受被选假设。若F值小于临界值，接受原假设，回归总体有显著线性关系。即在ANOVA表中，若Sig0.05, 有显著差异，（Ho假设为x,y之间无显著线性关系），说明自变量x和因变量y之间确实有线性回归关系。回归方程的显著性检验只能检验所有回归系数是否与零有显著性差异，若无显著性差异，则接受零假设，回归总体不存在线性关系。(3) 回归系数的显著性检验（t检验）回归系数显著性检验一般采用t检验方法。如果双侧t检验中，t的绝对值大于临界值（或者(pa），则接受原假设，说明x对y 没有显著影响。在一元线性回归分析中，回归方程

3、的显著性检验可以代替回归系数的显著性检验，并且F=t2。但是，在一般的多元回归条件下两种检验要说明的问题不同，作用不同，不能相互替代。在Coefficients表中，t为回归系数检验统计量，Sig为相伴概率值p。若p0.05，说明回归系数和0有显著差别，说明该回归方程有意义。在Use probalitity of F: 当一个自变量的F统计量的相伴概率值Sig=0.10时，不能拒绝Ho,认为该变量对因变量的影响是不显著的，应从回归方程中剔除。在Use F value中，表示以回归系数显著性检验中的各自变量的F统计量作为自变量进入模型或从模型剔除的准则。在变量的选择/剔除中，Entry(默认值

4、3.84)，表示当一个变量的F值3.84时，该变量被选入模型；Removal(默认值2.71)，表示当一个变量的F值2.71时，该变量从模型中被剔除。2. 多元线性回归分析研究两个或两个以上自变量对一个因变量的数量变化关系。(1) 拟合优度检验，越接近1，说明回归平面的拟合程度越好。越接近0，说明回归平面的拟合程度越差。修正的考虑的是平均的残差平方和，在线性回归分析中，越大越好。（2）回归方程的显著性检验（F检验）若F值较大，说明自变量造成的因变量的变动远远大于随机因素对因变量造成的影响。此外，F统计量也能反映回归方程的拟合优度。若回归方程的拟合优度高，F统计量越显著；F统计量越显著；回归

5、方程的拟合优度越高。F检验中，H0假设是，设各个系数0，即各个自变量与因变量无线性关系。若，则拒绝原假设 H0，认为所有回归系数同时与零有显著差异，自变量与因变量之间存在显著的线性关系，自变量的变化确实能反映因变量的线性变化，回归方程显著。若，接受原假设H0，认为所有回归系数同时与零无显著差异，自变量和因变量之间不存在显著的线性关系，自变量的变化无法反映因变量的线性变化，回归方程不显著。(3) 回归系数的显著性检验（t检验）回归系数的显著性检验是检验各个自变量对因变量y的影响是否显著，从而找出哪些自变量对y的影响是重要的，哪些是不重要的。H0假设为：。若零假设成立，说明对y没有显著影响，即

6、自变量与因变量的线性关系不明显，反之，说明对因变量y具有显著的影响。采用t检验。若或者pa，接受原假设H0，认为该回归系数与零无显著差异，该自变量与因变量之间不存在显著的线性关系，它的变化无法反映因变量的线性变化，应该剔除出回归方程中。Analyze-Regression-Linear Regression, 在Correlations 表中，可以分析各个变量之间的相关系数。相关系数越大，说明各变量越相关。Model Summary 表中，分析R,R square，利用该值看样本回归效果。该值越大，说明样本数据和回归方程的拟合度越高。即分析样本的回归效果。Anova表，（方差分析表），利

7、用统计量F和相伴概率Sig，同时分析多个自变量和因变量之间是否存在线性回归关系。Coefficients回归系数表，利用t分布的Sig值分析全部自变量和因变量之间是否存在显著线性关系。Residuals Statistics表，分析各个残差结果。3. 非线性回归分析研究在非线性相关条件下，自变量对因变量的数量变化关系。其中，多项式模型在非线性回归分析中占据重要地位。当因变量和自变量之间的关系未知时，可以用适当幂次的多项式近似反映。(1) 在Graphs 菜单中的Correlate中选择Scatter命令，Simple Scatterplot，观察散点图，初步决定是哪些曲线比较合适。(2)进一步

8、判断筛选后的这些曲线中，哪种与样本观察值的拟合优度更高。利用分析各个曲线的拟合优度，该值越大，说明该值对应的曲线拟合优度更高。最后，再观察几种曲线预测值的曲线图，观察各类型曲线的拟合效果。最终，确定一种曲线方程。4. 曲线估计当不知道该选择哪种函数模型更接近样本数据时，采用曲线拟合。方法：先根据实际问题，同时选择多种模型。(2) 计算、F检验值、相伴概率Sig。(3) 选择具有统计量值最大的模型作为此问题的回归模型，并作些预测。 Analyze-Regression-Curve Estimation, 观察Curve Fit 表中的值，分析比较后，选择该值最大的曲线模型最合适。再观察其观察

9、值和各种函数模型条件下预测值的对比图，分析各种曲线，看看哪种曲线对观测值的拟合优度更好。然后，在输出的 FIT_1(选取曲线1时的预测结果值)、Err_1(曲线1下的残差)、LCL_1 UCL_1 为预测值95%的可信区间的下限和上限。别的曲线类似。在 Display ANOVA 表中，做回归方程的显著性检验，观察t分布下对用的Sig 值。若SigRegression-Curve Estimation ，将应变量Y 选入 Dependent中，其他选入Independent中，同时选中 Time 项。再选中多种曲线模型，分析 Curve Fit 表中的，取得值最大的曲线（说明该曲线的拟合优度

10、最好）。同时，得到FIT_1,FIT_2 等值（不同曲线函数对应的回归分析结果的预测值）。再输出曲线预测值的对比图。6. 含虚拟自变量的回归分析对于非数量型变量，如性别、季节等，回归模型的参数不再是固定不变的。计算时，先对定性变量做数量化处理，如1男，0女。举例1，对于自变量只有一个定性变量，且定性变量只有两种特征时，回归模型;自变量中含有多个定性变量时，同时考虑定性变量及其之间的交互影响。Analyze-Regression-Linear, y选入 Dependent中，其它选入Independent中，在Model Summary 中，观察值，该值越大，说明样本回归方程代表性越强。在

11、ANOVA表中，观察F值和Sig值。若 Sig0.05,说明自变量和因变量有线性回归关系。最后，观察Coefficients表，观察t分布的相伴系数Sig。.若Sig值0.05，说明回归系数和0有明显差别，回归方程有意义。7. 逻辑回归分析实际情况中，因变量是定性变量时。如：某人是否购买汽车。处理定性因变量的方法有判别分析、Probit分析，Logistics分析、对数分析。其中，Logistics分析是最多应用的。模型参数估计后，进行检验的统计量(1) -2 对数似然值（2log likelihood,-2LL），用于检验Logistics回归中的显著性，反映了在模型中包括了所有自变量后的

12、误差，用于处理因变量无法解释的变动部分的显著性水平。当 2LL 的实际显著性水平大于给定显著性水平a时，因变量的变动中无法解释的部分是不显著的，意味着回归方程的拟合程度是最好的。(2) 拟合优度（Goodness of Fit）统计量，反映拟合效果。(3) Cox& Snell R-Square。它是在似然值基础上模拟线性回归模型的R2解释LOGISTIC 回归模型，一般小于1. 该值越趋于1，回归效果越好。(4) N agelkerke R-Square, 它与R2接近，但小于1.(5) Hosmer and Lemeshows Goodness of Fit Test Statistic

13、拟合优度检验统计量。根据卡方分布，计算Sig值，若pa，接受零假设，说明在可接受的水平上的估计拟合了数据。(6) Wald统计量：用于判别一个变量是否应该包含着模型中。Wald统计量大者（或Sig值小）显著性高，也就更重要。因此，Wald可以考察每个自变量在回归方程中的重要性。Analyze-regression-Binary Logistics, 在Iteration History表中，得到2LL的数值。在Classification Table中，可以得出定性因变量的分类的准确性百分比；在Model Summary中，列出了-2 LL, COX &Snell R square和 Na

14、gelkerke R Square统计结果。 Hosmer and Lemeshow Test 表中，若 S ig 0.05, 说明在可接受的水平上的估计拟合了数据。 Iteration History 表格中，列出各个步骤的回归结果系数；在Classition Table中，可以分析定性应变量的准确性。在Variables in the Equation中，可以看出Wald数据和Sig.Wald数据值越大，说明该自变量在回归方程中越重要。Correlation Matrix 表格中，列出各个系数和常数的相关性。数值越大，也就越相关。在Casewise List 中，列出残差较大的个案，标记

15、*,说明该个案的回归结果错误。专题二相关分析衡量事物之间、变量之间线性相关程度的强弱并用适当的统计指标表示，即为相关分析。常用方法为绘制散点图（该方法不精确）准确描述变量之间的线性相关程度相关系数。样本相关系数取值范围在其中，(1)若，表明变量之间存在正相关关系，即两个变量的相随变动方向相同。 (2) 若，表明变量之间存在负相关关系，即两个变量的相随变动方向相反。 (3) 若，完全相关；，完全不相关，说明变量间无线性关系。(4) ，高度相关；，中度相关；，低度相关；，说明变量之间的相关程度极弱，可视为不相关。为了判断样本相关系数是否能代表总体相关程度，需要对相关系数做假设检验。(1) 假设

16、总体相关性为0，即 H0为两总体无显著线性相关关系；(2) 其次，计算相应的统计量，得到对应的相伴概率值Sig。若Sig 小于等于指定的显著性水平，则拒绝H0，认为两总体存在显著线性相关关系；若Sig值大于指定的显著性水平，则不能拒绝H0,认为两总体不存在显著的线性相关关系。2.1 二元定距变量的相关分析Pearson简单相关系数恒定定距变量的线性关系，其统计量是t统计量，服从n-2个自由度的t分布。Analyze-Correlate - Bivariate, 选中双侧检验（Two-tailed），可以检验两个变量之间的相关取向（正相关/负相关）。在Correlations 中，检查 r值以及

17、对应的Sig值。如果，说明两变量间显著相关。若对变量间的相关程度不需要掌握的太精确，可以通过绘制变量的相关散点图直接判断。Graphs-Scatter-Simple , 观察散点图，看看是否存在线性相关。2.2 二元定序变量的相关分析定序变量又称顺序变量，它的取值大小能够表示观测对象的某种顺序。Spearman 和Kendalls tua-b等级相关系数用以衡量定序变量之间的线性相关关系。在Spearman等级相关系数的统计检验中，若个案数直接利用Spearman计算(查Spearman等级相关统计量表，SPSS自动根据该表给出Sig)，若个案数30，将计算Z统计量（Z近似服从正态分布）,S

18、PSS将给出正态分布表对应的相伴概率。在Kendalls tua-b等级相关系数的统计检验，若个案数直接利用Spearman计算(查Kendalls tua-b等级相关统计量表，SPSS自动根据该表给出Sig)，若个案数30，将计算Z统计量（Z近似服从正态分布）,SPSS将给出正态分布表对应的相伴概率。Analyze-Correlate -Bivariate, 对于得到的Nonparametric Correlations表，观察相关系数和Sig. 若如果，说明两变量间显著相关。2.3 偏相关分析单纯计算简单相关系数，无法准确反映事物之间的相关关系，而应该在剔除其他相关因素影响下计算相关系数

19、。偏相关分析即解决该问题。偏相关分析当两个变量同时和第三个变量相关时，将第三个变量的影响剔除，只分析另外两个变量之间的相关程度的过程。即计算偏相关系数。 Analyze-Correlate - PartialPartial Correlations ，将需要剔除的变量选入 Controlling For对话框中。选择Two-tailed 检验。在输出的Partial Corr表中，将显示变量两两之间的Pearson简单相关系数，然后显示便相关分析结果，包括去除剔除了变量后的二变量的偏相关系数，Sig。对于有多个相关变量时，简单相关系数有夸大的成分，而偏相关系数更符合实际。如果，说明两变

20、量间显著相关。2.4 距离相关分析距离相关分析是对观测量之间或变量之间相似或不相似程度的一种预测。根据统计量不同分为不相似性测量（通过计算样本间的距离或变量间的距离）、相似性测度（通过Pearson相关系数或Cosine相关表示）。根据分析对象不同，分为样本间分析（样本与样本之间的距离相反分析）、变量间分析（变量和变量之间的距离相反分析）。(1)变量之间的相似性测量分析Analyze-Correlate -Distances，可以选择变量之间的距离相关分析（Between variable），Measure栏中选择 Similarities 相似性测距，点击Measure按钮，在弹出的D

21、istance:Simliarity Measure, 再确定Interval (定距变量)，选择 Pearson correlation项。在Proximities表中，即 Proximity Matrix表中，可以看到各个变量之间的相关系数（Perason 相关系数）(2)变量之间的不相似性测量分析Analyze-correlate -distance, Measure 中选择Dissimilarities，单击Measure按钮，选Interval,并选择Euclidean distance项，不对变量做标准化处理。在Proximity Matrix表中，看到Euclidean Dis

22、tance距离值越大，说明变量间的相似性越小。(3)个案之间的相似性测量分析Analyze-correlate-distance, 选择between cases，（做个案之间的距离相关分析），选择Simliarities，做相似性测量。Measure中选择 Interval 中的Pearson correlation。在Proximity Matrix表中，看到Perason 系数值，值越大，说明变量间的相似性越大。(4)个案之间的不相似性测量分析 Analyze-correlate-distance, 选择between cases，（做个案之间的距离相关分析），选择Dissimliar

23、ities，做相似性测量。Measure中选择 Interval 中的Pearson correlation.在Proximity Matrix表中，看到Euclidean Distance距离，距离越小，说明变量间的相似性越大。专题3 方差分析方差分析是用于两个以及两个以上样本均数差别的显著性检验。方差分析的基本思想是：通过分析研究中不同变量的变异对总变异的贡献大小，确定控制变量对研究结果影响力的大小。通过方差分析，分析不同水平得控制变量是否对结果产生了显著影响。如果控制变量的不同水平对结果产生了显著影响，那么它和随机变量共同作用，必然使得结果有显著变化；如果控制变量的不同水平对结果没有显著

24、的影响，那么结果的变化主要是由随机变量起作用，和控制变量的关系不大。根据控制变量的个数，可以将方差分析分为单因素方差分析（只有一个控制变量）和多因素方差分析（多个控制变量）。3.1 单因素方差分析单因素方差分析测试某个控制变量的不同水平是否给观察变量造成了显著差异。对于两组以上的均数比较，必须使用方差分析（当然方差分析也可以用于两组均数比较。方差分析一个严格的前提条件：在不同水平下，各总体均值服从方差相同的正态分布。计算采用F统计量，进行F检验。若控制变量的不同水平对观察变量有显著影响，那么观察变量的组间离差平法和必然大，F值也就比较大；若控制变量的不同水平没有对观察变量造成显著影响，则

25、组内离差平方和影响会比较大，F值比较小。SPSS依据F分布表给出相应的相伴概率值Sig。若SigCompare Means-One-way Anova, 在option中利用Homogeneity of variance test 做方差相等检验。若Sig 小于或等于显著性水平a，拒绝零假设，认为各水平下总体方差不等。若Sig 大于显著性水平a，接受零假设，认为各水平下总体方差相等。该步骤仅能判别出控制变量的不同水平是否对观察变量差生了显著影响。若想进一步了解究竟是那一组和其他组有显著的均值差别，需要在多个样本均数间两两比较。（方差分析的前提是各个水平下的总体服从方差相等的正态分布，其中正态

26、分布的要求不是很严格，但是对于方差相等的要求比较严格）Post Hoc One-way ANOVA: Post Multiple Comparisons，可以选择多种比较方法。选择LSD和S-N-K显著性检验法。接着可以进行单因素方差分析的多项式检验（即将组间平方和分解为线性、高次多项式，在方差分析结果中，可以输出组间平方和，还可以显示组间平方和的各个分解结果以及F统计量和相伴概率。在Polynomial选项中，在Degree下拉框中指定Linear，做线性分解。（组间平方和作线性分解，实质上是对结果和控制变量进行一次线性回归分析，计算回归平方和，并对回归方程进行检验，给出F统计量和相伴

27、概率Sig。若Siga (显著性水平)，说明控制变量的各个观察水平无法反映结果的线性变化，即认为控制变量的不同水平对结果的线性影响不显著；反之，认为结果随着控制变量的不同水平的变化产生了线性变化。输出结果表格：Test of Homogeneity of Variances，检查Sig值，若果Siga (a-0.05，显著性水平)，认为各个组总体方差相等，满足方差检验的前提条件。ANOVA表，Between中方差检验的F值及相伴概率Sig。若Siga (a=0.05, 显著性水平)，拒绝零假设，说明各水平中至少有一个水平和别的水平有明显区别，或者各个水平间都存在显著区别。表中还可看到总的离差

28、平方和Total Sum of Square；控制变量不同水平造成的组间平方和（Between (Combined) Sum of Squares），其中能被线性解释的平方和（Linear Term, Constrast， sum of squares），不能被线性解释的平方和 Divation；随机变量造成的组内平方和（Within Groups Sum of Squares）。在Multiple Comparisons表中，LSD (最小显著差法)多重比较结果，可以分析各组的Sig值，若Siga，则各组之间存在显著差别。在 S-N-K法多重比较（通常在方差分析拒绝H0时用SNKq），观察S

29、ig. 3.2 多因素方差分析多因素方差分析中的控制变量是在两个或两个以上，研究目的是分析多个控制变量的作用、多个控制变量的交互作用以及其它随机变量是否对结果产生了显著的影响。它将观察变量总的离差平方和分解为：多个控制变量单独作用引起的平方和、多个控制变量交互作用引起的离差平方和；其它随机因素引起的离差平方和。采用F检验，其零假设H0为多个控制变量的不同水平下，各总体均值没有显著差异。若F控制变量1的相伴概率Sig=a，则第一个控制变量的不同水平对观察变量产生了显著影响；F控制变量2的相伴概率Sig=a，则第2个控制变量的不同水平对观察变量产生了显著影响；F控制变量1，2的相伴概率SigG

30、eneral Linear Model中，选择Univariate 命令，将观察变量y选入 Dependent Variable(应变量)，将其它控制变量x 选入Fixed Factor。首先利用 Homogeneity tests对个水平下总体进行方差相等的检验。上述步骤只能判别两个控制变量的不同水平是否对观察变量产生了显著影响。若想进一步了解究竟是哪个组和其他组有显著的均值差别，需要进行多样本均数间的两两比较。按如下步骤，即：在Post Hoc-Univariate:Post Hoc Multiple Comparisons for Observed Means对话框，选择需要进行比较分析

31、的控制变量，如“GROUP 变量”，将其添加到Post Hoc Tests for 对话框中，然后选择比较方法。如 LSD和SNK显著性检验法。在MODEL中，可以选择FULL factorial 模型，即将观察变量的总的变异平方和分解为多个控制变量对观察变量的独立作用部分、多个控制变量交互作用部分，以及随机变量影响部分。选择Plots按钮，打开 Univariate:Profile plots对话框，在factor中，选择Profile plots 对话框中的内容。若各个控制变量间没有交互作用，各水平对应的图形近似平行，否则相交。然后，选择Contrasts，再选择Contrasts对话框中

32、的内容，可以对控制变量在各个水平上的观察变量的差异进行对比检验。结果表格分析(1) Levens Test of Equality of Error Variances 表格，它是采用Homogeneity of variance test 计算结果，观察Sig，若Sig0.05，认为各个组的总体方差相同。(2) Tests of Between-Subjects Effects表。该表是多因素方差分析的主要部分。采用建立饱和模型，可以得到各组别及其交互作用的Sum of Square，观察对应的F值及Sig值。若Sig0.5,说明控制量对观察结果无显著影响。对于随机变量影响Error，分析s

33、ig.(3) 对于Contrast Results( K Matrix)，观察各组别间的相伴概率SIG，若低于显著性水平，则各组间的差异显著。 (4) Post Hoc Tests 。在 Multiple Comparisons中，可以看各水平的Sig, 分析是否显著。(5) 最后观察 Profile Plots图。若各直线之间近似平行，说明没有显著交互作用。 3.3 协方差分析协方差分析是将那些很难控制的因素作为协变量，在排除协变量影响条件下，分析控制变量对观察变量的影响，从而更准确的对控制因素进行评价。协方差将那些很难控制的随机变量作为协变量，在分析中将其排除，在分析控制变量对观察变量

34、的影响，实现对控制变量效果的准确评价。协方差分析要求协变量是连续数值型，多个协变量间相互独立，且与控制变量之间无交互影响。协方差分析中既包含定性变量（控制变量），又包含定量变量（协变量）。采用F分布，给出相应的相伴概率值Sig。若F控制变量的相伴概率Sig=a(显著性性水平)，则控制变量的不同水平对观察变量产生显著影响。若F协变量的相伴概率SigGeneral Linear Model-Univariate，将观察变量放入Dependent Variable中，将控制变量放入Fixed Factor中，将协变量放入Covariate中。Tests of Between-Subjects E

35、ffects表，是协方差分析计算的结果。总的离差和 Total Sum of Square，各个控制变量和协变量的Sum of Squares计算值，F值及Sig。若控制变量Sig值a，说明控制变量对观察变量造成显著影响；若协变量的Sig值Compare Means，选择Mean. 将观测变量y放入Dependent LIST中，将分组变量放入Independent list中，在STATISTICS FOR First Layer中，若选中Anova 他病了安定eta ,则将为第一层次的分组计算防擦和分析。4.2 单一样本T检验单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著

36、差异。统计的前提是样本总体服从正态分布。单样本T检验的零假设是H0总体均值和指定检验值之间不存在显著差异。若SIGCompare Means-One-Sample T test，将固定值填入 Test value ，将观察变量加入到Test variable中。One-Sample Teast表中，95% confidence interval of the difference 包括95%的置信区间。Sig a，说明不能拒绝H0，认为样本均值和总体均值无显著变化。4.3 两独立样本T检验独立样本是指两个样本之间彼此独立，没有任何关联。两个独立样本各自接受相同的测量，研究的目的是了解两个样本

37、之间是否存在显著差异。前提：两个样本相互独立；样本来自的两个总体服从正态分布。两独立样本T检验的零假设 H0: 两总体均值之间不存在显著差异。计算过程 (1) 利用F检验判断两总体方差是否相同；即采用Levene F 方法检验两总体方差是否相同。利用F统计量，根据Sig和显著性水平a比较。若Siga，说明存在显著差异，即方差不相同。(2) 根据第一步结果，进行T检验。若待检验的两样本均值差异小，t值较小，则说明两个样本的均值不存在显著差异；反之，t值越大，说明两样本均值存在显著差异。此外，若SigCompare Means-Independent-samples，将观察变量加入 Tes

38、t Variables，在Define Groups按钮中，use specified values.Independent samples test 表中，观察F检验的Sig值，T检验的Sig值。4.4 两配对样本T检验根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象分别给予两种不同的处理的效果比较，以及同一研究对象处理前后的效果比较。前者推断两种效果有无差别，后者推断某种处理是否有效果。T检验的零假设H0是两总体均值之间不存在显著差异。若T检验的t值对应的SigCompare Means-Pared-Samples T test，将配对变量加入Pair

39、ed Variables中。Paired Samples Test表中，将分别分析t值和Sig值，确定配对样本是否有显著差异。若有，说明经过技术革新后，结果有效果。专题5 统计描述1. 均值Mean ：表示某变量所有取值的集中趋势或平均水平。均值标准误差（S.E.mean），描述样本均值和总体均值之间平均差异程度的统计量。 Analyze-Descriptive Statistics，选择Frequence-Statistics。2. 中位数（Median）: 把一组数据按递增/减的顺序排列，处于中间位置的变量值就是中位数。它代表一种位置，不会受到极端数值的影响，具有较高的稳健性。若N为偶数

40、，中位数是N/2和N/2+1位置上的两个数值的平均数。Analyze-Descriptive Statistics，Frequencies。选择 Median。3. 众数（Mode）: 一组数据中出现次数最多的变量值。众数描述数据的集中趋势。Analyze-Descriptive Statistics，Frequencies。4. 全距（Range）: 数据的最大值和最小值之间的绝对差。在相同样本容量下的两组数据，全距大的一组数据会比全局小的一组数据更分散。Analyze-Descriptive Statistics，Frequencies5. 方差（Variance）和标准差（Standar

41、d Deviation）:方差和标准差越大，说明变量之间的差异越大，距离平均数这个中心的离散趋势越大。Analyze-Descriptive Statistics-Descriptives6. 四分位数（Quartiles）、十分位数（Deciles）、百分位数（Percentiles）。Q3到Q1的距离的一般称为四分位差。四分位差越小，说明数据越集中。若n+1恰好不是4的倍数，则四分位数是与该数的小数相邻的两个整数位上的标志值的平均数，权数取决于整数位的距离，越近，权数越大。如 2.75项，则Q1=0.25*第2项+0.75第3项。Analyze-Descriptive Statistics

42、-Frequencies7. 频数Frequency: 一个变量在各个变量值上的个案数。它可以得到变量取值的分布情况。Analyze-Descriptive Statistics-Frequencies8 峰度（Kurtosis）:峰度是描述某变量所有取值分布形态陡缓程度的统计量。峰度为0说明数据分布和正态分布的陡缓程度相同；峰度大于0表明比正态分布的高峰更陡峭，为尖峰。峰度小于0，说明比正态分布的高峰平坦，为平顶峰。8 偏度（Skewness）:描述变量取值分布的对称性。该统计量是与正态分布比较的量。偏度0，说明数据分布形态与正态分布的偏度相同；偏度0，为正偏或右偏，即有一条长尾巴拖在右边；

43、偏度小于0，表示负偏或左偏，有一条长尾巴拖在左边。而偏度的绝对值数值越大表示分布形态的斜偏程度越大。10 标准化Z分数：计算公式。将原始数据直接转换为Z分数，常常出现负数和带小数点的值。对Z分数进一步转换，使之称为正数。T分数。.Analyze-Descriptive Statistics -Descriptives11 探索分析：探索内容：首先检查数据是否有错误，然后获得数据分布特征；最后对数据规律进行初步观察。探索分析方法：获得统计量和图形。正态分布检验：Q-Q图。斜线为正态分布的标准线。方差的齐次性检验：Levene检验，若Sig0.05，则拒绝方差相同假设。 Analyze-De

44、scriptive Statistics -Explore12. 交叉联列表分析：检验的零假设：H0：行列间彼此独立，不存在显著的相关关系。若SigWeight Cases, 选择权重变量，在Analyze-Descriptive StatisticsCrosstabs，选择Statistics。13 多选项分析Analyze-Multiple Response, Define Sets, 选中多选项变量，Variables are Coded As 选中编码方式。专题6 聚类分析与判别分析人们认识某类事物时，往往先对这类事物的各个对象进行分类，以便寻找其中同于不同的特征。统计学研究该类问题的分类方法有聚类方法和判别分析。聚类分析的实质是建立一种分类方法，它能将一批样本数据按照它们在性质上的亲密程度，在没有先验知识情况下自动分类。聚类分析是一种探索性的分析，在分类过程中，不必事先给出一个分类的标准，聚类分析方法不同，聚类数目也不同

展开阅读全文