数学建模培训讲座之SPSS.ppt-得力文库

资源描述

《数学建模培训讲座之SPSS.ppt》由会员分享，可在线阅读，更多相关《数学建模培训讲座之SPSS.ppt（168页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、均值（均值（MeanMean）和均值标准误差（）和均值标准误差（S.E.meanS.E.mean）3.1中位数（中位数（MedianMedian）3.2众数（众数（ModeMode）3.3全距（全距（RangeRange）3.4方差（方差（VarianceVariance）和标准差）和标准差（Standard DeviationStandard Deviation）3.5 四分位数（四分位数（QuartilesQuartiles）、十分位数）、十分位数（DecilesDeciles）和百分位数（）和百分位数（PercentilesPercentiles）3.6频数（频数（FrequencyFr

2、equency）3.7第第3章章统计描述统计描述峰度（峰度（KurtosisKurtosis）3.8偏度（偏度（SkewnessSkewness）3.9标准化标准化Z Z分数及其线性转换分数及其线性转换 3.10探探索索分分析析3.11交叉列联表分析交叉列联表分析3.12 多选项分析多选项分析3.13基本统计分析的报表制作基本统计分析的报表制作3.14 SPSS SPSS基本统计分析是进行其他统计分析的基本统计分析是进行其他统计分析的基础和前提。通过基本统计方法的学习，可以基础和前提。通过基本统计方法的学习，可以对要分析数据的总体特征有比较准确的把握，对要分析数据的总体特征有比较准确的把

3、握，从而有助于选择其他更为深入的统计分析方法。从而有助于选择其他更为深入的统计分析方法。本章主要介绍如何在本章主要介绍如何在SPSSSPSS中进行平均数、中进行平均数、中位数、众数、方差、百分位、频数、峰度、中位数、众数、方差、百分位、频数、峰度、偏度、探索分析、交叉联列表分析、多选项分偏度、探索分析、交叉联列表分析、多选项分析、基本统计报表制作等的操作。析、基本统计报表制作等的操作。3.1 3.1 ）3.1.1 统计学上的定义和计算公式统计学上的定义和计算公式定义：均值（平均值、平均数）表示的是某变定义：均值（平均值、平均数）表示的是某变量所有取值的集中趋势或平均水平。例如，学生某量所有取

4、值的集中趋势或平均水平。例如，学生某门学科的平均成绩、公司员工的平均收入、某班级门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。学生的平均身高等。计算公式如下。计算公式如下。总体平均数：若一组数据总体平均数：若一组数据X X1 1，X X2 2，X XN N，代表，代表一个大小为一个大小为N N的有限总体，则其总体平均数为的有限总体，则其总体平均数为样本平均数：若一组数据样本平均数：若一组数据x x1 1，x x2 2，x xn n，代表一个大小为，代表一个大小为n n的有限样本，则其样本平的有限样本，则其样本平均数为均数为样本数据来自总体。样本的统计描述量可样本数据来自总体

5、。样本的统计描述量可以反映总体数据的特征，但由于抽样等原因，以反映总体数据的特征，但由于抽样等原因，使得样本数据不一定能够完全准确地反映总体，使得样本数据不一定能够完全准确地反映总体，它可能与总体的真实值之间存在一定的差异。它可能与总体的真实值之间存在一定的差异。进行不同次抽样，会得到若干个不同的样本均进行不同次抽样，会得到若干个不同的样本均值，它们与总体均值存在着不同的差异。值，它们与总体均值存在着不同的差异。均值标准误差（均值标准误差（Standard Error of MeanStandard Error of Mean，S.E.meanS.E.mean）就是描述这些样本均值与总体）就是

6、描述这些样本均值与总体均值之间平均差异程度的统计量。均值之间平均差异程度的统计量。3.1.2 SPSS中实现过程中实现过程研究问题研究问题求某班级学生在一次数学测验中的平均成求某班级学生在一次数学测验中的平均成绩，数据如表绩，数据如表3-13-1所示。所示。数数学学成成绩绩99 88 79 59 54 89 79 56 89 99 23 89 70 50 67 78 89 56表表表表3-13-1某班某班某班某班级级级级的数学成的数学成的数学成的数学成绩绩绩绩实现步骤实现步骤图图图图3-13-1在菜在菜在菜在菜单单单单中中中中选择选择选择选择“Frequencies”“Freque

7、ncies”命令命令命令命令图图图图3-2“Frequencies”3-2“Frequencies”对话对话对话对话框（一）框（一）框（一）框（一）图图图图3-3“Frequencies3-3“Frequencies：Statistics”Statistics”对话对话对话对话框（一）框（一）框（一）框（一）3.1.3 结果和讨论结果和讨论3.2 3.2 中位数（中位数（MedianMedian）3.2.1 统计学上的定义和计算公式统计学上的定义和计算公式定义：把一组数据按递增或递减的顺序排定义：把一组数据按递增或递减的顺序排列，处于中间位置上的变量值就是中位数。它列，处于中间位置上的变量

8、值就是中位数。它是一种位置代表值，所以不会受到极端数值的是一种位置代表值，所以不会受到极端数值的影响，具有较高的稳健性。影响，具有较高的稳健性。计算公式：一个大小为的数列，要求其中计算公式：一个大小为的数列，要求其中位数，首先应把该数列按大小顺序排列好，如位数，首先应把该数列按大小顺序排列好，如果为奇数，那么该数列的中位数就是位置果为奇数，那么该数列的中位数就是位置上的数；如果上的数；如果N N为偶数，中位数则是该数列中为偶数，中位数则是该数列中第第与第与第 +1 +1位置上两个数值的平均数。位置上两个数值的平均数。3.2.2 SPSS中实现过程中实现过程研究问题研究问题求某班级学生身

9、高的中位数，数据如表求某班级学生身高的中位数，数据如表3-3-2 2所示。所示。表表表表3-23-2某班某班某班某班级级级级学生的身高学生的身高学生的身高学生的身高身高（身高（cm）174 168 164 174 176 150 183 162 171 146 189 167 实现步骤实现步骤图图图图3-4“Frequencies3-4“Frequencies：Statistics”Statistics”对话对话对话对话框（二）框（二）框（二）框（二）3.2.3 结果和讨论结果和讨论3.3 3.3 众数（众数（ModeMode）3.3.1 统计学上的定义和计算公式统计学上的定义和计算公式定义

10、：众数是指一组数据中，出现次数最定义：众数是指一组数据中，出现次数最多的那个变量值。众数在描述数据集中趋势方多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如，制鞋厂可以根据消费面有一定的意义。例如，制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。者所需鞋的尺码的众数来安排生产。计算公式：手工计算众数比较麻烦，需要计算公式：手工计算众数比较麻烦，需要统计数据的次数分布。统计数据的次数分布。3.3.2 SPSS中实现过程中实现过程研究问题研究问题求某医院当天出生新生儿的体重的众数，求某医院当天出生新生儿的体重的众数，数据如表数据如表3-33-3所示。所示。表表表表3-33-3新生

11、儿的体重新生儿的体重新生儿的体重新生儿的体重体重（斤）体重（斤）8 7 6 7 5 4 5 6 8 7 5 6 4 7 6 5.5 7 4 实现步骤实现步骤图图图图3-5“Frequencies:Statistics”3-5“Frequencies:Statistics”对话对话对话对话框（三）框（三）框（三）框（三）3.3.3 结果和讨论结果和讨论3.4.1 统计学上的定义和计算公式统计学上的定义和计算公式3.4 3.4 全距（全距（RangeRange）定义：全距也称为极差，是数据的最大值定义：全距也称为极差，是数据的最大值与最小值之间的绝对差。在相同样本容量情况与最小值之间的绝对差。在相

12、同样本容量情况下的两组数据，全距大的一组数据要比全距小下的两组数据，全距大的一组数据要比全距小的一组数据更为分散。的一组数据更为分散。计算公式：最大值最小值。计算公式：最大值最小值。3.4.2 SPSS中实现过程中实现过程研究问题研究问题求某班级学生数学成绩的全距，数据如表求某班级学生数学成绩的全距，数据如表3-43-4所示。所示。表表表表3-43-4某班某班某班某班级级级级的数学成的数学成的数学成的数学成绩绩绩绩数数学学成成绩绩99 88 79 59 54 89 79 56 89 99 23 89 70 50 67 78 89 56 实现步骤实现步骤图图图图3-6“Frequenc

13、ies:Statistics”3-6“Frequencies:Statistics”对话对话对话对话框（四）框（四）框（四）框（四）3.4.3 结果和讨论结果和讨论3.5.1 统计学上的定义和计算公式统计学上的定义和计算公式3.5 3.5 3.5 3.5 方差（方差（方差（方差（VarianceVarianceVarianceVariance）和标准差（）和标准差（）和标准差（）和标准差（Standard DeviationStandard DeviationStandard DeviationStandard Deviation）定义：方差是所有变量值与平均数偏差平定义：方差是所有变量值与平

14、均数偏差平方的平均值，它表示了一组数据分布的离散程方的平均值，它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根，它表示度的平均值。标准差是方差的平方根，它表示了一组数据关于平均数的平均离散程度。方差了一组数据关于平均数的平均离散程度。方差和标准差越大，说明变量值之间的差异越大，和标准差越大，说明变量值之间的差异越大，距离平均数这个距离平均数这个“中心中心”的离散趋势越大。的离散趋势越大。3.5.2 SPSS中实现过程中实现过程研究问题研究问题求某班级学生数学成绩的方差和标准差，求某班级学生数学成绩的方差和标准差，数据如表数据如表3-13-1所示。所示。实现实现实现实现步步步步骤

15、骤骤骤图图图图3-73-7在菜在菜在菜在菜单单单单中中中中选择选择选择选择“Descriptives”“Descriptives”命令命令命令命令图图图图3-8“Descriptives”3-8“Descriptives”对话对话对话对话框（一）框（一）框（一）框（一）图图图图3-9“Descriptives3-9“Descriptives：Options”Options”对话对话对话对话框（一）框（一）框（一）框（一）3.5.3 结果和讨论结果和讨论3.6 3.6 3.6 3.6 四分位数（四分位数（四分位数（四分位数（QuartilesQuartilesQuartilesQuartile

16、s）、十分位数（）、十分位数（）、十分位数（）、十分位数（DecilesDecilesDecilesDeciles）和百分位）和百分位）和百分位）和百分位数（数（数（数（PercentilesPercentilesPercentilesPercentiles）3.6.1 统计学上的定义统计学上的定义定义：四分位数是将一组个案由小到大定义：四分位数是将一组个案由小到大（或由大到小）排序后，用（或由大到小）排序后，用3 3个点将全部数据个点将全部数据分为四等份，与分为四等份，与3 3个点上相对应的变量称为四个点上相对应的变量称为四分位数，分别记为分位数，分别记为Q1Q1（第一四分位数）、（第一四

17、分位数）、Q2Q2（第二四分位数）、（第二四分位数）、Q3Q3（第三四分位数）。其（第三四分位数）。其中，中，Q3Q3到到Q1Q1之间的距离的一半又称为四分位差，之间的距离的一半又称为四分位差，记为记为Q Q。四分位差越小，说明中间的数据越集。四分位差越小，说明中间的数据越集中；四分位数越大，则意味着中间部分的数据中；四分位数越大，则意味着中间部分的数据越分散。越分散。十分位数是将一组数据由小到大（或由大到小）十分位数是将一组数据由小到大（或由大到小）排序后，用排序后，用9 9个点将全部数据分为十等份，与个点将全部数据分为十等份，与9 9个点个点位置上相对应的变量称为十分位数，分别记为位置上相

18、对应的变量称为十分位数，分别记为D D1 1，D D2 2，D D9 9，表示，表示10%10%的数据落在的数据落在D D1 1下，下，20%20%的数据落在的数据落在D D2 2下，下，90%90%落在落在D D9 9下。下。百分位数是将一组数据由小到大（或由大到小）百分位数是将一组数据由小到大（或由大到小）排序后分割为排序后分割为100100等份，与等份，与9999个分割点位置上相对应个分割点位置上相对应的变量称为百分位数，分别记为的变量称为百分位数，分别记为P P1 1，P P2 2，P P9999，表，表示示1%1%的数据落在的数据落在P P1 1下，下，2%2%的数据落在的数据落在P

19、 P2 2下，下，99%99%落在落在P P9999下。下。3.6.2 SPSS中实现过程中实现过程研究问题研究问题1 1 求某班级学生数学成绩的四分位数，数据求某班级学生数学成绩的四分位数，数据如表如表3-13-1所示。所示。实现步骤实现步骤图图图图3-10“Frequencies:Statistics”3-10“Frequencies:Statistics”对话对话对话对话框（五）框（五）框（五）框（五）研究问题研究问题2 2 测量测量5454个某种机械零件的重量（克），求个某种机械零件的重量（克），求零件重量的零件重量的D6D6，数据如表，数据如表3-53-5所示。所示。表表表表3-5

20、3-5零件的重量零件的重量零件的重量零件的重量零件重量（克）零件重量（克）46 51 59 54 46 53 37 52 50 51 49 44 49 44 43 46 56 4752 52 50 47 55 49 47 52 52 42 45 40 60 63 54 40 55 5056 46 49 53 46 55 44 45 57 52 50 49 55 48 58 42 52 59 实现步骤实现步骤图图图图3-11“Frequencies:Statistics”3-11“Frequencies:Statistics”对话对话对话对话框（六）框（六）框（六）框（六）图图图图3-12“Fr

21、equencies:Statistics”3-12“Frequencies:Statistics”对话对话对话对话框（七）框（七）框（七）框（七）研究问题研究问题3 3 测量出测量出5454个某种机械零件的重量（克），个某种机械零件的重量（克），求零件重量的求零件重量的P37P37，数据如表，数据如表3-53-5所示。所示。实现步骤实现步骤图图图图3-12“Frequencies:Statistics”3-12“Frequencies:Statistics”对话对话对话对话框（七）框（七）框（七）框（七）3.6.3 结果和讨论结果和讨论研究问题研究问题1 1的程序运行结果如下表所示。的程序运行

22、结果如下表所示。研究问题研究问题2 2的程序运行结果如下表所示。的程序运行结果如下表所示。研究问题研究问题3 3的程序运行结果如下表所示。的程序运行结果如下表所示。3.7 3.7 频数（频数（FrequencyFrequency）3.7.1 统计学上的定义和计算公式统计学上的定义和计算公式定义：频数就是一个变量在各个变量值上取值定义：频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况，需的个案数。如要了解学生某次考试的成绩情况，需要计算出学生所有分数取值，以及每个分数取值有要计算出学生所有分数取值，以及每个分数取值有多少个人，这就需要用到频数分析。多少个人，这就需要用

23、到频数分析。变量的频数分析正是实现上述分析的最好手段，它变量的频数分析正是实现上述分析的最好手段，它可以使人们非常清楚地了解变量取值的分布情况。可以使人们非常清楚地了解变量取值的分布情况。3.7.2 SPSS中实现过程中实现过程研究问题研究问题 10 10个学生在某次数学、语文、化学考试中个学生在某次数学、语文、化学考试中成绩如表成绩如表3-63-6所示，试求学生在所示，试求学生在3 3门课程上的频门课程上的频数分布。数分布。表表表表3-63-6学生成学生成学生成学生成绩绩绩绩姓姓名名数数学学语语文文化化学学hxh99.0098.00100.00yaju88.0089.0045.00

24、yu99.0080.0056.00shizg89.0078.0067.00hah94.0078.0078.00lisa90.0089.0087.00watet79.0087.0089.00jess75.0076.0097.00wish89.0056.0076.00iiakii80.0076.00100.00 实现步骤实现步骤图图图图3-13“Frequencies”3-13“Frequencies”对话对话对话对话框（二）框（二）框（二）框（二）3.7.3 结果和讨论结果和讨论程序运行结果如下表所示。程序运行结果如下表所示。3.8 3.8 峰度（峰度（KurtosisKurtosis）3.8.

25、1 统计学上的定义和计算公式统计学上的定义和计算公式定义：峰度是描述某变量所有取值分布形定义：峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分态陡缓程度的统计量。这个统计量是与正态分布相比较的量，峰度为布相比较的量，峰度为0 0表示其数据分布与正表示其数据分布与正态分布的陡缓程度相同；峰度大于态分布的陡缓程度相同；峰度大于0 0表示比正表示比正态分布高峰要更加陡峭，为尖顶峰；峰度小于态分布高峰要更加陡峭，为尖顶峰；峰度小于0 0表示比正态分布的高峰要平坦，为平顶峰。表示比正态分布的高峰要平坦，为平顶峰。具体的计算公式为具体的计算公式为3.8.2 SPSS中实现过程中实现

26、过程研究问题研究问题某班级某班级4040个学生的年龄分布如表个学生的年龄分布如表3-73-7所示，所示，试求学生年龄峰度。试求学生年龄峰度。表表表表3-73-7学生年学生年学生年学生年龄龄龄龄年年龄龄人人数数1811972022218222 实现步骤实现步骤图图图图3-143-14在在在在DataData菜菜菜菜单单单单中中中中选择选择选择选择“WeightCases”“WeightCases”命令命令命令命令3.8.3 结果和讨论结果和讨论3.9 3.9 偏度（偏度（SkewnessSkewness）3.9.1 统计学上的定义和计算公式统计学上的定义和计算公式定义：偏度也是描述数据

27、分布形态的，它定义：偏度也是描述数据分布形态的，它是描述某变量取值分布对称性的统计量。具体是描述某变量取值分布对称性的统计量。具体的计算公式为的计算公式为这个统计量是与正态分布相比较的量，偏这个统计量是与正态分布相比较的量，偏度为度为0 0表示其数据分布形态与正态分布偏度表示其数据分布形态与正态分布偏度x x相相同；偏度大于同；偏度大于0 0表示正偏差数值较大，为正偏表示正偏差数值较大，为正偏或右偏，即有一条长尾巴拖在右边；偏度小于或右偏，即有一条长尾巴拖在右边；偏度小于0 0表示负偏差数值大，为负偏或左偏，有一条表示负偏差数值大，为负偏或左偏，有一条长尾拖在左边。而偏度的绝对值数值越大表示

28、长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。分布形态的偏斜程度越大。3.9.2 SPSS中实现过程中实现过程研究问题研究问题某班级某班级4141个学生的身高分布如表个学生的身高分布如表3-83-8所示，试所示，试求学生身高分布偏度。求学生身高分布偏度。表表表表3-83-8学学学学生生生生身身身身高高高高身高（身高（cm）人人数数1651168717022173817521801 实现步骤实现步骤图图图图3-17“Frequencies:Statistics”3-17“Frequencies:Statistics”对话对话对话对话框（九）框（九）框（九）框（九）3.

29、9.3 结果和讨论结果和讨论3.10 3.10 标准化标准化Z Z分数及其线性转换分数及其线性转换3.10.1 统计学上的定义和计算公式统计学上的定义和计算公式3.10.2 SPSS中实现过程中实现过程研究问题研究问题1 1 求某班级学生数学成绩的求某班级学生数学成绩的Z Z分数，数据如分数，数据如表表3-13-1所示。所示。实现步骤实现步骤图图图图3-18“Descriptives”3-18“Descriptives”对话对话对话对话框（二）框（二）框（二）框（二）图图图图3-19“Descriptives3-19“Descriptives：Options”Options”对话对话对话对话

30、框（二）框（二）框（二）框（二）图图图图3-203-20数据数据数据数据编辑编辑编辑编辑窗口窗口窗口窗口研究问题研究问题2 2 从图从图3-203-20中可以看到学生数学成绩的中可以看到学生数学成绩的Z Z分分数有正有负，而且小数点位数较多，因此可以数有正有负，而且小数点位数较多，因此可以把它线性转换为把它线性转换为T T分数。分数。实现步骤实现步骤图图图图3-213-21在菜在菜在菜在菜单单单单中中中中选择选择选择选择“ComputeVariable”“ComputeVariable”命令命令命令命令图图图图3-22“ComputeVariable”3-22“ComputeVariabl

31、e”对话对话对话对话框框框框图图图图3-23“ComputeVariable3-23“ComputeVariable：Type”Type”对话对话对话对话框框框框图图图图3-243-24数据数据数据数据编辑编辑编辑编辑窗口窗口窗口窗口3.10.3 结果和讨论结果和讨论从从Z Z分数（图分数（图3-203-20）和）和T T分数（图分数（图3-243-24）的）的结果中可以看出此班级学生数学成绩的结果中可以看出此班级学生数学成绩的T T分数分数比之前的比之前的Z Z分数简洁多了，比较起来一目了然。分数简洁多了，比较起来一目了然。3.11 3.11 探探索索分分析析3.11.1 统计学上

32、的定义和计算公式统计学上的定义和计算公式定义：调用此过程可对变量进行更为深入定义：调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索分析。详尽的描述性统计分析，故称之为探索分析。它在一般描述性统计指标的基础上，增加有关它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，显得更加细数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步致与全面，有助于用户思考对数据进行进一步分析的方案。分析的方案。1探索分析的内容包括下面几个方面探索分析的内容包括下面几个方面检查数据是否有错误：过大或过小的数据均检查数据是否有错误：过大或过小的数据均有

33、可能是奇异值、影响点或错误数据。要找出这样有可能是奇异值、影响点或错误数据。要找出这样的数据，并分析原因，然后决定是否从分析中删除的数据，并分析原因，然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响这些数据。因为奇异值和影响点往往对分析的影响较大，不能真实反映数据的总体特征。较大，不能真实反映数据的总体特征。对数据规律的初步观察：通过初步观察获得对数据规律的初步观察：通过初步观察获得数据的一些内部规律，例如，两个变量间是否线性数据的一些内部规律，例如，两个变量间是否线性相关。相关。2探索分析的考察方法探索分析的考察方法探索分析一般通过数据文件在分组与不分探索分析一般通过数

34、据文件在分组与不分组的情况下，获得常用统计量和图形。一般以组的情况下，获得常用统计量和图形。一般以图形方式输出，直观帮助用户确定奇异值、影图形方式输出，直观帮助用户确定奇异值、影响点、进行假设检验，以及确定用户要使用的响点、进行假设检验，以及确定用户要使用的某种统计方式是否合适。某种统计方式是否合适。3正态分布检验正态分布检验常用的正态分布检验是常用的正态分布检验是Q-QQ-Q图。本例中进图。本例中进行了正态分布检验。行了正态分布检验。4方差齐次性检验方差齐次性检验对数据分析不仅需要进行正态分布检验，有时对数据分析不仅需要进行正态分布检验，有时候还需要比较各个分组的方差是否相同，这就要进候

35、还需要比较各个分组的方差是否相同，这就要进行方差齐次性检验。例如，在进行独立右边的行方差齐次性检验。例如，在进行独立右边的T T检验检验之前，就需要事先确定两个数据的方差是否相同。之前，就需要事先确定两个数据的方差是否相同。如果通过分析发现各个方差不同，还需要对数如果通过分析发现各个方差不同，还需要对数据进行方差分析，那么就需要对数据进行转换使得据进行方差分析，那么就需要对数据进行转换使得方差尽可能相同。在探索分析中可以使用方差尽可能相同。在探索分析中可以使用LeveneLevene检检验。验。Levene Levene检验对数据进行方差齐次性检验时，检验对数据进行方差齐次性检验时，不强求数据

36、必须服从正态分布，它先计算出各不强求数据必须服从正态分布，它先计算出各个观测值减去组内均值的差，然后再通过这些个观测值减去组内均值的差，然后再通过这些差值的绝对值进行单因素方差分析。如果得到差值的绝对值进行单因素方差分析。如果得到显著性水平小于显著性水平小于0.050.05，那么就可以拒绝方差相，那么就可以拒绝方差相同的假设。同的假设。3.11.2 SPSS中实现过程中实现过程研究问题研究问题 20 20名名1010岁少儿的身高（岁少儿的身高（cmcm）资料，数据如）资料，数据如表表3-93-9所示，试作探索性分析。所示，试作探索性分析。表表表表3-93-9身高数据身高数据身高数据身高数据I

37、d男孩身高（男孩身高（cm）女孩身高（女孩身高（cm）1123.00126.002125.00121.003127.00120.004130.00125.005134.10139.706135.80133.007140.40140.308136.00124.009128.20125.4010137.40137.5011135.50120.9012129.00138.8013132.20138.6014140.90141.4015129.30137.5016130.00137.0017121.40133.4018131.50132.7019132.60130.1020129.20136.70 实

38、现步骤实现步骤图图图图3-253-25在菜在菜在菜在菜单单单单中中中中选择选择选择选择“Explore”“Explore”命令命令命令命令图图图图3-26“Explore”3-26“Explore”对话对话对话对话框框框框图图图图3-27“Explore:Statistics”3-27“Explore:Statistics”对话对话对话对话框框框框图图图图3-28“Explore3-28“Explore：Plots”Plots”对话对话对话对话框框框框图图图图3-29“Explore3-29“Explore：Options”Options”对话对话对话对话框框框框 3.11.3 结果和讨论

39、结果和讨论在结果输出窗口中将看到如下统计数据。在结果输出窗口中将看到如下统计数据。（1 1）首先输出如下个案观察量摘要表，如下）首先输出如下个案观察量摘要表，如下表所示。表所示。（2 2）然后输出如下表格。）然后输出如下表格。（3 3）接着输出如下）接着输出如下4 4个不同权重下作中心个不同权重下作中心趋势的粗略最大似然确定数，趋势的粗略最大似然确定数，（4 4）再接着输出百分位数，也是分组后）再接着输出百分位数，也是分组后的百分位数，如下表所示。的百分位数，如下表所示。（5 5）分别输出两个组中的最大）分别输出两个组中的最大5 5个数和最个数和最小小5 5个数，并且包括这些值对应的个数，并

40、且包括这些值对应的IDID，如下表，如下表所示。所示。（6 6）输出方差齐次性检验结果。）输出方差齐次性检验结果。（7 7）系统还进行数据的茎叶情形描述。）系统还进行数据的茎叶情形描述。图图图图3-303-30男孩身高的茎叶男孩身高的茎叶男孩身高的茎叶男孩身高的茎叶图图图图图图图图3-313-31女孩身高的茎叶女孩身高的茎叶女孩身高的茎叶女孩身高的茎叶图图图图（8 8）系统输出箱图，如图）系统输出箱图，如图3-323-32所示。所示。图图图图3-323-32箱箱箱箱图图图图（9 9）输出）输出Spread vs.LevelSpread vs.Level图，如图图，如图3-333-33所示。

41、所示。图图图图3-33Spreadvs.Level3-33Spreadvs.Level图图图图（1010）输出身高正态概率图（）输出身高正态概率图（Normal Q-Q Normal Q-Q Plot ofPlot of身高），如图身高），如图3-343-34所示。所示。图图图图3-343-34男孩身高男孩身高男孩身高男孩身高变变变变量的正量的正量的正量的正态态态态概率概率概率概率图图图图图图图图3-353-35女孩身高女孩身高女孩身高女孩身高变变变变量的正量的正量的正量的正态态态态概率概率概率概率图图图图（1111）输出离散正态概率图（）输出离散正态概率图（Detrended Detre

42、nded Normal Q-Q Plot ofNormal Q-Q Plot of身高），男孩身高如图身高），男孩身高如图3-3-3636所示，女孩身高如图所示，女孩身高如图3-373-37所示。横坐标是身所示。横坐标是身高，纵坐标是和正态分布的偏离。高，纵坐标是和正态分布的偏离。图图图图3-363-36男孩身高离散正男孩身高离散正男孩身高离散正男孩身高离散正态态态态概率概率概率概率图图图图图图图图3-373-37女孩身高离散正女孩身高离散正女孩身高离散正女孩身高离散正态态态态概率概率概率概率图图图图3.12 3.12 交叉列联表分析交叉列联表分析3.12.1 统计学上的定义和计算公式统计学上

43、的定义和计算公式定义：前面的分析都是对单个变量的数据定义：前面的分析都是对单个变量的数据分布情况进行分析。但在实际分析中，还需要分布情况进行分析。但在实际分析中，还需要掌握多个变量在不同取值情况下的数据分布情掌握多个变量在不同取值情况下的数据分布情况，从而进一步深入分析变量之间的相互影响况，从而进一步深入分析变量之间的相互影响和关系，这种分析就称为交叉列联表分析。和关系，这种分析就称为交叉列联表分析。交叉列联表分析除了列出交叉分组下的频交叉列联表分析除了列出交叉分组下的频数分布外，还需要分析两个变量之间是否具有数分布外，还需要分析两个变量之间是否具有独立性或一定的相关性。要获得变量之间的相独

44、立性或一定的相关性。要获得变量之间的相关性，仅仅靠频数分布的数据是不够的，还需关性，仅仅靠频数分布的数据是不够的，还需要借助一些变量间相关程度的统计量和一些非要借助一些变量间相关程度的统计量和一些非参数检验的方法。参数检验的方法。常用的衡量变量间相关程度的统计量是简单相常用的衡量变量间相关程度的统计量是简单相关系数（参见本书有关章节），但在交叉列联关系数（参见本书有关章节），但在交叉列联表分析中，由于行列变量往往不是连续变量，表分析中，由于行列变量往往不是连续变量，不符合计算简单相关系数的前提条件。因此需不符合计算简单相关系数的前提条件。因此需要根据变量的性质，选择其他的相关系数，如要根据变量

45、的性质，选择其他的相关系数，如KendallKendall等级相关系数、等级相关系数、EtaEta值等。值等。SPSSSPSS提供了多种适用于不同相关系数的相关关提供了多种适用于不同相关系数的相关关系，这些检验的零假设是：行和列变量之间彼系，这些检验的零假设是：行和列变量之间彼此独立，不存在显著的相关关系。此独立，不存在显著的相关关系。SPSSSPSS将自动将自动给出检验的相伴概率，如果相伴概率小于显著给出检验的相伴概率，如果相伴概率小于显著性水平性水平0.050.05，那么应拒绝零假设，认为行列变，那么应拒绝零假设，认为行列变量之间彼此相关。量之间彼此相关。计算公式如下。计算公式如下。（1

46、1）卡方统计量检验是常用的检验行列变量）卡方统计量检验是常用的检验行列变量之间是否相关的方法。交叉列联表的卡方检验之间是否相关的方法。交叉列联表的卡方检验零假设是：行列变量之间独立，计算公式为零假设是：行列变量之间独立，计算公式为卡方统计量服从（行数卡方统计量服从（行数 1 1）（列数（列数 1 1）个自）个自由度的卡方统计，由度的卡方统计，SPSSSPSS在自动计算卡方统计量在自动计算卡方统计量后，还会给出相应的相关概率。后，还会给出相应的相关概率。（2 2）Contingency coefficientContingency coefficient：列联系数。：列联系数。用于名义变量之间的

47、相关系数计算。计算公式用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，公式为由卡方统计量修改而得，公式为其中，其中，N N为样本系数为样本系数（3 3）Phi and Cramers VPhi and Cramers V：系数。用系数。用于名义变量之间的相关系数计算。计算公式由于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，公式为卡方统计量修改而得，公式为数值界于数值界于0 01 1之间，其中之间，其中K K为行数和列数为行数和列数较小的实际数。较小的实际数。3.12.2 SPSS中实现过程中实现过程研究问题研究问题用两个班级学生进行两个感冒疫苗的试验，用两

48、个班级学生进行两个感冒疫苗的试验，两个班级学生患感冒结果如表两个班级学生患感冒结果如表3-103-10所示，问两所示，问两个班级学生的患病比例有无差别。个班级学生的患病比例有无差别。表表表表3-103-10两班两班两班两班级级级级学生的患病情况学生的患病情况学生的患病情况学生的患病情况班班级级患患病病不不患患病病153202404 实现步骤实现步骤图图图图3-38“WeightCases”3-38“WeightCases”对话对话对话对话框框框框图图图图3-393-39在菜在菜在菜在菜单单单单中中中中选择选择选择选择“Crosstabs”“Crosstabs”命令命令命令命令图图图图

49、3-40“Crosstabs”3-40“Crosstabs”对话对话对话对话框框框框图图图图3-41“Crosstabs3-41“Crosstabs：Statistics”Statistics”对话对话对话对话框框框框图图图图3-42“Crosstabs3-42“Crosstabs：CellDisplay”CellDisplay”对话对话对话对话框框框框图图图图3-43“Crosstabs3-43“Crosstabs：TableFormat”TableFormat”对话对话对话对话框框框框3.12.3 结果和讨论结果和讨论（1 1）先输出如下个案处理摘要表。）先输出如下个案处理摘要表。（2

50、2）下面所示表格是）下面所示表格是“班级班级”变量和变量和“患患病病”变量的交叉列联表结果表格。变量的交叉列联表结果表格。（3 3）交叉分组下频数分布图形，如图）交叉分组下频数分布图形，如图3-443-44所所示。示。（4 4）输出卡方统计结果表。）输出卡方统计结果表。（5 5）输出相对危险度表格如下所示。）输出相对危险度表格如下所示。3.13 3.13 多选项分析多选项分析3.13.1 统计学上的定义和计算公式统计学上的定义和计算公式定义：多选项分析是对多选项问题的分析定义：多选项分析是对多选项问题的分析方法。所谓多选项问题，就是一个问题的答案方法。所谓多选项问题，就是一个问题的答案都是顺

展开阅读全文