实验四描述性统计分析.doc-得力文库

资源描述

《实验四描述性统计分析.doc》由会员分享，可在线阅读，更多相关《实验四描述性统计分析.doc（15页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、实验四描述性统计分析峰度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差四分位差异众比率偏态一、集中趋势的测度定类数据：众数定序数据：中位数和分位数定距和定比数据：均值众数、中位数和均值的比较1. 一组数据向其中心值靠拢的倾向和程度2. 测度集中趋势就是寻找数据一般水平的代表值或中心值3. 不同类型的数据用不同的集中趋势测度值4. 低层次数据的集中趋势测度值适用于高层次的测量数据，反过来，高层次数据的集中趋势测度值并不适用于低层次的测量数据5. 选用哪一个测度值来反映数据的集中趋势，要根据所掌握的数据的类型来确定I. 众数（Mode）1、集中趋势的测度

2、值之一2、出现次数最多的变量值3、不受极端值的影响4、可能没有众数或有几个众数5、主要用于定类数据，也可用于定序数据和数值型数据II. 中位数(Median)6、集中趋势的测度值之一7、排序后处于中间位置上的值Me50%50%8、不受极端值的影响9、主要用于定序数据，也可用数值型数据，但不能用于定类数据10、各变量值与中位数的离差绝对值之和最小，即 III. 四分位数(Quartiles)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值QLQMQU25%25%25%25%3. 不受极端值的影响4. 主要用于定序数据，也可用于数值型数据，但不能用于定类数据IV.

3、均值（Mean）1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5. 用于数值型数据，不能用于定类数据和定序数据众数、中位数和均值的关系左偏分布均值中位数众数对称分布均值= 中位数= 众数右偏分布众数中位数均值二、离散程度的测度定类数据：异众比率定序数据：四分位差定距和定比数据：方差及标准差I. 异众比率1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.仅用于定类数据4. 用于衡量众数的代表性II. 四分位差1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD = QU - QL4. 反映了中间50%数

4、据的离散程度5. 不受极端值的影响6. 用于衡量中位数的代表性III. 方差和标准差（Variance and Std。deviation）1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差IV. 偏态（kurtosis）1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数 0为右偏分布4.偏态系数 0为左偏分布V. 峰度(skewness)1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数3为尖峰分布三、描述统计量的软件实现1、Ex

5、cel选择工具=数据分析=描述统计即可输出大部分描述统计量。但EXCEL只能按行或列进行分组统计，因此在编辑数据时要注意。2、SPSSSPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在AnalyzeDescriptive Statistics菜单中，最常用的是列在最前面的四个过程：l Frequencies过程的特色是产生频数表；l Descriptives过程则进行一般性的统计描述；l Explore过程用于对数据概况不清时的探索性分析；l Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验；l 我们常用的X2 检验也在其中完成。2.1 Fre

6、quencies过程此过程可以方便地对数据按组进行归类整理，形成各变量的不同水平的频数分布表和图形，以便对各变量的数据特征和观测量分布状况有一个概括的认识。频数分布表是描述性统计中最常用的方法之一。它还可对数据的分布趋势进行初步分析。【Statistics 按钮】l Percentile Values复选框组定义需要输出的百分位数，可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles)，如直接指定输出P2.5和P97.5；l Central tendency 复选框组

7、用于定义描述集中趋势的一组指标：均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum) ；l Dispersion复选框组用于定义描述离散趋势的一组指标：标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、均值标准误差(S.E.mean) ；l Distribution复选框组用于定义描述分布特征的两个指标：偏度系数（Skewness）和峰度系数(Kurtosis) ；l Values are group midpoints复选框当你输出的数据是分组频数数据，并且具体数值是组中值时，

8、选中该复选框以通知SPSS，免得它犯错误。【Chart 按钮】l Chart type单选钮组定义统计图类型，有四种选择：无、条图（Bar chart）、饼图(Pie chart)、直方图Histogram），其中直方图还可以选择是否加上正态曲线（With normal curve）；l Chart Values单选钮组定义是按照频数还是按百分比做图（即影响纵坐标刻度）。例4.1 利用房价原始数据图.Sav绘制频数表、直方图，计算均数、标准差、中位数M、p2.5和p97.5。 1. Analyze=Descriptive Statistics=Frequencies 2. Variabl

9、es框：选入Price 3. 单击Statistics钮： 4. 选中Mean、Std.deviation、Median复选框 5. 单击Percentiles：输入2.5：单击Add：输入97.5：单击Add： 6. 单击Continue钮 7. 单击Charts钮： 8. 选中Bar charts 9. 单击Continue钮 10. 单击OK。最上方为表格名称，左上方为分析变量名，可见样本量N为105例，缺失值0例，均数Mean=220.72，中位数Median=213.00，标准差STD=47.108，P2.5=134.10，P97.5=326.35。案例1：利用居民储蓄调查表数据进行

10、频数分析，实现：目标一：分析储户的户口和职业的基本情况；提示：为使频数分布表一目了然，可调整频数分布表中数据的输出顺序，如按频数的降序输出，户口按饼图输出，职业按条形图输出；目标二：分析储户一次存（取）款金额的分布，并对城镇储户和农村储户进行比较。提示：由于存（取）款金额数据为定距型变量，直接采用频数分析不利于对其分布形态的把握，因此考虑先用数据分组功能（TransformRecord）对数据分组后再编制频数分布表；进行数据拆分，并分别计算城镇储户和农村储户的一次存（取）款金额的四分位数，并通过四分位数比较两者分布上的差异。2.2 Descriptives过程可对变量进行描述统计量分析，计算

11、并列出一系列相应的统计指标，包括平均值、算术和、标准差、最大值、最小值等，且可将原始数据转换成标准Z分值（标准正态评分值）并存入数据库。选择菜单Analyze=descriptive= Descriptives 对话框的界面如下所示：【Save standardized values as variables复选框】确定是否将原始数据的标准正态评分存为新变量。案例2：利用居民储蓄调查表数据计算基本描述统计量，实现：目标一：计算存（取）款金额的基本描述统计量，并分别对城镇储户和农村储户进行比较；提示：首先按照户口对数据进行拆分；目标二：分析储户一次存（取）款的数量是否存在不均衡现象。提示：可以

12、从分析金额是否有大量异常值入手；计算存（取）款金额的标准化值，并选中Save Standardized As Variables选项，将自动计算存（取）款金额的标准化值，并存为Za5；对Za5进行排序，并分为三组（Za5=-3低金额组，-3 Za5=3高金额组）后进行频数分析；观察低金额组（即低异常值组）和高金额组（即高异常值组）的比例，如异常组的总比例大于理论值0.3%，即认为存（取）款金额存在一定的不均衡现象。2.3 Explore过程功能： 1.检查数据是否有错误 2.数值的分布特征 3.对数据的规律的初步观察选择菜单Analyze=descriptive= Explore 对话框的界

13、面如下所示：【Display单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【Dependent List框】用于选入需要分析的变量。【Factor List框】如果想让所分析的变量按某种因素取值分组分析，则在这里选入分组变量。【Label cases by框】选择一个变量，他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。【Statistics钮】弹出Statistics对话框，用于选择所需要的描述统计量。有如下选项：l Descriptives复选框：输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰

14、度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。 l M-estimators复选框：作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数。 l Outliers复选框：输出五个最大值与五个最小值。 l Percentiles复选框：输出第5%、10%、25%、50%、75%、90%、95%位数。【Plot钮】弹出Plot对话框，用于选择所需要的统计图。有如下选项：l Boxplots单选框组：确定箱式图的绘制方式，可以是按组别分组绘制(Factor levels together)，也可以不分组一起绘制(Depentends together)，或者不绘制(None

15、)。 l Descriptive复选框组：可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。l Normality plots with test复选框：绘制正态分布图并进行变量是否符合正态分布的检验。l Spread vs. Level with Levene Test单选框组：当选择了分组变量时，绘制spread-versus-level图，设置绘图时变量的转换方式，并进行组间方差齐性检验。【Options钮】用于选择对缺失值的处理方式，可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录，或报告缺失值。Statistic Std. Error

16、priceMean220.724.597 95% Confidence Interval for MeanLower Bound211.61 Upper Bound229.84 5% Trimmed Mean219.55 Median213.00 Variance2219.125 Std. Deviation47.108 Minimum125 Maximum345 Range220 Interquartile Range65 Skewness.473.236 Kurtosis-.274.467以下是房价茎叶图：priceprice Stem-and-Leaf Plot Frequency St

17、em & Leaf 3.00 1 . 223 3.00 1 . 455 16.00 1 . 6667777777777777 20.00 1 . 88888888888999999999 14.00 2 . 00000000001111 14.00 2 . 22222222233333 13.00 2 . 4444444455555 8.00 2 . 66666777 7.00 2 . 8899999 4.00 3 . 0111 2.00 3 . 22 1.00 3 . 4Stem width: 100 Each leaf: 1 case(s)以上是茎叶图，整数位为茎，小数位为叶。这样可以非常

18、直观的看出数据的分布范围及形态，在国外非常流行。以上是箱线图，中间的黑粗线为均数，红框为四分位间距的范围，上下两个细线为最大、最小值。案例3：利用居民储蓄调查表数据分析储户存（取）款金额的分布情况。2.4 Crosstabs过程（列联表分析）Crosstabs过程用于分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。称列联表分析或交叉分组下的频数分析。两大基本任务： 1）根据收集到的样本数据编制二维或多维交叉列联表； 2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。Crosstabs过程不能产生一维频数表（单变量频数表），该功能由Fr

19、equencies过程实现。交叉列联表的卡方检验: 检验行变量和列变量是否独立？u 建立零假设（H0）；列联表分析中卡方检验的零假设为行变量与列变量独立；u 选择和建立检验统计量；列联表分析中卡方检验的检验统计量是Pearson卡方统计量。u 确定显著性水平和临界值；u 结论和决策。方法一：如果卡方的观测值大于卡方临界值，可拒绝零假设；方法二：如果卡方观测值的概率p值小于等于，拒绝零假设。在SPSS中，上述列联表卡方检验的过程，除用户要自行确定显著性水平和进行决策外，其余各步都是SPSS自动完成的； SPSS将自动计算卡方统计量的观测值以及大于等于该值的概率P值；因此，在应用中，用户

20、只要明确零假设，便可方便地按照第二种决策方式进行决策。事实上，所有的假设检验均是这样进行的。例4.2 利用下表格数据，进行列联表分析。处理愈合未愈合合计呋喃硝胺54862甲氰咪胍442064合计9828126解：由于此处给出的直接是频数表，因此在建立数据集时可以直接输入三个变量行变量、列变量和指示每个格子中频数的变量，然后用Weight Cases对话框指定频数变量，最后调用Crosstabs过程进行X2检验。假设三个变量分别名为R、C和W，则数据集结构和命令如下：RCW1.001.0054.001.00 2.0044.002.00 1.008.002.00 2.0020.001.

21、Data=Weight Cases 2. Weight Cases by单选框：选中 3. Freqency Variable：选入W 4. 单击OK钮 5. Analyze=Descriptive Statistics=Crosstabs 6. Rows框：选入R 7. Columns框：C 8. Statistics钮：Chi-square复选框：选中：单击Continue钮9. 单击OK钮从左到右为：检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(Exact Sig.2-sided)、单侧精确概率(Exact Sig.1-si

22、ded)；从上到下为：Pearson卡方（Pearson Chi-Square即常用的卡方检验）、连续性校正的卡方值(Continuity Correction)、对数似然比方法计算的卡方(Likelihood Ratio)、Fishers确切概率法(Fishers Exact Test)、线性相关的卡方值(Linear by Linear Association)、有效记录数(N of Valid Cases)。另外，Continuity Correction和Pearson卡方值处分别标注有a和b，表格下方为相应的注解：a.只为2*2表计算。b.0%个格子的期望频数小于5，最小的期望频数为

23、13.78。因此，这里无须校正，直接采用第一行的检验结果，即X2=6.133，P=0.013，如给定显著性为0.05，由于卡方的频率p值小于，因此拒绝零假设，即认为两组方法治疗效果有差异。如果交叉列联表中有20%以上单元格中的期望频数小于5，则一般不宜使用卡方检验。在这种情况下，可以采用似然率卡方检验等方法进行修正。例4.3 以数据加工（职工数据）.sav为例，检验职称和文化程度是否有关联？1. Analyze=Descriptive Statistics=Crosstabs；2. 如果进行二维列联表分析，将行变量职称（zc）选择到Row(s)框，将列变量文化程度(xl)选择到Column框

24、中； 3. 选择Display clustered bar charts选项，指定绘制各变量交叉分组下频数分布柱形图，suppress tables表示不输出列联表，仅分析行列变量间关系； 4. 单击Cell按钮指定列联表单元格中的输出内容； 5. 单击Format按钮指定列联表各单元的输出排列顺序，SPSS默认以行变量取值的升序排列；6. 单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系，一般选择Chi-Square卡方检验。案例4：利用居民储蓄调查表数据进行计算，实现以下两个目标：目标一：分析城镇储户和农村储户对“未来两年内收入状况的变化趋势”是否持相同的态度；提示：

25、列联表的行变量为户口（a13），列变量为未来收入情况（a3），在列联表中输出各种百分比，期望频数、剩余、标准化剩余，同时显示各交叉分组下频数分布柱形图，并利用卡方检验方法，对城镇和农村储户对该问题的态度是否一致进行分析；目标二：分析城镇和农村储户对储蓄是否合算的认同是否一致。提示：该分析中列联表的行变量为户口（a13），列变量为什么合算（a1），在列联表的基础上进行卡方检验。补充：多选项分析多选项分析是针对问卷调查中的多选项问题的。对于多选项问题由于答案个数不止一个，如果仍按单选问题的方式设置SPSS变量，那么该变量虽然能够存储多个答案，但却无法直接支持对问题的分析。即对一个多选项问题仅设置

26、一个SPSS变量在数据处理和分析中是行不通的。l 将多选项问题分解；（前面已讲过）l 利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。多选项频数分析或多选项交叉分组下的频数分析1、定义多项选择变量集将多选项问题分解并设置成多个变量后，指定这些变量为一个集合。1、选择菜单 Analyze=Multiple Response=Define sets；2、从数值型变量中将进入多选项变量集的变量选择到Variables in sets框中；3、在variables are coded as框中指定多选项变量集中的变量是按照哪种方法分解的。Dichotomies表示以多选项二分法分解，并在

27、counted value中输入对哪组值进行分析。Spss规定等于该值的样本为一组，其余样本为另一组；categories表示以多选项分类法分解，并在Range框和through框中输入变量取值的最小值和最大值。4、为多选项变量集命名，系统会自动在该名字前加字符；5、单击Add按钮将定义好的多选项变量集加到Mult Response Sets框中。2、定义多项选择变量集将多选项问题分解并设置成多个变量后，指定这些变量为一个集合。选择菜单 Analyze=Multiple Response=Define sets3、多选项频数分析操作或多选项交叉分组下的频数分析选择菜单Analyze=Multiple Response=Frequencies或选择菜单Analyze=Multiple Response=Crosstabs与前Frequencies和Crosstabs操作类似。案例5：利用居民储蓄调查表数据进行分析，实现以下两个分析目标：分析储户的储蓄目的；提示：即回答储蓄的最主要目的是什么，占到多少？什么的比例最少？分析不同年龄段储户的储蓄目的。提示：采用多选项交叉分组下的频数分析。回答20岁以下储户中存钱主要是为了什么？其他如2035岁的储户，3550岁的储户，50岁以上的储户他们存钱的最主要的目的又是什么呢？

展开阅读全文

实验四 描述性统计分析.doc

实验四描述性统计分析.doc