SPSS统计分析基础教程学习大数据分析学习课程.pptx-得力文库

资源描述

《SPSS统计分析基础教程学习大数据分析学习课程.pptx》由会员分享，可在线阅读，更多相关《SPSS统计分析基础教程学习大数据分析学习课程.pptx（429页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、一、功能强大一、功能强大（1）囊括了各种成熟的统计方法与模型，为统计分析用户提供了全方位的统计学算法，为各种研究提供了相应的统计学方法。（2）提供了各种数据准备与数据整理技术。（3）自由灵活的表格功能。（4）各种常用的统计学图形。第1页/共429页第一页，编辑于星期六：二十二点二十分。二、二、SPSSSPSS的实验环境要求的实验环境要求（1）系统运行环境SPSS10.0以上版本软件包可以工作在两种模式下，单机模式和作为网络系统的用户界面模式。（2）辅助软件环境三、SPSS的主要界面SPSS的主要界面有数据编辑窗口和结果输出窗口。四、SPSS的帮助系统SPSS对一些基本模块中的统计提供了帮助

2、，可以通过单击Help菜单中的Statistics Coach命令，选择所需要的统计指导。第2页/共429页第二页，编辑于星期六：二十二点二十分。SPSS附加模块功能SPSS Advanced一般线性模型、混合线性模型、对数线性模型、生存分析等SPSS Categories对应分析、感知图、Proxscal等SPSS Complex Sample多阶段复杂抽样技术等SPSS Conjoint正交设计、联合分析等，适用于市场研究SPSS Exact Test精确P值计算、随机抽样P值计算等SPSS Maps在地图上展示数据等SPSS Missing Value Analysis缺失数据的报告

3、与填补等SPSS RegressionLogistic回归、非线性回归、Probit回归等SPSS Tables交互式创建各种表格（如堆积表、嵌套表、分层表等）SPSS TrendsArima模型、指数平滑、自回归等第3页/共429页第三页，编辑于星期六：二十二点二十分。五、SPSS的运行方式SPSS提供了3种基本运行方式：完全窗口菜单方式，程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发，编写自己的SPSS命令程序，通过语句直接运行。 SPSS中使用的对话框主要有两类，一类是文件操作对话框，文件操作对话窗口操作与Windows应用软件操作风格一致。另一类是

4、统计分析对话框，统计分析对话框可以分为主窗口和下级窗口，在该类对话框中，选择参与分析的各类变量及统计方法是对话框的主要任务。第4页/共429页第四页，编辑于星期六：二十二点二十分。1.1.2 spss的安装一、启动Windows 后，把SPSS 系统安装软盘（或光盘）插入软驱（或光驱），并找到SPSS的安装程序的可执行文件Setup.exe。二、双击 Setup.exe 文件，安装程序向导将给出每一步操作的提示。在出现Welcome（欢迎）窗口后，选择Next进入下一步。三、安装程序显示Software License Agreement对话框时，选择Yes接受显示的协议条款。第5页/共4

5、29页第五页，编辑于星期六：二十二点二十分。1.2 spss1.2 spss操作入门操作入门1.2.1 spss软件的启动与退出单击Windows 的开始按钮，在程序菜单项SPSS for Windows中找到SPSS 10.0 for Windows并单击。第6页/共429页第六页，编辑于星期六：二十二点二十分。1.2.2 SPSS的5个窗口（1）数据编辑窗口（SPSS Data Editor）Spss处理数据的工作全在此窗口进行。第7页/共429页第七页，编辑于星期六：二十二点二十分。第8页/共429页第八页，编辑于星期六：二十二点二十分。（2）结果管理窗口（SPSS Outpu

6、t viewer）此窗口用于存放分析结果。左边是目录区，右边是内容区。第9页/共429页第九页，编辑于星期六：二十二点二十分。（3）草稿结果窗口（SPSS Draft Viewer）草稿结果是结果的一种简化文本格式。实际上就是WORD所兼容的rtf超文本格式，因此可以在没有安装SPSS的PC机上使用文字编辑软件打开。第10页/共429页第十页，编辑于星期六：二十二点二十分。（4）语法编辑窗口（SPSS Syntax Editor）第11页/共429页第十一页，编辑于星期六：二十二点二十分。（5）脚本窗口（SPSS Script Editor）第12页/共429页第十二页，编辑于星期六：二

7、十二点二十分。1.2.3 SPSS的四种运行方式一、菜单对话方式首先打开SPSS软件，然后选择菜单File Open file。然后，利用菜单Analyze Descriptive Statistics Frequencies，第13页/共429页第十三页，编辑于星期六：二十二点二十分。第14页/共429页第十四页，编辑于星期六：二十二点二十分。二、程序方式在Syntax编辑窗口中键入以下程序：Get file=c:program filesspssemployee data.sav.Frequencies variables = jobcat/order = analysis。只需要

8、选择菜单Run All，运行该程序也一样会出现相同的分析结果。第15页/共429页第十五页，编辑于星期六：二十二点二十分。三、Include命令方式当编写Syntax程序时，如果发现将要编写的程序语句正好是另一个Syntax文件的内容；或者发现所需要的程序语句其实是几个Syntax文件的总和是，除了可以通过“Copy”、“Paste”的方法利用资源，生产一个新的Syntax文件外，还可以利用Include命令。Include c:sytaxsample.sps.第16页/共429页第十六页，编辑于星期六：二十二点二十分。四、spss Production Faccility 方式在Wind

9、ows的程序菜单中，spss菜单组除了有“spss for windows”项之外，还有一个“spss production facility”。第17页/共429页第十七页，编辑于星期六：二十二点二十分。（1）单击Syntax框下的“Add”按钮，到C盘根目录下打开“syntaxsample”。（2）单击Syntax框下的“Edit”按钮，对程序进行编辑。（3）单击右下角的“uesr prompts”按钮，添加对程序的交互分析界面。（4）单击“Browse”按钮制定结果保存路径，单击“export options”按钮还可以制定结果保存格式。第18页/共429页第十八页，编辑于星期六：二十

10、二点二十分。1.2.4 spss的四种输出结果 1、表格格式 2、文本格式 3、标准图与交互图 4、结果的保存和导出第19页/共429页第十九页，编辑于星期六：二十二点二十分。第20页/共429页第二十页，编辑于星期六：二十二点二十分。第2 2章数据录入与数据获取本章主要解决两个问题：第一个问题，根据问题类型的不同，将会从开放题、单选题和多选题的录入方式为例进行介绍。第二个问题，重点介绍如何用SPSS直接读取Excel类型和文本格式的数据，以及如何用ODBC接口读取数据库文件。第21页/共429页第二十一页，编辑于星期六：二十二点二十分。 2.1.1 统计软件中数据的录入格式（1）

11、不同观测对象的数据不能在同一记录中出现，即同一观测数据应当独占一行。（2）每一个观测量指标或影响因素只能占据一列的位置，即同一指标的数量观测值都应当录入到同一个变量中去。2.1 数据格式概述即：一个观测占一行，一个变量占一列第22页/共429页第二十二页，编辑于星期六：二十二点二十分。在录入数据时，归纳为以下三步：第一步：定义变量名；第一步：指定每个变量的各种属性；第一步：录入数据。变量名不能与spss保留字相同，spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2 变量属性介绍第23页/共429页第二十三页，编辑于星期六：二

12、十二点二十分。一、变量的储存类型 SPSS中，变量有三种的基本类型：数值型、字符型和日期型。标准数值型逗号数值型圆点数值型科学技术法数值型美元数值型用户自定义型数值型：数值型的数据是0-9的阿拉伯数字和其他符号，如美元符号、逗号或圆点组成的。第24页/共429页第二十四页，编辑于星期六：二十二点二十分。字符型：字符型数据的默认显示宽度为8个字符位，系统不区分变量名中的大小写字母，并且不能进行数学运算。注意：在输入数据时不应输入引号，否则双引号将会作为字符型数据的一部分。日期型：日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多，SPSS以菜单方式列出日期型数据的显示格式以供用户选

13、择。事实上，SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数。第25页/共429页第二十五页，编辑于星期六：二十二点二十分。关于日期型格式的几点说明：“m”在年与日（字母y与d）之间表示月份；在时与秒（字母h与s）之间表示“分”钟。“mmm”表示要求书写英文月份单词的前三个字母组成的缩写。“ddd”三个字母d表示要求用从元月一日算起的日数表示日期。指定了日期变量的格式，不一定在输入时就使用指定的格式。可以输入用“/”或“”作分隔符的具体日期，回车后，系统将自动将输入的格式转化为指定的格式，显示在单元各种。第26页/共429页第二十六页，编辑于星期六：二十二点二十分。

14、二、变量的测量尺度在SPSS中使用Measure属性对变量的测量尺度进行定义。（1）定类尺度（Nominal Measurement）：定类尺度是对事物的类别或属性的一种测度，按照事物的某种属性对其进行分类或分组。特点：其值仅代表了事物的类别和属性，即能测度类别差异，不能比较各类之间的大小，所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。在spss中，能适用定类尺度的数据可以是数值型，也可以是字符型变量。使用定类变量对事物进行分类时，必须符合穷尽原则和互斥原则。第27页/共429页第二十七页，编辑于星期六：二十二点二十分。（2）定序尺度（Ordinal Measurement

15、）：定序尺度是对事物之间的等级或顺序差别的一种测度，可比较优劣或排序。特点：由于定序变量只能侧度类别之间的顺序，无法测出类别之间的准确差值，即测量数值不代表绝对的数量大小，所以其测量结果只能排序，不能进行运算。（3）定矩尺度（Interval Measurement）：定矩尺度是对事物类别或次序之间间距的测度。特点：不仅能将事物区分为不同类型并进行排序，而且可能准确指出类别之间的差距是多少；定居变量通常以自然或物理单位为计量尺度，因此测量结果往往表现为数值，所以计量结果可以进行加减运算。第28页/共429页第二十八页，编辑于星期六：二十二点二十分。（4）定比尺度（Scale Measurem

16、ent）：定比尺度是能够测算两个测度值之间比值的一种计量尺度，它的测量结果同定距变量一样表现为数值。特点：定必变量是测量尺度的最高水平，它除了具有其他三种测量尺度的全部特点外，还具有可计算两个侧度至之间笔直的特点，因此它可以进行加、减、乘、除运算，而定居变量值可进行加减运算。第29页/共429页第二十九页，编辑于星期六：二十二点二十分。三、变量名与变量标签值Label：定义变量名标签Value：定义变量值标签第30页/共429页第三十页，编辑于星期六：二十二点二十分。四、缺失值Spss中缺失值有用户自定义缺失值和系统缺失值两大类。在SPSS中，对字符型变量，默认的缺失值为空格；对数值型变量

17、，默认的缺失值为零。第31页/共429页第三十一页，编辑于星期六：二十二点二十分。2.2 数据的直接录入 2.1.1 操作界面说明标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏状态栏当前数据栏显示区滚动条Data View表可以直接输入观测数据值或存放数据，表的左端列边框显示观测个体的序号，最上端行边框显示变量名。第32页/共429页第三十二页，编辑于星期六：二十二点二十分。Variable View表用来定义和修改变量的名称、类型及其他属性，如图所示。如果输入变量名后回车，将给出变量的默认属性。如果不定义变量的属性，直接输入数据，系统将默认变量Var00001,Var00002等

18、。第33页/共429页第三十三页，编辑于星期六：二十二点二十分。在Variable View表中，每一行描述一个变量，依次是：Name：变量名。变量名必须以字母、汉字及开头，总长度不超过8个字符，共容纳4个汉字或8个英文字母，英文字母不区别大小写，最后一个字符不能是句号。Type：变量类型。变量类型有8 种，最常用的是Numeric数值型变量。其它常用的类型有：String字符型，Date日期型,Comma逗号型（隔3位数加一个逗号）等。Width：变量所占的宽度。Decimals：小数点后位数。Label：变量标签。关于变量涵义的详细说明。Values：变量值标签。关于变量各个取值的涵义说

19、明。Missing：缺失值的处理方式。Columns：变量在Date View 中所显示的列宽（默认列宽为8）。Align：数据对齐格式（默认为右对齐）。Measure：数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种（默认为等间距尺度）。第34页/共429页第三十四页，编辑于星期六：二十二点二十分。为了在统计分析过程中能有效的利用其它软件产生的数据，SPSS软件编辑窗口除可以使用*.sav扩展名数据文件，还可以直接打开和保存下述类型的文件：SPSS DOS版本产生的数据文件*.sys；Excel 报表程序产生的数据文件*.xls；DBASE 数据库格式文件*.dbf；SAS统计软

20、件产生的数据文件。第35页/共429页第三十五页，编辑于星期六：二十二点二十分。2.2.2 开放题和简单单选题的录入一、在spss中定义变量录入数据的第一步是定义变量属性，随后才能进行数据录入。二、开放题的录入第36页/共429页第三十六页，编辑于星期六：二十二点二十分。三、单选题的录入单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。第37页/共429页第三十七页，编辑于星期六：二十二点二十分。2.2.3多选题的录入一、多重二分法（Multiple Dichotomy Method）所谓多重二分法，是在编码的时候，对应每一个选项都要定义一个变量，有几个选项就

21、有几个变量，这些变量均为二分类，他们各自代表对一个选项的选择结果。二、多重分类法（Multiple Category Method）多重分类法，也是利用多个变量对一个多选题的答案进行定义，应该用多少个变量，由被访者实际可能给出的最多答案数而定。第38页/共429页第三十八页，编辑于星期六：二十二点二十分。三、多选题录入在spss中的实现第39页/共429页第三十九页，编辑于星期六：二十二点二十分。2.3 外部数据的获取SPSS读入非SPSS类型的文件数据，有三种主要方式：直接打开，利用文本导向读入文本数据以及利用数据库OBDC接口读入数据。2.3.1 电子表格数据如何导入spss中SPSS

22、中可以直接读入许多常用格式的数据文件，选择菜单File Open Data或直接单击快捷键工具栏上的快捷按钮，系统就会弹出Open File 对话框，单击“文件类型”列表框，在里面能够看到可以直接打开的数据文件格式。第40页/共429页第四十页，编辑于星期六：二十二点二十分。2.3.2 文本数据如何导入spss中第一步：首先，在Open File 文件框中选中文件，单击“打开”，系统会自动启动文本倒入向导对话框。第二步：选择“NO”并单击“下一步”按钮。第41页/共429页第四十一页，编辑于星期六：二十二点二十分。用某种字符区分固定宽度第三步：分别选择“Delimited”和“yes”,

23、然后单击“下一步”按钮。第42页/共429页第四十二页，编辑于星期六：二十二点二十分。第四步第43页/共429页第四十三页，编辑于星期六：二十二点二十分。第五步第44页/共429页第四十四页，编辑于星期六：二十二点二十分。第六步第45页/共429页第四十五页，编辑于星期六：二十二点二十分。第七步第46页/共429页第四十六页，编辑于星期六：二十二点二十分。2.4 数据的保存 2.4.1 存为spss格式2.4.2 存为其他数据格式第47页/共429页第四十七页，编辑于星期六：二十二点二十分。第3 3章数据管理 3.1 变量级别的数据管理对变量进行操作的内容主要集中于Transfo

24、rm菜单中，包括新变量的生成、记录的排序、对变量进行计数等。计算新变量：就是用Compute过程。变量转换：包括Recode、Visual Bander、Count、Rank Case、Automatic Recode这五个过程。专用过程：包括建立时间序列、缺失值代替和设定随机种子三个过程。Run Pending Transforming：用于执行编程中被挂起的数据整理操作。第48页/共429页第四十八页，编辑于星期六：二十二点二十分。计算产生新变量变量值自动编码设定随机数种子创建代替缺失值变量创建时间序列变量运行其它转换程序变量值重新编码创建计数变量观测量排秩连续变量进行分段第49页/共4

25、29页第四十九页，编辑于星期六：二十二点二十分。3.1.1 计算新变量计算新变量的功能就是在原有spss数据文件的基础上，根据用户的要求，使用spss算术表达式及函数，对所有记录或满足SPSS条件表达式的记录，计算出一个新结果，并将结果存入一个用户指定的变量中。一、常用基本概念（1）spss算术表达式 spss算术表达式是由常量、spss变量名、spss的算术运算符、圆括号等组成的式子。（2）spss函数 spss提供了多达70多种函数，分为八大类：算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。（3）spss条件表达式通过spss的算术表

26、达式和函数可以对所有记录计算一个结果，如果仅希望对部分记录进行计算，则应当利用spss的条件表达式指定对那些记录进行计算。第50页/共429页第五十页，编辑于星期六：二十二点二十分。二、compute过程的分析实例例3.1 统计英语成绩在60分以上的学生的数学和语文的平均成绩。第51页/共429页第五十一页，编辑于星期六：二十二点二十分。第52页/共429页第五十二页，编辑于星期六：二十二点二十分。例3.2 计算工人工资的所得税。学生自己练习。第53页/共429页第五十三页，编辑于星期六：二十二点二十分。3.1.2 对变量值进行分组合并一、对连续变量进行分组在SPSS中可以将连续变量

27、转换为离散（等级或定序）变量，按照某种一一对应的关系生成新变量值，可以将新值赋给原变量。Recode过程和Visual Bander过程都可以完成这一任务，但前者给为简单和常用。例3.3 当学生英语成绩小于60时取值为“不及格”，大于等于60且小于70为“及格”，大于等于70且小于80为“较好”，大于等于80为“优秀”。第54页/共429页第五十四页，编辑于星期六：二十二点二十分。第55页/共429页第五十五页，编辑于星期六：二十二点二十分。二、分类变量类别的合并Recode过程也常用于合并某个分类变量的几个水平为一个水平。将上例grade中优秀、良好和及格三个等级合并为一个等级“PASS

28、”，将grade的等级“不及格”转换为“NOPASS”。第56页/共429页第五十六页，编辑于星期六：二十二点二十分。第57页/共429页第五十七页，编辑于星期六：二十二点二十分。3.1.3 连续变量的可视化分段VISUAL Bander 用于将连续变量进行分段，该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段，并采用图形化操作的方式。例3.4 对数学成绩进行分段，假设现在希望按变量math将学生分为5组，60分以下为第一组，60分以上的按照等间距的方式分为4组。第58页/共429页第五十八页，编辑于星期六：二十二点二十分。第59页/共429页第五十九页，编辑于星期六

29、：二十二点二十分。第60页/共429页第六十页，编辑于星期六：二十二点二十分。第61页/共429页第六十一页，编辑于星期六：二十二点二十分。3.1.4 将字符变量转换为数值变量用automatic recode将字符变量转换为数值变量。第62页/共429页第六十二页，编辑于星期六：二十二点二十分。3.1.5 变量的编秩所谓编秩，就是对记录按照某个变量值大小来排序。Rank case过程就是用来排序的一个专用过程。例：根据性别分组计算数学成绩的秩次。第63页/共429页第六十三页，编辑于星期六：二十二点二十分。第64页/共429页第六十四页，编辑于星期六：二十二点二十分。3.1.

30、6 Transform菜单中的其它功能（1）count过程如果用户需要对满足某项条件的数据进行计数，可以使用Count命令。先在Target Variable中指定一个变量（可以是已经存在的变量或新变量），并定义变量标签，然后指定要统计的变量加到Numeric Variables框中，再单击Define Values按纽，打开Value to Count对话框。第65页/共429页第六十五页，编辑于星期六：二十二点二十分。Value:输入某个值为清点对象；System-missing:以系统的缺失值为清点对象；System-or user missing:以系统或用户指定的缺失值为清

31、点对象；Range:指定数值的计数区域：其中包括：（）through（）在框内指定下限和上限lowest through（）: 在框内只指定上限；（）highest through: 在框内只指定下限。第66页/共429页第六十六页，编辑于星期六：二十二点二十分。（2）random Number Seed过程：用于设定伪随机函数的随机种子。第67页/共429页第六十七页，编辑于星期六：二十二点二十分。3.2 文件级别的数据管理（一）数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括：对变量、观测量的编辑

32、处理；对变量数据的变换；对观察量数据整理。（1）简单命令：包括插入变量、插入记录和到达某条记录，他们的功能实际上都可以用鼠标在数据表界面上直接完成，很少会使用菜单来调用。（2）常用的简单过程：包括排序、拆分文件、选择记录和加权记录。（3）变量与数据文件属性导向：用于定义数据字典，或者将于定义的数据字典直接引入当前数据文件。第68页/共429页第六十八页，编辑于星期六：二十二点二十分。（4）数重构过导向：用于进行数据转置，或者对重复测量数据表进行长型、宽型记录间的转换。（5）文件合并过程：将几个数据文件合并为一个大的spss数据文件，含横向合并和纵向合并两种情况。（6）正交设计过程：实际上是

33、联合分析模块的一部分，用于生成实施联合分析所需要的设计。（7）其他过程：包括定义日期变量过程、数据汇总过程和查找重复记录导向。第69页/共429页第六十九页，编辑于星期六：二十二点二十分。定义变量属性定义变量日期插入观测量拷贝数据属性插入一个变量定位观测量观测量排序重构数据结构分类或不分类汇总正交设计数据文件转置合并数据文件标识重复观测量拆分数据文件选择观测量观测量加权第70页/共429页第七十页，编辑于星期六：二十二点二十分。3.2.1 记录排序一、排序的两种方法：（1）在数据表格的变量名处单击右键，弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descen

34、ding”。（2）对于多变量排序，则需要使用Sort Cases过程来进行。二、多变量排序需要注意的三点：（1）在多重排序中，制定排序变量名是很关键的，先指定的变量在排序时必然优先于后制订的变量。（2）可以指定按某变量值升序排序的同时按另一变量值降序排序，或相反。（3）排序以后，原来记录数据的排列次序将被打乱。第71页/共429页第七十一页，编辑于星期六：二十二点二十分。第72页/共429页第七十二页，编辑于星期六：二十二点二十分。第73页/共429页第七十三页，编辑于星期六：二十二点二十分。3.2.2 记录拆分 Split File 分割文件的功能是把当前工作分割成两个或两个

35、以上的组，随后的分析将对每个组进行。第74页/共429页第七十四页，编辑于星期六：二十二点二十分。第75页/共429页第七十五页，编辑于星期六：二十二点二十分。3.2.3 记录筛选 Select Cases：当用户不需要分析全部的数据，而是按要求分析其中的一部分，使用该选择。All case：选择所有数据；If condition is satisfied: 按指定条件选择数据。第76页/共429页第七十六页，编辑于星期六：二十二点二十分。Random Sample of cases：对观察值进行随机抽样。第77页/共429页第七十七页，编辑于星期六：二十二点二十分。第78页/共42

36、9页第七十八页，编辑于星期六：二十二点二十分。第79页/共429页第七十九页，编辑于星期六：二十二点二十分。第80页/共429页第八十页，编辑于星期六：二十二点二十分。Use filter variable：用指定变量作过滤。先选择一个变量，系统自动在数据管理器中将该变量值为0的观测单位标上删除记号，系统对标有删除记号的观测单位不作分析。Based on time or case range：顺序抽样。单击Range按纽，打开Select Case: Range对话框，用户自行定义从第几个观察值开始抽到第几个观察值结束。第81页/共429页第八十一页，编辑于星期六：二十二点二十分。第8

37、2页/共429页第八十二页，编辑于星期六：二十二点二十分。3.2.4 3.2.4 加权记录加权记录 Weight Cases：设定某变量为频数变量。第83页/共429页第八十三页，编辑于星期六：二十二点二十分。3.2.5 数据汇总所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的描述统计量，结果可以存入新数据文件，也可以替换当前数据文件。一、汇总的概念二、进行分类汇总的方法1、打开“data”菜单，选择“Aggregate”，展开aggregate data”对话框。第84页/共429页第八十四页，编辑于星期六：二十二点二十分。2、在左侧的源变量框中选择一个或

38、多个变量作为分类变量进入分类变量（Break Variables）框中。3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量（Aggregate Variables）框中，即要求这些变量的值进行分类汇总。4、“name& label” （名称与标签）：单击此按钮可以修改组合后所生成新变量名称以及标签：可以在name后面的矩形框中输入新变量名。在Label后面的矩形框中输入新变量标签。单击“continue”按钮继续。第85页/共429页第八十五页，编辑于星期六：二十二点二十分。5、“Function”（函数）选择此项可以确定汇总变量的描述内容；系统默认函数为平均数。第86

39、页/共429页第八十六页，编辑于星期六：二十二点二十分。第87页/共429页第八十七页，编辑于星期六：二十二点二十分。3.3文件级别的数据管理（二） 3.3.1 数据字典的定义与应用在大型的数据分析项目中，数据管理是非常重要的一个环节，为了保证工作质量，数据处理人员往往会事先定义好一个非常详细的数据格式，包括变量格式、变量标签、标签值、缺失值定义等，这被称为数据字典。一、变量属性定义导向：Define Variable Properties 具体说来，可以列出所选变量的所有值；分辨没有值标签的值，并且提供自动给出值标签的功能；可以将另一个变量的属性拷贝到所选变量，也可以将所选变量的属性

40、拷贝到其他变量。第88页/共429页第八十八页，编辑于星期六：二十二点二十分。第89页/共429页第八十九页，编辑于星期六：二十二点二十分。第90页/共429页第九十页，编辑于星期六：二十二点二十分。二、复制数据文件属性导向 Copy Data Properties 过程用于将定义好的数据字典直接应用到当前文件中。操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中，还可以进行自行定义，只选择某些变量，或者某些属性进行拷贝，这无疑大大提高了连续性项目对原有资源的利用程度。第91页/共429页第九十一页，编辑于星期六：二十二点二十分。第92页/共429页第九十二页，编辑于星期六：

41、二十二点二十分。第93页/共429页第九十三页，编辑于星期六：二十二点二十分。3.3.2 查找重复记录 Identifying Duplicate Cases：用于查找重复记录。第94页/共429页第九十四页，编辑于星期六：二十二点二十分。第95页/共429页第九十五页，编辑于星期六：二十二点二十分。第96页/共429页第九十六页，编辑于星期六：二十二点二十分。第97页/共429页第九十七页，编辑于星期六：二十二点二十分。运行结束后，结果窗口会给出本次操作的信息汇总：第98页/共429页第九十八页，编辑于星期六：二十二点二十分。3.3.3 数据文件的重新排列与转置一、数据的长型

42、与宽型格式：长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。由于重复测量模型可以使用不同的统计模型加以分析，因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题。第99页/共429页第九十九页，编辑于星期六：二十二点二十分。第100页/共429页第一百页，编辑于星期六：二十二点二十分。第101页/共429页第一百零一页，编辑于星期六：二十二点二十分。二、长型格式转换为宽型格式：Restructure。选择Data Restructure，系统就会弹出下图导向。第102页/共429页第一百零二页，编辑于星期六：二十二点二十分。第103页/共429页

43、第一百零三页，编辑于星期六：二十二点二十分。第104页/共429页第一百零四页，编辑于星期六：二十二点二十分。第105页/共429页第一百零五页，编辑于星期六：二十二点二十分。第106页/共429页第一百零六页，编辑于星期六：二十二点二十分。三、数据转置 Transpose：用于对数进行行列转置，数据文件的转置就是将数据编辑窗口中数据的行列互换，即将记录转为变量，将变量转为记录后，重新显示在数据编辑窗口中。第107页/共429页第一百零七页，编辑于星期六：二十二点二十分。Variable(s)：放入将要行列转置的变量名。在数据文件中，未放入栏中的变量会遗失。字符串变量不能转换，如强迫

44、转换，变量值转变为系统缺失值。Name variable：变量命名栏，在左侧源变量栏中选择一个变量，放入name variable栏，技改变量的数据作为转置后的变量名。第108页/共429页第一百零八页，编辑于星期六：二十二点二十分。3.3.4 多个数据文件的合并纵向连接：几个数据集中的数据相加，组成一个新的数据集，新数据集中的记录是原来几个数据集中记录数的总和。横向连接：指的是按照记录的次序，或者某个关键变量的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数是所有原数据集中不重名变量的总和。一、数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列，按照各个变量

45、名的含义，一一对应的进行首尾相接。纵向合并必须遵循两个条件：第一，两个合并的spss数据文件，其内容合并是有实际意义的。第二，为方便spss数据文件的合并，在不同的数据文件中，最好起相同的名字，变量类型和变量长度也要尽量相同。第109页/共429页第一百零九页，编辑于星期六：二十二点二十分。第110页/共429页第一百一十页，编辑于星期六：二十二点二十分。第111页/共429页第一百一十一页，编辑于星期六：二十二点二十分。第112页/共429页第一百一十二页，编辑于星期六：二十二点二十分。Unpaired variable：不匹配变量栏。指变量名相同而变量定义不同的变量，或变量名

46、不同的变量。Variable in new working data：新工作数据变量栏。Indicate case source as variable：指示记录来源的变量选项/第113页/共429页第一百一十三页，编辑于星期六：二十二点二十分。第114页/共429页第一百一十四页，编辑于星期六：二十二点二十分。二、数据文件的横向合并横向合并的实质是将两个数据文件的记录，按照记录对应，一一进行左右对接。横向合并遵循三个条件：第一，如果不是按照记录号对应的规律进行合并，则两个数据文件必须至少有一个变量名相同的公共变量，这个变量是两个数据文件横向合并的依据，成为关键变量。第二，如果是使

47、用关键变量进行合并的对应，则两个数据文件都必须事先按关键变量进行升序排列。第三，为方便SPSS文件的合并，在不同的数据文件中，数据含义不相同的列，变量名不应取相同的名称。第115页/共429页第一百一十五页，编辑于星期六：二十二点二十分。第116页/共429页第一百一十六页，编辑于星期六：二十二点二十分。Excluded Variables：拒绝变量名。外部文件与当前数据的同变量，拒绝加到新工作区中。New Working Data：新工作数据变量栏。Match Case on Key Variable in sort：排序文件中按关键变量匹配记录选项。Both files provid

48、e case：由外部文件和当前数据量两者提供记录。External file is keyed table：外部文件为关键表，以当前数据为基准，外部文件匹配当前数据的关键变量值，如匹配成功，外部文件的新变量值加入到当前数据的新变量中，匹配不成功则不加入。Working Data File is keyed table：当前数据为关键表。Key Variables：关键变量栏，在拒绝变量选择某变量作为关键变量。Indicate case source as variable：指示记录来源的变量选项。第117页/共429页第一百一十七页，编辑于星期六：二十二点二十分。第118页/共429页第一百

49、一十八页，编辑于星期六：二十二点二十分。第4 4章连续性变量的统计描述与参数估计 4.1 连续变量的统计描述概述 4.1.1 统计描述中的可用工具（1）各种初步汇总描述方法频数、百分位数。（2）各种统计描述指标均值、标准差、四分位数间距。（3）统计表（4）统计图第119页/共429页第一百一十九页，编辑于星期六：二十二点二十分。4.1.2 连续变量的统计描述指标体系（1）集中趋势（Central Trend）：均数（Mean）中位数（Median）众数（Mode）总合（Sum）第120页/共429页第一百二十页，编辑于星期六：二十二点二十分。（4）其他趋势百分位数指标（Pe

50、rcentile）、M统计量（M-Estimators)、极端值（Outlier）。（2）离散趋势（Dispersion Trend）标准差（Std. Deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、标准误（S.E. Mean）（3）分布特征（Distribution Tendency）偏度系数（Skewness）和峰度系数（Kurtosis）第121页/共429页第一百二十一页，编辑于星期六：二十二点二十分。第122页/共429页第一百二十二页，编辑于星期六：二十二点二十分。4.1.3 spss中的相应功能 1、Sp

展开阅读全文