四单变量的描述统计离散趋势分析和集中趋势分析.pptx

上传人:莉*** 文档编号:76534229 上传时间:2023-03-11 格式:PPTX 页数:67 大小:620.86KB
返回 下载 相关 举报
四单变量的描述统计离散趋势分析和集中趋势分析.pptx_第1页
第1页 / 共67页
四单变量的描述统计离散趋势分析和集中趋势分析.pptx_第2页
第2页 / 共67页
点击查看更多>>
资源描述

《四单变量的描述统计离散趋势分析和集中趋势分析.pptx》由会员分享,可在线阅读,更多相关《四单变量的描述统计离散趋势分析和集中趋势分析.pptx(67页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、1知识点:两个维度七个统计量数第1页/共67页2学习要求1、集中趋势各测量法的计算方法;、集中趋势各测量法的计算方法;2、集中趋势各测量法的特点和应用;、集中趋势各测量法的特点和应用;3、离散程度各测量法的计算方法;、离散程度各测量法的计算方法;4、离散程度各测量法的特点与应用;、离散程度各测量法的特点与应用;第2页/共67页3单变量描述统计在统计分析中,是否可以找出一个有代表性的数值来说明变量的分布,反映资料的集中或差异情况?集中趋势测量,就是以一个数值来代表变量的资料分布,反映的是变量值向中心值聚集的程度,也就是说以这一个数值(或称典型值)来估计或预测每一个研究对象的数值时发生的错误总数在

2、理论上是最小的。离散趋势测量(Measures of dispersion)就是用一个值表示数据之间的差异情况。离散趋势测量法和集中趋势测量法具有互补作用。在进行统计分析时,既要测量变量的集中趋势,也要测量离散趋势。第3页/共67页4集中趋势测量/分析集中趋势测量:用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变量值或特征值就称作集中值或集中趋势。众值(Mode)定类层次 中位值(Median)定序层次 均值(Mean)定距层次第4页/共67页5一、众数(mode)1、出现频次最多的变量值;、出现频次最多的变量值;2、众数的不唯一性;、众数的不唯一性;3、主要应用于定类变量,当然

3、也可、主要应用于定类变量,当然也可以应用于定序和定距变量以应用于定序和定距变量第5页/共67页6众数的特点:不唯一性原始数据:4、5、7、8、19(无众值)原始数据:4、5、7、5、5、16(一个众值)原始数据:4、4、5、7、7、9(两个众值)第6页/共67页7例例1:非连续取值:非连续取值第7页/共67页8例2 分组数据收入收入(元元)fCfCf500-6991010550700-8996575540900-10991262114751100-12991583693391300-14991415101811500-16994055040总数总数 550第8页/共67页9从分布来看,众数是具

4、有明显集中趋势点从分布来看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值,一组数据分布的最高峰点所对应的数值及为众数的数值及为众数。第9页/共67页10二、中位值(Median)1、把一组数据按顺序排列,处于中间位置的那个数值就是中位值。2、主要应用于定序变量,也可用于定距变量,但不可用于定类变量。50%50%Md第10页/共67页11(1)未分组数据求中位数:)未分组数据求中位数:Md位置位置=(2)中位数)中位数=中间位置的值中间位置的值注意:先找位置,再找中位数注意:先找位置,再找中位数将各个个将各个个案由低至高排列案由低至高排列起来,居序列中央起来,居序列中央位置

5、的个案值就是中位值。位置的个案值就是中位值。第11页/共67页12(1)、个案数为奇数【例1】:甲地的5户人家的人数为:2,4,3,6,8,求中位值。解:Md的位置 3排序2,3,4,6,8中位值Md=4第12页/共67页13(2)个案数为偶数【例2】:乙地的6户人家的人数为:2,4,3,6,8,5求中位值。解:Md的位置 排序2,3,4,5,6,8Md第13页/共67页14(3)频数分布表【例3】根据下表求中位值。解:Md位置 中位值Md乙第14页/共67页152、分组数据根据统计表中的累积百分比,找出含有50%的区间找出含有50%区间的上界值U,下界值L,上界累计百分数U%,下界累计百分数

6、L%以及组距等信息根据线段对应成比例的原理,计算出累计百分比为50%的变量值第15页/共67页16L:中位数组的下限:中位数组的下限f:中位数组的频数:中位数组的频数w:中位数组的组:中位数组的组距(距(U-L)cf:低于中位数组:低于中位数组下限的累加次数下限的累加次数n:全部个案数:全部个案数Md位置位置=n/2(上(上下各下各50%的位置)的位置)第16页/共67页17例:分组数据:首先将各组的次数累加起首先将各组的次数累加起来来求中位数的位置:求中位数的位置:Md位置位置=n/2=212/2=106第第106个位置在个位置在 25-35之之间间第17页/共67页18分组变量看作是一组连

7、续的数值259435124?106103012第18页/共67页19【例【例4】:】:根据下表数据求中位值。根据下表数据求中位值。解:解:Md位置位置50;从累积频数从累积频数cf栏找到中位数栏找到中位数位置所在组为位置所在组为“300400”引入公式:引入公式:=350第19页/共67页20三、均值1、均值的定义:总体各单位取值之和除以总体单位数目。2、仅适用于定距变量,不适用于定类和定序;第20页/共67页211、未分组数据(1)简单原始资料求均值第21页/共67页22均值的计算未分组数据【例5】某班10名学生年龄分别为20、21、19、19、20、20、21、22、18、20岁,求他们的

8、平均年龄。解:根据平均数的计算公式有:第22页/共67页23(2)、加权平均数某个变项值重复出现多次,可以先统计每个值(x)的次数(f),再求次数与相应变量值的乘积(fx),利用各乘积之和求出均值。(f也称为权数,f/n称为权重)公式:第23页/共67页24未分组数据加权平均数【例【例6】调查某年】调查某年120名名学生的年龄,结果如下学生的年龄,结果如下表,求平均年龄。表,求平均年龄。解:根据公式得岁第24页/共67页252、分组资料求均值:根据组中值求均值先求出组中值先求出组中值组中值组中值=(上限(上限+下限)下限)/2计算组中值的和计算组中值的和计算分组数据的均值计算分组数据的均值组中

9、值第25页/共67页26众值、中位数和均值的比较1注:注:表示该数据类型最适合用的测度值表示该数据类型最适合用的测度值第26页/共67页27众数、中位数和平均值的比较众数是一组数据中出现次数最多的数值。但在社会调查中众数的代表性较小第27页/共67页28中位数和平均数的比较计算平均数时用到数据中所有的数值,而求中位数时只用到数值的相对位置,平均数比中位数利用了更多的有关数据的信息平均数容易受到极端值的影响,而中位数则不会受这种影响。当样本中数据值的分布是高度倾斜的,中位数一般比平均数更适合一些如100,200,400,500,600,均值为360,中位数为400100,200,400,500,

10、1000,均值为440,中位数为400第28页/共67页29对随机抽样调查来说,平均数比中位数更稳定,它随样本的变化比较小平均数比中位数更容易进行算术运算。第29页/共67页30众数、中位数、均值比较2但两种情况不宜用均值:(1)(1)分组数据的极端组没有组限。(2)(2)个别数值非常特殊。第30页/共67页31第31页/共67页32练习:求下表求下表(单项数列单项数列)所示数据的算术平均数所示数据的算术平均数。人口数(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00第32页/共67页33 求下

11、表所示数据的的算术平均数求下表所示数据的的算术平均数 间距频数(f)组中值(X)148152152156156160160164164168168172172176176180180184184188188192192196 1 2 51019251712 5 3 0 1 150154158162166170174178182186190194合计 100 第33页/共67页34n 求54,65,78,66,43这些数字的中位数。n求54,65,78,66,43,38 这些数字的中位数。第34页/共67页35 某年级学生身高如下,求中位数某年级学生身高如下,求中位数第35页/共67页36人口数

12、(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00求下表中的众数第36页/共67页37求下表中的众数求下表中的众数第37页/共67页38 城镇自杀率的分组次数分布 自杀率自杀率 次数次数真实组限真实组限组中值组中值向上累积次数向上累积次数3-5126-8359-118112-145215-173018-20721-23924-263合计合计229第38页/共67页39单变量的单变量的 第五讲第五讲描述统计(描述统计(2)离散趋势离散趋势 测量测量第39页/共67页40离散趋势测量(Measure

13、s of dispersion)反映的是各变量值偏离其中心值的程度,是个案与个案之间的差异情况。这种测量法,与前面所讲的集中趋势测量法具有相互补充的作用。集中趋势求出的是一个最能代表变量所有资料的值,但是集中趋势值代表性的高低还要看各个个案之间的差异情况。第40页/共67页41举例:某校3个系各选5名同学参加智力竞赛,他们的成绩如下:中文系:78,79,80,81,82 (80)数学系:65,72,80,88,95(80)英语系:35,78,89,98,100(80)如果仅从集中趋势测量(平均分数)来看,这三个系的成绩都一致,不存在什么差别。但从直观上可看出,三个系选手之间的差距程度(离散程度

14、)很不一样?第41页/共67页42 异众比率/离异比率(Variation ratio)定类层次四分位差(Interquartile range)定序层次方差 (Variance)标准差 (Standard deviation)定距层次第42页/共67页43一、异众比率(Variation ratio)1、异众比率(简写Vr):指非众值在总数中所占的比率。表示以众数来预测一组数据时,所犯错误的大小.即Vr值越大,则众值的代表性就越小.Vr值越小,则众值的代表性就越大.2、计算公式:众值的频次众值的频次第43页/共67页44异众比率(先找出众值.找到众值的频次分布)【例例1】:根据表根据表1中的

15、数据,计算众中的数据,计算众值和异众比率。值和异众比率。解:解:众值众值Mo“核心家庭核心家庭”异众比率异众比率第44页/共67页45例2:众数和异众比率的比较表表2 甲乙两校学生的父亲职甲乙两校学生的父亲职业业甲乙两校学生的父亲甲乙两校学生的父亲职业的众数都为职业的众数都为“农农民民”甲校甲校乙校乙校众数的代表性中甲校众数的代表性中甲校小于乙校,甲校中有小于乙校,甲校中有47.6%非农民,乙校非农民,乙校只有只有38.5%.第45页/共67页46异众比率&众值异众比率是众值的补充。取值范围是0,1。不属于众数的个案所占的比例愈大,就表示众数的代表性愈小,以之作估计或预测时所犯的错误也就愈大。

16、当 Vr 0,说明变量只有一个值,那就是众值;当 Vr 0,说明资料比较集中,众值的代表性比较高;当 Vr 1,说明资料比较分散,众值的代表性低。第46页/共67页47二、四分位差(Interquartile range)将数据由低至高排列,然后分为四等分(即每个等分包括25的数据),第一个四分位置的值(Q1)与第三个四分位置的值(Q3)的差异,就是四分位差(简写为Q)。Q1Q2Q3Q425%25%25%25%第47页/共67页481.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性第48

17、页/共67页49基本公式求位置,找出4分位对应的数值Q1=Q3=四分位差Q Q3 Q1。第49页/共67页501、根据原始未分组资料求四分位差解:解:Q1 的位置的位置 Q3的位置的位置 那么那么 Q1 不满意;不满意;Q3 一一般般Q Q3 Q1 一般不满意一般不满意结论,有一半的家庭对住房评结论,有一半的家庭对住房评价在不满意到一般之间。价在不满意到一般之间。表 甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意 不满意 一般 满意 非常满意2410894443024132226270300合计300【例【例3 3】求下表的四分位差

18、】求下表的四分位差第50页/共67页51例4:调查甲乙两村的家庭人数其中甲村有11户人家,每户人数为 2,2,3,4,6,9,10,10,11,13,15乙村有8户人家,每户人口数为 2,3,4,7,9,10,12,12则甲村中:Q1 位置=(n+1)/4=(11+1)/4=3,Q1=3 Q3位置=3(n+1)/4=9,Q3=11 Q=Q3-Q1=11-3=8则乙村中:Q1 位置=(n+1),Q1 Q3位置=3(,Q3 Q=Q3-Q1甲的离散程度低于乙村,以中位置估计甲乙两村的人口数时,在甲村犯的错误小于乙村第51页/共67页522、根据分组资料求四分位差有四步:计算向上累加次数求出Q1 和Q

19、3的位置 Q1=Q3=参考累加次数分布,决定Q1和Q3属于哪一组从所属组中,计算Q1位置和Q3位置的数值。第52页/共67页53公式如下:L1=Q1属组之属组之真实真实下限下限L3=Q3属组之属组之真实真实下限下限f1=Q1属组之次数属组之次数f3=Q3属组之次数属组之次数cf1=低于低于Q1属组之累属组之累计次数计次数cf3=低于低于Q3属组之累属组之累计次数计次数w1=Q1属组之组距属组之组距w3=Q3属组之组距属组之组距n=全部个案数目全部个案数目第53页/共67页54四分位差&中位数四分位差反映的是中位数的代表性差距越大,中位数的代表性越小,用中位数估计变量时所犯的错误越大;反之,中位

20、数的代表性越大,用中位数作估计犯的错误越小。第54页/共67页55三、方差和标准差1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12X=X=8.38.3第55页/共67页56三、方差与标准差所谓方差(Variance),观察值与其均值之差的平方和除以全部观察总数N。方差的平方根就是标准差(Standard deviation),用 或S第56页/共67页57表示以均值作代表值时引起的偏差或错误,也就是说用均值来估计或预测

21、各个个案的数值,所犯的错误()平均是标准差是用得最多,也是最重要的离散量数的统计量;方差是统计学上的一个重要概念,在以后的统计方法学习过程中会进一步了解;只适用于定距层次的变量;第57页/共67页58总体方差和标准差未分组数据:未分组数据:未分组数据:分组数据分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式第58页/共67页59样本方差和标准差分组数据:分组数据:未分组数据未分组数据:分组数据:分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n-1n-1n-1去除去除去除!未分组数据第

22、59页/共67页60样本方差的自由度(degree of freedom)(degree of freedom)一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值 x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量第60页

23、/共67页61注意:有些书中,也提到抽样的样本较大时,在样本方差和标准差的计算中,n-1和n计算出来的数值相差不大,因此有些计算中直接将样本中的个案数目用n表示,而不用n-1,如李沛良的书。第61页/共67页621、未分组资料标准差计算【例5】:求标准差,并进行简单比较。中文系:78,79,80,81,82 (80)数学系:65,72,80,88,95(80)英语系:35,78,89,98,100(80)解:根据公式解:根据公式 (中文系)分(中文系)分 (数学系)分(数学系)分 (英语系)分(英语系)分结论:中文系差结论:中文系差别最小,英语系别最小,英语系差别最大差别最大。第62页/共67

24、页632、分组资料标准差的计算公式其中Xm是每组的组中值,f是该组的次数第63页/共67页64例6 青年人阅读小说的数目第64页/共67页65四、极差/全距(Range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布未分组数据未分组数据 R R =max(=max(X Xi i)-min()-min(X Xi i).=组距分组数据组距分组数据 R R 最高组上限最高组上限 -最低组下限最低组下限5.5.计算公式为计算公式为第65页/共67页66小结1、集中趋势测量和离散趋势测量具有互补性,集中趋势反映的是资料的代表性,离散趋势反映的是资料的差异情况;2 2、选何种方法,要注意变量的测量层次,彼此的关系综合如下:第66页/共67页67感谢您的观看!第67页/共67页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com