数据分布特征的统计描述.pptx

上传人:莉*** 文档编号:80051896 上传时间:2023-03-22 格式:PPTX 页数:183 大小:1.31MB
返回 下载 相关 举报
数据分布特征的统计描述.pptx_第1页
第1页 / 共183页
数据分布特征的统计描述.pptx_第2页
第2页 / 共183页
点击查看更多>>
资源描述

《数据分布特征的统计描述.pptx》由会员分享,可在线阅读,更多相关《数据分布特征的统计描述.pptx(183页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、1 大量的数据经过整理后,已经能初步反映总体分布的特征。为了更加准确的了解数据分布的特征和规律,需要找到反映数据分布特征的代表值 三类:集中趋势、离中趋势、分布形态说明:说明:说明:说明:第1页/共183页2集中趋势:即反映各数据向中心值靠拢的程度返回本节首页集中趋势集中趋势 (位置位置)第2页/共183页3离中趋势:即反映各数据远离中心值的程度离中趋势离中趋势 (分散程度分散程度)两个不同的曲线表示两个不同的总体,它们的两个不同的曲线表示两个不同的总体,它们的集中趋势相同但离中趋势不同。集中趋势相同但离中趋势不同。因为即使现象的集中趋势相同,其离中趋势因为即使现象的集中趋势相同,其离中趋势也

2、可能不同。也可能不同。第3页/共183页4实际中还会遇到:集中趋势和离中趋势均相同实际中还会遇到:集中趋势和离中趋势均相同的现象,其分布的形态也可能不同。的现象,其分布的形态也可能不同。这表明:除了集中和离中趋势外,分布还这表明:除了集中和离中趋势外,分布还有其他方面的特征:有其他方面的特征:分布的形态分布的形态。指:数据分布的对称程度和扁平(高低)程度指:数据分布的对称程度和扁平(高低)程度测度指标是偏度测度指标是偏度测度指标是峰度测度指标是峰度是相对于是相对于对称分布对称分布而言而言相对于相对于正态分布正态分布而言而言第4页/共183页5偏度:测定分布的偏斜程度的指标偏度:测定分布的偏斜程

3、度的指标偏斜是相对于偏斜是相对于对称分布对称分布而言而言峰度:测定分布的高低(尖峭)程度的指标峰度:测定分布的高低(尖峭)程度的指标尖峭是相对于尖峭是相对于正态分布正态分布而言而言第5页/共183页6偏态偏态(形状)(形状)峰态峰态 (形状形状)正态分布正态分布对称分布对称分布第6页/共183页7扁平分布扁平分布尖峰分布尖峰分布峰态峰态左偏分布左偏分布右偏分布右偏分布与正态分布与正态分布比较!比较!偏态偏态与对称分与对称分布比较布比较第7页/共183页8正态分布中有两个参数:一般记为:、2 是正态分布的参数,不确定常数。不同的、不同的2对应不同的正态分布第8页/共183页9标准正态分布是正态分

4、布中的一种记为:第9页/共183页10本章内容第一节 集中趋势的测度 第二节 离散程度的测度 第三节 偏度与峰度 第10页/共183页11 第一节 集中趋势的测度集中趋势是指一组数据向其中心值靠拢的倾向测度集中趋势就是寻找一组数据的代表值或中心值,在统计中是使用平均指标来测度的。第11页/共183页12本节内容一、平均指标含义二、平均指标的计算 (一)算术平均数 (二)调和平均数 (三)几何平均数 (四)众数 (五)中位数三、各种平均数之间的相互关系数值平均数值平均位置平均位置平均第12页/共183页13一、平均指标含义1、定义:又称平均数。是将同质总体内各单位的数量差异抽象化,以反映总体的一

5、般水平。被平均的对象必须具有同质性被平均的对象必须具有同质性第13页/共183页142、平均指标有两大类数值平均:位置平均:根据总体内全部数据计算:算根据总体内全部数据计算:算术平均、调和平均、几术平均、调和平均、几 何平均。何平均。根据数据在分配数列中的位置根据数据在分配数列中的位置确定:众数、中位数。确定:众数、中位数。第14页/共183页153、平均指标作用 a、反映总体各单位变量值分布的集中趋势 b、比较同一现象在不同空间或不同时间的发展 水平 c、分析现象间的依存关系第15页/共183页16集中趋势:总体中各单位某一标志值的具体表现是各不相同的,但一般呈正态分布,即很小或很大的标志值

6、出现的次数较少,接近平均数的标志值出现的次数较多,大多数的标志值都围绕着平均数左右波动。返回本节首页第16页/共183页17商场按销售商场按销售额分(万元)额分(万元)商场数商场数 (家)(家)各组商品流通各组商品流通 费用率(费用率(%)50以下以下 50200 200400 400600 600800 8001000 1000以上以上 25 70 130 75 40 18 10 11.2 10.4 9.9 6.7 5.9 5.5 5.0 注:流通费用率注:流通费用率=费用额费用额/销售额销售额现象间的依存关系:第17页/共183页18二、平均指标计算(一)算术平均数又称均值。根据掌握的资料

7、不同:简单法和加权法。第18页/共183页191、简单法:适用于没有分组的原始数据均值,即算术平均数均值,即算术平均数x 标志值或变量值见49页例题第19页/共183页202、加权法:分组且各组标志值出现的次数 (权数 f)不相等时,公式:返回本节首页x x 为标志值,又称变量值;为标志值,又称变量值;f f 为各组标志值出现的次数为各组标志值出现的次数第20页/共183页21计算平均日产量第21页/共183页22产量产量(件)(件)x 人数人数 f xf192121232325252727292931202224262830146812102088144208336300合计合计-41109

8、6第22页/共183页23用统计功能的计算器计算:2ndF,ON,20 1M+22 4M+24 6M+26 8M+28 12M+30 10M+,xM结果为26.73第23页/共183页24例1:用计算器对下列数据求平均 x f 25 25 35 35 45 45 55 55 合计合计合计合计 10 10 70 70 90 90 30 30 200 200第24页/共183页25mode2Shift scl=25 Shift;10 DT 35 Shift;70 DT 45 Shift;90DT 55 Shift;30 DTShift 注意:注意:DTDT是储存功能的加号是储存功能的加号第25页/

9、共183页26 注意:当各组权数均相等时,加权算术平均数等于简单算术平均数:返回本节首页第26页/共183页27产量产量(x)人数人数(f)1213141510101010合计合计40可用简单式计算均值可用简单式计算均值各组权数都相等的数列第27页/共183页28对称数列:产量产量(x)人数人数(f)121314151531030103合计合计56可用简单式计算均值可用简单式计算均值第28页/共183页293、权数 加权均值的大小受两个因素的影响:各组变量值(x)各组次数,即权数(f)第29页/共183页30(1)权数的定义权数:即次数,分布在各组间的总体单位数,因为它对均值的大小起权衡轻重的

10、作 用,故又称权数。出现次数多的标志值对平均数的影响大第30页/共183页31(2)权数的表现及应用 绝对数权数 f 相对数权数 第一、权数表现:有两种形式:第一、权数表现:有两种形式:第31页/共183页32绝对权数:相对权数:计算公式:计算公式:例题见教科书51页表33第32页/共183页33第二、权数的实质 是相对数权数。即权数对均值的影响作用,取决于相对权数而非绝对权数。举例:举例:第33页/共183页34计算平均奖金额等级等级奖金额奖金额(X X)人数(人数(F F1 1)人数(人数(F F2 2)一等一等1201208 81212二等二等10010042426363三等三等9090

11、30304545合计合计8080120120虽然各组绝对人数变化了,但各组人数的比重未变比重比重%1037.552.5100第34页/共183页354、平均数应用举例:统计中有三大综合指标:总量指标、相对指标和平均指标反映现象总规模、总水平,用绝对数表示反映现象总规模、总水平,用绝对数表示如:如:2010年中国年中国GDP 39.8万亿元人民币万亿元人民币相对指标相对指标是两个有联系的指标值对比的比率,是两个有联系的指标值对比的比率,如:三次产业比重、企业劳动生产率、产出的如:三次产业比重、企业劳动生产率、产出的计划完成百分数计划完成百分数、经济发展速度和增长速度、经济发展速度和增长速度第35

12、页/共183页36例1、10个企业资金利润率资料:资金利资金利润率润率 企业企业数数n 企业资金企业资金(万元)(万元)f 0-1010-2020-30532100500800合计合计101400求:求:10个企业的平均利润率个企业的平均利润率第36页/共183页资金利资金利润率润率 企业企业数数n 企业资金企业资金(万元)(万元)fx xf利润额利润额 0-1010-2020-3053210050080051525575200合计合计101400-280“企业的平均利润率企业的平均利润率”等同于等同于“企业的总利润率企业的总利润率”企业的总利润率企业的总利润率=利润总额利润总额/资金总额资金

13、总额第37页/共183页38利润总额利润总额资金总额资金总额第38页/共183页39计划完成计划完成百分数百分数 企业企业数数 n 计划产值计划产值fx xf实际值实际值105110110120120130307050570020500225001.0751.151.256127.52357528125合计合计15048700-57827.5 计算计算150个企业的平均计划完成百分数个企业的平均计划完成百分数例例2、150个企业的资料:个企业的资料:第39页/共183页计划完成计划完成百分数百分数 企业企业数数 n 计划产值计划产值fx xf实际值实际值10511011012012013030

14、7050570020500225001.0751.151.256127.52357528125合计合计15048700-57827.5“150个企业的平均计划完成百分数个企业的平均计划完成百分数”就是就是“150个企个企业总的计划完成百分数业总的计划完成百分数”。企业总计划完成百分数企业总计划完成百分数=总实际数总实际数/总计划数总计划数第40页/共183页41实际产值实际产值计划产值计划产值第41页/共183页425、算术平均数的数学性质见52页第42页/共183页43(二)调和平均数 1、含义:总体内各个变量值倒数的算术平均 数的倒数,又称倒数平均数。如有三个变量值:8、10、12,求调和

15、平均数。步骤如下:第43页/共183页44、即为调和平均数公式:公式:第44页/共183页45(1)简单式:)简单式:(2)加权式:)加权式:各变量值出现次数相等各变量值出现次数相等各变量值出现次数不等各变量值出现次数不等 设设 mm为次数为次数2、调和平均数的计算第45页/共183页46举例:某蔬菜单价早中晚分别为0.5、0.4、0.25(元/斤)(1)早中晚各买1元,求平均价格 (2)早中晚各买1斤,求平均价格 (3)早中晚各买2元、3元、4元,求平均价格 (4)早中晚各买2斤、3斤、4斤,求平均价格第46页/共183页47(1)问:用调和平均。先求早、中、晚购买的斤数。早 1/0.5=2

16、(斤)、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤)(2)问:用算术平均第47页/共183页48(3)问:用加权调和平均(4)问:用加权算术平均第48页/共183页493、调和平均数和算术平均数间的关系调和平均数是一种特殊的均值调和平均数是一种特殊的均值(1)两者存)两者存在着变形关系:在着变形关系:第49页/共183页50(2 2)当掌握的资料无法直接计算算术平均数时,可用调和法计算。这时两者计算结果相同,只是根据已知这时两者计算结果相同,只是根据已知条件不同,需选择不同的公式。条件不同,需选择不同的公式。第50页/共183页51 已知对比分母,将分母定为f,求分子xf,然后用加

17、权算术公式,即:已知对比分子,将分子定为m,求分母mx用加权调和公式,即:第51页/共183页52某公司下属三个部门销售利润资料部门部门销售利润销售利润率()率()x x利润额利润额(万元)(万元)m m销售额销售额m mx xA A121212012010001000B B101020020020002000C C7 710510515001500合计合计-42542545004500求三个部门的平均利润率。第52页/共183页53思考:如果已知销售利润率和销售额资料,该如何计算?第53页/共183页54部门部门销售利润率销售利润率()()x x销售额(万销售额(万元)元)利润额利润额A A

18、121210001000B B101020002000C C7 715001500合计合计-45004500第54页/共183页55计算:计算:2020个商店平均销售计划完成程度及个商店平均销售计划完成程度及总的流通费用率。总的流通费用率。第55页/共183页56计划完计划完成百分成百分数数%计划百计划百分数的分数的组中值组中值%(x1)实际销实际销售额售额(万元万元)(M或或f)计划销计划销售额售额(M/x)流通费流通费用率用率%(x2)流通费流通费用额用额(万元)(万元)(xf)809090100100110110120859510511545.968.434.494.354.072.03

19、2.882.014.813.212.011.06.799.034.1310.37合计合计-243.024.08-30.32第56页/共183页57(1)20个商店的平均销售计划完成程度(2)20个商店总的流通费用率个商店总的流通费用率第57页/共183页58(三)几何平均数1.定义:n 个变量值乘积的 n 次方根第58页/共183页593、计算方法简单法:加权法:第59页/共183页60 例1:2004-2008年我国某工业品产量环比发展速度分别为107.6%、102.5%、100.6%、102.7%、102.2%。计算平均每年的发展速度第60页/共183页61按计算器:按计算器:1.076,

20、1.076,1.025,1.025,1.006,1.006,1.027,1.027,1.022,=,2ndF,1.022,=,2ndF,5,=,5,=出现结果:出现结果:1.03091.0309即即103.1%103.1%第61页/共183页62 例2:某厂有四个流水连续作业车间,某月的合格率分别为:0.95,0.92,0.90,0.80,求四个车间的平均合格率。第62页/共183页63例3:某地区25年的年经济发展速度分别是:1年103%,4年105%,8年108%,10年 110%,2年115%,求该地区经济的平均年发展速度。第63页/共183页641.03,1.03,(,1.05,y,(

21、,1.05,yx,4,),(,1.08,y,(,1.08,yx,8,),(,1.1,y,(,1.1,yx,10,),(,1.15,y,(,1.15,yx,2,),=,2ndF,=,2ndF,25,=,25,=出现结果:出现结果:1.0861.086即即108.6%108.6%第64页/共183页654、使用几何平均法注意问题第一、变量值要是相对数,且不能为负值或零第二、这些相对数的连乘积要等于总速度或第二、这些相对数的连乘积要等于总速度或总比率总比率几何平均法适用于对比率数据(相对数)的几何平均法适用于对比率数据(相对数)的平均,平均,主要用于计算主要用于计算平均比率和平均速度平均比率和平均速

22、度第65页/共183页66几何平均数是一种特殊的均值:可写成:可写成:第66页/共183页67(四)众数 1、定义:一组数据中出现次数最多的变量值2、计算:分两种情况:品质数列和单项式数列组距式数列第67页/共183页68不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分百分比比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100MMo o可口可乐可口可乐(1)品质数列计算众数)品质数列计算众数定性变量定性变量第68页/共18

23、3页69MMo o不满意不满意回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0甲城市家庭对住房状况评价的频数分布第69页/共183页70价格(元)价格(元)销量(公斤)销量(公斤)2.00 2.40 3.00 4.00206014080众数众数是数列中出现次数最多的变量值是数列中出现次数最多的变量值众数(2)单项数列计算众数定性变量定性变量第70页/共183页71(3)组距式数列计算众数先确定众数所在的组,然后用公式计算分:上限公式

24、和下限公式返回本节首页定性变量定性变量第71页/共183页72分数x 人数 f60以下 26070 77080 15 8090 10 90以上 6 合计 40 f fm-1m-1f fm+1m+1f fmmL:众数所在组的下限U:众数所在组的上限第72页/共183页73上限公式:下限公式:第73页/共183页74第74页/共183页75 3、众数说明(1)不受极端值的影响(2)既适用于品质数列,也适用于变量数列(3)一组数据可能没有众数或有几个众数返回本节首页第75页/共183页76无众数原始数据:10 5 9 12 6 8多于一个众数多于一个众数原始数据原始数据:25 25 28 2828

25、28 36 36 42 4242 42一个众数一个众数原始数据原始数据:6 :6 5 5 9 8 9 8 5 55 5第76页/共183页77(五)中位数 1、中位数的含义:将各单位标志值按大小排列,居于中间位 置的那个标志值。返回本节首页MMe e50%50%第77页/共183页782、中位数的计算分两种情况:(1)未分组原始资料(2)组距式数据返回本节首页第78页/共183页79(1)未分组原始资料 先将数据从小到大排序 项数为奇数时,中间位置项数为奇数时,中间位置上的标志值即为中位数上的标志值即为中位数项数为偶数时,中间位置上2个标志值的平均为中位数第79页/共183页80 有9个数值:

26、2、3、5、6、9、10、11、13、14 中位数为第5个,即9 有10个数值:2、3、5、6、9、10、11、13、14、15 中位数为第5、第6个数据的平均值,即9.5第80页/共183页81分数分数人数人数向上累计向上累计向下累计向下累计60以下以下60707080809090以上以上271510629243440403831166合计合计 40-(2 2)组距数列)组距数列fmS SMe+1Me+1S SMe-1Me-1第81页/共183页82B、确定中位数所在的组:本例为:40/2=20,即中位数应在将分数从 高到低排列后的第20个学生的分数上A、先将次数进行累计先将次数进行累计 C

27、、利用公式计算中位数(公式 见56页)第82页/共183页83公式:下限公式=上限公式=第83页/共183页84带入资料得:(分)(分)第84页/共183页85附:四分位数四分位数:是指位于全部数据 位置和 位置上的数据,分别称为下四分位数和上四分位数。也称为第一个四分位数 和 第三个四分位数。即:排序后处于即:排序后处于25%和和75%位置上的值。位置上的值。实际上,中位数就是第二个四分位数实际上,中位数就是第二个四分位数QQ1 1QQMeMeQQ3 325%25%25%25%第85页/共183页86四分位的位置:四分位的位置:第86页/共183页87箱线图:可以观察数据分布的特征4 46

28、68 810101212QQ3 33QQ1 11X X最大值最大值最大值X X最小值最小值最小值Median/Quart./RangeMedian/Quart./Range箱线图箱线图MMe e第87页/共183页88某某电电脑脑公公司司20052005年年前前四四个个月月120120天天的的销销售售量量数数据据,试利用箱线图对数据分布特征进行分析。试利用箱线图对数据分布特征进行分析。第88页/共183页89未分组数据单批数据箱线图最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.25170.251

29、70.25上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的Median/Quart./Rang箱线图第89页/共183页90某电脑公司销量分组表第90页/共183页未分组数据多批数据箱线图从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人,对对 8 8门门主主要要课课程程的的考

30、考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试通通过过多多批批箱箱线线图图分分析析各各科科考考试试成成绩绩的的分分布特征。布特征。11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济西方经济市场营销市场营销财务管理财务管理基础会计基础会计统计学统计学计算机应计算机应用用7665937468705585909581877573917897517685709268817174886984657395707866907378847093637980608781678691837776907082

31、8382928481706972787578918866948085718674687962818155787075687177第91页/共183页92未分组数据多批数据箱线图8门课程考试成绩的Median/Quart./Range箱线图第92页/共183页931111名学生名学生8 8门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据多批数据箱线图第93页/共18

32、3页94第94页/共183页95三、各种平均数之间的关系两者都属于抽象化的代表值,但有区别,前者容易受极端值的影响,后者不会。1、数值平均数和位置平均数的比较:第95页/共183页96某公司中层干部2010年的收入,求平均收入 职位 收入(元)财务部经理 10 000市场部经理 450000人事部经理 90 000研发部经理 100 000生产部经理 10 000 实际中可利用实际中可利用切尾平均法切尾平均法:去掉极端值,:去掉极端值,将剩余的数据求平均。将剩余的数据求平均。第96页/共183页97收入(元)人数1000 53000 255000 5610000 1050000 3300000

33、00 1计算其平均收入时,计算其平均收入时,位置平均和数值平均哪一种方法更合适?位置平均和数值平均哪一种方法更合适?第97页/共183页982、三种平均数之间的关系左偏分布左偏分布左偏分布均值均值均值 中位数中位数中位数 众数众数众数对称分布对称分布对称分布 均值均值均值=中位数中位数中位数=众数众数众数右偏分布右偏分布右偏分布众数众数众数 中位数中位数中位数均值均值均值有极小值,拉动均有极小值,拉动均值向极小值靠近值向极小值靠近有极大值,拉动均有极大值,拉动均值向极大值靠近值向极大值靠近第98页/共183页99众数、中位数、平均数的特点和应用 众数:不受极端值影响 具有不惟一性 数据分布偏斜

34、程度较大且有明显峰值时应用 中位数:不受极端值影响 数据分布偏斜程度较大时应用 平均数:易受极端值影响 数据对称分布或接近对称分布时应用第99页/共183页100离散程度是测定数据分布特征的另一重要指标 第二节 离散程度测度统计是使用统计是使用变异指标变异指标来测度分布的离散程度来测度分布的离散程度用于测定一组数据中各数值之间的差异程度,即:在一个分布中各数值与均值的离差程度第100页/共183页101三个集中趋势相同但离中趋势不同的总体三个集中趋势相同但离中趋势不同的总体离散程度指标可从另一个角度说明集中趋离散程度指标可从另一个角度说明集中趋势测度值的代表程度。势测度值的代表程度。第101页

35、/共183页102一、变异指标的意义和作用二、变异指标的种类(一)全距(极差)(二)平均差(三)标准差(四)离散系数返回本章首页本节内容第102页/共183页103一、变异指标的意义和作用变异指标的含义 又称标志变动度、离散程度或离中程度。是描述总体内各数据之间差别大小程度的指标返回本节首页甲:甲:20,40,60,70,80,100,120乙:乙:67,68,69,70,71,72,73如两组数据,请直观判断哪一组的离散程度大如两组数据,请直观判断哪一组的离散程度大第103页/共183页10470707070返回本节首页第104页/共183页105 标志变动度的作用2、能衡量现象变动的均衡性

36、或稳定性3、能反映各变量值分布的离散程度(离中趋势)、能反映各变量值分布的离散程度(离中趋势)1、是评价平均数代表性的依据甲企业 25 25 25 25 均匀、协调乙企业 10 15 20 55丙企业 5 10 15 70 不均匀。企业产值各季度计划完成情况企业产值各季度计划完成情况第105页/共183页106平均数的代表性和标志变动度的关系标志变动度大,平均数的代表性就小;反之,平均数的代表性就大例如:三组学生的年龄(岁)20 20 20 20 20-差距最小,20岁的代表性最好 18 19 20 21 22 15 16 20 24 25-差距最大,20 岁的代表性最差第106页/共183页

37、107二、标志变异指标的种类全距 1、含义:总体各单位标志的最大值和最小值之差。R=Xmax-Xmin第107页/共183页1082、全距的优点和缺点 优点:计算简单、涵义直观缺点:易受极端数值的影响 不能反映中间标志值的变动第108页/共183页109附:四分位差(见 60 页)四分位差Qd=Q3-Q1第109页/共183页110(二)平均差 1、含义 是各变量值与其算术平均数离差绝对值 的算术平均数,即:平均差能全面反映一组数据的离散状况平均差能全面反映一组数据的离散状况第110页/共183页1112、平均差计算:返回本节首页简单式:简单式:加权式:加权式:第111页/共183页11218

38、181919202021212222-2-2-1-1 0 0 1 1 2 2 2 2 1 1 0 0 1 1 2 2x x合计合计 -6 6一组学生年龄:18 19 20 21 22求平均差。第112页/共183页113某厂某厂200200个工人产量资料(单位:公斤)个工人产量资料(单位:公斤)日产量日产量3030以下以下30403040405040505050以上以上合计合计求求A.DA.D工人数工人数 1010 70 70 90 90 30 30 200 200第113页/共183页114X X2525353545455555合计合计合计合计-17-17-7-7 3 3 13 13-f f

39、10107070909030302002001717 7 7 3 3 13 13-170 170 490 490 270 270 390 390 1320 1320 250 250 2450 2450 4050 4050 1650 1650 8400 8400第114页/共183页115结论:结论:该厂工人平均日产量为该厂工人平均日产量为4242公斤,但各工人公斤,但各工人生产水平有差异,其差异平均为生产水平有差异,其差异平均为6.66.6公斤。公斤。第115页/共183页1163、平均差的优缺点优点:和全距相比,弥补了全距不足,能反 映中间标志值的变动。缺点:加绝对值号为计算带来了不便。第1

40、16页/共183页117(三)标准差(均方差)1、概念 是各变量值与其算术平均数离差平方的算术 平均数的平方根,又称均方差。第117页/共183页118 2、计算:已知资料不同采用不同方法:加权式:加权式:简单式:简单式:第118页/共183页119标准差的平方即为方差第119页/共183页120一组学生年龄:18 19 20 21 2218 -2 419 -1 120 0 021 1 122 2 4 合计 -10简单式举例:第120页/共183页121某厂某厂200200个工个工人产量资料人产量资料:(单位:公斤)(单位:公斤)日产量日产量3030以下以下304030404050405050

41、50以上以上合计合计工人数工人数 1010 70 70 90 90 30 30 200 200求标准差加权式举例:加权式举例:第121页/共183页122x x2525353545455555合计合计合计合计-17-17-7-7 3 3 13 13-f f1010707090903030200200289289 49 49 9 9169169-2890 2890 3430 3430 810 810 5070 50701220012200 250 250 2450 2450 4050 4050 1650 1650 8400 8400第122页/共183页123标准差的计算可以用统计功能的计算器。

42、标准差的计算可以用统计功能的计算器。结论:结论:各工人生产产量与平均产量相比,平均相各工人生产产量与平均产量相比,平均相差差7.87.8公斤。公斤。第123页/共183页124计算器的使用开机:ON,2ndF,ON进入到统计功能后,用计算平均数的方法输数据所有的数据输完后,按 2ndF 键,再按xM 健,即为标准差注意:所有的数据输完后,如果直接按xM 健,即为平均数。第124页/共183页125统计功能的计算器的使用Mode2Shift scl=25 Shift;10 DT 35 Shift;70 DT45 Shift;90 DT 55 Shift;30 DTShift 第125页/共183

43、页1263、标准差的优缺点优点:弥补了平均差和全距的不足。缺点:利用标准差不能比较性质不同的数列(即水平高低不等和计量单位不同)离散程度的大小。第126页/共183页127 如:两组动物体重(单位:公斤)甲:,乙:,试比较平均数的代表性。第127页/共183页128第128页/共183页129上述结论不一定正确 因为:两组数据性质不同(水平高低不等或者计量单位不同),不能直接用标准差(或平均差)比较平均数的代表性。须用相对离散程度指标 离散系数。第129页/共183页130(四)离散系数又称变异系数,是一组相对数形式的变异指标有全距系数、平均差系数、标准差系数等等以标准差系数为例说明其计算。第

44、130页/共183页131对于上例第131页/共183页132总结:比较两组数据的离散程度,即比较平均数的代表性时:如果两组数据的平均数相等且计量单位相同,可直接使用标准差比较;除此之外,均需使用标准差系数比较。第132页/共183页133 对称钟形分布特点:以均值为中心两边对称,且中间数据出现的频数多而两尾出现的频数少。附:标准差的应用约有68%数据在均值加减1个标准差的范围之内约有95%数据在均值加减2个标准差的范围之内约有99%数据在均值加减3个标准差的范围之内 1 1、对称钟形分布中的、对称钟形分布中的法则:法则:第133页/共183页1341、求是非标志(交替标志)的标准差按品质标志

45、分组且只有两种表现的标志按品质标志分组且只有两种表现的标志 按是否合格分按是否合格分 表表 现现 取值取值 x 次数次数 n 合格合格 不合格不合格 是是非(不是)非(不是)1 0 n1 n0第134页/共183页135 按是否合格分按是否合格分 数量数量 一等品一等品 二等品二等品 三等品三等品 等外品等外品 1000 10 5 3 合计合计 1018是否是是非标志?是否是是非标志?按是否合格分按是否合格分 数量数量 合格品合格品 等外品等外品 1015 3 合计合计 1018第135页/共183页136是非标志 变量 x 次数 是 1 否 0 求是非标志的平均数及方差 第136页/共183

46、页137第137页/共183页138第138页/共183页1393、标准化值(数据的标准得分)有两个班(有两个班(1、2班)的同一门课成绩,假定两个班)的同一门课成绩,假定两个班水平类似,但由于两个任课老师的评分标准不班水平类似,但由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不同:同,使得两个班成绩的均值和标准差都不同:那么那么1班得班得90分的张英和分的张英和2班得班得82分的刘抒成分的刘抒成绩能否比较?绩能否比较?1班均值:班均值:78.53,标准差:,标准差:9.432班均值:班均值:70.19,标准差:,标准差:7.0不能直接比,但可以将它们进行标准化后再不能直接比,

47、但可以将它们进行标准化后再对比。对比。第139页/共183页140标准化的方法:标准化的方法:刘抒标准得分:刘抒标准得分:张英的标准得分:张英的标准得分:刘抒的成绩优于张英。刘抒的成绩优于张英。第140页/共183页141标准化值实际上是将不同均值和标准差的总体都转化为均值为0,标准差为1 的总体。如:一组数据:如:一组数据:2525、2828、3131、3434、3737、4040、4343。试计算其标准化值。试计算其标准化值。首先计算出均值为首先计算出均值为3434,标准差为,标准差为6 6第141页/共183页142均值为均值为3434,标准差为,标准差为6 6均值为均值为0 0,标准差

48、为,标准差为1 1标准化后的数据虽然均值和标准差发生了改变标准化后的数据虽然均值和标准差发生了改变但数据内部点的相对位置是没有变化的。但数据内部点的相对位置是没有变化的。第142页/共183页143科目 平均分 标准差 甲生 乙生语文 70 8 91 71数学 56 4 50 64 外语 42 5 40 51 政治 80 10 85 80物理 50 4 60 70 化学 40 12 75 45合计 -401 381原始成绩原始成绩例:已知某年高考全部考生分科总平均成绩和例:已知某年高考全部考生分科总平均成绩和标准差值,又知两名考生的实际成绩如下:标准差值,又知两名考生的实际成绩如下:计算两考生

49、的标准化值,并进行比较。第143页/共183页144科目科目平均分平均分 标准差标准差 原始成绩原始成绩原始成绩原始成绩 标准化成绩标准化成绩标准化成绩标准化成绩甲生甲生 乙生乙生甲生甲生 乙生乙生语文语文数学数学外语外语政治政治物理物理化学化学705642805040845104129150408560757164518070452.625-1.5 -0.4 0.5 2.5 2.917 0.125 2.01.80.05.00.417合计合计-4013816.6429.342第144页/共183页145 第一、甲考生偏科,数学和英语成绩均低于 平均成绩;乙考生比较全面,各科成绩都不 低于平均成

50、绩。原因:原因:第二、乙考生在平均分偏低且水平差距较小第二、乙考生在平均分偏低且水平差距较小(标准差)的物理、数学和英语等科目中取得(标准差)的物理、数学和英语等科目中取得了较好的成绩,甲考生则在这些科目上表现不了较好的成绩,甲考生则在这些科目上表现不好,影响了其标准成绩。好,影响了其标准成绩。第145页/共183页1463、总方差、组间方差和组内方差 在总体分组的情况下会产生上述三种方差 总方差:各标志值与总平均数的离差 组间方差:各组平均数与总平均数的离差 组内方差:各组组内的标志值与各组内平均数的离差三者关系:三者关系:总方差总方差=组间方差组间方差+组内方差的算术平均数组内方差的算术平

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com