应用统计chapter4.ppt

上传人:s****8 文档编号:69170447 上传时间:2022-12-31 格式:PPT 页数:75 大小:668KB
返回 下载 相关 举报
应用统计chapter4.ppt_第1页
第1页 / 共75页
应用统计chapter4.ppt_第2页
第2页 / 共75页
点击查看更多>>
资源描述

《应用统计chapter4.ppt》由会员分享,可在线阅读,更多相关《应用统计chapter4.ppt(75页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、应用统计第四章:数据的概括性度量第四章:数据的概括性度量四种基本分布特征四种基本分布特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离散趋势离散趋势离散趋势离散趋势 (分散程度分散程度分散程度分散程度)数数据据分分布布特特征征的的测测度度4.1 集中趋势的度量集中趋势的度量分类数据:众数分类数据:众数顺序数据:中位数和分位数顺序数据:中位数和分位数数值型数据:平均数数值型数据:平均数众数、中位数和平均数的比较众数、中位数和平均数的比较集中趋势集中趋势(central tendency)1.一组数据向其中心值靠拢的

2、倾向和程度一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据高层次数据的测度值并不适用于低层次的测量数据众数众数(mode)1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.适合于数据量较多时使用适合于数据量较多时使用3.不受极端值的影响不受极端值的影响4.一组数据可能没有众数或有几个众数一组

3、数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和主要用于分类数据,也可用于顺序数据和数值型数据数值型数据众数众数(不惟一性不惟一性)无众数原始数据原始数据:10 5 9 12 6 8一个众数一个众数原始数据原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据原始数据:25 28 28 36 42 42分类数据的众数分类数据的众数(例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)(%)果汁果汁 矿泉水矿泉水 绿茶绿茶 其他其他 碳酸饮料碳酸饮料6 610101111 8 8 15 150.120.1

4、20.200.200.220.220.160.160.300.3012122020222216163030合计501100解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“饮饮饮饮料料料料品品品品牌牌牌牌”,这这这这是是是是个个个个分分分分类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就是变量值就是变量值就是变量值就是变量值 所所所所调调调调查查查查的的的的5050人人人人中中中中,购购购购买买买买碳碳碳碳酸酸酸酸饮饮饮饮料料料料的的的的人人人人数数数数最最最最多多多多,为为为为1515人人人人,占占占占总总总总被被被被调调调调查查查查人人人人数数

5、数数的的的的30%30%,因因因因此此此此众众众众数数数数为为为为“可可可可口口口口可可可可乐乐乐乐”这这这这一一一一品品品品牌牌牌牌,即即即即 MMo o碳酸饮料碳酸饮料碳酸饮料碳酸饮料顺序数据的众数顺序数据的众数(例题分析例题分析)解解解解:这这里里的的数数据据为为顺顺序序数数据据。变变量量为为“回回答类别答类别”甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这这一类别,即一类别,即 MMo o不满意不满意不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲甲城市

6、城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0中位数中位数(median)1.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据用于分类数据用于分类数据4.各变量值与中位数的

7、离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即中位数中位数(位置和数值的确定位置和数值的确定)位置确定位置确定数值确定数值确定顺序数据的中位数顺序数据的中位数(例题分析例题分析)解:解:解:解:中位数的位置为中位数的位置为中位数的位置为中位数的位置为 (300+1)/2(300+1)/2150.5150.5 从从从从累累累累计计计计频频频频数数数数看看看看,中中中中位位位位数数数数在在在在“一一一一般般般般”这这这这一组别中一组别中一组别中一组别中 中位数为中位数为中位数为中位数为 Me=一般一般甲

8、城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意 24108 93 45 30 24132225270300合计300数值型数据的中位数数值型数据的中位数(9个数据的算例个数据的算例)【例】9个家庭的人均月收入数据个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9中位数中位数 1080数值型数据的中位数数值型数据的中位数(10个数据的算例个数据的

9、算例)【例】:10个家庭的人均月收入数据个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10 四分位数四分位数(quartile)1.排序后处于排序后处于25%和和75%位置上的值位置上的值2.不受极端值的影响不受极端值的影响3.计算公式计算公式QQL LQQMMQQU U25%25%25%25%顺序数据的四分位数顺序数据的四分位数(例题分析例题分析)解:解:解:解:Q QL L位置位置位置位置=(300)/4 (300)/4=7575 Q QU U位置位置位置位置 =(3300)

10、/4(3300)/4 =225225 从从从从累累累累计计计计频频频频数数数数看看看看,Q QL L在在在在“不不不不满意满意满意满意”这一组别中;这一组别中;这一组别中;这一组别中;Q QU U在在在在“一般一般一般一般”这一组别中这一组别中这一组别中这一组别中 四分位数为四分位数为四分位数为四分位数为 Q QL L =不满意不满意不满意不满意 QQU U =一般一般一般一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意 24108 93 45 30 24132225270300合计300数值型数据的四分位数数值型数据的四分位数

11、(9个数据的算例个数据的算例)【例】:9个家庭的人均月收入数据个家庭的人均月收入数据(4种方法计种方法计算算)原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9平均数平均数(mean)1.也称为均值也称为均值2.集中趋势的最常用测度值集中趋势的最常用测度值3.一组数据的均衡点所在一组数据的均衡点所在3.体现了数据的必然性特征体现了数据的必然性特征4.易受极端值的影响易受极端值的影响5.有简单平均数和加权平均数之分有简单平均数和

12、加权平均数之分6.根根据据总总体体数数据据计计算算的的,称称为为平平均均数数,记记为为;根根据据样本数据计算的,称为样本平均数,记为样本数据计算的,称为样本平均数,记为 x x x简单平均数简单平均数(Simple mean)设设设设一组数据为:一组数据为:一组数据为:一组数据为:x x1 1,x x2 2,x xn n (总体数据总体数据总体数据总体数据x xN N)样本平均数样本平均数样本平均数样本平均数总体平均数总体平均数总体平均数总体平均数加权平均数加权平均数(Weighted mean)设设设设各组的组中值为:各组的组中值为:各组的组中值为:各组的组中值为:MM1 1,MM2 2,M

13、Mk k 相应的频数为:相应的频数为:相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k样本样本样本样本加权平均加权平均加权平均加权平均总体总体总体总体加权平均加权平均加权平均加权平均应用统计加权平均数加权平均数(例题分析例题分析)某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 58013952640472537003315205

14、01720 9001175合计12022200几何平均数几何平均数(geometric mean)1.n 个变量值乘积的个变量值乘积的 n 次方根次方根2.适用于对比率数据的平均适用于对比率数据的平均3.主要用于计算平均增长率主要用于计算平均增长率4.计算公式为计算公式为5.5.可看作是平均数的一种变形可看作是平均数的一种变形可看作是平均数的一种变形可看作是平均数的一种变形几何平均数几何平均数(例题分析例题分析)【例】一一位位投投资资者者购购持持有有一一种种股股票票,在在2000、2001、2002和和2003年年收收益益率率分分别别为为4.5%、2.1%、25.5%、1.9%。计算该投资者在

15、这四年内的平均收益率计算该投资者在这四年内的平均收益率 算术平均算术平均算术平均算术平均:几何平均:几何平均:几何平均:几何平均:众数、中位数和平均数的比较众数、中位数和平均数的比较众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数

16、中位数中位数中位数均值均值均值均值均值均值众数、中位数、平均数的众数、中位数、平均数的特点和应用特点和应用1.众数众数不受极端值影响不受极端值影响具有不惟一性具有不惟一性数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用2.中位数中位数不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.平均数平均数易受极端值影响易受极端值影响数学性质优良数学性质优良数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用思考题?思考题?某大学新聘一位数学教授,给某大学新聘一位数学教授,给15位研究生上课,位研究生上课,期末考试成绩如下:期末考试

17、成绩如下:Z=72,81,90,85,76,90,80,83,78,75,63,73,30,82,90 成绩上报后,学院主管教学的院长说,该教授出成绩上报后,学院主管教学的院长说,该教授出的考题太容易,因为得的考题太容易,因为得90分的分的 就有就有3个;但系主个;但系主任则认为该教授出的考题偏难,因为平均成绩只任则认为该教授出的考题偏难,因为平均成绩只有有76.5分;然而该教授认为他的考题是适宜的,分;然而该教授认为他的考题是适宜的,因为从总体来看,因为从总体来看,80分有代表性的,因为多于分有代表性的,因为多于80分或少于分或少于80分的人数相等,那么,究竟谁的话有分的人数相等,那么,究竟

18、谁的话有道理呢?道理呢?使用建议!使用建议!应同时使用平均数、中位数和众数刻画数据的中应同时使用平均数、中位数和众数刻画数据的中心位置。因为这三个数可以从不同的角度表达数心位置。因为这三个数可以从不同的角度表达数据的中心位置,还可以对数据得分布情况给出一据的中心位置,还可以对数据得分布情况给出一个大致的描述。例如某企业职工收入的平均数为个大致的描述。例如某企业职工收入的平均数为5700元,中位数为元,中位数为3000元,众数为元,众数为2000元。说明元。说明企业收入企业收入2000元的人最多;半数职工的收入低于元的人最多;半数职工的收入低于3000元;平均数元;平均数5700元大于中位数元大

19、于中位数3000元,说明元,说明有些职工工资特别高。有些职工工资特别高。4.2 离散程度的度量离散程度的度量分类数据:异众比率分类数据:异众比率 顺序数据:四分位差顺序数据:四分位差 数值型数据:方差和标准差数值型数据:方差和标准差 相对离散程度:离散系数相对离散程度:离散系数离散趋势离散趋势1.数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度(离散程度离散程度离散程度离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度

20、从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值异众比率异众比率(variation ratio)1.对分类数据离散程度的测度对分类数据离散程度的测度2.非众数组的频数占总频数的比例非众数组的频数占总频数的比例3.计算公式为计算公式为 4.用于衡量众数的代表性用于衡量众数的代表性 5.主要用于度量分类数据的离散程度,主要用于度量分类数据的离散程度,也适用于顺序数据集数值型

21、数据。也适用于顺序数据集数值型数据。异众比率异众比率(例题分析例题分析)解:解:解:解:在在在在所所所所调调调调查查查查的的的的5050人人人人当当当当中中中中,购购购购买买买买其其其其他他他他品品品品牌牌牌牌饮饮饮饮料料料料的的的的人人人人数数数数占占占占70%70%,异异异异众众众众比比比比率率率率比比比比较较较较大大大大。因因因因此此此此,用用用用“碳碳碳碳酸酸酸酸饮饮饮饮料料料料”代代代代表表表表消消消消费费费费者者者者购购购购买买买买饮饮饮饮料料料料品品品品牌牌牌牌的的的的状状状状况况况况,其代表性不是很好其代表性不是很好其代表性不是很好其代表性不是很好不同品牌饮料的频数分布 饮料品

22、牌频数比例百分比(%)果汁 矿泉水 绿茶 其他 碳酸饮料61011 8 150.120.200.220.160.301220221630合计501100四分位差四分位差(quartile deviation)1.对顺序数据离散程度的测度对顺序数据离散程度的测度2.也称为内距或四分间距也称为内距或四分间距3.上四分位数与下四分位数之差上四分位数与下四分位数之差Qd=QU QL4.反映了中间反映了中间50%数据的离散程度数据的离散程度5.不受极端值的影响不受极端值的影响6.用于衡量中位数的代表性用于衡量中位数的代表性7.主要用于测度顺序数据的离散程度,对于主要用于测度顺序数据的离散程度,对于数值数

23、据也适用,不适用分类数据。数值数据也适用,不适用分类数据。四分位差四分位差(例题分析例题分析)解解解解:设设设设非非非非常常常常不不不不满满满满意意意意为为为为1,1,不不不不满满满满意意意意为为为为2,2,一一一一般般般般为为为为3,3,满满满满意意意意为为为为 4,4,非非非非常常常常满满满满意为意为意为意为5 5 。已知已知已知已知 Q QL L =不满意不满意不满意不满意 =2 2 Q QU U =一般一般一般一般 =3 3四分位差为四分位差为四分位差为四分位差为 Q Qd d =Q QU U -Q QL L =3 2 3 2 =1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房

24、状况评价的频数分布回答类别回答类别甲甲城市城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据:方差和标准差数值型数据:方差和标准差极差极差(range)1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.离散程度的最简单测度值离散程度的最简单测度值3.易受极端值影响易受极端值影响4.未考虑数据的分布未考虑数据的分布 R=max(xi)-min(xi)5.计算公式为计算公式为计算公式为计算公式为平均差平均差(mean deviation)1

25、.各变量值与其平均数离差绝对值的平均数各变量值与其平均数离差绝对值的平均数2.能全面反映一组数据的离散程度能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少数学性质较差,实际中应用较少4.计算公式为计算公式为计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据平均差平均差(例题分析例题分析)某电脑公司销售量数据平均差计算表 按销售量分组组中值(Mi)频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 2401451551651751851

26、95205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计1202040平均差平均差(例题分析例题分析)含义含义:每一天的销售量平均数相比,:每一天的销售量平均数相比,平均相差平均相差17台台方差和标准差方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差根据总体数据计算的,称为总体方差(标准标准差差

27、),记为,记为 2();根据样本数据计算的,;根据样本数据计算的,称为样本方差称为样本方差(标准差标准差),记为,记为s2(s)样本方差和标准差样本方差和标准差(sample variance and standard deviation)未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-

28、1去除去除去除!自由度自由度(degree of freedom)1.自自由由度度是是指指数数据据个个数数与与附附加加给给独独立立的的观观测测值的约束或限制的个数之差值的约束或限制的个数之差2.从从字字面面涵涵义义来来看看,自自由由度度是是指指一一组组数数据据中中可以自由取值的个数可以自由取值的个数3.当当样样本本数数据据的的个个数数为为n时时,若若样样本本平平均均数数确确定定后后,则则附附加加给给n个个观观测测值值的的约约束束个个数数就就是是1个个,因因此此只只有有n-1个个数数据据可可以以自自由由取取值,其中必有一个数据不能自由取值值,其中必有一个数据不能自由取值4.按按着着这这一一逻逻辑

29、辑,如如果果对对n个个观观测测值值附附加加的的约束个数为约束个数为k个,自由度则为个,自由度则为n-k自由度自由度(degree of freedom)1.样样本本有有3个个数数值值,即即x1=2,x2=4,x3=9,则则 x=5。当当 x=5 确确定定后后,x1,x2和和x3有有两两个个数数据据可可以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x1=6,x2=7,那那么么x3则则必然取必然取2,而不能取其他值,而不能取其他值2.为为什什么么样样本本方方差差的的自自由由度度为为什什么么是是n-1呢呢?因因为为在在计计算算离离差差平平方方和和时时,必必须须先先求求出出样

30、样本本均均值值 x,而而 x则则是是附附件件给给离离差差平平方方和和的的一一个个约约束束,因因此此,计计算算离离差差平方和时只有平方和时只有n-1个独立的观测值,而不是个独立的观测值,而不是n个个 3.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可从从多多方方面面解解释释,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差s2去估计总体方差去估计总体方差2时,它是时,它是2的无偏估计量的无偏估计量样本标准差样本标准差(例题分析例题分析)计算计算14只低风险共同基金年回报的方差和标准差只低风险共同基金年回报的方差和标准差样本标准差样本标准差(例题分析

31、例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计12055400样本标准差样本标准差(例题分析例题分析)含义:含义:每一天的销售量与平均数相比,每一天的销售量与平均数相

32、比,平均相差平均相差21.58台台总体方差和标准差总体方差和标准差(Population variance and Standard deviation)未分组数未分组数据据组距分组数据组距分组数据组距分组数据组距分组数据未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式总体方差和标准差总体方差和标准差(Population variance and Standard deviation)总体方差标准差的其它计算公式总体方差标准差的其它计

33、算公式总体方差标准差的其它计算公式总体方差标准差的其它计算公式相对位置的度量:标准分数相对位置的度量:标准分数标准分数标准分数(standard score)1.也称标准化值也称标准化值2.对某一个值在一组数据中相对位置的度量对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点可用于判断一组数据是否有离群点(outlier)4.用于对变量的标准化处理用于对变量的标准化处理5.计算公式为计算公式为标准分数标准分数(性性质质)z分分数数只只是是将将原原始始数数据据进进行行了了线线性性变变换换,它它并并没没有有改改变变一一个个数数据据在在该该组组数数据据中中的的位位置置,也也没没有

34、有改改变变该该组组数数分分布布的的形形状状,而而只只是是使使该该组组数数据据均均值值为为0,标标准差为准差为1 标准分数标准分数(例题分析例题分析)9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号人均月收入(元)人均月收入(元)标准化值标准化值 z 1234567891500 750 7801080 850 960200012501630 0.695-1.042-0.973-0.278-0.811-0.556 1.853 0.116 0.996经验法则经验法则经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时约有约有68%的数据在平均数加减的数

35、据在平均数加减1个标准差个标准差的范围之内的范围之内约有约有95%的数据在平均数加减的数据在平均数加减2个标准差个标准差的范围之内的范围之内约有约有99%的数据在平均数加减的数据在平均数加减3个标准差个标准差的范围之内的范围之内 切比雪夫不等式切比雪夫不等式(Chebyshevs inequality)1.如果一组数据不是对称分布,经验法则就不如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式再适用,这时可使用切比雪夫不等式,它对它对任何分布形状的数据都适用任何分布形状的数据都适用2.切比雪夫不等式提供的是切比雪夫不等式提供的是“下界下界”,也就是,也就是“所占比例至少是多

36、少所占比例至少是多少”3.对于任意分布形态的数据,根据切比雪夫不对于任意分布形态的数据,根据切比雪夫不等式,至少有等式,至少有1-1/k2的数据落在平均数加减的数据落在平均数加减k个标准差之内。其中个标准差之内。其中k是大于是大于1的任意值,但的任意值,但不一定是整数不一定是整数切比雪夫不等式切比雪夫不等式(Chebyshevs inequality)1.至少有至少有75%的数据落在平均数加减的数据落在平均数加减2个标准个标准差的范围之内差的范围之内2.至少有至少有89%的数据落在平均数加减的数据落在平均数加减3个标准个标准差的范围之内差的范围之内3.至少有至少有94%的数据落在平均数加减的数

37、据落在平均数加减4个标准个标准差的范围之内差的范围之内相对离散程度:离散系数相对离散程度:离散系数离散系数离散系数(coefficient of variation)1.标准差与其相应的均值之比标准差与其相应的均值之比2.对数据相对离散程度的测度对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5.计算公式为计算公式为离散系数离散系数(例题分析例题分析)【例例】:两只股票:两只股票A、B。假设前五个星期的平均价。假设前五个星期的平均价格分别为格分别为A:57、68、64、71、62

38、,B:12、17、8、15、13。试比较两个股票的风险大小。试比较两个股票的风险大小。离散系数离散系数(例题分析例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度离散系数离散系数(例题分析例题分析)结结论论:计计算算结结果果表表明明,v1 0

39、为为右偏分布右偏分布5.偏态系数偏态系数 0为为左偏分布左偏分布6.偏偏态态系系数数大大于于1或或小小于于-1,被被称称为为高高度度偏偏态态分分布布;偏偏态态系系数数在在0.51或或-1-0.5之之间间,被被认认为为是是中中等等偏偏态态分分布布;偏偏态系数越接近态系数越接近0,偏斜程度就越低,偏斜程度就越低 偏态系数偏态系数(coefficient of skewness)1.根据原始数据计算根据原始数据计算2.根据分组数据计算根据分组数据计算偏态系数偏态系数(例题分析例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi

40、)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计合计120540000 70100000 偏态系数偏态系数(例题分析例

41、题分析)结论:结论:结论:结论:偏态系数为正值,但与偏态系数为正值,但与偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明的差异不大,说明的差异不大,说明的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数数占据多数,而销售量较多的天数则占少数数占据多数,而销售量较多的天数则占少数数占据多数,而销售量较多的天数则占少数峰峰 态态峰态峰态(kurtosis)1.统计学家统计学家Pearson于于1905年首次提出年首

42、次提出2.数据分布扁平程度的测度数据分布扁平程度的测度3.峰态系数峰态系数=0扁平峰度适中扁平峰度适中4.峰态系数峰态系数0为为尖峰分布尖峰分布峰态系数峰态系数(coefficient of kurtosis)1.根据原始数据计算根据原始数据计算2.根据分组数据计算根据分组数据计算峰态系数峰态系数(例题分析例题分析)结论:结论:结论:结论:偏态系数为负值,但与偏态系数为负值,但与偏态系数为负值,但与偏态系数为负值,但与0 0的差异不大,说明的差异不大,说明的差异不大,说明的差异不大,说明电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布用用Exce

43、l计算描述统计量计算描述统计量用用Excel计算描述统计量计算描述统计量将120的销售量的数据输入到Excel工作表中,然后按下列步骤操作第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【描述统计】,然后选择【确定】第4步:当对话框出现时 在【输入区域】方框内键入数据区域 在【输出选项】中选择输出区域 选择【汇总统计】选择【确定】数据分布特征和描述统计量数据分布特征和描述统计量数据分布特征数据分布特征集中趋势集中趋势离散程度离散程度分布形状分布形状中位数中位数中位数中位数平均数平均数平均数平均数异众比率异众比率异众比率异众比率四分位差四分位差四分位差四分位差极差极差极差极差偏态系数偏态系数偏态系数偏态系数平均差平均差平均差平均差方差或标准差方差或标准差方差或标准差方差或标准差峰态系数峰态系数峰态系数峰态系数众数众数众数众数离散系数离散系数离散系数离散系数本章小节本章小节1.数据水平的概括性度量2.数据离散程度的概括性度量3.数据分布形状的度量4.用Excel计算描述统计量

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com