集中趋势和离散趋势.pptx

上传人:莉*** 文档编号:87389694 上传时间:2023-04-16 格式:PPTX 页数:94 大小:1,015.91KB
返回 下载 相关 举报
集中趋势和离散趋势.pptx_第1页
第1页 / 共94页
集中趋势和离散趋势.pptx_第2页
第2页 / 共94页
点击查看更多>>
资源描述

《集中趋势和离散趋势.pptx》由会员分享,可在线阅读,更多相关《集中趋势和离散趋势.pptx(94页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、数据分布的特征集中趋势集中趋势 (位置位置)离散趋势离散趋势 (分散程度分散程度)偏态和峰度偏态和峰度(形状)(形状)第1页/共94页数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众众众 数数数中位数中位数中位数均均均 值值值离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差峰峰峰 度度度KurtosisKurtosisKurtosis四分位差四分位差四分位差极差极差极差偏偏偏 态态态SkewnessSkewnessSkewnessModeMedianMeanRangeQuartilesVariance and Standard Deviation第2页/共94页集中

2、趋势的测度集中趋势是对频数分布资料的集中状况和平均水平的综合测度。而离散趋势是对频数分布资料的差异程度和离散程度的测度,用来衡量集中趋势所测度的代表性,或者反映变量值的稳定性和均匀性。常用来表达数列集中趋势的测度有算术平均数、调和平均数、几何平均数、中位数和众数。这些测度在统计学中也称为平均指标或平均数,可以用来反映标志值的典型水平和标志值分布的中心位置或集中趋势。返回本章返回总目录第3页/共94页集中趋势(Central tendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据一般水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的集中趋势

3、测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5.选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定第4页/共94页均值(概念要点)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据第5页/共94页均值(计算公式)设一组数据为:设一组数据为:X X1 1,X X2 2,X XN N 简单均值简单均值的计算公式为的计算公式为设分组后的数据为:设分组后的数据为:X X1 1,X X2 2,X XK K 相应的频数为:相应的频数为:F F1 1,F F2 2

4、,F FK K加权均值加权均值的计算公式为的计算公式为第6页/共94页简单均值(算例)原始数据:10591368第7页/共94页加权均值(算例)表表表表4-1 4-1 某车间某车间某车间某车间5050名工人日加工零件均值计算表名工人日加工零件均值计算表名工人日加工零件均值计算表名工人日加工零件均值计算表按零件数分组按零件数分组按零件数分组按零件数分组组中值(组中值(组中值(组中值(X Xi i)频数(频数(频数(频数(F Fi i)X Xi iF Fi i105105 110110110110 115115115115 120120120120125125125125 130130130130

5、 135135135135 140140107.5107.5112.5112.5117.5117.5122.5122.5127.5127.5132.5132.5137.5137.53 35 58 8141410106 64 4322.5322.5562.5562.5940.0940.01715.01715.01275.01275.0795.0795.0550.0550.0合计合计合计合计50506160.06160.0计算计算50 50 名工人日加工零件数的均值名工人日加工零件数的均值第8页/共94页加权均值(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:考试

6、成绩(X):0 20 100 人数分布(F):1 1 8 乙组:考试成绩(X):0 20 100 人数分布(F):8 1 1第9页/共94页均值(数学性质)1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小第10页/共94页2.调和平均数调和平均数又称“倒数平均数”,它是根据各标志值的倒数来计算的平均数,即各个标志值倒数的算术平均数的倒数。调和平均数也分简单调和平均数和加权调和平均数。简单调和平均数的计算公式为:即设m为权数,则加权调和平均数的计算公式为:则第11页/共94页调和平均数(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定

7、比数据5.不能用于定类数据和定序数据6.计算公式为原来只是计原来只是计算时使用了算时使用了不同的数据不同的数据!第12页/共94页调和平均数(算例)表表表表 某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜蔬菜蔬菜名称名称名称名称批发价格批发价格批发价格批发价格(元元元元)X Xi i成交额成交额成交额成交额(元元元元)X Xi iF Fi i成交量成交量成交量成交量(公斤公斤公斤公斤)F Fi i甲甲甲甲乙乙乙乙丙丙丙丙1.201.200.500.500.800.801800018000125001250064006400150

8、0015000250002500080008000合计合计合计合计36900369004800048000【例例】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,计计算算三三种蔬菜该日的平均批发价格种蔬菜该日的平均批发价格第13页/共94页3.几何平均数几何平均数是计算平均比率和平均速度最适用的一种方法。几何平均数有简单几何平均数和加权几何平均数之分。简单几何平均数是次方根。个标志值连乘积的其计算公式为:在用几何平均数法计算平均数时,如果大于2,可采用对数法计算。计算公式为:第14页/共94页几何平均数(概念要点)1.集中趋势的测度值之一2.N 个变量值乘积的 N

9、 次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.6.可看作是均值的一种变形可看作是均值的一种变形第15页/共94页几何平均数(算例)一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率平均收益率103.84%-1=3.84%103.84%-1=3.84%第16页/共94页需要指出的是,当把几何平均数应用于经济现象时,必须注意经济现象本身的特点。只有当标志总量表现为各个标志值的连乘积时,才适合采用几何平均数方法来计算平均标志值。一般来说,计算社会经济现象在

10、各个时期的平均发展速度时,要采用几何平均数。例如,工农业总产值年平均发展速度、全国人口年平均发展速度等。第17页/共94页4.中位数中位数是一种按其在数列中的特殊位置而决定的平均数。把总体各单位标志值按大小顺序排列后,处在中点位次的标志值就是中位数,它将全部标志值分成两个部分,一半标志值比它大,一半标志值比它小,而且比它大的标志值个数和比它小的标志值个数相等。要求得中位数,首先要确定中位数的位次。未分组资料时,中位数位次 当总体位数 为奇数时,中位数就是中位数位次上的那个数据;当 为偶数时,中位数是中位数位次上2项数据的算术平均数。第18页/共94页分组资料时,中位数位次可以利用中位数所在组的

11、下限来测算中位数,即中位数的下限公式为:中位数中位数所在组的下限中位数所在组的次数总次数即各组次数总和小于中位数组的各组次数之和中位数所在组的组距式中:第19页/共94页也可以利用中位数所在组的上限来测算中位数,即中位数的上限公式为:式中:中位数所在组的上限大于中位数组的各组次数之和中位数最大的特点是:它是序列中间1项或2项的平均数,不受极端值的影响,所以在当一个变量数列中含有特大值与特小值的情况下,采用中位数较为适宜。正式由于中位数的这一特点,在统计研究中,当遇到掌握统计资料不多而且各标志值之间差异程度较大或频数分布有偏态时,为避免计算标志值所得的算术平均数偏大或偏小,就可利用中位数来表示现

12、象的一般水平。第20页/共94页中位数(概念要点)1.集中趋势的测度值之一2.排序后处于中间位置上的值MMe e50%50%3.3.不受极端值的影响不受极端值的影响4.4.主要用于定序数据,也可用数值型数据,但不能用于定主要用于定序数据,也可用数值型数据,但不能用于定类数据类数据5.5.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即第21页/共94页中位数(位置的确定)未分组数据:组距分组数据:第22页/共94页未分组数据的中位数(计算公式)第23页/共94页定序数据的中位数(算例)【例例】计计算算甲甲城城市市家家庭庭对对住住房房满满意意状况评价的中位数状况评

13、价的中位数解:解:中位数的位置为:中位数的位置为:300/2300/2150150从从累累计计频频数数看看,中中位位数数的的在在“一一般般”这这一一组组别别中。因此中。因此 MMe e一般一般表表表表 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意242

14、41081089393454530302424132132225225270270300300合计合计合计合计300300第24页/共94页数值型未分组数据的中位数(5个数据的算例)原始数据:24 22 21 26 20排 序:20 21 22 24 26位 置:1 2 3 4 5中位数 22第25页/共94页数值型未分组数据的中位数(6个数据的算例)原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6位置N+126+123.5中位数 8+928.5第26页/共94页1.根据位置公式确定中位数所在的组2.采用下列近似公式计算:4.该公式假定中位数

15、组的频数在该组内均匀分布数值型分组数据的中位数(要点及计算公式)第27页/共94页数值型分组数据的中位数(算例)表表表表 某车间某车间某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)累积频数累积频数累积频数累积频数105105 110110110110 115115115115 120120120120 125125125125 130130130130 135135135135 1401403 35 58 8141410106 64 43

16、 38 816163030404046465050合计合计合计合计5050【例例】计计算算50 50 名名工工人人 日日 加加 工工零零 件件 数数 的的中位数中位数第28页/共94页5.众数众数是一种位置平均数。众数是总体单位中,标志值出现次数最多的那个数值。为了确定众数的具体数值,可以利用下限公式或上限公式加以计算。计算众数的下限公式为:式中:众数众数组的下限众数组次数与上一组次数之差众数组次数与下一组次数之差众数组的组距第29页/共94页计算众数的上限公式为:式中:众数组的上限众数的计算只适用于单位数较多,且存在明显的集中趋势的情况,否则,计算众数时没有意义的。第30页/共94页众数(概

17、念要点)1.集中趋势的测度值之一2.出现次数最多的变量值3.不受极端值的影响4.可能没有众数或有几个众数5.主要用于定类数据,也可用于定序数据和数值型数据第31页/共94页众数(众数的不唯一性)无众数原始数据:10 5 9 12 6 8一个众数原始数据:6 5 9 8 5 5多于一个众数原始数据:25 28 28 36 42 42第32页/共94页定类数据的众数(算例)表表表表 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型广告类型广告类型人数人数人数人数(人人人人)比例比例比例比例频率频率频率

18、频率(%)(%)商品广告商品广告商品广告商品广告 服务广告服务广告服务广告服务广告 金融广告金融广告金融广告金融广告 房地产广告房地产广告房地产广告房地产广告 招生招聘广告招生招聘广告招生招聘广告招生招聘广告 其他广告其他广告其他广告其他广告11211251519 9161610102 20.5600.5600.2550.2550.0450.0450.0800.0800.0500.0500.0100.01056.056.025.525.54.54.58.08.05.05.01.01.0合计合计合计合计2002001 1100100【例例】根根据据第第三三章章表表3-13-1中中的的数数据据,计

19、算众数计算众数解解:这这里里的的变变量量为为“广广告告类类型型”,这这是是个个定定类类变变量量,不不同同类类型型的的广广告告就就是是变变量量值值。我我们们看看到到,在在所所调调查查的的200200人人当当中中,关关注注商商品品广广告告的的人人数数最最多多,为为112112人人,占占总总被被调调查查人人数数的的56%56%,因因此此众众数数为为“商商品品广广告告”这这一一类类别别,即即 MMo o商品广告商品广告第33页/共94页定序数据的众数(算例)【例例】根根据据第第三三章章表表3-23-2中中的的数数据据,计算众数计算众数解解:这这里里的的数数据据为为定定序序数数据据。变变量量为为“回回答

20、答类类别别”。甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这一类别,即这一类别,即 MMo o不满意不满意表表表表3-2 3-2 甲城市家庭对住房状况评价的频数分甲城市家庭对住房状况评价的频数分甲城市家庭对住房状况评价的频数分甲城市家庭对住房状况评价的频数分布布布布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)百分比百分比百分比百分比 (%)(%)非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满

21、意非常满意24241081089393454530308 83636313115151010合计合计合计合计300300100.0100.0第34页/共94页数值型分组数据的众数(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.4.该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布2.2.2.相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值即为众数即为众数即为众数M MMooo3.3.相邻两组的频数不相等时,众数采用下相邻两组的频数不相等时,众数采用下列近似公式计算列近似公式计算M MMoooM

22、MMooo第35页/共94页数值型分组数据的众数(算例)表表表表 某车间某车间某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)累积频数累积频数累积频数累积频数105105 110110110110 115115115115 120120120120 125125125125 130130130130 135135135135 1401403 35 58 8141410106 64 43 38 816163030404046465050合计合

23、计合计合计5050【例例】计计算算 5050名名 工工人人 日日 加加 工工零零 件件 数数 的的众数众数第36页/共94页四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QQL LQQMMQQU U25%25%25%25%第37页/共94页四分位数(位置的确定)未分组数据:组距分组数据:下四分位数下四分位数(QQL L)位置位置 =N+N+1 14 4上四分位数上四分位数(QQU U)位置位置 =3(3(N+N+1)1)4 4下四分位数下四分位数(QQL L)位置位置 =N N4

24、 4上四分位数上四分位数(QQL L)位置位置 =3N3N4 4第38页/共94页定序数据的四分位数(算例)【例例】计算甲城市家庭对住房满意状况评价的四分位数计算甲城市家庭对住房满意状况评价的四分位数解:解:下四分位数下四分位数(Q QL L)的位置为:的位置为:Q QL L位置位置(300)/4(300)/47575 上四分位数上四分位数(Q QL L)的位置为:的位置为:Q QUU位置位置(3300)/4(3300)/4225225从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QUU在在“一一般般”这一组别中。因此这一组别中。因此 Q QL L 不满意

25、不满意 Q QUU 一般一般表表表表 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300第39页/共94页数值型未分组数据的四分位

26、数(7个数据的算例)原始数据:23 21 30 32 28 25 26排 序:21 23 25 26 28 30 32位 置:1 2 3 4 5 6 7 N+N+1 1QL=237+7+1 1QQL L位置位置 =4 4=4 4=2=2QQU U位置位置 =3(3(N+N+1)1)4 43(73(7+1)1)4 4 =6=6QU=30第40页/共94页数值型未分组数据的四分位数(6个数据的算例)原始数据:23 21 30 28 25 26排 序:21 23 25 26 28 30位 置:1 2 34 5 6QQL L=21+0.75(23-21)=21+0.75(23-21)=22.522.5

27、QQL L位置位置 =N+N+1 14 4=6+6+1 14 4=1.75=1.75QQU U位置位置 =3(3(N+N+1)1)4 43(63(6+1)1)4 4=5.25=5.25QQU U=28+0.25(30-28)=28+0.25(30-28)=28.528.5第41页/共94页数值型分组数据的四分位数(计算公式)上四分位数上四分位数:下四分位数下四分位数:第42页/共94页数值型分组数据的四分位数(计算示例)QL位置50/412.5QQUU位置位置350/4350/437.537.5表表表表 某车间某车间某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表名工人日加

28、工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)累积频数累积频数累积频数累积频数105105 110110110110 115115115115 120120120120 125125125125 130130130130 135135135135 1401403 35 58 8141410106 64 43 38 816163030404046465050合计合计合计合计5050【例例】计计算算50 50 名名工工人人日日加加工工零零件件数数的的四分位数四分位数第43页/共94页第44页/共94页离散趋势的测度离散

29、趋势的测度,在统计学中也称为指标变异指标,是用来描述数列中指标值的离散趋势与离散程度的。常用的标志变异指标有极差、平均差和标准差等。1.极差极差是指一个数列中两个极端值即最大值与最小值之间的差异。根据极差的大小能说明标志值变动范围的大小。其计算公式为:极差最大标志值最小标志值根据组距数列求极差的计算公式为:极差最高组上限最低组下限在实际工作中,极差可以用于检查产品质量的稳定性和进行质量控制。在正常生产的条件下,产品质量稳定,极差在一定范围内波动,若极差超过给定的范围,就说明有不正常情况产伤。但极差受到极端是的影响,测定结果往往不能反映数据的实际离散程度。第45页/共94页甲、乙二人射击,结果如

30、下:甲:9.0,9.1,9.1,9.0,9.2,9.1,9.0,9.1乙:8.0,9.8,9.5,8.6,9.7,9.2,7.8,10他们成绩的平均数是:第46页/共94页极差(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010未分组数据未分组数据 R R =max(=max(X Xi i)-min()-min(X Xi i).=组距分组数据组距分组数据 R R 最高组上限最高组上限 -最低组下限最低组下限5.5.计算公式为计算公式为第47页/共94页例子1,3,4,

31、7,8,9,10求极差R=10-1=9第48页/共94页极差是离散程度的最简单测度值,它只利用了一组数据的两个极端值,易受极端值的影响,且不能反映中间数据的分散状况。比如:1,6,6,6,6,6,10这一组数据,极差是?R10-19和上一组极差值相同,都是9,如果以此断言两组数据离散程度相同,恐怕很不合适,直觉告诉我们后一组数据的差异比前一组数据大的多。返回第49页/共94页2.四分位差四分位差是根据四分位数计算的。首先把变量各单位标志值从小到大排序,再将数列四等分,处于四分位点位次的标志值就是四分位数,记作 ,为第一四分位数(也称为下四分位数),为第二四分位数,就是中位数 ,为第三四分位数。

32、四分位差的计算公式为:四分位差的计算步骤为:先寻找四分位数四分位数,然后根据四分位差的计算公式计算。第50页/共94页四分位差(定序数据的算例)【例例】计计算算甲甲城城市市家家庭庭对对住住房房满满意意状状况评价的四分位差况评价的四分位差解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2,2,一一般般为为3,3,满满意意为为 4,4,非非常常满满意意为为5 5 已知已知 MM1 1=不满意不满意 =2 2,MM3 3 =一般一般 =3 3四分位差:四分位差:=MM3 3 -MM1 1 =3 2 3 2 =1 1表表表表 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分

33、布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300第51页/共94页四分位差是对极差的一种改进。与极差相比,四分位差因不受极值的影响,在反映数据的离散程度方面比极差准确,具有较高的稳定性;同时,对

34、于存在开口的组距数列,不能计算极差,但可以计算四分位差。四分位差与极差相比较:四分位差和极差一样,不能充分利用数据的全部信息,也无法反映标志值的一般变动。第52页/共94页3.平均差平均差是各单位标志值对平均数的离差绝对值的平均数。平均差仅反映总体各单位标志值对其平均数的平均离差量。平均差越大,表明标志变异程度越大;反之,则表明标志变异程度越小。平均差通常用字母 表示。未分组资料时,其计算公式为:分组资料时,其计算公式为:第53页/共94页因为一组数据中各变量值与其均值之差有正号也有负号,正负加起来抵销正好等于零。第54页/共94页例:1,3,4,7,8,9,10各个离差如果不加绝对值的加起来

35、:(16)(36)(46)(76)(86)(96)(106)532123410100第55页/共94页求两组数据的平均差:例一:1,3,4,7,8,9,10 例二:1,6,6,6,6,6,10第56页/共94页平均差(计算过程及结果)表表表表 某车间某车间某车间某车间5050名工人日加工零件标准差计算表名工人日加工零件标准差计算表名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组按零件数分组按零件数分组组中值组中值组中值组中值(X Xi i)频数频数频数频数(F Fi i)|X Xi i-X X|X Xi i-X X|F Fi i105105 1101101101

36、10 115115115115 120120120120125125125125 130130130130 135135135135 140140107.5107.5112.5112.5117.5117.5122.5122.5127.5127.5132.5132.5137.5137.53 35 58 8141410106 64 415.715.710.710.75.75.70.70.74.34.39.39.314.314.347.147.153.553.545.645.69.89.843.043.055.855.857.257.2合计合计合计合计5050312312【例例】计算工人日加工零件数

37、的平均差计算工人日加工零件数的平均差第57页/共94页4.方差和标准差未分组资料时,方差的公式为:标准差的公式为:分组资料时,方差的公式为:标准差的公式为:式中:算术平均数总体单位数 各组次数方差标准差变量值 第58页/共94页需要指出的是,是总体标准差,而样本标准差为 。当样本较大时,由于 几乎等于 ,因此常用公式 代替公式 来计算样本标准差S,并用于估计总体标准差 。在小样本的情况下,较 为总体标准差 的更优良的估计量。返回本章返回总目录第59页/共94页方差和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据

38、计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12X=X=8.38.3第60页/共94页总体方差和标准差(计算公式)未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式第61页/共94页总体标准差(计算过程及结果)表表表表 某车间某车间某车间某车间5050名工人日加工零件标准差计算表名工人日加工零件标准差计算表名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组按零件数分组按零件数分组组中值组中值组中值组

39、中值(X Xi i)频数频数频数频数(F Fi i)(X Xi i-X X)2 2(X Xi i-X X)2 2F Fi i105105 110110110110 115115115115 120120120120125125125125 130130130130 135135135135 140140107.5107.5112.5112.5117.5117.5122.5122.5127.5127.5132.5132.5137.5137.53 35 58 8141410106 64 4246.49246.49114.49114.4932.4932.490.490.4918.4918.4986.

40、4986.49204.49204.49739.47739.47572.45572.45259.92259.926.866.86184.90184.90518.94518.94817.96817.96合计合计合计合计50503100.53100.5【例例】计算工人日加工零件数的标准差计算工人日加工零件数的标准差第62页/共94页样本方差和标准差(计算公式)未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!第63页/共94页样本方差自由度(degree of fr

41、eedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量第64页/共94页样本方差(算例)原始数据:10 5 9 13 6 8第65页/共94页样本标

42、准差(算例)样本标准差原始数据:10 5 9 13 6 8第66页/共94页方差(简化计算公式)样本方差总体方差第67页/共94页方差(数学性质)各变量值对均值的方差小于对任意值的方差设X0为不等于X 的任意数,D2为对X0的方差,则第68页/共94页5.离散系数上述的各种标志变异度指标,都是对总体中各单位指标值变异测定的绝对量指标。而离散系数是测定总体中各单位标志值变异的相对量指标,以消除不同总体之间在计量单位、平均水平方面的不可比因素。常用的离散系数主要有平均差离散系数 和标准差离散系数其公式分别为:第69页/共94页离散系数上面介绍的各离散程度的测度值,反映的是数据分散程度的绝对值,其数

43、值的大小取决于原变量值绝对水平的高低。举个例子:两组数据:第一组:5,10,20,25,30第二组:100000,100005,99995,100020,100040第70页/共94页第一组数据极差25第二组数据极差45第一组数据平均差8.4第二组数据平均差14.4第一组数据方差107.5标准差10.36822第二组数据方差332.5标准差18.23458第71页/共94页还比如如果一组测量人的重量的数据:65(公斤),75,60,62,58极差17 平均差4.8 方差44.5 标准差6.670832而如果将这些人的体重改成用吨计算,则数据变成:0.065(吨),0.075,0.06,0.06

44、2,0.058极差0.017 平均差0.0048 方差0.000045 标准差0.006671第72页/共94页因此,对平均水平不同或计量单位不同的不同组别的变量值,不能直接的用上述离散程度的测度值进行直接的比较各组的离散程度。为了消除变量值水平的高低和计量单位不同对离散测度值的影响,我们计算离散系数值。离散系数一般是用标准差计算的,也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为:第73页/共94页刚刚讲的一个例子:第一组:5,10,20,25,30离散系数10.368/18=0.576第二组:100000,100005,99995,100

45、020,100040离散系数18.23/100012=0.00018232392第74页/共94页体重的那个例子:65(公斤),75,60,62,58离散系数0.104231750.065(吨),0.075,0.06,0.062,0.058离散系数0.104234375第75页/共94页离散系数(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为第76页/共94页离散系数(实例和计算过程)表表表表 某管理局所属某管理局所属某管理局所属某管理局所属8 8家企业的产品销售数据家企业的产

46、品销售数据家企业的产品销售数据家企业的产品销售数据企业编号企业编号企业编号企业编号产品销售额(万元)产品销售额(万元)产品销售额(万元)产品销售额(万元)X X1 1销售利润(万元)销售利润(万元)销售利润(万元)销售利润(万元)X X2 21 12 23 34 45 56 67 78 8170170220220390390430430480480650650950950100010008.18.112.512.518.018.022.022.026.526.540.040.064.064.069.069.0【例例】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售

47、售数数据据如如表表。试比较产品销售额与销售利润的离散程度试比较产品销售额与销售利润的离散程度第77页/共94页离散系数(计算结果)X X1 1=536.25536.25(万元)(万元)S S1 1=309.19309.19(万元)(万元)V V1 1=536.25536.25309.19309.19=0.5770.577S S2 2=23.0923.09(万元)(万元)V V2 2=32.521532.521523.0923.09=0.7100.710X X2 2=32.521532.5215(万元)(万元)结结论论:计计算算结结果果表表明明,V V1 1 0为右偏分布4.偏态系数 0为左偏分

48、布5.计算公式为第84页/共94页偏态(实例)【例例】已已知知19971997年年我我国国农农村村居居民民家家庭庭按按纯纯收收入入分分组组的的有有关关数数据据如如表表。试试计计算偏态系数算偏态系数表表表表 1997 1997年农村居民家庭纯收入数据年农村居民家庭纯收入数据年农村居民家庭纯收入数据年农村居民家庭纯收入数据按纯收入分组(元)按纯收入分组(元)按纯收入分组(元)按纯收入分组(元)户数比重(户数比重(户数比重(户数比重(%)500500以下以下以下以下50010005001000100015001000150015002000150020002000250020002500250030

49、0025003000300035003000350035004000350040004000450040004500450050004500500050005000以上以上以上以上2.282.2812.4512.4520.3520.3519.5219.5214.9314.9310.3510.356.566.564.134.132.682.681.811.814.944.94第85页/共94页户户户数数数比比比重重重(%)(%)(%)25252020151510105 5农村居民家庭村收入数据的直方图农村居民家庭村收入数据的直方图偏态与峰度(从直方图上观察)按纯收入分组按纯收入分组按纯收入分组(

50、元元元)10001000500500150015002000200025002500300030003500350040004000 4500450050005000结论结论:1.1.为右偏分布为右偏分布 2.2.峰度适中峰度适中第86页/共94页偏态系数(计算过程)表表表表4-10 4-10 农村居民家庭纯收入数据偏态及峰度计算表农村居民家庭纯收入数据偏态及峰度计算表农村居民家庭纯收入数据偏态及峰度计算表农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组按纯收入分组按纯收入分组按纯收入分组(百元)(百元)(百元)(百元)组中值组中值组中值组中值X Xi i户数比重户数比重户数比重户数比重(%

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com