统计学第三章 统计整理.ppt

上传人:s****8 文档编号:67209671 上传时间:2022-12-24 格式:PPT 页数:51 大小:350KB
返回 下载 相关 举报
统计学第三章 统计整理.ppt_第1页
第1页 / 共51页
统计学第三章 统计整理.ppt_第2页
第2页 / 共51页
点击查看更多>>
资源描述

《统计学第三章 统计整理.ppt》由会员分享,可在线阅读,更多相关《统计学第三章 统计整理.ppt(51页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第三章第三章 统计整理统计整理一、统计数据的预处理一、统计数据的预处理二、数据分组与频数分布二、数据分组与频数分布三、统计表和统计图三、统计表和统计图 统计数据的整理(统计数据的整理(summarizing data)是指是指对所搜集的数据进行加工整理、使之系统化、对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。条理化,以符合分析的需要。统计数据的整理统计数据的整理通常包括:数据的预处理数据的预处理 分类分类或或分组分组 汇总汇总一、数据的预处理一、数据的预处理数据的审核、筛选与排序1.数据的审核发现数据中的错误2.数据的筛选找出符合条件的数据3.数据排序发现数据的基本特征升

2、序和降序数据的审核 审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等如:如:文化程度:小学 职业:大学教师数据的审核(原始数据)审核数据准确性的方法审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对定类数据和定序数据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对定距和定比数据的审核数据的审核(第二手数据)1.适用性审核弄清楚数据的来源、数据的

3、口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要2.时效性审核应尽可能使用最新的统计数据3.确认是否必要做进一步的加工整理数据的筛选1.对审核过程中发现的错误应尽可能予以纠正2.当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选3.数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出数据的排序(要点)1.按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2.排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3.在某些场合,排序本身就是分

4、析的目的之一4.排序可借助于计算机完成数据的排序(方法)1.定类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2.定距和定比数据的排序递增排序:设一组数据为X1,X2,XN,递增排序后可表示为:X(1)X(2)X(2)X(N)统计分组统计分组是将预处理过的数据按照某种特征或标是将预处理过的数据按照某种特征或标准分成不同的组别。准分成不同的组别。统计分组标志统计分组标志:分组时所依据的特征或标准,有品质标志品质标志和数量标志数量标志。频数分布表频数分布表:对分组后的数据,计算各组中数对分组后的数据,计

5、算各组中数据出现的次数或频数所形成的汇总表。据出现的次数或频数所形成的汇总表。预处理数据分组计算频数描述统计 二、数据分组与频数分布二、数据分组与频数分布 频数分布频数分布或次数分布次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。全部数据按其分组标志在各组内的分布状况。分布在各组内的数据个数称为频数频数或次数次数。A frequency distribution is a tabular summary of a set of data showing the frequency(or number)of items in each of se

6、veral nonoverlapping classes.相对频数相对频数(Relative frequency)/频率频率/比重比重:各组频数与全部频数之和的比重。The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)百分数频数百分数频数(Percentage frequency):is the relative frequency multiplied by 100.概念:概

7、念:频数频数/次数分布;相对频数;百分数频数次数分布;相对频数;百分数频数 (一)品质数据的分组与频数分布一)品质数据的分组与频数分布 例例6:50个计算机购买者所购买的不同品牌的机型数据个计算机购买者所购买的不同品牌的机型数据 Table,Frequency Distribution/Relative and Percentage Frequency of Computer Purchases Company Frequency Relative Frequency Percentage Frequency Apple 13 0.26 26 Compaq 12 0.24 24 Gatewy2

8、000 5 0.10 10 IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100分组与求频数分组与求频数:The objective in developing a frequency distribution is to provide insights about the data that cannot be quickly obtained by looking only at the original data.分组计频分组计频基本步骤基本步骤:确定组数确定组数 确定组距确定组距(按组)整理成分布频数表整理成分布频数表 例:例

9、:一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表:(二)数值数据的分组与频数分布(二)数值数据的分组与频数分布 可先先将数据进行排序排序,然后后根据需要分组分组;对较少的数据也可不排序直接根据需要分组。Table Year-End Audit Times(in days)12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13 第一步第一步,确定组数确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。经验上经验上以520之间为好,尤其注意不要确

10、定太多的组数,使得每组包含的数据太少。实际分组实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:其中N为数据的个数(总体单位数或样本数),一般对结果取整数。上例中:上例中:K=1+lg20/lg2=1+4.32=5.32 5 第二步第二步,确定组距确定组距(Width of classes):组距组距是是一个组的上限与下限之差一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:组距组距=(最大值(最大值-最小值)最小值)/组数组数 上例中,组距上例中,组距=(33-12)/5=4.2,可取整数,可取整数5为最为最后选定的组距。后选定的组距。第三步第三步,

11、确定各组组限确定各组组限(Class limits)并据此整并据此整理频数分布表理频数分布表。1、分组所遵循的主要原则主要原则是“不重不漏不重不漏”(each data value belongs to one class and only one class)。因此,最低组限最低组限(The lower class limit)数据的最小值,最大组限最大组限(The upper class limit)数据的最大值;另外另外,数据在每组中的归属习惯上采用“上组限上组限不在内不在内”。注意:注意:2、对离散型数据离散型数据,可采用相邻两组组限间断的办可采用相邻两组组限间断的办法解决法解决“不重

12、不重”的问题的问题(如610,1115,1620等);对连续型数据连续型数据,往往采用相邻两组组限重叠,往往采用相邻两组组限重叠,根据根据“上限不在内原则上限不在内原则”解决解决“不重不重”问题问题(如5,10),10,15),15,20)等)。上例是离散型数据(天),采用组限间断方法,因此可得频数分布表如下:Table,Frequency distribution,relative frequency and percent frequency distribution for the audit-time data Audit Frequency Relative Percent Time

13、(days)Frequency Frequency 1014 4 0.20 20 1519 8 0.40 40 2024 5 0.25 25 2529 2 0.10 10 3034 1 0.05 5 Total 20 1.00 100 品质数据品质数据往往使用柱状图柱状图(Bar graphs)和饼状图饼状图(Pie Charts);数值数据数值数据往往使用直方图直方图(Histograms)、折线图折线图(Polygon)、茎茎 叶图叶图(Stem-and-leaf display)。Fig1,Bar Graph of Computer Purchases三、频数三、频数/次数分配的图示次数

14、分配的图示柱状图是一种图形方法,用于描述已经被汇总为频数分布、相对频数分布或百分比频数分布的数据。在图的横轴上,规定对数据分组(类)的标记。在纵轴上标有频数、相对频数分布或百分比频数的刻度。饼状图是另一种表示相对频数和百分比频数分布的图形方法。饼状图中的每一部分所显示的数值可以是频数、相对频数、或者百分比频数。直方图直方图是用距形的是用距形的宽度和高度来表示宽度和高度来表示频数分布的图形频数分布的图形(以横轴表示数据(以横轴表示数据分组,纵轴表示频分组,纵轴表示频数或频率)。其特数或频率)。其特点是用各组条形的点是用各组条形的面积表示各组频数。面积表示各组频数。(一)直方图和折线图(一)直方图

15、和折线图注意:注意:直方图基本上与柱状图相同,只是在柱之间没有间隔,直方图中相邻的条必须接触。折线图折线图也称频数多边形图频数多边形图(polygon),是将直方是将直方图顶部的中点(即组中值)用直线连接起来而成的图顶部的中点(即组中值)用直线连接起来而成的图形。图形。Fig 3,Frequency Polygon for the Audit-Time Data 1、折线图的两个终点要与横轴相交折线图的两个终点要与横轴相交(将第一个矩形顶部中点通过左竖边中点连接到横轴;将最后一个矩形顶部中点与其右竖边中点连接到横轴)。2、折线图下所围成的面积与直方图面积相等折线图下所围成的面积与直方图面积相等

16、(为1),从而使二者表示的频率分布是一致的。注意:注意:茎叶图茎叶图是一种既给出数据的分布状况,又能是一种既给出数据的分布状况,又能显示每一个原始数值的图形。显示每一个原始数值的图形。A stem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of quantitative data.茎叶图由两部分组成茎叶图由两部分组成:茎茎(stem)与叶叶(leaf)茎:茎:通常由每组数的高位数值(leading digits)形成,

17、按组竖立在左边;叶:叶:通常由每组数的低位数值(last digits)形成,按组横排在“茎”的右边。(二)茎叶图(二)茎叶图 下图下图是上述例中会计公司对其20个客户年终财务审计所用时间的茎叶图。Stem-and-leaf display for the Audit-Time Data 1 2 3 4 4 5 5 6 7 8 8 8 9 2 0 1 2 2 3 7 8 3 3可知其对大多数客户的审计时间在1020天之间 上面茎叶显得过于拥挤,尤其是第一行有太多数,可将期扩展为下图的形式。茎业图所表现的数据分布特征与直方图十分相似。但茎叶图有明显优势明显优势:1.The stem-and-le

18、af display is easier to construct;2.The stem-and-leaf display provides more information because it shows the actual data values.Stem-and-leaf display for the Audit-Time Data 1 2 3 4 4 1 5 5 6 7 8 8 8 9 2 0 1 2 2 3 2 7 8 3 3 (三)频数分布曲线的类型(三)频数分布曲线的类型 日常经济生活中,常见的频数分布曲线主要有正态分布正态分布、偏态分布、偏态分布、J型分布、型分布、U型分

19、布型分布等几种类型等几种类型。其次还有双峰型双峰型、孤岛型孤岛型及锯齿型锯齿型等其他类型。频数分布曲线的类型正态分布正态分布正态分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布几种常见的频数分布曲线几种常见的频数分布曲线几种常见的频数分布曲线几种常见的频数分布曲线正态分布曲线(钟形曲线):左右对称的倒挂的钟,是客观事物数量特征表现最多的一种次数曲线。例:人的身高,体重,智商等。偏态曲线:根据尾巴拖向哪一方分为正偏(右偏)和负偏(左偏)两种曲线。例,人均收入分配的曲线,即低收入的人数较多,高收入的人

20、较少,因此在左边形成高峰。J形曲线:有正J形和倒J形曲线两种,分别如供给曲线和需求曲线。供给曲线(正J形曲线)随着价格(横轴)的增加,供给量(纵轴)以更快的速度增加;需求曲线(倒J形曲线)随着价格(横轴)的增加,需求量(纵轴)以较快的速度减少。U形曲线(生命曲线和浴盆曲线)。如,人和动物的死亡率。婴儿时期高,中年最低,老年高。累计频数(频率)分布曲线,可用于分累计频数(频率)分布曲线,可用于分析社会财富、土地和工资收入等的分配析社会财富、土地和工资收入等的分配是否公平的问题是否公平的问题。该曲线图是由美国洛该曲线图是由美国洛伦茨博士提出,故称为伦茨博士提出,故称为洛伦茨曲线洛伦茨曲线。某国家收

21、入所得的分配情况某国家收入所得的分配情况按收入按收入所得水所得水平分组平分组人口人口收入收入累计收入的累计收入的(%)人口数人口数(万人)(万人)结构结构%累计累计%月收入额月收入额(亿美元)(亿美元)结构结构%实际累实际累计计%绝对绝对平等平等绝对绝对不平等不平等最低最低中下等中下等中等中等较高较高最高最高128.5348.0466.945.611.012.8534.8046.694.561.112.8547.6594.3498.91001.574.0816.337.541.8851352246518709410012.8547.6594.3498.9100 0000100合计合计1000.

22、0100.0_31.40100_洛伦茨曲线洛伦茨曲线20 40 60 80 100 80 60 40 20 0100绝对平等线实际收入分配线绝对不平等线绝对不平等线人口(%)收入(%)AB 20世纪初意大利经济学家基尼,根据洛伦世纪初意大利经济学家基尼,根据洛伦茨曲线找出了判断分配平等程度的指标茨曲线找出了判断分配平等程度的指标。实际收入分配曲线和收入分配绝对平等曲线实际收入分配曲线和收入分配绝对平等曲线之间的面积为之间的面积为A,实际收入分配曲线右下方的面实际收入分配曲线右下方的面积为积为B。以。以A除以除以A+B的商表示不平等程度。这的商表示不平等程度。这个数值被称为个数值被称为基尼系数基

23、尼系数或称或称洛伦茨系数洛伦茨系数。洛伦茨曲线和基尼系数洛伦茨曲线和基尼系数当A=0时,A/(A+B)=0,则基尼系数为0,收入分配完全平等;当B=0时,A/(A+B)=1,则基尼系数为1,收入分配绝对不平等;所以,基尼系数可在0和1之间取任何值。联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。基尼系数还可用于财产、资本、资源、产品、市场等资源分配均衡程度的分析。频数分布的应用:频数分布的应用:例例8:80年代初,我国工业企业推行全面质量管理,某床单厂厂长曾对其生产的某种规格的

24、床单进行抽检,并做了直方图。按长度质量标准,合格的床单长度为215cm,容许误差为3cm。对所抽取的100条床单进行统计,发现最长的达265cm,最短的为214cm,分组后的频数分布表及直方图如下:频数分布表频数分布表 床单长度分组(cm)床单数(条)213218 5 218223 8 223228 16 228233 32 233238 17 238243 12 243248 5 248253 0 253258 1 258263 3 263258 1 Total 100直方图直方图 直方图呈孤岛型,说明直方图呈孤岛型,说明:1、本质上反映了两个总体,该两总体都遵从正态分布;其中95%的单位属

25、一总体,5%的单位属另一总体。2、根据长度质量标准,只有5%的床单在正常范围(在212218cm之间),而95%的床单均大于218cm,显然存在着对床单的长度“宁长勿短”的思想,因此造成浪费 (上述100条床单总长度达233m,如果按照215cm的标准长度,可裁成108床,若按212cm长度可裁成110床)。原因检查:原因检查:为了提高生产水平,增加经济效益,厂长深入到裁剪长度工序了解情况,发现:床单的生产工序是在一大联匹布上,印上印床单的生产工序是在一大联匹布上,印上印花,由一位老女工手工量测并用剪刀裁剪。花,由一位老女工手工量测并用剪刀裁剪。基本的做法是:基本的做法是:双手拉着床单量两下,

26、然后下剪。双手拉着床单量两下,然后下剪。在裁剪工序还有两位女工,目测检查所裁床单是否在裁剪工序还有两位女工,目测检查所裁床单是否有残次花色及其他疵点。有残次花色及其他疵点。工作时,总以为手扯的长度可能会短,于是再工作时,总以为手扯的长度可能会短,于是再目测一下,加一点长度再下剪;目测一下,加一点长度再下剪;有时还会有一位检查残次的女工帮助裁剪,其有时还会有一位检查残次的女工帮助裁剪,其误差更大,这就是误差更大,这就是“孤岛孤岛”产生的原因。产生的原因。解决问题:解决问题:在没有使用机器裁剪的情况下,厂长会同车间管理者一道要求裁剪时按下述做法进行:在保持用手扯两次,将要下剪时,将原来习在保持用手

27、扯两次,将要下剪时,将原来习惯上要下剪处用左手握拳,少裁一拳。惯上要下剪处用左手握拳,少裁一拳。一拳大约有15cm,这样,原来下100条的床单料,此时几乎可多裁出8床床单。既提高了床单合格率,又提高了经济效益。三、统计表和统计图三、统计表和统计图统计表的结构和设计统计图统计表的结构表表3-14 19971998年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料项目项目单位单位1997年年 1998年年 一、调查户数一、调查户数 二、平均每户家庭人口数二、平均每户家庭人口数 三、平均每户就业人口数三、平均每户就业人口数 四、平均每人全部收入四、平均每人全部收入 五、平均每人实际支出五、平均每人

28、实际支出 消费性支出消费性支出 非消费性支出非消费性支出 六、平均每人居住面积六、平均每人居住面积户户人人人人元元元元元元元元平方米平方米 37890 3.19 1.83 5188.54 4945.87 4185.64 755.94 11.90 39080 3.16 1.80 5458.34 5322.95 4331.61 987.17 12.40资料来源:中国统计摘要1999,中国统计出版社,1999,第79页。注:1本表为城市和县城的城镇居民家庭抽样调查材料。2消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗 保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。行行行行标标标

29、标题题题题表头表头表头表头列列列列标标标标题题题题数数数数字字字字资资资资料料料料附附附附加加加加1.要合理安排统计表的结构2.总标题内容应满足3W要求3.数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明4.表中的上下两条横线一般用粗线,其他线用细线5.通常情况下,统计表的左右两边不封口6.表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一7.对于没有数字的表格单元,一般用“”表示8.必要时可在表的下方加上注释统计表的设计统计图统计图 (一)线图(一)线图 图3-1 中国GDP及三次产业增加值 (二)条形图(二)条形图/柱状图柱状图 (三)圆形图(三)圆形图/饼状图饼状图本章小结本章小结1.数据预处理的内容和目的数据预处理的内容和目的2.数据分组方法与频数分布特征数据分组方法与频数分布特征3.合理使用统计图表合理使用统计图表4.用用Excel作作频数分布表和图形频数分布表和图形

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com