统计学原理复习重点概述.doc

上传人:叶*** 文档编号:37579933 上传时间:2022-09-01 格式:DOC 页数:31 大小:110KB
返回 下载 相关 举报
统计学原理复习重点概述.doc_第1页
第1页 / 共31页
统计学原理复习重点概述.doc_第2页
第2页 / 共31页
点击查看更多>>
资源描述

《统计学原理复习重点概述.doc》由会员分享,可在线阅读,更多相关《统计学原理复习重点概述.doc(31页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、统计学原理复习重点概述本课程主要包括三部分知识。第一部分统计基础知识第一章与第二章数据收集部分。第二部分描述统计第二章统计数据整理部分(表格与图形法)、第三章数据分布特征的描述(静态数据描述法)与动态数据描述法,即第六章时间数列分析与第八章统计指数。第三部分推断统计第四章抽样估计与第五章假设检验与方差分析。第一章 绪论。本章介绍统计学及相关概念,勾勒了本课程的框架结构描述统计学与推断统计学。是统计的三层含义,总体、样本及指标等概念。统计的三层含义及相互关系统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释与推断的科学。(一)统计工作(统计的基本含义)即统计实践活动,是人们对客观

2、事物的数据资料进行搜集、整理、分析的工作活动的总称。(二)统计资料是统计工作的成果,包括各种统计报表、统计图形及文字资料等。(三)统计学是一门收集、整理、描述、显示与分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。(四)三者关系统计学与统计实践活动的关系是理论与实践的关系,理论源于实践,理论又高于实践,反过来又指导实践 。统计工作与统计数据是工作与工作成果关系。统计实践活动的产生与发展三个主要的统计学派1、政治算术学派代表人物:英国的威廉配第(1623-1687)、约翰格朗特(1620-1674)等。 威廉配第的代表著政治算术对当时的英、荷、法等国的“

3、 国富与力量”进行了数量的计算与比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。 可以说,威廉配第是统计学的创始人。2、记述学派(国势学派 代表人物:德国的康令(16061681) 阿亨瓦尔(17191772; 1764年首创统计学一词)他们在大学中开设“ 国势学”课程,采用记述性材料,讲述国家“ 显著事项”,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。3、数理统计学派代表人物:比利时的凯特勒(1796-1874)他把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。凯特勒把德国的国势学派、英国的政治算术学派与意大利、法

4、国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人。代表著作:社会物理学有的教材分类古典统计学时期(17世纪中后期18世纪中后期) 1.政治算术学派:代表人物威廉配第(政治经济学之父),首次运用数量对比分析法,又称“有名无实”的统计学。 2.记述学派/国势学派:“统计学是研究一国或多国的显著事项之学”,以文字描述为主,又称“有实无名”的统计学。 3.图表学派:用统计图与统计表表现与保存统计资料。近代统计学时期(18世纪末19世纪末) 1.数理统计学派:创始人阿道夫凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为“近代统计学之父”。 2.社会统计学派:代表人物恩格尔,采

5、用大量观察法研究社会经济现象总体。现代统计学时期(20世纪初至今) 1.主要成果:在随机抽样基础上建立了推断统计学。 2.数理统计学的发展特点与趋势 (1)数学方法的广泛应用。 (2)边缘统计学的形成。 (3)借助计算机手段,统计学的应用日益广泛与深入。 统计学的分类从统计方法的构成角度分:1、描述统计学(descriptive statistics) 研究如何取得、整理与表现数据资料,进而通过综合、概括与分析反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。 2、推断统计学(inferential statistics) 研究如何根据样本数据去推断

6、总体数量特征的方法。包括抽样估计、假设检验、方差分析及相关与回归分析等。 描述统计学与推断统计学的关系描述统计学是统计学的基础与统计研究工作的前提,推断统计学则是现代统计学的核心与统计工作的关键。从统计方法的研究与应用角度分:1、理论统计学(theoretical statistics) 利用数学原理研究统计学的一般理论与方法的统计学,如概率论与数理统计2、应用统计学(applied statistics)*研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。统计学与其他学科的关系(一)统计学与数学的关系1、区别

7、(1)研究对象不同:数学研究抽象的量, 统计研究具体的量。 (2)研究方法不同:数学是演绎,统计是归纳与演绎的结合。2.、联系 数学为统计研究提供数学公式、模型与分析方法。(二、)统计学与其他学科的关系统计几乎与所有学科都有联系。统计方法可以帮助其他学科探索学科内的数量规律性,但对这种数量规律性的解释与进一步的研究,只能由各学科自已的研究完成。统计的研究对象、特点、作用统计的研究对象 、特点:社会经济统计,也可称为经济统计,其研究对象是社会经济现象总体的数量规律,即通过对(社会)经济现象的规模、水平、结构、比例与速度等数量关系的调查研究,说明国民经济与社会发展在一定时间、地点、条件下的数量表现

8、及变化规律,其中涉及到数量的多少、现象间的数量关系以及质量互变的数量界限等。社会经济统计学研究的就是在一定的质的规定下具体的不是抽象的数量表现与变化规律。社会经济统计的特点:1、数量性: 统计研究对象是客观事物的数量方面。2、总体性: 社会经济统计认识社会经济现象时,主要是研究社会经济现象的总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总表达象的变化情况及规律。 3、具体性: 社会经济统计的研究对象是具体事物的数量,不是抽象的量。它与数学研究的数量是不尽相同的。4、社会性:社会经济统计认识的对象是社会经济现象,它包括人类经济社会活动的各种条件(自然条件、社会条件)、人类各种活

9、动的过程与结果(生产活动、交换活动、分配活动、消费活动等)。统计的职能:信息职能、咨询职能、监督职能。统计学中几个基本概念统计总体与总体单位总体 即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体。 例如:要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。特点: 同质性 是确定总体的前提与基础。它是根据统计的研究目的而定的。 研究目的不同,则所确定的总体也不同,其同质性的意义也随之变化。例如,研究城镇居民贫困户的生活状况,那么,贫困线下的城镇居民户则构成了统计总体,贫困线下的城镇居民户是同质的,而贫困线上的城镇居民户是非同质的。 大量性 统计总体应该由足够数量的

10、同质性单位构成。实现统计研究目的的必要条件 差异性 构成总体的各个同质性单位的特征存在着差异。它是统计研究的前提与内容。总体单位(简称单位)是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。总体与单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。根据总体所包含的单位数量,总体可以分为有限总体与无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。样本 由总体的部分单位组成的集合称为样本(又称子样)。当总体单

11、位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称全及总体、母体)中,抽取一部分单位,作为总体的代表加以研究。样本也由一定数量的单位构成的,符合总体的概念;由样本单位组成的总体称为抽样总体,样本所包含的总体单位数称为样本容量。标志与变量总体各单位普遍具有的属性或特征称为标志。标志分类: 品质标志:品质属性方面的特征,只能用文字、符号或数字代码来表现 。 数量标志:数量方面的特征,用数值来表现。 不变标志: 一个总体中各单位某标志的具体表现都相同,称之为不变标志。不变标志是总体同质性的基础。 一个总体至少要有一

12、个不变标志,才能够使各单 位结合成一个总体。 变异标志:亦称可变标志,在一个总体中,当一个标志在各单位的具体表现有可能不同时,这个标志便称为可变标志。作为总体,同时必须存在变异标志,这表示所研究的现象在各单位之间存在着差异,才需要进行统计研究。统计指标统计指标是反映统计总体数量特征的概念与数值。如2002年我国国内生产总值104790.6亿元。 统计指标由两项基本要素构成,即指标的概念(名称)与指标的取值。 指标的概念(名称)是对所研究现象本质的抽象概括,也是对总体数量特征的质的规定性。确定统计指标必须有一定的理论依据,使之与社会经济或科学技术的范畴相吻合。同时,又必须对理论范畴与计算口径加以

13、具体化。 指标的数值反映所研究现象在具体时间、地点、条件下的规模与水平。在观察指标数值时,必须了解其具体的时间状态、空间范围、计量单位、计量方法等限定,同时注意由于上述条件的变化而引起数值的可比性问题。特性:数量性、具体性、综合性指标与标志的关系 标志反映总体单位的属性与特征,而指标则反映总体的数量特征。标志与指标的关系是个别与整体的关系。需要通过对各单位标志的具体表现进行汇总与计算才能得到相应的指标。 总体与单位的概念会随着研究目的不同而变化,因此指标与标志的概念也是相对而言的。例如,所要研究的是全国工业企业的情况,则各企业的职工人数、固定资产、工业增加值等都是总体单位(即各个企业)的标志,

14、如果研究目的变成研究某一企业的职工状况,则该企业变成一个总体,企业职工人数变成了统计指标,每个职工的文化程度、技术等级、性别等就成为标志。统计数据(一)变量与变量值说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。例如,气象上的温度、湿度,零件的尺寸等。离散型变量是指变量的其取值是整数值,可以一一列举。例如,企业数,职工

15、人数等。确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释与可控制的。随机变量则是受许多微小的不确定因素(又称随机因素)影响的变量。变量的取值无法事先确定。社会经济现象既有确定性变量也有随机变量。统计学所研究的主要是随机变量。(二)数据的计量尺度统计数据是总体单位标志或统计指标的具体数量表现。根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度与定比尺度。(三)数据的类型横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据又称为动态数据,它是指在不同时间对同一

16、总体的数量表现进行观察而获得的数据。例如,2005年全国各省市自治区的国内生产总值就属于横截面数据。而“十五”期间我国历年的国内生产总值就属于时间序列数据。(四)数据的表现形式绝对数。现象的规模、水平一般以绝对数形式表现。绝对数的计量单位一般为实物单位或价值单位,有时也采用复合单位。实物单位可以是自然计量单位,也可以是物理计量单位,如人口数用人计量,机器数用台计量,对于一些化工产品与燃料,常常还折合成标准实物单位计量。复合计量单位是由两种或两种以上计量单位复合而成的,如以“吨公里”为货物周转量的计量单位,以“千瓦时”为用电量的计量单位。相对数。相对数由2个互相联系的数值对比求得。常用的相对数包

17、括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。平均数。平均数反映现象总体的一般水平或分布的集中趋势。关于这部分的内容,将在第三章作详细介绍。第二章统计数据的收集与整理。本章介绍统计数据的搜集及整理。重点在于统计调查方式与统计数据整理(分组)。统计调查方式:1、普查: 为某一特定目的而专门组织的一次性全面调查 如:人口普查、工业普查等特点: (1)通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间;(2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏; (3)准确性一般较高,较规范; (4)适用的对象较窄,只能调查一些最基本、最

18、一般的现象。2、抽样调查:从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果推断总体数量特征。 特点: (1)经济性强:工作量小、可节省人、财、物力 (2)时效性高:可迅速、及时地获得所需要的信息 (3)适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查; (4)准确性高:用工量小,从而工作可做得更细,误差往往很小。3、统计报表按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。 特点: 统一的表式、统一的指标、统一的报送时间、统一的报送程序。 类型: (1)按报送调查范围分: 全面报表:调查对象中的每一个单位都填报 非全面报表:只要求调查对

19、象中的一部分单位填报 (2)按报送时间间隔分 日报、月报、季报、年报 (3)按报送地域(机构)范围分: 国家报表、地方报表、部门报表4、重点调查从调查对象的全部单位中选择少数重点单位进行调查(适用于“同类”中的“大户”)。5、典型调查 从调查对象的全部单位中选择一个或几个有代表性的单位进行调查。(不一定针对“大户”) 注意: 重点调查、典型调查与抽样调查的不同处在于: 1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征; 2、重点调查与典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。数据的搜集方法1、访问调查(派员调查):调查

20、者与被调查者通过面对面的交谈获取调查资料; 2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点; 3、 调查:调查者利用 同受访者进行语言交流以获取信息; 4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料; 5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。 统计数据的整理(summarizing data)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。统计数据的整理通常包括: 数据的预处理 分类或分组 汇总数据分组与频数分布 统计分组是将预处理过的数据按照某种特征或标准分成不同的组

21、别。 统计分组标志:分组时所依据的特征或标准,有品质标志与数量标志。 频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。 概念:频数/次数分布;相对频数;百分数频数 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。 分布在各组内的数据个数称为频数或次数。 A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonov

22、erlapping classes. 相对频数(Relative frequency)/频率/比重:各组频数与全部频数之与的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n) 百分数频数(Percentage frequency):is the relative frequency multiplied by 100.数值数据的分组与频数分布分组计频基本步骤: 确定组

23、数 确定组距(按组)整理成分布频数表第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。 实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值与最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数第三步,确定各组组限(Class limits)并据此整理频数分布表。1、分组所遵循的主要原则是“不重不漏”(each data value be

24、longs to one class and only one class)。因此, 最低组限(The lower class limit) 数据的最小值, 最大组限(The upper class limit) 数据的最大值; 另外,数据在每组中的归属习惯上采用“上组限不在内”。2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如610,1115,1620等); 3、对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如5,10),10,15),15,20)等)。注意:1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一组与最后一组可采

25、用“XX以下”及“XX以上”这样的开口组;2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际;3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数与)。统计分组的概念、原则、则与方法统计表(补充讲义14页word文档)。分配数列/次数分布数列 由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表与累计次数分布表。次数分布 主要有钟形分布、U形分布与J形分布。统计表与统计图 统计表与统计图是显示统计数据的两种重要形式。统计表的结构

26、从形式看可分为总标题、横表目、纵标目与指标数值;从内容上看可分为主词与宾词两部分。统计图主要有条形图、直方图、圆形图等。第三章、数据分布特征的描述。本章主要介绍数据的集中趋势与离散趋势。重点是各种平均指标及离散指标概念、计算方法与适用条件。统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。均值(Mean) 均值就是一组数据的平均值(average value),用来测度中心位置(central location)。1、算术平均数简单算术平均数加权算术平均加权算术平均往

27、往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi 为各组变量值出现的频数。算术均值具有如下性质:(1)各变量值与其均值的离差与为零:(2)各变量值与其均值的离差平方与最小:(3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。(4)对于任意两个变量x与y,它们的代数与的算术平均数等于两个变量的算术平均数的代数与。 均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。2、几何平均数(1)几何平均数是N个变量值乘积的N次方根(2)加权几

28、何平均数几何平均数的对数是各变量值对数的算术平均。几何平均主要用于计算比率或速度的平均几何平均数的应用及特点 :我国国内生产总值2001年、2002年、2003年的环比发展速度分别是107.5%,108.3%,109.3%,则各年的平均发展速度是某人有一笔款项存入银行10年,前2年的年利率为6%,第3至5年的年利率是5%,后5年的年利率3%,如果按复利计算,这笔款项的平均年利率为多少? 这笔款项的平均年利率为4.2%。应用条件 a.变量值是相对数据,如比率或发展速度。 b.变量值的连乘积等于总比率或总发展速度。特点 a.如果数列中有一个标志值等于零或负值,则无法计算。 b.受极端值影响较小,故

29、较稳健。(3)调与平均数,是各数据倒数的(简单)算术平均数的倒数:价格金额购买量由相对数与平均数计算平均数根据相对数与平均数计算平均数时,如何正确选择与应用算术平均数与调与平均数,在缺少被平均标志x的分子资料时,要采用算术平均数,即“缺分子,用算术”。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度与计划利润额时(缺少实际利润额),则采用算术平均数。利润计划完成程度x(%)企业数(个)计划利润额(万元)8090250090100516001001103800合计10在缺少被平均标志的分母资料时,要采用调与平均数,即“缺分母,用调与。”如例4.6中,当

30、已知各企业的利润计划完成程度与实际利润额时(缺少计划利润额资料),则采用调与平均数。中位数(Median)中位数是一组数据按大小排序后,处于中间位置上的变量值。 1、 对于未分组数据: (1)如果数据个数为奇数,则中位数恰为处于中间位置的数:(2)如果数据个数为偶数,则为中间位置两个数的平均数(2)单项数列的中位数计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。对于分组后的数据下限公式:上限公式:式中:m为中位数所在的组,d为该组组距, L、U分别为该组的下限值与上限值, fm为该组的频数, Sm-1 为该组以下各组的频数总与, Sm+1为该组以上各组的频数总与,显然众数(

31、Mode)众数是一组数据中出现次数最多的变量值。在分组数据中,众数可按下式计算:下限公式:上限公式:式中: fm为某数值出现次数(频数)最多的组(第m组)的频数, fm-1与fm+1分别为第m-1组与m+1组的频数, L、U分别为第m组的下限与上限值,d为该组组距。1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。 在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。 2、对描述品质数据的分布特征的“位置”测度只能用众数。中位数、众数与算术平均数的关系 众数、中位数与均值都是对数据

32、集中趋势的测度, 1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。 2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。 3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。 4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。 5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述

33、。分布离散程度的测度对数据分布特征的另一个测度指标是数据分布离散程度。它反映各数据远离其中心值的程度,因此,也称离中趋势。 集中趋势反映的是各变量值向其中心值聚集的程度, 离中趋势反映各变量值之间的差异状况。 注意: 集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。极差(Range)极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差: Range=Largest Value - Smallest Value 对于组距分组数据,极差可近似地表示为: R=最

34、高组上限 - 最低组下限 注意: 1、极差易受极端值的影响; 2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。方差(Variance)方差是各变量值与其均值离差(deviation about the mean)平方的平均数。总体方差(Population Variance) 总体方差用s2表示其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i 组组中值(分组)样本方差(Sample Variance)样本方差用S2表示其中:fi为第i组数据的频数xi为第i个数(未分组)或第i 组组中值(分组)标准差:方差的平方根(正)。1、由于方差计算

35、中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。 2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。(标准差就是指数据“离散程度的测度值”距“均值”的距离)。离散系数(Coefficient of Variation)离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用

36、离差或标准差来比较它们的离散程度;2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。分布偏态与峰度的测度偏态(Skewness)与峰度(Kurtosis)是对数据分布特征的进一步描述。 平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。偏态及其测度 测定偏态的方法主要有两种: (1)算术平均数与众数比较法, (2)动差法。算术平均数与众数比较法完全对称分布:算术平均数、中位数、众数重合 非对称分布:三者相互分离, 算术平均数 中位数 众数可用算术平均数与众数之间的距离作为测度偏态的一个尺度: 偏态 = 算术

37、平均数 - 众数这是偏态的绝对数,它以原有数据的单位为单位。峰度及其测度峰度是频数分布的另一重要特点。 其测度的是: 某种频数分布的曲线与正态分布曲线相比,是尖顶,还是平顶,其尖或平的程度如何。 峰度就是频数分布曲线顶端的尖峭程度。 峰度的测度,往往以中心4阶动差为基础进行; 第四章抽样估计。本章主要介绍了抽样估计的基本概念及抽样估计。点估计与区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度与可靠度之间的关系,重点掌握总体均值与总体比例的区间估计方法、样本容量的确定方法。一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一

38、部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。抽样估计的特点q 按随机原则抽取样本单位q 目的是推断总体的数量特征q 抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制抽样推断中的基本概念全及总体与样本1.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。 总体容量:总体中的单位数,用N表示。2.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。样本容量:样本中的单位数,用n表示。大样本与小样本:n30时称大样本,n30称小样本。*应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的

39、总体、样本及容量。概率抽样与非概率抽样 1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。 2.非概率抽样:又称非随机抽样,是指从研究的目的与需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。 *应用举例:重点调查、典型调查应为非概率抽样。重复抽样与不重复抽样 1.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。 2.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。总体参数与样本统计量 1.总体参数:是反映总体数量特征的数值。在抽样推断 中,参数是未知

40、的、待估计的确定值。 2.样本统计量:是根据样本资料计算的反映样本数量特征的变量,它的值随着样本的不同而变化,因此是一个随机变量。抽样误差的概念及其影响程度抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。简单随机抽样的抽样平均误差区间估计的步骤区间估计根据给定的条件不同,有两种估计方法: 给出允许误差(),求概率保证程度F(t)。 给出概率保证程度F(t),求估计区间。 给出,求F(t) 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差); 根据给定的抽样误差允许误差计算估计区间的上、下限; 求出概率度t,F(t),对总体参数作区间估计。 给出概率保证程度F(t),

41、求估计区间。 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差); 根据给定的F(t),查表求出t; 求出抽样极限误差与估计区间的上、下限,对总体参数作区间估计。区间估计注意 首先确定被估计总体指标的种类,是平均数还是成数; 其次取定抽样方法,是重置抽样还是不重置抽样; 然后再根据给定的样本资料与抽样条件(给定概率保证程度还是给定抽样极限误差),确定计算步骤,进行计算。抽样组织方式设计类型概念。第五章 假设检验与方差分析。理解原假设、备择假设、两类错误、单侧检验、双侧检验、方差分析等概念。掌握总体方差已知或未知时正态总体的均值假设检验与总体比例的假设检验。重点是三种不同情况下的假设检

42、验方法,总体方差已知时正态总体均值与总体比例的假设检验。难点是总体方差未知时正态总体均值的假设检验与方差分析。假设检验的概念假设(hypothesis),又称统计假设,是对总体参数的具体数值所作的陈述。假设检验(hypothesis test) 是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。(一)原假设与备择假设 原假设(null hypothesis),又称零假设,用 表示,是指研究者想收集证据予以反对的假设。 备择假设(alternative hypothesis),用 或 表示,是指研究者想收集证据予以支持的假设,它与原假设陈述的内容相反。三、几种常见的假设检验(一

43、)假设检验的步骤1.确定原假设与备择假设。2.选择检验统计量。3.确定检验的显著性水平 。4.用显著性水平来确定拒绝原假设 的检验统计量的临界值、拒绝域。5.根据样本数据,计算检验统计量的值。6.将统计量的值与临界值进行比较,并作出决策:若统计量的值落在拒绝域内,拒绝原假设 ,否则不拒绝原假设 。 或根据第5步的检验统计量的值计算 值。运用 值来确定是否拒绝。例:区间估计与假设检验的关系第六章时间数列分析。了解时间序列的概念、种类、因素构成与编制原则。掌握水平指标与速度指标的计算方法、应用条件及指标间的相互关系。1.时期数列:由时期指标排列形成。 特点: (1)时期数列中各指标值可以相加。 (

44、2)时期数列中各指标值大小与时间间隔正相关。 (3)时期数列通过连续登记获取数据。 2.时点数列:由时点指标排列形成。 特点: (1)时点数列中各指标值不能相加。 (2)时点数列中各指标值大小与时间间隔无关。 (3)时点数列通过间断登记获取数据。相对数时间序列:由相对指标排列形成。 特点: 1.由两个绝对数数列相比形成。 2.不同时期的相对指标数值不可直接相加。平均数时间序列:由平均指标排列形成。 特点:不同时期的平均指标数值不可直接相加。时间序列的编制原则基本原则可比性原则具体原则 1.时间长短应当一致。 2.总体范围保持一致。 3.指标的经济内容保持一致。 4.指标的计算方法与计量单位保持一致。时间数列的水平指标增长量与平均增长量6.3 时间数列的速度指标第七章 统计指数分析。了解统计指数的含义及种类、统计指数在我国的应用。掌握综合指数、平均数指数的编制原则与方法。掌握指数体系的含义、指数间的相互关系及因素分析法。重难点提示指数的编制原则与方法。同度量因素时期的确定。指数体系及因素分析法。概念:统

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 合同协议

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com