管理统计学之抽样与抽样分布.pptx

上传人:修**** 文档编号:12420019 上传时间:2022-04-24 格式:PPTX 页数:82 大小:1.36MB
返回 下载 相关 举报
管理统计学之抽样与抽样分布.pptx_第1页
第1页 / 共82页
管理统计学之抽样与抽样分布.pptx_第2页
第2页 / 共82页
点击查看更多>>
资源描述

《管理统计学之抽样与抽样分布.pptx》由会员分享,可在线阅读,更多相关《管理统计学之抽样与抽样分布.pptx(82页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、管理统计学毕德春辽东学院信息技术学院第6 6章 抽样与抽样分布第1 1节 抽样方法第6 6章第1 1节 抽样方法关于抽样的基础概念1 1所研究的全部个体(数据) 的集合,其中的每一个元素称为个体,总体中所包含的元素数量多少称为总体容量,用N表示。第6 6章第1 1节 抽样方法关于抽样的基础概念1 1有足够的代表性符合统计学基本原理具有充分的可操作性有效率的实施/执行中的偏差越小越好从理论上讲,样本数越大,抽样误差越小,结果的代表性越好。但是,同时考虑费用和时间因素,大样本量不一定是最有效率的办法。在随机抽样条件下,不同样本规模的抽样误差如下: 第6 6章第1 1节 抽样方法关于抽样的基础概念1

2、 1样本量的选取置信度样本量80%90%95%99%1505.23%6.72%8.00%10.52%2004.53%5.82%6.93%9.11%2504.05%5.20%6.20%8.15%3003.70%4.75%5.66%7.44%5002.87%3.68%4.38%5.76%从总体中抽取的一部分元素的集合,构成样本的元素数目称为样本容量,用n表示。第6 6章第1 1节 抽样方法关于抽样的基础概念1 1=30= 3030大样本描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值,所关心的参数主要有总体均值( )、标准差( )、总体比例( )等,总体参数通常用希腊字母表示 。第

3、6 6章第1 1节 抽样方法关于抽样的基础概念1 1总体均值标准差总体比例用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数,所关心的样本统计量有样本均值( x)、样本标准差(s)、样本比例(p)等,样本统计量通常用小写英文字母表示。 第6 6章第1 1节 抽样方法关于抽样的基础概念1 1样本均值样本标准差样本比例总体参数样本统计量第6 6章第1 1节 抽样方法关于抽样的基础概念1 1第6 6章第1 1节 抽样方法关于抽样的方法2 2第6 6章第1 1节 抽样方法关于抽样的方法2 2概率抽样非概率抽样概率抽样也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每

4、个样本单位被选中的概率是已知。不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样单个单位被选中的概率是不可知的也称。直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。可分为和两种方式。,许多抽样方法都是在它的基础上发展起来的。其数学性质简单,理论也最为成熟。第6 6章第1 1节 抽样方法关于抽样的方法2 2先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位。按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式。总体分成4个群随机选择2个群构成样本第6 6章第1 1节 抽样方法关于抽样的方法2 2先从总体中随机地抽取若干初级单位,再从初级单位中

5、抽取若干二级单位,如此下去直至抽取所要调查的基本单位的抽样方法。2003年人口变动情况抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、等距、整群抽样方法,在全国31个省、自治区、直辖市抽取了990个县(市、区)、3734个乡(镇、街道)、6544个调查小区的126万人。第6 6章第1 1节 抽样方法关于抽样的方法2 2也称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式。男生女生样本第6 6章第1 1节 抽样方法关于抽样的方法2 2一个单位的职工有500人,其中不到35岁的

6、有125人,3549岁的有280人,50岁以上的有95人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取?第6 6章第1 1节 抽样方法关于抽样的方法2 2这总体具有某些特征,它可以分成几个不同的部分:不到35岁;3549岁;50岁以上,把每一部分称为一个层,因此该总体可以分为3个层。由于抽取的样本为100,所以必须确定每一层的比例,在每一个层中实行简单随机抽样。抽取人数与职工总数的比是100:5001:5,则各年龄段(层)的职工人数依次是125:280:9525:56:19,然后分别在各年龄段(层)运用简单随机抽样方法抽取。在分层抽样时,不到35岁、3

7、549岁、50岁以上的三个年龄段分别抽取25人、56人和19人。第6 6章第1 1节 抽样方法关于抽样的方法2 219将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。直线等距抽样:将总体分成n个组,每组有 k=N/n个单位。在第一组随机选择一个单位,之后每隔k个选择一个。N = 64n = 8k = 8第一组第6 6章第1 1节 抽样方法关于抽样的方法2 2一个礼堂有30排座位,每排有40个座位。一次报告会礼堂坐满了听众。会后为听取意见留下了座位号为20的30名听众进行座谈。这里选用了哪种抽取样本的方法?写出抽取过程。第6 6章第1 1节 抽样方

8、法关于抽样的方法2 2由于每排的座位有40个,各排每个号码被抽取的概率都是 , 第1排被抽取前,其他各排中各号码被抽取哪率也是 ,也就是说被抽取的概率是 ,每排的抽样也是简单随机抽样,因此这种抽样的方法是系统抽样。 401401401纯粹以方便基本着眼的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题。又称、。在街头的拦截式访问。登在报刊、网上的问卷。第6 6章第1 1节 抽样方法关于抽样的方法2 2调查者根据从总体中选取有代表性的单位构成样本。精度取决于抽样者的经验。不能获得估计值的精度。适用于总体单位极不相同而样本容量又很小的情况 第6 6章第1 1节 抽样方法关于抽样的方法2 2

9、是非随机抽样方法中最常用的一种抽样方法。分为两个步骤:根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额;然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位。问题:与分层抽样的区别?第6 6章第1 1节 抽样方法关于抽样的方法2 2其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止。主要用于对稀少群体的调查。某研究部门在调查保姆问题时,先访问了7名保姆,然后再请她们提供其他保姆名单,逐步扩大到近百人。第6 6章第1 1节 抽样方法关于抽样的方法2 2从20台电脑中抽取4台进行质量检测;从2004名同

10、学中,抽取一个容量为20的样本某中学有180名教工,其中业务人员136名,管理人员20名,后勤人员24名,从中抽取一个容量为15的样本。第6 6章第1 1节 抽样方法关于抽样的方法2 2第6 6章第1 1节 抽样方法抽样调查中的误差3 3是指估计值与真实值之间的差异。由于抽选样本的随机性造成的误差,也称为。样本只是总体的一部分,它对总体的代表性存在局限性,从而会造成误差。在抽样调查中,抽样误差就不可避免。在概率抽样中抽样误差是能够计量且可以得到控制的。总体内部的差异程度;样本容量的大小;抽样的方式方法等。第6 6章第1 1节 抽样方法抽样调查中的误差3 3除抽样误差以外的所有误差。通常认为是由

11、于引起的。主要包括抽样框误差、无回答误差和计量误差。国内也称为“工作误差” 或“调查误差” 。第6 6章第1 1节 抽样方法抽样调查中的误差3 3在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个抽样单位可以是一个总体单位,也可以包含多个个体。抽样单位的名单称为。抽样框应尽可能与目标总体相一致。例如、。 第6 6章第1 1节 抽样方法抽样调查中的误差3 3大学学生花名册、城市黄页里的电话列表、工商企业名录、街道派出所里居民户籍册、意向购房人信息册。要从10000名职工中抽出200名组成一个样本,抽样框是什么?第6 6章第1 1节 抽样方法抽样调查中的误差3 3当目标总

12、体与抽样框所涵盖的元素不一致时,就会产生抽样误差。抽样框误差包括:、,等。第6 6章第1 1节 抽样方法抽样调查中的误差3 3F.D. Roosevelt (罗斯福)任美国总统的第一任期届满(民主党)A. Landon (兰登)Kansas州州长(共和党)国家正努力从大萧条中恢复,失业人数高达九百万人。The literary Digest文学摘要进行民意测验,将问卷邮寄给一千万人,他们的名字和地址摘自电话簿或俱乐部会员名册。其中寄回答案(回收率24%)。Roosevelt 43%, Landon 57%Roosevelt 62%, Landon 38%主要原因:将一类人排除在外(当时四个家庭

13、中,只有一家安装电话)低收入和高收入的人倾向不回答第6 6章第1 1节 抽样方法抽样调查中的误差3 3样本容量3000人,在摘要公布其预测结果之前,仅以一个百分位数的误差预言了摘要的预测结果。从摘要要用的名单中随机选取3000人,并给他们每人寄去一张明信片,询问他们打算怎样投票。当抽样框不正确时,抽取一个大的样本并无帮助,它只不过是在较大的规模下,去重复基本错误。利用一个约的样本,正确地预测了Roosevelt的胜利。 Roosevelt的百分数盖洛普预言摘要的预测结果 44摘要预测的选举结果 43 Roosevelt的百分数盖洛普预测的选举结果 56选举结果 62第6 6章第1 1节 抽样方

14、法抽样调查中的误差3 3因部分指定样本单位的数据或调查问卷中的部分数据项而引起的误差都称为。样本个体拒绝访问样本个体无法接受访问样本个体拒绝回答部分问题第6 6章第1 1节 抽样方法抽样调查中的误差3 3是指调查中获得的数据与调查项目真实值之间不一致而产生的误差, 也称为。测量工具不准确调查员的工作失误(如计量错误、计算错误、记录错误等)被调查者没有提供真实情况第6 6章第1 1节 抽样方法抽样调查中的误差3 3第2 2节 样本均值的分布与中心极限定理总体中各元素的观察值所形成的分布。 分布通常是未知的可以假定它服从某种分布 第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1

15、1一个样本中各观察值的分布,也称经验分布,是指当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。 第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1按照简单随机抽样方法,从个数为N的总体中抽取容量为n的样本,两种抽法:放回抽样:样本个数为不放回抽样:样本个数为每一个可能的样本都有一个对应的和,那么所有样本均值的分布就是,所有样本的标准差的分布就是nNnNC第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1在重复选取容量为n的样本时,由样本均值所有可能取值形成的相对频数分布一种理论概率

16、分布推断总体均值 的理论基础第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X1=1、X2=2、X3=3 、X4=4 。总体的均值、方差及分布如下第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n = 2 的样本(共16个)第6 6章第2 2节

17、样本均值的分布与中心极限定理样本均值的分布1 13.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1样本均值的均值(数学期望)等于总体均值样本均值的方差等于总体方差的1/n第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1设一个总体(比如掷骰子),含有6个元素(个体) ,即总体单位数N=6。6 个个体分别为x1=1,x2=2,x3=

18、3,x4=4,x5=5,x6=6 。现从总体中抽取n2的简单随机样本,试比较总体分布和样本均值分布。第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1总体的均值、方差及分布如下:0.00 0.05 0.10 0.15 0.20 0.25 0.30 123456均匀分布均匀分布第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1现从总体中抽取n2的简单随机样本,在重复抽样条件下,有62=36个样本。所有样本的结果为:第二观察值第一观察值1234561(1,1)(1,2)(1,3)(1,4)(1,5)(1,6)2(2,1)(2,2)(2,3)(2,4)(2,5

19、)(2,6)3(3,1)(3,2)(3,3)(3,4)(3,5)(3,6)4(4,1)(4,2)(4,3)(4,4)(4,5)(4,6)5(5,1)(5,2)(5,3)(5,4)(5,5)(5,6)6(6,1)(6,2)(6,3)(6,4)(6,5)(6,6)第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1计算出各样本的均值,如下表。并给出样本均值的抽样分布00.020.040.060.080.10.120.140.160.1811.522.533.544.555.56样本均值分布第二观察值第一观察值123456111.522.533.521.522.533.54322.

20、533.544.542.533.544.55533.544.555.563.544.555.5636个样本的均值第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1 = 3.5 2 =2.90.00 0.05 0.10 0.15 0.20 0.25 0.30 123456总体分布00.020.040.060.080.10.120.140.160.1811.522.533.544.555.56样本均值分布 = 3.5 2 =1.45样本均值的抽样分布与总体分布的比较第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 12X当总体服从正态分布N (,2 )时,来自

21、该总体的所有容量为n的样本的均值 X也服从正态分布, X 的数学期望为,方差为2/n。即 XN(,2/n)22第6 6章第2 2节 样本均值的分布与中心极限定理样本均值的分布1 1当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布设从均值为 ,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布一个任意分布的总体第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2简单讲,凡是采用极限的方法(例如,观察次数n趋于无限)所得出的一系列定理统称极限定理。极限定理分为两类:第6 6章第2 2节 样本均值的

22、分布与中心极限定理中心极限定理2 2任何变量,不管其原有分布如何,如果把它们n个加在一起,只要n足够大,其和的分布必然接近正态分布,均值的分布也接近正态分布。 第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2为什么社会经济生活、自然界存在许多随机变量的分布都服从正态分布?请结合来解释。 第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2如果一个现实的量是由大量独立偶然的因素的影响叠加而得,且其中每一个偶然因素的影响又是均匀地微小的话,可以断定这个量将近似地服从正态分布。这就解释了为什么在自

23、然、社会、经济领域里大量存在服从正态分布的随机变量。例如,身高、体重、智商、婚龄等等,因为影响它们的因素都是大量的。 第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2从正态总体中抽取的全部可能样本,无论样本容量有多大,样本平均数的抽样分布必定遵从于正态分布;如果是从非正态总体中抽样,只要n30,样本均值的抽样分布必定趋近于正态分布;第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2关于钟形分布的一个近似的或经验的法则:变量值落在 -3,+3范围以外的情况极为少见。因此通常将落在区间-3,+3之外的数据称为。x99.73%68.27%95.45%2x3xxx

24、2x3xx第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2正态分布非正态分布大样本小样本大样本小样本总体分布正态分布正态分布正态分布第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2每到临近重大节日,为了满足巨大的市场需要,副食品加工厂提高了对于食品的生产规模,而此时工厂的质量管理人员,对工厂生产的副食品进行质量检验,检验的指标中主要是某个硝酸盐的NO(=45)计算公式如下:可以算出来z(2.53)=0.9943,即根据生产商的声明,硝酸盐含量高于45mg的概率为10.9943=0.0057,因此根据这个结果.该食品在此次抽样中出现硝酸盐含量超标的可能性为

25、极小概率事件,如果此次样本抽查出其中一个出现超标(1/40=0.025),则有理由认为该厂生产的食品不合格。53. 279. 04345xxxxxz第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2在一次研究某一企业职工收入情况的调查中,准备从该企业随机抽取100个职工个人的收入状况数据构成样本,以此推断该企业职工平均月收入。若该企业职工平均月收入的总体均值为2000元,总体标准差为为250元,试计算样本均值不小于1950元的概率。第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2根据中心极限定理,在样本容量充分大时,样本均值渐进地趋于数学期望为总体均值,方

26、差为总体方差的n分之一的正态分布,有本例的样本均值渐进地趋于数学期望为2000元,标准差为25的正态分布,即。代入正态分布概率计算公式,得 即样本均值不小于1950元的概率为97.7%。(查表) 97725. 02225200019502520001950ZPZPxPxP第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2样本均值的标准差小于总体标准差,且随着样本容量的增加减小,这也正是抽样平均误差的度量。第6 6章第2 2节 样本均值的分布与中心极限定理中心极限定理2 2样本均值的数学期望样本均值的方差重复抽样不重复抽样第6 6章第2 2节 样本均值的分布与中心极限定理中心极

27、限定理2 2在重复选取容量为的样本时,由样本方差的所有可能取值形成的相对频数分布。对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为 (n -1) 的 2分布,即第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3设总体服从正态分布N (,2 ), X1,X2,Xn为来自该正态总体的样本,则样本方差 s2 的分布为将 2(n 1)称为自由度为(n-1)的卡方分布第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3两个总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和 第6

28、6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3 抽取简单随机样样本容量 n1计算x1抽取简单随机样样本容量 n2计算x2计算每一对样本的x1-x2所有可能样本的x1-x2 1 1 2 2第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3两个总体都为正态分布,即X1N(1 ,12),X2N(2 ,22 )从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1) 的F分布,即 第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3由阿贝(Abbe) 于1863年首先给出

29、,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来。设X1,X2,Xn是来自总体N(0,1) 的样本,则称随机变量X1,X2,Xn 2= X12+X22+,+Xn2服从自由度为n的 2分布,记为 2 2(n)第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3分布的变量值始终为正 ;分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 ;E( 2)=n,D( 2)=2n(n为自由度) ;若U和V为两个独立的 2分布随机变量,U 2(n1),V 2(n2),则U+V这一随机变量服从自由度为

30、n1+n2的 2分布 。第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 376第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3提出者是William Gosset,也被称为学生分布(students t)是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为的参数。随着的增大,分布也逐渐趋于正态分布 xt 分布与标准正态分布的比较t 分布标准正态分布t不同自由度的t分布标准正态分布t (df = 13)t (df = 5)z第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3第6 6章第2 2节 样

31、本均值的分布与中心极限定理常用统计量的分布3 3为纪念统计学家费希尔(R.A.Fisher) 以其姓氏的第一个字母来命名;设若U为服从自由度为n1的 2分布,即U 2(n1),V为服从自由度为n2的 2分布,即V 2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3 选择容量为n 的简单随机样本计算样本方差S2计算卡方值 2 = (n-1)S2/2计算出所有的 2值21211niixxnS第6 6章第2 2节 样本均值的分布与中心极限定理常用统计量的分布3 3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 其他资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com