第3章理论分布与抽样分布.ppt

上传人:s****8 文档编号:93910548 上传时间:2023-07-17 格式:PPT 页数:93 大小:1.35MB
返回 下载 相关 举报
第3章理论分布与抽样分布.ppt_第1页
第1页 / 共93页
第3章理论分布与抽样分布.ppt_第2页
第2页 / 共93页
点击查看更多>>
资源描述

《第3章理论分布与抽样分布.ppt》由会员分享,可在线阅读,更多相关《第3章理论分布与抽样分布.ppt(93页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 第3 章 理论分布与抽样分布 1 理论分布 1.1 二项分布 1.2 泊松分布 1.3 正态分布 2 抽样分布 样本平均数的抽样分布、两样本平均数差数的抽样分布、t 分布随机变量 做一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量x 的取值范围,则试验结果可用变量x 来表示。【例】对1000 听鱼罐头进行抽查,其可能结果是“0 听可食”、“1 听可食”、“2听可食”、“”、“100 听可食”若用x 表示可食用的罐头听数,则x 的取值为0、1、2、100【例】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。若用变量x 表示试验的两种结果,则可令x=0

2、 表示“未孵出小鸡”,x=1 表示“孵出小鸡”。【例】测定某产品净重,表示测定 结 果 的 变 量 x 所 取的值为一个特定范围(a,b),如1.35-1.5kg,x 值可以是这个范围内的任何实数。如果表示试验结果的变量x,其可能取值一一列出,且 以各种确定的概率取这些不同的值,则 称 x 为 离 散 型 随 机 变 量(discrete random variable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x 在其取值范围内的任一区间中取值时,其概率是确定的,则称x 为 连续 型 随 机 变 量(continuous random variable)。离散型随机变量的

3、概率分布 要了解离散型随机变量x 的统计规律,就必须 知 道它的一切可能值xi及取每种可能值的概率pi。如果我们将离散型随机变量x 的一切可能取值xi(i=1,2,),及其对应的概率pi,记作 P(x=xi)=pi i=1,2,则称 上式为离散型随机变量x 的概率分布或分布。常用 分 布 列(distribution series)来表示离散型随机变量:x1 x2 xn.p1 p2 pn 显然离散型随机变量的概率分布具有pi0 和pi=1 这两个基本性质。连续型随机变量的概率分布 连续型随机变量(如体长、体重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量x 在某个

4、区间内取值的概率P(axb)来表示。下面通过频率分布密度曲线予以说明。由图2-6 做100 听罐头净重资料的频率分布直方图,可以设想,如果样本取得越来越大(n+),组分得越来越细(i0),某一范围内的频率将趋近于一个稳定值 概率。这时,频率分布直方图各个直方上端中点的联线 频率分布折线将逐渐趋向于正态分布曲线。下一张 主 页 退 出 上一张 .二项分布 1.1.1 贝努利试验及其概率公式 对于n 次独立的试验,如果每次试验结果出现且只出现对立事件A 与 之一,在每次试验中出现A 的概率是常数p(0p1),因而出现对立事件 的概率是1-p=q,则 称 这一串重复的独立试验为n 重贝努利试验,简称

5、贝努利试验(Bernoulli trials)。例如 为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。在表-A 中列出了他们的试验记录。表-A 抛掷一枚硬币发生正面朝上的试验记录 贝努利试验符合P(x=1)=p 其中 x=1 出现成功P(x=0)=q x=0 出现失败(3-1)在食品科学研究中,我们经常碰到的一类离散型机变量,如n 听罐头的变质数量等,可用贝努利试验来概括。在n 次贝努利试验中,事件 A 可能发生0,1,2,n 次,事件 A 恰好发k(0kn)次的概率Pn(k)。k=0,1,2,n(-)随机变量X 所有可能取值0,1,2,n(-)k=0,

6、1,2,n1.1.2 二项分布的定义及特点 二项分布定义如下:设随机变量x 所有可能取的值为:0,1,2,,n,且有=k=0,1,2,n 其中p 0,q 0,p+q=1,则称随机变量x 服从参数为n 和p 的二项分布(binomial distribution),记为 x B(n,p)。二 项 分布是一种离散型随机变量的概率分布。参数n 称为离散参数,只能取正整数;p 是连续参数,它能取0 与1 之间的任何数值。容易验证,二项分布具有概率分布的一切性质,即:1、P(x=k)=Pn(k)0(k=0,1,,n)2、二项分布的概率之和等于1,即 3、(-)4、(-)5、(m1m2)(-)二项分布由n

7、 和p 两个参数决定:1、当p 值较小且n 不大时,分 布 是偏倚的。但随着n 的增大,分布逐渐趋于对称,如图-所示;2、当 p 值 趋 于 0.5 时,分 布 趋于对称,如图-所示;3、对于固定的n 及p,当k 增加时,Pn(k)先随之增加并达到其极大值,以后又下降。1.1.3 二项分布的概率计算及应用条件【例.】有一批食品,其合格率是0.85,今在该批食品中随机抽取6 份食品,求正好有5 份食品都合格的概率?5 份食品都合格概率为:最少有4 份合格:最多有4 份合格 二项分布的应用条件有3 点:(1)一对互斥事件(2)(p+q=1),P 是稳定值。(3)n 次结果相互独立1.1.4 二项分

8、布的平均数与标准差 统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差 与参数n、p 有如下关系:(即次数平均数、标准差)当试验结果以事件A 发生次数k 表示时=np 2=npq(3-7)=当试验结果以事件A 发生的频率k n 或百分数表示时(即样本平均数、标准差)(3-8)也称为总体百分数标准误,当 p 未 知时,常以样本百分数 来估计。此时(3-8)式改写为:=(3-9)称为样本百分数标准误。现从一批产品中抽出500 件(n),发现有害微生物超标的产品有7 件(x)。求超标产品样本百分数标准误?1.2 泊松分布 泊松分布是一种 可以用来描述和分析随机地发生在单位空间或 时间里的

9、稀有事件(小概率事件)的概率分布。要观察到这类事件,样本含量 n 必须很大。Can u give me some examples 小概率事件 若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。1.2.1 泊松分布的意义 若随机变量x(x=k)只取0,1,2,n,且其概率分布为,k=0,1,n(3-10)其中 0;e=2.7182 是自然对数的底数,则 称 x 服 从 参 数 为 的泊松分布(Poissons distribution),记 为 x P()。泊松分布重要的特征:平均数和方差相等,都等于常数,即=2=是泊松分布所依赖的唯一参数。值愈小分布愈偏倚,随着

10、 的增大,分 布趋于对称(如图3-3 所示)。当=20 时分布接近于正态分布;当=50 时,可以认 为泊松分布呈正态分布。所以在实际工作中,当 20 时就可以用正态分布来近似地处理泊松分布的问题。1.2.2 泊松分布的概率计算及应用条件 例3-4 食品店每小时光顾的顾客人数服从=3的泊松分布,即xp(3)分布。(1)计算每小时恰有5 名的顾客的概率;(2)1 小时顾客不超过5 人的概率;(3)1 小时内顾客最少有6 人的概率。但是在大多数服从泊松分布的实例中,分布参数 往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为 的 估计值,将其代替(3-10)式中的,计算出 k=0,1,

11、2,时的各项概率。【例3-6】为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400 个记录如下:表3-1 饮用水中细菌测试记录 试分析饮用水中细菌数的分布是否服从泊松分布。若服从,按泊松分布计算每毫升水中细菌数的概率及理论次数并将頻率分布与泊松分布作直观比较。样本均数计算结果如下:=fk/n=(2430+1201 312+63)/400=0.500 方差S2计算 经计算得每毫升水中平均细菌数=0.500,方差S2=0.496。两者很接近,故可认为每毫升水中细菌数服从泊松分布。以=0.500 代替(3-10)式中的,得(k=0,1,2)计算结果如表3-2 所示。表3-2 细菌数的

12、泊松分布 可见细菌数的频率分布与=0.5 的泊松分布是相当吻合的,进一步说明用泊松分布描述单位容积(或面积)中细菌数的分布是适宜的。泊松分布的应用条件。(1)随机单位时间和单位空间的稀有事件;(2)在n,p0,且 n p=(较小常数)情况下,二项分布 趋于泊松分布;(3)每次试验结果相互独立。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,不是泊松分布。(Such as contagion,Bacteria Group in milk)1.3 正态分布 正态分布是一种很重要的连续型随机变量的概率分布。有许多变量是服从或近似服从正态分布。1.3.1 正态分布的定义及其

13、特征(一)正态分布的定义 若连续型随机变量x 的概率分布密度曲线为(3-11)其中 为平均数,2为方差,则称随机变量x 服从正态分布(normal distribution),记为x N(,2)。相应的概率分布函数为(3-12)分布密度曲线如图3-4(上一张图)所示。(二)正态分布的特征 正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=;f(x)在 x=处达 到 极 大,极大值;f(x)是非负函数,以x 轴为渐近线,分布从-至+;曲线在x=处各有一个拐点 正态分布有两个参数,即平均数 和标准差。是位置参数,如图3-5 所示。当 恒定时,愈大,则曲线沿x 轴愈向右移动;反之,愈小,曲线沿x

14、 轴愈向左移动。是变异度参数,如图3-6 所示。当 恒定时,愈大,表示 x 的取值愈分散,曲线愈“胖”;愈小,x 的取值愈集中在 附近,曲线愈“瘦”。分布密度曲线与横轴所夹的面积为1,即:1.3.2 标准正态分布 将一般的N(,2)转 换为=0,2=1 的标准正态分布。我们称=0,2=1 的正态分布为标准正态分布(standard normal distribution)。标准正态分布的概率密度函数及分布函数分别记作(u)和(u),由(3-13)及(3-14)式得:(3-13)(3-14)随机变量u 服从标准正态分布,记作u N(0,1),分布密度曲线如图3-7 所示。对于任何一个服从正态分布

15、N(,2)的随机变量x,都可以通过标准化变换:u=(x-)(3-15)将 其变换为服从标准正态分布的随机变量u。u 称 为 标 准 正 态变量或标准正态离差(standard normal deviate)。三、正态分布的概率计算(一)标准正态分布的概率计算 设u 服从标准正态分布,则 u 在u1,u2)何内取值的概率为:(u2)(u1)(3-16)而(u1)与(u2)可由附表1 查得。P(u1 u u2)(u2)(u1)由此 式及正态分布的对称性可推出下列关系式,再借助附表1,便能很方便地计算有关概率:P(0u u1)(u1)-0.5 P(uu1)=(-u1)P(u u1)=2(-u1)(3

16、-17)P(u u1)1-2(-u1)P(u1u u2)(u2)-(u1)【例3-7】已知u N(0,1),试求:(1)P(u-1.64)?(2)P(u2.58)=?(3)P(u 2.56)=?(4)P(0.34u 1.53)=?利用(3-17)式,查附表1 得:(1)P(u-1.64)=0.05050(2)P(u2.58)=(-2.58)=0.004940(3)P(u 2.56)=2(-2.56)=20.005234=0.010468(4)P(0.34u 1.53)=(1.53)-(0.34)=0.93699-0.6331=0.30389 关于标准正态分布,以下几种概率应当熟记:P(-1u

17、1)=0.6826 P(-2u 2)=0.9545 P(-3u 3)=0.9973 P(-1.96u 1.96)=0.95 P(-2.58u 2.58)=0.99 u 变量在上述区间以外取值的概率分别为:P(u 1)=2(-1)=1-P(-1u 1)=1-0.6826=0.3174 P(u 2)=2(-2)=1-P(-2u 2)=1-0.9545=0.0455 P(u 3)=1-0.9973=0.0027 P(u 1.96)=1-0.95=0.05 P(u 2.58)=1-0.99=0.01 (二)一般正态分布的概率计算 正 态 分 布 密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了

18、“随机变量x 取值在-与+之间”是一个必然事件,其概率为1。若随机变量 x 服从正态分布N(,2),则x的取值落在任意区间 x1,x2)的概率,记作P(x1 x x2),等于图3-8 中阴影部分曲边梯形面积。即:(3-18)作变换u=(x-),得dx=du,故有 其中,【例】设x 服从=30.26,2=5.102的正态分布,试求P(21.64x 32.98)。令 则u 服从标准正态分布,故=P(-1.69u 0.53)=(0.53)-(-1.69)=0.7019-0.04551=0.6564【例3-8】设x 服从xN(100,22)的正态分布,试求P(100 x 102)?=P(0u 1)=(

19、1)-(0)=0.8413-0.5000=0.3413 关于一般正态分布,以下几个概率(即随机变量x 落在 加减不同倍数 区间的概率)是经常用到的。P(-x+)=0.6826 P(-2x+2)=0.9545 P(-3x+3)=0.9973 P(-1.96x+1.96)=0.95 P(-2.58x+2.58)=0.99 统计中,不仅注意随机变量x 落在平均数加减不同倍数标准差区间(-k,+k)之内的概率而且 也很 关心 x 落在此区间之外的概率。我们把随机变量x 落在平均数 加减不同倍数标准差 区间之外的概率称为双侧概率(两尾概率),记作。对应于双侧概率可以求得随机变量x 小于-k 或大于+k

20、的概率,称为单侧概率(一尾概率),记作 2。例如,x 落在(-1.96,+1.96)之外的双侧概率为0.05,而单侧概率为0.025。即 P(x-1.96)=P(x+1.96)=0.025 双侧概率或单侧概率如图3-9 所示。x 落在(-2.58,+2.58)之外的双侧概率为0.01,而单侧概率 P(x-2.58)=P(x+2.58)=0.005 【例3.9】已知某饮料罐内饮料量(ml)服从正态分布 N(250,1.582),若 P(x)=0.05,P(x)=0.05,求,。由题意可知,2=0.05,=0.10 又因为 P(x)=故 P(x)+P(x)=P(u-)+P(u)P(u-)+P(u)

21、=1-P(-u)=0.10=由附表2 查得:=1.644854,所以(-250)/1.58=-1.644854(-250)/1.58=1.644854 即 247.40,252.60。对于二项分布,在n,p0,且 n p=(较小常数)情况下,二项分布 趋于泊松分布。在n,p0.5 时,二项分布趋于正态分布。在这种场合,正态分布中的、2用二项分布的n p、n p q 代之。在实际计算中,当p 0.1 且n 很大时,二项分布可由泊松分布近似;当p 0.1 且n很大时,二项分布可由正态分布近似。对于泊松分布,当 时,泊松分布以正态分布为极限。在实际计算中,当 20,用泊松分布中的 代替正态分布中的

22、及2,即可由后者对前者进行近似计算。第2 节抽样分布 2.1 样本平均数的抽样分布 the relationship of Population and Sample 2 aspects,First 是从总体到样本,抽样分布(sampling distribution);Second 是从样本到总体,这就是统计推断(statistical inference)。样本统计量(如,S)也将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布。把统计量的概率分布称为抽样分布。Review Parameter:The eigenvalue are calculated by popula

23、tion.Statistics:The eigenvalue are calculated by sample.2.1 样本平均数抽样分布 由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两种。下一张 主 页 退 出 上一张 设有一个总体,总体平均数为,方差为2,总体中各变数为 x,将 此总体称为原总体。现从这个总体中随机抽取含量为n 的样本,样本平均数记为。从原总体中可抽出很多甚至无穷多个含量为n 的样本。由这些样本算得的平均数有大有小,不尽相同,与原总体平均数 相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为 抽样误差(sampling er

24、ror)。显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体。抽样总体平均数和标准差分别记为 和。是样本平均数抽样总体的标准差,简称标准误差(standard error),它表示平均数抽样误差的大小。统计学上已证明总体的两个参数与x 总体(样本总体)的两个参数有如下关系:=,(3-19)设有一个 N=4 的 有限总体,变数为2、3、3、4。根据=x N 和2=(x-)2N求得该总体的、2、为:=3,2=1 2,=0.707表3-3 N=4,n=2 和n=4 时的次数分布 从有限总体作返置随机抽样,所有可能的样本数为Nn其中n

25、为样本含量。以上述总体而论,如果从中抽取n=2 的样本,共可得 42=16 个样本;如果样本含量n 为4,则 一 共 可 抽 得44=256 个样本。分别求这些样本的平均数,其次数分布如表3-3 所示。根据表3-3,在n=2 的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:=4/16=1/4=(1/2)/2 同理,可得n=4 时:这就验证了=,的正确性。若将表3-3 中两个样本平均数的抽样总体作次数分布图,则如图3-10 所示。1.若 随 机 变 量 x 服 从 正 态 分 布N(2);、,是由x 总体得来的随机样本,则统计量=x n 的概率分布也是正态分布,且有=,即服从正态分布N

26、(,2n)。2.若随机变量x 服从平均数是,方差是2的分布(不是正态分布);,是由此总体得来的随机样本,则 统 计 量=x n 的概率分布,当n 相当大时逼近正态分布N(,2n)。这就是中心极限定理。不论x 变量是连续型还是离散型,也无论x 服从何种分布,一般只要n 30,就可认为 的分布是正态的。若x 的分布不很偏倚,在n 20 时,的分布就近似于正态分布了。2.2 均 数 标 准 误 在实际工作中,总体标准差 往往是未知的,因而无法求得。此时,可用样本标准差S 估计。于是,以 估计。记 为,称作样本标准误或均数标准误。样本标准误 是平均数抽样误差的估计值。若样本中各观测值为,则(3-20)

27、S&的区别在于:样 本 标 准 差 S 是 反 映 样 本中(内)各观测值,变 异 程 度大小的一个指标,它的大小说明了 对 该 样本代表性的强弱。样本标准误是样本平均数 的标准差,它是 抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。对于大样本资料,常将样本标准差S 与样本平均数 配合使用,记为 S,用以说明所考察性状或指标的优良性与稳定性。对于小样本资料,常将样本标准误 与样本平均数 配合使用,记为,用 以表示 所考察性状或指标的优良性与 抽样误差的大小。2.3 两样本均数差数的抽样分布Precondition 两样本的平均数相互独立,并且样本平均数之差服从正态分布。两个

28、总体服从正态分布,n1,n2 表示样本容量。(3-21)如果来自同一在正态总体,那么2.3 两样本均数差数的抽样分布 若所有样本来自两个非正态总体,尤其 和 相差不大时,n1和n2趋于无穷大时,均数差数的抽样分布趋于正态分布,参数之间的关系同:(3-21)2.3 两样本均数的标准误(均数差异标准差)未知,如果各自总体方差等于2.3 两样本均数差数的抽样分布例题 例3-10 设总体甲有3 个变数2,4,6,总体乙有两个变数3,6,计算甲、乙两总体的均数个方差得到 从总体甲中随机重复抽样,每抽两个数组成一个样本,从总体乙中随机重复抽样,每抽三个数组成一个样本。计算样本均数差数的平均数和标准差。2.

29、5 t 分 布 当总体标准差 未知时,以样本标准差S 代替 所得到的统计量 记为t。在计算 时,由于采用S 来代替,使得t 变量不再服从标准正态分布,而是服从t 分布(t distribution)。下一张 主 页 退 出 上一张 t=(3-26)(3-27)式中,t 的取值范围是(-,+);df=n-1 为自由度。t 分布的平均数和标准差 为:t0(df1),(df2)(3-28)t 分布密度曲线如图3-11 所示,其特点是:1、t 分布受自由度的制约,1 个自由度对应1条t 分布密度曲线。2、t 分布密度曲线以t 0 为对称轴,左右对称,且在t 0 时,分布密度函数取得最大值。3、df 越

30、大,t 分布越趋近于标准正态分布。当n 30 时,t 分布与标准正态分布的区别很小;n 100 时,t 分布基本与标准正态分布相同;n时,t 分布与标准正态分布完全一致。t 分布的概率分布函数为:(3-29)因而t 在区间(t1,+)取值的概率-右尾概率为1-F t(df)。由于t 分布左右对称,t 在区间(-,-t1)取值的概率也为1-F t df)。于是 t 分布 曲线 下由-到-t 1和由t 1到+两 个 相 等 的 概 率 之和-两尾概率为2(1-F t(df)。对于不同自由度下t 分布的两尾概率及其对应的临界t 值已编制成附表3,即t分布表。例如,当df=15 时,查附表3 得两尾概率等于0.05的临界t 值为 2.131,其意义是:P(-t-2.131)=P(2.131t+)=0.025;P(-t-2.131)+(2.131t+)=0.05。由附表3 可知,当df 一定时,概率P 越大,临界t值越小;概率P 越小,临界t 值越大。当 概 率 P 一定时,随着df 的增加,临界t 值在减小,当df=时,临界t 值与标准正态分布的临界u 值相等。作业 书63 页3,4 题 书64 页8,9,10,11 题

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com