4参数估计-黑白.pdf

上传人:asd****56 文档编号:70321527 上传时间:2023-01-19 格式:PDF 页数:64 大小:879.71KB
返回 下载 相关 举报
4参数估计-黑白.pdf_第1页
第1页 / 共64页
4参数估计-黑白.pdf_第2页
第2页 / 共64页
点击查看更多>>
资源描述

《4参数估计-黑白.pdf》由会员分享,可在线阅读,更多相关《4参数估计-黑白.pdf(64页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、4.参数估计 抽样分布与标准误 Z分布与t 分布 总体参数的估计 4.1抽样分布与抽样误差 抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数 常用的统计推断方法有:参数估计(总体均数和总体概率的估计)假设检验 总体总体总体总体样本样本随机抽样随机抽样统计量参 数统计推断统计推断如:样本均数如:样本均数样本标准差样本标准差S样本率样本率 P如:总体均数如:总体均数总体标准差总体标准差总体率总体率x统计推断:抽样研究中用样本统计量来推论总体参数的过程。参数估计参数估计:用样本统计量来估计总体参数用样本统计量来估计总体参数(总体均数和总体概率)的大小。(总体均数和总体概

2、率)的大小。假设检验:又称显著性检验,方法:均数假设检验:又称显著性检验,方法:均数z 检验检验 、t 检验、方差分析,检验、方差分析,2检验、秩和检检验、秩和检验等验等.相关概念:定量变量资料:对每个观察单位用定量的方法测定某项指标数量的大小所收集的资料。定性变量资料:将观察单位按照不同性质或类别进行分类,所收集得到的资料。总体:根据研究目的确定的同质研究对象的全体或研究对象某项变量值的集合。样本:总体中随机抽取的一部分研究对象的某项变量值的集合。参数:描述总体特征的统计指标叫总体参数。统计量:从样本计算出来的描述样本特征的统计指标。4.1.14.1.1样本均数 样本均数的抽样分布与抽样误差

3、样本均数的抽样分布与抽样误差 标准误标准误 第四军医大学卫生统计学教研室1.样本均数的抽样分布样本均数的抽样分布抽样试验抽样试验从正态分布总体从正态分布总体N N(5.00,0.505.00,0.502 2)中,每)中,每次随机抽取样本含量次随机抽取样本含量n n5 5,并计算其均数与,并计算其均数与标准差;重复抽取标准差;重复抽取10001000次,获得次,获得10001000份样本份样本;计算;计算10001000份样本的均数与标准差,并对份样本的均数与标准差,并对10001000份样本的均数作直方图。份样本的均数作直方图。按上述方法再做样本含量按上述方法再做样本含量n n1010、样本、

4、样本含量含量n n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室抽样试验(抽样试验(n n=5=5)第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室抽样试验(抽样试验(n n=10=10)抽样试验(抽样试验(n n=30=30)第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室10001000份样本抽样计算结果份样本抽样计算结果n n=30=30n n=10=10n n=5=5样本样本含量含量n n5.005.005.005.0

5、04.994.99均数的均数的均数均数0.09200.09200.15800.15800.22120.2212均数标准差均数标准差0.09130.09130.500.505.005.000.15810.15810.500.505.005.000.22360.22360.500.505.005.00总体标总体标准差准差 总体的总体的均数均数nnS现将现将1000个样本均数看成新的随机变量绘制频数分布图个样本均数看成新的随机变量绘制频数分布图,如下如下第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室3个抽样实验结果图示0501001502002503003504

6、004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数2212.0;5 XSn0920.0;30 XSn1580.0;10 XSn样本均数的抽样分布具有以下特点:1.各样本均数未必等于总体均数;2.样

7、本均数之间存在差异;3.样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;4样本均数的变异较之原变量的变异大大缩小。抽样实验小结抽样实验小结样本均数围绕总体均数上下波动。样本均数围绕总体均数上下波动。随着样本含量的增大,样本均数的变异程随着样本含量的增大,样本均数的变异程度(样本均数的标准差即标准误)也逐渐减度(样本均数的标准差即标准误)也逐渐减小小。从正态总体从正态总体N N(,2 2)中抽取很多个样本含中抽取很多个样本含量量n n相同的样本,获得样本均数的分布仍近相同的样本,获得样本均数的分布仍近似呈正态分布似呈正态分布N(,2/n)。非正态总体样本均数

8、的抽样实验非正态总体样本均数的抽样实验 图(a)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图。图(b)(e)显示,当样本量n较小时,样本均数的分布当然并非正态分布,样本量足够大时(例如,n 50),样本均数的分布近似于正态分布。PERCENT030 x MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14

9、.24.34.44.54.64.74.84.95.0图图(a)x n=5PERCENT030mm MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.0图图b(n=5)xn=10PERCENT030mm MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.

10、81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.0图图c(n=10)xn=30PERCENT030mm MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.0图图d(n=30)xn=50P

11、ERCENT030mm MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.0图图e(n=50)x中心极限定理central limit theorem从正态总体N(,2)中抽取很多个样本含量n相同的样本,所得样本均数的分布仍近似呈正态分布。从非正态总体中抽取样本,当样本含量n比较大时,所得样本均数的分布也近似呈正态分布。2、均数

12、的抽样误差(Sampling error of mean)1.概念:从总体中随机抽样时,样本均数与总体均数或样本均数与样本均数之间的差异,称作均数的抽样误差。2.产生抽样误差的原因:是因为总体中的个体之间存在变异。抽样误差是不可避免的,但其大小可以估计。均数抽样误差大小以均数的标准误表示。3、均数的标准误(standard error of mean)样本均数的标准差叫均数的标准误 1)符号:以 表示。实际应用中,常属未知,无法计算 ,故常以 作为 的估计值。2)计算:x x xsxnsnsxx 例例 2000年某研究者随机调查某地健康成年男子年某研究者随机调查某地健康成年男子27人,得到血红

13、蛋白量的均数为人,得到血红蛋白量的均数为125 g/L,标准,标准差为差为15 g/L。试估计该样本均数的抽样误差。试估计该样本均数的抽样误差。)/(89.22715LgnsSx 3)意义:它是描述均数抽样误差大小的指标,反映样本含量相同的样本均数的离散趋势或变异程度。越大,说明样本均数 的波动范围越大或抽样误差越大,由样本均数推论总体均数时的可靠性越差。xx 4)均数标准误的应用 (1)说 明 均 数 抽 样 误 差 的 大 小,记为 。(2)结合均数推断总体均数的置信区间。(3)用均数标准误进行均数的假设检验。SExxsx 或或4.1.2 样本频率 实验:在一口袋内装有形状、重量完全相同的

14、黑球和白球,已知黑球比例为20%(总体概率=20%),从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35),计算摸到黑球的百分比(样本频率pi)。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%,19.8%,20.2%,22.5%,等,将其频数分布列于下表。表表5-3 总体概率为总体概率为20%时的随机抽样结果(时的随机抽样结果(ni=35)黑球比例%样本频数%5.0 3 3.0 8.0 7 7.0 11.0 5 5.0 14.0 8 8.0 17.0 16 16.0 20.0 22 22.0 22.0 15 15.0 25.0 7 7.0 28.0 7

15、7.0 31.0 5 5.0 34.0 3 3.0 40.0 2 2.0 合计 100 100.0 频率的抽样误差:这种样本频率与样本频率之间、样本频率与总体概率之间的差异。频率的标准误:表示频率的抽样误差的指标 若X服从二项分布B(n,p)样本频率为样本频率为 样本频率样本频率p的的总体均数为总体均数为 p=,样本频率样本频率p的总体方差为的总体方差为 样本频率样本频率p的总体标准差(的总体标准差(率的标准误)率的标准误)p的估计值的估计值 nxp nppnspp)1()1(np)1(2 例 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估

16、计该样本频率的抽样误差。p=41.5%=0.415,n=776 =(1)pppns 0.415 0.585.77%7760.017714.1.3 两个样本均数间差值*分别从两个正态总体N(1,12)和N(2,22)中独立地随机抽取样本,所得样本均数分别记为 ,分别服从正态分布N(1,12/n1)和N(2,22/n2),所得两个样本均数的差值 同样服从正态分布:21xx 和和21xx nnxxxx222121221211 标准误为标准误为该抽样分布的均数为该抽样分布的均数为 如果总体为非正态分布,当样本含量如果总体为非正态分布,当样本含量n n足够大时,根足够大时,根据中心极限定理,据中心极限定

17、理,所得样本均数所得样本均数 分别近似服分别近似服从正态分布从正态分布N(1,12/n1)和和N(2,22/n2),所得两个样,所得两个样本均数的差值本均数的差值 同样近似服从正态分布。同样近似服从正态分布。21xx 和和21xx nsnssxxxx222121)2(1212221)1(的标准误的标准误如果总体方差未知,如果总体方差未知,)1()1()1()1(11)11()2(212222112212122212)2(1212c2221 nnsnsnsnnsnnsnsnssxxcccccxx的标准误的标准误如果总体方差未知,如果总体方差未知,4.1.4两个样本率间差值*两个阳性事件数X1和X

18、2分别服从二项分布B(n1,1),B(n2,2),两个样本频率间差值p1-p2的总体均数为:p1p2=12 nppnppsnnpppppp2221112122211122121211111)1()()()()(的总体方差为的总体方差为 态分布。态分布。的抽样分布近似服从正的抽样分布近似服从正两个样本频率的差值两个样本频率的差值时,时,或或均不接近于均不接近于与与均足够大,均足够大,与与当当的估计值为的估计值为则则若用样本资料来估计,若用样本资料来估计,的总体方差为的总体方差为2121212121212121221212110)11)(1()11)(1()2(ppppnnnnppsnnXXpnn

19、ppccppccccppc 4.2 z分布与t分布 4.2.1 z分布 当样本含量n足够大时,无论总体分布是否服从正态分布,样本均数的分布均近似服从正态分布N(,)或N(,2/n).标准正态变换:2x xxzxz 4.2.2 t分布 1.t变换 标准正态变换标准正态变换:t t变换:变换:xxzxz xsxt 第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室 xzx随机变量随机变量X XN N(,2 2)标准正态分布标准正态分布N N(,2 2)均数均数标准正态分布标准正态分布N N(,2 2)xxz ),(2nN1,nvSxtx Student Stude

20、nt t t分布分布 xxz xz)1,0(2Nz 标准正态分布标准正态分布 t t分布分布 t t 分布(与分布(与Z Z 分布分布 比较的特点)比较的特点)t t分布曲线下面积分布曲线下面积 2.t分布的图形和t分布表 从一个13岁女学生身高这个正态总体中分别作样本量为 3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t变换,并将t值绘制相应的直方图。可以看出,这两个t值分布图并不完全一样,样本量为3的图(a)较之样本量为50的图(b)显得矮胖,两侧尾部稍高。FREQUENCY0200t3 MIDPOINT-12.0-11.5-11.0-10.

21、5-10.0-9.5-9.0-8.5-8.0-7.5-7.0-6.5-6.0-5.5-5.0-4.5-4.0-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.53.03.54.04.55.05.56.06.57.07.58.08.59.09.510.010.511.011.512.0图a (n=3)t FREQUENCY0200t50 MIDPOINT-5.0-4.5-4.0-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.53.03.54.04.55.0 图b (n=50)t t分布曲线 (t-distribut

22、ion curve)t分布曲线是与标准正态分布曲线相似的一条曲线,即高峰位于中央(均数为0处),两侧完全对称,而且逐渐降低,但永远不与横轴相交的钟型曲线。横轴上曲线下的总面积等于100或1。3.t分布曲线的特征 单峰分布;以0为中心,左右两侧对称;与z分布相比,曲线较低平,两尾部较高;t分布曲线是一簇曲线。t分布曲线的形状随自由度的大小而变化;自由度=n-1。小时,曲线低平,大时,曲线陡峭,时,t分布 标准正态分布。=时,t分布与z分布曲线完全重合。t分布曲线下面积分布有一定的规律性。自由度分别为1、5、的t分布示意图 tt t分布曲线下面积分布曲线下面积 4.t分布曲线下面积分布:t值在t0

23、.05/2,之间的面积占总面积的95 t值在t0.01/2,之间的面积占总面积的99 第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室第四军医大学卫生统计学教研室t分布曲线下面积(附表c2-p560)双侧双侧t t0.05/20.05/2,9 9单侧单侧t0.025,9=2.262 2.262 单侧单侧t0.05,91.833双侧双侧t t0.01/20.01/2,9 9单侧单侧t0.005,9=3.250 3.250 单侧单侧t0.01,92.821 95%95%95%95%t t分布曲线分布曲线 两类错误中单双测检验两类错误中单双测检验 不同自由度的t分布示意图 4.3、总体参数的

24、估计 参数估计:在抽样研究中通过样本统计量来估计总体参数的大小,称为。参数估计的方法:1.点估计(近似值):用样本均数直接作为总体参数的估计值,未考虑抽样误差,如 。2.区间估计(近似范围):按照一定的置信度(1-)估计包含未知总体参数的一个区间范围,考虑抽样误差.x4.3.1.有关置信区间的概念 按照事先给定的1-(置信度),通过样本统计量来估计未知总体参数可能所在的范围,这个范围称为参数的置信区间(comfidence interval,CI),或可信区间。按95的置信度估计的总体参数可能所在的范围,称为总体参数的95置信区间。置信度:记作1,为预先给定的概率。置信度常取95或99。置信区

25、间的涵义 从同一总体中重复作随机抽样,每个样本可以算得一个置信区间。如95%置信区间,意味着做100次抽样,算得100个置信区间,理论上有95个置信区间包括总体均数(估计正确),只有5个置信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此实际应用中就认为总体均数在算得的置信区间内。这种估计会冒5%犯错误的风险。置信区间的两个要素(1)准确度:即置信度1.越大越好。(2)精确度:反映在区间的长度,愈小愈好。与标准误的大小有关。4.3.2.总体均数的置信区间 1.已知,总体均数的双侧(1)置信区间:的95置信区间(=0.05):的99置信区间(=0.01):xxxZxZx

26、Zx 2/2/2/),(即即)96.1(xx )58.2(xx 总体均数的单侧(1)置信区间:的95置信区间:的99置信区间:),(xxZxZx ,或(或()33.2),33.2(xxxx ,或(或()645.1),645.1(xxxx ,或(或(2.未知,但n较小 的双侧(1)置信区间 的单侧(1)置信区间 xxxstxstxstx ,2/,2/,2/),(即即),(,xxstxstx ,或(或(未知,但n足够大(如,n100)的双侧(1)置信区间 的单侧(1)置信区间 )96.1(%95),(2/2/2/xxxxsxszxszxszx 置信区间:置信区间:的的如如即即 )64.1),64.

27、1(%95),(xxxxsxsxszxszx ,或(或(置信区间:置信区间:的的如如,或(或(例 已知某地27名健康成年男子的血红蛋白量均数125 g/L,标准差15 g/L。试问该地健康正常成年男子血红蛋白平均含量的95%置信区间和99%置信区间各是多少?本例n=27,=27 1=26,查t界值表,=0.05时,双侧 t0.05/2,26=2.056,=0.01时,t0.01/2,26=2.779;该市健康成年男子血红蛋白平均含量:该市健康成年男子血红蛋白平均含量:95%95%置信区间为(置信区间为(119.06,130.94119.06,130.94)g/Lg/L,99%99%置信区间为(

28、置信区间为(116.98,133.02116.98,133.02)g/Lg/L。LgCILgCI/)02.133,98.116(2715779.2125:%99/)94.130,06.119(2715056.2125:%95 例例 某市某市2000年随机测量了年随机测量了90名名19岁健康男大学生岁健康男大学生的身高,其均数为的身高,其均数为172.2 cm,标准差为,标准差为4.5 cm,试估计该市试估计该市2000年年19岁健康男大学生平均身高的岁健康男大学生平均身高的95%置信区间。置信区间。该市该市20002000年年1919岁健康男大学生平均身高的岁健康男大学生平均身高的95%95%

29、置信区间为(置信区间为(171.3171.3,173.1173.1)cm。cmsxx)1.173,3.171(905.496.12.172,905.496.12.17296.1:%95即即置信区间置信区间的的 4.3.34.3.3总体概率的置信区间总体概率的置信区间 1.正态近似法 适用条件:n足够大,且p和(1p)均不太小,如np与n(1-p)均大于5.总体率的双侧置信区间:pZ/2 Sp 2.查表法 适用条件:n较小,如n50,特别是p接近0或1,按二项分布原理估计总体率的置信区间,但计算繁杂。(1)n50,Xn/2,以n和X直接查表;(2)n50,Xn/2,以n和(nX)查表,再用(100表中数值)。4.3.4 poisson分布阳性计数的总体均数的置信区间(1)X50,以X直接查表;(2)X50,将变量X看做近似服从正态分布。XZX 2/例 由一份混合好的自来水中抽取1ml水样,培养得细菌数5个,试求全部自来水中平均每毫升水中细菌数的置信区间。95%置信区间为:1.611.7个 例 进行放射性计数,本底10分钟测得脉冲数为500,试计算其标准差及总体均数的置信区间。95%置信区间为:(5001.9622.36,500+1.9622.36)即(456.17,543.83)次 36.22500 XSX

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 其他杂项

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com