最新医学统计学总体均数的估计与假设检验精品课件.ppt-得力文库

资源描述

《最新医学统计学总体均数的估计与假设检验精品课件.ppt》由会员分享，可在线阅读，更多相关《最新医学统计学总体均数的估计与假设检验精品课件.ppt（34页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、医学统计学总体均数的估计与医学统计学总体均数的估计与假设检验假设检验一、抽样误差的概念一、抽样误差的概念（一）均数的抽样误差与标准误（一）均数的抽样误差与标准误在医学科研中常采用抽样研究的方法，由于存在个体差异，在医学科研中常采用抽样研究的方法，由于存在个体差异，样本均数一般不恰好等于总体均数，这种由个体变异产生的、样本均数一般不恰好等于总体均数，这种由个体变异产生的、由抽样误差造成的样本均数与样本均数以及样本均数与总体均由抽样误差造成的样本均数与样本均数以及样本均数与总体均数之间的差异数之间的差异( )称为均数的抽样误差。抽样误差在抽称为均数的抽样误差。抽样误差在抽样研究中是不可避免的。但

2、有一定的规律可循，我们可以用特样研究中是不可避免的。但有一定的规律可循，我们可以用特定的指标来描述抽样误差的大小。定的指标来描述抽样误差的大小。统计推断包括两方面的内容：参数估计和假设检验统计推断包括两方面的内容：参数估计和假设检验X 而在实际工作中只有用而在实际工作中只有用S估计估计，故标准，故标准误的估计值计算公式为误的估计值计算公式为例例4-4-1 用例用例4-2-1某地某地101例例3040岁岁骨科病人血清胆固醇值资料计算标准误骨科病人血清胆固醇值资料计算标准误 nSSXLmmolsX/(0876. 010188. 0均数标准误的用途：均数标准误的用途：o衡量样本均数的可靠性，其值越

3、小则用其衡量样本均数的可靠性，其值越小则用其估计总体均数越可靠；估计总体均数越可靠；o结合样本均数和正态分布曲线下的面积分结合样本均数和正态分布曲线下的面积分布规律，可用于估计总体均数的置信区间布规律，可用于估计总体均数的置信区间（后述）；（后述）；o可用于均数的假设检验（后述）。可用于均数的假设检验（后述）。（二）（二） t分布分布样本均数的分布服从正态分布样本均数的分布服从正态分布N (， ) ，按，按照标准正态分布变换方法，照标准正态分布变换方法，N (， )，也可变换，也可变换成标准正态分布成标准正态分布N(0，1)，由于由于往往未知常用往往未知常用s作为作为的估计值，则此时对的估

4、计值，则此时对变量变量采用的就不是采用的就不是z变换而是变换而是t变换，即服从变换，即服从=n-1的的t分布分布x2x2xXz/XsxtX 统计量是统计量是t的分布就是的分布就是t分布。分布。ot分布的特征：分布的特征：以以0为中心，左右对称呈单峰分布；为中心，左右对称呈单峰分布； t分布是一簇曲线，分布参数为自由度分布是一簇曲线，分布参数为自由度。 t分布的形状与样本例数分布的形状与样本例数n有关，高峰比正态分有关，高峰比正态分布略低，两侧尾部翘得比正态分布略高。布略低，两侧尾部翘得比正态分布略高。越大，越大，曲线越近正态分布，当曲线越近正态分布，当=时，时，t分布即为分布即为z分布。

5、分布。o由于由于t分布是一簇曲线，为了便于应用，统计学家分布是一簇曲线，为了便于应用，统计学家编制了表编制了表4-4-1 t界值表。界值表。表表4-4-1 t界值表界值表自自由由度度概率，概率，P 单侧单侧:0.250.200.100.050.0250.010.0050.00250.0010.0005 双侧双侧:0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.0

6、8933.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.86960.7180.9061.4401.9432.4473.1433.7074.3175.2085.95970.7110.8961.4151.8952.3652.9983.4994.0294.7855.40880.7060.8891.3971.8602.3062.8

7、963.3553.8334.501504190.7030.8831.3831.8332.2622.8213.2503.6904.2974.781100.7000.8791.3721.8122.2282.7643.1693.5814.1444.587t值大则值大则P值小值小t值随自由度增大而渐小值随自由度增大而渐小110.6970.8761.3631.7962.2012.7183.1063.4974.0254.437120.6950.8731.3561.7822.1792.6813.0553.4283.9304.318130.6940.8701.3501.7712.1602.6503.0123.

8、3723.8524.221140.6920.8681.3451.7612.1452.6242.9773.3263.7874.140150.6910.8661.3411.7532.1312.6022.9473.2863.7334.073160.6900.8651.3371.7462.1202.5832.9213.2523.6864.015170.6890.8631.3331.7402.1102.5672.8983.2223.6463.965180.6880.8621.3301.7342.1012.5522.8783.1973.6103.922190.6880.8611.3281.7292.093

9、2.5392.8613.1743.5793.883200.6870.8601.3251.7252.0862.5282.8453.1533.5523.850300.6830.8541.3101.6972.0422.4572.7503.0303.3853.646400.6810.8511.3031.6842.0212.4232.7042.9713.3073.551500.6790.8491.2991.6762.0092.4032.6782.9373.2613.49610006770.8451.2901.6601.9842.3642.6262.8713.1743.3900.67450.84161.2

10、8161.6451.962.332.582.80703.09023.2905t界值表（续）界值表（续）与单侧概率相对应的与单侧概率相对应的t值用值用 t (,) 表示，与双侧概率表示，与双侧概率相对应的相对应的t值用值用t(/2,)表示。表示。由于由于t t分布是以分布是以0 0为中心的对称分布，表中只列出为中心的对称分布，表中只列出了正值，故查表时，不管了正值，故查表时，不管t t值正负只用绝对值表示。值正负只用绝对值表示。由表由表4-4-1 4-4-1 可知，可知，同一自由度下，同一自由度下，t t值越大值越大P P值越小值越小；在同一在同一P P值下，随自由度增加，值下，随自由度增

11、加，t t界值减少并逐渐趋于稳界值减少并逐渐趋于稳定的定的z z值值。二、总体均数的估计二、总体均数的估计用样本指标（统计量）估计总体指标（参数）称为参数估计。总用样本指标（统计量）估计总体指标（参数）称为参数估计。总体均数的估计有两种方法，体均数的估计有两种方法，一是一是点估计点估计：直接用统计量：直接用统计量估计总体参数估计总体参数，此法并不常用；，此法并不常用；例如例如于于2000年测得某地年测得某地27例健康成年男性血红蛋白量的样本均数为例健康成年男性血红蛋白量的样本均数为125g/L，试估计其总体均数。，试估计其总体均数。，即认为，即认为2000年该地所有健康成年男性血红蛋

12、白量的总体均数年该地所有健康成年男性血红蛋白量的总体均数为为125g/L 。其二是其二是区间估计区间估计（参数估计）：较常用，即按一定的概率估计总体均（参数估计）：较常用，即按一定的概率估计总体均数所在数值范围，常用双侧数所在数值范围，常用双侧95%可信区间（置信区间），其通式为可信区间（置信区间），其通式为 Xxstx05.0X 当当已知或未知但已知或未知但n足够大（如足够大（如n100）用公式：）用公式：例例4-4-2 由例由例4-2-2中中5名名17岁女中学生肺活量资料岁女中学生肺活量资料得得 =2.44 L，S=0.33L，试估计该地，试估计该地17岁女中学生肺岁女中学生肺活量的活

13、量的95%的可信区间。的可信区间。本例本例n=5， =4，t0.05，4=2.776)S或(1.96xxxxxstx05. 0=2.442.7760.33/ =2.032.85（L）该地该地17岁女中学生肺活量均数的岁女中学生肺活量均数的95%可信区间为可信区间为2.03L2.85L。5例例4-4-3 由例由例4-2-1 101名名3049岁健康男子血清总岁健康男子血清总胆固醇胆固醇 mmolL-1，S=0.88 mmolL-1，求该，求该地健康男子血清总胆固醇值均数的地健康男子血清总胆固醇值均数的95%可信区间。可信区间。735. 4Xxsx196=4.7351.960.88/ =4.5

14、634.907（mmolL-1） 101 置信区间的两个要素置信区间的两个要素准确度：反映置信度的大小，即区间包含准确度：反映置信度的大小，即区间包含总体均数的概率大小。总体均数的概率大小。精度：反映区间的长度。精度：反映区间的长度。1. 在置信区间确定的情况下，增加样本例在置信区间确定的情况下，增加样本例数，会减小数，会减小 t, 和和，可减少区间长度，可减少区间长度，提高精度。提高精度。XSXS S： 95%的参考值范围是指同质总体内包括的参考值范围是指同质总体内包括95%个体值的估计个体值的估计范围。范围。若总体为正态分布，常按计算。 95%的可信区间是指按的可信区间是指按95%

15、的置信度估计的总体参数的所的置信度估计的总体参数的所在范围。若为大样本，按在范围。若为大样本，按计算。计算。：置信区间用标准误，参考值范围用标准差。置信区间用标准误，参考值范围用标准差。均数置信区间与参考值范围的区别均数置信区间与参考值范围的区别SX96. 1XSX96. 1思考！思考！标准差与标准误的区别标准差与标准误的区别：标准差是描述样本中个体值间的变异程度的：标准差是描述样本中个体值间的变异程度的指标，标准差越小，表示变量值围绕均数的波动越小。标准误指标，标准差越小，表示变量值围绕均数的波动越小。标准误是描述样本均数间变异程度的指标，标准误越小，表示样本均是描述样本均数间变异程度

16、的指标，标准误越小，表示样本均数围绕总体均数的波动越小。数围绕总体均数的波动越小。：标准差常用于表示变量值对均数波动的：标准差常用于表示变量值对均数波动的大小，当资料呈正态分布时，与均数结合可估计正常值范大小，当资料呈正态分布时，与均数结合可估计正常值范围，计算变异系数等；标准误常用于表示样本统计量（样围，计算变异系数等；标准误常用于表示样本统计量（样本均数，样本率）对总体参数（总体均数，总体率）的波本均数，样本率）对总体参数（总体均数，总体率）的波动情况，可估计参数的可信区间，进行假设检验。动情况，可估计参数的可信区间，进行假设检验。思考！思考！；二者均为变异指标，如果把总体中各样本均；二

17、者均为变异指标，如果把总体中各样本均数看成一个变量，则标准误可称为样本均数的标准差。数看成一个变量，则标准误可称为样本均数的标准差。当样本含量不变时，均数的标准误与标准差成正比。当样本含量不变时，均数的标准误与标准差成正比。两者均可与均数结合运用，但描述的内容各不相同。两者均可与均数结合运用，但描述的内容各不相同。：当样本含量足够大时，标准：当样本含量足够大时，标准差趋向稳定。而标准误随例数的增大而减小，甚至趋差趋向稳定。而标准误随例数的增大而减小，甚至趋向于向于0。若样本含量趋向于总例数，则标准误接近于。若样本含量趋向于总例数，则标准误接近于0。三、总体率的估计（置信区间）三、总体率的估计（

18、置信区间）（一）率的抽样误差及标准误（一）率的抽样误差及标准误与均数一样，率也存在抽样误差。率的标准差与均数一样，率也存在抽样误差。率的标准差又称率的标准误为：又称率的标准误为：nppsp)1 ( 当总体率当总体率 0.50.5时为正偏态，当时为正偏态，当 0.50.5时为负偏时为负偏态，当态，当 =0.5=0.5时为对称分布。时为对称分布。（二）总体率（二）总体率的区间估计的区间估计当样本例数当样本例数n足够大，且样本率足够大，且样本率p和（和（1-p）都不太小时，即都不太小时，即np和和n（1-p）均大于）均大于5时，样时，样本率本率p的抽样分布近似正态分布，可用正态近的抽样分布近似

19、正态分布，可用正态近似法，按下式估计总体率似法，按下式估计总体率的可信区间：的可信区间：（，），缩写为：），缩写为：pszppszppszpz式中，式中，为标准正态离差。为标准正态离差。例例4-4-4 从某地人群中随机抽取从某地人群中随机抽取144人，检人，检查乙型肝炎表面抗原携带状况，阳性率为查乙型肝炎表面抗原携带状况，阳性率为9.20，求该地人群的乙型肝炎表面抗原阳，求该地人群的乙型肝炎表面抗原阳性率的性率的95可信区间。可信区间。本例本例n =144，p=9.20，可用近似正态法，可用近似正态法计算可信区间。计算可信区间。先按式计算先按式计算： ps%41. 20241. 01

20、44/ )092. 01 (092. 0ps9595可信限为：可信限为：9.20%9.20%1.961.962.41%2.41%，即该地人群，即该地人群的乙型肝炎表面抗原阳性率的的乙型肝炎表面抗原阳性率的9595可信区间为：可信区间为：4.48%13.92%4.48%13.92%。正态近似法仅用于当样本例数正态近似法仅用于当样本例数n较大，且样本较大，且样本率率p不接近不接近0或或1时。否则，近似程度不够，会时。否则，近似程度不够，会出现估计的可信限小于出现估计的可信限小于0或大于或大于1的不合理情况。的不合理情况。四、假设检验的基本原理和基本步骤四、假设检验的基本原理和基本步骤（一）假设检验

21、的基本原理：假设检验亦称显著性检验，（一）假设检验的基本原理：假设检验亦称显著性检验，是统计推断的另一个非常重要的方面。是统计推断的另一个非常重要的方面。假设检验的原理：假设检验的原理：假设检验的假设检验的基本思想基本思想是反证法和小概是反证法和小概率的思想。率的思想。反证法思想：反证法思想：首先提出假设（由于未经检验是否成立，所首先提出假设（由于未经检验是否成立，所以称为无效假设），用适当的统计方法确定假设成立的可以称为无效假设），用适当的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，拒绝它；能性大小，如果可能性小，则认为假设不成立，拒绝它；如果可能性大，还不能认为它不

22、成立。如果可能性大，还不能认为它不成立。小概率思想：小概率思想：是指小概率事件在一次随机试验中认为是指小概率事件在一次随机试验中认为基本上不会发生。基本上不会发生。概率小于多少算小概率是相对的，在进行统计分析时要概率小于多少算小概率是相对的，在进行统计分析时要事先规定，即检验水准事先规定，即检验水准。例例4-4-5 根据大量调查健康成年男子脉搏的根据大量调查健康成年男子脉搏的均数为均数为72次次/分，某医生在山区随机调查了分，某医生在山区随机调查了25名健康成年男子，其脉搏的均数为名健康成年男子，其脉搏的均数为74.2次次/分，标准差为分，标准差为6.5次次/分，能否认为该山区成分，能否

23、认为该山区成年男子的脉搏高于一般人群？年男子的脉搏高于一般人群？本例已知总体均数本例已知总体均数0=72次次/分，而来自于总分，而来自于总体为体为的样本均数的样本均数 =74.2次次/分，与分，与0不等，不等，其产生的可能原因有两种：其产生的可能原因有两种：总体相同总体相同=0，差别由抽样误差造成；统计，差别由抽样误差造成；统计学上称为差异无显著性。学上称为差异无显著性。总体不同总体不同0 ，差异是本质上的差异，即，差异是本质上的差异，即二者来自不同总体。统计学上称为差异有显著二者来自不同总体。统计学上称为差异有显著性。性。要直接判断要直接判断0是不可能的，但我们可以是不可能的，但我们可以利

24、用利用=0（即差别由抽样误差造成）的可能性即差别由抽样误差造成）的可能性大小即概率来判断，若概率小按小概率原理拒大小即概率来判断，若概率小按小概率原理拒绝绝=0，从而判断，从而判断0，否则接受，否则接受=0。X0 0 X（二）假设检验的基本步骤（二）假设检验的基本步骤1建立检验假设建立检验假设假设有两种：假设有两种：一是假设总体相同一是假设总体相同=0，称检验假设即无效假设，称检验假设即无效假设，又称零假设，又称零假设，用用H0表示表示。二是假设总体不同二是假设总体不同0，称备择假设，称备择假设，用用H1表示表示。2确定检验水准：检验水准是预先确定的概率值，即确定检验水准：检验水准是预先

25、确定的概率值，即小概率事件的标准，一般情况下取小概率事件的标准，一般情况下取=0.05，同时要，同时要确定单侧还是双侧检验。确定单侧还是双侧检验。这两种假设都是根据统计推这两种假设都是根据统计推断的目的要求而提出的对总断的目的要求而提出的对总体特征的假设。应当注意检体特征的假设。应当注意检验假设是针对总体而言，验假设是针对总体而言，而而不是针对样本不是针对样本3.选择正确的检验方法和计算统计量选择正确的检验方法和计算统计量根据资料类型和分析目的以及检验方法的适根据资料类型和分析目的以及检验方法的适用条件来选择检验方法。如选用用条件来选择检验方法。如选用t检验计算检验计算t统计统计量，若用量，

26、若用2检验则计算检验则计算2统计量。统计量。4确定确定P值和判断结果值和判断结果根据计算出的检验统计量查相应的界值表即可根据计算出的检验统计量查相应的界值表即可得到概率得到概率P。所谓所谓P值值是指从是指从H0所规定的总体随机所规定的总体随机抽得抽得（或（或）现有统计量的概率。）现有统计量的概率。按检验水准，得出统计结论，即有或无统计学按检验水准，得出统计结论，即有或无统计学意义。统计结论必须和专业有机结合，才能得出意义。统计结论必须和专业有机结合，才能得出最终结论。最终结论。（三）假设检验应注意的问题（三）假设检验应注意的问题1.要有严密的抽样设计：应随机抽取样本，组间应具要有严密的抽样

27、设计：应随机抽取样本，组间应具可比性，实行随机分组等。可比性，实行随机分组等。2正确选定假设检验方法：应根据资料类型、分析正确选定假设检验方法：应根据资料类型、分析目的和设计方案等选用适当的检验方法。目的和设计方案等选用适当的检验方法。3正确理解正确理解“显著性显著性”。统计学上的。统计学上的“显著性显著性”不不应理解为差异的大小，而是认为两者是否相同或不同。应理解为差异的大小，而是认为两者是否相同或不同。表述常用表述常用“差别有（无）显著性差别有（无）显著性”，不应写，不应写“成有成有（无）显著性差别（无）显著性差别”。差异的大小由专业知识来确定。差异的大小由专业知识来确定。4结论不能绝对化。因统计结论具有概率性质，不结论不能绝对化。因统计结论具有概率性质，不象数学上的证明，它会犯错误。故在报告结论时写成象数学上的证明，它会犯错误。故在报告结论时写成“根据此资料认为根据此资料认为”并标明并标明P值。值。

展开阅读全文