CM5Y1-医学统计学方法.ppt

上传人:创****公 文档编号:1704836 上传时间:2019-10-23 格式:PPT 页数:67 大小:2.17MB
返回 下载 相关 举报
CM5Y1-医学统计学方法.ppt_第1页
第1页 / 共67页
CM5Y1-医学统计学方法.ppt_第2页
第2页 / 共67页
点击查看更多>>
资源描述

《CM5Y1-医学统计学方法.ppt》由会员分享,可在线阅读,更多相关《CM5Y1-医学统计学方法.ppt(67页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、2013.10.31,1,医学统计学方法,主讲人 陶育纯,2,http:/ 卫生学 第7版 仲来福 主编 人民卫生出版社年级、专业:2011级医学五年制第一教班授课时间:2013年11月5日授课时数:4h,2013.10.31,3,目录,第九章 数值变量资料的统计分析,第一节 数值变量资料的统计描述,一、数值变量资料的频数分布 二、集中趋势的描述 算术均数 几何均数 中位数和百分位数 三、离散趋势的描述 全距,2013.10.31,4, 四分位数间距 方差 标准差 变异系数,第二节 正态分布及其应用,目录,一、正态分布 正态分布的概念和图形 正态分布的特征 正态分布曲线下面积分布规律,2013

2、.10.31,5,目录, 标准正态分布二、正态分布的应用 估计变量值的频数分布 制定参考值范围 质量控制 正态分布是很多统计方法的基础,2013.10.31,6,第九章 数值变量资料的统计分析,第一节 数值变量资料的统计描述,一、数值变量资料的频数分布,分布(distribution)是一个统计概念。,分布在生活、医学等上的理解是很具体的。如绿化地带在城市中的分布;血液中红细胞的分布;某种疾病的发病部位在人体中的分布;某班全体学生的考试成绩的分布等。 分布上升到数学上,就被抽象起来。抽象的目的在于概括具体。,2013.10.31,7,我们以后要学习很多统计的分布理论,如正态分布、t分布、二项分

3、布、Poisson分布等等。,我们正是利用统计分布的理论方法来揭示具体事物的内在联系和变化规律。,频数分布表(frequency distribution table)通过变量值分布在其取值范围内各组段中的频数大小来揭示具体资料的分布规律。,了解资料的分布规律对于我们选择合理的统计方法来分析资料大有帮助。,2013.10.31,8, 频数分布表 频数分布表的编制步骤:,例9-1 某市2002年150名2029岁的正常成年男子的尿酸浓度(mol/L)的资料如下,试编制频数分布表。,2013.10.31,9,1. 计算全距 全距(range)亦称极差,用R表示,R=最大值最小值。本例 R=428.

4、7278.6=150.1(mol/L)。,2. 确定组距和组段 组距即组段间隔数,用i表示。常取全距的1/10取整作为组距。,本例 i = 150.1/10 = 15.0115。,组段即由组距分隔的区间,每个组段的起点称下限,终点称上限。每个组段规定为: 下限,上限),2013.10.31,10,要求第一组段包含最小值,最后组段包含最大值;一般划分815个组段为宜。,本例 第一组段可定为 270,285),最后一个组段为 420,435),共分11个组段。,3. 列表划记计频 列成如表9-2的形式,采用划记法把全部原始数据划归到每个组段中,以频数统计。划记法可采用划“正”字法或划“ ”法,最后

5、统计出每个组段的笔画总数即得频数。,本例见下表9-2:,2013.10.31,11,2013.10.31,12,表9-2中的第(1)和第(3)栏构成频数表 。, 频数分布图,频数分布图是频数分布表的直观表达,亦称直方图(histogram)。本例见图9-1。,2013.10.31,13, 频数分布特征,频数分布有两个特征:, 集中趋势(central tendency), 离散趋势(tendency of dispersion), 频数分布类型, 对称分布 正态分布是最常用的对称分布。医学上常见的有体温、身高、脉搏等的频数分布。, 偏峰分布 即不对称分布。,2013.10.31,14,偏峰,正

6、偏峰(频数多集中在观察值较小的一侧),负偏峰(频数多集中在观察值较大的一侧),下图为一正偏峰的直方图。,2013.10.31,15, 频数分布表的用途, 揭示资料的分布特征和分布类型,便于选择适当的统计分析方法。 便于发现某些特大或特小的可疑值。,二、集中趋势的描述,平均数(average)是统计学中描述定量资料的集中趋势,反映资料的平均水平或集中位置的最常用、最重要的指标体系。常用的平均数有:均数、几何均数和中位数。,2013.10.31,16, 算术均数,算术均数简称均数(mean)。总体均数用希腊字母表示,样本均数用 表示。适用于描述对称分布,尤其是正态分布或近似正态分布的数值变量资料的

7、平均水平。 计算方法有:,1. 直接法 将所有观测值相加求和除以观测值个数。公式为:,式中是希腊字母,为求和符号。,式(9-1),2013.10.31,17,例9-2a 现有10名女大学生的口腔温度()分别为:37.7、36.8、36.8、37.0、37.1、37.2、37.1、37.0、36.9、37.3。求其平均体温。,代入式(9-1)得:,2. 加权法 适合于频数分布表资料求均数。公式为:,式(9-2),2013.10.31,18,式中k是组段;fi为每组段的频数;Xi为每组段的组中值。组中值等于本组段的下限和上限相加除以2。i=1,2 k 。,用加权法计算例9-1的均数见表9-3。,2

8、013.10.31,19,代入式(9-2)得:, 几何均数,几何均数(geometric mean)用G表示。适用于描述各观测值之间呈倍数关系(等比数列),或偏态分布资料的变量值经对数变换后呈正态分布(简称对数正态分布)资料的平均水平。,2013.10.31,20,计算方法有: 1. 直接法 公式为:,式(9-3),例9-3a 现有7份血清的抗体效价为:1:2、1:4、1:8、 1:32、1:32、 1:64、 1:64 。求其平均效价。,式中lg-1表示lg 的反函数,即lg-1 =10x。,为简化计算,用抗体效价的倒数为X代入式(9-3)得:,2013.10.31,21,该7份血清的平均抗

9、体效价为 1 : 16。,2. 加权法 适合于有较多观测值或频数分布表资料。公式为:,式(9-4),式中X是观测值或组中值。,2013.10.31,22,例9-4 某地34名儿童接种麻疹疫苗后,血清血凝抑制抗体滴度见表9-4的(1)、(2)栏,求其平均滴度。,2013.10.31,23,代入式(9-4)得:,34名儿童接种麻疹疫苗后平均血凝抑制抗体滴度为 1 : 10.206。, 中位数与百分位数,中位数(median)用M表示。一组观测值从小到大顺序排列,位次居中的观测值即为中位数。适用于各种资料,但常用于描述偏态分布分布不清有特大、特小值端点无确定数值的资料的集中位置。 计算方法有:,20

10、13.10.31,24,1. 直接法 适合例数较少的资料。先将所有观测值从小到大排序,当例数为奇数时,居中的观测值即为中位数;当例数为偶数时,居中的两个观测值相加除以2即为中位数。公式为:,n为奇数时,n为偶数时,式(9-5),式(9-6),式中下标为排序后的观测值的位次。,别忘先排序呦!,2013.10.31,25,例9-5a 某传染病患者9例,他们的潜伏期分别为:6、5、 4、7、 12、 4、5、7、9天 。求中位数。,首先排序:4、4、5、5、6、7、7、9、12 位次: 1 2 3 4 5 6 7 8 9,本例n=9为奇数,故M=6天。,用式(9-5),,例9-6a 若例10.5增加

11、潜伏期为20天的一例 。求中位数。,首先排序:4、4、5、5、6、7、7、9、12、20 位次: 1 2 3 4 5 6 7 8 9 10,本例n=10为偶数,故M=(6+7)/2=6.5(天)。,用式(9-6),,2013.10.31,26,2. 频数分布表法 适用于频数分布表资料。公式为:,式(9-7),式中L为中位数所在组段的下限;fM为该组段的频数;i为该组段的组距;fL为小于L的各组段累计频数。,要想判断出中位数所在组段,可从频数分布表中先计算累计频数或累计频率,再利用n/2或50%找出中位数所在组段,最后代入式(9-7)求中位数。,2013.10.31,27,例9-7 某研究者测得

12、某年某市308名6岁以下儿童的尿铅值,见表9-5的(1)、(2)栏,求其中位数及P25、P75、P95。,2013.10.31,28,求出累计频数或累计频率,见表9-5的(3)、(4)栏。本例n/2=308/2=154,累计频数176刚好包含n/2,则中位数落在176所在的第三组段;累计频率57.14%刚好包含50%,则中位数落在57.14%所在的第三组段。,则 L =50,i =25 ,fM =95 ,fL =81。代入式 (9-7)得:,308名6岁以下儿童的尿铅值中位数为12.94小时。,2013.10.31,29,百分位数(percentile,Px)百分位数是一组从小到大排列的观测值

13、的百等份分割值。用Px表示。和中位数一样,都是位置指标。中位数是一个特定的百分位数,即M=P50。百分位数的计算公式为:,式(9-7a),式中L为Px所在组段的下限;fx为该组段的频数;i为该组段的组距;fL为小于L的各组段累计频数。,求例9-7资料中尿铅值的P25 、P75和P95 。,2013.10.31,30,首先根据表9-5的(4)栏累计频率,累计频率26.30%刚好包含25%,则P25落在26.30%所在的第二组段。,则 L=25,i=25 ,fx=54 ,fL=27。代入式(9-7a) 得:,同理可知:P75落在第四组段,则L=75,i=25 ,fx = 55 ,fL=176。代入

14、式(9-7a)得:,同理可得:,2013.10.31,31,三、离散趋势的描述,本章一部分讲授的频数分布有集中趋势和离散趋势两个特征,说明描述资料的全面变化规律需把二者结合起来。通过下例可说明这个问题。,例9-8a 现有3组健康女大学生的口腔温度测得值如下,试分析其集中趋势和离散趋势。,1组 36.8 36.9 37.0 37.1 37.2,2组 36.5 36.9 37.0 37.1 37.5,3组 36.5 36.7 37.0 37.3 37.5,2013.10.31,32,前面三组学生的平均口腔温度都是37.0(),即集中趋势相同,但能说明三组数据的变化规律相同吗?我们通过把上述三组数据

15、转化成数轴上的点看看这个问题。,2013.10.31,33,显然三组学生的口腔温度值参差不齐的程度都各不相同。第1组数值较为集中,第2、3组数值较为发散。说明三组数据的离散趋势是不相同的。,统计学中常用描述变量值的离散程度(亦称变异程度)的指标有:全距、四分位数间距、方差、标准差和变异系数。, 全距,全距亦称极差,用R表示。全距是所有变量,2013.10.31,34,值中最大值与最小值之差,它反映了变量值的变异范围大小。全距大变异程度大;全距小变异程度小。,例9-8a中,R1=37.2-36.8=0.4、R2=1.0、 R3=1.0。说明第1组数据的离散趋势比第2、3组小。,全距计算简便,但粗

16、略,不稳定。,例9-8a中,R2=R3=1.0,并不能说明两组数据的离散趋势一样。,全距易受极大或极小值的影响。,2013.10.31,35, 四分位数间距,四分位数(quartile)是特定的百分位数。第25百分位数(P25)称为下四分位数(lower quartile),常用QL表示;第75百分位数(P75)称为上四分位数(upper quartile),常用QU表示。四分位数间距(InterQuartile Range, IQR)即QU与QL之差,用IQR表示。,2013.10.31,36,四分位数间距适用于偏态分布资料,尤其是有特大或特小值;分布末端无确切数值的资料。,例9-8b 求例

17、9-7资料的四分位数间距。,在前面百分位数中已求得P25 =48.15,P75 =100.00, 则四分位数间距为:,四分位数间距虽比全距稳定,但仍未考虑所有变量值的变异程度。,2013.10.31,37, 方差,方差(variance)是常用的变异指标。总体方差用2表示,样本方差用S2表示。总体方差往往未知,常用样本方差来估计。,方差的计算公式为:,式(9-8),式(9-9),William Sealy Gosset (1876-1937),Student,英国统计学家Gosset建议用n-1代替n计算S2,可证明S2总在2的周围(无偏估计)。n-1称为自由度(degree of freed

18、om )。,称为离均差平方和,In statistics, the number of degrees of freedomis the number of values in the final calculationof a statistic that are free to vary.,2013.10.31,38, 标准差,标准差(standard deviation)是方差的平方根。因方差使度量衡单位变成平方,故对方差开平方根恢复原单位就得到标准差。总体标准差用表示,样本标准差用S表示。计算公式为:,式(9-10),式(9-11),2013.10.31,39,离均差平方和 常用SS或

19、lxx表示。其展开式为:,把上述展开式代入式(9-11)则得到直接由原始数据求标准差的公式:,式(9-13),式(9-12),式中 是变量值平方的和; 是变量值和的平方。 上式为直接法的计算公式,下式为加权法的:,2013.10.31,40,式(9-14),式中X 是各组段的组中值,f 是相应的频数。,例9-8c 求例9-8a三组数据的各自标准差。,求第1组的S1:,同理得:,2013.10.31,41,例9-9 用加权法求例9-1数据的标准差。,由表9-3的(2)、(4)、(5)栏可得:,代入式(9-14)得:,标准差适用于描述对称分布,尤其是正态分布或近似正态分布的数值变量资料的变异程度。

20、,2013.10.31,42, 变异系数,变异系数(coefficient of variation)常记为CV。它被定义为标准差与均数之比,即,式(9-15),变异系数适用于比较度量衡单位不同的或均数相差悬殊的多组资料的变异程度。,例9-10a 某地7岁女孩身高均数为120.25cm,标准差为4.42cm;胸围均数为56.63cm,标准差为2.91cm。试比较身高与胸围的变异程度。,2013.10.31,43,身高,胸围,例9-10b 某地调查150名女大学生身高均数为162.05cm,标准差为4.67cm;体重均数为50.10kg,标准差为4.98kg。试比较身高与体重的变异程度。,身高,

21、体重,2013.10.31,44,第二节 正态分布及其应用,一、正态分布,在实际应用中,对于某些频数分布表资料绘制成的直方图(如本章第一节的例9-1的图9-1),如果不断地加大样本并细分组段,则图中的直条将逐渐变窄并且锯齿型上缘就会趋近某一光滑的曲线(称为频数曲线或频率曲线),该曲线的形态为开口向下的钟型,两头低,中间高,左右对称,它近似于正态分布曲线。见下图9-2。,2013.10.31,45,因为按频率计算,直方图全部直条的面积和为1(频率之和为100%),所以正态分布曲线与横轴所包括的面积为1。可以把正态分布曲线看成是这种频数直方图的极限形态。,图9-2 频数分布渐近正态分布的过程,n增

22、大,n,2013.10.31,46,正态分布(Normal distribution)又被称为高斯分布(Gaussian distribution),是一种重要的连续型分布。其分布密度函数为:, 正态分布的概念和图形,式中是总体均数,是总体标准差,=3.14159.为圆周率,e=2.71828.是自然对数的底。,2013.10.31,47,利用正态分布密度函数 f(x) 可以绘制其图形,即正态分布曲线,见下图。,曲线呈开口向下的钟型;以过均值的垂线为轴,曲线左右完全对称;其两侧尾端沿横轴的方向左右无限伸展,但永远不与横轴相交。,2013.10.31,48, 正态分布的特征, 正态曲线以均数为中

23、心,左右对称。, 正态曲线的高峰位于均数所在处。, 正态分布具有均值与标准差两个参数。 确定正态曲线的中心位置。越大,曲 线沿横轴越向右移动;反之越向左移动。 确定曲线的形状。越大,曲线越扁平; 越小,曲线越尖峭。一般用N(,2)表示 均数为,方差为2的正态分布。, 正态曲线下面积分布有一定规律。,2013.10.31,49,I. position parameter,determine location of the peak (center) for a normal distribution,2013.10.31,50,II. shape parameter,determine shap

24、e of a normal curve,2013.10.31,51,不同与的正态曲线见下图。,N(0,12),N(0,1.52),N(1,22),2013.10.31,52, 正态分布曲线下面积分布规律,实际应用中,正态曲线下,横轴上一定区间的面积占总面积的百分数,可以估计该区间的例数占总例数的百分数或变量值落在该区间的概率。 利用对正态分布密度函数f(x)求积分可以得到正态曲线下一定区间的面积(概率),即:,式中F(x)称为正态变量x的累计分布函数。,2013.10.31,53,正态曲线下面积分布示意见下图。,理论上,正态曲线下1.96和2.58的区间的面积分别各占总面积的95%及99%。图

25、示见下图。,2013.10.31,54, 标准正态分布,正态分布有两个不固定的参数与,为了应用方便,可采取变量变换,使二者都为常数,即= 0,= 1。其变换为:,2013.10.31,55,此变换可把N(,2)转化为= 0,= 1的正态分布N(0,1),称为标准正态分布(standard normal distribution)。上述变换称为标准化变换。 图示见下图。,2013.10.31,56,统计学家制作了标准正态分布曲线下的面积分布表供使用,见教材299页的表9-8。,二、正态分布的应用,参考值范围(reference ranges)又被称为正常值范围,是指绝大多数正常人的生理、生化等指

26、标的波动范围。, 估计变量值的频数分布, 制定参考值范围,见教材。,2013.10.31,57, 选择足够数量的正常人。, 根据专业知识确定单、双侧范围。, 选定适当的百分数范围。, 制定医学参考值范围的注意事项, 从同质的总体中进行随机抽样。, 控制测量误差。, 根据资料的分布类型选定适当的方法。,医学参考值范围是临床上检验个体某项指标正常与否的常用辅助标准。,2013.10.31,58, 医学参考值范围的计算方法,根据资料的分布类型可选择正态分布法或百分位数法计算医学参考值范围。,1. 正态分布法 适用于正态分布或近似正态分布的资料。计算公式为:,式中u为正态分布界值。当求95%的双侧参考

27、值范围时,=1-95%=0.05,u0.05=1.96。u值可从教材299页的表9-8查得,常用的u值可从下列附表查得。,2013.10.31,59,例9-11 利用表9-1的资料求95%的医学参考值范围。,因尿酸浓度过多或过少均为异常,故应求双侧范围。 从图9-1可看出资料近似正态分布,故用正态分布法计算 如下:,该地成年男子尿酸浓度的95%参考值范围为285.62414.86(mol/L)。,2013.10.31,60,例9-11a 某地调查正常成年男子144人的红细胞数(近似正态分布),得均数为55.321012/L,标准差为0.441012/L。试估计该地成年男子红细胞数的95%医学参

28、考值范围。,因红细胞数过多或过少均为异常,故应求双侧范围。 资料近似正态分布,用正态分布法计算如下:,下限为:,上限为:,该地成年男子红细胞数的95%医学参考值范围为(54.52,56.24)。,2013.10.31,61,2. 百分位数法 常用于偏峰分布资料。以95%范围为例,其计算公式为:,双侧:,单侧:,或,例9-12 利用例9-7的资料计算6岁以下男童尿铅值95%的医学参考值范围。,将表9-5的频数分布数据绘制成直方图图9-6,可看出资料呈偏峰分布,故应用百分位数法制定其参考值范围。 因尿铅值过高为异常,而过低无影响,故应求单侧范围,即应计算高值P95。具体计算如下:,2013.10.31,62,6岁以下男童尿铅值95%的医学参考值范围为153.33(mmol/L)。,C, 质量控制, 正态分布是很多统计方法的基础,见教材。,见教材。,2013.10.31,63,2013.10.31,64,2013.10.31,65,2013.10.31,66,2013.10.31,67,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 校园应用

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com