卫生统计学-重点整理资料东大精品文档16页.doc-得力文库

资源描述

《卫生统计学-重点整理资料东大精品文档16页.doc》由会员分享，可在线阅读，更多相关《卫生统计学-重点整理资料东大精品文档16页.doc（16页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、如有侵权，请联系网站删除，仅供学习与交流卫生统计学-重点整理资料东大【精品文档】第 16 页卫生统计学第一章绪论1、卫生统计学的概念(P1)卫生统计学是应用概率论和数理统计学的基本原理和方法，研究居民卫生状况以及卫生服务领域中数据的收集、整理和分析的一门科学，是卫生及其相关领域研究中不可缺少的分析问题。2、卫生统计学的4个基本步骤(P3)：设计、收集资料、整理资料、分析资料3、卫生统计学的几个基本概念(P4)：同质：在统计学中，若某些观察对象具有相同的特征或属性，我们就称之为同质，或具有同质性。变异：同质个体的某项特征或属性的观察值或测量值之间的差异。总体：同质的所有观察单位某

2、种特征或属性的观察值或测量值的集合。样本：从总体中随机抽取的具有代表性的部分观察单位的集合。样本中包含的观察单位个数成为样本含量。参数：反映总体特征的指标，一般是未知的，常用希腊字母表示，如总体均数、总体率等。统计量：根据样本观察值计算出来的指标，常用拉丁字母表示，如样本均数x 、样本率r等。变量与资料：对每个观察单位进行观察或测量的某项特征或属性称为变量；变量值的集合成为资料。定量资料：亦称计量资料，其变量值是定量的，表现为数值大小，一般有度、量、衡单位。定性资料：亦称分类资料，其观察值是定性的，表现为互不相容的类别或属性，一般无度、量、衡单位。可细分为：计数资料；等级资

3、料第二章调查研究设计 1、调查研究的特点（P7）：不能人为施加干预措施；不能随机分组；很难控制干扰因素；一般不能下因果结论2、常用抽样方法（名称、原理）：单纯随机抽样：先将调查总体的全部观察单位统一编号，然后采用随机数字表、统计软件或抽签方法之一随机抽取n（样本大小）个编号，由这n个编号所对应的n个观察单位构成研究样本。系统抽样：又称机械抽样或等距抽样。事先将总体内全部观察单位按某一顺序号等距分成n（样本大小）个部分，每一部分内含m个观察单位；然后从第一部分开始，从中随机抽出第i号观察单位，依此用相等间隔m机械地在第2部分、第3部分直至第n部分内各抽出一个观察单位组成样本。分层抽样：先按对观

4、察指标影响较大的某项或某几项特征，将总体分成若干层，该特征的测定值在层内变异较小，层间变异较大，然后分别从每一层内随机抽取一定数量的观察单位结合起来组成样本。整群抽样：将总体划分为群（初级观察单位），各群由次级观察单位组成，随机抽取一部分群，调查抽中群的全部次级观察单位。第三章实验设计 1、实验设计的特点（注意与调查研究的特点的区别）：研究者可人为设置处理因素；受试对象接受何种处理因素或处理因素的何种水平是随机的。2、实验设计的三要素、四原则：基本要素：处理因素受试对象实验效应基本原则：对照原则随机原则重复原则均衡原则4、实验设计的基本步骤：明确实验目的；确定研究对象；

5、确定可比的实验组和对照组；确定把受试对象分配到各处理组中的原则；确定样本含量；确定方法和指标；偏倚及其控制5、常用的实验设计方案：主要掌握完全随机设计和配对设计。第四章定量资料的统计描述1、频数表的编制：求极差确定组数和组距（一般815组）确定组段（上限=下限+组距）归组计数，整理成表2、频数表的用途：揭示资料的频数分布特征和频数分布类型频数分布的特征：集中趋势和离散趋势；频数分布的类型：对称分布和偏态分布（高峰位置偏向数值小的一侧正/右偏态分布；高峰位置偏向数值大的一侧负/左偏态分布）便于发现某些特大或特小的可疑值便于进一步计算指标和统计处理3、连续型的定量资料

6、，其频数图中各长方形是相连的，又称直方图；离散型的定量资料，其频数图是非连续的，其频数图中各长方形是又间隔的，称直条图。4、定量资料集中趋势的描述，常用平均数表达一组同质定量数据的平均水平或集中位置。（结合书本的例题加深理解）算术均数：适用于对称分布特别是正态分布资料；几何均数：适用于对数正态分布等比级数资料；观察值中不能有0 中位数：是一种位置平均数，适用于偏态分布资料、一端或两端无确切值、总体分布不明的资料；百分位数：一组数据某一百分位置的水平；确定非正态分布资料的医学参考值范围。平均数意义应用场合均数平均数量水平对称分布，尤其正态分布几何均数平均增减倍数等比、对数

7、正态分布中位数位次居中的观察值水平偏态、分布不明确、分布末端无确定值5、离散趋势是频数分布的另一特征，反映了观察值之间的变异情况。6、正态分布的特征：正态曲线在横轴上方均数处最高；并以均数为中心，左右对称；两端与横轴永不相交，呈钟形的曲线。正态分布有两个参数，即位置参数和形状参数；固定不变时，越大，曲线沿横轴越向右移动；固定不变时，越大，曲线越平阔。正态曲线下面积的分布有一定的规律：正态曲线与横轴之间的面积恒等于1或100%；对称分布，对称轴两侧的面积各为50；在（-，+）区间的面积为68.27；在（-1.96，+1.96）区间的面积为95.00；在（-2.58，+2.58）区间

8、的面积为99.007、医学参考值范围：正态分布法：适用于正态或近似正态分布的资料双侧界值：单侧界值：参考值范围（%）单侧双侧 800.8421.282901.2821.645951.6451.960992.3262.576 常用z值表百分位数法：偏态分布资料以及资料中一端或两端无确切数值双侧界值：P2.5P97.5 单侧界值：上界为：P95 下界为：P5 第五章定性资料的统计描述1、常用相对数：率是指某现象实际发生数与可能发生某现象总数之比，用以说明某现象发生的频率或强度。常以百分率，千分率，万分率，十万分率等表示。构成比是事物内部某一观察单位数与事物内部各组成部分观察单位的

9、总数之比，说明事物内部各部分所占的比重。常以百分数表示。相对比是两个有关的指标之比，用以描述两者的对比水平。两个指标可以是绝对数、相对数或平均数；可以性质相同，也可以性质不同。2、应用相对数注意的事项：计算相对数分母不宜过小；不能以构成比代替率。率反映事物发生的频率，构成比表示事物内部各组分所占的比重，二者性质不同。各个组成部分的构成比之和应为100%，事物内部各组成部分之间呈此消彼长的关系；计算合计率时，不能简单地相加求平均；率的比较时应注意可比性。3、标准化法是在一个指定的标准构成条件下进行率的对比的方法。意义：用统一的“标准”消除资料由于内部构成不同而对所比较的总率产生的影响。

10、标准化法的基本思想：确定一个标准的人口年龄构成，男、女人口都按该标准的人口年龄构成，计算年龄别发病情况，最后计算出男、女的合计发病率。4、应用标准化法应注意的问题：标准化率便于比较，但不能反映实际水平；比较几个标准化率时，应在采用同一标准标化的情况下进行；若各组间的率出现明显交叉时，不宜采用标准化法比较，可直接比较各组的率；两样本标化率的比较应作假设检验。第六章总体均数和总体率的估计1、抽样误差:由抽样引起的样本统计量与总体参数间的差异称抽样误差。不可避免、可以控制。表现：样本统计量与总体参数之间的差异样本统计量之间的差异。产生原因：个体变异抽样。2、标准误：样本统计量的标准差称为标准

11、误；样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度：总体标准差未知时，用样本标准差代替：3、标准差与标准误的区别：标准差表示个体差异的大小；标准误描述样本均数的变异程度，说明抽样误差的大小。标准差描述资料的频数分布状况，可用于制定医学参考值范围；而标准误用于总体均数的区间估计和假设检验。4、t分布的特征：以0为中心，左右对称；自由度越小，t值越分散，曲线越平阔，尾部越高；当趋于时， t分布逼近标准正态分布；t分布曲线下面积为1.5、从界值表可看出：（1）自由度相同时，t界值越大其对应的P值越小（2）概率P（或尾部面积）相等时，越大，t 界值越小（3）t

12、值相等时，双侧概率为单侧概率的两倍（4） = 时，t 界值即为z 界值 6、总体均数可信区间的计算： z分布法：当已知，服从标准正态分布，则总体均数的双测可信区间为： s未知但n足够大（n50）： t分布法：当未知n 较小：7、常用单双侧u值单侧双侧 0.101.2821.645 0.051.6451.960 0.022.0542.326 0.012.3262.5788、可信区间的涵义：从总体中作随机抽样，每个样本可以算得一个可信区间。如95%可信区间意味着做100次抽样，算得100个可信区间，平均有95个估计正确。可信区间的两个要素：一是准确度: 反映在可信度的大小二是精密

13、度: 反映在区间的长度第七章假设检验1、假设检验的基本思想：应用反证法和小概率原理，先对总体的参数或分布作出某种假设，再用适当的方法根据样本对总体提供的信息，推断此假设应当拒绝或不拒绝。2、假设检验的基本步骤：建立检验假设，确定检验水准选定检验方法和计算检验统计量确定P值，作出推断结论3、型错误与型错误：型错误：拒绝了实际上成立的，犯“弃真”的错误。其概率大小用a 表示,a 可取单侧亦可取双侧。型错误：不拒绝了实际上不成立的H0，犯“存伪”的错误。其概率大小用表示。b 只取单侧，其大小一般未知，只有在已知两总体差值d，a 及 n 时，才能估算出来。实际情况检验结果拒绝H0不拒绝H0

14、成立第一类错误()结论正确(1-) 不成立结论正确（1-）第二类错误（）推断结论与两类错误注：当样本含量固定时，增大，减小；反之亦然。若欲同时减小与，则只有增加样本含量。若重点减小型错误，可取小一些，如=0.01；若重点减小型错误，可取大一些，如=0.1或=0.24、检验效能：若两总体确有差别，按照水准能够发现这种差别的能力。它的大小用（1-）表示。检验效能的影响因素：容许误差、总体标准差、型错误、样本含量n 5、假设检验应注意的事项：应有严密的研究设计：总体中的每个研究个体应具有同质性、样本的获取必须遵循随机化原则、比较的组间应具有可比性。正确理解水准和P值的意义：是人为

15、预先设定的一个概率值，可有多个 ; P是假定成立，得到实际观测数据的可能性的大小，一个样本按某一方法只能得出一个。正确理解结论的统计学意义。假设检验的结论不能绝对化。第八章 t检验1、t 检验的适用条件：未知； n 较小（n40 且所有 T5 时：基本公式为：专用公式为：当 n40 但有 1T5 时：校正的基本公式为：校正的基本公式为：当n40或T1时，采用四格表确切概率法配对四格表资料 c2 检验的计算公式：当 b+c40 时： c2计算公式为：当 b+c50mg”。 4、Wilcoxon符号秩和检验：编秩：按照差值的绝对值从小到大编秩差值为0者不参加编秩绝对值相等

16、，符号相同时顺次编秩绝对值相等，符号相反时取平均秩次 5、两样本比较的秩和检验：编秩原则：将两组数据混合起来从小到大统一编秩数值相等且组别相同时顺次编秩数值相等但组别不同时取平均秩次第十二章双变量关联性分析1、直线相关，又称简单相关，是用来描述具有直线关系的两变量x、y的相互关系的统计方法。要求两变量均来自于双变量正态总体的随机变量。相关系数r没有单位，取值介于-1与1之间。r0，表示正相关；r0，表示负相关；r=0，表示零相关。r0.7时，两变量有高度相关关系；0.4r0.7时，两变量有中度相关关系；r0.4时，两变量有低度相关关系；r=1表示完全相关；r=0表示无直线相关，但不一定没

17、有关联性。2、等级相关应用范围：（1）不服从双变量正态分布的资料（2）总体分布类型未知的资料（3）等级资料第十三章直线回归分析1、直线回归（注意与直线相关的区别）：又称简单回归，用于研究一个变量随另一个变量变化而变化的依存关系（回归关系），从而预测或控制未知变量的一种统计分析方法，通过拟合线性方程来描述两变量间的回归关系。应用条件：要求因变量Y呈正态分布；自变量X是可以精确测量和控制的变量。 2、直线回归方程式： b 为样本回归系数 (直线的斜率)其统计学意义是X 每增加/ 减小 1个单位，Y平均改变b个单位。b=0，x与y之间没有直线关系。3、最小二乘法原理：各实测点至回归直线的纵向距离的

18、平方和最小。4、SY.X 为剩余标准差，表示应变量y在扣除自变量x的线性影响后的离散程度，反映实际观察值在回归直线周围的分散状况。5、对同一资料，相关系数t检验与回归系数t检验结果相同，t r=t b；同一资料，有6、直线回归与相关区别与联系：区别资料要求不同：回归要求因变量y 服从正态分布; x 是可以精确测量和严格控制的变量；相关要求x 和y 均呈正态分布。变量地位不同：回归的变量y 称为因变量，处在被解释的地位，x 称为自变量，用于预测因变量的变化；相关中变量x 变量y 处于平等的地位，彼此相关关系。用途不同：说明两变量间依存变化的数量关系用回归；说明变量间的相关关系用相关

19、。联系： r与b的方向一致； r与b的假设检验等价； r与b可相互换算；用回归解释相关。第十四章生存分析1、生存资料的特点：蕴涵有结局和时间两个方面的信息；结局为两分类互斥事件；一般是通过随访收集得到，随访观察往往是从某统一时间点开始，观察到某规定时间点截止；常因失访等原因造成某些研究对象的生存时间数据不完整，分布类型复杂，不能简单地套用前面介绍过的统计方法，如t检验、方差分析、检验、四格表资料确切概率法或秩和检验进行分析。 2、生存分析中的几个基本概念：死亡事件又称失效事件，不单是指通常意义下的生物体死亡，而是泛指标志某种处理措施失败或失效的特征事件。生存时间：指观察到的存活时间

20、，不单是指通常意义下生物体的存活时间，而是泛指研究者所关心的某现象的持续时间。(广义概念) 生存时间根据其特点，可分为以下两种类型：完全数据：指从观察起点到发生死亡事件所经历的时间；截尾数据：从起点至截尾点所经历的时间，观察过程的截止不是由于死亡事件，而是由于其他原因引起的，称为截尾（censored），常用 t + 表示。截尾原因：失访、退出（死于其它原因）、终止（观察结束时病人尚存活）死亡概率：指在某单位时段开始时存活的个体在该时段内死亡的可能性大小，记为q。生存概率：表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小，记为p。生存率：记为，指观察对象活过tk时刻的概

21、率。第十六章 Meta分析1、Meta分析的概念：Meta分析是对具有共同研究目的的多个研究进行综合分析的一系列过程。2、Meta分析的目的：提高检验效能、解决若干单个研究结论不一致问题、改善效应量的估计、提出新的研究问题和研究方向3、Meta分析的基本方法：固定效应模型，统计方法有Mentel-Haenszel法、Peto法和General Variance-based法；随机效应模型，方法有Dersimonian and Laird法（D-L法）。4、发表偏倚：指有统计学意义的研究结果较无统计学意义或无效的研究结果被报告和发表的可能性大，提高或夸大了实验效应量及危险因素的关联强度，而引发的

22、偏倚。产生原因：研究者认为无统计学意义的研究意义不大，不发表或推迟发表；作为杂志编辑则更有可能对此类研究不予以发表。发现和估计发表偏倚的方法：漏斗图分析、失效安全数法。第十七章样本含量估计1、样本含量的估计是在保证研究结论具有一定可靠性的条件下，确定最少的调查单位或实验单位数。 2、样本含量估计应具备的条件：I型错误的概率或区间估计中的可信度1-；型错误的概率，或检验效能1-；容许误差或差值，即欲比较或估计的总体参数与样本统计量之间或总体参数相差所容许的限度；总体平均数、总体率或总体标准差。3、检验效能：假设检验的功效（1-），其意义是，当所研究的总体确有差别时，按照检验水准能够发现

23、它（拒绝H0）的能力。第十八章生命统计常用指标1、人口统计常用指标：人口构成：性别比、老龄人口比重、抚养比2、生育统计常用指标：生育水平的指标：出生率、生育率、年龄别生育率、总和生育率、终生生育率；人口再生育指标：自然增长率、粗再生育率、净再生率、平均世代年数；计划生育工作指标：避孕先用率、避孕失败率、Pearl怀孕率、累计失败率、人工流产率、人流活产比 3、死亡统计常用指标：反映死亡水平的指标：粗死亡率、年龄别死亡率、死因别死亡率、婴儿死亡率、新生儿死亡率、围生儿死亡率、5岁以下儿童死亡率、孕产妇死亡率；反映死因构成和死因顺位指标：死因构成或相对死亡比、死因顺位4、疾病统计常用指标：反映疾

24、病发生水平的指标：发病率、患病率、检出率、感染率、疾病构成比反映疾病防治效果的指标：治愈率、有效率、病死率、某病死亡率反映疾病严重程度的指标：减寿年数、寿命损失率反映残疾统计的指标：残疾患病率、残疾构成第十九章常用统计表与统计图1、统计表的制作原则：重点突出、层次清楚、简单明了2、统计表的结构：标题、标目、线条、数字、备注3、统计图的结构：标题、图域、标目、刻度、图例数据资料计量资料计数资料非参数检验等级相关分析秩和检验统计描述统计推断参数估计假设检验t 检验方差分析完全随机设计随机区组设计交叉设计析因设计重复测量设计 Wilcoxon符号秩和检验（配对设计）Wilcoxon两样本(成组设计）Kruskal-Wallis 法成组设计多样本 Friedman 法（随机区组设计）相对数统计推断参数估计假设检验确切概率法卡方检验四格表卡方检验配对四格表卡方检验行列表卡方检验U 检验单样本t 检验配对t 检验两独立样本t 检验t 检验附：

展开阅读全文