十三logistic回归模型.ppt

上传人:豆**** 文档编号:60584294 上传时间:2022-11-17 格式:PPT 页数:56 大小:340.50KB
返回 下载 相关 举报
十三logistic回归模型.ppt_第1页
第1页 / 共56页
十三logistic回归模型.ppt_第2页
第2页 / 共56页
点击查看更多>>
资源描述

《十三logistic回归模型.ppt》由会员分享,可在线阅读,更多相关《十三logistic回归模型.ppt(56页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、浙江大学医学院流行病与卫生统计学教研室 沈毅十三logistic回归模型 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望浙江大学医学院流行病与卫生统计学教研室 沈毅v 内内容容提提要要非条件非条件logistic回归回归模型简介模型简介简单分析实例简单分析实例哑变量设置哑变量设置自变量的筛选方法与逐步回归自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型拟合效果与拟合优度检验模型的诊断与修正模型的诊断与修正条件条件logistic回归回归浙江大学医学院流行病

2、与卫生统计学教研室 沈毅对对分分类类变变量量的的分分析析,当当考考察察的的影影响响因因素素较较少少,且且也也为为分分类类变变量量时时,常常用用列列联联表表(Contingency Table)进进行行整整理理,并用并用 2检验或分层检验或分层 2检验进行分析,但存在以下局限性:检验进行分析,但存在以下局限性:无无法法描描述述其其作作用用大大小小和和方方向向,更更不不能能考考察察各各因因素素间间是是否否有交互作用;有交互作用;当控制的分层因素较多时,将导致检验结果不可靠;当控制的分层因素较多时,将导致检验结果不可靠;2检验无法对连续性自变量进行分析检验无法对连续性自变量进行分析(致命缺陷)(致命

3、缺陷)。模型简介模型简介浙江大学医学院流行病与卫生统计学教研室 沈毅logistic回回归归模模型型适适合合于于应应变变量量为为二二项项分分类类的的资资料料,在在医医学学研研究究领领域域中中的的应应用用广广泛泛。如如流流行行病病病病因因学学研研究究(包包括括队队列列研研究究、病病例例对对照照研研究究、横横断断面面研研究究等等)、临临床床疗疗效效研研究究(如如疗疗效效与与治治疗疗方方法法、患患病病轻轻中中重重等等因因素素关关系系)、卫卫生生服服务务研研究究(如如是是否否就就诊诊与与性性别别、年年龄龄、文化程度的关系)等等。文化程度的关系)等等。模型简介模型简介浙江大学医学院流行病与卫生统计学教研

4、室 沈毅模型简介模型简介v logistic回归模型:回归模型:浙江大学医学院流行病与卫生统计学教研室 沈毅 反应变量为二分类变量或某事件的发生率;反应变量为二分类变量或某事件的发生率;自变量与自变量与logit(P)之间为线性关系;)之间为线性关系;残差合计为残差合计为0,且服从二项分布;,且服从二项分布;各观测间相互独立。各观测间相互独立。模型简介模型简介适用条件适用条件v logistic logistic回归模型应该使用最大似然法来解决方程的估回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计和检验问题,不应当使用以前的最小二乘法进行参数估计。

5、计。浙江大学医学院流行病与卫生统计学教研室 沈毅例例1 某某医医师师希希望望研研究究病病人人的的年年龄龄age、性性别别sex(0为为女女性性、1为为男男性性)、心心电电图图检检验验是是否否异异常常ecg(ST段段压压低低、0为为正正常常、1为为轻轻度度异异常常、2为为重重度度异异常常)与与冠冠心心病病ca是是否否有有关关,数数据据见见logistic_binary.sav。简单分析实例简单分析实例浙江大学医学院流行病与卫生统计学教研室 沈毅简单分析实例简单分析实例浙江大学医学院流行病与卫生统计学教研室 沈毅选入应变量选入应变量选入自选入自变量变量简单分析实例简单分析实例浙江大学医学院流行病与

6、卫生统计学教研室 沈毅简单分析实例简单分析实例结果分析结果分析v 此表为应变量取值水平编码,此表为应变量取值水平编码,SPSSSPSS默认取值水平高默认取值水平高的为阳性结果。的为阳性结果。浙江大学医学院流行病与卫生统计学教研室 沈毅简单分析实例简单分析实例结果分析结果分析v 本本表表输输出出当当前前模模型型的的-2log-2log(似似然然值值)和和两两个个伪伪决决定定系系数数,但但对对于于logisticlogistic回回归归而而言言,通通常常看看见见的的伪伪决决定系数不像线性回归模型中的决定系数那么大。定系数不像线性回归模型中的决定系数那么大。浙江大学医学院流行病与卫生统计学教研室 沈

7、毅简单分析实例简单分析实例结果分析结果分析v 此此表表输输出出模模型型中中的的各各自自变变量量的的偏偏回回归归系系数数及及其其标标准准误、误、Wald Wald 2 2、自由度、自由度、P P 值、值、OROR值(即值(即expexp(B B)。)。浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置在在回回归归模模型型中中,回回归归系系数数b b表表示示其其他他自自变变量量不不变变,x x每每改改变变一一个个单单位位时时,所所预预测测的的y y的的平平均均变变化化量量,当当x x为为连连续续性性变变量量时时,这这样样解解释释没没有有问问题题,二二分分类类变变量量由由于于只只存存在

8、在两两个个类类别别间间的的比比较较,也也可可以以对对系系数数得得到到很很好好的的解解释释。但但是是当当x x为为多多分分类类变变量量时时,仅仅拟拟合合一一个个回回归归系系数数就就不不太太合合适适了了,此此时时需需要要使使用用哑哑变变量量(dummy variabledummy variable)方式对模型进行定义。)方式对模型进行定义。浙江大学医学院流行病与卫生统计学教研室 沈毅例例2 Hosmer 和和Lemeshow于于1989年研究了低出生体年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为儿(变量名为LOW,1表示低

9、出生体重儿,表示低出生体重儿,0表示非表示非低出生体重儿),考虑的自变量有产妇妊娠前体重、低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:压等。(数据文件见:logistic_step.sav。)。)哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅选入无序多选入无序多分类变量分类变量设置参照水设置参照水平平哑变量设置哑变量设置浙江大学医学院流行

10、病与卫生统计学教研室 沈毅哑变量设置哑变量设置结果分析结果分析v 哑变量(种族)的设置情况哑变量(种族)的设置情况浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置v 白人低出生体重的风险较低,而黑人风险较高。白人低出生体重的风险较低,而黑人风险较高。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅 参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平组要有一定的频数作保证,应不少于参照水平组要有一定的频数作保证,应不少于30或或50例;例;对有序自变量的分析:对有序自变量的分析:从专业出发确定;从专业出发确定;

11、分别以哑变量和连续性变量的方式引入模型进行比较后分别以哑变量和连续性变量的方式引入模型进行比较后确定。确定。哑变量设置哑变量设置v 哑变量设置应该注意的问题哑变量设置应该注意的问题浙江大学医学院流行病与卫生统计学教研室 沈毅 Forward:Conditional (最可靠)(最可靠)Forward:LR Forward:Wald (应当慎用)(应当慎用)Backward:Conditional(最可靠)(最可靠)Backward:LR Backward:Wald(应当慎用)(应当慎用)v 6 6 种筛选自变量的方法种筛选自变量的方法逐步回归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅

12、例例3 仍仍以以例例2的的数数据据为为例例,演演示示如如何何在在SPSS中中 实实 现现 逐逐 步步logistic回归分析。回归分析。逐步回归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅选择其中一选择其中一种逐步法种逐步法逐步回归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅逐步回归逐步回归v 给出了模型拟合过程中每一步的给出了模型拟合过程中每一步的-2log-2log(L L)及两)及两个伪决定系数。个伪决定系数。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅逐步回归逐步回归结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅逐步回归逐步回归结果分析结果

13、分析v 输出了尚不在模型中的自变量是否能被引入的输出了尚不在模型中的自变量是否能被引入的ScoreScore检验结果,这里只给出第一步的结果。检验结果,这里只给出第一步的结果。浙江大学医学院流行病与卫生统计学教研室 沈毅对数似然值与伪决定系数对数似然值与伪决定系数模型预测正确率模型预测正确率ROCROC曲线曲线模型拟合效果检验模型拟合效果检验v 拟合效果判断指标:拟合效果判断指标:浙江大学医学院流行病与卫生统计学教研室 沈毅对数似然值与伪决定系数:对数似然值与伪决定系数:对数似然值与伪决定系数:对数似然值与伪决定系数:-2 倍对数似然值表示模型的拟合效果,其值越小,越接近于倍对数似然值表示模型

14、的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。,说明模型拟合效果越好。但是,当自变量中存在缺失值时,因为一般统计软件在进行但是,当自变量中存在缺失值时,因为一般统计软件在进行计算时会把含有缺失值的记录予以剔除,不参与统计分析,计算时会把含有缺失值的记录予以剔除,不参与统计分析,此时不能用此时不能用-2log likelihood 对不同模型的拟合效果进行比对不同模型的拟合效果进行比较。较。模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅模型预测正确率:模型预测正确率:模型预测正确率:模型预测正确率:例例3进行逐步回归的第三步(进行逐步回归的第三步(step

15、3)输出以上结果,预测)输出以上结果,预测正确的记录占正确的记录占71.4。模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅ROCROC曲线:曲线:曲线:曲线:Save子对话框子对话框模型拟合效果检验模型拟合效果检验v先先保保存存研研究究对对象的预测概率。象的预测概率。浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验v 这就是这就是ROCROC曲线,曲线,预测效果最佳时,曲预测效果最佳时,

16、曲线应该从左下角垂直线应该从左下角垂直上升至顶,然后水平上升至顶,然后水平向右延伸到右上角。向右延伸到右上角。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验结果分析结果分析v 本表是对本表是对ROCROC曲线下面积计算的结果,可见曲线下面曲线下面积计算的结果,可见曲线下面积为积为0.7080.708,9595可信区间为可信区间为0.6240.624 0.7920.792。浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合优度检验(模型拟合优度检验(Test of Goodness Fit):):考察当前模型是否可以进一步改善,检验当前模型与饱考察

17、当前模型是否可以进一步改善,检验当前模型与饱和模型的预测效果之差是否有统计学意义。和模型的预测效果之差是否有统计学意义。拟合优度检验拟合优度检验浙江大学医学院流行病与卫生统计学教研室 沈毅 Pearson 和和Deviance 拟合优度检验:拟合优度检验:当自变量很多,或包含连续性自变量时,不可以用这两种方法。当自变量很多,或包含连续性自变量时,不可以用这两种方法。似然比检验:似然比检验:主要用于考察饱和模型是否可以进一步简化。主要用于考察饱和模型是否可以进一步简化。HosmerLemeshow检验检验:通常用于自变量很多,或包含连续性自变量的情况。通常用于自变量很多,或包含连续性自变量的情况

18、。拟合优度检验拟合优度检验v 模型拟合优度检验的常用方法:模型拟合优度检验的常用方法:浙江大学医学院流行病与卫生统计学教研室 沈毅点击主对话框中的点击主对话框中的options按钮,出现如下所示的对话框:按钮,出现如下所示的对话框:拟合优度检验拟合优度检验浙江大学医学院流行病与卫生统计学教研室 沈毅拟合优度检验拟合优度检验结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅用用save子对子对话框可以保存各话框可以保存各种残差;种残差;如果残差的绝如果残差的绝对值大于对值大于2,提,提示该记录可能是示该记录可能是异常点。异常点。Save子对话框子对话框模型的诊断与修正模型的诊断与修正v

19、 残差分析残差分析浙江大学医学院流行病与卫生统计学教研室 沈毅多重共线性的对偏回归系数的影响与线性回归模型中的表现多重共线性的对偏回归系数的影响与线性回归模型中的表现一致,如增加或删除一条记录,模型中偏回归系数值发生较一致,如增加或删除一条记录,模型中偏回归系数值发生较大变化,专业上认为有意义的因素无统计学意义等等。大变化,专业上认为有意义的因素无统计学意义等等。如果在进行如果在进行logisticlogistic模型分析中,尤其是在向模型中引入交模型分析中,尤其是在向模型中引入交互作用项时出现了回归结果反常现象,则自变量之间的多重互作用项时出现了回归结果反常现象,则自变量之间的多重共线性是需

20、要排除的一种可能。共线性是需要排除的一种可能。模型的诊断与修正模型的诊断与修正v 多重共线性的识别:多重共线性的识别:浙江大学医学院流行病与卫生统计学教研室 沈毅目前目前SPSSSPSS的的logisticlogistic过程中尚没有关于多重共线性过程中尚没有关于多重共线性诊断的结果输出,代替方法之一是运用相同的反应诊断的结果输出,代替方法之一是运用相同的反应变量与自变量,拟合线性回归模型,并进行相应的变量与自变量,拟合线性回归模型,并进行相应的共线性诊断。共线性诊断。模型的诊断与修正模型的诊断与修正v 多重共线性的识别:多重共线性的识别:浙江大学医学院流行病与卫生统计学教研室 沈毅匹匹配配设

21、设计计(matched design)是是在在设设计计阶阶段段控控制制混混杂杂因因素素的的一一种种方方法法。当当得得到到一一名名研研究究病病例例后后,选选择择一一名名或或多多名名非非病病例例作作为为对对照照,选选择择相相应应对对照照的的条条件件是是:某某些些需需要要控控制制的的混混杂杂因因素素与与该该病病例例之之间间相相同同或或相相似似,从从而而形形成成一一个个匹匹配配的的对对子子。一一个个匹匹配配的的对对子子可可以以只只有有 1个个病病例例和和1个个对对照照,称称1:1匹匹配配;当当病病例例很很罕罕见见时时,常常采采用用 1个个病病例例,多多个个对对照照,此此时时称称为为1:m匹匹配配,常常

22、用用的的 m一一般般小小于于等等于于4,不不同同的的对对子子,m可可以以不不同同;还还可可设设计计m:n匹匹配配,即即不不同同对对子子的的病病例例与与对对照照个个数数均均可可不不同同,这样的设计增加了收集资料的灵活性。这样的设计增加了收集资料的灵活性。条件条件logistic回归回归简介简介浙江大学医学院流行病与卫生统计学教研室 沈毅对于这类匹配设计资料,如果采用以上介绍的非条件对于这类匹配设计资料,如果采用以上介绍的非条件 logisticlogistic回归方法,将会降低检验效能。而应当采用回归方法,将会降低检验效能。而应当采用条件条件logisticlogistic回归模型(回归模型(c

23、onditional logistic conditional logistic regression modelregression model)又称配对)又称配对logisticlogistic回归模型进行回归模型进行分析。分析。条件条件logistic回归回归简介简介浙江大学医学院流行病与卫生统计学教研室 沈毅 用变量差值拟合:用变量差值拟合:只适用于只适用于1:1配对的情况,用配对的情况,用Multinomial logistic 过程实现;过程实现;用分层用分层Cox模型拟合:适用范围非常广。模型拟合:适用范围非常广。条件条件logistic回归回归v SPSS SPSS中的拟合方法

24、:中的拟合方法:浙江大学医学院流行病与卫生统计学教研室 沈毅例例4 Mack等人预考察服用雌激素与患子宫内膜癌的关等人预考察服用雌激素与患子宫内膜癌的关系,对退休居住在社区的妇女进行病例对照研究。除服系,对退休居住在社区的妇女进行病例对照研究。除服用雌激素以外,研究的自变量还包括肥胖、胆囊病史、用雌激素以外,研究的自变量还包括肥胖、胆囊病史、服用其他非雌激素药物。数据见服用其他非雌激素药物。数据见1_1_logistic.sav。条件条件logistic回归回归实例分析实例分析浙江大学医学院流行病与卫生统计学教研室 沈毅compute case=case1-pute age=age1-pute

25、 est=est1-pute gall=gall1-pute nonest=nonest1-nonest2.execute.由于本例是由于本例是1:1配对,可以使用变量差值方式加以拟合。配对,可以使用变量差值方式加以拟合。首先运用首先运用compute过程产生配对过程产生配对logistic回归的分析变量,回归的分析变量,或用以下程序予以实现:或用以下程序予以实现:条件条件logistic回归回归实例分析实例分析浙江大学医学院流行病与卫生统计学教研室 沈毅条件条件logistic回归回归实例分析实例分析浙江大学医学院流行病与卫生统计学教研室 沈毅条件条件logistic回归回归实例分析实例分析

26、v 把自变量全部把自变量全部选入选入CovariateCovariate框,框,不能选入不能选入factorfactor框!框!浙江大学医学院流行病与卫生统计学教研室 沈毅默认情况下该复默认情况下该复选框选中,应该选框选中,应该去除该复选框去除该复选框条件条件logistic回归回归实例分析实例分析浙江大学医学院流行病与卫生统计学教研室 沈毅条件条件logistic回归回归结果分析结果分析v 这这是是系系统统给给出出的的警警告告,说说明明由由于于反反应应变变量量只只有有一一个个水水 平平,因因 此此S SP PS SS S将将 拟拟 合合 条条 件件l lo og gi is st ti ic

27、 c回回 归归 模模 型型。浙江大学医学院流行病与卫生统计学教研室 沈毅结果分析结果分析条件条件logistic回归回归v 对模型中所有对模型中所有偏回归系数是否均为偏回归系数是否均为0进行似然比检进行似然比检验,结果说明他们不全为验,结果说明他们不全为0。浙江大学医学院流行病与卫生统计学教研室 沈毅结果分析结果分析条件条件logistic回归回归v 输出了输出了三种三种伪决定系数,本伪决定系数,本例的伪决定系数例的伪决定系数还比较大。还比较大。浙江大学医学院流行病与卫生统计学教研室 沈毅结果分析结果分析条件条件logistic回归回归v 输输出出从从模模型型中中分分别别剔剔除除每每一一自自变

28、变量量后后拟拟合合新新的的条条件件l lo og gi is st ti ic c回回归归模模型型的的-2 2倍倍似似然然对对数数值值,用用于于考考察察是是否否可可以以从从当当前前模模型型中中剔剔除除该该自自变变量量,提提示示可可以以进进一一步步采采用用逐逐步步回回归归对对当当前前模模型型中中自自变变量量进进行行筛筛选选。浙江大学医学院流行病与卫生统计学教研室 沈毅结果分析结果分析条件条件logistic回归回归v 可见,服用雌激素者患子宫内膜癌的概率是未服用雌激素可见,服用雌激素者患子宫内膜癌的概率是未服用雌激素者的者的14.85114.851倍,有胆囊病史者患子宫内膜癌的概率是没有胆倍,有

29、胆囊病史者患子宫内膜癌的概率是没有胆囊病史者的囊病史者的6.2706.270倍,但倍,但P P=0.042=0.042,下结论要小心,可以扩,下结论要小心,可以扩大样本含量再对这一因素进行研究。大样本含量再对这一因素进行研究。浙江大学医学院流行病与卫生统计学教研室 沈毅在在SPSS中用中用Multinomial Logistic 过程处理配对过程处理配对logistic回归模型时,回归模型时,注意注意注意注意:数据库结构与运用数据库结构与运用Cox过程不同。数据库中每一条记录过程不同。数据库中每一条记录包括一个对子中的两个观察对象。包括一个对子中的两个观察对象。所拟合的模型不能包含常数项!所拟合的模型不能包含常数项!条件条件logistic回归回归浙江大学医学院流行病与卫生统计学教研室 沈毅

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com