最新十三logistic回归模型PPT课件.ppt

上传人:豆**** 文档编号:34221534 上传时间:2022-08-15 格式:PPT 页数:57 大小:1.38MB
返回 下载 相关 举报
最新十三logistic回归模型PPT课件.ppt_第1页
第1页 / 共57页
最新十三logistic回归模型PPT课件.ppt_第2页
第2页 / 共57页
点击查看更多>>
资源描述

《最新十三logistic回归模型PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新十三logistic回归模型PPT课件.ppt(57页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、十三十三logistic回归模型回归模型浙江大学医学院流行病与卫生统计学教研室 沈毅v 内容提要内容提要 非条件非条件logistic回归回归模型简介模型简介简单分析实例简单分析实例哑变量设置哑变量设置自变量的筛选方法与逐步回归自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型拟合效果与拟合优度检验模型的诊断与修正模型的诊断与修正 条件条件logistic回归回归浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学

2、医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅选入应变量选入应变量选入自选入自变量变量简单分析实例简单分析实例浙江大学医学院流行病与卫生统计学教研室 沈毅Dependent Variable Encoding01Original Value未患病患病Internal Value简单分析实例简单分析实例结果分析结果分析v 此表为应变量取值水平编码,此表为应变量取值水平编码,SPSSSPSS默认取值水平默认取值水平高的为阳性结果。高的为阳性结果。浙江大学医学院流行病与卫生统计学教研室 沈毅简单分析实例简单分析实例结果分析结果分析v 本表输出当前模型的本表输出当前模

3、型的-2log-2log(似然值)和两个伪决(似然值)和两个伪决定系数,但对于定系数,但对于logisticlogistic回归而言,通常看见的伪决回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。定系数不像线性回归模型中的决定系数那么大。Model Summary86.811a.237.316Step1-2 Log likelihoodCox & Snell R SquareNagelkerke R SquareEstimation terminated at iteration number 5 because parameter estimateschanged by l

4、ess than .001.a. 浙江大学医学院流行病与卫生统计学教研室 沈毅Variables in the Equation1.356.5466.1621.0133.882.873.3845.1621.0232.395.093.0357.0001.0081.097-5.6421.8069.7571.002.004sexecgageConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: sex, ecg, age.a. 简单分析实例简单分析实例结果分析结果分析v 此表输出模型中的各自变量的偏回归系数及其标准此表输出模

5、型中的各自变量的偏回归系数及其标准误、误、Wald Wald 2 2、自由度、自由度、P P 值、值、OROR值(即值(即expexp(B B)。)。浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置在回归模型中,回归系数在回归模型中,回归系数b b表示其他自变量不变,表示其他自变量不变,x x每改变一个单位时,所预测的每改变一个单位时,所预测的y y的平均变化量,当的平均变化量,当x x为连续性变量时,这样解释没有问题,二分类变量为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当

6、很好的解释。但是当x x为多分类变量时,仅拟合一为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用个回归系数就不太合适了,此时需要使用哑变量哑变量(dummy variabledummy variable)方式对模型进行定义。)方式对模型进行定义。浙江大学医学院流行病与卫生统计学教研室 沈毅例例2 Hosmer 和和Lemeshow于于1989年研究了低出生体年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为重儿(变量名为LOW,1表示低出生体重儿,表示低出生体重儿,0表示表示非低出生体重儿),考虑的自变量有产妇妊娠

7、前体非低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:患高血压等。(数据文件见:logistic_step.sav。)。)哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅选入无序多选入无序多分类变量分类变量设置参照水设置参照水平平哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅Categorical Variables Codin

8、gs961.000.00026.0001.00067.000.000白人黑人其他种族种族Frequency(1)(2)Parameter coding哑变量设置哑变量设置结果分析结果分析v 哑变量(种族)的设置情况哑变量(种族)的设置情况浙江大学医学院流行病与卫生统计学教研室 沈毅Variables in the Equation-.025.037.4831.487.975-.014.0074.0901.043.9867.1462.028-.908.4374.3261.038.403.329.534.3801.5371.390.927.3995.4141.0202.528.552.3452.5

9、621.1091.7361.763.6896.5411.0115.831.649.4681.9251.1651.913.032.171.0351.8511.0331.1431.0871.1041.2933.135agelwtracerace(1)race(2)smokeptlhtuiftvConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: age, lwt, race, smoke, ptl, ht, ui, ftv.a. 哑变量设置哑变量设置v 白人低出生体重的风险较低,而黑人风险较高。白人低出生体重的风险较低,

10、而黑人风险较高。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅 参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平最好要有实际意义,不推荐使用其他作为参照; 参照水平组要有一定的频数作保证,应不少于参照水平组要有一定的频数作保证,应不少于30或或50例;例; 对有序自变量的分析:对有序自变量的分析: 从专业出发确定;从专业出发确定; 分别以哑变量和连续性变量的方式引入模型进行比较后分别以哑变量和连续性变量的方式引入模型进行比较后确定。确定。哑变量设置哑变量设置v 哑变量设置应该注意的问题哑变量设置应该注意的问题浙江大学医学院流行病与卫生统计学教研室 沈毅 Forward:

11、Conditional (最可靠)(最可靠) Forward:LR Forward:Wald (应当慎用)(应当慎用) Backward: Conditional (最可靠)(最可靠) Backward:LR Backward:Wald(应当慎用)(应当慎用)v 6 6 种筛选自变量的方法种筛选自变量的方法逐步回归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅例例3 仍以例仍以例2的数据的数据为例,演示如何在为例,演示如何在SPSS中实现逐步中实现逐步logistic回归分析。回归分析。逐步回归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅选择其中一选择其中一种逐步法种逐步法逐步回

12、归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅Model Summary227.893a.035.050223.583b.057.080217.220b.088.124Step123-2 Log likelihoodCox & Snell R SquareNagelkerke R SquareEstimation terminated at iteration number 3 because parameter estimateschanged by less than .001.a. Estimation terminated at iteration number 4 becau

13、se parameter estimateschanged by less than .001.b. 逐步回归逐步回归v 给出了模型拟合过程中每一步的给出了模型拟合过程中每一步的-2log-2log(L L)及)及两个伪决定系数。两个伪决定系数。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅Variables in the Equation.802.3176.3911.0112.230-.964.17530.3701.000.381.823.3186.6831.0102.2771.272.6164.2701.0393.569-1.062.18433.2241.000.346-.0

14、15.0075.5841.018.985.728.3274.9611.0262.0711.789.6946.6391.0105.986.893.8291.1581.2822.441ptlConstantStep1aptlhtConstantStep2blwtptlhtConstantStep3cBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: ptl.a. Variable(s) entered on step 2: ht.b. Variable(s) entered on step 3: lwt.c. 逐步回归逐步回归结果分析结果分析浙江

15、大学医学院流行病与卫生统计学教研室 沈毅Variables not in the Equation3.1491.0763.3401.0685.3592.0695.0281.0252.0561.1523.1641.0754.7221.0302.1621.141.7531.38522.8588.004agelwtracerace(1)race(2)smokehtuiftvVariablesOverall StatisticsStep1ScoredfSig.逐步回归逐步回归结果分析结果分析v 输出了尚不在模型中的自变量是否能被引入的输出了尚不在模型中的自变量是否能被引入的ScoreScore检验结果

16、,这里只给出第一步的结果。检验结果,这里只给出第一步的结果。浙江大学医学院流行病与卫生统计学教研室 沈毅对数似然值与伪决定系数对数似然值与伪决定系数模型预测正确率模型预测正确率ROCROC曲线曲线模型拟合效果检验模型拟合效果检验v 拟合效果判断指标:拟合效果判断指标:浙江大学医学院流行病与卫生统计学教研室 沈毅-2 倍对数似然值表示模型的拟合效果,其值越小,越接近于倍对数似然值表示模型的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。,说明模型拟合效果越好。但是,当自变量中存在缺失值时,因为一般统计软件在进行但是,当自变量中存在缺失值时,因为一般统计软件在进行计算时会把含有缺失值的记录予

17、以剔除,不参与统计分析,计算时会把含有缺失值的记录予以剔除,不参与统计分析,此时不能用此时不能用-2log likelihood 对不同模型的拟合效果进行比对不同模型的拟合效果进行比较。较。模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅Classification Tablea123794.6471220.371.4Observed正常低出生体重低出生体重儿Overall PercentageStep 3正常低出生体重低出生体重儿PercentageCorrectPredictedThe cut value is .500a. 例例3进行逐步回归的第三步(进行逐步

18、回归的第三步(step3)输出以上结果,预测)输出以上结果,预测正确的记录占正确的记录占71.4。模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅Save子对话框子对话框模型拟合效果检验模型拟合效果检验v先保存研究对先保存研究对象的预测概率。象的预测概率。浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验v 这就是这就是ROCROC曲线,曲线,预测效果最佳时,曲预测效果最佳时,曲线应该从左下

19、角垂直线应该从左下角垂直上升至顶,然后水平上升至顶,然后水平向右延伸到右上角。向右延伸到右上角。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅Area Under the CurveTest Result Variable(s): Predicted probability.708.043.000.624.792AreaStd. ErroraAsymptotic Sig.bLower BoundUpper BoundAsymptotic 95% Confidence IntervalThe test result variable(s): Predicted probabilit

20、y has at least one tie between the positiveactual state group and the negative actual state group. Statistics may be biased.Under the nonparametric assumptiona. Null hypothesis: true area = 0.5b. 模型拟合效果检验模型拟合效果检验结果分析结果分析v 本表是对本表是对ROCROC曲线下面积计算的结果,可见曲线下面曲线下面积计算的结果,可见曲线下面积为积为0.7080.708,9595可信区间为可信区间为0

21、.6240.624 0.7920.792。浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合优度检验(模型拟合优度检验(Test of Goodness Fit ):):考察当前模型是否可以进一步改善,检验当前模型与饱考察当前模型是否可以进一步改善,检验当前模型与饱和模型的预测效果之差是否有统计学意义。和模型的预测效果之差是否有统计学意义。拟合优度检验拟合优度检验浙江大学医学院流行病与卫生统计学教研室 沈毅 Pearson 和和Deviance 拟合优度检验:拟合优度检验: 当自变量很多,或包含连续性自变量时,不可以用这两种方法。当自变量很多,或包含连续性自变量时,不可以用这两种方法。 似然

22、比检验:似然比检验: 主要用于考察饱和模型是否可以进一步简化。主要用于考察饱和模型是否可以进一步简化。 HosmerLemeshow检验:检验: 通常用于自变量很多,或包含连续性自变量的情况。通常用于自变量很多,或包含连续性自变量的情况。拟合优度检验拟合优度检验v 模型拟合优度检验的常用方法:模型拟合优度检验的常用方法:浙江大学医学院流行病与卫生统计学教研室 沈毅点击主对话框中的点击主对话框中的options按钮,出现如下所示的对话框:按钮,出现如下所示的对话框:拟合优度检验拟合优度检验浙江大学医学院流行病与卫生统计学教研室 沈毅Hosmer and Lemeshow Test9.9798.2

23、66Step3Chi-squaredfSig.Contingency Table for Hosmer and Lemeshow Test1616.69732.303191515.30343.697191817.46155.539231613.21524.785181513.70845.292191512.68335.317181112.31075.690181112.27986.72119610.531138.4691975.8121011.1881712345678910Step3ObservedExpected低出生体重儿 = 正常ObservedExpected低出生体重儿 = 低出生

24、体重Total拟合优度检验拟合优度检验结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅用用save子对子对话框可以保存各话框可以保存各种残差;种残差;如果残差的绝如果残差的绝对值大于对值大于2,提,提示该记录可能是示该记录可能是异常点。异常点。Save子对话框子对话框模型的诊断与修正模型的诊断与修正v 残差分析残差分析浙江大学医学院流行病与卫生统计学教研室 沈毅多重共线性的对偏回归系数的影响与线性回归模型中的表现多重共线性的对偏回归系数的影响与线性回归模型中的表现一致,如增加或删除一条记录,模型中偏回归系数值发生较一致,如增加或删除一条记录,模型中偏回归系数值发生较大变化,专业上认

25、为有意义的因素无统计学意义等等。大变化,专业上认为有意义的因素无统计学意义等等。如果在进行如果在进行logisticlogistic模型分析中,尤其是在向模型中引入交模型分析中,尤其是在向模型中引入交互作用项时出现了回归结果反常现象,则自变量之间的多重互作用项时出现了回归结果反常现象,则自变量之间的多重共线性是需要排除的一种可能。共线性是需要排除的一种可能。模型的诊断与修正模型的诊断与修正v 多重共线性的识别:多重共线性的识别:浙江大学医学院流行病与卫生统计学教研室 沈毅目前目前SPSSSPSS的的logisticlogistic过程中尚没有关于多重共线性过程中尚没有关于多重共线性诊断的结果输

26、出,代替方法之一是运用相同的反应诊断的结果输出,代替方法之一是运用相同的反应变量与自变量,拟合线性回归模型,并进行相应的变量与自变量,拟合线性回归模型,并进行相应的共线性诊断。共线性诊断。模型的诊断与修正模型的诊断与修正v 多重共线性的识别:多重共线性的识别:浙江大学医学院流行病与卫生统计学教研室 沈毅匹配设计匹配设计(matched design)是在设计阶段控制混杂因素的)是在设计阶段控制混杂因素的一种方法。当得到一名研究病例后,选择一名或多名非病例一种方法。当得到一名研究病例后,选择一名或多名非病例作为对照,选择相应对照的条件是:某些需要控制的混杂因作为对照,选择相应对照的条件是:某些需

27、要控制的混杂因素与该病例之间相同或相似,从而形成一个匹配的对子。一素与该病例之间相同或相似,从而形成一个匹配的对子。一个匹配的对子可以只有个匹配的对子可以只有 1个病例和个病例和1个对照,称个对照,称1:1匹配;匹配;当病例很罕见时,常采用当病例很罕见时,常采用 1个病例,多个对照,此时称为个病例,多个对照,此时称为1:m匹配,常用的匹配,常用的 m一般小于等于一般小于等于4,不同的对子,不同的对子,m可以不同;可以不同;还可设计还可设计m:n匹配,即不同对子的病例与对照个数均可不同,匹配,即不同对子的病例与对照个数均可不同,这样的设计增加了收集资料的灵活性。这样的设计增加了收集资料的灵活性。

28、条件条件logistic回归回归简介简介浙江大学医学院流行病与卫生统计学教研室 沈毅对于这类匹配设计资料,如果采用以上介绍的非条件对于这类匹配设计资料,如果采用以上介绍的非条件 logisticlogistic回归方法,将会降低检验效能。而应当采用回归方法,将会降低检验效能。而应当采用条件条件logisticlogistic回归模型回归模型(conditional logistic conditional logistic regression modelregression model)又称配对又称配对logisticlogistic回归模型进行回归模型进行分析。分析。条件条件logisti

29、c回归回归简介简介浙江大学医学院流行病与卫生统计学教研室 沈毅 用变量差值拟合:用变量差值拟合:只适用于只适用于1:1配对的情况,用配对的情况,用Multinomial logistic 过程实现;过程实现; 用分层用分层Cox模型拟合:适用范围非常广。模型拟合:适用范围非常广。条件条件logistic回归回归v SPSS SPSS中的拟合方法:中的拟合方法:浙江大学医学院流行病与卫生统计学教研室 沈毅例例4 Mack等人预考察服用雌激素与患子宫内膜癌的关等人预考察服用雌激素与患子宫内膜癌的关系,对退休居住在社区的妇女进行病例对照研究。除服系,对退休居住在社区的妇女进行病例对照研究。除服用雌激

30、素以外,研究的自变量还包括肥胖、胆囊病史、用雌激素以外,研究的自变量还包括肥胖、胆囊病史、服用其他非雌激素药物。数据见服用其他非雌激素药物。数据见1_1_logistic.sav。条件条件logistic回归回归实例分析实例分析浙江大学医学院流行病与卫生统计学教研室 沈毅compute case = case1 - pute age = age1 - pute est = est1 - pute gall = gall1 - pute nonest = nonest1 -nonest2.execute.由于本例是由于本例是1:1配对,可以使用变量差值方式加以拟合。配对,可以使用变量差值方式加以

31、拟合。首先运用首先运用compute过程产生配对过程产生配对logistic回归的分析变量,回归的分析变量,或用以下程序予以实现:或用以下程序予以实现:条件条件logistic回归回归实例分析实例分析浙江大学医学院流行病与卫生统计学教研室 沈毅条件条件logistic回归回归实例分析实例分析浙江大学医学院流行病与卫生统计学教研室 沈毅条件条件logistic回归回归实例分析实例分析v 把自变量全部把自变量全部选入选入CovariateCovariate框,框,不能选入不能选入factorfactor框!框!浙江大学医学院流行病与卫生统计学教研室 沈毅默认情况下该复默认情况下该复选框选中,应该选

32、框选中,应该去除该复选框去除该复选框条件条件logistic回归回归实例分析实例分析浙江大学医学院流行病与卫生统计学教研室 沈毅WarningsThe dependent variable has only one valid value. A conditional logistic regressionmodel will be fitted.条件条件logistic回归回归结果分析结果分析v 这是系统给出的警告,说明由于反应变量只有一这是系统给出的警告,说明由于反应变量只有一个水平,因此个水平,因此SPSSSPSS将拟合条件将拟合条件logisticlogistic回归模型。回归模型。浙

33、江大学医学院流行病与卫生统计学教研室 沈毅Model Fitting Information87.33753.17834.1594.000ModelNullFinal-2 Log LikelihoodModel Fitting CriteriaChi-SquaredfSig.Likelihood Ratio Tests结果分析结果分析条件条件logistic回归回归v 对模型中所有对模型中所有偏回归系数是否均为偏回归系数是否均为0进行似然比进行似然比检验,结果说明他们不全为检验,结果说明他们不全为0。浙江大学医学院流行病与卫生统计学教研室 沈毅Pseudo R-Square.419.558.3

34、91Cox and SnellNagelkerkeMcFadden结果分析结果分析条件条件logistic回归回归v 输出了输出了三种三种伪决定系数,本伪决定系数,本例的伪决定系数例的伪决定系数还比较大。还比较大。浙江大学医学院流行病与卫生统计学教研室 沈毅Likelihood Ratio Tests53.658.4801.48872.01318.8361.00058.7705.5921.01853.279.1021.750Effectageestgallnonest-2 Log Likelihood ofReduced ModelModel Fitting CriteriaChi-Squar

35、edfSig.Likelihood Ratio TestsThe chi-square statistic is the difference in -2 log-likelihoods between the finalmodel and a reduced model. The reduced model is formed by omitting an effectfrom the final model. The null hypothesis is that all parameters of that effect are 0.结果分析结果分析条件条件logistic回归回归v 输

36、出从模型中分别剔除每一自变量后拟合新的条件输出从模型中分别剔除每一自变量后拟合新的条件logisticlogistic回归回归模型的模型的-2-2倍似然对数值,用于考察是否可以从当前模型中剔除该自变倍似然对数值,用于考察是否可以从当前模型中剔除该自变量,提示可以进一步采用逐步回归对当前模型中自变量进行筛选。量,提示可以进一步采用逐步回归对当前模型中自变量进行筛选。浙江大学医学院流行病与卫生统计学教研室 沈毅Parameter Estimates.277.403.4731.4911.320.5992.9082.698.82410.7121.00114.8512.95274.7231.836.90

37、44.1221.0426.2701.06636.893.256.807.1001.7521.291.2656.279ageestgallnonestcase1.00BStd. ErrorWalddfSig.Exp(B) Lower BoundUpper Bound95% Confidence Interval forExp(B)结果分析结果分析条件条件logistic回归回归v 可见,服用雌激素者患子宫内膜癌的概率是未服用雌激可见,服用雌激素者患子宫内膜癌的概率是未服用雌激素者的素者的14.85114.851倍,有胆囊病史者患子宫内膜癌的概率是没有倍,有胆囊病史者患子宫内膜癌的概率是没有胆囊病

38、史者的胆囊病史者的6.2706.270倍,但倍,但P P =0.042=0.042,下结论要小心,可以,下结论要小心,可以扩大样本含量再对这一因素进行研究。扩大样本含量再对这一因素进行研究。浙江大学医学院流行病与卫生统计学教研室 沈毅在在SPSS中用中用Multinomial Logistic 过程处理配对过程处理配对logistic回归模型时,回归模型时,: 数据库结构与运用数据库结构与运用Cox过程不同。数据库中每一条记录包过程不同。数据库中每一条记录包括一个对子中的两个观察对象。括一个对子中的两个观察对象。 所拟合的模型不能包含常数项!所拟合的模型不能包含常数项!条件条件logistic回归回归浙江大学医学院流行病与卫生统计学教研室 沈毅

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com