《Logistic回归分析》PPT课件.ppt-得力文库

资源描述

《《Logistic回归分析》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《Logistic回归分析》PPT课件.ppt（41页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第第11章章 Logistic回归分析回归分析学习目标了解了解LogisticLogistic回归模型的建立和假设检验；回归模型的建立和假设检验；了解了解LogisticLogistic回归模型的应用领域；回归模型的应用领域；掌握掌握LogisticLogistic回归模型系数的解释，及回归系数与回归模型系数的解释，及回归系数与OROR值之间的关系；值之间的关系；掌握掌握LogisticLogistic回归过程步；回归过程步；掌握哑变量的设置和结果的解释；掌握哑变量的设置和结果的解释；掌握多元掌握多元LogisticLogistic回归模型的逐步过程法和系数的回归模型的逐步过程法和系数的解释；

2、解释；了解条件了解条件LogisticLogistic回归的应用；回归的应用；掌握条件掌握条件LogisticLogistic回归的回归的SASSAS程序；程序；概述线性回归模型和广义线性回归模型要求因变量是线性回归模型和广义线性回归模型要求因变量是连续的正态分布变量，且自变量和因变量呈线性连续的正态分布变量，且自变量和因变量呈线性关系。当因变量是分类型变量时，且自变量与因关系。当因变量是分类型变量时，且自变量与因变量没有线性关系时，线性回归模型的假设条件变量没有线性关系时，线性回归模型的假设条件遭到破坏。这时，最好的回归模型是遭到破坏。这时，最好的回归模型是LogisticLogistic回

3、归回归模型，它对因变量的分布没有要求，从数学角度模型，它对因变量的分布没有要求，从数学角度看，看，LogisticLogistic回归模型非常巧妙地避开了分类型变回归模型非常巧妙地避开了分类型变量的分布问题，补充完善了线性回归模型和广义量的分布问题，补充完善了线性回归模型和广义线性回归模型的缺陷。从医学研究角度看，线性回归模型的缺陷。从医学研究角度看，LogisticLogistic回归模型解决了一大批实际应用问题，对回归模型解决了一大批实际应用问题，对医学的发展起着举足轻重的作用。医学的发展起着举足轻重的作用。非条件Logistic回归 Logistic回归分析在医学研究中应用广泛。目前主要

4、是用于流行病学研究中危险因素的筛选，但它同时具有良好的判别和预测功能，尤其是在资料类型不能满足Fisher判别和Bayes判别的条件时，更显示出Logistic回归判别的优势和效能。本研究对Logistic回归方程的判别分析进行了探讨，并用一实例介绍其应用。非条件Logistic回归医学研究中经常需要分析分类型变量的问题。比如，生存医学研究中经常需要分析分类型变量的问题。比如，生存与死亡、有病与无病、有效与无效、感染与未感染等二分与死亡、有病与无病、有效与无效、感染与未感染等二分类变量。研究者关心的问题是，哪些因素导致了人群中有类变量。研究者关心的问题是，哪些因素导致了人群中有些人患某种病而有

5、些人不患某种病，哪些因素导致了某种些人患某种病而有些人不患某种病，哪些因素导致了某种治疗方法出现治愈、显效、好转和无效等不同的效果等。治疗方法出现治愈、显效、好转和无效等不同的效果等。这类问题，实质上是一个回归问题，因变量就是上述提到这类问题，实质上是一个回归问题，因变量就是上述提到的这些分类型变量，自变量的这些分类型变量，自变量x x是与之有关的一些因素。但是与之有关的一些因素。但是，这样的问题却不能直接用线性回归分析方法解决，其是，这样的问题却不能直接用线性回归分析方法解决，其根本原因在于因变量是分类型变量，严重违背了线性回归根本原因在于因变量是分类型变量，严重违背了线性回归分析对数据的假

6、设条件。那么应该怎样解决这个问题呢？分析对数据的假设条件。那么应该怎样解决这个问题呢？非条件Logistic回归研究者将所研究的问题转换一个角度，不是直接分析y与x的关系，而是分析y取某个值的概率P与x的关系。例如，令y为1，0变量，y=1表示有病，y=0表示未患病；x是与患病有关的危险因素。如果P表示患病的概率，即P=prob（y=1），那么研究患病的概率P与危险因素x的关系就不是很困难的事情了。非条件Logistic回归分析因变量分析因变量y y取某个值的概率取某个值的概率P P与自变量与自变量x x的关系，就是寻的关系，就是寻找一个连续函数，使得当找一个连续函数，使得当x x变化时，它对

7、应的函数值变化时，它对应的函数值P P不超不超出出00，11范围。数学上这样的函数是存在且不唯一的，范围。数学上这样的函数是存在且不唯一的，LogisticLogistic回归模型就是满足这种要求的函数之一。与线性回归模型就是满足这种要求的函数之一。与线性回归分析相似，回归分析相似，LogisticLogistic回归分析的基本原理就是利用一回归分析的基本原理就是利用一组数据拟合一个组数据拟合一个LogisticLogistic回归模型，然后借助这个模型揭回归模型，然后借助这个模型揭示总体中若干个自变量与一个因变量取某个值的概率之间示总体中若干个自变量与一个因变量取某个值的概率之间的关系。具体

8、地说，的关系。具体地说，LogisticLogistic回归分析可以从统计意义上回归分析可以从统计意义上估计出在其它自变量固定不变的情况下，每个自变量对因估计出在其它自变量固定不变的情况下，每个自变量对因变量取某个值的概率的数值影响大小。变量取某个值的概率的数值影响大小。LogisticLogistic回归模型有条件与非条件之分，前者适用于配对病回归模型有条件与非条件之分，前者适用于配对病例对照资料的分析，后者适用于队列研究或非配对的病例例对照资料的分析，后者适用于队列研究或非配对的病例-对照研究成组资料的分析。对照研究成组资料的分析。问题的提出问题的提出在流行病学研究中，经常遇到因变量为离

9、散型分在流行病学研究中，经常遇到因变量为离散型分在流行病学研究中，经常遇到因变量为离散型分在流行病学研究中，经常遇到因变量为离散型分类变量的情况。如治疗效果的无效好转、显效、类变量的情况。如治疗效果的无效好转、显效、类变量的情况。如治疗效果的无效好转、显效、类变量的情况。如治疗效果的无效好转、显效、痊愈；不同染毒剂量下小白鼠的存活或死亡；在痊愈；不同染毒剂量下小白鼠的存活或死亡；在痊愈；不同染毒剂量下小白鼠的存活或死亡；在痊愈；不同染毒剂量下小白鼠的存活或死亡；在某种暴露下的发病与不发病等。最常见的情况是某种暴露下的发病与不发病等。最常见的情况是某种暴露下的发病与不发病等。最常见的情况是某种暴

10、露下的发病与不发病等。最常见的情况是因变量为二分变量的问题。因变量为二分变量的问题。因变量为二分变量的问题。因变量为二分变量的问题。多元线性回归的局限性多元线性回归的局限性多元线性回归的局限性多元线性回归的局限性经典流行病学统计分析方法经典流行病学统计分析方法经典流行病学统计分析方法经典流行病学统计分析方法分层分析的局限性分层分析的局限性分层分析的局限性分层分析的局限性1.1.两种主要的流行病学设计两种主要的流行病学设计两种主要的流行病学设计两种主要的流行病学设计1 1）病历对照研究）病历对照研究）病历对照研究）病历对照研究2 2）队列研究）队列研究）队列研究）队列研究2.2.判断结局（疾病

11、）和暴露（因素）联系强弱的指标判断结局（疾病）和暴露（因素）联系强弱的指标判断结局（疾病）和暴露（因素）联系强弱的指标判断结局（疾病）和暴露（因素）联系强弱的指标1 1）相对危险度：相对危险度：相对危险度：相对危险度：RR=p1/p0 RR=p1/p0 p1:p1:暴露于某个危险因素下发病的概率暴露于某个危险因素下发病的概率暴露于某个危险因素下发病的概率暴露于某个危险因素下发病的概率 p0:p0:不暴露于某个危险因素下发病的概率（对照）不暴露于某个危险因素下发病的概率（对照）不暴露于某个危险因素下发病的概率（对照）不暴露于某个危险因素下发病的概率（对照）2 2）比值比：）比值比：）比值比：）比

12、值比：OR=P(D=1|E=1)/P(D=0|E=1)/OR=P(D=1|E=1)/P(D=0|E=1)/P(D=1|E=0)/P(D=0|E=0)P(D=1|E=0)/P(D=0|E=0)D=1:D=1:患某种疾病，患某种疾病，患某种疾病，患某种疾病，D=0 D=0：不患某种疾病：不患某种疾病：不患某种疾病：不患某种疾病 E=1:E=1:暴露于某个危险因素，暴露于某个危险因素，暴露于某个危险因素，暴露于某个危险因素，E=0:E=0:不暴露于某个危险因素不暴露于某个危险因素不暴露于某个危险因素不暴露于某个危险因素可以简单地表述成：可以简单地表述成：可以简单地表述成：可以简单地表述成：OR=(

13、p1/q1)/(p0/q0)OR=(p1/q1)/(p0/q0)p1:p1:暴露于某个危险因素下发病的概率暴露于某个危险因素下发病的概率暴露于某个危险因素下发病的概率暴露于某个危险因素下发病的概率 q1:q1:暴露于某个危险因素下不发病的概率暴露于某个危险因素下不发病的概率暴露于某个危险因素下不发病的概率暴露于某个危险因素下不发病的概率 p0:p0:不暴露于某个危险因素下发病的概率不暴露于某个危险因素下发病的概率不暴露于某个危险因素下发病的概率不暴露于某个危险因素下发病的概率 q0:q0:不暴露于某个危险因素下不发病的概率不暴露于某个危险因素下不发病的概率不暴露于某个危险因素下不发病的概率不暴

14、露于某个危险因素下不发病的概率不同年龄组内服用避孕药的比例不同年龄组内服用避孕药的比例年龄年龄服服OC 不服不服OC 合计合计40 38(0.31)8512340 25(0.12)183208 合计合计 632683312 =17.88P0.01 40岁以上服用岁以上服用OC的比例远小于的比例远小于40岁以下组。岁以下组。Mantel-HaenszelMantel-Haenszel分层分析法分层分析法分层分析法分层分析法按年龄分层按年龄分层按年龄分层按年龄分层,可以得到下表可以得到下表可以得到下表可以得到下表:4040岁岁4040岁岁 MI MI 非非MI MI 合计合计 MI MI 非非

15、MIMI 合计合计服服OC 21OC 21 17 38 17 38 18 18 7 25 7 25未服未服OC 26 59 85OC 26 59 85 88 88 95 95 183 183 合计合计 47 47 76 123 76 123 106 102 208106 102 208 OR(2)=2.776 OR(2)=2.776 ORMH=(ai*di/ni)/(bi*ci/ni)ORMH 分层分析中，可以分别计算出分层后的各层分层分析中，可以分别计算出分层后的各层分层分析中，可以分别计算出分层后的各层分层分析中，可以分别计算出分层后的各层OROR值，如果发现与总的值，如果发现与总的值，

16、如果发现与总的值，如果发现与总的OROR有较大的差异，则可以认为有较大的差异，则可以认为有较大的差异，则可以认为有较大的差异，则可以认为该风层因素是混杂因素。必须对该因素进行该风层因素是混杂因素。必须对该因素进行该风层因素是混杂因素。必须对该因素进行该风层因素是混杂因素。必须对该因素进行MHMH调整，调整，调整，调整，调整后的调整后的调整后的调整后的OROR值才能真正反映因素和结局间的关系。值才能真正反映因素和结局间的关系。值才能真正反映因素和结局间的关系。值才能真正反映因素和结局间的关系。如果当分层后各层的如果当分层后各层的如果当分层后各层的如果当分层后各层的OROR值经过一致性检验发现：值

17、经过一致性检验发现：值经过一致性检验发现：值经过一致性检验发现：各层间的各层间的各层间的各层间的OROR值有统计学差异，这时说明分析因素在值有统计学差异，这时说明分析因素在值有统计学差异，这时说明分析因素在值有统计学差异，这时说明分析因素在分层因素的不同水平上与结局变量的联系强度是不同分层因素的不同水平上与结局变量的联系强度是不同分层因素的不同水平上与结局变量的联系强度是不同分层因素的不同水平上与结局变量的联系强度是不同的，这时分层因素和研究因素存在这交互作用（效应的，这时分层因素和研究因素存在这交互作用（效应的，这时分层因素和研究因素存在这交互作用（效应的，这时分层因素和研究因素存在这交互作

18、用（效应修饰作用）。这时应该分层报告修饰作用）。这时应该分层报告修饰作用）。这时应该分层报告修饰作用）。这时应该分层报告OROR值，而不能计算值，而不能计算值，而不能计算值，而不能计算调整调整调整调整OROR值。值。值。值。分层分析的局限性v只能控制少数因素（分层因素过多，每个格子中的样本例数太少）v定量资料需要分组，信息丢失v不能对因素作用大小进行定量分析（交互作用）二、二、Logistic 回归原理回归原理yy=logy=log2 2x x01 Logistic 模型中系数的意义：模型中系数的意义：回归系数的流行病学意义是：在其它自变量都回归系数的流行病学意义是：在其它自变量都不变的条件下

19、，当因素不变的条件下，当因素X X变化一个测量单位时所引起的变化一个测量单位时所引起的OROR值自然对数的改变量。值自然对数的改变量。三、三、Logistic 回归回归和和OR值间的关系值间的关系假设建立了如下的假设建立了如下的假设建立了如下的假设建立了如下的logisticlogistic回归方程：回归方程：回归方程：回归方程：Logit P=Logit P=+x+xx x 为二分变量，当暴露时，取值为为二分变量，当暴露时，取值为为二分变量，当暴露时，取值为为二分变量，当暴露时，取值为1 1 1 1；不暴露时，取值为不暴露时，取值为不暴露时，取值为不暴露时，取值为0 0 0 0。所以所以所以

20、所以暴露暴露暴露暴露时时时时,Logit(PLogit(P1 1)=)=+，比值比值比值比值(odds)=exp(odds)=exp(+)所以所以所以所以不暴露不暴露不暴露不暴露时时时时,Logit(PLogit(P0 0)=)=，比值比值比值比值(odds)=exp(odds)=exp()则，暴露对于不暴露的比值比则，暴露对于不暴露的比值比则，暴露对于不暴露的比值比则，暴露对于不暴露的比值比(odds ratio)(odds ratio)为：为：为：为：OR=OR=exp(exp(+)/exp()/exp()=exp()=exp()举例举例举例举例2 2 2 2 使用雌激素与子宫内膜癌病例对

21、照研究使用雌激素与子宫内膜癌病例对照研究使用雌激素与子宫内膜癌病例对照研究使用雌激素与子宫内膜癌病例对照研究（病例对照，曾光现代流行病学方法与应用，（病例对照，曾光现代流行病学方法与应用，（病例对照，曾光现代流行病学方法与应用，（病例对照，曾光现代流行病学方法与应用，P76P76P76P76）以一个最简单的以一个最简单的以一个最简单的以一个最简单的LogisticLogistic回归模型做为例子。回归模型做为例子。回归模型做为例子。回归模型做为例子。使用过使用过使用过使用过未使用过未使用过未使用过未使用过合计合计合计合计病例病例病例病例5555128128183183对照对照对照对照19191

22、64164183183合计合计合计合计7474293293366366建立的建立的建立的建立的logistic logistic logistic logistic 回归方程形式为：回归方程形式为：回归方程形式为：回归方程形式为：Logit P=-0.2478+1.3107 xLogit P=-0.2478+1.3107 xX X取值取值取值取值：1 1 使用过雌激素使用过雌激素使用过雌激素使用过雌激素 0 0 未使用过雌激素未使用过雌激素未使用过雌激素未使用过雌激素使用过雌激素的使用过雌激素的使用过雌激素的使用过雌激素的Logit Logit 为：为：为：为：即：即：即：即：Ln(pLn(p

23、1 1/q/q1 1)=1.063)=1.063 所以，使用过雌激素的比值（所以，使用过雌激素的比值（所以，使用过雌激素的比值（所以，使用过雌激素的比值（odds)odds)为：为：为：为：p p1 1/q/q1 1未未未未使用过雌激素的使用过雌激素的使用过雌激素的使用过雌激素的Logit Logit 为：为：为：为：即：即：即：即：Ln(pLn(p0 0/q/q0 0所以，未使用过雌激素的比值（所以，未使用过雌激素的比值（所以，未使用过雌激素的比值（所以，未使用过雌激素的比值（odds)odds)为：为：为：为：p p0 0/q/q0 0使用过雌激素相对于未使用过雌激素的比值比为：使用过雌激

24、素相对于未使用过雌激素的比值比为：使用过雌激素相对于未使用过雌激素的比值比为：使用过雌激素相对于未使用过雌激素的比值比为：以四格表为例来说明最大似然求解的意义及过程。以四格表为例来说明最大似然求解的意义及过程。以四格表为例来说明最大似然求解的意义及过程。以四格表为例来说明最大似然求解的意义及过程。四格表的一般表达形式四格表的一般表达形式四格表的一般表达形式四格表的一般表达形式发病发病发病发病(y=1)(y=1)不发病不发病不发病不发病(y=0)(y=0)暴露暴露暴露暴露(x=1)(x=1)a ab b 不暴露不暴露不暴露不暴露(x=0)(x=0)c cd d 合计合计合计合计a+ca+cb+d

25、b+d 暴露者发病概率暴露者发病概率暴露者发病概率暴露者发病概率 p p1 1=a/(a+b);=a/(a+b);不暴露者发病概率不暴露者发病概率不暴露者发病概率不暴露者发病概率 p p0 0=c/(c+d)=c/(c+d)OR=ad/(bc)OR=ad/(bc)四、四、Logistic 回归最大似然建模回归最大似然建模用发病概率来表示四格表，可以得到四格表的另外一种表示形式：用发病概率来表示四格表，可以得到四格表的另外一种表示形式：用发病概率来表示四格表，可以得到四格表的另外一种表示形式：用发病概率来表示四格表，可以得到四格表的另外一种表示形式：四格表的另外一种表达形式四格表的另外一种表达形

26、式四格表的另外一种表达形式四格表的另外一种表达形式(1)(1)发病发病发病发病(y=1)(y=1)不发病不发病不发病不发病(y=0)(y=0)暴露暴露暴露暴露(x=1)(x=1)p p1 1 1-1-p p1 1 不暴露不暴露不暴露不暴露(x=0)(x=0)p p0 0 1-1-p p0 0 暴露者发病概率暴露者发病概率暴露者发病概率暴露者发病概率:p:p1 1=exp(=exp(+x)/1+x)/1+exp(exp(+x)+x)暴露者不发病概率暴露者不发病概率暴露者不发病概率暴露者不发病概率:q:q0 0=1-p=1-p1 1=1/=1/1+1+exp(exp(+x)+x);不暴露者发病概率

27、不暴露者发病概率不暴露者发病概率不暴露者发病概率:p:p0 0=exp(=exp()/1+)/1+exp(exp()不暴露者不发病概率不暴露者不发病概率不暴露者不发病概率不暴露者不发病概率:q:q0 0=1-p=1-p0 0=1/=1/1+1+exp(exp();用发病概率来表示四格表，可以得到四格表的另外一种表示形式：用发病概率来表示四格表，可以得到四格表的另外一种表示形式：用发病概率来表示四格表，可以得到四格表的另外一种表示形式：用发病概率来表示四格表，可以得到四格表的另外一种表示形式：四格表的另外一种表达形式四格表的另外一种表达形式四格表的另外一种表达形式四格表的另外一种表达形式(2)(

28、2)发病发病发病发病(y=1)(y=1)不发病不发病不发病不发病(y=0)(y=0)暴露暴露暴露暴露(x=1)e(x=1)e(+)+)/1+/1+e e(+)+)1/1/1+1+e e(+)+)不暴露不暴露不暴露不暴露(x=0)(x=0)e e /1+/1+e e 1/1/1+1+e e 因为四格表的四个实际数为因为四格表的四个实际数为因为四格表的四个实际数为因为四格表的四个实际数为a,b,ca,b,c及及及及d d，故可构造似然函数为：故可构造似然函数为：故可构造似然函数为：故可构造似然函数为：L=L=e e(+)+)/1+/1+e e(+)+)a a 1/1/1+1+e e(+)+)b b

29、e e /1+/1+e e c c 1/1/1+1+e e d d 取对数，有取对数，有取对数，有取对数，有Ln(L)=a(Ln(L)=a(+)a ln1+e+)a ln1+e(+)(+)b ln1+e b ln1+e(+)(+)+c c ln 1+e +c c ln 1+e d ln1+e d ln1+e 对以上似然函数分别求对对以上似然函数分别求对和和的一阶偏导数，再令两个偏导数为的一阶偏导数，再令两个偏导数为零，就可以解得零，就可以解得和和的估计值。的估计值。v在经典流行病学分析里对因素的统计学意义检验是检验OR值是否为1v对于Logistic回归来说，对模型中变量的统计学检验就

30、是对检验其回归系数是否为0v一般常用的方法有三种：似然比检验、Wald检验、比分检验五、五、Logistic 回归模型的统计学检回归模型的统计学检验验1 1）似然比检验）似然比检验）似然比检验）似然比检验似然比检验的原理是通过分析模型中变量变化对似然比检验的原理是通过分析模型中变量变化对似然比检验的原理是通过分析模型中变量变化对似然比检验的原理是通过分析模型中变量变化对似然比的影响，来检验增加似然比的影响，来检验增加似然比的影响，来检验增加似然比的影响，来检验增加/减少的自变量是否对应变减少的自变量是否对应变减少的自变量是否对应变减少的自变量是否对应变量有统计学上的显著意义。量有统计学上的显著

31、意义。量有统计学上的显著意义。量有统计学上的显著意义。检验统计量：检验统计量：检验统计量：检验统计量：G G=-2 Ln(L=-2 Ln(Lk k1 1)-Ln(L)-Ln(Lk k)Ln(L Ln(Lk k1 1)为不包含检验变量时模型的对数似然值为不包含检验变量时模型的对数似然值为不包含检验变量时模型的对数似然值为不包含检验变量时模型的对数似然值 Ln(L Ln(Lk k)为包含检验变量时模型的对数似然值为包含检验变量时模型的对数似然值为包含检验变量时模型的对数似然值为包含检验变量时模型的对数似然值v当检验一个变量时则当检验一个变量时则当检验一个变量时则当检验一个变量时则G G服从自由度为

32、服从自由度为服从自由度为服从自由度为1 1的的的的 2 2 分布分布分布分布v当对模型整个进行检验时就是相当于模型中所有当对模型整个进行检验时就是相当于模型中所有当对模型整个进行检验时就是相当于模型中所有当对模型整个进行检验时就是相当于模型中所有n n个变个变个变个变量的回归系数都为量的回归系数都为量的回归系数都为量的回归系数都为0 0，G G服从自由度为服从自由度为服从自由度为服从自由度为n n的的的的 2 2 分布分布分布分布2 2）Wald Wald 统计量检验回归系数是否为统计量检验回归系数是否为统计量检验回归系数是否为统计量检验回归系数是否为0 0对于方程内单个自变量的检验，采用对于

33、方程内单个自变量的检验，采用对于方程内单个自变量的检验，采用对于方程内单个自变量的检验，采用Wald Wald 统计量。统计量。统计量。统计量。W=/SW=/S S S 为为为为的标准误。的标准误。的标准误。的标准误。其临界值可取标准正态分布的临界值。同时，其临界值可取标准正态分布的临界值。同时，其临界值可取标准正态分布的临界值。同时，其临界值可取标准正态分布的临界值。同时，WW2 2遵循自由度遵循自由度遵循自由度遵循自由度为为为为的卡方分布。的卡方分布。的卡方分布。的卡方分布。的的的的9595可信区间为：可信区间为：可信区间为：可信区间为：（1.96 S1.96 S ，1.96 S1.9

34、6 S ）OROR的的的的9595可信区间为：可信区间为：可信区间为：可信区间为：(e (e 1.96 S1.96 S ,e e +1.96 S+1.96 S )3 3）比分检验）比分检验）比分检验）比分检验在原有模型的基础上增加一个变量，并假设该变量的回在原有模型的基础上增加一个变量，并假设该变量的回在原有模型的基础上增加一个变量，并假设该变量的回在原有模型的基础上增加一个变量，并假设该变量的回归系数为归系数为归系数为归系数为0 0，似然函数一阶偏导和信息矩阵的乘积为比分检验，似然函数一阶偏导和信息矩阵的乘积为比分检验，似然函数一阶偏导和信息矩阵的乘积为比分检验，似然函数一阶偏导和信息矩阵

35、的乘积为比分检验统计量统计量统计量统计量S S。S S在样本量较大时服从自由度为检验参数个数的在样本量较大时服从自由度为检验参数个数的在样本量较大时服从自由度为检验参数个数的在样本量较大时服从自由度为检验参数个数的 2 2 分布分布分布分布v上述方法中，似然比检验最可靠，Wald检验和比分检验一致。vWald检验没有考虑变量间的相互影响，当因素间相关时（存在共线性）不可靠v参数的可信区间是以Wald法计算的，在应用可信区间时要注意 PROC LOGISTIC过程 SASSAS系统中进行系统中进行LogisticLogistic回归分析的过程步是回归分析的过程步是PROC PROC LOGIST

36、ICLOGISTIC过程。下面我们先了解以下这个过程步。过程。下面我们先了解以下这个过程步。LOGISTICLOGISTIC过程的语句基本格式如下：过程的语句基本格式如下：PROC LOGISTIC data=descending simple PROC LOGISTIC data=descending simple order=;order=;Model Model 因变量自变量因变量自变量/link=noint rsq cl rl /link=noint rsq cl rl selection=sle=sls=;selection=sle=sls=;freq freq 频数变量频数变量;o

37、utput out=pred=output out=pred=变量名；变量名；run;run;PROC LOGISTIC过程 DESCENDINGDESCENDING：指令系统输出因变量取值由大到小的概率，：指令系统输出因变量取值由大到小的概率，缺省时，系统输出因变量取值由小到大的概率。使用和不缺省时，系统输出因变量取值由小到大的概率。使用和不使用使用DESCENDINGDESCENDING语句的回归模型的回归系数绝对值完全语句的回归模型的回归系数绝对值完全相同，但是符号完全相反。相同，但是符号完全相反。SIMPLESIMPLE：指令系统输出每一个自变量的基本统计量。：指令系统输出每一个自变量

38、的基本统计量。MODELMODEL：给出模型的因变量和自变量。：给出模型的因变量和自变量。LINKLINK：指定因变量概率函数的形式：指定因变量概率函数的形式NOINTNOINT：指令模型不含常数项。：指令模型不含常数项。RSQRSQ：指定输出确定系数。：指定输出确定系数。PROC LOGISTIC过程CLCL：指定输出参数估计值的可信区间。：指定输出参数估计值的可信区间。RLRL：指定输出相对危险度（或比数比）的可信区间。：指定输出相对危险度（或比数比）的可信区间。SELECTIONSELECTION、SLESLE和和SLSSLS：和：和REGREG过程步的对应选项一样，过程步的对应选项一样

39、，用于逐步回归分析。用于逐步回归分析。FREQFREQ：是否使用，取决于数据的输入方法。当：是否使用，取决于数据的输入方法。当x x和和y y变量变量的观察值被直接输入到的观察值被直接输入到SASSAS数据集时，不需要使用数据集时，不需要使用FREQFREQ语语句。但是，当句。但是，当x x是分类型变量，且是分类型变量，且x x和和y y变量的观察值不是变量的观察值不是直接输入到直接输入到SASSAS数据集时，而是将数据集时，而是将x x和和y y变量的频数输入到变量的频数输入到SASSAS数据集中时，需要使用数据集中时，需要使用FREQFREQ语句。语句。OUTPUTOUTPUT语句：用来保

40、存指定的分析结果。语句：用来保存指定的分析结果。OutOut选择项用选择项用来给出输出数据集的名字。来给出输出数据集的名字。PredPred选择项用来给出一个预测选择项用来给出一个预测概率的变量名。概率的变量名。条件Logistic回归医学研究中的配对病例对照研究资料可以用条件医学研究中的配对病例对照研究资料可以用条件LogisticLogistic回归模型来分析。条件回归模型来分析。条件LogisticLogistic回归模型和回归模型和非条件非条件LogisticLogistic回归模型的区别在于参数的估计是回归模型的区别在于参数的估计是否用到了条件概率。所谓的配对病例对照研究指否用到了

41、条件概率。所谓的配对病例对照研究指的是在病例对照研究中，对每一个病例配以性别、的是在病例对照研究中，对每一个病例配以性别、年龄或其它条件相似的一个（年龄或其它条件相似的一个（1 1：1 1）或几个（）或几个（1 1：MM）对照，然后分析比较病例组与对照组以往暴）对照，然后分析比较病例组与对照组以往暴露于致病因素的经历。分析配对病例对照研究资露于致病因素的经历。分析配对病例对照研究资料所用的条件料所用的条件LogisticLogistic回归模型中参数的估计方法回归模型中参数的估计方法也是采用最大似然估计法，参数和模型的检验方也是采用最大似然估计法，参数和模型的检验方法和非条件法和非条件Logi

42、sticLogistic回归模型也一样。回归模型也一样。条件Logistic回归的SAS程序用于条件用于条件LogisticLogistic回归分析的过程步一般借用生存回归分析的过程步一般借用生存数据风险回归分析的数据风险回归分析的PHREGPHREG过程步。实用过程步。实用PHREGPHREG过程步时要注意数据的输入方法和过程步语句的过程步时要注意数据的输入方法和过程步语句的写法。写法。PHREGPHREG过程步的一般格式如下：过程步的一般格式如下：Proc phreg data=;Proc phreg data=;Model Model 因变量因变量*截尾变量截尾变量=协变量协变量/ti

43、es=risklimits/ties=risklimits selection=sle=sls details;selection=sle=sls details;Strata Strata 分组变量分组变量;Run;Run;条件Logistic回归的SAS程序MODELMODEL语句：用于指定模型的结构，适用于生存语句：用于指定模型的结构，适用于生存时间有右截尾的情况，且生存时间变量作为模型时间有右截尾的情况，且生存时间变量作为模型的因变量，协变量作为模型的自变量。的因变量，协变量作为模型的自变量。TIESTIES：用来选择处理生存时间结点的方法，每一：用来选择处理生存时间结点的方法，每一种

44、方法使用了不同的公式来计算最大似然值。种方法使用了不同的公式来计算最大似然值。RISKLIMITSRISKLIMITS：指令输出危险比的：指令输出危险比的9595置信区间，置信区间，供选择的有：供选择的有：backwardbackward、forwardforward、stepwisestepwise、scorescore。条件Logistic回归的SAS程序SLESLE：指定协变量进入模型的显著水平，缺省值是。：指定协变量进入模型的显著水平，缺省值是。SLSSLS：指定协变量停留在模型中的显著水平，缺省：指定协变量停留在模型中的显著水平，缺省值是。值是。DETAILSDETAILS：指令输出

45、逐步回归过程中每一步的详：指令输出逐步回归过程中每一步的详细分析结果。细分析结果。STRATASTRATA：指定用于分组计算的分组变量。如果分：指定用于分组计算的分组变量。如果分组变量的数值不符合分组要求，则在变量后面的组变量的数值不符合分组要求，则在变量后面的括号内列出分组的端点值。括号内列出分组的端点值。本章小节 Logistic回归分析在医学研究中应用广泛。Logistic 回归分析在流行病学的病因研究中，是分析疾病与危险因素间联系的一种统计方法。在这类研究中，所观察的项目的值，常以二项反应变量取值，即生存与死亡，是否发病，是否接触危险因素等的反应变量y的取值是0或1。本章小节Logis

46、tic回归模型有条件与非条件之分，前者适用于配对病例对照资料的分析，后者适用于队列研究或非配对的病例-对照研究成组资料的分析。在使用分析流行病学的方法研究疾病病因时，非条件Logistic模型是用于分析队列或病例-对照研究成组资料的统计方法，既可以进行因素筛选，也可以用于混杂因素的控制。SAS系统中采用LOGISTIC过程步分析非条件Logistic回归。本章小节在医学研究中经常遇到多分类无序变量，此类变量一般不在医学研究中经常遇到多分类无序变量，此类变量一般不能直接进入能直接进入LogisticLogistic回归模型进行分析，这种变量一般采回归模型进行分析，这种变量一般采用设置哑变量的方法

47、来进行分析。哑变量，就是一组取值用设置哑变量的方法来进行分析。哑变量，就是一组取值1 1和和0 0的二值分类变量，用来表示一个分类变量。的二值分类变量，用来表示一个分类变量。非条件非条件LogisticLogistic回归适合于队列研究、病例对照研究，同样回归适合于队列研究、病例对照研究，同样也适合于现况调查中的病因学研究。按也适合于现况调查中的病因学研究。按3 3种不同抽样方式种不同抽样方式作作LogisticLogistic回归，除病例对照研究资料的常数项与另外两回归，除病例对照研究资料的常数项与另外两种不同外，回归系数的意义相同。而配对病例对照研究资种不同外，回归系数的意义相同。而配对病例对照研究资料就需要条件料就需要条件LogisticLogistic回归模型来分析了。回归模型来分析了。SASSAS系统中采用系统中采用PHREGPHREG过程步进行数据分析。过程步进行数据分析。

展开阅读全文