《医学课件》危险度分析和logistic回归.pdf-得力文库

资源描述

《《医学课件》危险度分析和logistic回归.pdf》由会员分享，可在线阅读，更多相关《《医学课件》危险度分析和logistic回归.pdf（113页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、危险度分析和Logistic 回归刖百危险度分析和LOG I ST IC回归主要用于研究影响疾病的发病因素或预后因素。A主要分析“危险因素”与疾病间的统计学关联及强度，通常以疾病发生与否或严重程度等分类变量作为因变量。A单因素分析：一般的相对危险度计算A多因素分析：LOGISTIC回归2基本的危险度分析危险度(RISK):指疾病发生的危险性，危险度越高表示疾病发生的概率越大，一般用发病率来衡量。可进行危险度分析的调查研究设计主要有队列研究和病例对照研究两类。研究发病危险度的统计指标常有相对危险度,特异危险度和人群特异危险度。31、相对危险度A相对危险度(relative risk)：

2、简记为RR,是指人群总体中暴露于某因素者的发病率巴与不暴露于某因素者的发病率P。之比值。RR二匹Po RR1时,表示该因素为危险因素，使发病危险度增大;RR RR=1时,表示该因素对疾病的发病无影响。4A2、特异危险度（或归因危险度）简记为AR,是指暴露组与非暴露组发病率的差值，表示由于暴露因素引起疾病发生率变化的绝对数量。AR=PrP0A3、人群特异危险度（或人群归因危险度）简记为PAR,是指全人群与非暴露组发病率的差值，表示在全人群中，由于暴露因素引起发病率变化的绝对数量。PAR=P-PoA特异危险度和人群特异危险度也可以表示为相对数的形式，称特异危险度百分比（或比率）（att

3、ributabl e risk percent,ARP,AR%）和人群特异危险度百分比（或比率）(po pul atio n attributabl e risk percent,PARP,PAR%)oARP=PPoP ARP=Pi p-Po p6队列研究队列研究(co ho rt stud y)又称为前瞻性研究(pro spect ive stud y)或追踪观察研究(fo I Io w-up stud y)观察人群按是否暴露于某可疑危险因素或暴露程度来分组,然后进行追踪观察，记录两组人群发病和死亡情况经过一定时间后,比较两组人群的发病率或死亡率，从而对该危险因素有无致病作用或致病

4、强度高低作出估价并进行分析推断A其特点是从因到果7（非暴露组出现某种结局不出现结局出现结局、口 d不出现结局研究_开始口 I前瞻性地收集结局事件发生的资料队列研究的结构模式图8队列研究可归纳为:发病不发病小计暴露组aba+b非暴露cdc+d小计a+cb+dn=a+b+c+d暴露组发病率：A=a/(a+b)非暴露组发病率：0。=c/(c+d)u aA故相对危险度的估计值：RR=pj Po=.h.cc+d9队列研究 RR的假设检验：%:总体相对危险度为1,即RR=1%:总体相对危险度不为1,即RRW1 x2MH=(ad-bc)2(n-l)/(a+b)(c+d)(a+c)(b+d)四格表/未校正

5、公式所得尤2x2=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d)二者相差仅为系数n/(n-1)。x，二 l(nT)/n x2A当n较大时，x2MH与/两者差别甚微。10队列研究A总体相对危险度95%可信区间可由公式计算:A(14/7)RR 2 11队列研究例1为研究血液中儿茶酚胺水平与冠心病发病之间的关系，对609名男子按血液中儿茶酚胺水平分为高低两组,经过十年追踪观察得结果如下表，试作危险度分析。表1血中儿茶酚胺水平与冠心病发病关系血中儿茶酚胺冠心病水平发病未发病小计高 27(a)95(b)122低 44(c)443(d)487小计 71 538 609 RR=(27/

6、122)/(44/487)=2.45Ho:RR=1 H.RR#)高低D ND122487Xmh=(27 X 443-44 X 95)2X(609-1)/(122 X 487 X71X 538)=16.22/由于16.22X2（）oi,故P v0.01,拒绝,认为总体相对危险度不为1 oARR的95%可信区间为：245（iL96/五）即：1.583.79A即血液中儿茶酚胺水平高低与冠心病发病之间有关,且血中儿茶酚胺水平高者,其冠心病的发病危险度为低者的245倍。13注意国际医学刊物发表的论文中要求：/作者应同时给出点估计、区间估计和具体的检验统计量数值/应重视区间估计的意义而不能仅仅将注意

7、力集中在是否“P W 0.05”上14队列研究A队列研究优点：前瞻性，从因到果，合理，可靠队列研究缺点：研究难度大,随访时间长，研究发病率低的疾病时需要很大样本o15程序示例 d ata ch5_l;do r=l to 2;do c=l to 2;input freq;output;end;end;cards;27 95 44 443；run;pro c freq data=ch5_l;tables r*c/nopercent nocol chisq cmh;weight freq;run;病例对照研究病例对照研究(Case-Control Study)是一种回顾性研究方法,A其特点是从“果

8、”到“因”，在已经发病之后来研究发病的原因A两类研究对象:第一类是患有某种疾病的人，称为病例,第二类是不患该病的人，称为对照。A分别调查这二类对象过去是否接触危险因素，接触的比例与强度如何17回顾性收集暴露情况比较人数 a a/(a+c)cb/(b+d)bd暴露疾病病例对照研究A第一类：病例一接触危险因素的比例、强度A第二类：对照一接触危险因素的比例、强度由此估计发病与危险因素之间的关系在此基础上对所提出的病因学假设作出推断。19比数(odds)比数（o d d s）,指一个事件发生的概率与其对立事件发生的概率之比。o d d s=P/（1-P），例如，R为发生事件如患病的概率（75%）

9、，P。为未患病概率（25%）,那么患病与未患病的相比较的比数（患病风险）0.75/0.25=3，例如，肺癌患者中发生事件如暴露于某因素（吸烟）的比例R（80%）,未吸烟比例P。（20%）,那么暴露与未暴露的相比较的比数（暴露情况）是0.8/0.2=4 倍比数比(odds ratio)o d d s=P/(1-P)两个比数之比值称为比数比或优势比:OR(odds ratio)oddsl 匚(JR=-=-oddsl P21P2例如，某类型肺癌患者吸烟的odds1为4,非肺癌患者即对照吸烟的odds2为0.4,那么病例与对照暴露（吸烟）相比较其比数比OR是：4/0.4=10倍21一.成组病例对照研

10、究成组病例对照研究(Gro uped Case-Co ntro l Stud y)A这类研究中无法直接计算暴露与非暴露组的发病率，因而无法直接得到RR是对病例组和对照组中暴露者比数(o d d s)进行比较：比数比或优势比OR(o d d s ratio，。A可以证明：在发病率较低(如10%)的疾病中可由比数比O R来近似地估计相对危险度R R22成组设计资料病例对照研究资料整理表研究因素暴露情况疾病-m-合计+病例aba+b=ii对照Cdc+d=n0合计a+c=m1b+d=m0a+b+c+d=n23某危险因素暴露非暴露病例组aba+b对照组Cdc+d病例组中暴露的比数二a/(a+b)/

11、b/(a+b)=a/b对照组中暴露的比数二c/(c+d)/d/(c+d)=c/dA病例组中暴露的比数与对照组中暴露的比数之比值：or=a/b/c/d=ad/bc一.成组病例对照研究例2为研究子宫内膜癌与绝经期使用雌激素的关系,采用成组病例对照研究,对183名子宫内膜癌患者（病例组）及183名非子宫内膜癌患者（对照组）进行调查,得口服雌激素情况如下：表2子宫内膜癌与口服雌激素的关系使用过雌激素未用过小计病例组（子宫内膜癌患者）55128183对照组（非子宫内膜癌患者）19164183小计74292366A解:OR=(55 X 164)/(19 X 128)=3.71Ho：OR=1Hi：OR

12、#1力2=(55 x 164-19 X 128)2(366-l)/(74 X 292 X183 X 183)=21.89由于/o0广6.635,故P vO.OL拒绝Ho,认为总体比数比不为1,患子宫内膜癌与绝经期使用过雌激素有关；并估计绝经期使用过雌激素的妇女患壬宫内莫癌的相对风险是不用者的371倍。例2示例程序d ata ch5_2;do group=l to 2;do exposure=l to 2;input freqoutput;end;end;cards;55 128 19 164;run;pro c freq data=ch5_2;tables group*exposure/n

13、opercent nocol chisq cmh;weight freq;run;27一.成组病例对照研究病例对照研究优点：简单易行，不需长期随访，特别适用于研究发病率低的疾病。病例对照研究缺点：回顾性研究，从果到因，不合理，可靠性差。二-分层分析ManteLHaenszel检验A在分析某危险因素与疾病之间关系时,有些额外因素会对所分析的问题起干扰作用，这些因素称为混杂因素。混杂因素部分甚至全部掩盖危险因素与疾病之间的真实关系，故必须设法排除。例如要研究卫生状况与某传染病发病之间的关系Y某传染病发病八X2可能会歪曲 X1与Y的真实关系,二,X2居住密度X1卫生状况29分层分析表3混杂

14、因素干扰的假设例混杂因素未分层混杂因素分层分析I II暴露非暴露暴露非暴露暴露非暴露病例3005629421635对照7009446067994865原始数据：OR=(300 X 944)/(56 X 700)=7.22似乎表明该暴露（危险）因素作用很大30剥离分层-暴露非暴露混杂因素水平I对照 94865按混杂因素分层I层：加=(294X79)/(606X21)=1.83混杂因素水平I非暴露1 294 21606 79n层：or=(6 X 865)/(94 X 35)=1.58混杂因素水平II非暴露6 35对照 94865分层分析表3混杂因素干扰的假设例混杂因素未分层混杂因素分层分析

15、I II暴露非暴露暴露非暴露暴露非暴露病例3005629421635对照7009446067994865混杂因素未分层时加=(300 X 944)/(56 X 700)=7.22混杂因素分层：I 层苏=(294X79)/(606X21)=1.83 AII 层。六(6 X 865)/(94 X 35)=1.58 33分层分析A混杂因素的干扰会导致不正确的推断分层分析(Stratified Anal ysis)是对可能的混杂因素(常常是性别,年龄,或其它有关条件)进行分层A每一层内混杂因素处于同一水平上,这样就可排除它的干扰。34例3为研究心肌梗塞与近期使用口服避孕药之间的关系，采用病

16、例对照研究方法，调查234名心肌梗塞病人与1742名对照者使用口服避孕药状况。为避免年龄可能造成对分析结果的影响，将病例组与对照组都按年龄分成5层，得如下资料。年龄分层组别服过避孕药未服用25病例组42对照组6222430病例组912对照组3339035病例组433对照组2633040病例组665对照组936245病例组693对照组530135分层分析：K层2X2表统计分析步骤(1)计算各层的比数比，作显著性检验。(2)检验各层的总体比数比是否相同。如差异有统计学意义，结束。(3)如差异无统计学意义，计算公共比数比。(4)检验公共比数比和1之间的差异是否有统计学意义。36示例程

17、序 d ata ch5 3;d o ag e=l to 5;d o r=l to 2;d o c=l to 2;input freq；o utput;end;pro c freq d ata=ch5_ 3;tabl es ag e*r*c/no percent no co l chisq cmh;weig ht freq;run;end;end;card s;4 2 62 224 9 12 33 390 4 33 26 330 6 65 9 362 6 93 5 301；run;37配对病例对照研究排除混杂因素的干扰可以使用分层分析但当可能的混杂因素较多时，所分层次就会很多，而且必须调查较大的

18、样本,否则各层中频数就会太小，这种情况有时会给工作带来困难设计与实施阶段一个较好的控制混杂因素的办法就是配对病例对照研究(P aired Case-ControlStudy)o38三.配对病例对照研究A本方法的基本点就是对每一名病例，选择一名或数名各种控制因素与病例相近的非病例作为对照，在调查一开始就把他们配成对，然后一对对地进行比较分析。A这样做可以使各对内部保持均衡,尽可能排除或减少混杂因素的影响,从而提高分析的效能。A配对因素可以是按属性分类的变量，如性别、民族、血型、职业、既往病史等，也可以是连续性变l=J 1=|如年龄、血压、某种生理、生化指标等。39问题A医学研究中疾病的

19、复杂性A一种疾病可能有多种致病因素、危险因素疾病转归的影响因素也可能多种多样A设计实施时固定其他因素，研究主要的一两个因素A分层分析：按12个因素组成的层进行分层分析A多因素分析:寻找合适的统计模型如Logistic回归40顾线性回归的一般概念A一元直线回归模型 y=a+/3x+sA事物间的相互联系往往是多方面的，在很多情况下对应变量y发生影响的自变量往往不止一个。A多元直线回归模型y 二4+的+四9+.+&/+&41多元线性回归的基本概念A多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个应变量间的关系。f 二4+4占+力24+巧+.+图/瓦：截距外偏回归系数，偏回归系数

20、表示其他自变量固定的情况下，再改变一个单位,;平均改变4个单位。42-线性回归分析对变量类型的要求43医学研究中T分类变量二分类变量：患病与未患病感染与未感染有效与无效生存与死亡多分类有序变量：疾病程度（轻度、中度、重度）治愈效果（治愈、显效、好转、无效）多分类无序变量:血型不同病型44多元线性回归不再适用Y=1有效Y=0无效X1,X2.Xm,Xm G(-,+()年龄、吸烟、喝酒、X水平A这种回归分析问题不能借助于线性回归模型，因为因变量不满足线性回归假设条件。A从数学角度看，使得X取任意值而Y仅取1、0(或者1、2)两个值的函数不存在。ALo g istic回归是一个较好的，目前常用

21、的，控制混杂因素的多因素分析方法。“Logistic 回归Y：反应变量(response variable)Y=1：反应，如：发病，死亡，成功Y=2：不反应，如：不发病，存活，不成功X:协变量(covariate),解释(explanatory)变量X可以呈现二值变量的形式,也可以计量的或等级的指标。logistic回归是一种概率模型。设P为Y呈现反应值为1的概率，P=P(Y=1),Q=l-P,为呈现非反应值为2的概率，Q=P(Y=2)oP与各协变量及之间的关系可用下式表示。46Logistic 回归p定义y=in三为logit变换,它是比数的自然对数值,1 1Py=log it(P)=In

22、-=1+0X+B2X2+BMmp；一-=exp(a+B2X2+BA)1-rp=exp(o+lx+B2X2+勿)1+exp(a+lx、+B2X2+BmX)10=1=1+exp(a+lx、+B2X2+47Logi s t ic回归模型中y与P值关系示意图48回归系数的解释A一个暴露因素x时，暴露为1,非暴露为0plog it(P)=In-1 P=a+Pxln(OK)=In制/(1-线=(cr+.x 1)(cr+x 0)二BX取值为1(暴露组)相比取值为0(非暴露组)的比数比OR为exp(0回归系数的解释一个暴露因素x时，当暴露为J,非暴露为时,plog it(P)=In-=a+Bx1-P=(a+f

23、ixc1)-(a+fixc0)=/(GCo)50回归系数的解释A一个暴露因素x1：暴露为1,非暴露为0。一个混杂因素x2logit P=a+/3Xi+31x1当定时（取某个值X的前提下）:臼=9+4x1+万23）一（二+尸1 x o+Ax）二451A粗OR(crude odds rat io):单因素分析所获得A调整OR(adjusted odds rat i o):多因素分析所获得，称为控制多个影响因素调整后的比数比。A当8尸0,ORj=l,说明因素X j不是疾病发生的影响因素；当BjVO,ORj0,ORjl时，说明因素Xj是影响疾病发生的危险因素。传统方法与logistic回归的关系

24、单因素病例对照研究的。兄与l o g istic回归等价;A分层病例对照研究的。3*与l o g istic回归结果近似。Al o g istic回归是传统方法的扩展。P=e邛/(l+e)A在横断面调查研究中，表示基线状态下，个体的患病率；A在队列研究中，表示基线状态下，个体的发病率;A在成组病例-对照研究中，表示基线状态下，病例在研究对象中所占比例；Logistic回归的参数估计经典线性回归(Linear regression):最小二乘法：Least squares Logistic回归:最大似然估计法：Maximum likelihood estimate,MLEA似然函数：先建

25、立似然函数和对数似然函数，求似然函数或对数似然函数达到极大值时参数的取值，即为参数的最大似然估计值。以此估计参数：a,PL(B)=l nZ(B)=jt.l n(xt.)+(l-x)l nl-万(%)i=l解释总结A等级变量：一般以最小等级或最大等级作为参考组，并按等级顺序依次取为0,1,2,-o此时，exp(jS)表示庵加一个等级时的比数比,exp(k仅表示增加人等级时的比数比。连续性变量：表示增加1(个计量单位)时的比数比。A两分类变量：其中一个分类作为对照，另外的分类相对于其的比数比A多分类变量：其中一个分类作为对照，剩余的分类相对于其的比数比解释总结无序多分类变量以哑变量dum

26、进入方程。my variable）的形式x=1 时:D=1,x=2时：D=0,x=3时：D=0,x=4时：D=0,ZZ2=0,ZZ2=1,ZZ2=0,ZZ2=0,ZB=0D3=QZB=1D3=Q表示B型血in表示AB型It表示0型Itininlogit P=bQ+bn+b2D2+b3D3exp(4)-8型相对于A型的优势比 exp(Z?2)-A5型相对于A型的优势在 exp(4)-0型相对于A型的优势比表参比量霞 OR与相变可险示照较发性，是平果的风的水结生1。(x:1=B,2=AB,3=0,4=A)哑变量的个数=分类个数1no DI D2 D3 x110 0 12 0 10 23 0 0

27、1 34 0 0 0 4SAS程序 Dl=(x=l);if x=e then Dl=.;D2=(x=2);if x=.then D2=.;D3=(x=3);if x=.then D3=.;在逐步回归中，哑变量要同进同出，使用i nc I ud e=k来实施Logistic回归模型的假设检验A似然比检验(l ik el iho o d ratio test)A Wal d检验A比分检验(Sco re test)大样本条件下，三种方法结果一致。59彳以然比检验Oikelihood ratio test)似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称De比 ce)来进行的，其统计

28、量为：g=gp-gk=-21n(LP)+21n(L)其中，模型P中的变量是模型K中变量的一部分，另一部分就是我们要检验的变量(模型P嵌套在模型K中)。A G服从自由度为及尸的下分布。56Wald检验AWal d检验实际上是比较估计系数与。的差别来进行的，其检验统计量为：B-0SEA Wal d的%2检验是z的平方。61归系数的检验似然比检验：最可靠Wal d检验：未考虑各因素的综合作用，当存在共线性时,结果不可靠，故在筛选变量时应慎重。结果略偏于保守。可信区间是基于Wal d统计量计算的。比分检验：小样本情况下，I类错误较小。在对混杂因素进行分析时，如协变量对回归系数的影响较大（比如，

29、方程中某变量的回归系数，在有该协变量时比无该协变量时改变了0.5以上），则该变量就认为有重要影响的变量，无论该变量是否有统计学意义。logit(p)=lnp/(l-p)=瓦+1)咨1+bmXm模型小结A二项分布资料Al o g istic回归：以比数的对数值为因变量(l o g it值:l np/(1-p)来建立模型A因变量的l o g it值的改变与多个自变量的加权和呈线性关系 ORj=exp(bj)：ad justed o d d s ratio 即扣除了其他自变量影响后，自变量Xj的作用63Lo g istic回归的应用logit(p)=lnp/(l-p)=瓦+1)咨1+与+bmX

30、m1.在队列研究中用于预测把各协变量代入方程，得到P值，即发病的概率。2.因素分析分析哪些因素对疾病的发生有显著作用。对各偏回归系数作统计学显著性检验，如有统计学意义，则说明在排除其它因素的影响后，该因素与发病的关联具有统计学意义。64Lo g istic回归的应用，logit(p)=lnp/(lp)=瓦+1)吊+,+4+bmXm3.求各因素在排除其它因素的影响后，对于发病的相对危险度(或比数比)如某因素Xi的偏回归系数为bi,则该因素Xi对于发病的比数比为exp(bi)(1)当Xj为二值变量时，如吸烟(1=吸，0二不吸)exp(bj为吸烟对于发病的比数比65Lo g istic回归的应

31、用logit(p)=lnp/(l-p)=瓦+1)咨1+与+bmXm(2)当Xj为等级变量时，如吸烟(0=不吸，仁少量,2=中等,3=大量)。xp(b)为每增加一个等级，发病的相对危险度。如：大量对于不吸其发病的相对危险度为：expObi)(3)当Xj为连续变量时，如年龄(岁)exp(bj为每增加一岁时，发病的相对危险度。如60岁相对于35岁其发病的相对危险度为exp(25bj 66Lo g istic回归的应用logit(p)=lnp/(l-p)=瓦+1)咨1+打+bmXm4.比较各因素对于发病的相对重要性比较各标准化偏回归系数b；绝对值的大小，绝对值大的（对模型贡献大）对发病的作用也大。5.

32、考察因素之间的交互作用如考察Xl和Xk之间的交互作用是否存在，方程中再增加一项：Xlk=XJXk，如其偏回归系数 gk有统计学意义，贝UXl和Xk之间存在交互作用。67分析的一般步骤变量的编码A哑变量的设置和引入A各个自变量的单因素分析变量的筛选A交互作用的引入建立多个模型A选择较优的模型A模型应用条件的评价A输出结果的解释68建模策略1.任一建模过程均应从详细的各变量的单因素分析开始。对性质相同的一些自变量进行部分多因素分析，并探讨刍变量纳入模型时的适宜尺度，及自变量间的必要的一些变量变换。2.3.4.5.在单变量分析和相关自变量分析的基础上，进行多因素的逐步筛选，在多因素筛选模型的基础

33、上，考虑有无必要纳入变量的交互作用项。不同的分析思维、不同的统计方法所得模型可能不一样,应该允许多个模型并存，只要他们真正较好地反映了病因与疾病间的联系。指标的数量也(1)自变量为连续型变量：直接使用，必要时作变换。(2)自变量为有序多分类变量：依次赋值:如疗效好、中、差，可分别赋值3、2、l o条件:结果变量y在每个等级上是近似相等的。如违反条件，则用哑变量的形式表示。(3)自变量为二分类：如令男=1,女=0(4)自变量为无序多分类(又称名义变量或指示变量(indicator variables)需要采用哑变量(dummy variables)进行编码，示例：70示例：西、中西、中

34、三种疗法哑变量化,1西 1中西疗法0其它 o其它西.中西原资料哑变量化中XI X21 00 10 0姓名性别年龄疗法姓名性别年龄XIX2张山150中西张山15001李四120西李四12010王五018中二x王五01800刘六070中刘六07000赵七135中西赵七13501孙八029西孙八02910-n分析的具体步骤1建库录入的数据结构：原始资料整理，-一般格式:编号-XI X2.XmY1XIIX21 XmlY12X12X22.Xm2Y2nXinX2n.Xmn Yn72分析的具体步骤2参数的估计最大似然估计法：求出a、B的估计值。3假设检验模型中应只保留对因变量有影响因素A因此要求对方

35、程中的各变量逐一进行检验，剔除对因变量无影响的因素，并对拟和的模型使用似然比检验法进行检验。A可通过逐步回归筛选自变量，最后得到具有统计学意义的logistic回归方程。该过程很复杂，由统计软件完成。73Logistic回归SAS实现A在SAS的l o g istic回归中，结局变量最好记成1与2(以取值小的构建概率模型，取值大的为对照)。Y=1：反应，如：发病，死亡，成功Y=2：不反应，如：不发病，存活，不成功 P(y=1lx)lnp/(l-p)=b0+b1X1+.+bmXmASAS的Logistic回归和多元回归一样，也可用逐步剔选的方法选择变量，使方程内变量都有意义，方程外变量

36、都没有有意义，称为逐步Logistic回归。(Logistic回归适用于病例对照研究也可用于队列研究)74例4某医生希望研究病人的年龄、性别、心电图检验是否有异常与是否患有冠心病有关，数据已存放在数据文件“ch5_ 4.x I s”,试进行Lo g i st i c回归分析。各数据的意义如下：id 编号ag e 年龄（岁）sex 性别（女性=0,男性=1）ECG 心电图检验是否有异常（正常=0、轻度异常=1、重度异常=2）Y 冠心病患病情况（患病二1,不患病二0）pro c Lo g istic data=ch5_4 descending;model y=age sex ecg;run;75

37、可得LOGISTIC回归方程为：ALogit(P)=-5.6418+0.0929a罗+1.3564sex+0.8732ecg(P:患冠心病(根据变量赋值Y=1)的概率)方程内各偏回归系数都大于零，属于危险因素，因此这些变量数值越大患冠心病(Y=1)的概率越大。如回归中性别sex的估计为乃2=1.3564,表示在冠心病患病率较低的情况下，心电图结果和年龄的取值固定时，男性患冠心病的可能性是女性的3.882(OR=exp(1.3564)=3.882)倍；或男性比女性大约多288.2%的可能性患冠心病。76司癌手术后预后因素分析资料共98例,各项指标如下：NO:例号 X1:胃癌位置（1胃底,2胃体

38、,3胃窦）X2:胃癌大小（分0,1,2,3,4,5级）A X3:大体类型（1溃疡,2肿块,3浸润）X4:组织学类型（1腺癌,2粘液癌,3未分化癌,4混合型）X5:深度（分 1,2,3,4,5,6级）X6:淋巴结转移（分0,1,2,3级）X7:手术方式（1工式,2 II式,3近胃，4全切除）X8:血色素（g/L）X9:白细胞（个/立方毫米）X10:手术时年令（岁）X11:性别（1男性,2女性）X12:是否化疗（1用化疗,2未用化疗）Y:手术后到死亡或截尾时存活时间（月）DEAD:终点状态（1死亡,0存活）原始数据存放在ch5_ 5.xl s文件中，利用以上数据进行逐步LOGISTIC回后，应变量

39、为YY,定义为手术后三年时死亡为1,存活为2。77data ch5_5;set ch5_5;if y36 then yy=2;else if dead=l then yy=l;if xl=l then xla=l;else xla=O;if xl=2 then xlb=l;else xlb=O;if x3=l then x3a=l;else x3a=0;if x3=2 then x3b=l;else x3b=0;if x4=l then x4a=l;else x4a=0;if x4=2 then x4b=l;else x4b=0;if x4=3 then x4c=l;else x4c=0;if

40、 x7=l then x7a=l;else x7a=0;if x7=2 then x7b=l;else x7b=0;if x7=3 then x7c=l;else x7c=0;run;proc l ogistic data=ch5_5;model yy=xla xlb x2 x3a x3b x4a x4b x4c x5 x6 x7a x7b x7cx8 x9 xlO xll x 12/selection=stepwise sle=0.05 sls=0.05 details stb;run;78ParameterInterceptEstimate-1.2071Standard Error2.26

41、21Wald Chi-Square0.2847Pr ChiSq0.5936Standar dizedEstimat ePoint Estima te95%WaldConfidence Limitsx3a-2.19031.06934.19560.0405-0.53590.1120.0140.910 x3b5.6 7502.40985.54570.0185-0.6 9200.003 d ata ch5_6;do birthwt=75091150,1550;do bpd=l,0;input freq output;end;end;cards;49 19 18 62 9 66；run;pro c l

42、o g istic data二ch5_6 descending;model bpd二birthwt;weight freq;run;83Logistic回归分析的分类A按数据的类型:A非条件logistic回归分析（成组数据）A条件logistic回归分析（配对病例对照数据）A按因变量取值个数：A二分类logistic回归分析A多分类logistic回归分析A按自变量个数：A一元logistic回归分析A多元logistic回归分析84条件l o g istic回归分析医学中经常需要作配对病例对照研究。/对每一个病例配以性别、年龄或其它条件相似的一个（1：1）或几个（1：M）对照，然后分析比较

43、病例组与对照组以往暴露于致病因素的经历。分析配对病例对照研究资料的统计分析方法一般采用条件logistic回归分析。条件logistic回归分析的数学模型以及分析原理方法和非条件logistic回归分析类似。因为参数的估计公式涉及到条件概率理论，所以称为条件logistic回归分析。85例7为研究生活方式和胃癌的关系，按照1:1配比的设计收集了一批病例和对照的有关资料。为便于简明扼要的说明问题，本例仅用了 10对样本和3个危险因子进行分析。A各数据的意义如下：id配对编号x1蛋白质摄入量(0,1,2,3)x2不良饮食习惯(0,1,2,3)x3精神状态(0,1,2)Y 胃病患病情况(患

44、病=1,不患病=0)86配对编号病例(y=l)对号配编对照（y=0）xlx2x3xlx2x3113011012031213030123020412041005111512160226200711170008112800093329220102221000087示例程序data ch5_7;input id y xl x2 x3 y=i-y;cards;1113021031310124112051111610227111181112913321012221234567891011100010112run;proc phreg data=ch5_7;model y=x 1-x3/risklim

45、its;strata id;run;88有序多分类结果的logistic回归临床研究中常遇到结果为多个分类的情况，且各分类之间存在一定的次序，如疗效结果的判定为治愈、好转、有效、无效；病情的不同严重等级等。研究者欲建立各种试验检查指标对病人预后影响的判断准则，则需用到结果变量为有序多分类结果的累积l o g it回归(cumul ative l o g it reg ressio n)。A设结果变量以k个等级的有序变量，k个等级分别用1,2,#表示。累积概率(cumulative probability)P(y7|x)=P(y=l|x)+P(y=2|x)+P(y=y|x)p(yj)=+1

46、尸(yW/|x)=+15的+外,)每类结果的概率为:P(y=j|x)=p(y j|x)-p(y ChiS q0.7505 2 0.6871累积比数比模型的应用条件的检验，P=0.6871,表明条件满足。98Analysis of Maximum Likelihood E stimatesParameterDFE stimateS tandardE rrorW ald Chi-S quarePr ChiS qIntercept 01-2.66780.46563 2.8253.0001Intercept 11-1.17090.3 9298.87910.0029xl11.643 00.43 8014

48、种绷带的5.171倍；它也表示使用第一种绷带至少有效的可能性是使用第二种绷带的5.171倍。100无序多分类的logistic回归模型尸1表示A类，y=2表示B类，y=0表示C类。设C类为参照组。P(V 11%)l o g it/0=l n 笠=%+4占+42%+BipXp=g1(x)J I/P(y=21x)l o g it%。=In 后=%+%巧+&%2+B2Pxp=g2(x)rj u I 即101无序多分类的logistic回归模型P(y=lx)P(y=2x)logitA/2=lnP(y=l|x)P(y=0|x)二n-_P(y=0|x)P(y=2|x)_F P(y=l|x)l P(y=2

49、|x)=n-m-_P(y=0|x)J|_P(y=0|x)_=Q-。2)+(41 一夕12)西+(川12-)工2+(夕Ip-夕2p)%p 二%(工)一心102各类概率 4=Py=lx4=尸了=。1耳=-r0 lj 1+eg!（x）+eg2（x）_ 泊一+*（“）+济2（%）一+*（）+心）P2=Py=2xPy=QxPy=lxPy=2x=l103例9产后大出血与妊高症的关系分组无妊高症x=0有妊高症 x=1合计OR对照产0718277451子宫因素产1142131552.43胎盘因素y=2276Z5.91二四再力104分析步骤1、建立Logistic回归方程：用极大似然估计(maximum lik

50、elihood estimate,MLE)2、方程的全局性检验：似然比检验(likelihood ratio test),评分检验(Score)和wald检验3、各回归系数的显著性检验:WALD卡方SAS程序pro c l o g istic d ata=ch5_ 9 d escend ing;mo d el resul t=xl/l ink=g l o g it;run;产后大出血与妊高症的三类结果logistic回归A l o g it P子宫/对照=1.6206+0.8897xA l o g it P胎盘/对照=,3.2806+1.7769xe 8897=2.4345331 07769=

展开阅读全文