logistic回归poission回归与SAS实现.ppt

上传人:豆**** 文档编号:26546287 上传时间:2022-07-18 格式:PPT 页数:50 大小:1.07MB
返回 下载 相关 举报
logistic回归poission回归与SAS实现.ppt_第1页
第1页 / 共50页
logistic回归poission回归与SAS实现.ppt_第2页
第2页 / 共50页
点击查看更多>>
资源描述

《logistic回归poission回归与SAS实现.ppt》由会员分享,可在线阅读,更多相关《logistic回归poission回归与SAS实现.ppt(50页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 Logistic回归回归(因变量为二分变量(因变量为二分变量/二项分布)二项分布) probit回归回归 Poisson (因变量为(因变量为poisson分布)分布)第三章:横截面数据:因变量为分类变量及因第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况变量为频数(计数)变量的情况概念 logistic回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。 最常用的是二值型二值型logistic ,即因变量的取值只包含两个类别 例如:好、坏 ;发生、不发生;常用Y=1或Y=0表示。 自变量X称为危险因素或暴露因素,

2、可为连续变量、等级变量、分类变量,可有m个自变量X1, X2, Xm 。P表示Y=1的概率,是其他变量的一个函数。 【p(Y=1|X)表示在X的条件下Y=1的概率】 logistic回归的数学表达式为: ln1TpXplogistic回归的分类:(1)二分类资料logistic回归: 因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。(2)多分类资料logistic回归: 因变量为多项分类的资料,可用多项分类logistic回归模型或有序分

3、类logistic回归模型进行分析。 也可以分为也可以分为logistic回归和条件回归和条件logistic回归回归令因变量两个水平对应的值为0、1,概率为1-p、p,则显然我们也可以用多重回归进行分析?为什么要用logistic回归分析?logistic回归回归系数、模型评估、参数估计、假设检验等与之前的回归分析有何不同?因变量为二分变量时既可以用logistics回归也可以用probit回归,那么probit回归及其与logistic回归的异同之处问题问题问题1:00(1)1xxeP ye)未发病、无效、存活等出现阴性结果发病、有效、死亡等)出现阳性结果( 0( 1Yp(y=1)表示某暴

4、露因素状态下,结果y=1的概率(P)模型。01(1)1 exp ()p yx或或模型描述了应变量模型描述了应变量p与与x的关系的关系P概率概率10.5Z值值0123-1-2-3 图图1 Logistic回归函数的几何图形回归函数的几何图形)(exp11) 1(0 xypxz10线性回归在处理有上限和下限的因变量时面临着线性回归在处理有上限和下限的因变量时面临着一个问题:一个问题:X上同样的变化对上同样的变化对Y产生的影响不同,产生的影响不同,由图由图1也可以直观的看出这里并不适合进行线性也可以直观的看出这里并不适合进行线性回归。回归。虽然有很多非线性的函数可以呈现虽然有很多非线性的函数可以呈现

5、S形,但由于形,但由于Logit转化比较简易,所以更受欢迎。转化比较简易,所以更受欢迎。Logit与概率不同,它没有上下限。比数去除了概率的上限,比与概率不同,它没有上下限。比数去除了概率的上限,比数的对数去除了概率的下限;且是以数的对数去除了概率的下限;且是以0,5为中点对称的,概率大为中点对称的,概率大于于0.5产生正的产生正的logit,logit距离距离0的距离反映了概率距离的距离反映了概率距离0.5的距离;的距离;概率上相同的改变与在概率上相同的改变与在logits上产生的改变是不同的,上产生的改变是不同的,logit转化转化拉直了拉直了X与最初的概率之间的非线性关系。与最初的概率之

6、间的非线性关系。回归系数的意义:回归系数的意义: Logistic回归中的回归系数回归中的回归系数 表示,某一因表示,某一因素改变一个单位时,效应指标发生与不发生事素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即件的概率之比的对数变化值,即OR的对数值。的对数值。 Logistic回归中的常数项回归中的常数项 表示,在不接触任表示,在不接触任何潜在危险保护因素条件下,效应指标发生何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。与不发生事件的概率之比的对数值。i0单纯从数学上讲,与多元线单纯从数学上讲,与多元线性回归分析中回归系数的解性回归分析中回归系数

7、的解释并无不同。释并无不同。问题问题2: 模型评估 (1)osmer-Lemeshowz指标 HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。(2)AIC和SC指标 即池雷准则和施瓦茨准则 与线性回归类似AIC和SC越小说明模型拟合的越好(3)似然比卡方出 从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验 在logistic回归中可以通过似然比(likelihood ratio test)进行检验(4)RSQUARE( R2 )和C统计量 解释变量解释在多大程度上解释了因变量与线性回归中的R

8、2作用类似 在logistic回归中可以通过R2和统计量进行度量统计量统计量 趋势趋势 拟合拟合 作用作用 备注备注 AIC 、SC 越小越小 越好越好 类似于多元回归中的残差平方和类似于多元回归中的残差平方和 似然比卡方似然比卡方 越大越大 越好越好 类似于多元回归中的回归平方和类似于多元回归中的回归平方和 P值越小越好值越小越好RSQUARE 越大越大 越好越好 类似于多元回归中的类似于多元回归中的统计量统计量 越大越大 越好度量观测值和条件预测的相对一致性越好度量观测值和条件预测的相对一致性 统计量越小越好度量观测值和预测值总体的一致性统计量越小越好度量观测值和预测值总体的一致性 P值越

9、大越好值越大越好说明:说明: 在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是统计量。AIC和SQUARE极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。参数估计参数估计 除此以外,除此以外,logistic回归还可以用优势比估计:回归还可以用优势比估计:案例:案例:在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性

10、病例的优势比。 观观察察例例数数OR值OR的95%CI对偏回归系数的假设检验logisticlogistic回归模型的假设检验回归模型的假设检验 3.比分检验(比分检验(score test) 以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的分布。上述三种方法中,似然比检验(与之前的类似)上述三种方法中,似然比检验(与之前的类似)最可靠,比分检验(最可靠,比分检验(logistic回归模型特有)一回归模型特有)一般与它相一致

11、,但两者均要求较大的计算量;而般与它相一致,但两者均要求较大的计算量;而Wald检验(相当于广义的检验(相当于广义的t检验)未考虑各因素检验)未考虑各因素间的综合作用,在因素间有共线性时结果不如其间的综合作用,在因素间有共线性时结果不如其它两者可靠。它两者可靠。概率概率p值均小值均小于于0.05,说明,说明方程有意义。方程有意义。对所拟合模型的假设检验:对所拟合模型的假设检验:变量筛选变量筛选 例例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平

12、均为0.10)。 用逐步回用逐步回归法拟合归法拟合模型模型,变量变量选入和剔选入和剔除水平均除水平均为为0.10 指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。 logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。 条件Lo

13、gistic回归对配对对配对/比调查资料,应该用条件比调查资料,应该用条件Logistic回归分析。回归分析。对于配比资料,第对于配比资料,第i个配比组可以建立一个个配比组可以建立一个Logistic回归:回归:假设自变量在各配比组中对结果变量的作用是相假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。同的,即自变量的回归系数与配比组无关。配比设计的配比设计的Logistic回归模型回归模型其中不含常数项。其中不含常数项。i1 122logit P=bkkb xb xb x1 122logit P=bkkxb xb x 可以看出此回归模型与非条件可以看出此回归模型

14、与非条件Logistic回归模型十分相似,只不过这里的参回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此数估计是根据条件概率得到的,因此称为条件称为条件Logistic回归模型。回归模型。 条件条件Logistic回归的回归系数检验与分回归的回归系数检验与分析,和非条件析,和非条件Logistic回归完全相同。回归完全相同。 1.1.疾病(某结果)的危险因素分析和筛选疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(用回归模型中的回归系数(i i)和)和OROR说明说明危险因素与疾病的关系。危险因素与疾病的关系。适用的资料:适用的资料: 前瞻性研究设计、病例对照研究设

15、计、前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。横断面研究设计的资料。三类研究计算的三类研究计算的logistic logistic 回归模型的回归模型的 意义是一致。仅常意义是一致。仅常数项不同。(证明略)数项不同。(证明略)logisticlogistic回归的应用回归的应用2.校正混杂因素,对疗效做评价校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。理因素,正确评价疗效。3.预测与判别预测与判别 预测个体在某因素存在条

16、件下,发生某事件预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。(发病)的概率,为进一步治疗提供依据。问题问题3 3 如同logistic回归,probit分析依赖于将二分因变量上的回归转化成连续因变量上的回归。给定经历某事件或者具有某特点的概率,预测的probit变成了一个由一个或者多个自变量所决定的线性方程的因变量:Z代表了利用累积标准正态分布将概率转为z分数的非线性转化。通过用一个线性方程来预测z分数,probit分析暗含了一个与概率的非线性关系,与曲线的极限比,因变量在接近曲线中点时对概率有更大的影响。i01*iZbbX 在在logistic回归中我们可以利

17、用简单的公式来总结将概率变成比数对数回归中我们可以利用简单的公式来总结将概率变成比数对数的转化以及比数对数变成概率的转化。对于的转化以及比数对数变成概率的转化。对于probit分析,标准正态分布曲分析,标准正态分布曲线的复杂公式让这一切难度更大(尽管用计算机可以很容易得到)。线的复杂公式让这一切难度更大(尽管用计算机可以很容易得到)。 除了除了logit与与probit转化当中的一些相似性,它们两个所得出的系数会转化当中的一些相似性,它们两个所得出的系数会有一个随意的常数(约有一个随意的常数(约1.8)的区别。(由于软件程序中)的区别。(由于软件程序中probit分析将误分析将误差项的标准差定

18、为差项的标准差定为1,而,而logistic分析将误差项的标准差大约定为分析将误差项的标准差大约定为1.814)logitic系数大约是系数大约是probit系数的系数的1.8倍,将倍,将logistic系数除以这个值可以让系数除以这个值可以让二者的单位具有可比性,但是由于二者的单位具有可比性,但是由于logistic和正态曲线不同,所以和正态曲线不同,所以logitic系数和系数和probit系数依然会有小小的不同。但是基本上,系数依然会有小小的不同。但是基本上, logistic分析和分析和probit分析得出的结果在本质上都是相似的。分析得出的结果在本质上都是相似的。 与与logisti

19、c回归一样,回归一样, probit分析也利用最大似然估计进行参数估计,分析也利用最大似然估计进行参数估计,且估计过程与且估计过程与logistic回归一模一样。但与回归一模一样。但与logistic 回归不同的是,这里回归不同的是,这里使用的是累积标准正态分布所以不能从自变量和估计参数得到因变量的使用的是累积标准正态分布所以不能从自变量和估计参数得到因变量的p值。且为了计算更简单一些,程序是让似然数的自然对数取最大值而非让值。且为了计算更简单一些,程序是让似然数的自然对数取最大值而非让似然函数取最大值。似然函数取最大值。 系数含义及对整个模型的评估和检验与系数含义及对整个模型的评估和检验与l

20、ogistic回归的内容大同小异回归的内容大同小异probit分析与分析与logistic回归只是因变量的回归只是因变量的转化方式不同以及因此产生的细小差异转化方式不同以及因此产生的细小差异 Logistic回归回归(因变量为二分变量(因变量为二分变量/二项分布)二项分布) probit回归回归 Poisson (因变量为(因变量为poisson分布)分布)第三章:横截面数据:因变量为分类变量及因第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况变量为频数(计数)变量的情况概念 Poisson回归: 用来为技术资料和列联表建模的一种回归分析。泊松回归假设反应变量Y是Poiss

21、on分布,并假设它期望值的对数可被未知参数的线性组合建模。 Poisson回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。 ekkyPk!)(分类数据表现为离散的计数,服从分类数据表现为离散的计数,服从Poisson分布分布因变量Y服从Poisson分布,期望值为 ( Poisson分布变量的方差也是 )如果有一个解释变量x,可以写出如下回归模型:这里g是一个连接函数(link function),通常取log函数,因此得到对数线性模型可写成:01( )gx01 1log( )x01 1xe Poisson回归模型是描述服从Poisson分布的目标变量y的均数 与协变量 关系的

22、回归模型。 对数线性模型 解释变量xi增加一个单位, 增加ymxx ,.,1nnxxg.)(110nnxx.)log(110nnxxe.110ie 单位率的模型可写作 N称作偏移(offset), log(N)被用做偏移量;当所有协变量都无作用时, 等于NnnxxN.)log(11001 1.n nxxNe 01 1log( )log( ).nnNxxPoisson分布下模型的似然函数 对于低发生(病)率的开放性队列研究资料,由于di服从Poisson分布,其概率函数为: 其中di是随机变量,可取值为di=1,2, 其期望发生数i=nihi( )。回归模型的似然函数为Poisson分布条件下各

23、个格子概率函数的总概率(积)。 L()=!idiidepii!)()(11ihndiiniinidehnpiii,iX参数估计 两侧取对数,回归模型的对数似然函数为: lnL()= 对数似然函数中的未知参数可以用迭代 重复加权最小二乘法(简称IRLS法)估计, 它与通常的极大似然估计结果一致。 也可用极大似然估计法 ),(_),(ln(iiiiiiXhnXhnd模型拟合度与参数检验偏差统计量偏差统计量 P o i s s o n 回 归 模 型 拟 合 好 坏 用 偏 差 统 计 量(deviance)表示,偏差统计量实际上是对数似然比统计量,它是饱和模型(saturated model)和拟

24、合模型对数似然值差的两倍,其在Poisson分布条件下的计算公式为:2=2 (ln() ()iiiiidGdd参数检验 参数检验可通过两个包含不同参数个数模型的偏差统计量G2的差(G2)和自由度的差(df)来实现,当G2时,P0.05, 该参数(因素)有统计学意义。G2 )(ln)(ln2)(ln)(ln2)(ln)(ln222rkkrkkrkkLLLLLLGGPoisson回归实现(Genmod过程) Genmod过程:通过对参数向量进行最大似然估计来拟和广义线性模型,采用迭代拟和过程估计参数的值。 GENMOD过程用于广义线性模型分析。广义线性模型是传统线性模型的的延伸,它的总体均数通过一

25、个非线性连接函数依赖于线性预测值,反应变量(误差项)的概率分布为指数分布族中的任何一员。有许多广泛应用的统计模型都属于广义线性模型,包括带正态误差的经典线性模型、Logistic回归模型、概率单位模型和对数线性模型等。 例:英国男性医生冠心病死亡与抽烟关系研究的资料,请推断冠心病死亡与抽烟、年龄是否有关程序exam2:proc genmod ;model death=age smoke /dist=poisson link=log offset=ln;run; 结果Criteria For Assessing Goodness Of Fit Criterion DF Value Value/D

26、F Deviance 5 22.9103 4.5821 Scaled Deviance 5 22.9103 4.5821 Pearson Chi-Square 5 20.5468 4.1094 Scaled Pearson X2 5 20.5468 4.1094 Log Likelihood 2271.8051 拟合优度 ,p0.05,说明此组数据不符合所拟合的模型 可能原因:age对目标变量的作用是不均匀的,需作为定性变量处理。 程序:proc genmod ;class age;model death=age smoke /dist=poisson link=log offset=ln;run; 222.910

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com