logistic回归probit回归与poission回归.pptx-得力文库

资源描述

《logistic回归probit回归与poission回归.pptx》由会员分享，可在线阅读，更多相关《logistic回归probit回归与poission回归.pptx（49页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、会计学1logistic回归回归(hugu)probit回归回归(hugu)与与poission回归回归(hugu)PPT课件课件第一页，共49页。n nLogistic回归回归(hugu)（因变量为（因变量为二分变量二分变量/二项分布）二项分布）n nprobit回归回归(hugu)n nPoisson（因变量为（因变量为poisson分布）分布）第三章：横截面数据：因变量为分类第三章：横截面数据：因变量为分类(fn li)变变量及因变量为频数（计数）变量的情况量及因变量为频数（计数）变量的情况第1页/共49页第二页，共49页。概念概念概念概念(ginin)(ginin)logistic l

2、ogistic回归是研究因变量为二分类或多分类观察结果与影响回归是研究因变量为二分类或多分类观察结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非因素（自变量）之间关系的一种多变量分析方法，属概率型非线线性回归。性回归。最常用的是二值型最常用的是二值型logistic logistic，即因变量的取值只包含两个类，即因变量的取值只包含两个类别别例如：好、坏例如：好、坏；发生、不发生；常用；发生、不发生；常用Y=1Y=1或或Y=0Y=0表示。表示。自变自变量量X X称为危险因素或暴露称为危险因素或暴露(bol)(bol)因素，可为连续变量、等级变量、因素，可为连续变量、等级变量、

3、分类分类变量，可有变量，可有mm个自变量个自变量X1X1，X2 X2，Xm Xm。P P表示表示Y=1Y=1的概率，是的概率，是其他变量的一个函数。其他变量的一个函数。【p p（Y=1|XY=1|X）表示在）表示在X X的条件下的条件下Y=1Y=1的概率】的概率】logisticlogistic回归的数学表达式为：回归的数学表达式为：第2页/共49页第三页，共49页。logisticlogistic回归的分类：回归的分类：（1 1）二分类资料）二分类资料logisticlogistic回归：回归：因变量为两分类变量的资料，因变量为两分类变量的资料，可用非条件可用非条件logisticlogis

4、tic回归和条件回归和条件logisticlogistic回归进行分析。非条件回归进行分析。非条件logisticlogistic回归多用于非配比病例回归多用于非配比病例-对照研究或队列研究资料，对照研究或队列研究资料，条件条件logisticlogistic回归多用于配对或配比资料。回归多用于配对或配比资料。（2 2）多分类资料）多分类资料logisticlogistic回归：回归：因变量为多项分类的资料，可因变量为多项分类的资料，可用多项分类用多项分类logisticlogistic回归模型回归模型(mxng)(mxng)或有序分类或有序分类logisticlogistic回归回归模型模型

5、(mxng)(mxng)进行分析。进行分析。也可以分为也可以分为logisticlogistic回归和条件回归和条件logisticlogistic回归回归第3页/共49页第四页，共49页。1.1.令因变量两个水平对应的值为令因变量两个水平对应的值为0 0、1 1，概率为，概率为1-p1-p、p p，则显然我们也可以用多重回归进行分析？为什么要用则显然我们也可以用多重回归进行分析？为什么要用logisticlogistic回归分析？回归分析？2.2.logisticlogistic回归回归系数、模型评估回归回归系数、模型评估(pn(pn )、参数估计、参数估计、假设检验等与之前的回归分析有何不

6、同？假设检验等与之前的回归分析有何不同？3.3.因变量为二分变量时既可以用因变量为二分变量时既可以用logisticslogistics回归也可以用回归也可以用probitprobit回归，那么回归，那么probitprobit回归及其与回归及其与logisticlogistic回归的异同回归的异同之处之处问题问题问题问题(wnt)(wnt)第4页/共49页第五页，共49页。问题问题问题问题(wnt)1(wnt)1：p（y=1）表示某暴露因素状态下，结果y=1的概率(gil)（P）模型。或或模型描述模型描述(mio sh)了应变量了应变量p与与x的关系的关系第5页/共49页第六页，共49页。P

7、概率概率(gil)10.5Z值值0123-1-2-3 图图1 Logistic回归函数回归函数(hnsh)的几何图形的几何图形第6页/共49页第七页，共49页。线性回归在处理线性回归在处理(chl)有上限和下限的因变量时面临着有上限和下限的因变量时面临着一个问题：一个问题：X上同样的变化对上同样的变化对Y产生的影响不同，由图产生的影响不同，由图1也可以直观的看出这里并不适合进行线性回归。也可以直观的看出这里并不适合进行线性回归。虽然有很多非线性的函数可以呈现虽然有很多非线性的函数可以呈现S形，但由于形，但由于Logit转转化比较简易，所以更受欢迎。化比较简易，所以更受欢迎。第7页/共49页第八

8、页，共49页。第8页/共49页第九页，共49页。Logit与概率不同，它没有上下限。比数去除了概率的上限与概率不同，它没有上下限。比数去除了概率的上限(shngxin)，比数，比数的对数去除了概率的下限；且是以的对数去除了概率的下限；且是以0,5为中点对称的，概率大于为中点对称的，概率大于0.5产生正的产生正的logit,logit距离距离0的距离反映了概率距离的距离反映了概率距离0.5的距离；概率上相同的改变与在的距离；概率上相同的改变与在logits上产生的改变是不同的，上产生的改变是不同的，logit转化拉直了转化拉直了X与最初的概率之间的非线性关与最初的概率之间的非线性关系。系。第9页

9、/共49页第十页，共49页。回归系数的意义回归系数的意义(yy)：Logistic回归中的回归系数回归中的回归系数表示，某一因素改表示，某一因素改变一个单位时，效应指标发生与不发生事件的概率变一个单位时，效应指标发生与不发生事件的概率之比的对数之比的对数(du sh)变化值，即变化值，即OR的对数的对数(du sh)值。值。Logistic回归中的常数项回归中的常数项表示，在不接触任何潜表示，在不接触任何潜在危险保护因素条件下，效应指标发生与不发生在危险保护因素条件下，效应指标发生与不发生事件的概率之比的对数事件的概率之比的对数(du sh)值。值。单纯从数学上讲，与多元线性单纯从数学上讲

10、，与多元线性回归回归(hugu)分析中回归分析中回归(hugu)系数的解释并无不同。系数的解释并无不同。问题问题问题问题2 2：第10页/共49页第十一页，共49页。模型(mxng)评估（1）osmer-Lemeshowz指标HL统计量的原假设Ho是预测值和观测值之间无显著差异，因此HL指标的P-Value的值越大，越不能拒绝原假设，即说明模型很好的拟合了数据(shj)。（2）AIC和SC指标即池雷准则和施瓦茨准则与线性回归类似AIC和SC越小说明模型拟合的越好（3）似然比卡方出从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比（likelih

11、oodratiotest）进行检验（4）RSQUARE（R2）和C统计量解释变量解释在多大程度上解释了因变量与线性回归中的R2作用类似在logistic回归中可以通过R2和统计量进行度量第11页/共49页第十二页，共49页。统计量统计量统计量统计量趋势趋势趋势趋势拟合拟合拟合拟合作用作用作用作用备注备注备注备注AICAIC、SCSC越小越小越小越小越好越好越好越好类似类似类似类似(li s)(li s)于多元回归中的残差平方和于多元回归中的残差平方和于多元回归中的残差平方和于多元回归中的残差平方和似然比卡方似然比卡方似然比卡方似然比卡方越大越大越大越大越好越好越好越好类似类似类似类

12、似(li s)(li s)于多元回归中的回归平方和于多元回归中的回归平方和于多元回归中的回归平方和于多元回归中的回归平方和 P P值越小越好值越小越好值越小越好值越小越好RSQUARE RSQUARE 越大越大越大越大越好越好越好越好类似类似类似类似(li s)(li s)于多元回归中的于多元回归中的于多元回归中的于多元回归中的统计量统计量统计量统计量越大越大越大越大越好度量观测值和条件预测的相对一致性越好度量观测值和条件预测的相对一致性越好度量观测值和条件预测的相对一致性越好度量观测值和条件预测的相对一致性统计量越小越好度量观测值和预测值总体的一致性统计量越小越好度量观测值和预测值总体

13、的一致性统计量越小越好度量观测值和预测值总体的一致性统计量越小越好度量观测值和预测值总体的一致性PP值越大越好值越大越好值越大越好值越大越好说明：说明：在实践中，对以上统计量最为关注的是在实践中，对以上统计量最为关注的是C统计统计量，其次是似然比卡方，最后才是统计量。量，其次是似然比卡方，最后才是统计量。AIC和和SQUARE极少关注，这一点和多元线性回极少关注，这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模归有很大的区别。根本原因就是多元线性回归模型是一个预测模型，目标变量的值具有实际意义；型是一个预测模型，目标变量的值具有实际意义；而而logistic是一个分类模型，目标变量

14、只是是一个分类模型，目标变量只是(zhsh)一个分类标识，因此更关注预测值和预一个分类标识，因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。测值之间的相对一致性而不是绝对一致性。第12页/共49页第十三页，共49页。参数估计参数估计参数估计参数估计第13页/共49页第十四页，共49页。第14页/共49页第十五页，共49页。除此以外，除此以外，logistic回归回归(hugu)还可以用优势还可以用优势比估计：比估计：第15页/共49页第十六页，共49页。案例案例(n l)：第16页/共49页第十七页，共49页。在logistic过程步中加“descending”选项的目的是使SAS

15、过程按阳性率（y=1）拟合模型，得到阳性病例对应于阴性病例的优势比。观观察察(gunch)例例数数第17页/共49页第十八页，共49页。OR值OR的95%CI对偏回归系数的假设检验第18页/共49页第十九页，共49页。第19页/共49页第二十页，共49页。logisticlogisticlogisticlogistic回归回归回归回归(hugu)(hugu)(hugu)(hugu)模型的假设检验模型的假设检验模型的假设检验模型的假设检验第20页/共49页第二十一页，共49页。第21页/共49页第二十二页，共49页。3.3.比分检验（比分检验（比分检验（比分检验（score testscore

16、 test）以未包含某个或几个变量的模型为基础，保留模型以未包含某个或几个变量的模型为基础，保留模型以未包含某个或几个变量的模型为基础，保留模型以未包含某个或几个变量的模型为基础，保留模型中参数的估计值，并假设新增加中参数的估计值，并假设新增加中参数的估计值，并假设新增加中参数的估计值，并假设新增加(zngji)(zngji)的参数为零，的参数为零，的参数为零，的参数为零，计算似然函数的一价偏导数（又称有效比分）及信息计算似然函数的一价偏导数（又称有效比分）及信息计算似然函数的一价偏导数（又称有效比分）及信息计算似然函数的一价偏导数（又称有效比分）及信息距阵，两者相乘便得比分检验的统计量距阵，

17、两者相乘便得比分检验的统计量距阵，两者相乘便得比分检验的统计量距阵，两者相乘便得比分检验的统计量S S。样本量较。样本量较。样本量较。样本量较大时，大时，大时，大时，S S近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的分分分分布。布。布。布。上述三种方法中，似然比检验（与之前的类似）最可靠，上述三种方法中，似然比检验（与之前的类似）最可靠，比分检验（比分检验（logistic回归模型特有回归模型特有(t yu)）一般与它相）一般与它相一致，但两者均要求较大的计算量；而一致，但两者均要求较大的计算量；而Wald检验

18、（相当检验（相当于广义的于广义的t检验）未考虑各因素间的综合作用，在因素间检验）未考虑各因素间的综合作用，在因素间有共线性时结果不如其它两者可靠。有共线性时结果不如其它两者可靠。第22页/共49页第二十三页，共49页。概率概率p值均小值均小于于0.05，说明，说明方程有意义。方程有意义。对所拟合对所拟合(n h)模型的假设检验：模型的假设检验：第23页/共49页第二十四页，共49页。变量变量变量变量(binling)(binling)筛选筛选筛选筛选第24页/共49页第二十五页，共49页。n n例例例例某工作者在探讨肾细胞癌转移某工作者在探讨肾细胞癌转移某工作者在探讨肾细胞癌转移某工作者在

19、探讨肾细胞癌转移(zhuny)(zhuny)的有关临床病理的有关临床病理的有关临床病理的有关临床病理因素研究中，收集了一批行根治性肾切除术患者的肾癌标因素研究中，收集了一批行根治性肾切除术患者的肾癌标因素研究中，收集了一批行根治性肾切除术患者的肾癌标因素研究中，收集了一批行根治性肾切除术患者的肾癌标本资料，现从中抽取本资料，现从中抽取本资料，现从中抽取本资料，现从中抽取2626例。试用例。试用例。试用例。试用logisticlogistic回归分析筛选出于回归分析筛选出于回归分析筛选出于回归分析筛选出于癌细胞转移癌细胞转移癌细胞转移癌细胞转移(zhuny)(zhuny)有关的危险因素（变量选入

20、和剔除水有关的危险因素（变量选入和剔除水有关的危险因素（变量选入和剔除水有关的危险因素（变量选入和剔除水平均为平均为平均为平均为0.100.10）。）。）。）。第25页/共49页第二十六页，共49页。用逐步回用逐步回归法拟合归法拟合模型模型,变量变量选入和剔选入和剔除除(tch)水平均为水平均为0.10 指定选项“des”是为了按照y=1（有转移(zhuny)）的概率拟合模型。如果不加此选择项，则软件会按照y=0（无转移(zhuny)）的概率拟合模型，此时，应变量的排序水平发生颠倒，且所有参数估计的符号相反，OR值为原来的倒数。第26页/共49页第二十七页，共49页。第27页/共49页第二十八

21、页，共49页。logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4，回归系数分别为2.4134和2.0963，比数比分别为11.172和8.136。结果(ji gu)中还给出了标准化偏回归系数，肾癌细胞核组织学分级（x4）在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子（x2）。第28页/共49页第二十九页，共49页。条件条件条件条件(tiojin)Logistic(tiojin)Logistic回归回归回归回归对配对对配对对配对对配对/比调查资料，应该用条件比调查资料，应该用条件比调查资料，应该用条件比调查资料，应该用条件LogisticLogistic回归分析。回归分

22、析。回归分析。回归分析。对于配比资料，第对于配比资料，第对于配比资料，第对于配比资料，第i i个配比组可以建立一个个配比组可以建立一个个配比组可以建立一个个配比组可以建立一个(y(y )Logistic)Logistic回归：回归：回归：回归：假设自变量在各配比组中对结果变量的作用是相假设自变量在各配比组中对结果变量的作用是相假设自变量在各配比组中对结果变量的作用是相假设自变量在各配比组中对结果变量的作用是相同的，即自变量的回归系数与配比组无关。同的，即自变量的回归系数与配比组无关。同的，即自变量的回归系数与配比组无关。同的，即自变量的回归系数与配比组无关。配比设计的配比设计的配比设计的配比设

23、计的LogisticLogistic回归模型回归模型回归模型回归模型其中不含常数项。其中不含常数项。其中不含常数项。其中不含常数项。第29页/共49页第三十页，共49页。n n可以看出此回归模型与非条件可以看出此回归模型与非条件可以看出此回归模型与非条件可以看出此回归模型与非条件LogisticLogistic回归模型十分相似，只不过这里的参回归模型十分相似，只不过这里的参回归模型十分相似，只不过这里的参回归模型十分相似，只不过这里的参数估计是根据条件概率得到数估计是根据条件概率得到数估计是根据条件概率得到数估计是根据条件概率得到(d do)(d do)的，的，的，的，因此称为条件因此称为条件

24、因此称为条件因此称为条件LogisticLogistic回归模型。回归模型。回归模型。回归模型。n n条件条件条件条件LogisticLogistic回归的回归系数检验与分回归的回归系数检验与分回归的回归系数检验与分回归的回归系数检验与分析，和非条件析，和非条件析，和非条件析，和非条件LogisticLogistic回归完全相同。回归完全相同。回归完全相同。回归完全相同。第30页/共49页第三十一页，共49页。1.1.1.1.疾病（某结果）的危险因素分析和筛选疾病（某结果）的危险因素分析和筛选疾病（某结果）的危险因素分析和筛选疾病（某结果）的危险因素分析和筛选用用用用回回回回归归归归模模模模

25、型型型型中中中中的的的的回回回回归归归归系系系系数数数数（i i i i）和和和和OROROROR说说说说明明明明危危危危险险险险因因因因素素素素与与与与疾病的关系。疾病的关系。疾病的关系。疾病的关系。适用的资料：适用的资料：适用的资料：适用的资料：前前前前瞻瞻瞻瞻性性性性研研研研究究究究设设设设计计计计、病病病病例例例例对对对对照照照照研研研研究究究究设设设设计计计计、横横横横断断断断面面面面研研研研究设计的资料。究设计的资料。究设计的资料。究设计的资料。三三三三类类类类研研研研究究究究计计计计算算算算的的的的logistic logistic logistic logistic 回回回回归

26、归归归模模模模型型型型的的的的意意意意义义义义是是是是一一一一致致致致。仅仅仅仅常常常常数数数数项不同项不同项不同项不同(b tn)(b tn)(b tn)(b tn)。（证明略）。（证明略）。（证明略）。（证明略）logisticlogisticlogisticlogistic回归回归回归回归(hugu)(hugu)(hugu)(hugu)的应用的应用的应用的应用第31页/共49页第三十二页，共49页。2.校正混杂因素，对疗效做评价校正混杂因素，对疗效做评价在临床研究和疗效的评价，组间在临床研究和疗效的评价，组间某些因素构某些因素构成不一致干扰疗效分析，通过该法成不一致干扰疗效分析，通过

27、该法可控制非处可控制非处理因素，正确评价疗效。理因素，正确评价疗效。3.预测预测(yc)与判别与判别预测预测(yc)个体在某因素存在条个体在某因素存在条件下，发生某事件件下，发生某事件（发病）的概率，为进一步治疗提（发病）的概率，为进一步治疗提供依据。供依据。第32页/共49页第三十三页，共49页。问题问题问题问题(wnt)3(wnt)3(wnt)3(wnt)3 如同如同logisticlogistic回归，回归，probitprobit分析依赖于将二分因变量上的回分析依赖于将二分因变量上的回归转化成连续因变量上的回归。给定经历某事件或者具有某归转化成连续因变量上的回归。给定经历某事件或者具

28、有某特点的概率，预测的特点的概率，预测的probitprobit变成了一个由一个或者多个自变变成了一个由一个或者多个自变量所决定的线性方程量所决定的线性方程(xin xn(xin xn fn fn chn chn)的因变量：的因变量：Z Z代表了利用累积标准正态分布将概率转为代表了利用累积标准正态分布将概率转为z z分数的非线性转分数的非线性转化。通过用一个线性方程化。通过用一个线性方程(xin xn(xin xn fn fn chn chn)来预测来预测z z分数，分数，probitprobit分析暗含了一分析暗含了一个与概率的非线性关系，与曲线的极限比，因变量在接近曲线中点时对概率有更大的

29、个与概率的非线性关系，与曲线的极限比，因变量在接近曲线中点时对概率有更大的影响。影响。第33页/共49页第三十四页，共49页。在在logistic回归中我们可以利用简单的公式来总结将概率变成比数对数的转化以及回归中我们可以利用简单的公式来总结将概率变成比数对数的转化以及(yj)比比数对数变成概率的转化。对于数对数变成概率的转化。对于probit分析，标准正态分布曲线的复杂公式让这一切难度更大分析，标准正态分布曲线的复杂公式让这一切难度更大（尽管用计算机可以很容易得到）。（尽管用计算机可以很容易得到）。除了除了logit与与probit转化当中的一些相似性，它们两个所得出的系数会有一个随意的常数

30、转化当中的一些相似性，它们两个所得出的系数会有一个随意的常数（约（约1.8）的区别。（由于软件程序中）的区别。（由于软件程序中probit分析将误差项的标准差定为分析将误差项的标准差定为1，而，而logistic分析分析将误差项的标准差大约定为将误差项的标准差大约定为1.814）logitic系数大约是系数大约是probit系数的系数的1.8倍，将倍，将logistic系数系数除以这个值可以让二者的单位具有可比性，但是由于除以这个值可以让二者的单位具有可比性，但是由于logistic和正态曲线不同，所以和正态曲线不同，所以logitic系数和系数和probit系数依然会有小小的不同。但是基本上

31、，系数依然会有小小的不同。但是基本上，logistic分析和分析和probit分析得出的结分析得出的结果在本质上都是相似的。果在本质上都是相似的。与与logistic回归一样，回归一样，probit分析也利用最大似然估计进行参数估计，且估计过程与分析也利用最大似然估计进行参数估计，且估计过程与logistic回归一模一样。但与回归一模一样。但与logistic 回归不同的是，这里使用的是累积标准正态分布所以回归不同的是，这里使用的是累积标准正态分布所以不能从自变量和估计参数得到因变量的不能从自变量和估计参数得到因变量的p值。且为了计算更简单一些，程序是让似然数的自值。且为了计算更简单一些，程序

32、是让似然数的自然对数取最大值而非让似然函数取最大值。然对数取最大值而非让似然函数取最大值。系数含义及对整个模型的评估和检验与系数含义及对整个模型的评估和检验与logistic回归的内容大同小异回归的内容大同小异probit分析分析(fnx)与与logistic回归只是因变量的回归只是因变量的转化方式不同以及因此产生的细小差异转化方式不同以及因此产生的细小差异第34页/共49页第三十五页，共49页。n nLogistic回归（因变量回归（因变量(binling)为二分变量为二分变量(binling)/二项分布）二项分布）n nprobit回归回归n nPoisson（因变量（因变量(binlin

33、g)为为poisson分布）分布）第三章：横截面数据：因变量为分类变量及因变第三章：横截面数据：因变量为分类变量及因变量为频数（计数量为频数（计数(j sh)）变量的情况）变量的情况第35页/共49页第三十六页，共49页。概念概念概念概念(ginin)(ginin)Poisson Poisson回归：回归：用来为技术资料用来为技术资料(zlio)(zlio)和列联表建模的一种回归分析。和列联表建模的一种回归分析。泊松回归假设反应变量泊松回归假设反应变量Y Y是是PoissonPoisson分布，并假设它期望分布，并假设它期望值的对数可被未知参数的线性组合建模。值的对数可被未知参数的线性组合建模

34、。Poisson Poisson回归回归模型有时（特别是当用作列联表模型时）又被称作对模型有时（特别是当用作列联表模型时）又被称作对数数-线性模型。线性模型。分类数据分类数据(shj)表现为离散的计数，服从表现为离散的计数，服从Poisson分布分布第36页/共49页第三十七页，共49页。因变量Y服从Poisson分布，期望值为（Poisson分布变量的方差也是）如果有一个解释变量x，可以写出如下回归模型：这里g是一个连接函数(link function)，通常取log函数，因此(ync)得到对数线性模型可写成：第37页/共49页第三十八页，共49页。n nPoisson回归模型是描述服从P

35、oisson分布的目标变量y的均数与协变量关系的回归模型。n n对数(du sh)线性模型n n解释变量xi增加一个单位,增加第38页/共49页第三十九页，共49页。n n单位单位(dnwi)(dnwi)率的模型可写作率的模型可写作n n n nNN称作偏移称作偏移(offset),log(N)(offset),log(N)被用做偏移量被用做偏移量;当当所有协变量都无作用时所有协变量都无作用时,等于等于NN第39页/共49页第四十页，共49页。PoissonPoissonPoissonPoisson分布下模型分布下模型分布下模型分布下模型(mxng)(mxng)(mxng)(mxng)的似

36、然函数的似然函数的似然函数的似然函数对对于于低低发发生生（病病）率率的的开开放放性性队队列列研研究究资资料料，由由于于didi服服从从PoissonPoisson分分布布，其其概概率函数为：率函数为：其其中中didi是是随随机机变变量量，可可取取值值为为di=1,2,di=1,2,其其期期望望发发生生数数i=nihi(i=nihi()。回回归归模模型型(mxng)(mxng)的的似似然然函函数数为为PoissonPoisson分分布布条条件件下下各各个个格格子子概概率率函函数数的的总总概概率率（积）。（积）。L(L()=)=第40页/共49页第四十一页，共49页。参数估计参数估计参数估计参数估

37、计两侧取对数，回归模型的对数似然函数为两侧取对数，回归模型的对数似然函数为:lnL(lnL()=)=对数似然函数中的未知参数可以对数似然函数中的未知参数可以(ky)(ky)用迭代用迭代重复加权最小二乘法（简称重复加权最小二乘法（简称IRLSIRLS法）估计，法）估计，它与通常的极大似然估计结果一致。它与通常的极大似然估计结果一致。也可用极大似然估计法也可用极大似然估计法第41页/共49页第四十二页，共49页。模型拟合模型拟合模型拟合模型拟合(n h)(n h)(n h)(n h)度与参数检验偏差统计量度与参数检验偏差统计量度与参数检验偏差统计量度与参数检验偏差统计量 n nPoissonP

38、oisson回回归归(hugu)(hugu)模模型型拟拟合合好好坏坏用用偏偏差差统统计计量量(deviance)(deviance)表表示示，偏偏差差统统计计量量实实际际上上是是对对数数似似然然比比统统计计量量，它它是是饱饱和和模模型型(saturated(saturated model)model)和和拟合模型对数似然值差的两倍，其在拟合模型对数似然值差的两倍，其在PoissonPoisson分布条件下的计算公式为：分布条件下的计算公式为：第42页/共49页第四十三页，共49页。参数检验参数检验参数检验参数检验参数检验可通过两个包含不同参数个数模型的参数检验可通过两个包含不同参数个数模型的

39、偏差统计量偏差统计量G2G2的差（的差（G2G2）和自由度的差（）和自由度的差（dfdf）来）来实现实现(shxin)(shxin)，当，当 G2G2时，时，P0.05,P0.05,该参数（因素）有统计该参数（因素）有统计学意义。学意义。G2 G2 第43页/共49页第四十四页，共49页。PoissonPoisson回归实现回归实现回归实现回归实现(shxin)(shxin)（GenmodGenmod过程）过程）过程）过程）Genmod Genmod过程：通过对参数向量进行最大似然过程：通过对参数向量进行最大似然估计来拟和广义线性模型，采用迭代拟和过程估计估计来拟和广义线性模型，采用迭代拟和过

40、程估计参数的值。参数的值。GENMOD GENMOD过程用于广义线性模型分析。广义线性模过程用于广义线性模型分析。广义线性模型是传统线性模型的的延伸，它的总体均数通过一型是传统线性模型的的延伸，它的总体均数通过一个非线性连接函数依赖于线性预测值，反应变量个非线性连接函数依赖于线性预测值，反应变量（误差项）的概率分布为指数分布族中的任何一员。（误差项）的概率分布为指数分布族中的任何一员。有许多广泛应用的统计模型都属于广义线性模型，有许多广泛应用的统计模型都属于广义线性模型，包括包括(boku)(boku)带正态误差的经典线性模型、带正态误差的经典线性模型、LogisticLogistic回归模回

41、归模型、概率单位模型和对数线性模型等。型、概率单位模型和对数线性模型等。第44页/共49页第四十五页，共49页。n n例：英国男性医生冠心病死亡与抽烟例：英国男性医生冠心病死亡与抽烟(chu yn)(chu yn)关系研究的资关系研究的资料料,请推断冠心病死亡与抽烟请推断冠心病死亡与抽烟(chu yn)(chu yn)、年龄是否有关、年龄是否有关第45页/共49页第四十六页，共49页。n n程序程序(chngx)exam2(chngx)exam2：n nproc genmod;proc genmod;n nmodel death=age smoke/dist=poisson link=log

42、offset=ln;model death=age smoke/dist=poisson link=log offset=ln;n nrun;run;n n结果结果n nCriteria For Assessing Goodness Of FitCriteria For Assessing Goodness Of Fitn n Criterion DF Value Value/DF Criterion DF Value Value/DFn n Deviance 5 22.9103 4.5821 Deviance 5 22.9103 4.5821n n Scaled Deviance 5 22.

43、9103 4.5821 Scaled Deviance 5 22.9103 4.5821n n Pearson Chi-Square 5 20.5468 4.1094 Pearson Chi-Square 5 20.5468 4.1094n n Scaled Pearson X2 5 20.5468 4.1094 Scaled Pearson X2 5 20.5468 4.1094n n Log Likelihood 2271.8051 Log Likelihood 2271.8051第46页/共49页第四十七页，共49页。n n拟合优度，p0.05，说明(shumng)此组数据不符合所拟合的模型n n可能原因：age对目标变量的作用是不均匀的，需作为定性变量处理。n n程序：n nproc genmod;n nclass age;n nmodel death=age smoke/dist=poisson link=log offset=ln;n nrun;第47页/共49页第四十八页，共49页。第48页/共49页第四十九页，共49页。

展开阅读全文