多元线形回归.ppt

上传人:石*** 文档编号:84136933 上传时间:2023-04-02 格式:PPT 页数:39 大小:1.89MB
返回 下载 相关 举报
多元线形回归.ppt_第1页
第1页 / 共39页
多元线形回归.ppt_第2页
第2页 / 共39页
点击查看更多>>
资源描述

《多元线形回归.ppt》由会员分享,可在线阅读,更多相关《多元线形回归.ppt(39页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、多元线形回归现在学习的是第1页,共39页一、多元线形回归的概念一、多元线形回归的概念1。直线方程的回顾。直线方程的回顾直线回归:研究两个变量之间的回归关系。如体直线回归:研究两个变量之间的回归关系。如体重与身高等。在一定年龄阶段,体重与身高之间重与身高等。在一定年龄阶段,体重与身高之间可以表达为:可以表达为:y(体重)(体重)=a+bx(身高)(身高)a:截距截距b:斜率斜率2。多元线形回归。多元线形回归研究一个变量(因变量)与多个自变量之间的关研究一个变量(因变量)与多个自变量之间的关系。系。如儿童的心象面积与身高、体重、月龄等有关系。如儿童的心象面积与身高、体重、月龄等有关系。现在学习的是

2、第2页,共39页一、多元线形回归的概念(续)一、多元线形回归的概念(续)1。方程形式:。方程形式:y=b0+b1 x1+b2 x2+bp xpb0:截距截距bi:偏回归系数。其意义为:偏回归系数。其意义为:在其他自变量不变的条件下,某个自变量变化一个单位导致的因变在其他自变量不变的条件下,某个自变量变化一个单位导致的因变量量 变化。变化。线性的意义:回归系数及自变量均为一阶的。线性的意义:回归系数及自变量均为一阶的。2。条件。条件1)自变量之间独立)自变量之间独立2)个体之间独立)个体之间独立3。对多元回归求解结果的要求:。对多元回归求解结果的要求:找出确实影响因变量的因素找出确实影响因变量的

3、因素1)建立的方程必须有意义)建立的方程必须有意义2)方程内不存在对因变量没有显著影响的变量)方程内不存在对因变量没有显著影响的变量现在学习的是第3页,共39页二、多元线形回归方程的求解过程二、多元线形回归方程的求解过程1.数据的收集、整理2.方程的建立1)偏回归系数的估计2)对方程显著性的检验3)对每个偏回归系数的显著性检验4)比较不同自变量的作用的大小现在学习的是第4页,共39页1。数据的收集、整理。数据的收集、整理1 1)数据收集要求)数据收集要求 尽可能包括影响自变量的因素尽可能包括影响自变量的因素/与自变量有影响的因素与自变量有影响的因素 数据应该成组的收集数据应该成组的收集2 2)

4、数据的整理要求)数据的整理要求 最后的数据可以整理成一下形式:最后的数据可以整理成一下形式:某校某校2020名一年级女大学生肺活量及相关变量测量结果名一年级女大学生肺活量及相关变量测量结果 序号序号 体重(体重(Kg)Kg)胸围(胸围(cm)cm)肩宽(肩宽(cmcm)肺活量(肺活量(L L)(X (X1 1)(X (X2 2)(X (X3 3)(Y)(Y)1 51.3 73.636.42.99 2 48.9 83.934.03.11。20 45.2 74.732.11.92 最后想建立的方程为:最后想建立的方程为:Y=0+1 x1+2 x2+p xp现在学习的是第5页,共39页2.方程的建立

5、方程的建立1)方程中参数的求解)方程中参数的求解最小二乘法的原理:最小二乘法的原理:(y)2最小最小求解上述方程,得到使上述方程成立的求解上述方程,得到使上述方程成立的参数参数a及及b y为实测值与理论(拟合)值之差。为实测值与理论(拟合)值之差。现在学习的是第6页,共39页最小二乘法示例最小二乘法示例现在学习的是第7页,共39页求解过程:求解过程:1。设计若干个矩阵如下:设计若干个矩阵如下:1)因变量矩阵)因变量矩阵 Y=(y1 y2.yn)2)设计矩阵设计矩阵 X 3)误差矩阵)误差矩阵 =(1 2 n)4)系数矩阵系数矩阵 =(0 1 2 p)Yi=0+1 xi1+2 xi2+p xip

6、+iY=X +假设:假设:E()=0就有:就有:E(Y)=X 现在学习的是第8页,共39页2.解正规方程:解正规方程:对于待估计的回归系数,可以用对于待估计的回归系数,可以用b0,b1,b2,.,bp等表示。等表示。设:设:B=(b0,b1,b2,.,bp)正规方程正规方程.XB=Y可以进一步表述成如下形式:可以进一步表述成如下形式:X XB=X Y根据正规方程,我们可以得到:根据正规方程,我们可以得到:B=(X X)-1 X Y现在学习的是第9页,共39页2)对方程的显著性检验对方程的显著性检验方差可以分解为两个主要部分:方差可以分解为两个主要部分:i)回归可以解释的部分回归可以解释的部分

7、ii)回归不能解释的部分回归不能解释的部分比较这两部分的差异是否存在显著差异。比较这两部分的差异是否存在显著差异。方差分析表方差分析表变异变异 平方和平方和 自由度自由度 均方均方F值值来源来源(MS)回归回归SS回回 p SS回回/p MS回回/MS误误剩余剩余 SS误误n-p-1 SS误误/(n-p-1)总总 SS总总n-1_ 现在学习的是第10页,共39页方差分析表中参数的计算方差分析表中参数的计算 回归变异:回归变异:SS回回=biliy bi:为每个自变量的偏回归系数:为每个自变量的偏回归系数 liy:每个自变量与因变量的离均差:每个自变量与因变量的离均差 积积和和 回归自由度回归自

8、由度=方程内的自变量数方程内的自变量数 剩余(误差):剩余(误差):SS误误=SS总总-SS回回 剩余自由度剩余自由度=总自由度总自由度-回归自由度回归自由度 总自由度总自由度=建立方程用的样本量建立方程用的样本量-1现在学习的是第11页,共39页方差分析表中参数的计算(续)方差分析表中参数的计算(续)lF值值 的自由度:的自由度:分子自由度:为回归自由度(分子自由度:为回归自由度(p)分母自由度:为误差(剩余)自由度分母自由度:为误差(剩余)自由度现在学习的是第12页,共39页举例举例:SAS OutputDependent Variable:WEIGHTAnalysis of Varian

9、ceSource DF Sum of MeanF Value ProbF Squares SquareModel 2 7215.6371 3607.8186 27.228 0.001Error 16 2120.0997 132.5062C Total 18 9335.7368 Root MSE 11.5111 Dep.Mean 100.0263 R-Square0.7729 C.V.11.5081 Adj R-Sq.0.7445现在学习的是第13页,共39页3)对方程中每一个变量的显著性检验对方程中每一个变量的显著性检验l目的目的:对方程的显著性检验只是说明就整体而言,因变量的总变异中,由于回

10、归变量导致的变异要远大于误差。但它,a.未解释众多回归变量中是那一个未解释众多回归变量中是那一个/些些的作用。的作用。b.变量中是否存在对因变量的作用不变量中是否存在对因变量的作用不显著者。显著者。现在学习的是第14页,共39页3)对方程中每一个变量的显著性检验(续)对方程中每一个变量的显著性检验(续)检验统计量检验统计量 tti=bi/Sbi自由度自由度=误差自由度误差自由度(n-p-1)现在学习的是第15页,共39页SAS Output(cont.)Parameter Estimates Parameter Standard T for H0Variable DF Estimate Err

11、or Parameter=0Prob|T|INTERCEP1 -141.2238 33.3831 -4.2300.0006AGE11.2784 3.1101 0.4110.6865HEIGHT13.5970 0.9055 3.9730.0011现在学习的是第16页,共39页尚须回答的几个问题尚须回答的几个问题1。用什么指标评价拟合的好坏?。用什么指标评价拟合的好坏?2。如何比较方程中不同变量对因变量的影。如何比较方程中不同变量对因变量的影响大小?响大小?3。对定性变量如何处理?其结果如何解释。对定性变量如何处理?其结果如何解释?4。如果方程中有的变量不显著,该怎么处。如果方程中有的变量不显著,

12、该怎么处理?如何从众多的变量中选出确实对因理?如何从众多的变量中选出确实对因变量有显著意义的变量?变量有显著意义的变量?5。如何利用方程进行预报、预测?。如何利用方程进行预报、预测?现在学习的是第17页,共39页评价拟合优度的指标评价拟合优度的指标l决定系数决定系数R2:表示在总的因变量的变异:表示在总的因变量的变异中,可以由回归来解释中,可以由回归来解释 部分。部分。R2=SS回回/SS总总l复相关系数复相关系数R:为决定系数的平方根:为决定系数的平方根l剩余标准差剩余标准差Sy.x1,x2xp:误差的标准误误差的标准误 Sy.x1,x2xp=(SS误误/(n-p-1)现在学习的是第18页,

13、共39页标准偏回归系数标准偏回归系数1。偏回归系数由于单位不同,不能进行直偏回归系数由于单位不同,不能进行直接的比较。为此有必要对此进行标准化,接的比较。为此有必要对此进行标准化,使它们都成为无量纲的系数。使它们都成为无量纲的系数。2。标准化的方法。标准化的方法 对每一个变量的每个观察值(包括因变对每一个变量的每个观察值(包括因变量在内),减去该变量的平均数,再除量在内),减去该变量的平均数,再除以标准差。此时得到的值相当于实际观以标准差。此时得到的值相当于实际观察值离开均数有几个标准差。察值离开均数有几个标准差。现在学习的是第19页,共39页标准偏回归系数标准偏回归系数 的意义:的意义:标准

14、偏回归系数表示该自变量对因变量的直接贡献。标准偏回归系数表示该自变量对因变量的直接贡献。标准偏回归系数表示该自变量对因变量的直接贡献。标准偏回归系数表示该自变量对因变量的直接贡献。例:调查了某地例:调查了某地例:调查了某地例:调查了某地2929名名名名1313岁男童的身高岁男童的身高岁男童的身高岁男童的身高(cm)(cm)、体重、体重、体重、体重(kg)(kg)与肺活量与肺活量与肺活量与肺活量(L)(L)。拟研。拟研。拟研。拟研究肺活量与身高及体重之间的关系。究肺活量与身高及体重之间的关系。究肺活量与身高及体重之间的关系。究肺活量与身高及体重之间的关系。1 1。三个变量之间的相关系数为:三个变

15、量之间的相关系数为:三个变量之间的相关系数为:三个变量之间的相关系数为:身高身高身高身高肺活量肺活量肺活量肺活量体重体重体重体重0.74210.7421 0.7362 0.7362 肺活量肺活量肺活量肺活量0.58840.58842 2。建立肺活量与两个变量的回归方程;建立肺活量与两个变量的回归方程;建立肺活量与两个变量的回归方程;建立肺活量与两个变量的回归方程;y=-0.565664+0.005017 xy=-0.565664+0.005017 x1 1+0.054061 x+0.054061 x2 2标准化偏回归系数为(直接贡献):标准化偏回归系数为(直接贡献):标准化偏回归系数为(直接贡

16、献):标准化偏回归系数为(直接贡献):0.093520.09352(身高(身高(身高(身高),0.66682(0.66682(体重体重体重体重)现在学习的是第20页,共39页标准偏回归系数标准偏回归系数 的意义(续)的意义(续)3.两个变量对因变量的间接贡献:两个变量对因变量的间接贡献:身高对于肺活量的间接贡献:身高对于肺活量的间接贡献:0.66682x 0.7421=0.4948体重对于肺活量的间接贡献:体重对于肺活量的间接贡献:0.09352x 0.7421=0.06944.各个变量对于因变量的总贡献(相当于各自对因变量的相各个变量对于因变量的总贡献(相当于各自对因变量的相关系数):关系数

17、):身高;身高;0.09352+0.4948=0.5884 体重:体重:0.66682+0.0694=0.7362现在学习的是第21页,共39页自变量间接作用的估计自变量间接作用的估计假设有三个自变量,假设有三个自变量,一个因变量。可以画成以下关系图:一个因变量。可以画成以下关系图:Yx2x3x1r23r12b2b1b3现在学习的是第22页,共39页变量之间的相关系数矩阵变量之间的相关系数矩阵X1X2X3YX11R12R13R1Y X2R211 R23 R2YX3 R31 R32 1 R3YY RY1 RY2 RY3 1现在学习的是第23页,共39页间接作用的估计间接作用的估计X1对因变量的间

18、接作用等于对因变量的间接作用等于b2 r12+b3 r13 X2对因变量的间接作用等于对因变量的间接作用等于b1 r21+b3 r23X3对因变量的间接作用等于对因变量的间接作用等于b1 r13+b2 r32现在学习的是第24页,共39页数量化方法数量化方法以例子来说明数量化方法。以例子来说明数量化方法。以地区为例。变量名为以地区为例。变量名为region,有,有5个地区,若用个地区,若用1、2、3、4、5来表示,显然不合适。来表示,显然不合适。解决办法:采用设置哑变量的方法。用一组哑变量的取值解决办法:采用设置哑变量的方法。用一组哑变量的取值来表示一个地区。来表示一个地区。地区名地区名 原赋

19、值原赋值 R1R2R3R4 北京北京11000上海上海20100天津天津30010河北河北40001江苏江苏50000现在学习的是第25页,共39页多元线形回归中的变量选择多元线形回归中的变量选择1。为什么要进行变量选择为什么要进行变量选择?1)自变量不一定都对因变量有显著意义。自变量不一定都对因变量有显著意义。2)变量之间存在共线性变量之间存在共线性2。变量选择方法变量选择方法 逐步回归分析逐步回归分析1)前进法前进法2 2)后退法)后退法3 3)逐步法)逐步法现在学习的是第26页,共39页多元线形回归方程的应用多元线形回归方程的应用1。因素分析:比较各因素对因变量的作用。因素分析:比较各因

20、素对因变量的作用2。用比较容易测量的自变量推算不容易测量的变。用比较容易测量的自变量推算不容易测量的变 量量3。预测预报。预测预报1)点估计点估计假设有方程:假设有方程:13岁男童的肺活量与身高及体重之间的方岁男童的肺活量与身高及体重之间的方程为:程为:y=-0.5657+0.005017x1+0.05406 x2则,一名身高为则,一名身高为150cm、体重、体重40kg的的13岁男童,其岁男童,其肺活量的估计值为:肺活量的估计值为:y=-0.5657+0.005017x 150+0.05406x 40 =2.3493(L)现在学习的是第27页,共39页多元线形回归方程的应用多元线形回归方程的

21、应用(2)(2)2.)区间估计区间估计区间估计的两层意义区间估计的两层意义:a.身高为身高为150cm、体重为、体重为40kg40kg的男童肺活量均数的的男童肺活量均数的95%可信区可信区间间计算公式:计算公式:i t(N-p-1)S其中:其中:S=SY,1.2p(Xi L-1Xi)b.身高为身高为150cm、体重为、体重为40kg40kg的男童肺活量的的男童肺活量的95%容许区间容许区间(即(即95%的孩子其肺活量的范围)的孩子其肺活量的范围)计算公式:计算公式:i t(N-p-1)Syi其中:其中:Syi=SY,1.2p(1+Xi L-1Xi)现在学习的是第28页,共39页多元回归多元回归

22、SAS程序程序1。多元回归。多元回归SAS程序的基本语句程序的基本语句Proc reg 选择项选择项;Model 因变量因变量=自变量表(至少一个)自变量表(至少一个)/选择项选择项;其它选择语句;其它选择语句;quit;其中头两句是必需语句其中头两句是必需语句(required);解释:解释:1)Proc reg 选择项选择项;可用的选择项有:可用的选择项有:a.DATA=SAS 数据集数据集b.OUTEST=SAS 数据集数据集c.OUTSSCP=SAS 数据集数据集以下为仅限于屏幕输出的选择项:以下为仅限于屏幕输出的选择项:d.ALLe.CORRf.NOPRINTg.SIMPLEh.US

23、SCP现在学习的是第29页,共39页多元回归多元回归多元回归多元回归SASSAS程序的基本语句(续)程序的基本语句(续)程序的基本语句(续)程序的基本语句(续)2)Model 语句语句Model 因变量因变量=自变量表(至少一个)自变量表(至少一个)/选择项选择项;本语句定义了建模用的因变量、自变量、模型及结果输出本语句定义了建模用的因变量、自变量、模型及结果输出选择等。选择等。Model 语句的主要输出选择项:语句的主要输出选择项:a)corrb:输出参数估计的相关阵输出参数估计的相关阵 b)covb:输出参数估计的协方差阵输出参数估计的协方差阵 c)STB:输出标准化偏回归系数输出标准化偏

24、回归系数 d)CLI:计算并在屏幕输出每个个体观测预测值的计算并在屏幕输出每个个体观测预测值的95%上下限上下限 e)CLM:计算并在屏幕输出每个观测因变量期望值计算并在屏幕输出每个观测因变量期望值的的95%上下限上下限 f)R:计算并在屏幕输出每个个体预测值、残差及标计算并在屏幕输出每个个体预测值、残差及标准误准误 g)P:同上同上现在学习的是第30页,共39页 模型选择语句模型选择语句1.前进法前进法(Forward):Model y=x1 x2 /selection=forward slentry=;2.后退法后退法(backward):Model y=x1 x2 /selection=

25、backward slstay=;3.逐步法逐步法(stepwise);Model y=x1 x2 /selection=stepwise slentry=slstay=;多元回归多元回归多元回归多元回归SASSAS程序的基本语句程序的基本语句程序的基本语句程序的基本语句(续)(续)现在学习的是第31页,共39页 模型选择中的几个小技巧模型选择中的几个小技巧1.当要求有几个自变量(如当要求有几个自变量(如x5 x8)必须进入方程时,而采用逐步回归又)必须进入方程时,而采用逐步回归又有可能由于它们对因变量的影响不太大而难以进入,此时可以将它有可能由于它们对因变量的影响不太大而难以进入,此时可以将

26、它们放在模型语句自变量列表的前面,并且用选择项们放在模型语句自变量列表的前面,并且用选择项include=n,表示表示自变量列表中的前自变量列表中的前n个必须进入方程个必须进入方程:Model y=x5 x8 /include=2 selection=stepwise slentry=;2.规定模型中的自变量不超过若干个时,可以用规定模型中的自变量不超过若干个时,可以用stop=s来限定。来限定。Model y=x1 x2 /stop=4;表示方程内最多只保留表示方程内最多只保留4个自变个自变量。量。3.无截距回归模型:当经过检验发现截距没有显著意义时,无截距回归模型:当经过检验发现截距没有显

27、著意义时,可以建立无截距模型:可以建立无截距模型:Model y=x1 x2 /noint selection=stepwise slentry=slstay=;多元回归多元回归多元回归多元回归SASSAS程序的基本语句程序的基本语句程序的基本语句程序的基本语句(续)(续)现在学习的是第32页,共39页多元回归多元回归多元回归多元回归SASSAS程序的基本语句(续)程序的基本语句(续)程序的基本语句(续)程序的基本语句(续)2)其它选择)其它选择 语句语句在其它选择语句中,相当一部分是在其它选择语句中,相当一部分是SASSAS的通用的通用语句,语句,如如by,freqby,freq语句等。不在

28、此介绍。语句等。不在此介绍。a)output out=SAS 数据集数据集 关键字关键字=名名1;b)Plot 语句语句:在屏幕输出两变量的散点图。在屏幕输出两变量的散点图。如如 Plot x1*y;c)test 语句:语句:用于对参数的假设检验。用于对参数的假设检验。如如 test b1 b2;(合法语句及(合法语句及 非法语句。)非法语句。)现在学习的是第33页,共39页多元回归多元回归SAS程序举例程序举例1。数据的收集及SAS数据集的建立(数据集名为test.包含变量有身高x1,体重x2及肺活量y).2。多元回归SAS基本程序Proc reg data=test;Model y=x1

29、x2;Model y=x1 x2/stb;Model y=x1 x2/clm cli r;现在学习的是第34页,共39页多元线形回归输出结果解释多元线形回归输出结果解释现在学习的是第35页,共39页回归诊断简介回归诊断简介所谓回归诊断是指通过一定的手段,判所谓回归诊断是指通过一定的手段,判断回归方程拟合的优劣及可能存在的问断回归方程拟合的优劣及可能存在的问题。在题。在SAS Reg过程中的回归诊断主要包过程中的回归诊断主要包括括3个方面的内容;个方面的内容;1。残差分析残差分析2。共线性诊断共线性诊断3。影响分析影响分析现在学习的是第36页,共39页回归诊断简介(续)回归诊断简介(续)回归诊断

30、简介(续)回归诊断简介(续)1。残差分析残差分析残差的定义残差的定义:ei=i Yi即估计值与实测值之差。即估计值与实测值之差。根据建立回归模型的基本条件,要求残差符合标准正态分布,即根据建立回归模型的基本条件,要求残差符合标准正态分布,即,ei N(0,2)对残差分布的对残差分布的4 4种趋势。种趋势。l时间序列资料中的自相关分析时间序列资料中的自相关分析:计算:计算DW(Durbin-Watson)统计量。统计量。可在相应的可在相应的Model语句中加选择项:语句中加选择项:Model y=x1 x2./DW;现在学习的是第37页,共39页回归诊断简介(续)回归诊断简介(续)回归诊断简介(

31、续)回归诊断简介(续)2。共线性诊断共线性指自变量之间存在比较强的相关关系。共线性指自变量之间存在比较强的相关关系。共线性的危害:共线性的危害:1 1)使方程存在不确定性;)使方程存在不确定性;2 2)难以估计自变量对因变量的真正影响;)难以估计自变量对因变量的真正影响;3 3)估计值的标准误增大。)估计值的标准误增大。共线性的主要诊断指标:共线性的主要诊断指标:1)条件数(条件数(Condition Index)2)方差膨胀因子(方差膨胀因子(Variance of flation Factor,VIF)3)容许值(容许值(Tolerance Value,TOV)上述三个指标可以在上述三个指

32、标可以在Model语句中用选择项予以指定。语句中用选择项予以指定。Model y=x1 x2./tof vif collin;现在学习的是第38页,共39页回归诊断简介(续)回归诊断简介(续)3。影响分析影响分析指研究每个观察对于参数估计的可能影响。影响较大影响分析指研究每个观察对于参数估计的可能影响。影响较大的点,称为杠杆点。的点,称为杠杆点。杠杆点的主要诊断指标:杠杆点的主要诊断指标:1)h值值:hi=xi(XX)-1 x i若若hi 2p/n,则可以认为该点在则可以认为该点在x x方向上异常。方向上异常。2)学生化残差学生化残差RSTUDENT3)COVRATIO4)DFFITS:估计删去某观察值后与保留该观察值时拟合值的比。估计删去某观察值后与保留该观察值时拟合值的比。)DFBETAS 估计删去某观察值后与保留该观察值时参数的变化。估计删去某观察值后与保留该观察值时参数的变化。上述几个指标都可以在上述几个指标都可以在Model语句中用选择项予以指定。语句中用选择项予以指定。Model y=x1 x2./influence;现在学习的是第39页,共39页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com