第03章回归分析.ppt-得力文库

资源描述

《第03章回归分析.ppt》由会员分享，可在线阅读，更多相关《第03章回归分析.ppt（164页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第03章回归分析第03章回归分析n本章主要讨论线性回归模型的系统建模方法n包括：模型的参数估计假设检验残差分析回归方程的选取 Logistic回归模型及其参数估计和统计推断方法第一节线性回归模型n线性回归模型表示n线性回归模型的系数确定n有关统计推断n回归方程的意义n回归方程的线性关系n回归方程的预测值受教受教育的育的水平水平工作工作后的后的收入收入预防预防疾病疾病支出支出疾病疾病的发的发病率病率第一节线性回归模型联系与相互影响是普遍的现象联系与相互影响是普遍的现象第一节线性回归模型n问题的提出：n事物间的联系和相互影响是普遍的n这种相互影响的抽象为：两变量或多变量间的数量关系

2、n这种关系可以是线性相关的，也可能是非线性相关的n回归模型用来揭示变量间的关系第一节线性回归模型n什么是回归模型(regression)？n通过一个或几个变量的变化去解释另一变量的变化n包括找出自变量与因变量、设定数学模型、检验模型、估计预测等环节n线性回归模型是为了揭示变量间存在的线性关系第一节线性回归模型n自变量(independent variable):n解释变量，给定的或可以控制的、用来解释、预测应变量的变量n因变量(dependent variable):n响应变量，由自变量来解释其变化的变量XY第一节线性回归模型n线性回归模型及其矩阵表示设是一个可观测的随机变量，它受到

3、个非随机因素和随机误差的影响。若与有如下线性关系：（3.1）其中是未知参数；是均值为零、方差为的不可观测的随机变量，称为误差项，本章均假定。该模型称为线性回归模型，且称为因变量，为自变量。线性回归模型n要建立线性回归模型，首先要估计未知参数。为此，我们进行次独立观测，得到n组数据（称为样本）满足：（3.2）线性回归模型其中相互独立且均服从分布。令线性回归模型则可以简写为如下的线性回归模型的矩阵形式：（3.3）其中称为观测向量，称为设计矩阵，并假设为列满秩的，即。是待估计的未知参数向量，是不可观测的随机误差向量。线性回归模型n当模型（3.1）中包含自变量的高次项

4、、交叉乘积项和自变量的其他已知函数项（如等等）时，只要将它们看成新的自变量，在设计矩阵中加入这些新变量的观测值所成的列，也可将这样的回归模型在给定n组观测值时写为式（3.3）如：线性回归模型在给定n组观测值时，只要令则有因此本章以后的讨论都适合于这些模型。只要Y与未知参数之间的关系是线性的，均可按线性回归模型（3.1）的方式进行分析。的最小二乘估计n如果与满足线性回归模型（3.1），则误差应是比较小的。因此，选择使误差项的平方和达到最小，其中（）。为此，分别对求偏导并令其等于0，得的最小二乘估计称之为正规方程的最小二乘估计因为，故存在。解正规方程，即得的最小二乘

5、估计为由式（3.3）可知，故的最小二乘估计当给出的估计后，将其代入式（3.1）并略去误差项，则称为回归方程。回归方程。利用回归方程，可由自变量的观测值求出因变量的估计值。误差方差的估计将自变量的各组观测值代入回归方程，可得各因变量的各估计值（拟合值）残差向量：其中残差平方和：误差方差的估计由于且 ,则由此得：从而 (3.5)是的无偏估计有关的统计推断n回归关系的统计推断n(1)建立方差分析表n(2)线性回归分析的显著性检验n(3)检验的p值n回归参数的统计推断n关于预报值的统计推断回归关系的统计推断给定因变量与自变量的n组观测值，利用前述方法可得到未知参数和

6、的估计，从而可给出和之间的线性回归方程。但所求得的回归方程是否有意义，还需要对回归方程进行检验。回归关系的统计推断n(1)建立方差分析表 1）离差平方和的分解引起观测值 y1,y2,yn 差异的原因有两个：一是因为Y与自变量X1,X2,Xp-1之间有显著的线性关系时，由于X1,X2,Xp-1的取值不同，而使得因变量Y也各不相同。二是因为除了Y和自变量X1,X2,Xp-1之间的线性关系之外的其他原因。如X1,X2,Xp-1对Y的非线性影响和随机因素的影响。(1)建立方差分析表n为了分析回归关系，定义了几个指标：记则数据的总离差平方和(total sum of squares)为反映了数据y

7、1,y2,yn的波动大小。(1)建立方差分析表残差平方和(error sum of squares)反映了除去Y与X1,X2,Xp-1之间的线性关系以外的因素引起的数据y1,y2,yn的波动。若SSE=0，则每个观测值可由线性关系精确拟合，SSE越大，观测值和线性拟合值之间的偏差也越大。(1)建立方差分析表回归平方和(regression sum of squares)反映了线性拟合值与它们的平均值的总偏差，即由变量X1,X2,Xp-1的变化引起的y1,y2,yn的波动。若SSR=0，则每个拟合值相等，即y1,y2,yn不随着X1,X2,Xp-1的变化而变化。(1)建立方差分析表上述三个指标

8、分别从不同角度描述了回归关系。同时，这三个指标之间也有着如下关系：SST=SSE+SSR (3.6)(1)建立方差分析表n对应于SST的分解(3.6)，其自由度也有相应的分解。这里的自由度是指平方和中，独立变化项的数目。n在SST中，由于有一个关系式即彼此不是独立变化的，故其自由度为n-1。n可以证明：SSE的自由度为n-p，SSR的自由度为p-1。所以对应SST的分解(3.6)，它们的自由度也有相应分解：n-1=(n-p)+(p-1)(3.7)(1)建立方差分析表n基于以上SST的分解(3.6)和(3.7)，可以建立方差分析表如表3.1。n其中回归平方和及残差平方和与各自的自由度之比分别称

9、为均方回归(regression mean square)及均方残差(error mean square).利用方差分析表，可对回归方程的显著性作检验。(1)建立方差分析表(2)回归关系的显著性检验为了检验Y与X1,X2,Xp-1之间是否存在显著的线性回归关系，即检验假设：至少一个这是因为若假设H0成立，那么，即Y与X1,X2,Xp-1之间不存在线性关系。(2)回归关系的显著性检验基于以上方差分析表，构造如下检验统计量：（3.8）当H0为真时，可以证明FF(p-1,n-p)，这里F(p-1,n-p)表示自由度为p-1和n-p的F分布。(2)回归关系的显著性检验n由上述对回归平方和SSR的

10、讨论知，若H0不真，F的值有偏大的趋势。n因此，给定显著性水平a，由F分布的临界值Fa(p-1,n-p)（即F分布的上侧a分位数），计算F的观测值F0n 若F0=Fa(p-1,n-p)，接受H0，即在显著性水平a之下，认为线性回归关系不显著；否则拒绝H0，认为线性回归关系显著。(3)检验的p值n在SAS及其他一些数据分析软件中，对显著性检验问题，其输出结果通常是检验的p值。n对上述线性回归关系的显著性检验问题，其检验p值为其中F0是检验统计量的观测值。(3)检验的p值n有了p值后，对于给定的显著性水平a，任何检验准则均为：若 p=a，则接受H0这样不需要查相应分布的分位数表，直接根据数据分析软

11、件输出的p值和给定的a值，就能够判断接受还是拒绝H0回归参数的统计推断n回归关系显著并不意味着每个字变量X1,X2,Xp-1对Y的影响都显著。可能其中的某个或某些对Y的影响不显著。n一般说来，我们总希望从回归方程中剔除那些对Y的影响不显著的自变量，从而建立一个较为简单有效的回归方程，以便于实际应用。回归参数的统计推断n若某个自变量Xk对Y无影响，显然在线性回归模型中，参数。n因此检验Xk的影响是否显著等价于检验假设：构造检验统计量，其中是的最小二乘估计，回归参数的统计推断n可以证明：(3.10)其中t(n-p)是自由度为n-p的t分布。由此，若H0为真，由公式(3.10)知若H0不为

12、真，由于则|t|有偏大的趋势。回归参数的统计推断n给定显著水平a，求出自由度为n-p的t分布的上侧0.5a分位数记t的观察值为t0，检验准则为若，则接受H0 若，则拒绝H0回归参数的统计推断n对上述统计量，其p值为从而，若p=a，则接受H0，否则拒绝H0 另外，由式(3.10)可求得的置信度为1-a的置信区间为 (3.12)建立回归方程除了解与的相依关系外，另一个重要应用就是进行预报。设给定了自变量的一组新观察值，利用回归方程可得因变量的预报值：关于预报值的统计推断实际上是对应于的y值的点估计。但在实际应用中，更感兴趣的是给出的真值的区间估计，可证明其中关于预报值

13、的统计推断关于预报值的统计推断n而，由此可得y0的一个置信度为的置信区间为：线性回归PROC REG过程nPROC REG过程是SAS系统中众多回归分析过程中的一种，除可拟合一般线性回归模型外，还提供多种选取最优模型的方法及模型诊断检查方法，其基本语句形式为：PROC REG options;MODEL dependent=regressors/options;OUTPUT OUT=SAS data set keyword=name ;线性回归PROC REG过程nPROC REG options;其中“options”部分指出要分析的SAS数据集，即“DATA=SAS data set”

14、。若省略，则SAS系统使用最新建立的数据集作回归分析。线性回归PROC REG过程nMODEL dependent=regressors/options;在关键词“MODEL”之后，指明因变量，等号之后依次列出回归变量（即自变量），每个变量间用空格分开。“options”部分提供了最优模型的选择方法和其他拟合结果的输出选择：1 模型的选择方法语句：SELECTION=name 其中“name”可以使以下选项之一：MODEL指令1）FORWARD：即向前选择最优模型方法。从仅含常数项的回归模型开始，逐步加入自变量，其准则是将反映各自变量加入时，描述残差平方和减少量的偏F统计量的p值与给定的变量进

15、入模型的控制水平相比较，如果所有变量所对应的偏F统计量的p值均大于该控制水平（即所有自变量对因变量的影响均不显著），则向前选择过程结束，否则将具有最大偏F值得变量的自变量引入模型，然后再对未引入模型的自变量重复以上作法，直到没有变量能被引入为止。自变量进入模型的控制水平语句SLENTRY=level表示，并写在选择方法语句之后，若省去此句，SAS系统默认的水平为level=0.50。MODEL指令2）BACKWARD：即向后删除法。首先拟合一个包含全部自变量的线性回归模型，然后根据偏F统计量的p值与给定的控制水平比较，将对因变量影响不显著的自变量逐个删除，直到模型中的所有自变量在给定的控制水平

16、上对因变量的影响均显著为止。保留自变量在模型中的控制水平用语句SLSTAY=level给出。若省略此句，SAS系统默认的水平为level=0.10。MODEL指令3）STEPWISE：即逐步回归法，选取自变量和保留自变量的控制水平语句SLENTRY=level1和SLSTAY=level2给出。SAS系统默认的控制水平为level1=level2=0.15。4）RSQUARE：即在所有可能的回归方程中利用准则选择最优模型的方法。在每一个给定的自变量个数的水平上，打印出使达到最大的那个回归模型的拟合结果。MODEL指令5）ADJRSQ：即修正的（本书中的）准则选择最优模型法。6）CP：即

17、利用准则选择最优模型法。以上方法只选用一种，不可并用。MODEL指令2 对模型选取细节的选项：1）DETAILS:此选项仅对最优模型选取方法中的FORWARD，BACKWARD和STEPWISE有效。会打印出每一步引入和删除的自变量及相关信息。如一个自变量选入模型的偏F值，模型的值和一个自变量被删除时模型值以及有关参数估计的信息。2）NOINT：取消回归模型的常数项，即拟合过原点的回归方程。MODEL指令3 对估计细节内容的选择：在“options”部分，可以选择一个或多个（中间用空格分开）参数估计的有关内容及自变量选择的细节信息，其中较常用的有：1）CORRB：打印除估计的参数的相关

18、矩阵，其中第元素为与的相关系数估计；2）COVB：打印出估计的参数的协方差矩阵，即书中的，这里MSE即均方误差；MODEL指令3）P：打印出因变量的拟合值，同时还包括因变量的观测值及拟合残差；4）R：打印出有关残差及用于影响性分析的各量，其中包括拟合值的标准差、残差、学生化残差（即残差除以其标准差）及Cook距离（它度量了当删除某组观测值后，参数估计的总变化量）线性回归PROC REG过程nOUTPUT OUT=SAS data set keyword=name ；此语句旨在建立一个包含与估计内容有关的SAS数据集，其中“SAS data set”部分应给出该数据集的名称。此数据集除包

19、括所分析的原SAS数据集的全部内容外，还可在“keyword=name”部分指定下列的一些或全部内容：“*=name”其中*表示以下指令：OUTPUT指令1）PREDICTED（或P）：因变量的拟合值；2）RESIDUAL（或R）：残差；3）STUDENT：标准化（或学生化）残差，它是用残差除以其标准差而得到；4）L95M：因变量的期望值的95置信区间的置信下限；5）U95M：相应于4）的置信上限；6）L95：因变量真值的95置信区间的置信下限；7）U95：相应于6）的置信上限；OUTPUT指令8）COOKD：Cook距离，用以影响性分析的统计量；9）H：杠杆量，即，这里是设计矩阵的第行

20、；10）PRESS：即第3章式（3.17）的值，用以估计第组观测值对拟合值的影响；11）DFFITS：用以估计第组观测值对参数估计的影响。例3.1n某公司在各地区销售一种特殊的化妆品。该公司观测了15个城市在某季度内对该化妆品的销售量Y及各地区适合使用该化妆品的人数和人均收入，得到数据如表3.2所示。假设误差服从正态分布，试建立与，之间的线性回归方程并研究相应的统计推断问题。地区销售（箱）人口（千人）人均收入（元）11622742450212018032543223375380241312052838567862347616926537827819830088192330245

21、0911619521371055532560112524304020122323724427131442362660141031572088152123702605解解设与，的观测值之间满足关系 ,其中（）相互独立，均服从正态分布。利用SAS系统中的proc reg过程可得如下分析结果：（1）方差分析表例3.1例3.1我们可根据SAS运算结果得到下表：方差来源自由度平方和（SS）均方（MS）F值P值回归（R）253844.7164326922.358225679.4660.0001误差（E）1256.883574.74030总和（T）1453901.60000例3.1由上表我们可以得

22、到的估计值检验假设：的统计量的检验的值为（在SAS系统中，若检验值小于或等于0.0001，则均输出为0.0001）。这表明与和的线性回归关系是高度显著的。例3.1参数估计的有关结果参数参数估计标准差t值p值3.4526132.430650491.4200.18090.4960050.0060544481.9240.00010.0091990.000968119.5020.0001例3.1由此结果可知，和均显著地不为零，即人口数（）和人均收入（）均对销售量（）的影响是高度显著的。若取，由于，可以求出和的置信度为95的置信区间为别为例3.1可以看到，化妆品销售量与适合

23、于使用该化妆品的人数及人均收入之间有显著的线性关系，且和均是很重要的自变量，并且回归方程为例3.1可以利用此回归方程进行进一步的预报，如：该公司预测适合购买此化妆品的人口数为220千人，人均收入为2500元的某城市对该化妆品的销量，即给定这时预测销量为例3.1拟合值与残差在PROC REG过程中，我们按要求输出了的拟合值、残差及标准化残差，可以用于下面残差分析的应用。残差分析n为何我们要进行残差分析？n在拟合一个回归模型之前，我们并不能肯定这个模型适用于所给数据。比如：回归函数的线性假设、误差的正态性和同方差性假设等，有可能不适合所给的数据。因此，我们要在将模型运用于实际之前考察

24、模型对数据的适用性。在这一方面，残差分析非常重要。残差分析n为何残差分析可以考察模型的合理性？n据定义，残差如果模型正确，可将近似看做第i次的测量误差。而真正的测量误差是未知的，在回归分析中，我们通常假设是独立同正态分布的随机变量，均值为零，常值方差为。如果拟合的回归模型适合于所给的数据，那么残差基本上应该可以反映未知误差的特性。残差分析n利用残差分析，我们可以知道些什么？n1）回归函数的线性假设的可行性；2）误差项的等方差假设的合理性；3）误差项独立性假设的合理性；4）误差项正态分布假定的可行性；5）观测值中是否有异常值存在；6）是否在收集数据或模型拟合中遗漏了某些重要的自变量。

25、误差项的正态性检验n通过对残差的正态性作检验，可以了解对误差的正态性假设的合理性。1）残差正态性的频率检验；2）QQ图检验。残差正态性的频率检验n基本思想：将残差落在某范围的频率与正态分布在该范围的频率（或称为理论频率）相比较，通过二者之间的偏差的大小评估残差的正态性。n在回归模型（3.2）中，若假定，则残差正态性的频率检验n如果模型正确，则据模型（3.5）可知均方残差是的无偏估计。因为当较大的时候，可近似认为是取自标准正态分布总体的样本。残差正态性的频率检验n我们知道服从分布的随机变量取值在内的概率约为，在内的概率约为0.87，在内的概率约为0.95等等。因此理论上，点

26、中大约68%应在内，如果残差在某些区间内的频率与上述理论频率有较大的偏差，则有理由怀疑（从而）的正态性假定的合理性。例3.2n以例3.1中的数据为例，其标准化残差见表3.5最后一列，试评估残差的正态性。例3.2n由表3.5中数据可知，残差正态性的QQ图检验n残差的正态QQ图作法 1）将残差按由小到大的顺序排列为；2）对每个，计算称为的期望值，其中表示标准正态分布的下侧分位数，即满足残差正态性的QQ图检验其中的常数0.375和0.25 是修正量。3）在以残差为纵坐标、期望值为横坐标的直角坐标系中描出点，称此散点图为残差的正态QQ图。残差正态性的QQ图检验n直观检验法理

27、论上可以证明，若是来自正态分布总体的样本，则点应在一条直线上。若残差的正态QQ 图中的点的大致趋势明显地在一条直线上，则认为误差正态性的假设是合理的。残差正态性的QQ图检验n相关系数检验法除通过观察散点图中点是否大致在一条直线上外，还可以计算和之间的相关系数判断它们之间线性关系的强弱。由于若，则说明点近似在一条直线上。例3.3n以例3.1中的数据为例，做出残差的正态QQ图并判断误差正态性假定的合理性。解解由前面的表3.5可以得到，另通过表求标准正态分布的下侧分位数，求例3.3由以上计算方法，我们可以得到下表：123456789101112131415-3.83-2.67

28、-1.72-1.43-0.98-0.70-0.69-0.240.101.061.271.712.332.473.31-3.79-2.72-2.07-1.55-1.11-0.74-0.3700.370.7410111.552.072.723.79例3.3由正态分布的对称性可知，关于原点对称。其QQ图如下：另：我们可求得与的相关系数为0.993，因此我们可以认定例3.1中对误差的正态性假定是合理的。残差图分析n残差图是指以残差为纵坐标，以任何其他指定的量为横坐标的散点图。主要包括：1）横坐标为观测时间或观测值序号；2）横坐标为Y的拟合值；3）横坐标为某个自变量的观测值。通过考察残差值，可以

29、对误差的等方差及对回归函数中是否应包含其他的自变量及自变量的高次项，交叉乘积项等问题给出直观的检验。残差图分析1）时序残差图：以观测时间（或观测值序号）为横坐标，以残差为纵坐标的散点图。1）无明显的趋势性；2）无明显的趋势性；3）无明显的趋势性；残差图分析1）说明回归函数中包含时间的二次项作为自变量；2）说明回归函数形式不适合，包含某些变量的高次项或交叉乘积项，或者在拟合模型前应对变量作变换；3）需在模型中添加的高次项或者对做变换。残差图分析1）表明误差方差随时间而增大，即等方差的假定是不合理的；2）说明误差方差不是常数；3）说明误差等方差的假定不合适。残差图分析1）表明回归函数

30、中应包含时间的线性项；2）说明拟合数据与真实数据间存在系统偏差，可能是测量数据时，遗漏了某些对因变量有显著影响的自变量或者错误地拟合了过原点的回归方程（略去了常数项）3）说明的线性效应未完全消除。对例3.1做残差分析对例3.1做残差分析n图（d）是以为横坐标的残差图，以考察有无必要将引入到回归函数中来（此项是表示与对的交互影响）。如果该残差图呈现某种线性趋势，说明我们应在回归函数中加入项，即考虑多重共线性及其识别n下表的数据是根据对20名2534岁的健康妇女测量取得的，建立由三头肌皮褶厚度、大腿围和中臂围预测身体脂肪分布的方程。回归方程的选取n当回归函数的类型选

31、定为线性函数（或关于未知参数是线性函数）后，要考虑的一个重要问题就是关于自变量的选取。（1）模型中应包含尽可能多的自变量：为了获得较全面的信息（2）回归方程中应包含尽可能少的且重要的自变量：1）获取如此多自变量的观测值的实际困难和费用；2）理论上证明预报值的方差随着自变量数目的增大而增大；3）包含较多自变量的模型拟合的计算量大，又不便于利用拟合模型对实际问题作解释。回归方程的选取n基本思想：在一定的准则下选取对因变量影响较为显著的自变量，建立一个既合理又简单实用的回归模型。n方法：穷举法逐步回归法穷举法n穷举法就是从所有可能的回归方程中按一定准则选取最优的一个或几个。n设是所有个自变量

32、，以所给的自变量和因变量的观测数据为基础，对任何拟合包含有个自变量的所有的可能的线性回归模型（时，即拟合仅含常数项的回归模型）共有个。这样对一切就需要拟合个，再按一定的准则从中选取最优的或是较优的。穷举法n四种选取准则：1 复相关系数准则（准则）2 修正的复相关系数准则或均方残差准则（或准则）3 准则 4 预报平方和（prediction sum of squares）准则（准则）复相关系数准则法（准则）n在一个包含p-1各自变量的线性回归模型中（即模型中有p个参数），n其中和分别表示拟合该模型的残差平方和及回归平方和，而总平方和是不随p变化的一个量。复相关系数准则法

33、越大 Y与这p-1个自变量的线性回归关系越显著越大该回归方程描述因变量总变化量的比例越大复相关系数准则法n可以证明且回归方程中不断添加自变量时，的值单调不减，因此，当所有M个自变量都在回归方程中，的值最大。故通过使达到最大来选择最优回归方程都是无意义的。复相关系数准则法n实际应用中，给定某个p，将所有包含p-1个自变量的个回归方程使达到最大的回归方程作为候选模型，当p增加时，这些候选模型所对应的值一般开始增加较快，后逐渐趋于平缓，即增加自变量已不能显著提高拟合精度，则将由较快增加到趋于平缓的分界点处的值所对应的那个回归方程为最优的回归方程。复相关系数准则法n总之，利用选

34、择回归方程的准则如下：1）拟合所有可能的个线性回归模型，并计算各模型的值；2）在包含相同个数自变量的所有回归方程所对应的值中，选择出的最大值，再同后一组的最大的值作比较，当值的增加不显著时，便选择相应的值所对应的回归方程为最优方程。修正的复相关系数准则或均方残差准则（或准则）n 中没有直接考虑模型中待估参数的个数的作用。而一个好的模型应该既能充分反映的变化，又包含较少的待估系数（因而包括较少的自变量），因此将的控制引入到中，得到它的一个修正量为修正的复相关系数准则或均方残差准则n通过的自由度将引入到中，使的不断增加对的增加起平缓作用。n由于并不随的变化而变

35、化，因此利用使达到最大选择最优回归方程的准则和使达到最小的准则是等价的。由于，当增加时，和均在减少，因而在包含不足M个自变量的回归方程中使达到最小是可能的。n在实际应用中，在一定精度要求下也可选择使接近于最小，当包含较少书目的自变量的回归方程作为最优方程。准则n 统计量的定义为其中是包含个回归参数（因而含个自变量）的回归方程的残差平方和，表示包含所有个自变量的回归方程的均方残差。准则n如果仅含某个自变量的线性模型已能很好地拟合所给数据，则可证明n通过此式我们看到，对于拟合较好的回归方程，其值应和值相差不大。将所有可能的描在以为纵坐标、为横坐标的直角坐标系中，称

36、为图。那么拟合较好的回归方程对应的点在图中应位于直线的附近。准则n利用值选择最优回归方程的方法如下：1）对每个可能的回归方程，计算其值；2）做出图，在图中最靠近直线的点所对应的回归方程被认为是最优回归方程。预报平方和准则（准则）n基本思想：对于给定的某个自变量如：，在数据中删除第组观测值后利用这个自变量及的其余组观测值拟合线性回归模型，并利用拟合的回归方程对作预报，若记此预报值为，则预报误差为预报平方和准则n如果包含这个自变量的回归模型对所给数据拟合较好，那么的绝对值应比较小。则选取使达到最小或接近最小的回归方程为最优回归方程。预报平方和准则n理论证明例

37、3.4n为了对作过某一类型的肝手术病人的生存时间作预报，某医院外科随机地选取了54位需要做此类手术的病人为研究对象。对每一位病人，手术前考察了下列四个指标：凝血值；：预后指数（与年龄有关）；：酵素化验值；：肝功化验值。手术后跟踪观测各病人的生存时间，如表：例3.4解解以手术后的生存时间为因变量，以为自变量作线性回归分析。如前例同。残差分析结果表明误差的分布与正态分布有较大的偏离。例3.4 而有序残差与期望值的相关系数只有0.826。其他的残差图都建议对原数据作变化。为此，对生存时间作对数变化，并讲值列于数据表中最后一列（如前表）。以为因变量，以为自变量拟合线性模型，残差的正

38、态QQ图如下图。例3.4n我们看到误差的正态性有明显地改善，有序残差与其期望值的相关系数达0.959。其他类型的残差图也表明变换后比较合理。例3.4n虽然以为自变量，为自变量拟合线性回归模型是比较合理的，但并不能保证每个自变量均对有显著影响。因此我们通过前述准测选择最优回归方程。由于M4，故所有可能的回归方程只有。分别拟合这16个回归方程，求得各标准值如表：例3.4模型中自变量 p fSSEpR2pMSEpCpPRESSp 无自变量 1 533.972800.07501721.64.1241X1 2 523.49610.1200.06721510.83.8084X2 2 522.57

39、630.3520.04951100.12.8627X3 2 522.21530.4420.0426939.02.4268X4 2 521.87760.5270.0361788.22.0292X1，X2 3 512.23250.4380.0438948.72.6388X1，X3 3 511.40720.6460.0276580.21.6095X1，X4 3 511.87580.5280.0368789.42.1203例3.4模型中自变量pfSSEpR2pMSEpCpPRESSpX2，X33510.74300.8130.0146283.70.8352X2，X43511.39220.6500.027

40、3573.51.5833X3，X43511.24530.6870.0244507.91.4287X1，X2，X34500.10990.9720.002203.10.1405X1，X2，X44501.39050.6500.0278574.81.6513X1，X3，X44501.11560.7190.0223452.01.3286X2，X3，X44500.46520.8830.00930161.70.5487X1，X2X3，X45490.10980.9720.002245.00.1456例3.4n考察值由值可以看到，从包括的回归方程到包含所有自变量的回归方程，其值的增加量几乎为零，而前者

41、的 0.972已接近于1。因此我们选取的最优回归方程为包括的回归方程。例3.4若将点描在以为纵坐标、为横坐标的直角坐标系中，此图称为图。例3.4n考察的值我们可以看到包含的回归方程的值最小。并同时做图。例3.4n 值除含全部4个自变量的回归方程外，包含的回归方程的与最接近，其他的值远远在直线之上，由准测选择含的回归方程为最优回归方程。例3.4n 值包含的回归方程的值最小，为最优回归方程。例3.4n用各种准测所建议的最优回归方程可能是不同的；n ，和准测侧重于回归方程的拟合优度，但后两者加进了参数个数的控制作用。而准测更侧重于回归方程的预报能力。n若

42、实际情况中次优模型的自变量值更易得到并成本更低，也可以考虑次优模型。逐步回归法n逐步回归法的基本步骤是依次拟合一系列回归方程，后一个回归方程是在前一个的基础上增加或删除一个自变量，其增加或删除某个自变量的准测是用残差平方和的增加或减少量来横量，一般采用如下的偏F检验统计量。逐步回归法其中称为额外回归平方和，它描述了将引入到含A 中各变量的线性模型中（或在含A中各自变量及的线性模型中剔除）时，其误差平方和的减少（或增加）量。可以证明，当含A中各变量的线性回归模型为真时，。逐步回归法的具体步骤n首先，给定两个显著水平，一个用作选取自变量，记为；另一个用作剔除自变量，记为。然后按照下列

43、步骤进行：第1步对每个，拟合仅包含的线性回归模型这时，相应于统计量中的集合A为空集，即，因此，故逐步回归法的集体步骤n对每个k，计算它度量了将引入模型后，残差平方和的相对减少量。设若，则选择含有的回归模型为当前模型。否则，没有自变量进入模型，选择过程结束。这时认为所有自变量对Y的影响均不显著。逐步回归法的集体步骤n第第2步步在第1步选出的含的基础上，再将其余M1个自变量逐个加入到此模型中，并计算设若，则选取过程结束。第1步选出的模型（即仅含的线性回归模型）为最优模型。若，则将加入到第1步所选的模型中，即有逐步回归法的集体步骤n进一步考察，当进入模型后

44、，是否可被剔除。为此计算若，则剔除，这是仅含有的回归模型为当前模型。否则式为当前模型。逐步回归法的集体步骤n第第3步步在第2步所选模型的基础上，再将没在模型中的自变量逐个加入，计算相应的偏F检验统计量的值，与相应F分布的上侧分位数比较以决定是否有其他变量可进入模型。若有新的自变量进入模型，再检验原模型中的自变量是否因这个新自变量的进入而可被删除。逐步回归法的集体步骤n例如，若第2步中选择结果是模型（3.20），再将其余M2个自变量逐个加入该模型，并计算设若，则选择过程结束，模型（3.20）为最优模型。若，则进入模型，即有逐步回归法的集体步骤n进一步考察或是否因的进

45、入可被剔除，即计算若，则首先剔除和中较小的一个所对应的自变量，再接着检验另一个变量是否可被剔除。若，均不能被剔除，则式为当前模型。逐步回归法的集体步骤n重复以上步骤，直到没有自变量能进入模型。同时已在模型中的自变量均不能被剔除，则选择过程结束，最后一个模型即认为是最优的。n注：SAS系统中的proc reg过程具有逐步回归法的选择功能（STEPWISE），其默认的也可根据需要自行指定和。若希望对已选入的变量提供一定的保护，可选，但不能取，否则刚刚剔除的自变量又会被立即引入到模型中，形成无限循环。SAS系统是直接将F统计量的p值与、比较以决定引入或删除自变量的。例3.5n

46、对于肝手术病人的生存时间问题，根据表3.8中各及值，用逐步回归法选取最优回归方程，这里取。解解第第1 1步步分别拟合包含的回归模型。根据各回归方程的残差平方和和均方，可求得例3.5同理，可得由于因此首先被选入回归方程。例3.5n第第2步步分别将加入到包含的回归模型中，根据拟合的残差平方和及均方残差，可求得例3.5n由于故将加入到包含的回归模型中。进一步检验当加入时，能否被剔除。为此计算因为，故保留在模型中。例3.5n第第3步步在包含，模型中，逐个加入，计算由于故将加入到含和的模型中。例3.5n进一步检验当加入时，或可否被删除，为

47、此计算由于故，均被保留在模型中。例3.5n第第4步步在包含，和的回归模型的基础上，将加入此模型中，计算因故将加入到含，和的模型中。例3.5n进一步考察当加入后，中的某个是否可被删除。为此计算例3.5n由于故从模型中剔除。拟合以，为自变量的回归方程，进一步考察是否还有变量可被剔除，即计算例3.5n由于故模型中已再无自变量可被剔除。这时，由于是唯一不在模型中变量，它刚刚从含有全部4个变量的模型中被剔除，因而不可能再被引入到含的模型中。至此，即无变量可被引入，又无变量可被剔除，选择过程结束，得到包含的线性回归方程为最优的。例3.5SAS程序data surv

48、ival;input x1 x4 y;y1=log10(y);card;6.7 62 81 2.59 2008.8 78 72 3.20 313；proc reg data=survival;model y1=x1x4/seleciton=stepwise slentry=0.05 slatay=0.05 details;run;系统建模过程概述n数据的收集和预分析n回归方程的选取n模型的精细分析n模型的确认统计图n统计图是统计描述的重要工具，它可以直观的反映出事物间的数量关系。SAS的许多程序步，如UNIVARIATE过程等，也附有相应的绘图功能，今天介绍两个专门用于绘图的程序步GCHART

49、过程和GPLOT过程。前者用于绘制各种常用的统计图，而后者则用于绘制散点图。统计图n注：高分辨率图形在专门的GRAPH视窗中输出，而低分辨率图形在OUTPUT视窗中一同输出。只要将绘图过程名中的字母G去掉，做出的就是低分辨率图形，你可以比较一下两种图形的“天壤之别”。GCHART过程 nGCHART过程可以绘制水平/竖直条图（直方图）、立体直方图、饼图和星状图。我们可以用这些图来了解单个变量的分布或者多个变量之间的关系。GCHART过程PROC GCHART DATA=PROC GCHART DATA=选项选项 ;指定要分析的数据集名及一些选项HBAR /选项;绘出条形图VBAR /选项;绘出

50、水平条形图BLOCK /选项;绘出三维直方图PIE /选项;绘出饼图STAR /选项;绘出星状图AXISn 选项;控制坐标轴的形状和颜色BY;按该变量取值分层绘制，要求数据集已按该变量排序GCHART过程nMISSING 指定绘图时要将变量的缺失值也包括在内。nTYPE=做图类型关键字指定要做图的类型，即图中条块代表的含义：缺省值是频数（FREQ）；如果指定了选择项SUMVAR，则缺省值为总和（SUM）。可选的关键字有：nFREQ 要求按指定变量的频数做图。nPERCENT 要求按在横轴刻度表示范围内出现的频数占总数的百分比做图。nCFREQ 按累计频数做图。nCPERCENT 按累计百分比

展开阅读全文

第03章 回归分析.ppt

第03章回归分析.ppt