《多元逐步回归》PPT课件.ppt

上传人:wuy****n92 文档编号:71073381 上传时间:2023-02-01 格式:PPT 页数:27 大小:278KB
返回 下载 相关 举报
《多元逐步回归》PPT课件.ppt_第1页
第1页 / 共27页
《多元逐步回归》PPT课件.ppt_第2页
第2页 / 共27页
点击查看更多>>
资源描述

《《多元逐步回归》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《多元逐步回归》PPT课件.ppt(27页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 2.5 2.5 多元逐步回归算法原理多元逐步回归算法原理 多元回归模型首先将实际问题所提取的全部变量引多元回归模型首先将实际问题所提取的全部变量引入方程,然后再根据变量的显著性检验把方程中不重要入方程,然后再根据变量的显著性检验把方程中不重要的变量逐一剔除,建立新方程。的变量逐一剔除,建立新方程。缺点:(缺点:(1)首先在实际问题中,要提取合)首先在实际问题中,要提取合适的变量来建立回归方程本身不是一件很容易适的变量来建立回归方程本身不是一件很容易的事情,变量间可能存在高度的相互依赖性会的事情,变量间可能存在高度的相互依赖性会给回归系数的估计带来不合理的解释;给回归系数的估计带来不合理的解释

2、;(2)其次变量的一次性引入方程,易导致计)其次变量的一次性引入方程,易导致计算量增大,运算效率降低,精度不够等问题。算量增大,运算效率降低,精度不够等问题。为了得到一个稳健的、可靠的回归模为了得到一个稳健的、可靠的回归模型,这就需要给出一种方法,使得能从型,这就需要给出一种方法,使得能从影响影响 的因素中自动根据某种准则将的因素中自动根据某种准则将 对对 贡献大的变量贡献大的变量 (或者说对(或者说对 重要的变量重要的变量 )引入方程,不重要的变量从方程中剔)引入方程,不重要的变量从方程中剔除。最终在观测数据基础上建立最优的除。最终在观测数据基础上建立最优的回归方程。回归方程。2.5 2.5

3、 多元逐步回归算法原理多元逐步回归算法原理2.5.1 2.5.1 逐步回归算法的形成思路逐步回归算法的形成思路 逐步回归算法基本思路逐步回归算法基本思路 根据各自变量的重要性,每一步选一个重要根据各自变量的重要性,每一步选一个重要的变量进入回归方程。的变量进入回归方程。第一步是在所有可供挑选的变量中选出一个变量,第一步是在所有可供挑选的变量中选出一个变量,使它组成的一元回归方程比其他变量有更大的回归平方使它组成的一元回归方程比其他变量有更大的回归平方和。第二步是在剩下的自变量中选这样一个变量,它与和。第二步是在剩下的自变量中选这样一个变量,它与已选入方程的那个变量所组成的二元回归方程,比其他已

4、选入方程的那个变量所组成的二元回归方程,比其他任一变量与已先选入方程的变量所组成的二元回归方程,任一变量与已先选入方程的变量所组成的二元回归方程,有更大有更大的回归平方和。的回归平方和。如此继续下去,假设已经进行到如此继续下去,假设已经进行到 步,那第步,那第 步是步是在未选的变量中选出这样一个变量,它与已选入回归在未选的变量中选出这样一个变量,它与已选入回归方程的变量组成方程的变量组成 元回归方程,比其他余下的任何一元回归方程,比其他余下的任何一个变量组成的个变量组成的 元回归方程,有更大的回归平方和。元回归方程,有更大的回归平方和。逐步回归不仅考虑到按贡献大小逐一挑选重要变量,逐步回归不仅

5、考虑到按贡献大小逐一挑选重要变量,而且还考虑到较早选入回归方程的某些变量,有可能而且还考虑到较早选入回归方程的某些变量,有可能随着其后一些变量的选入而失去原有的重要性,这样随着其后一些变量的选入而失去原有的重要性,这样的变量也应当及时从回归方程中剔除,使回归方程中的变量也应当及时从回归方程中剔除,使回归方程中始终只保留重要的变量。始终只保留重要的变量。2.5.1 2.5.1 逐步回归算法的形成思路逐步回归算法的形成思路如如 引入方程后,再引入引入方程后,再引入 ,也许由,也许由 的引的引入而入而 的重要性反而变得不重要,应及时剔除。的重要性反而变得不重要,应及时剔除。假设已有假设已有 个自变量

6、引入回归方程,即已知回个自变量引入回归方程,即已知回归方程是:归方程是:此时该方程相应的总离差平方和记为此时该方程相应的总离差平方和记为(2.14)2.5.1 2.5.1 逐步回归算法的形成思路逐步回归算法的形成思路2.5.2 2.5.2 引入自变量的依据引入自变量的依据现在在已有的现在在已有的 个自变量所组成的回归方程中再个自变量所组成的回归方程中再引入一个自变量,不妨记为引入一个自变量,不妨记为 ,于,于是引入了一个自变量是引入了一个自变量 的回归方程可表示为的回归方程可表示为现在用式(现在用式(2.15)减去式()减去式(2.14),并注意到),并注意到式(式(2.14)与式()与式(2

7、.15)总离差平方和不变,)总离差平方和不变,可得可得(2.15)令令于是称于是称 为自变量为自变量 对因变量对因变量 的的方方差贡献差贡献。也就是,如果。也就是,如果 越大,则越大,则 对对 的影响就越大,的影响就越大,对回归方程就越显重要,对回归方程就越显重要,应该引入。但是应该引入。但是 应大到什么程度,自应大到什么程度,自变量变量 才可被引入方程呢?这就需要给出才可被引入方程呢?这就需要给出 的引入标准(或称引入门坎值)。的引入标准(或称引入门坎值)。统计理论表明,用统计量统计理论表明,用统计量可以检验自变量可以检验自变量 是否可以引入方程。式中,是否可以引入方程。式中,是样本容量,是

8、样本容量,是已进入方程的自变量个数。是已进入方程的自变量个数。对于给定水平对于给定水平 ,查,查 分布表,可得临界分布表,可得临界值值 。如果。如果 ,则表明,则表明 可引入方程;可引入方程;如果如果 ,则说明自变量,则说明自变量 不重要,不重要,不能引不能引入方程。需要说明的是,实际问题可能入方程。需要说明的是,实际问题可能 有有多个,由于每次只能引入一个变量进入方程,因多个,由于每次只能引入一个变量进入方程,因此在算法上,我们是选最大的此在算法上,我们是选最大的 值所对应的变量值所对应的变量考虑引入,即,先求考虑引入,即,先求然后将它与然后将它与 比较,如比较,如 ,相应的自变量,相应的自

9、变量 入选;如入选;如 ,引入变量的步骤就到此为,引入变量的步骤就到此为止。止。2.5.3 2.5.3 剔除自变量的依据剔除自变量的依据 设已有设已有 个自变量引入回归方程,即已知回归方个自变量引入回归方程,即已知回归方程为程为此时该方程的总离差平方和可表示为此时该方程的总离差平方和可表示为 现在已有的现在已有的 个自变量中剔除一个自变量,不妨个自变量中剔除一个自变量,不妨剔除剔除 ,于是可得剔除自变量,于是可得剔除自变量 后的后的回归方程,记为回归方程,记为(2.17)(2.16)该方程的总离差平方和记该方程的总离差平方和记为由式(为由式(2.16)与式()与式(2.17)可得)可得这里仍然

10、称这里仍然称 为为 对对 的方差贡献。的方差贡献。越大说明越大说明 对对 的影响越大,即的影响越大,即 对对 越重要,越重要,当然当然 在方程中就不能被剔除,反之亦然。然而在方程中就不能被剔除,反之亦然。然而 应小到什么程度,自变量应小到什么程度,自变量 才考虑从方程中被剔才考虑从方程中被剔除呢?这就需要给出除呢?这就需要给出 的剔除标准(或称剔除门的剔除标准(或称剔除门坎值)。和前面所介绍的引入标准一样,可用统坎值)。和前面所介绍的引入标准一样,可用统计量计量 来检验方程中哪个自变量来检验方程中哪个自变量 可被考虑剔除出方程。可被考虑剔除出方程。对于给定的水平对于给定的水平 ,查,查 分布表

11、得临界分布表得临界值值 。n如果如果 ,则,则 应从方程中剔除;应从方程中剔除;n如果如果 ,则,则 不应从方程中剔除。不应从方程中剔除。n同样需要说明的是,实际问题可能有多个同样需要说明的是,实际问题可能有多个 ,由于每次只能从方程中剔除一个变,由于每次只能从方程中剔除一个变量,因此在算法上,我们选最小的量,因此在算法上,我们选最小的 值所对应值所对应的变量考虑剔除,即先求的变量考虑剔除,即先求 然后将然后将 与与 比较,如比较,如 时,就应从回归时,就应从回归方程中剔除变量方程中剔除变量 ;如;如 ,则方程中没,则方程中没有变量被剔除,转入是否可以引入新变量的讨论。有变量被剔除,转入是否可

12、以引入新变量的讨论。2.6 2.6 逐步回归的计算步骤逐步回归的计算步骤n前面已经讲过,前面已经讲过,“引入引入”或或“剔除剔除”变量的依变量的依据是据是根据自变量根据自变量 对因变量对因变量 的方差贡献的大小决定的方差贡献的大小决定。当开始进行逐步回归时,第一步、第二步只考。当开始进行逐步回归时,第一步、第二步只考虑虑“引入引入”。至于以后各步,则应首先考虑能否。至于以后各步,则应首先考虑能否剔剔除,如果已断定不能剔除时,再考虑除,如果已断定不能剔除时,再考虑“引入引入”。当当既不能引入又不能剔除时,则逐步回归的变量挑既不能引入又不能剔除时,则逐步回归的变量挑选即告结束。在下面的介绍中,我们

13、只给出逐步选即告结束。在下面的介绍中,我们只给出逐步回归的计算方法而不去讨论它的数学原理。回归的计算方法而不去讨论它的数学原理。2.6.1 2.6.1 数据准备数据准备 回归分析的原始数据包括两部分,一部分是自回归分析的原始数据包括两部分,一部分是自变量变量 及因变量及因变量 的观测值。我们称为的观测值。我们称为模型数据值。另一部分是只有自变量的观测值,模型数据值。另一部分是只有自变量的观测值,因变量因变量 的取值未知,称预测数据部分。的取值未知,称预测数据部分。模型数据用来求回归方程的参数,在模型显著模型数据用来求回归方程的参数,在模型显著时,再用以对预测部分作时,再用以对预测部分作 的预测

14、计算。的预测计算。1 1输入模型原始数据输入模型原始数据其中,其中,为样品个数,为样品个数,为自变量个数。为自变量个数。该变换使变换后的数据各变量均值为该变换使变换后的数据各变量均值为0,离差,离差平方和为平方和为l。2作如下预处理变换作如下预处理变换(1)求各变量均值求各变量均值(2)求求 (3)作变换作变换这一步与多元回归中叙述的内容相同。为了使这一步与多元回归中叙述的内容相同。为了使计算有更好的效果,可把正规方程组式(计算有更好的效果,可把正规方程组式(2.10),改为,改为(2.18)2.6.2 2.6.2 建立正规方程组建立正规方程组 式(式(2.18)中,)中,是相关系数,即是相关

15、系数,即(2.19)新方程组新方程组 与式(与式(2.10)中)中 有如下关有如下关系:系:方程组式(方程组式(2.18)中左端的系数项定为矩阵)中左端的系数项定为矩阵 ,即零步矩阵。在计算技巧上为了方便,把即零步矩阵。在计算技巧上为了方便,把 扩充扩充为为 (2.20)2.6.3 2.6.3 逐步计算逐步计算 假设已计算了假设已计算了 步(包括步(包括 步),在回归方程步),在回归方程中已引入了中已引入了 个变量,这时初始的个变量,这时初始的 阵已经变换阵已经变换为为(2.21)1首先对已引入方程变量首先对已引入方程变量 计计算方差贡献算方差贡献 ,即,即 步的步的从从 中选出最小的中选出最

16、小的 ,记为,记为 ,计,计算算(2.22)如果如果 乃事先规定的变量剔除门坎值),乃事先规定的变量剔除门坎值),则将贡献最小的变量则将贡献最小的变量 从回归方程中剔除。从回归方程中剔除。2对作消去变换,消去运行公式为对作消去变换,消去运行公式为(2.23)如果不存在应被剔除的变量,则进行引入变量如果不存在应被剔除的变量,则进行引入变量的计算,转入下一的计算,转入下一 步。步。3对未引入方程的变量计算其方差贡献对未引入方程的变量计算其方差贡献 ,从中选出最大的,即从中选出最大的,即 ,计算,计算 如果如果 为事先规定引入变量的门坎为事先规定引入变量的门坎值),则将该方差贡献最大的变量引入回归方

17、程。值),则将该方差贡献最大的变量引入回归方程。4对对 进行消去运算,运算所遵循的公式仍进行消去运算,运算所遵循的公式仍为式(为式(2.23),消去运算得到的结果为),消去运算得到的结果为 。5重复重复14的步骤,直到既无变量引入又无的步骤,直到既无变量引入又无变量剔除为止。变量剔除为止。(2.24)2.6.4 2.6.4 计算最终结果计算最终结果n1引入方程变量的系数(设到引入方程变量的系数(设到 步结束)步结束)式中,式中,乃引入变量乃引入变量 和因变量和因变量 的标准差,的标准差,乃引入变量乃引入变量 的离差平方和。的离差平方和。n 2常数项常数项 (2.25)(2.26)n3回归值与偏差值回归值与偏差值 ,偏差,偏差 (2.27)n4复相关系数复相关系数 和剩余标准差和剩余标准差 最后还可根据最后还可根据 进行进行 的区间估计。至于回归方的区间估计。至于回归方程的程的 检验与多元回归相同。检验与多元回归相同。(2.28)(2.29)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com