31回归分析的基本思想及其初步应用A.ppt

上传人:仙*** 文档编号:35653622 上传时间:2022-08-23 格式:PPT 页数:28 大小:1.16MB
返回 下载 相关 举报
31回归分析的基本思想及其初步应用A.ppt_第1页
第1页 / 共28页
31回归分析的基本思想及其初步应用A.ppt_第2页
第2页 / 共28页
点击查看更多>>
资源描述

《31回归分析的基本思想及其初步应用A.ppt》由会员分享,可在线阅读,更多相关《31回归分析的基本思想及其初步应用A.ppt(28页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、3.1回归分析的基本思想回归分析的基本思想及其初步应用及其初步应用问题提出问题提出1、所求直线方程叫做、所求直线方程叫做回归直线方程回归直线方程; 相应的直线叫做相应的直线叫做回归直线回归直线。2、对两个变量进行的线性分析叫做、对两个变量进行的线性分析叫做线性回归分析线性回归分析。1、回归直线方程、回归直线方程2、求回归直线方程的步骤:、求回归直线方程的步骤:例例1 从某大学中随机选出从某大学中随机选出8名女大学生,其身名女大学生,其身高和体重数据如下表:高和体重数据如下表:编号编号12345678身高身高165165157170175165155170体重体重4857505464614359

2、求根据一名女大学生的身高预报她的体重的回求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为归方程,并预报一名身高为172的女大学的女大学生的体重。生的体重。分析:由于问题中分析:由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量,体重高为自变量,体重为因变量为因变量2.2.回归方程:回归方程:1. 散点图;散点图;如何描述两个变量之间线性相关关系的强弱?如何描述两个变量之间线性相关关系的强弱? 在在数学数学3中,我们学习了用相关系数中,我们学习了用相关系数r来衡量两来衡量两个变量之间线性相关关系的方法。个变量之间线性相关关系的方法。探究?探究?身

3、高为身高为172的女大学生的体重一定的女大学生的体重一定是是60.316kg吗?如果不是吗?如果不是,其原因是什么其原因是什么?答:身高为答:身高为172cm的女大学生的体重不一定是的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于,但一般可以认为她的体重接近于60.316kg。即,用这个回归方程不能给出每个身高为即,用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值,只能给出她们平均的女大学生的体重的预测值,只能给出她们平均体重的值。体重的值。例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和名女大学生,其身高和体重数据如表体重数据如表1-

4、1所示。所示。编号编号12345678身高身高/cm 165165 157 170 175 165 155 170体重体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为程,并预报一名身高为172cm的女大学生的体重。的女大学生的体重。解:解:1、选取身高为自变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:,作散点图:2、由散点图知道身高和体重有比较好的线性相关关系,因、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。此可以用线性回归方程刻

5、画它们之间的关系。3、从散点图还看到,样本点散布在某一条直线的附近,而、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数不是在一条直线上,所以不能用一次函数y=bx+a描述它们描述它们关系。关系。思考思考:产生随机误差项产生随机误差项e的原因是什么?的原因是什么?随机误差随机误差e的来源的来源(可以推广到一般):可以推广到一般):1、忽略了其它因素的影响:影响身高、忽略了其它因素的影响:影响身高 y 的因素不只的因素不只是体重是体重 x,可能还包括遗传基因、饮食习惯、生,可能还包括遗传基因、饮食习惯、生长环境等因素;长环境等因素;2、用线性回归模型近似真实模

6、型所引起的误差;、用线性回归模型近似真实模型所引起的误差;3、身高、身高 y 的观测误差。的观测误差。 以上三项误差越小,说明我们的回归模型的拟合以上三项误差越小,说明我们的回归模型的拟合效果越好。效果越好。函数模型与回归模型之间的差别函数模型与回归模型之间的差别可以提供可以提供选择模型的准则选择模型的准则 线性回归模型线性回归模型 y=bx+a+e 增加了随机误差项增加了随机误差项e,因变量,因变量y的的值由自变量值由自变量x和随机误差项和随机误差项e共同确定,即共同确定,即自变量自变量x只能解析只能解析部分部分y的变化的变化。 在统计中,我们也把自变量在统计中,我们也把自变量x称为解析变量

7、,因变量称为解析变量,因变量y称称为预报变量。为预报变量。思考:思考:如何刻画预报变量(体重)的变化?这个变化在多大程度上如何刻画预报变量(体重)的变化?这个变化在多大程度上与解析变量(身高)有关?在多大程度上与随机误差有关?与解析变量(身高)有关?在多大程度上与随机误差有关? 假设身高和随机误差的不同不会对体重产生任何影响,那么所假设身高和随机误差的不同不会对体重产生任何影响,那么所有人的体重将相同。有人的体重将相同。在体重不受任何变量影响的假设下,设在体重不受任何变量影响的假设下,设8名女名女大学生的体重都是她们的平均值,即大学生的体重都是她们的平均值,即8个人的体重都为个人的体重都为54

8、.5kg。54.554.554.554.554.554.554.554.5体重体重/kg170155165175170157165165身高身高/cm87654321编号编号54.5kg在散点图中,所有的点应该落在散点图中,所有的点应该落在同一条水平直线上,但是观在同一条水平直线上,但是观测到的数据并非如此。测到的数据并非如此。这就意这就意味着味着预报变量(体重)的值受预报变量(体重)的值受解析变量(身高)或随机误差解析变量(身高)或随机误差的影响的影响。对回归模型进行统计检验对回归模型进行统计检验5943616454505748体重体重/kg170155165175170157165165身

9、高身高/cm87654321编号编号 例如,编号为例如,编号为6的女大学生的体重并没有落在水平直线上,她的女大学生的体重并没有落在水平直线上,她的体重为的体重为61kg。解析变量(身高)和随机误差共同把这名学生的。解析变量(身高)和随机误差共同把这名学生的体重从体重从54.5kg“推推”到了到了61kg,相差,相差6.5kg,所以,所以6.5kg是解析变量是解析变量和随机误差的和随机误差的组合效应组合效应。 编号为编号为3的女大学生的体重并也没有落在水平直线上,她的的女大学生的体重并也没有落在水平直线上,她的体重为体重为50kg。解析变量(身高)和随机误差共同把这名学生的体。解析变量(身高)和

10、随机误差共同把这名学生的体重从重从50kg“推推”到了到了54.5kg,相差,相差-4.5kg,这时解析变量和随机误,这时解析变量和随机误差的组合效应为差的组合效应为-4.5kg。用这种方法可以对所有预报变量计算组合效应。用这种方法可以对所有预报变量计算组合效应。在例在例1中,总偏差平方和为中,总偏差平方和为354。5943616454505748体重体重/kg170155165175170157165165身高身高/cm87654321编号编号 那么,在这个总的效应(总偏差平方和)中,有多少来自于解析变那么,在这个总的效应(总偏差平方和)中,有多少来自于解析变量(身高)?有多少来自于随机误差

11、?量(身高)?有多少来自于随机误差?( , )Q a b在例在例1中,残差平方和约为中,残差平方和约为128.361。 由于解析变量和随机误差的总效应(总偏差平方和)为由于解析变量和随机误差的总效应(总偏差平方和)为354,而随机误差的效应为而随机误差的效应为128.361,所以解析变量的效应为,所以解析变量的效应为解析变量和随机误差的总效应(总偏差平方和解析变量和随机误差的总效应(总偏差平方和 =解析变量的效解析变量的效应(回归平方和)应(回归平方和)+随机误差的效应(残差平方和)随机误差的效应(残差平方和)354-128.361=225.639这个值称为这个值称为回归平方和。回归平方和。离

12、差平方和的分解离差平方和的分解 (三个平方和的意义)(三个平方和的意义)1.总偏差平方和总偏差平方和(SST)l反映因变量的反映因变量的 n 个观察值与其均值的总离差个观察值与其均值的总离差2.回归平方和回归平方和(SSR)l反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影响取值变化的影响,或者说,是由于,或者说,是由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的取值变化,也称为可解释的平方和的取值变化,也称为可解释的平方和3.残差平方和残差平方和(SSE)l反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也称取值的影响,也称为不

13、可解释的平方和或剩余平方和为不可解释的平方和或剩余平方和样本决定系数样本决定系数 (判定系数(判定系数 R2 )1.回归平方和占总离差平方和的比例回归平方和占总离差平方和的比例2. 反映回归直线的拟合程度反映回归直线的拟合程度3. 取值范围在取值范围在 0 , 1 之间之间4. R2 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;R20,说明回归方程拟合的越差说明回归方程拟合的越差5. 判定系数等于相关系数的平方,即判定系数等于相关系数的平方,即R2(r)2表表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。列出了女大学生身高和体重的原始数据以及相应的残差数据。 在研究两个

14、变量间的关系时,首先要根据散点图来粗略判断在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用回归模型来拟合数据。它们是否线性相关,是否可以用回归模型来拟合数据。残差分析与残差图的定义:残差分析与残差图的定义:编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我们可以利用图形来分析残差特性,作图时纵坐标为残差,我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高

15、数据,或体重估计值等,这样横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为作出的图形称为残差图残差图。 残差图的制作及作用。残差图的制作及作用。若模型选择的正确,残差图中的点应该分布在以若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;对于远离横轴的点,要特横轴为心的带形区域;对于远离横轴的点,要特别注意。别注意。身高与体重残差图异常点 错误数据 模型问题 几点说明:几点说明:第一个样本点和第第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新

16、利用线性回归模型为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。拟合数据;如果数据采集没有错误,则需要寻找其他的原因。 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。高。一般地,建立回归模型的基本步骤为:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,哪个变量)确定

17、研究对象,明确哪个变量是解析变量,哪个变量是预报变量。是预报变量。(2)画出确定好的解析变量和预报变量的散点图,)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系观察它们之间的关系 (如是否存在线性关系等)。(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到数据)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程呈线性关系,则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。)按一定规则估计回归方程中的参数(如最小二乘法)。(5)得出结果后分析残差图是否有异常(个别数据对应)得出结果后分析残差图是否有异常(

18、个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。在异常,则检查数据是否有误,或模型是否合适等。什么是回归分析?什么是回归分析? (内容)(内容)回归分析与相关分析的区别回归分析与相关分析的区别例例2 一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。现收集有关。现收集了了7组观测数据列于表中:组观测数据列于表中:(1)试建立产卵数)试建立产卵数y与温度与温度x之间的回归方程;并之间的回归方程;并预测温度为预测温度为28oC时产卵数目。时产卵数目。(2)你所建立的模型中温度在多大程度

19、上解释了)你所建立的模型中温度在多大程度上解释了产卵数的变化?产卵数的变化? 温度温度xoC21232527293235产卵数产卵数y/个个711212466115325课堂小结课堂小结1、回归方程只适用于我们所研究的样本的总体;、回归方程只适用于我们所研究的样本的总体;2、我们所建立的回归方程一般都有时间性;、我们所建立的回归方程一般都有时间性;3、样本采集的范围会影响回归方程的适用范围;、样本采集的范围会影响回归方程的适用范围;4、不能期望回归方程得到的预报值就是预报变量的精、不能期望回归方程得到的预报值就是预报变量的精确值。事实上,它是预报变量的可能取值的平均值。确值。事实上,它是预报变量的可能取值的平均值。涉及到统计的一些思想:涉及到统计的一些思想:模型适用的总体;模型适用的总体;模型的时间性;模型的时间性;样本的取值范围对模型的影响;样本的取值范围对模型的影响;模型预报结果的正确理解。模型预报结果的正确理解。作业:作业: P59 习题习题2.2 A组组 第第 1,2题题思考题:思考题: P59 习题习题2.2 B组组 第第 3 题题

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com