回归分析的基本思想及其初步应用(优秀课件)ppt.ppt

上传人:飞****2 文档编号:82408640 上传时间:2023-03-25 格式:PPT 页数:34 大小:522.50KB
返回 下载 相关 举报
回归分析的基本思想及其初步应用(优秀课件)ppt.ppt_第1页
第1页 / 共34页
回归分析的基本思想及其初步应用(优秀课件)ppt.ppt_第2页
第2页 / 共34页
点击查看更多>>
资源描述

《回归分析的基本思想及其初步应用(优秀课件)ppt.ppt》由会员分享,可在线阅读,更多相关《回归分析的基本思想及其初步应用(优秀课件)ppt.ppt(34页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确3.1回归分析的基回归分析的基本思想及其初步本思想及其初步应用应用高二数学高二数学 选修选修2-3在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确问题问题1:正方形的面积:正方形的面积y与正方形的边长与正方形的边长x之间之间 的的函数关系函数关系是是y=x2确定性关系确定性关系问题问题2:某水田水稻产量:某水田水稻产量y与

2、施肥量与施肥量x之间是否之间是否 有一个确定性的关系?有一个确定性的关系?例如:在例如:在 7 块并排、形状大小相同的试验田上块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得进行施肥量对水稻产量影响的试验,得 到如下所示的一组数据:到如下所示的一组数据:施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455复习复习 变量之间的两种关系变量之间的两种关系在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确10 20 30 40 50500450

3、400350300施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy施化肥量施化肥量水稻产量水稻产量在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确 自变量取值一定时,因变量的取值带有一定自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做随机性的两个变量之间的关系叫做相关关系相关关系。1、定义、定义:1):相关关系是一种不确定性关系;):相关关系是一种不确定性关系;注注对具有相关关系的两个变量进行统计对具有相关关系的两个变量进行统

4、计分析的方法叫分析的方法叫回归分析回归分析。2):):在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确 现实生活中存在着大量的相关关系。现实生活中存在着大量的相关关系。如:人的身高与年龄;如:人的身高与年龄;产品的成本与生产数量;产品的成本与生产数量;商品的销售额与广告费;商品的销售额与广告费;家庭的支出与收入。等等家庭的支出与收入。等等探索:水稻产量探索:水稻产量y与施肥量与施肥量x之间大致有何规之间大致有何规律?律?在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确10 2

5、0 30 40 50500450400350300发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。探索探索2:在这些点附近可画直线不止一条,哪条直:在这些点附近可画直线不止一条,哪条直线最能代表线最能代表x与与y之间的关系呢?之间的关系呢?施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy散点图散点图施化肥量施化肥量水稻产量水稻产量在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确10 20 30 40 5050045

6、0400350300 xy施化肥量施化肥量水稻产量水稻产量在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确1、所求直线方程叫做、所求直线方程叫做回归直线方程回归直线方程;相应的直线叫做相应的直线叫做回归直线回归直线。2、对两个变量进行的线性分析叫做、对两个变量进行的线性分析叫做线性回归分析线性回归分析。1、回归直线方程、回归直线方程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问

7、题也很明确2、求回归直线方程的步骤:、求回归直线方程的步骤:(3)代入公式)代入公式(4)写出直线方程为)写出直线方程为y=bx+a,即为所求的回归直线方程。即为所求的回归直线方程。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确3、回归分析的基本步骤回归分析的基本步骤:画散点图画散点图求回归方程求回归方程预报、决策预报、决策在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确例题例题4 4 从某大学中随机选出从某大学中随机选出8 8名女大学生,其身名女大学生,其身高和体重数据如

8、下表:高和体重数据如下表:求根据一名女大学生的身高预报她的体重的求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为回归方程,并预报一名身高为172172的女大的女大学生的体重。学生的体重。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确分析:由于问题中分析:由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量,体重高为自变量,体重为因变量为因变量2.2.回归方程:回归方程:1.散点图;散点图;在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问

9、题也很明确探究?探究?身高为身高为172172的女大学生的体重一定的女大学生的体重一定是是60.316kg60.316kg吗?如果不是吗?如果不是,其原因是什其原因是什么么?在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确解:散点图:解:散点图:从散点图还看到,样本点散布在某一条直线的附从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数近,而不是在一条直线上,所以不能用一次函数y=bx+a简单描述它们关系。简单描述它们关系。探究:身高为172cm的女大学生的体重一定是60.316kg吗?在整堂课的教学

10、中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确 我们可以用下面的我们可以用下面的线性回归模型线性回归模型来表示:来表示:y=bx+a+ey=bx+a+e,其中,其中a a和和b b为模型的未知参数。为模型的未知参数。其中:e是随机误差,均值E(e)=0,方差D(e)=20 当随机误差e恒等于0时,线性回归模型就变成一次函数模型。即:一次函数模型是线性回归模型的特殊形式。由于随机误差由于随机误差e的均值为的均值为0,故采用方差,故采用方差 来衡量随机来衡量随机误差的大小误差的大小.在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一

11、定的梯度,由浅入深,所提出的问题也很明确产生随机误差项产生随机误差项e的原因是什么?的原因是什么?随机误差随机误差e e的来源的来源(可以推广到一般):可以推广到一般):1、其它因素的影响:影响体重、其它因素的影响:影响体重 y 的因素不只是身高的因素不只是身高 x,可能还包括遗传基因、饮食习惯、生长环境等,可能还包括遗传基因、饮食习惯、生长环境等因素;因素;2、身高、身高 x的观测误差。的观测误差。3 3、所用确定性函数不恰当观测误差。、所用确定性函数不恰当观测误差。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确 线性回归模型线性

12、回归模型y=bx+a+ey=bx+a+e增加了随机误差项增加了随机误差项e e,因,因变量变量y y的值由自变量的值由自变量x x和随机误差项和随机误差项e e共同确定,即共同确定,即自自变量变量x x只能解析部分只能解析部分y y的变化的变化。在统计中,我们也把自变量在统计中,我们也把自变量x x称为称为解释变量解释变量,因变,因变量量y y为为预报变量预报变量。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确残差残差数据点和它在回归直线上相应位置的差异数据点和它在回归直线上相应位置的差异 称为相应于点(称为相应于点(x xi i,

13、y yi i)的的残差残差。例:编号为例:编号为6 6的女大学生,计算随机误差的效应(残差)的女大学生,计算随机误差的效应(残差)残差平方和残差平方和 把每一个残差所得的值平方后加起来,用数学符号表把每一个残差所得的值平方后加起来,用数学符号表示为:示为:称为称为残差平方和残差平方和在例在例1 1中,残差平方和约为中,残差平方和约为128.361128.361。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确表表1-4列出了女大学生身高和体重的原始数据以及相应的残差数据。列出了女大学生身高和体重的原始数据以及相应的残差数据。残差分析与

14、残差图的定义:残差分析与残差图的定义:我们可以通过残差我们可以通过残差 来判断模型拟合的效果,来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析残差分析。我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残残差图差图。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很

15、明确残差图的制作及作用。残差图的制作及作用。坐标纵轴为残差变量,横轴可以有不同的选择;坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的点应该分布在以若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域横轴为心的带形区域;对于远离横轴的点,要特别注意对于远离横轴的点,要特别注意。身高与体重残差图异常点 错误数据 模型问题 几点说明:几点说明:第一个样本点和第第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数的错误。如果数据采

16、集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。据;如果数据采集没有错误,则需要寻找其他的原因。另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确显然,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合

17、的值越大,说明残差平方和越小,也就是说模型拟合效果越好。效果越好。R2越接近越接近1,表示回归的效果越好(因为,表示回归的效果越好(因为R2越接近越接近1,表示解析,表示解析变量和预报变量的线性相关性越强)。变量和预报变量的线性相关性越强)。如果某组数据可能采取几种不同回归方程进行回归分析,如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较则可以通过比较R R2 2的值来做出选择,即的值来做出选择,即选取选取R R2 2较大的模型作为较大的模型作为这组数据的模型这组数据的模型。总的来说:总的来说:相关指数相关指数R2是度量模型拟合效果的一种指标。是度量模型拟合效果的一种指标。在线

18、性模型中,它在线性模型中,它代表解释刻画预报变量的能力代表解释刻画预报变量的能力。我们可以用相关指数我们可以用相关指数R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确用身高预报体重时,需要注意下列问题:用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们所研究的样本的总体;、回归方程只适用于我们所研究的样本的总体;2、我们所建立的回归方程一般都有时间性;、我们所建立的回归方程一般都有时间性;3、样本采集的范围会影响回归方程的适用范围;、样本采集的范围会影响回归方程

19、的适用范围;4、不能期望回归方程得到的预报值就是预报变量的、不能期望回归方程得到的预报值就是预报变量的精确值。事实上,它是预报变量的可能取值的平均值。精确值。事实上,它是预报变量的可能取值的平均值。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确一般地,建立回归模型的基本步骤为:一般地,建立回归模型的基本步骤为:(1 1)确定研究对象,明确哪个变量是解释变量,哪个变量是)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量。预报变量。(2 2)画出确定好的解析变量和预报变量的散点图,观察它)画出确定好的解析变量和预报变量的散点图,

20、观察它们之间的关系(如是否存在线性关系等)。们之间的关系(如是否存在线性关系等)。(3 3)由经验确定回归方程的类型(如我们观察到数据呈线性)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程关系,则选用线性回归方程y=bx+ay=bx+a).(4 4)按一定规则估计回归方程中的参数(如最小二乘法)。)按一定规则估计回归方程中的参数(如最小二乘法)。(5 5)得出结果后分析残差图是否有异常(个别数据对应残差过)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),若存在异常,则检大,或残差呈现不随机的规律性,等等),若存在异常,则检查数据

21、是否有误,或模型是否合适等。查数据是否有误,或模型是否合适等。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确例例2 一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。有关。现收集了现收集了7组观测数据列于表中:组观测数据列于表中:温度温度xoC21232527293235产卵数产卵数y/个个711212466115325(1 1)试试建建立立产产卵卵数数y y与与温温度度x x之之间间的的回回归归方方程程;并预测温度为并预测温度为2828o oC C时产卵数目。时产卵数目。(2 2)你所建立的模型中温度在多大程度上解)你所建

22、立的模型中温度在多大程度上解释了产卵数的变化?释了产卵数的变化?在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确 y=c1 x2+c2 变换变换 y=c1 t+c2 非线性关系非线性关系 线性关系线性关系问题问题选用选用y=c1x2+c2,还是,还是y=c1x2+cx+c2?问题问题3 产卵数产卵数气气温温问题问题2如何求如何求c1、c2?t=x2方方法法一一,二二元元函函数数模模型型在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确平方变换平方变换:令令t=xt=x2 2,产

23、卵数,产卵数y y和温度和温度x x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化为产卵数就转化为产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=bt+ay=bt+a温度温度21232527293235温度的平方温度的平方t44152962572984110241225产卵数产卵数y/个个711212466115325作作散散点点图图,并并由由计计算算器器得得:y y和和t t之之间间的的线线性性回回归归方方程程为为y=y=0.3670.367t t-202.54-202.54,相关指数,相关指数R R2 2=r r2 20.8960.896

24、2 2=0.802=0.802将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得:y=y=0.3670.367x x2 2-202.54-202.54当当x x=28=28时时,y y=0.36728=0.367282 2-202.5485202.5485,且,且R R2 2=0.802=0.802,所以,二次函数模型中温度解所以,二次函数模型中温度解释了释了80.2%80.2%的产卵数变化。的产卵数变化。t在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确产卵数产卵数气气温温 变换变换 y=bx+a 非线性关系非线性关系 线

25、性关系线性关系对数对数方法二:指数函数模型在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确由计算器得:由计算器得:z关于关于x的线性回归方程的线性回归方程相关指数相关指数 因此因此y关于关于x的非线的非线性回性回归方程为归方程为当当x=28 时,时,y 44,指数回归模型中温度解释了,指数回归模型中温度解释了98%的产卵数的变化的产卵数的变化在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确最好的模型是哪个最好的模型是哪个?显然,指数函数模型最好!显然,指数函数模型最好!在整堂

26、课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确在散点图中,样本点没有分布在某个带状区域内,在散点图中,样本点没有分布在某个带状区域内,因此两个变量不呈现线性相关关系,所以不能直接因此两个变量不呈现线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系利用线性回归方程来建立两个变量之间的关系.令令z=lny,则变换后样本点应该分布在直线,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围)的周围.利用线性回归模型建立利用线性回归模型建立y和和x之间的非线性回归方程之间的非线性回归方程.当回归方程不是形如当回

27、归方程不是形如y=bx+a时,我们称之为时,我们称之为非线性回非线性回归方程归方程.根据已有的函数知识,可以发现样本点分布在某一根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线条指数函数曲线 的周围,其中的周围,其中c1和和c2是是待定参数待定参数.在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确回归分析的基本思想及其初步应用回归分析的基本思想及其初步应用探索无止境探索无止境探索无止境探索无止境探索无止境课堂知识延伸课堂知识延伸 刑警如果能在案发现场提取到罪犯的脚印,即将获得一条重要的破案线索,刑警如果能在案发现场提取到罪犯

28、的脚印,即将获得一条重要的破案线索,其原因之一是人类的脚掌长度和身高存在着相关关系,可以根据一个人的脚掌长其原因之一是人类的脚掌长度和身高存在着相关关系,可以根据一个人的脚掌长度来来预测他的身高度来来预测他的身高 在统计史上,很早就有人收集过人们的身高、前臂长度等数据,试图寻找这在统计史上,很早就有人收集过人们的身高、前臂长度等数据,试图寻找这些数据之间的规律些数据之间的规律 在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确作业:作业:已知两个变量已知两个变量x和和y之间有线性相关性,次实验得之间有线性相关性,次实验得到样本如下:到样本如下:6.13.920y3210 x()则()则y对对x的线性回归方程是的线性回归方程是()相应于各样本点的残差()相应于各样本点的残差(i=1,2,3,4)分别是,分别是,残差平方和是残差平方和是

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com