【教学课件】第九章方差分析及回归分析.ppt

上传人:wuy****n92 文档编号:69864787 上传时间:2023-01-10 格式:PPT 页数:75 大小:1.15MB
返回 下载 相关 举报
【教学课件】第九章方差分析及回归分析.ppt_第1页
第1页 / 共75页
【教学课件】第九章方差分析及回归分析.ppt_第2页
第2页 / 共75页
点击查看更多>>
资源描述

《【教学课件】第九章方差分析及回归分析.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第九章方差分析及回归分析.ppt(75页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第九章 方差分析及回归分析 (续)1一般地,对一个单因素试验,假设因子有s个水平,n个对象参与了试验。假定对应于因子第j个水平的组中有 个试验对象,响应变量数据为通常假定2检验假设假设等价于3方差来源平方和自由度均方F比因素As-1误差n-s总和n-1单因素试验方差分析表4 例1 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05)药物x治愈所需天数y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,65这里

2、药物是因子,共有5个水平,这是一个单因子方差分析问题,要检验的假设是“所有药物的效果都没有差别”。6方差分析表方差来源平方和自由度均方F比因素A36.466749.1167 3.90误差58.5000252.3334总和94.9667297未知参数的估计893 一元线性回归分析 确定性关系:确定性关系:当当自自变变量量给给定定一一个个值值时时,就就确确定定应应变变量量的的值值与之对应。与之对应。如如:在在自自由由落落体体中中,物物体体下下落落的的高高度度h与与下下落时间落时间t之间有函数关系:之间有函数关系:变量与变量之间的关系 10例1:人的体重y与身高x之间存在着一定的关系。一般来说,身高

3、越高则体重也越重,但高度相同的人,体重不一定完全相同.例3:消费y 和收入x是有关的,一般来说,收入高的人消费也相对比较高。但同样收入的人,消费不会完全相同.例2:人的脚掌的长度x与身高y两者也有一定联系,通常脚掌长的人身高也较高,但同样脚掌长度的人身高并不完全相同.相关关系:相关关系:11这种变量之间既有关联但又不存在确定性数值对应的相互关系,称为相关关系。相关关系可以归结为两点:相关关系可以归结为两点:一是变量之间存在着关系;一是变量之间存在着关系;二二是是这这种种关关系系又又是是非非确确定定的的,或或者者说说只存在统计规律性。只存在统计规律性。回归分析回归分析研究相关关系的最基本,应用研

4、究相关关系的最基本,应用最广泛的方法。最广泛的方法。12(一)一元线性回归现在,我们需要研究两变量x 和Y 之间的相关关系。这里,x(自变量)(自变量)通常是可以控制和可以测量的“普普通通”变量变量,Y(响应变量)(响应变量)的值不能根据x 的值完全确定,而遵循一定的分布而取值遵循一定的分布而取值,是随依赖于x 的一个随机变量。13当自变量取确定的x时,若随机变量Y 的期望E(Y)存在,其值与x有关,记为 .回归问题的本质是研究 ,以此来反映Y与X之间的关系,而不是研究Y与X之间的直接关系,这一点应严加区别。14在实际问题中,回归函数(x)一般是未知的,需要根据试验数据去估计。由此来推断(x)

5、,这样的问题称为Y 关于x 的回归问题.1516 描述两个定量变量间关系的一个最直观 的方法是绘制两变量的散点图。散点图 包括横轴和纵轴。横轴(x轴)代表一 个变量,纵轴(y轴)代表另一个变量。图中的点表示两个变量的一对观测值。散点散点散点散点图图图图1718为了解释散点图,首先要看它的整体轮廓。它的轮廓可以反映出两个变量间关系的方向、线性关系和关系的强弱。散点图的最大优点是它没有丢失任何数据信息并简化了数据,并且易于制作和解释。19正相关、负相关关系:正相关、负相关关系:若两个变量的变化趋向相一致,则称两个变量是正相关;若一个变量有向上的趋向,而另一个变量有向下的趋向,则称这两个变量呈负相关

6、。20 用散点图可显示两个定量变量间关系的方向、线性关系以及关系的强弱程度。如果散点图中的点都在一条直线的附近,则称变量间呈强线性关系;若点较为分散的落在一条直线周围,则称变量间呈弱线性关系散点图有助于粗略了解这两个变量之间的关系。若此关系近似是线性关系,则称此问题为一元线性回归问题。21一元线性回归模型一元线性回归模型2223一元线性回归要解决的问题:24(二)求回归函数的估计,即求a,b的估计 现在的问题是:选择一条直线y=a+bx 去拟合n 个样本点。即求a,b,使得y=a+bx 最接近于所给出的n 个数据对。采用最小二乘法采用最小二乘法2526称之为正规方程组称之为正规方程组27正规方

7、程组的矩阵形式正规方程组的矩阵形式28正规方程系数行列式29 在误差为正态分布假定下,最小二乘估计等价于极大似然估计。事实上,似然函数30313233例2 K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高x(吋)60626465666768707274儿子身高y(吋)63.665.2 6665.5 66.9 67.1 67.4 68.370.1 70求Y关于x的线性回归方程。3435备注:“回归一词”是英国统计学家F.Galton 在1886 年研究遗传现象时引进的。他和他的学生英国著名统计学K.Pearson 研究了儿子身高y 与父母亲平均身高x 之间的关系。他们

8、收集了1078 对夫妇与儿子(每对夫妇只取一个成年儿子)的身高数据,并用一条直线描述y 与x 之间的关系:人们通常的看法是,双亲的身体高,其子身体也高;父母亲的身高偏矮,儿子的身高也偏矮。但Galton 的研究发现,如果双亲平均身高属高个类(高于1078 对夫妇平均身高),其子比他们更高的概率就比较小,即儿子以较大的概率比双亲个子矮;反过来,如果双亲平均身高属矮个类,儿子则以较大的概率比双亲个子高。所以平均身高偏高或偏矮的夫妇,其子的身高都有“向中心(父母辈的平均身高)回归”的现象。基于这一事实,Galton 把他们所求出的描述儿子身高与双亲身高关系的直线叫做回归直线。虽然“回归”这一现象并没

9、有普遍性,但人们习惯上一直沿用这个术语。36(三)误差方差 的估计 误差方差估计的意义:(a)误差方差的大小对模型的好坏有很大的影响。(b)自变量对因变量影响的大小是同误差对因变量的影响相比较的。(c)如果自变量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的信息。3738例3:求例2中误差方差的无偏估计。39(四)线性假设的显著性检验采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公式求出回归方程。因此(x)是否为x的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得

10、到的数据用假设检验方法来判断。40若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。414243回归效果不显著的原因可能有以下几种:(1)影响Y取值的,除了x,还有其他不可忽略的因素;(2)E(Y)与x的关系不是线性关系,而是其他关系;(3)Y与x不存在关系。44例4:检验例2中回归效果是否显著,取=0.05。45(五)回归系数b的置信区间当回归效果显著时,常需要对回归系数b作区间估计。46(六)回归函数(x)=a+bx函数值的点估计和置信区间4748(七)Y的观察值的点预测和预测区间49505152注:在预测时,一定要落在已有的 的数据范围内部

11、,否则预测常常没有意义。53例5,在例1中F.Galton曾断言“儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子身高的影响有回归到子代平均水平的趋势。”试问例1这组数据能证实这一论断吗(=0.05)?并给出x=69吋时,y的预测区间。(1)回归到平均水平的趋势,即检验 5455例6 合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中x:碳含量()y:钢的强度(kg/mm2)数据见下:x0.030.040.050.07 0.090.100.120.150.170.20y40.539.5

12、41.041.5 43.042.045.047.553.056.0(1)画出散点图;(2)设(x)=a+bx,求a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数b是否为零(取=0.05);(5)求回归系数b的95置信区间;(6)求在x=0.06点,回归函数的点估计和95置信区间;(7)求在x=0.06点,Y的点预测和95区间预测。56 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 (1)合金钢的强度y与钢材中碳的含量x的散点图5758 0.03 0.05 0.07 0.09

13、 0.11 0.13 0.15 0.17 0.1959 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 合金钢的强度y与钢材中碳的含量x的回归直线图606162(八)可化为一元线性回归的例子 实际中常会遇到很复杂的回归问题,但在某些情况下,通过适当的变量变换,可将其化为一元线性回归来处理。下面是三种常见的可转化为一元线性回归的模型。63结果为:644 多元线性回归 在实际问题中,影响Y(因变量)的因素(自变量)往往不止一个,设有 656667686970例6 某公司在各地区销售一种特殊化妆品。该

14、公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:表1.1.2 化妆品销售的调查数据 地区i销售(箱)Yi人数(千人)Xi1人均收入(元)Xi2116227424502120180325432233753802413120528385678623476169265378278198300871地区i销售(箱)Yi人数(千人)Xi1人均收入 (元)Xi281923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605化妆品销售的调查数据(续)7273由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加0.496箱;若固定人数不变,收入每增加1元,销售量增加0.0092箱。多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应的Y进行点预测和区间预测。所有这些都可以通过SAS软件实现。74课件结束!1/9/2023

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com