统计学线性回归模型.pptx-得力文库

资源描述

《统计学线性回归模型.pptx》由会员分享，可在线阅读，更多相关《统计学线性回归模型.pptx（92页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、11 导言第1页/共92页2 在自然界和人类社会中，经常会遇到一些变量共处于一个统一体中，他们相互联系，相互制约，在一定条件下相互转化。社会经济现象尤其如此。例如某生产厂家的生产费用由所生产的产品数量和各种生产投入要素的价格等因素所决定。第2页/共92页3 在社会经济现象中，变量之间的关系大致可以分为两种：1).函数关系 2).统计关系。第3页/共92页4 函数关系：变量之间依一定的函数形式形成的一一对应关系称为函数关系。若两个变量分别记作y和x，则当y 与x之间存在函数关系时，x值一旦被指定，y值就是唯一确定的。函数关系可以用公式确切的反映出来，一般记为y=f(x)。第4页/共92页5 例如

2、，某种商品的销售额(y)与销售量(x)之间的关系，在销售价格(p)一定的条件下，只要给定一个商品销售量，就有一个唯一确定的商品销售额与之对应，用公式表示为y=p(x)。第5页/共92页6 统计关系：两个变量之间存在某种依存关系，但变量Y并不是由变量X唯一确定的，它们之间没有严格的一一对应关系。两个变量之间的这种关系就是统计关系，也称为相关关系。第6页/共92页7 相关关系与函数关系有十分密切的联系。在实际中，由于观察和测量误差等原因，函数关系往往是通过相关关系表现的，而在研究相关关系时，又常用函数关系作为工具，以相应的函数关系数学表达式表现相关关系的一般数量关系。第7页/共92页8 例如：同样

3、收入的家庭，用于食品的消费支出往往并不相同。因为对家庭食品费用的影响，不仅有家庭收入的多少，还有家庭人口，生活习惯等因素，所以，家庭食品费用支出与家庭收入之间不是函数关系，而是相关关系。第8页/共92页9 在含有变量的系统中，考察一些变量对另一些变量的影响，它们之间可能存在一种简单的函数关系，也可能存在一种非常复杂的函数关系。有些变量之间的关系是非确定性的关系，这种关系无法用一个精确的数学来表示。第9页/共92页10 我们需要区分两种主要类型的变量。一种变量相当于通常函数关系中的自变量，它或者能控制或者虽不能控制但可观测，这种变量称为自变量。自变量的变化能波及另一些变量，这样的变量称为因变量。

4、人们通常感兴趣的问题是自变量的变化对因变量的取值有什么样的影响。第10页/共92页11 回归分析正是研究自变量的变动对因变量的变动的影响程度，其目的在于根据已知自变量的变化来估计或预测因变量的变化情况。第11页/共92页12 回归的内容包括如何确定因变量与自变量之间的回归模型；如何根据样本观测数据估计并检验回归模型及未知参数；在众多的自变量中，判断哪些变量对因变量的影响是显著的，哪些变量的影响是不显著的；根据自变量的已知值或给定值来估计和预测因变量的平均值等等。第12页/共92页13 线性回归分析是研究变量与变量之间的线性相关关系。从分析的内容上看，线性回归是建立变量间的拟合线性相关模型，主要

5、用于估计和预测。线性回归模型应用领域极为广泛，在许多领域里都有应用非常成功的例子，它是现代应用统计分析方法中的重要内容之一。第13页/共92页14 一元线性回归模型第14页/共92页158.2.1 一元线性回归模型的数学表示式如果两个变量之间存在相关关系，并且一个变量的变化会引起另一个变量按某一线性关系变化，则两个变量间的关系可以用一元线性回归模型描述。第15页/共92页16 其数学模型为：y=(8-1)其中，y 为因变量，x为自变量，为模型参数，为回归截距，为回归系数，为随机误差项，且N(0,).第16页/共92页17 在实际问题中，(8-1)中的模型参数是未知的，通常只能在自变量的一些

6、点上对因变量进行观测，得到一定量的数据，由数据出发对模型进行推断。第17页/共92页188.2.2 回归系数的最小二乘估计。假定（）,（）,（）为n次独立试验所得到的样本观测值，则有，i=1,2,n (8-2)其中i,i=1,2,n为随机误差项，对i,i=1,2,n的基本假定是i,i=1,2,n相互独立，服从N(0,)分布。第18页/共92页19 记 Q()=Q()是直线y=对于所有数据点的偏差平方和。取直线y=使得 Q()达到最小即 Q()=Q()，z用y=来估计回归直线，这种方法称为最小二乘法。第19页/共92页20 为求与分别对应的最小二乘估计，注意到Q()是的非负二次函数，

7、因此最小值点存在且唯一，应满足以下方程组：第20页/共92页21 求解方程组得：其中，第21页/共92页228.2.3利用最小二乘法所得到的估计量有如下性质：(1）分别是的无偏估计。（2）和的最小二乘估计和为“方差最小”线性无偏估计（3）的无偏估计为 :第22页/共92页23 在实际中，方差是未知的，因此，可用估计量来估计。第23页/共92页24 例题1、在某类企业中随机抽取10个企业，搜集它们的产量和生产费用情况，获得数据如表1所示：第24页/共92页25表1 企业产量和生产费用第25页/共92页26 我们可作出散点图，易看出变量x与y之间的关系近似可看作是线性关系，根据

8、表1的数据，利用最小二乘法，求一元线性回归方程，第26页/共92页27以下列出的为计算表第27页/共92页28 第28页/共92页29 =134.7909+0.3978x为所求的一元回归模型。第29页/共92页308.2.4 一元线性回归模型的检验我们根据样本观测值，利用最小二乘法建立起一元线性回归模型 =，该模型是否满足回归模型的基本假设，还需要进行统计检验。第30页/共92页31 统计检验应包括两方面的内容：一是回归方程的显著性检验，即反映回归模型 =对样本观测值的拟合程度如何;一是回归系数的显著性检验，即检验变量y与变量x之间是否能用线性关系来描述；以下介绍三种检验的方法：第31页/共

9、92页32（1）回归模型的拟合程度的测度变量y的各个观测点聚集在回归直线 =周围的紧密程度，称为回归直线对样本数据点的拟合程度，常用可决系数R2来表示。第32页/共92页33 总的离差平方和 SST=+第33页/共92页34 因为 =0 故 SST=记 SSR=，SSE=则 SST=SSR+SSE (8-5)SSR称为回归平方和，SSE称为残差平方和第34页/共92页35 (8-5)可作如下解释：因变量的总变化量（有SST表示）可分成两部分之和，其中一部分是由自变量所引起的变化（由SSR刻画），另一部分是随机误差所引起的变化（由SSE刻画）。变量y的各个观测值点与回归直线越靠近，SSR在SS

10、T中所占的比重越大，可见，比值SSR/SST的大小，能反映回归模型拟合程度的优劣。第35页/共92页36 由此，可定义统计量：R2=R2称为“可决系数”,显然，0R21。当R2接近于1时，回归平方和SSR在总的平方和SST中所占的比重大，说明自变量对因变量的影响较大；反之，当R2接近与0时，回归平方和SSR在总的平方和SST中所占的比重小，说明自变量对因变量的影响较小。综上所述，R2越接近与1，说明模型越有效，R2越接近与0，说明模型越无效。应该注意的是，R2通常只用于模型有效性的一个大致的判断。第36页/共92页37 R2称为“可决系数”,显然，0R21。当R2接近于1时，回归平方和SSR在

11、总的平方和SST中所占的比重大，说明自变量对因变量的影响较大；反之，当R2接近与0时，回归平方和SSR在总的平方和SST中所占的比重小，说明自变量对因变量的影响较小。综上所述，R2越接近与1，说明模型越有效，R2越接近与0，说明模型越无效。应该注意的是，R2通常只用于模型有效性的一个大致的判断。第37页/共92页38 可决系数R2只说明了回归方程对样本观察值拟合程度的好坏，却不能表示回归直线估计值与变量y的各实际观察值的绝对离差的数额。估计标准误差则是反映回归估计值与样本实际观察值的平均差异程度的指标，用Syx表示估计标准误差，其计算公式为：Syx =第38页/共92页39 若估计标准误差Sy

12、x小，表示各实际观察值与回归估计值平均差异小，实际观察点靠近回归直线，回归直线的拟合程度好，代表性高；若样本观察点全部落在直线上，则Syx=0，说明样本实际值与估计值没有差别。若Syx大，则说明回归直线拟合不好，代表性差。第39页/共92页40 估计标准误差也可化简为 Syx =第40页/共92页41（2）回归系数的显著性检验一元线性回归模型中，一次项系数是一个关键的量，通过可反映自变量x的变动对因变量y的影响。若 =0意味着y不随x变动而变动，因此y与x之间不存在线性关系；若 0，说明变量y与x之间存在线性关系；当 0时，x对y的影响为正效应；当 =第44页/共92页45假设的检验决策规

13、则是：若|t|,则拒绝接受原假设H0;若|t|时说明变量y与x之间存在线性关系；|t|,则拒绝接受原假设H0;若|t|（1，n-2）时，则拒绝接受原假设H0 若F （1，n-2）时，回归方程的回归效果是显著的；F (1，8)=11.26，所以，拒绝接受H0，即生产费用和参量之间存在着十分显著的线性关系。第55页/共92页56825 一元线性回归模型的应用回归模型在应用领域里一项重要的研究内容是如何利用回归模型进行预测，预测就是在确定自变量的某一个值时，求相应的因变量y的估计值，其中可分为点预测和区间预测。第56页/共92页57 （1）点预测点预测是将自变量的预测值代入回归模型=，所得到的因

14、变量y的值作为与相对应的的预测，不难验证，是无偏预测。第57页/共92页58（2）区间预测类似于对参数作置信区间估计，可对预测作指定置信水平的预测区间，这样可以以相当大的概率保证预测的“方向”及精度。第58页/共92页59 对于与相对应的值为，由于样本的不得到的回归模型的，会不同，通过 =预测的，这个与之间总存在一定的抽样误差，可证明（)N0,第59页/共92页60 其中，因此，的概率为1-的预测区间为第60页/共92页61 因而，对于给定的置信水平1-，有 ,为的置信水平100(1-)%的预测区间。第61页/共92页62例题3、依据例题1中所建立的回归模型，给定x0=50

15、（千个）时，试预测y0,并求=0.05时y0的预测区间。第62页/共92页63解：当x0=50时，=134.7909+0.397850=154.6809 （千元）=（8）=2.306 =26.3301 所以，（128.3607，181.0209）为y0的置信水平95%的预测区间。第63页/共92页643 多元线性回归模型及其应用一元线性回归将影响因变量的自变量限制在一个，但在实际中，社会经济现象的复杂性决定了某一现象的变动往往受多种因素的影响。如某种产品单位成本的高低受产品原材料消耗量，原材料价格，产品产量等多种因素影响；企业的利润受产品销售收入，产品销售成本，期间费用等因素影响，这就需要研

16、究两个或两个以上自变量对因变量的影响。一个因变量与多个自变量之间的线性相关关系称为多元线性回归。第64页/共92页658.3.1多元线性回归模型的数学表示式为：y=(8-6)其中，y为因变量，i=1,2,n为自变量.，i=0，1，,k为回归参数，为随机变量，且第65页/共92页668.3.2 参数的最小二乘估计实际上，回归参数 ,通常是未知的，需要对其进行估计。假定对于自变量 ,+和因变量y已得到n次观测，第i 次观测值为（），i=1,2,n第66页/共92页67 于是有 =i=1,2,n 其中，为相互独立的随机变量，且。第67页/共92页68 回归参数 ,常用最小二乘法来估计，记 Q

17、(,)=第68页/共92页69 求它的最小值点（），即 Q()=Q(,)则就是 ,的最小二乘估计。第69页/共92页70令 Q对 ,的一阶偏导数为零，即可求出最小二乘估计。(j=1,2,n)第70页/共92页71将上述方程组整理可得到 (8-7)方程组（8-7）称为“正规方程组”。第71页/共92页72记第72页/共92页73则模型（8-6）可表示为 Y=X +正规方程组（8-7）可表示为（XTX）=XTY第73页/共92页74当k+1阶方阵XTX满秩时，（即等价于r(X)=k+1）,可解出的唯一最小二乘估计这样就得到了y的估计式可以看出，最小二乘估计是y的观测值的线性函数，且是的无偏

18、估计。第74页/共92页75因为 E()=(XTX)-1XTE(y)=(XTX)-1XTX =类似于一元线性模型，可证明最小二乘估计为的“方差最小”线性无偏估计，“方差最小”可理解为：对的每个分量，最小二乘估计的方差最小。第75页/共92页768.3.3 多元线性回归模型的检验多元线性回归模型的检验包括两个方面：对回归模型的拟合程度的评价，和回归线性相关关系的检验，方法和一元线性回归类同。第76页/共92页778.3.4 多元线性回归模型的应用在多元线性回归模型中，预测的方法与一元线性回归模型的情况非常类似，建立了线性回归模型之后，便可用它对有关变量进行预测。第77页/共92页78

19、给定，对应的因变量记为y0，则y0的点估计可由模型求得。第78页/共92页79 若记，则可证明 N 于是 N(0,1)用代替，便有 t(n-k-1)第79页/共92页80 对于给定的，的置信度为100（1-）%的置信区间为第80页/共92页81 4 回归分析中的一些特殊问题第81页/共92页82 前面我们介绍了线性回归模型的建立和应用，一元线性回归分析在实际中应用并不广泛，而更多的是多元线性回归模型，但在实际中，正确应用线性回归模型分析实际问题并不是一件容易的事。由于有多个自变量，以下我们来介绍回归分析中的一些特殊问题。第82页/共92页838.4.1 自变量的选择问题在建立

20、一个回归模型时，我们要将所有可能对因变量产生影响的自变量考虑到模型中去，而通常在所有备选的自变量中，只有一部分真正对因变量有影响，这样的变量称为有效变量，而其它的则可能对因变量没有影响，称为无效变量。因此需要将有效变量保留在模型中，而无效变量应从模型中去掉，这样就产生了自变量的筛选问题，具体方法略。第83页/共92页848.4.2多重共线型问题在许多场合，如社会研究，时常分析等领域中，自变量是随机的，在这种情况下，自变量之间就会有很强的统计相关性，即多重共线性。由于样本数据间存在着线性相关关系而产生的问题就称为多重共线性问题。因此检验多重共线型问题是必要的，具体方法略。第84页/共92页85

21、在多重共线性现象中，一种极端情况是自变量间的相关系数为，这种情况称为完全的多重共线性现象。此时，某个自变量可表示为其它自变量的线性组合，则有X的秩小于k+1,XTX的逆不存在。第85页/共92页86 而在建立线性回归接近于零，这时虽然XTX的逆存在且可求出回归参数的唯一的最小二乘估计量，但对应的估计量方差将会随着相关程度的不断增强而增大，回归参数的估计量的方差不断地增加，使得其置信区间不断增大，从而回归系数估计值的精度下降，我们便不能准确的分析有关自变量对因变量的真正影响。另外，估计量的方差增大，也使我们在回归系数检验中容易得到不显著的结果。第86页/共92页878.4.3 自相关问题在研究

22、线性模型 i=1,2,n其中假定了随机误差项之间是相互独立的即:N(0,)=第87页/共92页88 但在实际中，特别是在经济分析中，大多数时间序列的资料都具有时滞性，如投资，收入，消费，就业等，这样的时间序列资料中顺序观测数据之间存在着相关现象，这种相关现象又将反映到中去，使得随机误差项之间存在着一定程度的相关关系。随机误差项与，相关称为自相关，与相关称为r阶自相关，而最常见的是一阶自相关，即与相关。第88页/共92页89以下我们讨论的是一阶自相关问题:设模型为 (8-8)i=1,2,n 其中满足 0，则之间存在正自相关现象；若 0，则之间存在负相关现象。第90页/共92页91 随机误差项的自相关现象将使得回归参数不再是最小方差估计量，估计量的方差增大，估计精度将会下降；估计量不能准确地估计，从而会引起与有关的结论产生错误。因此，需要弄清随机误差项之间是否存在自相关现象，具体方法略。第91页/共92页92感谢您的观看！第92页/共92页

展开阅读全文