薪酬设计回归分析37083.docx

上传人:you****now 文档编号:68896015 上传时间:2022-12-30 格式:DOCX 页数:38 大小:375.80KB
返回 下载 相关 举报
薪酬设计回归分析37083.docx_第1页
第1页 / 共38页
薪酬设计回归分析37083.docx_第2页
第2页 / 共38页
点击查看更多>>
资源描述

《薪酬设计回归分析37083.docx》由会员分享,可在线阅读,更多相关《薪酬设计回归分析37083.docx(38页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、泉州智峰管理咨询有限公司 龚启海咨询机构提供相关与回归归分析第一节简单单线性相关关分析一、相关关关系的概念念与种类(一)相关关关系的概概念在自然界和和人类社会会中,普遍遍着存在现现象之间的的相互依赖赖、相互制制约的关系系。一些现现象在数量量上的发展展变化经常常伴随着另另一些现象象数量上的的发展变化化。现象间间的数量关关系可分为为两种基本本类型:函数关系系。它是指指现象间存存在的严格格依存的、确确定的因果果关系,一一种现象的的数量变化化必然决定定着另一种种现象的数数量变化,这这种关系可可通过精确确的数学表表达式来反反映,比如如,圆面积积同其半径径的关系为为s=r2,自由落落体落下的的距离同时时间

2、的关系系为h=ggt2,等等。相关关系系。指的是是现象之间间确实存在在着数量关关系,但这这种关系不不是严格确确定的,当当一种现象象的数量发发生变化时时,另一种种现象的数数量可能在在一定范围围内发生变变化,出现现不同的数数值。比如如,单位产产品成本同同产量之间间的关系,一一般说来,当当工厂规模模扩大,产产品产量增增加时,单单位产品成成本会随之之下降,这这种变化趋趋势体现了了规模经济济的效应,具具有客观性性和普遍性性。但由于于影响产品品成本的因因素众多,有有主要的,也也有次要的的,有必然然的,也有有偶然的,有有随机的,也也有非随机机的,有观观察得到的的,也有观观察不到的的,等等。同同一产量水水平下

3、,可可能会出现现各种各样样的单位成成本,或者者某一确定定的单位成成本对应着着不同的产产量,两者者的关系不不是唯一确确定的。粮粮食收获量量与施肥量量之间、商商品价格与与需求量之之间、身高高与体重之之间等都具具有类似的的特征,这这种关系就就是相关关关系。函数关系与与相关关系系既有区别别,又有联联系。由于于观察和实实验中的误误差,函数数关系往往往通过相关关关系表现现出来;而而当对现象象之间的内内在联系和和规律性了了解得更加加清楚的时时候,相关关关系又可可能转化为为函数关系系。在社会会经济领域域里,一般般说来,函函数关系反反映了现象象间关系的的理想化状状态,相关关关系则反反映了现象象间关系的的现实化状

4、状态,只有有在大量观观察时,在在平均的意意义上,它它才能被描描述。综上所述,相相关关系是是现象之间间确实存在在的,但关关系数值不不固定的相相互依存关关系。相关关分析则是是研究一个个变量与另另一个变量量或另一组组变量之间间相关密切切程度和相相关方向的的一种统计计分析方法法。(二)相关关关系的种种类现象之间的的相关关系系是很复杂杂的,从不不同的角度度看,相关关关系有不不同的种类类。1.固定相相关和随机机相关。按按变量的性性质(是否否是随机变变量),相相关关系可可分固定相相关和随机机相关。固固定相关是是指一个随随机变量与与另一个或或一组非随随机变量之之间的的相相关关系。例例如,农作作物的施肥肥量是一

5、个个可控制的的变量,农农作物收获获量是一个个不确定的的变量,两两个变量之之间的关系系表现为一一个随机变变量与另一一个非随机机变量之间间的固定相相关。随机机相关是指指一个随机机变量与另另一个或一一组随机变变量之间的的相关关系系。例如,大大学生的身身高和体重重之间的关关系就是两两个随机变变量之间的的随机相关关关系,如如果观察某某一身高的的一组学生生时,其体体重各不相相同,会形形成一个分分布;如果果观察某一一体重的一一组学生时时,其身高高也不相同同并形成一一个分布,两两个变量均均为随机变变量。2.简单相相关和多元元相关。按按变量的多多少,相关关关系可分分为简单相相关和多元元相关。简简单相关,又又称单

6、相关关,是指一一个随机变变量与另一一个随机变变量或非随随机变量之之间的相关关关系;多多元相关,又又称复相关关,是指一一个随机变变量与另一一组随机变变量或非随随机变量之之间的相关关关系。按变量之间间的相关方方向不同,简简单相关又又可分为正正相关和负负相关。当当自变量的的值增加,因因变量的值值也相应地地增加;自自变量的值值减少,因因变量的值值也随之减减少时,这这样的相关关关系就是是正相关。反反之,当自自变量的值值增加时,因因变量的值值随之减少少;自变量量的值减少少时,因变变量的值反反而增加,具具有这种特特点的相关关关系就是是负相关。多元相关可可进一步分分解为简单单相关和偏偏相关。偏偏相关是指指在测

7、定一一个随机变变量与某个个或某些随随机变量或或非随机变变量之间的的相互关系系后,该随随机变量与与某一新增增加的随机机量或非随随变量之间间的相关关关系,又称称之为净相相关。3.线性相相关和非线线性相关。按按变量之间间的相关形形式,相关关关系可分分为线性相相关和非线线性相关。若若一随机变变量与另一一个或一组组随机变量量或非随机机变量之间间的相关关关系表现为为线性组合合时,则称称它们之间间的相关关关系为线性性相关。反反之,若一一随机变量量与另一个个或一组随随机变量或或非随机变变量之间的的相关关系系不能表现现为线性组组合,而只只能表现为为非线性组组合时,则则称它们之之间的相关关关系为非非线性相关关。4

8、.完全相相关、不完完全相关和和不相关。按按变量之间间的相关程程度不同,相相关关系可可分为完全全相关、不不完全相关关和不相关关。若一个个变量的值值完全由另另一个或一一组变量的的值所决定定,则称变变量之间的的这种相关关关系为完完全相关,即即函数关系系。若一个个变量的值值与另一个个或一组变变量的值有有关,但其其中要受到到随机因素素的影响,则则称变量之之间的这种种相关关系系为不完全全相关。若若一个变量量的值完全全不受另一一个或一组组变量值的的影响,则则称变量之之间不相关关。大量社社会经济现现象之间的的相关关系系都属于不不完全相关关,不完全全相关是相相关分析的的基本内容容。完全相相关和不相相关可视为为相

9、关关系系中的特例例。二、简单线线性相关图图表判定两变量量之间的相相关程度和和相关方向向是简单线线性相关分分析的重要要内容之一一。其最简简单、最直直观的方法法就是列相相关表、绘绘制相关图图。简单线性相相关关系有有固定简单单线性相关关与随机简简单线性相相关之分。简简单线性相相关图表可可用于直观观地表明这这两类简单单线性相关关变量之间间的相关程程度和相关关方向。(一)固定定简单线性性相关图表表已知有两个个变量,设设y是随机机变量,xx是非随机机变量,对对应于x的的每一个给给定的取值值,y有多多个可能的的取值,但但在一次试试验中,yy只取其中中一个可能能值。由于于x是非随随机变量,在在实验中其其取值可

10、以以控制并重重复进行,所所以在n次次试验中,xx可能取nn个相同或或不同的值值,相应地地也有n个个y的值,即即得到一一一对应的样样本资料(x,y)。将将这些数据据按x的取取值由小到到大依次对对应排列,即即构成固定定简单线性性相关表,又又称之为一一维相关表表。例9.1 某地区区居民人均均收入水平平(x)与与其食品支支出占生活活费支出比比重(y)之间具有有相关关系系,编制相相关表如下下(见表99-1):表9-1 一维相关关表人均收入水水平(元)x2803203905306506707908809101050食品支出占占生活费支支出比重(%)y68.367.566.264.956.760.254.4

11、49.050.543.6从表9-11可以粗略略看出,随随着居民人人均收入水水平的提高高,食品支支出占生活活费支出的的比重有下下降的趋势势。将一一对应应的(x,y)描点点于坐标系系上,即构构成散点图图,又称相相关图。在在相关图上上,以横轴轴表示非随随机变量(xx),以纵纵轴表示随随机变量(y),通通过观察各各对变量值值坐标点的的分布状况况,可以大大致判断变变量之间相相关的形态态、方向和和密切程度度。利用表9-1资料,可可绘制相关关图如下(见图9-1):图9-1 居民民人均收入入水平与其其食品支出出的关系图图从图9-11可以看出出,随着居居民人均收收入水平的的提高,食食品支出占占生活费支支出的比重

12、重明显降低低,并大致致呈线性下下降趋势,即即负线性相相关。一些常见的的相关分布布状态可用用下述各图图表示(见见图9-22): 较显著的的线性正相相关 较显著著的线性负负相关不显著的线线性负相关关 不相关图9-2 几种常常见的相关关散点图(二)随机机简单线性性相关图表表设x 、yy为两个随随机变量,将将观测值(x,y)分组组之后按顺顺序排列,xx从小到大大排列,yy从大到小小排列,形形成一棋盘盘式平衡表表,称之为为二维相关关表。例9.2 某地区区为研究降降雨量和农农作物平均均每亩收获获量的关系系,从400个降雨量量不同的试试验田中获获得40对对数据。用用x表示降降雨量,yy表示平均均每亩收获获量

13、。据此此可编出二二维相关表表如下(见见表9-22)。该表中,中中间每一格格列出的是是x、y的的联合频数数,它表明明x和y同同时取某值值的次数;最后一列列每一格是是每一行的的联合频数数的和,它它表明y取取某值的次次数;最后后一行每一一格则是每每一列的联联合频数的的和,它表表明x取某某值的次数数。表9-2 二二维相关表表 降雨量(毫毫米)xii频数fijj81012141618行和(fj)收获量(公公斤)yjj260121424022262202351112001363131801231601113列和(fii)3614115140从表9-22可以粗略略看出,降降雨量与收收获量之间间大致呈线线性正

14、相关关关系。利用表9-2资料,可可绘制相关关图如下(见图9-3):图9-3 降雨量量与收获量量之间相关关图三、简单相相关系数(一)简单单相关系数数的意义简单线性相相关图表虽虽然直观,但但不能精确确地描述现现象间的相相关关系。测测量两个变变量之间线线性相关程程度和相关关方向的指指标,称为为简单相关关系数。总体相关系系数一般用用R表示,定定义式为(式9.11)式中,和表表示变量XX和Y的标准差差,对有限限总体而言言,其计算算公式为(式9.22)(式9.33)表示两个变变量X和Y之间的协协方差,计计算公式为为(式9.44)这里,变量量X和Y 为总体体变量,NN为总体单单位数,和和分别为变变量X及YY

15、的总体平平均数,计计算式为(式9.55)(式9.66)要理解相关关系数R的的意义,首首先要明确确协方差和和标准差、在反映变变量之间相相关关系中中的作用。协方差反映映了变量XX和Y的共共变性,可可以显示两两个变量的的相关方向向和相关关关系的密切切程度,它它可能出现现以下几种种情况:第一,所有有相关点均均为正相关关,则0,说明两两个变量之之间正线性性相关。第二,所有有相关点均均为负相关关,则 00,说明两两个变量之之间负线性性相关。第三,在全全部相关点点中,既有有正相关、又又有负相关关和零相关关,在计算算协方差时时就会出现现正负抵销销。抵销的的结果如为为正数则是是正相关,如如为负数则则是负相关关。

16、数值大大表示相关关程度强,数数值小则表表示相关关关系弱。若若正、负全全部低销掉掉了,结果果为零,则则表示不相相关。第三种情况况是实际经经济生活中中最常见到到的情况。此此外,还有有两种极端端的情况:当所有相相关点都是是零相关时时,抵销结结果为零,表表示两个变变量完全没没有相关关关系。当所所有相关点点全部落在在直线上时时,表示两两个变量完完全线性相相关,即存存在函数关关系。进一步,相相关系数是是一个界于于+1和-1之间的的数,即-1R1,若RR=1,说说明两个变变量之间存存在完全正正线性相关关;若R=-1说明明两个变量量之间存在在完全负线线性相关;若0 R 11,说明两两个变量之之间存在一一定程度

17、的的正线性相相关;若-1 RR 0,说说明两个变变量之间存存在一定程程度的负线线性相关;若R=00,说明两两个变量之之间没有线线性相关关关系。(二)简单单相关系数数的计算在实际工作作中,总体体相关系数数R一般是是未知的,往往往需要用用样本资料料推断总体体的相关情情况,因而而需要计算算样本相关关系数。1.固定简简单线性相相关系数的的计算设x和y 为样本变变量,其中中y为随机机变量,xx为非随机机变量, n为样本本容量,、分别为变变量x及yy的样本平平均数,、和分别表示示变量x和y的样本标标准差及它它们之间的的样本协方方差,其计计算为(式9.77)(式9.88)(式9.99)(式9.110)(式9

18、.111)于是,就可可得到与总总体相关系系数计算形形式相同的的样本相关关系数(记记为r)的的公式(式9.112)经过简单的的推导,上上式还可变变化为下面面易于计算算的形式(式9.113)根据表9-1的资料料计算相关关系数如表表9-3所示:表9-3 固定简单单线性相关关系数计算算表序号人均收入水水平(元)x食品支出占占生活费支支出比重(%)yx2y2xy128068.37840004664.89191244232067.510240004556.25216000339066.215210004382.44258188453064.928090004212.01343977565056.74225

19、0003214.89368555667060.244890003624.04403344779054.462410002959.36429766888049.077440002401.00431200991050.582810002550.2545955510105043.6110255001900.96457800合计6470581.3348143300344666.093559559将表9-33数字代入入上述相关关系数计算算公式,得得:= - 00.982.随机简简单线性相相关系数的的计算如果x和yy均为随机机变量,计计算样本相相关系数的的基本式仍仍为但由于存在在联合频数数(fij),其其

20、具体的计计算略有变变化,经过过不复杂的的类推可得得下式(式9.114)根据表9-2资料计计算相关系系数,计算算过程如表表9-4、表表9-5、表表9-6所所示:表9-4 降雨雨量(x)数据的的计算表降雨量(毫毫米)xiifixi2xifixi2fii83642419210610060600121414416820161411196154215616525680128018132418324合计405046568表9-5 平均每每亩收获量量(y)数据的的计算表平均每亩收收获量(公斤)yjfjyj2yjfjyj2fjj16032560004807680001803324000540972000200

21、13400000260052000002201148400024205324000240657600014403456000260467600010402704000合计40852018424400表9-6 平均每每亩收获量量(y)数据的的计算表降雨量(毫毫米)xii平均每亩收收获量(公斤)yjfijxiyjffij816011280818011440820011600101601160010200360001022024400121601192012180243201220061440001222037920122402576014200384001422051540001424026720

22、14260136401622013520162402768016260283201626014680合计401090000根据以上各各表资料可可得: = = 0.667四、相关系系数的统计计推断总体相关系系数R一般般是未知的的,能够计计算出的只只是样本相相关系数rr,r虽然然能够提供供关于总体体相关程度度与方向的的某种信息息,r愈大大,在一定定程度上说说明总体相相关程度愈愈高,但也也可能犯错错误。这就就需要根据据样本资料料对总体相相关系数RR进行检验验和估计。(一)关于于总体相关关系数R的的检验由于相关系系数r的分分布复杂,不不能直接利利用它去进进行统计推推断,但如如果设ZR=(式式9.155

23、)zr=(式式9.166)可以证明,当当样本(xx,y)抽自自正态分布布总体时,zr近似服从平均值为ZR,方差为的正态分布,于是z=(zrr-ZR)(式9.17)近似服从标标准正态分分布。据此此可以检验验H0:R=RR0(R00)利用例9.1资料,计计算的样本本相关系数数r=-00.98,是否可以以认为总体体相关系数数R=-00.90,统计假设设为H0:R=-0.990H1:R-0.900此时,ZR=-1.4772zr=-2.2998于是,检验验统计量z=(zrr-ZR)=(-2.298+1.4772)=-2.1185当显著水平平=5%时时,查正态态分布表可可得,故否否定H0,接受HH1,即不

24、能能认为总体体的相关系系数R=-0.900。同理,也可可以对总体体相关系数数进行单边边检验。(二)关于于总体相关关系数R的的区间估计计首先,求出出ZR的估计区区间。若与与估计保证证程度对应应的概率度度为Z,ZR的估计区区间就为zr-ZRR zr+对于例9.1,ZR的95%置信估计计区间为-2.2998-ZR-2.2298+ 即 -3.0039ZR-1.5557根据ZR的的置信区间间,可以换换算出R的的置信区间间:当ZR=-3.0039时,RR=-0.99当ZR=-1.5557时,RR=-0.92计算结果说说明,居民民人均收入入水平与食食品支出占占生活费支支出比重之之间的总体体相关系数数R的95

25、5%的置信信区间为-0.999至-0.92。同理,也可可类似地对对例9.22进行分析析,请读者者自己思考考。第二节 简单线线性回归分分析一、回归分分析的概念念和种类从历史上看看,“回归”概念的提提出是要早早于“相关”的,生物物统计学家家高尔顿在在研究豌豆豆和人体的的身高遗传传规律时,首首先提出“回归”的思想。11887年年,他第一一次将“回复”(Revversiion)作作为统计概概念使用,后后改为“回归”(Reggresssion)一一词。18888年他他又引入“相关”(Corrrelaationn)的概念念。原来,他他在研究人人类身高的的遗传时发发现,不管管祖先的身身高是高还还是低,成成年

26、后代的的身高总有有向一般人人口的平均均身高回归归的倾向。通通俗的讲就就是,高个个子父母,其其子女一般般不象他们们那样高,而而矮个子父父母,其子子女一般也也不象他们们那样矮,因因为子女的的身高不仅仅受到父母母的影响(尽尽管程度最最强),还还要受其上上两代共四四个双亲的的影响(尽尽管程度相相对弱一些些),上三三代共八个个双亲的影影响(尽管管程度更加加弱一些),如如此等等 ,即子女女的身高要要受到其22n(n趋近近无穷)个个祖先的整整体(即总总体)影响响,是遗传传和变异的的统一结果果。回归和相关关已成为统统计学中最最基本的概概念之一,其其分析方法法已是最标标准、最常常用的统计计工具之一一。从狭义义上

27、看,相相关分析的的任务主要要是评判现现象之间的的相关程度度高低以及及相关的方方向的,而而回归分析析则是在相相关分析的的基础上进进一步借用用数学方程程将那种显显著存在的的相关关系系表示出来来,从而使使这种被揭揭示出的关关系具体化化并可运用用于实践中中去。但也也常从广义义的角度去去理解相关关和回归,此此时回归分分析就包含含着相关分分析。回归分析最最基本的分分类就是一一元回归和和多元回归归,前者是是指两个变变量之间的的回归分析析,如收入入与意愿支支出之间的的关系;后后者则是指指三个或三三个以上变变量之间的的关系,如如消费支出出与收入及及商品价格格之间的关关系等。进一步,一一元回归还还可细分为为线性回

28、归归和非线性性回归两种种,前者是是指两个相相关变量之之间的关系系可以通过过数学中的的线性组合合来描述,后后者则没有有这种特征征,即两个个相关变量量之间的关关系不能通通过数学中中的线性组组合来描述述,而表现现为某种曲曲线模型。二、简单线线性回归方方程总体的简单单线性回归归模型可表表示为Y=A+BBX+e(式式9.188)上式中,XX称为自变变量,Y称为因变变量,e称称为随机误误差值。从这里可以以看出相关关分析与回回归分析的的显著区别别,在前述述的相关分分析中通常常可以将变变量X和YY视作是某某种“对等”的因素,而而在这里的的回归分析析中,它们们却是不“对等”的。自变变量是解释释变量或预预测变量,

29、并并假定它是是可以控制制的无测量量误差的非非随机变量量;相反,因因变量是被被解释变量量或被预测测变量,它它是随机变变量,即相相同的Y可可能是由于于不同的XX所造成,或或者相同的的X可能引引起不同的的Y,其表表现正是随随机误差项项e。随机机误差值ee是观察值值Y能被自自变量X解解释后所剩剩下的值,故故又称为残残差值,它它是随机变变量。A和B为未未知待估的的总体参数数,又称其其为回归系系数。由此此可见,实实际观测值值Y被分割割为两个部部分:一是是可解释的的肯定项AA+BX,二是是不可解释释的随机项项e。与相关分析析类似,总总体的回归归模型Y=A+BX+ee是未知的的,如何根根据样本资资料去估计计它

30、就成为为回归分析析的基本任任务。由此此可以假设设样本的回回归方程如如下:(式9.119)上式中,、和分别为Y、A和BB的估计值值。如果对变量量X和Y联联合进行nn次观察,就就可以获得得一个样本本(x,yy),据此此就可求出出、的值。求、的方法法有多种,但但一般是采采用最小平平方法。它它要求观察察值y与估估计值的离离差平方和和达到最小小值,即=最小值满足这一要要求的和可由下述述标准方程程求出y=n+xxy=x+x2解方程得:(式9.220)(式9.221)例9.3 为研究究某类企业业的生产量量和单位成成本之间的的关系,现现随机抽取取10个企企业,得如如下数据(见见表9-77):根据该资料料,经计

31、算算可得表99-8:表9-7 100个企业的的生产量和和单位成本本情况编号12345678910产量(万件件)2344566789单位成本(元/件)52545248484645444038表9-8 一一元线性回回归计算表表编号产量(万件)x单位成本(元/件)yx2y2xyy-12524270410454.355-2.35523549291616252.1001.90345216270420849.8552.15444816230419247.855-1.855554825230424047.6000.40664636211627645.3550.65764536202527045.355-0.

32、355874449193630843.1000.90984064160032040.855-0.8551093881144434238.600-0.600合计5446733622053324224670由上表资料料,可得: = - 2.255 = 588.85这样就可以以得到生产产量(x)和单位成成本(y)之间的样样本回归方方程=58.885-2.25x在简单线性性回归方程程中,为截距距, 为斜率率,后者表表示自变量量x变化一一个单位时时,将平均均变化个单单位。当取取正值时,表表明x和yy的变化方方向相同,当当取负值时时,表明xx和y的变变化方向相相反。本例例中,=-2.255,表明产产量每增

33、加加1万件时时,单位成成本将平均均下降2.25元。根据样本资资料获得的的回归方程程又称为经经验方程,如如果计算出出观察值yy的估计值值,并进一一步求出残残差y-,就就可以观察察回归方程程对总体方方程拟合的的优良程度度。对于某某一特定的的自变量xx而言,观观察值y同同其估计值值是有一定定差别的,比比如,当产产量为5万万件时,实实际单位成成本为488元,而其其估计值为为47.660元,两两者相差00.4元,但但全部残差差项之和等等于零(见见表9-88),这说说明估计值值平均来说说是无偏的的。事实上上,最小平平方估计量量还满足下下式(y-)=0 即 这里,表示示估计值的的平均值,即即从理论上讲讲,最

34、小平平方法具有有优良特性性,因为参参数A、BB的最小平平方估计量量、是最优的的线性无偏偏估计量,这这一性质通通常称为“高斯马尔科夫夫定理”,这也是是最小平方方法获得广广泛应用的的主要原因因。此外,如果果记随机误误差项e的方差为为2,它也是未未知的总体体参数,其其无偏估计计量为(式9.222)上式中,称称为剩余离离差平方和和或残差平平方和,nn-2为自自由度。三、离差分分析对于某一个个观察值,其其离差大小小可通过观观察值与全全部观察值值的均值之之差-表示出来来,-又可进一一步分解为为-和-两部分,即即-=(-)+(-)可以证明,当当变量X和和Y之间线线性相关时时,还进一一步存在下下述等式关关系S

35、(-)2=S(-)2+S(-)2通常记T=S(-)2R=S(-)2分别称T、RR和为总离离差平方和和、回归离离差平方和和和剩余离离差平方和和。总离差差平方和反反映了样本本中全部数数据的总波波动程度;回归离差差平方和反反映了回归归估计值自自身的离散散程度,它它是由于回回归方程及及自变量xx取值不同同所造成的的,是可以以解释的差差别;剩余余离差平方方和是回归归拟合后所所剩下的部部分,是不不能解释的的变差,故故又称为残残差平方和和。显然,T中中R的比重重愈大,或或者的比重重愈小,则则说明线性性回归拟合合愈好,反反之,拟合合就愈差。由由此可以建建立下述指指标r2=(式式9.233)称r2为样样本相关程

36、程度的判定定系数,rr=为样本本相关系数数。由此就就可直观地地看出r22和r的特特性:(1)r221或-11r+1(2)|rr|愈接近于于1,相关关程度愈强强;|r|愈接近于于0,相关关程度愈弱弱。(3)r取取正值时表表明正相关关,r取负负值时表明明负相关。(4)r只只能表明总总体是否可可能存在线线性相关,当当|r|很小甚至至接近于00时,只能能说明总体体可能不存存在线性相相关,但是是否存在非非线性相关关还需进一一步判定。从计算角度度看,上述述几种离差差还可表示示为 T=S(-)2=R=S(-)2=b2S(-)2=b2=T-R对于例9.3,有T=222053-(467)2=2444.10R=

37、b22=(-2.255)23366-(54)2=2244.78=T-R=244.1-2224.788=19.32计算结果说说明:单位位成本的总总离差平方方和为2444.100,其中由由于产量变变化所造成成的为2224.788,占922.09%,由于产产量以外的的所有因素素共同造成成的为199.55,占占8.011%。据此此计算的相相关系数为为r=00.96四、统计推推断依据样本数数据得到的的经验回归归方程,是是否能够较较好地拟合合了总体的的实际情况况,必须通通过统计检检验加以判判断。可以证明:当变量YY服从正态态分布时,从从中随机抽抽取样本(x,y),回归系数A和B的最小平方估计值和也服从正态

38、分布,其平均值分别为=A (式99.24)=B (式99.25)方差分别为为(式9.226)(式9.227)于是,就可可建立两个个标准正态态统计量(式9.228)(式9.229)并且,和的的计算式中中一般未知知,但其无无偏估计量量为据此对A和和B进行统统计假设检检验的步骤骤如下(仍仍以例9.3的资料料):(1)检验验A第一步:建建立统计假假设H0:A=0H1:A00第二步:计计算z统计量 由于=22.4155=1.8228=1.3552因此,检验验统计量为为=43.528第三步:确确定显著水水平,做出出判断 若设=55%,经查查表得=11.96z=433.5288,拒绝零假假设,即认认为回归系

39、系数A显著著的不为零零。(2)检验验B同理,可对对回归系数数B进行检检验。若统统计假设为为H0:B=0H1:B00此时=0.0554=0.2333检验统计量量=-9.657由于=1.96|z|=99.6577,拒绝零假假设,即认认为回归系系数B也显显著的不等等于零,说说明单位成成本同产量量之间存在在显著的线线性相关关关系。与前面的讨讨论类似,也也可对A和和B进行单单边检验以以及A和BB是否显著著的与某一一确定值相相同或不相相同的检验验。但通常常进行的是是对A=00和B=00的检验。对对A=0的的检验是考考察回归直直线是否通通过坐标原原点;由于于B表示XX变化一个个单位时对对Y的影响响程度,因因

40、此对B=0的检验验实际是考考察这种程程度是否为为零,即是是否存在线线性相关关关系。另外,通过过最小平方方法获得的的和只是A和和B的点估估计量,在在此基础上上可进一步步给出它们们的区间估估计。当置信度为为1时,AA和B的置置信区间分分别为- A +(式9.30)- A +(式9.31)这里=(式9.32)=(式9.33)对于例9.3,当置置信概率为为95%时时=1.9961.3552=2.65=1.9960.2333=0.46于是可得AA和B的置置信区间分分别为58.855-2.655A58.885+2.65即56.220A61.550-2.555-0.466B-2.555+0.46即-3.00

41、1 B 2.099五、回归预预测拟合的回归归方程及其其参数通过过检验后,经经常要应用用它去预测测,显然,给给定x=xx0时,Y的的点预测量量为(式9.334)Y的置信度度为1-的的区间预测测量为-Y+(式式9.355)这里=(式9.36)(式9.337)接上面的例例子,当产产量为100万件时,单单位成本的的点预测值值为=58.885-2.25100=36.35(元元)由于=3.8007=1.9951当产量为110万件,置置信度为995%时,由由于=1.9961.9551=3.82于是可得单单位成本的的预测区间间为-Y+36.355-3.822Y36.335+3.82即32.553元Y40.11

42、7元必须指出的的是,给定定的x0如果在样样本(x11,x2,xn)的最小小值至最大大值之间取取值,预测测过程称为为内插预测测,否则,称称为外推预预测。进行行外推预测测时,误差差一般较大大,这是由由两方面原原因引起的的:一是xx0远离,二是是回归方程程通过检验验后,虽然然能代表总总体的线性性相关关系系,但这种种关系只能能在样本范范围内成立立,在其之之外就有可可能出错误误,并且,随随着情况的的变化,原原样本也可可能不再能能反映总体体的现状,这这样,预测测的效果就就不好甚至至失败。第三节 多元线性性回归与相相关分析一、多元线线性回归分分析简单线性回回归与相关关分析是对对客观现象象之间的关关系进行高高

43、度简化的的结果,但但在实际问问题中,影影响因变量量的因素往往往不只一一个,而是是多个。比比如,产品品的成本不不仅取决于于该产品的的生产量,而而且也与原原材料价格格、技术水水平、管理理水平等因因素有关;再如,影影响农作物物收获量的的因素,除除施肥量外外,还有种种子、气候候条件、耕耕作技术等等因素。多多元线性回回归与相关关所研究的的就是三个个或三个以以上的变量量之间的数数量关系问问题。总体的多元元线性回归归方程为Y=A+BB1X1+B2X2+BkXk+e(式9.38)总体回归方方程一般未未知,需要要通过样本本去估计。设设估计方程程为=+b1xx1+b2x2+bkxk(式9.39)上式中,、b1、b2、bk称为回归归系数,其其中,bi(i=11,2,,k)又又称为偏回回归系数,它它表示当其其它自变量量均为零时时,xi每变化一一个单位对对因变量影影响的数值值。设样本为(x1,x2,xk,y),利利用最小平平方法可估估计出回归归方程中的的参数,即即要求=(y-)2=y

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理工具

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com