初级计量经济学课件优秀课件.ppt-得力文库

资源描述

《初级计量经济学课件优秀课件.ppt》由会员分享，可在线阅读，更多相关《初级计量经济学课件优秀课件.ppt（167页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、初级计量经济学课件1第1 页，本讲稿共167 页第一部分绪论什么叫计量经济学（Econometrics)？19世纪20年代挪威经济学家R.Frish 将它定义为“经济理论”、“统计学”、“数学”三者的结合。（计算机科学）2第2 页，本讲稿共167 页计量经济学家的荣耀 1969年首届诺贝尔经济学奖获得者弗里斯（Frisch)1980年诺贝尔经济学奖获得者克莱因(Klein)计量经济学鼻祖 2000年诺贝尔经济学奖获得者：在微观计量经济学作出杰出贡献的赫克曼(Heckman)和麦克法登(Mc Fadden)3第3 页，本讲稿共167 页计量经济学家的荣耀最近一届（2003）诺贝尔经济学奖获

2、得者：计量经济学家格兰杰(Granger)和恩格尔(Engle)半数以上的诺贝尔经济学奖授予了在计量模型上颇有建树的经济学家，诺贝尔经济学奖引领经济学发展潮流4第4 页，本讲稿共167 页计量经济学的内容体系广义计量经济学和狭义计量经济学广义是利用经济理论、数学以及统计学定量研究经济现象的方法统称。（回归分析、投入产出分析、时间序列分析等）狭义以揭示经济变量间的关系为目的，主要应用回归分析方法。单方程模型和联立方程模型对股票市场的研究VS 对金融市场的研究5第5 页，本讲稿共167 页计量经济学的内容体系线性模型、内在线性模型与非线性模型（均从参数进入模型的角度来定义）参数模型、半参数模型

3、和非参数模型（均从模型的函数形式是否确定来定义）6第6 页，本讲稿共167 页计量经济学的内容体系因数据类型差异而导致模型的差异：a.横截面数据集（cross-sectional data set):即给定时点对个人、家庭、企业、城市、国家或一系列其他单位采集的样本所构成的数据集（应该忽略细小的时间差别）7第7 页，本讲稿共167 页计量经济学的内容体系 b.时间序列数据集（time series data set)：是由一个或几个变量在不同时间的观测值所构成的。c.混合横截面数据（pooled cross section):有些数据既有横截面数据的特点又有时间序列的特点，但每一时点的样本不

4、同，通常是分析政府政策效果的有力数据8第8 页，本讲稿共167 页计量经济学的内容体系 d.综列数据（panel data):由横截面数据集中每个数据的一个时间序列组成。（定点长期调查）其他专门数据类型：1、离散数据（discrete data):通常在考察个人或家庭或企业的决策行为时，通过问卷调查获得，由此发展出“离散选择模型”9第9 页，本讲稿共167 页计量经济学的内容体系 2、持续数据（survival data):用于考察变量从开始到结束或调查终止前所经过的时间长度，如失业持续时间、罢工持续时间、甚至怀孕间隔3、cohort(一代人)data-为持续收集特定社会群体在一段时间内的变化

5、的数据。如：调查七十年代出生的样本在10年间的汽车持有率数据或就业率数据等。10第10 页，本讲稿共167 页计量经济学的内容体系理论计量经济学和应用计量经济学：方法的证明VS 方法的应用11第1 1 页，本讲稿共167 页怎样应用计量经济学企业竞争力评估的一个例子一、理论模型的设计1。确定模型所包含的变量2。确定模型的数学形式或解决方法12第12 页，本讲稿共167 页怎样应用计量经济学企业竞争力评估的一个例子二、样本数据的收集1。几类常用的样本数据2。样本数据的质量:（研究结果不能比数据的质量更好）三、模型参数的估计和检验13第13 页，本讲稿共167 页计量经济学模型成功的三要素

6、理论方法数据14第14 页，本讲稿共167 页计量经济学模型的应用一、结构分析当一个变量或几个变量发生变化时对其他变量或经济系统的影响（弹性和乘数）二、经济预测如通过回归分析总收入和总消费之间的关系，从而在知道一变量数据的情况下可以预测另一变量的走势。15第15 页，本讲稿共167 页计量经济学模型的应用三、政策评价建立模型对政策效果进行评估四、实证检验对经济理论的检验；对某一行业如医药卫生、农业新方法效果的检验。16第16 页，本讲稿共167 页课堂小测试对“回归”的认识你所应用过的计量经济学内容17第17 页，本讲稿共167 页回归“回归”一词的历史渊源加尔顿回归到中等（或平

7、均）回归分析是关于研究一个叫做应变量的变量对另一个或多个叫做自变量的变量的依赖关系，其用意在于通过后者的已知或给定值，去估计和预测前者的（总体）均值18第18 页，本讲稿共167 页几个例子 X Y 父亲身高与儿子平均身高年龄与平均身高个人可支配收入与平均消费支出垄断商的定价与产品平均需求19第19 页，本讲稿共167 页几个关系统计关系和确定性（函数）关系计量经济学主要处理的是随机（random 或stochastic）的应变量，也就是有着概率分布的变量，这是一种统计关系。也可以从有无随机干扰项的角度来区分。回归与因果关系从逻辑上来说，回归关系式本身并不意味着任何因果关系，因果关系应

8、该来自统计学之外。回归与相关关系变量是否是确定的；变量之间是否对称；相关系数度量VS 估计或预测应变量的平均值20第20 页，本讲稿共167 页术语应变量（Dependent）与自变量（Independent）被解释变量（Explained）与解释变量（Explanatory）预测子（Predictand）与预测元（Predictor）回归子（Regressand）与回归元（Regressor）响应（Response）与刺激或控制变量（Stimulus or control variable）内生（Endogenous）与外生（Exogenous）21第21 页，本讲稿共167 页线性回归模

9、型消费函数的一个例子随机干扰项的意义：1。理论的含糊性（其他因素）2。数据的欠缺（如财富）3。核心变量与周边变量（或上或下的随机影响）4。人类行为的内在随机性5。糟糕的替代变量（永久消费和永久收入）6。节省原则（多重共线性的影响）7。错误的函数形式22第22 页，本讲稿共167 页线性回归模型的假定 1。函数形式：2。干扰项的零均值：3。同方差性：4。无自相关：5。回归量与干扰项的非相关：6。正态性：23第23 页，本讲稿共167 页各种假定的含义干扰项的零均值的意思是凡是模型不显著含有的并因而归属u的因素，对y的均值都没有系统的影响；正的u值抵销了负的u值，以至于他们对y的平均值的影响

10、为零。24第24 页，本讲稿共167 页各种假定的含义 u的同方差性同时也意味着y的同方差性，即随着x的变动，y的取值的分布是一定的，是分布不变的。25第25 页，本讲稿共167 页各种假定的含义干扰项之间的无自相关意味着y的决定与其他期的u值无关，即不存在u(t-1)决定u(t)从而决定y的情况干扰项与自变量之间的非相关，干扰项本身是独立于自变量之外的，且如果干扰项与自变量存在相关，则不能独自说明其作用26第26 页，本讲稿共167 页普通最小二乘法总体回归函数（PRF)与样本回归函数（SRF)之差的平方和最小为最小二乘法的准则。27第27 页，本讲稿共167 页估计参数的特性最小二

11、乘估计量的线性和无偏性质所谓线性即估计量是y的一个线性函数所谓无偏即系数估计量的期望等于系数原值估计参数的方差、标准差，协方差（注意到x的变差越大，则估计参数的方差越小）（如果协方差为负，那么的过高估计意味着的过低估计。28第28 页，本讲稿共167 页高斯马尔科夫定理在给定经典线性回归模型的假定下，最小二乘估计量，在无偏线性估计量一类中，有最小方差，也即BLUE(best linear unbias estimator)最小方差的证明29第29 页，本讲稿共167 页估计参数的特性干扰项方差的一个无偏估计量30第30 页，本讲稿共167 页回归拟合的评价 Y 的总变差是离差的平方和

12、：方差分解：总平方和回归平方和误差平方和SST=SSR+SSE 决定系数SSR/SST 对单个估计系数的t 检验31第31 页，本讲稿共167 页相关系数r 相关系数相关系数是两个变量间的线性关联的一个度量相关系数落在-1,1 间，如果两变量独立，则它们之间的相关系数为零，反之不成立32第32 页，本讲稿共167 页蒙特卡罗实验 1。给定25个X 值，给定，的真值，给定零均值的正态分布随机数25个，计算y的25个值 2。利用上述X 值和y值做回归，得出，的估计值 3。给定同一分布的不同随机数取值，重复上述实验100次，求得100个估计值 4。比较100个估计值的均值，看是否与，的真值接近，

13、以此来求证估计值的无偏性33第33 页，本讲稿共167 页正态性假定我们不仅要用ols 法做点估计，我们还要进行假设检验(hypothesis testing)，即对系数的真值做出推断，而这需要干扰项的概率分布。从干扰项的概率分布-估计量的概率分布-系数真值的统计推断34第34 页，本讲稿共167 页为何是正态分布而不是其他？原因1：中心极限定理证明，如果存在大量独立且相同分布的随机变量，那么，除了少数例外情形，随着这些变量的个数无限的增大，它们的总和将趋向于正态分布原因2：中心极限定理的另一解说是，即使变量个数并不是很大或这些变量还不是严格独立的，它们的总和仍可视为正态分布检验数据是否

14、为正态分布：Kolmogorov D 检验，零假设为数据是均值和方差未知的正态分布35第35 页，本讲稿共167 页由于正态性假定而新增的性质 1。系数估计量也是服从正态分布的(根据系数估计量是y的线性函数，而y又是干扰项的线性函数)2。Ols 的系数估计量在整个无偏估计量中，无论是线性的还是非线性的估计，都有最小方差(参见Rao 的证明)，所以我们说最小二乘估计量是最优无偏估计量(BUE)36第36 页，本讲稿共167 页由于正态性假定而新增的性质 3。遵循n-2 个自由度的卡方分布 4。随着样本容量无限地增大，系数估计量将收敛于它们的真值(一致性)37第37 页，本讲稿共167 页其他分布

15、卡方分布 F 分布 t 分布38第38 页，本讲稿共167 页最大似然法（ML)原则：当从总体随机抽取n组样本观测值后，参数估计量应当使得从模型中抽取该n组样本观测值(y)的概率最大将样本观测值联合概率密度函数称为变量的或然函数(LF)。在已经取得样本观测值的情况下，使或然函数取极大值的总体分布参数所代表的总体具有最大的概率取得这些样本观测值(y)，该总体参数即是所要求的参数,即ML估计量。39第39 页，本讲稿共167 页一个回归实例用SPSS 作体重与肺活量的回归（corr.sav注意预测值与残差）40第40 页，本讲稿共167 页课堂作业推导一般线性回归方程的系数的方差及协方差

16、证明高斯马尔科夫定理推导干扰项的方差的一个无偏估计量41第41 页，本讲稿共167 页区间估计与假设检验估计与假设检验构成统计学的两个主要分支，估计理论又主要由点估计与区间估计组成。回顾一些概念：置信区间、置信系数、显著性水平、置信限、置信下限、置信上限42第42 页，本讲稿共167 页回归系数的置信区间回归估计量的置信区间置信区间的宽度与估计量的标准误成正比，即标准误越大，对未知参数的真值进行估计的不确定性愈大。43第43 页，本讲稿共167 页假设检验什么是假设检验：问某一给定的观测是否与某声称的假设相符，这个声称的假设叫做虚拟假设(null hypothesis)，即，与之相对

17、的为对立假设(maintained hypothesis)，即假设检验就是要设计一个程序用来决定拒绝或不拒绝虚拟假设，通常采用两种互为补充的方法：置信区间和显著性检验44第44 页，本讲稿共167 页置信区间的方法检验方法：构造一个参数的的置信区间。如果参数在假设下落入此区间，就不拒绝零假设。但如果它落在此区间之外，则拒绝零假设。第一类错误(拒真)：原假设正确，却拒绝了第二类错误(纳假)：原假设不正确，却接受“统计上高度显著”指：当拒绝原假设时，犯第一类错误的概率是一个很小的数，通常小于1%45第45 页，本讲稿共167 页显著性检验方法构造一个检验统计量，利用该统计量的分布特征，来

18、决定是否接受零假设。通常一个大的t 绝对值，便是与虚拟假设相抵触的迹象单尾检验46第46 页，本讲稿共167 页一些实际操作问题“接受”和“拒绝”假设的含义：正如一个法庭宣告某一判决为“无罪”(not guilty)而不为“清白”(innocent)统计检验的结论也应为“不拒绝”而不为接受。2-t 屈指一算法则:如果自由度=20 且显著水平定为0.05，则只要t 统计量大于2，就可拒绝“零”假设(单尾)47第47 页，本讲稿共167 页一些实际操作问题在进行调查研究之前建立假设而不是相反，以免犯循环推理(circular reasoning)的错误 P 值被定义为一个虚拟假设可被拒绝的最低

19、显著水平，或犯第一类错误的精确概率。由于选择显著性水平的武断性，直接选取p值并决定是否在给定的p值水平上拒绝虚拟假设会较好48第48 页，本讲稿共167 页一些实际操作问题区分统计上的显著性和经济上的显著性。当样本非常大时，几乎任何虚拟假设都一定会被拒绝，点估计的大小成为唯一可研究的问题两种检验方法的选择，置信区间法优于显著性检验法(点与面之分)49第49 页，本讲稿共167 页一些实际操作问题一点建议：集中讨论系数的大小并报告其置信水平，而不去提显著性检验。如果全部或几乎全部虚拟假设都是错误的，讨论一个估计值是否无异于它在虚拟假设下的预测值，都是无意义的。我们更想探明的是什么模型可充当

20、良好的逼近式，这就需要知道被经验估计所排斥的参数值域。50第50 页，本讲稿共167 页回归分析与方差分析对SST=SSR+SSE 进行研究就叫做从回归的观点做方差分析(analysis of variance ANOV A)F 检验：F 检验主要用在多元回归问题中，对全部系数为0做检验，其对立假设为非全部系数同时为051第51 页，本讲稿共167 页预测问题均值预测与个值预测置信带报告回归分析的结果52第52 页，本讲稿共167 页过原点回归考虑资产组合理论中的特征线方程：其中为特定资产组合的收益率为无风险收益率为市场组合收益率为特定资产组合的系统风险53第53 页，本讲稿

21、共167 页课上作业练习题：资产组合理论的资本市场线(CML)在期望收益率与总风险(由标准差来衡量)之间所设的一个线性关系如下：其中为资产组合的期望收益率为资产组合的标准差。下表给出1954-1963年间美国34个共同基金的期望收益率与标准差数据，请检验这些数据是否支持该理论(5%的显著性水平)54第54 页，本讲稿共167 页回归模型的函数形式 1。对数线性模型(斜率系数测度了Y 对X的弹性)2。线性到对数模型(斜率系数测度了X 的绝对改变量对应的Y 的相对改变量，即增长模型)3。对数到线性模型(斜率系数测度了X 的相对改变量对应的Y 的绝对改变量)55第55 页，本讲稿共167 页回

22、归模型的函数形式 4.倒数模型(随着X 无限地增大，(1/X)项趋于零，而Y 趋于极限或渐近值)在菲利普斯曲线中，工资变化对失业水平的反应中，存在有不对称性：当失业率低于经济学家所称的自然失业率时，由失业的单位变化引起的工资上升，要快于当失业率高于自然水平时，由失业的同样变化引起的工资下降。而常数项系数表示工资变化的渐近底限。56第56 页，本讲稿共167 页课上作业恩格尔支出曲线把一个消费者在某一商品上的支出同他的总收入联系起来。令Y=对某一商品的消费支出，X=消费者收入，考虑上述5类所学模型，你会选择哪个(些)模型做恩格尔支出曲线，描绘其曲线图形，并作解释？(提示：解释各种斜率系数，常数

23、项系数)57第57 页，本讲稿共167 页多变量回归模型三变量模型的符号与假定：干扰项零均值无序列相关同方差性干扰项与每一X 变量之间都有零协方差无设定偏误无多重共线性58第58 页，本讲稿共167 页多变量回归模型多重共线性初探1、维恩Venn 图2、不存在一组不全为零的数和，使得59第59 页，本讲稿共167 页多变量回归模型 OLS 估计量和估计量的方差、标准误最小二乘拟合的一些性质：残差和为零，残差与解释变量X2 和X3 均不相关60第60 页，本讲稿共167 页多变量回归模型 OLS 估计量的性质：1。三变量回归线通过Y、X2、X3 的均值2。估计的Y 的均值等于真实Y 的均

24、值3。残差和等于残差的均值4。残差与X2、X3,Y 的估计值均不相关5。自变量X2 和X3 的相关系数朝着1增大，估计系数的方差越大(同样也随的增大而增大)6。在经典线性模型的假定下，可以证明偏回归系数的OLS 估计量是BLUE61第61 页，本讲稿共167 页多变量回归模型 ML估计量：在总体干扰遵循零均值和常数方差的正态分布的假定下，ML估计量和OLS 估计量是相等的，但的ML估计量始终都是而的OLS 估计量为62第62 页，本讲稿共167 页多变量回归模型复判定系数R-square:Y 的变异由变量X2和X3 联合解释的比例63第63 页，本讲稿共167 页多变量回归模型

25、设定偏误初探：所用的回归模型是否是正确设定的？一个三变量回归的例子-期望扩充的菲利普斯曲线 a.假定三变量回归模型正确，检验错误设定的模型(原始菲利普斯曲线)b.错误模型的估计系数(X2 对Y 的总影响=X2 对Y 的直接影响+X2 对Y 的间接影响64第64 页，本讲稿共167 页多变量回归模型校正的值原因：值随着X 变量个数的增加而增加事实上，关于的最重要的事情是，它在经典回归(CR)模型中是不重要的。CR 模型是用来研究一个总体中的参数的，它不问在一个样本中拟合的好坏，如果人们坚持要有对预测成功有一个度量，那么有了标准误也许足够了，因为它对于适当取定的X 值来说，对于参数估计来说

26、，是富有信息的。65第65 页，本讲稿共167 页多变量回归模型简单相关系数：r12(Y 与X2 之间的相关)，r13(Y 与X3 之间的相关)，r23(X2 与X3 之间的相关)偏相关系数：r12.3(X3 保持不变下的Y 和X2 的偏相关系数)，r13.2(X2 保持不变下的Y 和X3 的偏相关系数)，r23.1(Y 保持不变下的X2 和X3 的偏相关系数)X3 保持不变下的Y 和X2 的偏相关，就是从Y 对X3回归和从X2 对X3 回归分别得到的残差之间的简单相关系数。66第66 页，本讲稿共167 页多变量回归模型偏相关系数的一个例子：令Y=农作物收成；X2=雨量；X3=气温假定r

27、12=0,即农作物收成和雨量没有关联再假定r13 是正的，r23 是负的，这时r12.3将是正的；就是说，在气温保持不变的情况下，收成和雨量有正的关联。67第67 页，本讲稿共167 页多变量回归模型关于多项式回归模型：并不违反无多重共线性假定无需提出新的估计问题68第68 页，本讲稿共167 页多变量模型之时间变量需要考虑有关时间变量的3种情况：1。发现应变量怎样在时间上变动.2。常常用来代替一个影响着因变量的基本变量。（如生产函数中的技术常用时间来代替）3。引进时间变量以避免谬误相关69第69 页，本讲稿共167 页课堂练习用回归模型研究过去几年的个人消费支出的行为，数据见EXCEL

28、表格,要求去除时间因素对个人消费支出和个人可支配收入的影响70第70 页，本讲稿共167 页多变量回归的假设检验如果我们仅是对回归模型的参数作点估计，那么并不需要有关干扰项概率分布的任何假定，而如果涉及到假设检验，则要假定干扰项服从某个概率分布。71第71 页，本讲稿共167 页多变量回归的假设检验总论 1。检验关于个别偏回归系数的假设（t 检验）2。检验所估计的多变量回归模型的总显著性（F检验）3。检验两个或多个系数是否相等（t 检验）4。检验诸回归系数是否满足某种线性约束条件（t 检验）5。检验所估计的回归模型在时间上或在不同横截面单元上的稳定性（邹检验）6。检验回归模型的函数形式72

29、第72 页，本讲稿共167 页邹至庄检验的过程邹检验基本假定：第1、2个方程的干扰项独立同正态分布，即均值都为0，方差都为 1。合并全部n1和n2次观测值，用以估计第3个方程并获得它的SSE，记作s1,其自由度为（n1+n2-k)，其中k为所估参数的个数（包括截距项）2。分别估计第1、2个方程并获得它们的SSE，分别记作s2 和s3,其自由度分别为(n1-k)和（n2-k)。记s4=s2+s3，其自由度为（n1+n2-2k)73第73 页，本讲稿共167 页邹至庄检验的过程 3。求出s5=s1-s4 4。在邹检验的基本假定下，可证明F 值遵循自由度为(k,n1+n2-2k)的F 分布 5。如

30、果F 值大于选定显著性水平的临界F值，则拒绝结构稳定性假设。74第74 页，本讲稿共167 页邹至庄检验的直观理解直观上，如果两个时期的回归方程并无结构上的区别，则两个时期的回归方程的残差平方和之和应该和整个时期的回归方程的残差平方和相等，而如果两者相差很大，则我们可以构造F 检验来检验结构的差异75第75 页，本讲稿共167 页检验回归的函数形式 MWD 检验（麦金农，怀特，戴维森）：在线性与对数线性回归模型之间进行选择步骤1：估计线性模型并获得Y 的估计值，记为Yf步骤2：估计对数线性模型并获得lnY的估计值，记为lnf步骤3：算出Z1=(lnYf-lnf)步骤4：做Y 对诸X 和得自步

31、骤3的Z1 的回归。如果按通常的t 检验Z1 的系数是统计上显著的，就拒绝H0（H0：线性模型是合适的）76第76 页，本讲稿共167 页多变量回归的其他问题用多变量回归做预测假设检验三联体：似然比（LR），瓦尔德（Wald，简记W）与拉格朗日（Lagrange)乘数（LM）检验只在非线性回归模型或大样本环境下有更高的效率麦金农，戴维森语：对于线性回归模型，不管它的误差是或不是正态分布的，当然都不需要过问LM，W 和LR，因为我们不能从这些统计量得到任何不为F 所含的信息77第77 页，本讲稿共167 页线性模型的矩阵表示78第78 页，本讲稿共167 页线性模型的矩阵表示79第79 页

32、，本讲稿共167 页回归模型假定的矩阵表示80第80 页，本讲稿共167 页干扰项的方差协方差矩阵81第81 页，本讲稿共167 页最小二乘法的矩阵表示82第82 页，本讲稿共167 页放宽经典模型的假定全部11 个假定：假定1：回归模型对参数而言是线性的假定2：诸回归元X 的值在重复抽样中是固定的假定3：对给定的X，干扰项的均值为零假定4：对给定的X，干扰项的方差不变或有同方差性假定5：对给定的X，干扰项无自相关83第83 页，本讲稿共167 页放宽经典模型的假定假定6：如果X 是随机的，则干扰项与诸X 是独立的或至少是不相关的。假定7：观测次数必定大于回归元的个数假定8：回归元的取值必

33、须有足够的变异性假定9：回归模型是正确设定的假定10：回归元之间无准确的线性关系假定11：随机（干扰）项是正态分布的84第84 页，本讲稿共167 页应用经典线性模型的主要问题第1类：关于对模型设定和对干扰项的假定问题（1、2、3、4、5、9和11）第2类：对数据的假定问题（6、7、8和10），此外，异常值（outliers）问题和测量误差等也可归属此类。85第85 页，本讲稿共167 页不去深究的某些假定的原因假定1：对参数为线性的回归模型原因1：对参数为线性的模型，应用于许多经验现象中是相当成功的；原因2：有时这种模型是更为复杂的非线性回归模型的初次近似86第86 页，本讲稿共167

34、页不去深究的某些假定的原因假定2和6：固定的回归元和随机的回归元原因1：经济学不同其他实验科学，经济学更多依赖于第二手材料（如政府或私人机构收集的数据），因此，即使变量本身实质上也许是随机的，我们也假定变量值是固定的；原因2：因为干扰项是随机的，而如果X 也是随机的，则我们必须明确X 的分布和干扰项的分布是独立的，才不致改变OLS 的优良性质与估计的可行性87第87 页，本讲稿共167 页不去深究的某些假定的原因假定3：干扰项的零均值原因：干扰项的其他均值会导致截距项估计的有偏性假定11：干扰项的正态性做假设检验时在大样本和正态性之间的取舍，也就是说，如果正态性得不到满足，那么则要求有大

35、的样本支持。原因：中心极限定理（如果干扰项是独立同分布的，并有零均值和不变方差，而X 是非随机的，则OLS 系数估计量是渐近正态分布的，且无偏，也就是说t 和F检验仍渐近有效）88第88 页，本讲稿共167 页多重共线性与微数缺测性（micronumerosity)严格地说，多重共线性即指存在有1个以上的准确线性关系；而共线性是指存在1个线性关系；但在实践中很少区分。完全共线性：其中为常数，但不同时为0欠完全共线性：其中为常数，但不同时为0 为随机误差项89第89 页，本讲稿共167 页多重共线性与微数缺测性如果多重共线性是完全的，那么诸X 变量的回归系数是不确定的，并且它们的标准误为无穷大

36、；如果多重共线性是欠完全的，那么，虽然回归系数可以确定，却有较大的标准误（相对于系数本身来说），意思是系数不能以很高的精确或准确度来估计微数缺测性问题即指假定7观测次数必须大于回归元个数的问题，和假定8回归元的取值必须有足够的变异都是对多重共线性假定的补充。90第90 页，本讲稿共167 页多重共线性的来源 1。数据采集所用的方法。例如，抽样限于总体中诸回归元所取值的一个有限制的范围内。2。模型或从中取样的总体受到约束。3。模型设定。例如当X 变量的变化范围较小时在回归中添加多项式项，。4。一个过度决定的模型。这种情况出现在模型的回归元个数大于观测次数时。91第91 页，本讲稿共167 页存

37、在多重共线性问题时的估计多变量回归模型的偏回归系数要求其它变量保持不变，而完全共线性注定了变量之间的共变性，因此带来破坏性的后果92第92 页，本讲稿共167 页（近似）多重共线性的后果 1。虽然OLS 估计量BLUE，但有大的方差和协方差，故难以作出精确的估计 2。由于后果1，置信区间将要宽得多，以致的不拒绝“零虚拟假设”更为容易 3。仍由于后果1，1个或多个系统的t 比率倾向于统计上不显著 4。虽然1或多个系数在统计意义上不显著，总的拟合优度仍非常高 5。OLS 估计量及其标准误对数据的小小变化也会是敏感的。93第93 页，本讲稿共167 页多重共线性的侦察克曼塔(Kmenta)的忠告

38、：1。多重共线性是一个程度问题而不是有无的问题2。由于多重共线性是对被假定为非随机的解释变量的情况而言的，所以这是一种样本而非总体特征。94第94 页，本讲稿共167 页多重共线性的侦察出现多重共线性的一些规则可供参考：1。R 平方值高而显著的t 比率少2。回归元之间有高度的两两相关，但在多变量模型中，简单相关系数只是多重共线性存在的充分而非必要条件3。检查偏相关（一种辅助手段）95第95 页，本讲稿共167 页多重共线性的侦察 4。特征值(eigenvalues，自变量的交叉乘积矩阵XX)和病态指数(condition index)如果CI在10与30之间，就算有中强度的多重共线性，而如果

39、CI在30之上，就算有严重多重共线性 5。方差膨胀因子VIF，当VIF 超过10时，我们说该变量是高度共线的96第96 页，本讲稿共167 页多重共线性的补救措施 1。先验信息，即用先验信息去替换有共线性的变量；先验信息来自先前遇到的同样共线问题的经验研究工作，或者来自该研究领域的有关基础理论 2。剔除变量但要注意设定偏误问题，有时医治也许比疾病糟糕 3。变量代换（一次差分形式）97第97 页，本讲稿共167 页多重共线性的补救措施 4。补充新数据换一个样本或是增加新数据一般能减轻多重共线性的症状 5。其他方法，如因子分析法、脊回归法98第98 页，本讲稿共167 页思考题考虑以下模型：其中

40、Y 消费，X 收入，t=时间。上述模型假定了时间t 的消费支出不仅是时间t 的收入，而且是以前多期的收入的函数。这类模型叫做分布滞后模型（distributed lag models)1。你预期在这类模型中有多重共线性吗？为什么？.2。如果预期有多重共线性，你会怎样解决这个问题？99第99 页，本讲稿共167 页异方差性异方差性的性质：假定4指明给定自变量的干扰项的方差是一个常数，即同方差性（homoscedasticity)，意谓等同的（homo)分散程度（scedasticity)，但如果方差不等，即为异方差性问题。（见收入、储蓄例）100第100 页，本讲稿共167 页异方差性的来源

41、1。按照边错边改学习模型（error learning models)，人们在学习的过程中，其行为误差随时间而减少）2。随着收入的增长，人们有更多的备用收入(discretionary income)，从而如何支配他们的收入有更大的选择范围。类比利润较丰厚的公司在分红政策方面比利润微薄的公司有更大的变化。101第101 页，本讲稿共167 页异方差性的来源 3。数据采集技术的改进 4。异方差性还可能因为异常值的出现而产生 5。异方差的另一来源是回归模型设定的不正确性（如在商品的需求函数中，没有把有关互补或互替的商品价格包括进来）102第102 页，本讲稿共167 页出现异方差时的估计当异方差

42、出现时，系数仍是线性和无偏的，但不再是最优的广义最小二乘法（GLS）：先将原始变量转换成满足经典模型假设的转换变量，然后对它们使用OLS 程序，这样求得的估计量是BLUE 的加权最小二乘法（WLS）是GLS 的一个特例103第103 页，本讲稿共167 页异方差的危害如果我们忽视异方差性而一味使用惯常的检验程序，则无论我们得出什么结论或作出什么推断，都可能产生严重的误导104第104 页，本讲稿共167 页异方差的侦察和多重共线性类似，并不存在有侦察异方差性的严明的法则，只有少数经验法则可供参考。在大多数计量经济调查研究中，异方差性不过是一种直觉，先前经验或纯粹的猜想。（因为我们通常只

43、能得到Y 的样本数据）105第105 页，本讲稿共167 页异方差的侦察非正式方法：1。问题的性质：在涉及不均匀（heterogeneous)单元的横截面数据中，异方差性可能是一种常规而非例外（如研究一些财务指标时，样本包括大、中、小厂家）2。图解法：在无异方差性的假定下做回归分析，然后对残差平方做图，看这些残差平方是否呈现任何系统性的样式。（如横轴是Y 的估计值，纵轴是残差平方，即残差图）106第106 页，本讲稿共167 页异方差的侦察正式方法：1。帕克检验：提出是解释变量X 的某个函数从而把图解法公式化。2。格莱泽(Glejser)检验:原理上类似帕克检验。3。斯皮尔曼（Spearm

44、an)的等级相关检验：从排序的角度来定义残差与X 之间的相关性。107第107 页，本讲稿共167 页异方差的侦察 4。戈德菲尔德匡特检验（适用于和回归模型中解释变量之一有正向关系的情形）步骤1：从最小X 值开始，按X 值的大小顺序将观测值排列步骤2：略去居中的C 个观测值，其中C 是预定的，并将其余（n-c)个观测值分成两组，每组（n-c)/2 个步骤3：分别对前后两段回归，得RSS1 和RSS2步骤4：计算比率：F(RSS2/df)/(RSS1/df)如果F 值大于选定显著性水平的临界F 值，则拒绝同方差性假设。108第108 页，本讲稿共167 页异方差的侦察戈德菲尔德匡特检验说明：1

45、。略去居中的C 个观测值是为了突出或激化小方差组和大方差组之间的差异.2。当样本大小为60时，C 约为163。求得的F 值服从分子和分母自由度各为(n-c-2k)/2 的F 分布，其中k是包含截距项在内的待估参数的个数。4。要求按照被认定为引起异方差性的X变量把观测值重新排序。109第109 页，本讲稿共167 页异方差的侦察怀特（White)的一般异方差检验步骤1：对给定的数据，估计并获得残差步骤2：做如下辅助回归：步骤3：在无异方差性的虚拟假设下，可以证明，步骤4：如果算得的值超过选定显著性水平的临界值，结论就是有异方差性110第1 10 页，本讲稿共167 页异方差的侦察怀特检验的原

46、理在于检验辅助方程中的残差项与诸X 及其交叉乘积项之间是否有显著的线性关系，或相关关系。111第1 1 1 页，本讲稿共167 页异方差的补救措施 1。当已知时，用加权最小二乘法 2。当未知时，列出怀特程序（White option)估计量，更专门化的名词是异方差性相一致协方差矩阵估计量（heteroscedasticity-consistent covariance matrix estimators 或简记为HCCME）但要注意这仅限于大样本的前提下112第1 12 页，本讲稿共167 页异方差的补救措施 3。异方差性假定下的变量变换假定1：误差方差正比于假定2：误差方差正比于假定3：误差

47、方差正比于Y 均值的平方 4。对数变换113第1 13 页，本讲稿共167 页自相关自相关可定义为按时间（时间序列数据如季度产出）或空间（横截面数据如家庭消费支出）排序的观测值序列的成员之间的相关。即违反干扰项之间无自相关的假设。（从回归模型的因变量角度）自相关(autocorrelation）与序列相关(serial correlation)的区别：变量本身与不同变量的区别114第1 14 页，本讲稿共167 页自相关的来源 1。惯性，特别是一些宏观经济指标，如GNP、价格指数等 2。设定偏误：应含而未含变量的情形，如替代商品价格；不正确的函数形式，如产出成本方程中未包括产出二次项 3。蛛

48、网模型（农产品供给）4。滞后效应（消费习惯）5。“编造”的数据，如季度数据由月度数据求平均而成，这样使数据更平滑而显自相关。（内插与外推等数据揉合技术）115第1 15 页，本讲稿共167 页自相关出现时的估计首先必须清楚各种干扰项的发生机制：一阶自回归模型AR（1）一阶移动平均MA（1）自回归与移动平均过程ARMA（1,1）116第1 16 页，本讲稿共167 页自相关出现时的估计在存在自相关时，用OLS 法估计出来的参数虽然仍是线性和无偏的，但不再有效，与异方差问题类似，可以用GLS 求得BLUE 的估计参数。117第1 17 页，本讲稿共167 页自相关问题的后果 1。回归模型低估了

49、真实的干扰项方差 2。因此很可能高估了R 平方 3。因此，置信区间变得更宽了 3。由此，通常的t 和F 等显著性检验都变成无效的了。118第1 18 页，本讲稿共167 页侦察自相关1 残差图：1。用残差（或标准化残差）对时间描点2。用残差对滞后一期的残差描点，是对AR（1）假设的一种检验（如对工资的回归模型）119第1 19 页，本讲稿共167 页侦察自相关2 游程检验又称吉尔里（Geary 检验），是对残差序列是否具有系统性样式的统计检验过程。在残差独立的虚拟假设下，并当n1(正值的残差）10，n2（负值的残差）10 的条件下，游程个数（k)将遵循正态分布。决策规则：在95%的置信度下，k

50、落在，就不要拒绝随机性假设。120第120 页，本讲稿共167 页侦察自相关3 德宾沃森检验，又称D W 检验，侦察自相关的最普遍应用的检验方法，其特点在于它仅依赖于残差值。D-W 检验的基本假定：1。回归含有截距项，X 非随机或在重复抽样中固定2。干扰项是按一阶自回归模型产生的3。回归模型不把滞后因变量当作解释变量4。没有缺失数据121第121 页，本讲稿共167 页侦察自相关3 D-W 检验：步骤1：做OLS 回归并取残差步骤2：计算d步骤3：对给定样本大小和给定的解释变量个数找出临界和值。步骤4：比对决策规则122第122 页，本讲稿共167 页自相关的补救措施 GLS 法123第12

展开阅读全文