基本极限分布理论和线性检验统计量的构造.doc-得力文库

资源描述

《基本极限分布理论和线性检验统计量的构造.doc》由会员分享，可在线阅读，更多相关《基本极限分布理论和线性检验统计量的构造.doc（7页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、基本极限分布理论和线性检验统计量的构造一、基本极限分布理论1对于序列，如果对于任意，存在使得对于时，有，则称；2和：是的，如果是有界的，特别地，当时，若有界，则称是；是的，如果；3依概率收敛：对于所有，有，记作或；性质1：为连续函数，若，则；性质2：，则；4依分布收敛：记为的分布函数，若，则；性质1：，若；则（渐近等价引理）性质2：，则；性质3：，（连续影射定理）性质4：向量，；二、推导统计量渐近分布时的有用结论及应用主要结论11若，则，（非中心参数）2N维随机变量，则（证明思路为对进行楚勒斯基分解，即）3N维随机变量，BV为幂等矩阵，则应用（检验）1t统计量。t统计量的计算形式为，则；（）故

2、为t分布。2F统计量。F统计量的计算形式为，q为约束个数，SSR1和SSR0分别为受限模型和非受限的残差平方和。则（*）；。（*）式上下同除以得到：，由相关结论可知统计量服从F分布。注意：无论是t统计量还是F统计量只有当残差严格服从正态分布的时候才是有效的。三、计量经济学中的假设检验1计量经济建模中需要哪些检验从经济理论出发、选择解释变量、构建回归方程到模型的参数估计量的求解，再到该模型能否解释所研究的经济现象的本质特征或所研究的经济活动中的各个因素之间的关系，最后到能否进行模型的实际应用，必须通过各种检验加以确定。一般来讲，计量经济建模需要进行三个方面检验：（1）设定检验（Specifica

3、tion Test），即将数据生成设定为某一种具体形式以便进行参数估计；（2）经济意义的检验，即根据经济理论对某个约束条件进行检验；（3）诊断检验（Diagnose Test），即判断参数估计是否具有显著性，以及模型设定是否合理。设定检验一般包括：正态性检验、异方差检验、序列相关性检验、单位根检验、协整检验、面板数据模型形式设定检验、个体效应固定效应检验、针对非线性模型的线性检验等。2检验的形式Wald检验、似然比检验和LM检验（得分检验、Rao检验）2.1 Wald检验Wald检验与F检验类似，通常适用于残差不是严格服从正态分布的情况，主要优点是应用简单，并且不需要对受限模型进行估计。Wal

4、d检验的基本思想是如果约束条件为真，则未受限模型的估计量近似等价于受限模型估计量。由于最值估计量（M-Estimator，即通过求解一系列最大化或者最小化目标函数得出参数估计，Huber，1967年提出，包括普通最小二乘法、非线性最小二乘法、最大似然估计和准极大似然估计等）渐近服从正态分布，即。则在原假设下有，故，q为约束条件个数。2.2 得分检验某些情况下，受限模型比非受限模型具有更简单的形式，因此在构造检验统计量时人们希望只估计受限模型（原假设下的模型）。以线性检验为例，原假设为模型是线性的，备择假设为模型是非线性，显然估计线性模型（原假设成立下的模型）更为简单。这就是提出得分检验的初衷。

5、该检验的基本思想是，如果原假设成立，则目标函数的梯度向量应该渐近服从均值为零的正态分布，即，；则得分检验的统计量。得分检验最初是针对最大似然估计提出的（也就是LM检验），但是其基本思想可以应用于许多估计方法。2.3 似然比检验构造Wald检验要求估计非受限模型，构造得分检验要求估计受限模型，而似然比检验需要同时估计受限和非受限模型。统计量的计算表达式为：；为非受限估计量，为受限估计量。为了证明似然比统计量服从分布，需要将在处二阶泰勒级数展开得到（根据最大似然估计的定义，一阶展开项为0），则；由于，则：2.4 Wald检验、似然比检验、得分检验的渐近等价性通过（2.1）（2.3）不难发现，wal

6、d检验、得分检验和似然比检验统计量都渐近服从分布，那么它们之间是否存在某种联系呢？是的！这三种检验以及qF统计量在原假设成立时是渐近等价的，即。下面对这三个检验统计量进行总结：（1）LR统计量的构造是建立在似然函数基础上的，因此它依赖于对残差的分布做出假设；（2）qF统计量又被称为伪似然比统计量，因为其构造同样依赖受限和非受限估计量。二者的区别是qF统计量不需要对分布做出假设；（3）Wald检验和得分检验是针对线性模型提出的，但是它们的基本思想同样适用于非线性模型。尽管这些统计量是渐近等价的，但从数值计算的角度来看三者还是存在差别的，这是由于方差估计的不同方法造成的。这就带来一个问题，人们可以

7、根据偏好有选择地使用某种检验得到想要的结果。因此，在实证应用中，理想的解决方法是同时给出三种统计量的检验结果。3统计量临界值的计算统计量临界值的计算都是以统计量的极限分布为基础的，具体来说有两种方法：（1）如果统计量的极限分布是标准的，则可以直接查相应的分布表；（2）大多数情况下，统计量的分布形式要么非标准要么难以计算，此时需要运用模拟方法。举例来说，单位根检验的统计量为，其中W(r)为(0,1)内的维纳过程。显然计算该统计量的分布函数是极为困难的。使用Monte Carlo方法计算统计量的临界值通常分为以下3步：（1）使用原假设成立下的数据生成过程产生样本；（2）构造辅助回归，计算所需要的统

8、计量数值；（3）重复以上两步N次（N足够大），并根据要求的检验水平确定统计量数值序列的分位数。下面就以DW检验和单位根检验为例，介绍这一过程。DW检验DW检验的原假设为：，即不存在自相关；检验统计量为，使用的数据生成过程为，（检验的名义水平为1%，5%，10%）单位根检验单位根检验的原假设为；检验统计量为，即对应的t统计量，使用的数据生成过程为，即将检验的辅助回归设定为不含有漂移项和趋势项。（检验的名义水平为1%，5%，10%）4检验统计量的（有限样本）性质4.1 检验功效与检验水平在假设检验中可能犯两类错误，即第一类错误（“弃真错误”）和第二类错误（“取伪错误”）。不同检验方法犯错误的概率

9、一般是不一样的，而且对于同一种方法，采用不同的统计量或对同一统计量采用不同的参数估计方法，其犯错误的概率也不尽相同。另一方面，检验临界值是在某一假设前提下，在统计量的极限分布基础上（）计算的，如果待检验的序列较短，或者假设条件不满足，则统计量的性质（可靠性）会受到影响。因此，为了评价检验的可靠性需要计算统计量在不同样本容量下以及误差项不同设定情况下的检验功效和实际检验水平，这就要用到Monte Carlo模拟的方法。所谓检验功效（Power of Test）是指给定一个名义检验水平，在备择假设H1成立的条件下，拒绝原假设的概率；实际检验水平（Size of Test）是指，给定一个名义检验水平

10、，当原假设成立的条件下，拒绝原假设的概率。Monte Carlo方法解决这一问题的基本思路是：（1）使用原假设（计算Size）或备择假设（计算Power）的数据生成过程生成样本；（2）使用样本序列构造统计量数值，并与临界值比较；（3）重复上述步骤若干次，确定统计量数值小于临界值的频率，从而得到Size或者Power。实验：构造针对数据生成过程，的t检验，计算不同样本容量下t检验的功效和实际检验水平。提示：计算检验功效时的DGP为，；计算检验水平时DGP为。（名义检验水平为0.05，样本容量分别为T=20，40，80，120，200，1000）4.2 检验功效与检验水平的权衡关系统计量的检验水平

11、和检验功效之间存在着一种权衡取舍（trade-off）的关系，即不论数据生成过程是何种形式，检验水平的值越小，相应的检验功效的值也就越小；检验水平的值越大，相应的检验功效的值也就越大。这也就是说，当某种检验方法犯第一类错误的可能性越小时，其犯第二类错误的可能性就会越大。从这种意义上来说，我们不能奢望某一种检验方法能够同时在这两个方面都明显地优于其他的检验方法。实验：仍然使用上一个实验的数据生成过程，针对原假设，计算大样本下（T=1000）和小样本下（T=25），t统计量、LM统计量（版本和F版本）以及LR统计量的检验功效和检验水平。4.3 影响统计量可靠性的因素我们推导统计量极限分布以及据此计

12、算其临界值的过程都是建立在这样两个假设基础上的：（1）样本容量足够大；（2）残差项独立同分布。（思考：为什么不要求残差服从正态分布？）因此当这两个条件不满足时，统计量的可靠性值得商榷。对于第一个条件，主要是现有统计量的分布和临界值都是在大样本情况下得到的（理解“极限分布”中的“极限”二字）；对于第二个条件，如果数据生成过程存在序列相关或者异方差，我们根本无法得到模型方差-协方差矩阵的一致估计，使得统计量的极限分布（例如，Wald检验需要估计中的V，得分检验需要估计）和标准情况存在很大的偏差。影响统计量可靠性的另一个因素是冗余参数问题（nuisance parameter）。所谓冗余参数就是指我

13、们不关心其取值，但其取值又会影响我们分析其他参数的一类参数。假设检验中的冗余参数是指不参与统计量的构造，但其取值会影响统计量可靠性的参数。与之相对应的一个概念就是轴枢统计量（pivotal statistic），即统计量的分布不含有未知参数。简而言之，轴枢统计量就是不含有冗余参数的统计量。实验：仍然使用上一个实验的数据生成过程和原假设，针对不同的取值，计算大样本下（T=1000）和小样本下（T=25），t统计量、LM统计量（版本和F版本）以及LR统计量的检验功效和检验水平。5假设检验中的自助法（Bootstrap）5.1 Bootstrap的基本概念在（4.3）小节中我们已经给出影响统计量可靠

14、性的因素，那么如何解决小样本下以及残差非独立同分布下统计量的功效降低或者水平扭曲问题呢？这就要使用自助法（Bootstrap）。所谓自助法就是指，在原始数据的基础上（“自助”的翻译依据）根据一定规则运用模拟技术构造出若干模拟样本（Bootstrap sample）并使用这些样本对原始数据进行统计推断（参数估计或者假设检验）的方法。自助法的基本思想是使用基于原始数据信息（样本容量、拟合残差）构造的统计量经验分布代替极限分布用于检验。近年来，自助法普及的原因主要有三个：（1）计算机运算能力极大提高；（2）自助法易于实施；（3）基于自助法的统计推断具有很好的效果。5.2 基于Bootstrap的置信

15、区间估计我们以一元线性模型介绍基于Bootstrap的置信区间估计。令，。由于分布未知，则小样本下的分布也是未知的，使用传统方法构造的置信区间是不可靠的。使用Bootstrap的步骤如下：（1）使用OLS估计模型，得到残差序列；（2）有放回的从中选取B个，构造Bootstrap样本；（3）估计模拟样本得到B个，即，根据显著性水平确定的置信区间。注意事项：（1）构造Bootstrap样本时务必使用（原始数据的OLS估计量）；（2）Bootstrap样本容量应该满足为整数，即对于，B应为40的倍数，对于，B应为200的倍数，当然若不考虑计算成本，B越大越好。5.3 基于Bootstrap的假设检验

16、前提条件：Bootstrap检验的适用条件是，统计量必须有极限分布（尽管我们不知道该分布的具体形式）。基本步骤：（1）在原假设成立的条件下构造B个模拟样本；（2）针对原始样本和每个模拟样本计算统计量和；（3）统计的次数N，计算p-value=，如果p-value大于显著性水平则接受原假设，否则拒绝原假设。在构造模拟样本时需要注意以下几个问题：（1）一定要使用原假设下的估计量；（2）残差序列可以使用原假设下或者备择假设下的估计量。同时，根据模拟残差序列生成方式不同，可以将自助法划分为残差自助法、参数自助法和Wild自助。下面就以检验中为例介绍这三种自助法（使用LM检验，统计量为）。估计受限模型得到、和残差序列，估计非受限模型得到，计算LM统计量Residual BootstrapParametric BootstrapWild Bootstrap令令令随机从中抽取残差，构造B个符合原假设的模拟样本：生成B个服从的随机序列，构造B个模拟样本：生成B个服从的随机序列，构造B个模拟样本：计算每个随机样本的LM统计量计算，如果则接受原假设

展开阅读全文