实验目的11067.pdf

上传人:得****3 文档编号:83701030 上传时间:2023-03-31 格式:PDF 页数:13 大小:749.61KB
返回 下载 相关 举报
实验目的11067.pdf_第1页
第1页 / 共13页
实验目的11067.pdf_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《实验目的11067.pdf》由会员分享,可在线阅读,更多相关《实验目的11067.pdf(13页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 实验一 【实验目的】1.在分析数据的过程中,加深对计量经济学相关知识的理解。2.学会使用 Stata 软件处理数据,利用经济知识分析,理解数据处理所得结果。【实验数据】CEOSAL1.DTA WAGE1.DTA meap01.DTA bwght2.DTA JTRAIN.DTA 与 J.M.伍德里奇的计量经济学导论中的习题相配套的数据 【实验步骤】(一)将用到的 Stata 函数及其用法 1.cd 指定默认工作文件夹。在使用 Stata 命令的时候,会直接引用相应的数据文件名,此时该数据文件所在的文件夹就是默认的工作文件夹。指定默认文件夹的格式为:cd“默认文件夹路径名“注:引号可以省去(以下

2、遇到相同的情况不再赘述);默认文件夹路径名中不能出现汉字。2.use 选定需要处理的数据文件。Stata 中的命令大多都是对数据进行操作,在操作之前,需要选定相应的数据文件。use 的调用格式为:use“数据文件名“注:(1)在未指定默认工作文件夹时,use 后面的数据文件名可以替换为数据文件路径即:执行命令:.use e:StataDocumentsLab1wage1 执行命令:.cd e:StataDocumentsLab1 后再执行.use wage1 上述命令达到的效果是一样的。(2)Stata 只能同时对一个数据文件进行处理分析,因此在更换被处理数据文件之前,要从 Stata 系统中

3、清楚原数据文件,命令为 clear 3.generate 根据现有变量建立新的变量。generate 的调用格式为:generate 新变量名=新变量的表达式 注:建立新的变量必须以现有变量为基础。4.display 计算数值表达式之后再显示数值。display 的调用格式为:display 数值表达式 5.tabulate 对制定的变量进行频数统计。这是简单的描述性统计,进行频数统计的对象可以是一个变量,也可以是两个变量。tabulate 的调用格式为:tabulate 变量名 1 变量名 2 注:(1)在对两个变量进行频数统计时,变量名之间要用空格隔开;例如:.tabulate wage

4、female(2)变量名的位置不允许互换,不同的位置对应的是不同的含义。上述命令的含义是对wage 进行频数统计,并将统计的结果按性别分类。将 wage 与 female 位置互换就变成了对性别作频数统计,按工资分类(3)注意变量名与数据文件名之间的差别。6.summarize 给出变量的样本量,平均数,标准差,最大值,最小值。同样也是一个简单的描述统计的命令。summarize 的调用格式为:summarize 变量名,d 注:在变量名之后加 d 可以得到更多的信息,如第四最大(小)值到最大(小)值,百分位数,偏度系数,峰度系数等 示例:Variables 样本量 均值 标准差 最小值 最大

5、值 Varname 7.correlate 计算变量之间的相关系数。correlate 的调用格式为:correlate 变量名 1 变量名 2 变量名 3 注:计算相关系数不仅限于计算两个变量之间的相关系数,也可以计算多个变量之间的相关系数 8.regress 对给出的变量作回归。regress 的调用格式为:regress 因变量 自变量 注:自变量也可以是多个,得到的结果中包括方差分解,整体显著性检验的 F 统计量及相应的 p 值,R2,调整后的 R2,MSE 的平方根(亦即对的估计),系数估计,系数估计的标准差,t 值,显著性检验的 p 值,置信区间。回归的示例:Sourse SS d

6、f MS Model SSE k SSE/k Residual SSR n-k-1 SSR/(n-k-1)Total SST n-1 Coefficient Standard Error t 值 双尾检验 置信区间 Dependent Variables Independent Variables Intercept 9.predict 根据 Stata 系统最近的一次回归中的相关变量,可以计算该回归中的因变量估计值,残差等。predict 的调用格式为:predict 新变量名,参数 注:(1)predict 计算因变量估计值(残差)时,是根据自变量及回归中得到的截距,相关系数计算的,是一个

7、新的变量,需要被赋予一个新的变量名;(2)计算估计值是的参数是 xb,计算残差时的参数项是 res。参数不限于上面给出的两个;(3)不同的参数有不同的作用。在 help 里面可以找到。10.其他 sort 对 sort 后面给定的变量升序排列。调用格式为:sort varlist label 对变量作注释 调用格式为:label variable 变量名“label”_b 内存中变量的引用。具体见:help _b _cons 直接使用时,_cons=1;_b_cons指最近的一次回归中得到的截距项。具 体见:help _b 在此次上机课程中将用到的函数及其用法基本就是以上这些了。上述列举出的都

8、是基本功能,上述的命令都有其扩展用法,具体的可以参见 Stata 中的 help 文件。以后介绍函数的调用方式时,将采用 help 文件中的相关缩写,如变量名,缩写为 varname等 (二)Stata 命令的基本格式 处理和分析数据的命令构成 Stata 命令的主体。它们可实现各种各样的功能,但大体具有如下的格式:by varlist1:command varlist2 if exp in range,options 其中:by varlist1:表示按一组变量(由 varlist1 指定)分组;分组之前,注意对整个数据变量按 varlist1 排序(sort);command varlis

9、t2表示命令是针对由 varlist2 指定的变量;if exp表示命令只针对满足 exp(一般是一个逻辑表达式)的观测;in range表示命令只针对处在 range 指定的范围内的观测,如 in 5 指执行的范围是第 5个观测,in-5 指执行的范围是倒数第 5 个观测,in 5/12 指执行的范围是从第 5 到第 12 个观测;,options是命令特有的一些选项,根据情况和需要而定,Stata 的强大功能主要就体现在这些选项上,选项的使用非常精细和讲究,使用时既要依据个人的经验,也要参看 Stata的帮助系统或工具手册。这个部分可以参见 Stata 的 help 文件,其中有详细的介绍

10、。if exp极大地体现了 Stata 的灵活性。逻辑表达式 exp 一般由以下成分构成:变量名 数字,字符,表示缺失值的“.”关系运算符:=(等于),!=,(不等于),(大于),=(大 于或等于),65&age 85(age 大于 65,小于 85 的观测)if place=“Canada”&pop=.(place 为“Canada”并且 pop 不缺失的观测)if year=1994|year=1997(year 为 1994 或 1997 的观测)if(pop=.&year=.)(排除 pop 和 year 都缺失的观测)根据需要,逻辑表达式可以有非常复杂的形式。in range和if

11、exp相当于从一个大样本中挑出符合条件的小样本,其用处体现在两个方面。首先是数据清理阶段,找出那些有明显的错误或有缺失的观测。其次是在数据处理和分析阶段,找出有特别兴趣或意义的观测。上述给出的格式还可以根据具体的情况做出扩展。(三)具体实验操作 习题 1:J.M.伍德里奇 计量经济学导论现代观点C1.1 本题使用 WAGE1.dta 中的变量 educ(1)求出样本中的平均教育程度,最低和最高教育年数分别为多少?(2)求出样本中的平均小时工资,它看起来是高还是低?(3)工资数据用 1976 年美元报告,利用(2004 年或以后)总统经济报告,求出并报告1976 年和 2003 年的消费价格指数

12、 CPI(4)利用(3)中的 CPI 值,求出以 2003 年美元度量的平均小时工资。现在,平均小时工资看起来是否合理?(5)样本中各有多少女性和男性?解:简单的 Stata 函数处理 命令如下:.use wage1 /*打开数据 WAGE1.dta*/(1).summarize educ /*对变量 educ 做简单的统计*/输出结果:故平均教育程度为 12.56 年,最低教育年数为 0,最高教育年数为 18 年(2).summarize wage /*对变量 wage 做简单的统计*/输出结果:平均的小时工资为 5.89 美元(3)根据 2008 年的总统经济报告http:/frwebga

13、te.access.gpo.gov/cgi-bin/getdoc.cgi?dbname=2009_erp&docid=f:erp_b62.pdf 以 19821984 年为基年,1976 年的 CPI 为 56.9%,2003 年的 CPI 为 184.0%(4).display 5.89*184.0/56.9 /*计算以 2003 年的美元度量的小时工资数*/得到:以 2003 年美元度量的小时工资数为 19.05 美元(5).tabulate female /*对变量 female 做简单的频数统计*/输出:上述结果,用 1 代表女性,0 代表男性。输出了女性和男性各自的频数、频率,同时还

14、有向上累计频率。即样本中女性人数为 252 人,占总人数的比重为 47.91%;样本中男性的人数为 274 人,占总人数的 52.09%习题 2:J.M.伍德里奇 计量经济学导论现代观点C1.2 本题使用 bwght2.dta 中的数据(1)样本中有多少妇女?又有多少人报告在怀孕期间吸烟?(2)平均每天吸烟数量是多少?将平均数作为这个案例中“典型”妇女的度量指标是否合适?请解释(3)怀孕期间抽烟的妇女中,平均每天的吸烟数量是多少?与(2)中的结果有何区别?(4)求出样本中 feduc 的平均值,为何只用 1785 个观测值计算这个平均值?(5)求出 npvis 的最常见值 解:summariz

15、e 命令的应用 命令如下:.use bwght2(1).summarize cigs /*对变量 cigs 做统计*/输出:.summarize cigs if cigs!=0 /*对怀孕期间吸烟量不等于 0 的情况做统计*/输出:故样本中共有 1388 名妇女,其中有 212 人在怀孕期间吸烟(2)平均每天的吸烟数量为 2.09 根。将这个数据作为样本的度量指标并不合适。应为吸烟的妇女人数占总人数的 15.27%.只有较少的人抽烟,故把 2.09 这个数据作为度量指标并不合适。(3)由(1)可以得到,怀孕期间吸烟妇女的平均吸烟量为 13.67 根。这个数据是怀孕期间吸烟的妇女的平均吸烟量,比

16、(2)中的人均吸烟量更符合实际,更能反映现实情况。(4).summarize feduc /*对父亲教育程度作统计*/输出:样本总量为 1832(browse),而统计得到的结果为 1785,说明父亲教育程度这个变量中存在数据缺失(在 Stata 数据中以.表示)(5).tabulate npvis /*对 npvis 作频数统计*/最常见数即众数,可以用 tabulate 得到结果,众数取所占比重最大的那个 npvis 值即可。所得到的 npvis 众数为 12 习题 3 J.M.伍德里奇 计量经济学导论现代观点C1.3 本题使用 MEAP01.DTA 中的数据(1)求出 math4 的最大

17、值和最小值。(2)有多少学校在数学测试中有 100%的通过率,占整个样本的百分比是多少?(3)有多少学校的数学通过率正好为 50%(4)比较数学和阅读的平均通过率,那个测试更难通过?(5)求出 math4 与 read4 之间的相关系数,得到的结论是什么?(6)求出 exppp 的平均值和标准差。求出 exppp 的平均值和标准差,你认为学生的人均支出是否存在较大的变异?(7)假设学校 A 平均每个学生支出 6000 美元,学校 B 每个学生支出 5500 美元,学校A 的支出超过学校 B 的支出百分之几?与根据自然对数之差近似的百分比差异100ln(6000)-ln(5500)进行比较。解:

18、引入条件,然后统计 命令如下:.use meap01(1).summarize math4 /*对 math4 进行统计*/输出:math4 的最小值为 0(无人通过数学测试),最大值为 100(所有人都通过了数学测试)(2).summarize math4 if math4=100 /*对 math4=100 的情况进行统计*/输出:即有 38 所学校的数学通过率为 100%所占的比例为:.display 38/1823 /*计算数学通过率为 100%的学校占样本中学校的比重*/即数学通过率为 100%的学校占样本中学校的比重为 2.08%(3).summarize math4 if mat

19、h4=50 /*对 math4=50 的情况进行统计*/输出:即有 17 所学校的通过率为 50%注:1.Stata 中,表达相等这一逻辑关系时,应该用=,而不是=2.上述的(2)和(3)题可以用命令:.tabulate math4 同样可以输出结果。(4).summarize read4 /*对 read4 进行统计*/输出:根据(1)数学的通过率为 71.91%,根据(4)阅读的通过率为 60.06%相比之下,阅读较难通过(5).correlate read4 math4 /*求 read4,math4 的相关系数*/输出:math4 与 read4 的相关系数为 0.8427。即阅读的通

20、过率与数学的通过率有较大的相关性。(6).summarize exppp /*对 exppp 做统计*/输出:exppp 的平均值为 5194.87,标准差为 1091.89.display 1091.89/5194.87 学生的人均支出有较大的变异(7)简单的数学计算 命令与输出:习题 4 J.M.伍德里奇 计量经济学导论现代观点C1.4 JTRAIN2.DTA 中的数据,来自 19761977 年对低收入男性进行的一项工作培训试验。参见 Lalonde(1)利用指标变量 train 确定得到工作培训的男性比例(2)变量 re78 是 1978 年得到的工资,以 1982 年的千美元度量。针

21、对得到工作培训的男性样本和未得到工作培训的男性样本,分别计算 re78 的平均值,二者在经济上的差别大吗?(3)变量 unem78 是表示一个男人在 1978 年是否失业的指标变量,得到工作培训者的失业比例是多少?没有得到工作培训的失业比例是多少?评论两者之间的差异(4)根据(2),(3)部分,工作培训项目看来有效吗?如何使得我们的结果更有说服力?解:数值的简单分类统计 命令及输出结果如下:.use jtrain2(1).tabulate train /*对 train 做频数统计*/输出结果:即得到工作培训的男性有 185,占总人数的比例为 41.57%(2)按照是否接受培训分组,然后再做统

22、计 或者 按条件,做统计 方法一 .sort train /*根据 train 的升序,对 jtrain2 重新排列*/.by train:summarize re78 /*按照 train 分组后,对 re78 做统计*/输出结果:方法二 .summarize re78 if train=0 /*对未接受培训的人作统计*/输出结果:.summarize re78 if train!=0 /*对接受培训的人作统计*/即得到工作培训的人均工资为 6.35,而未得到培训的人员的人均工资为 4.55(单位为千美元)可以看出,接受培训与未接受培训的差别较大(3)方法一:.sort train /*根据

23、 train 的升序,对 unem78 重新排列*/.by train:tabulate unem78 /*按照 train 分组,对 unem78 作频数统计*/输出结果:方法二:.tabulate unem78 if train=0 输出结果:.tabulate unem78 if train!=0 输出结果:得到工作培训但失业的比例为 24.31%,未得到工作培训并且失业的比例为 35.38%即工作培训的作用是使得失业率下降了 9%(4).tabi 168 92140 45,chi2 lrchi2 expected /*对 unem78 和 train 两个变量作独立性检验*/输出:得到

24、的 Pearson 的卡方统计量为 6.2054,P 值为 0.013 可以看出工作培训给失业率有较大的影响(不要问我为什么)习题 5 J.M.伍德里奇 计量经济学导论现代观点例 2.3 首席执行官与股本回报率 数据集为 CEOSAL1.dta(1)给出股本回报率与 CEO 工资的最大值,最小值,均值(2)给出股本回报率与 CEO 工资间的关系(3)计算当股本回报率等于 0%和 30%的时候,CEO 的估计工资水平。(4)给出前 15 位 CEO 的工资估计值与残差(5)给出 ln(salary)与 ln(sales)之间的关系,并求出薪水对销售额的弹性估计值 解:命令及结果输出如下:.use

25、 CEOSAL1(1).summarize salary roe /*对 salary 和 roe 作简单的统计*/输出结果:股本回报率的最大值,最小值均值分别为:56.2%,0.5%,17.18%工资的最大值,最小值,均值分别为:14822,223,1281.12 (2).regress salary roe /*以 salary 作为因变量,roe 作为自变量作回归*/输出结果:根据上面的截图中的结果可以给出 salary 和 roe 的线性方程中的相关参数,其中的截距为 963.19,相关系数为 18.50,R2=0.0132,这并不是一个很好的估计 (3).display _broe*

26、0+_b_cons /*股本回报率为 0 的时候,CEO 的估计工资*/.display _broe*30+_b_cons /*股本回报率为 30 的时候,CEO 的估计工资*/(4).predict salhat,xb /*根据(2)中的回归,给出所有 CEO 的工资估计值,并命名为 salhat*/.predict uhat,res /*根据(2)中的回归,给出所有 CEO 工资估计的残差,并命名为 uhat*/残差的另一种获得方法:.generate uhat2=salary-salhat /*根据给出的 salhat 和 salary 计算残差,命名为 uhat2*/可以给 uhat2

27、 叫一个标签说明:.label variable uhat2“residual obtained from the command generate”上述给出的结果都是数据,所以没有截图。.list roe salary salhat uhat uhat2 in 1/15/*列出前 15 位的股本回报率,实际工资,估计工资,残差*/输出结果:(5).regress lsalary lsales 输出结果:根据上面的结果,可以看到 lsalary 与 lsales 的相关系数为 0.2566,故薪水对销售额的弹性估计值为 0.2566,即销售额每变动 1%,工资将变动 0.2566*1%习题 6

28、 J.M.伍德里奇 计量经济学导论现代观点例 2.4 与例 2.7 工资与教育程度 数据集为:wage1(1)给出工资与教育程度之间的回归方程(2)当教育程度为 0 和 8 时,给出工资的估计值(3)给出增加四年教育程度,工资的平均增长值(4)给出工资和教育程度的均值;并证明当教育程度取得均值时,工资也取得均值。(5)给出工资的自然对数与教育程度之间的回归方程,求出“增加一年教育的回报率”解:命令及结果输出如下:.use wage1 (1).regress wage educ /*以 wage 作因变量,educ 为自变量作回归*/输出结果:根据上面的截图中的结果可以给出 wage 和 edu

29、c 的线性方程中的相关参数,其中的截距为-0.9049,相关系数为 0.5414 (2),(3)与习题 5 的(3)题完全相同 命令及输出结果:(4).summarize wage educ /*给出 wage 和 educ 的均值等*/输出结果:.display _beduc*12.56274+_b_cons /*计算当教育水平取均值时,工资水平是否取均值*/(5).regress lwage educ 输出结果:由截图中的结果,可知当教育每增加一年,工资水平平均增长 8.27%(四)总结 1.通过练习,熟练运用 Stata 中简单的数理统计函数及命令。Stata 中的命令都可以简化使用,如 summarize 就可以简化为 su,tabulate 可以简化为 ta 等等。在刚开始学习的时候,建议熟悉这些函数之后再采用其简化形式。2.结合计量经济学知识,能够对输出结果进行分析。(张其才 整理)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com