2023年Stata学习笔记.pdf-得力文库

资源描述

《2023年Stata学习笔记.pdf》由会员分享，可在线阅读，更多相关《2023年Stata学习笔记.pdf（43页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、以下命令均采用小写字母Ch a pte r 1 stat a 入门L I打开数据use D:Stata9a u t o.dtan,clear 用 use 命令打开数据sys u s e a uto,c 1 e a r auto为系统数据 s y suse为打开系统数据的命令1.2 获取帮助He 1 p s ummarize s u mm a riz e 为需要获取帮助对象可以改为其他的需要帮助的对象Findit s u mma r ize,net 寻找网络帮助summ a ri z e 为需要获取帮助对象Search s u mma r ize,n e t寻找网络帮助summari z e

2、为需要获取帮助对象显示结果Displ a y 5+91.3 描述记录（s umm a ri z e 可简写成sum）Use a tuo,cle a rSumm a rizepr i c e描述p ri c e 的观测值个数、平均值、标准差、最小值、最大值Sum weight summ a rize可简写成 s u mSum weigh t p r i c e 同时完毕上面两步1.4绘图Sea t te r p r ice wei g ht sc a tt e r 为绘制散点图命令Line p r ice weight,s or t 1 i n e为绘制折线图命令，s o r t 为排序，绘制折

3、线图前需要先排序1.5生成新的数据（gene r a t e 可简写成gen）Cl e a rSet obs 10 0 0设立观测值的组数Gen x=n_ n 为观测值得序号Gen y=x+1001.6控制结果输出显示L i st n1.7 设立屏幕滚动S et more o f f 先设立此项则显示时，屏幕不断止S e t m o re o n 先设立此项则显示时，会使显示停止L8清除内存中原有内容clear1.9 设立文献存取途径(cd)C d d：stata d:sta t a 为途径1.1 0假如想知道当前程径下有哪些文献,可以用di r 命令来列示.d i r1.11假设你想在D

4、盘的根目录下创建一个新的文献夹mydat a 来存放数据文献，命令为mkd i r。mkdir d:my data1.12错误提醒Li s t myv a r上述命令试图显示变量m y v a r,但是结果窗口仅出现如下的显示varia b Ie m y var no t foundr(l l l);红色信息表白，没有找到一个叫myvar的变量，的确,我们的数据中并没有这个变量。Li s t 巧妇难为无米之炊。红色信息下面尚有一个天兰色的r(lll),用鼠标点击，即可弹进一个帮助信息框，给犯错误的更详尽解释。再比如，我们在求五数概略时，误把 s u m 写成了sun.sunu n re c

5、ogniz edcom m an d：su nr(l 99)；显示说不结识s u n 这个命令。附录：常见命令客求帮助 help search进入某路径帮助网络寻求帮助,cd设定内存 set meinoiy 20in设置 STATA的内存空间为20m打开和保存数据 clear use save导人数据 input edit infile,insheer清空内存数据打开 STATA格式的数据文件保存内存中的数据录入数据编辑数据导入数据导入数据重生教据 append,merge,工 pose reshape generate egen,rename drop keep sort,encode,

6、decode,order by将有相同结果的数据纵向拼接（观察值拼接）将两个数据文件横向拼接数据转置生成新的数据生成新的数据变量重命令热除变量或现察值保留变量或观察值对观察值按从小到大顺序更新排列数值型数据转换为字符型数据字符型数据转换为数值型数据变量顺序的重新排列分类操作报告数据 describe codebook,list,count,inspect总体展示数据情况展示数据库中的每个变量情况列示内存中的数据报告共有多少观察值报告变量的分布 table,tabulate数据列表联列表显示和保存榆出结果 display log显示计算结果将榆出结果存放入结果文件C h apter2命令语句2.

7、1掌握命令语句的格式by varlist:command v a rlis t =exp i f exp in r a ngeweig h t,opt ions注：表达可有可无的项，显然只有comm a nd是必不可少的，下面结合例子分项来讲解命令的各个组成部分。2.2 命令comma ndby v a rlistz comma n d va r J J st=ex p i f ex p i n ra nge wei g ht 9 options.c d d：/s t ata 9,us e auto,clear.summa r ize打开美国汽车数据文献auto.dta,后面的c l e a

8、r 表达先清除内存中也许存在的数据集/*很多命令可单独使用，单独使用时，一般是对所有变量进行操作，等价于后面加上代表所有变量的一all。*/.summa r ize/注意到该命令输出结果与上一个命令完全同样.sum与前一命令等价,sum 为 summ a rize 的略写u 是 s umma ri z e 的最简化略写，不能再简化为s/简写前提是不引起混淆。执行这个命令将出现错误信息unre cog n i z e d c o mmand:s2.3 变量 varlistby v a rlis t：c ommand v arl ist=exp if exp i n r a ng e we i g

9、ht,o p t ionsv a rl i s t 表达一个变量，或者多个变量，多个变量之间用空格隔开。c A d:/s tata9.use a uto,clear.sum pri ce 求价格的观测值个数，平均值，方差，最小值和最大值.sup 变量和命令均可略写，注意到两个结果完全同样.su t 分数据中有两个变量的开首字母为t(t ru n k 和t urn),所以STAT A认为t为模糊的省略。m amb i guous abb rev i ation/红色为错误信息.s um tr tu 求tru n k和turn 变量的五数概略记录变量名称除以下字符不能用作变量名外，任何字母、

10、字母与数字(单独的数字也不允许)组合均可用做变量名：_ a I 1 _b b yte _ coef _ c o n s do u ble flo a t if i n int long _ n _N _ p i _ pred _ rc _s e _skip u s ing w ilh基本规定如下：_ 第一个字元可以是英文字母或，但不能是数字；_最多只能涉及3 2个英文字母、数字或下划线；一由于STATA 保存了很多以开头的内部变量，所以最佳不要用为第一个字元来定义变量。2.4分类操作b y varlist b y varlist:c o mmand varlist=exp if e

11、 xp i n ran geweig ht,options假如需要分别知道国产车和进口车的价格和重量，可以采用分类操作来求得,cd d:/st a ta9,use a uto c lear,b y for eigm sum p rice weigh t/分别计算国产车和进口车的价格和重量但假如执行下面两个命令，将出现错误*/so r t pri c e 按价格从低到高重新排序 byforei sum pric e weight*n ot s o r t ed/*系统提醒没有排序，这是由于by varli st在执行时规定内存中的数据是按照b y 后面的变

12、量排序的。当我们用sort price重新排序后，就打乱了本来按照fo re ig n 的排序，所以出现了错误提醒。更正的办法是：*/.sort f o r e ig n 按国产车和进口车排序,by for eign:sum pr i c e w ei ght*更简略的方式是把两个命令用一个组合命令来写。by f o reign,s ort：sum p r ic e weight假如不想从小到大排序,而是从大到小排序，其命令为g so rt。.g sort-p r ic e/按价格从高到低排序 gs o rt foreign-p rice/*先把国产车都排在前，进口车排在后面，然后在国产车内再

13、按价格从大小到排序，在进口车内部，也按从大到小排序*/2.5 赋值及运算=e x pby varlist:comma n d varlist _-exp if ex p in range we i g h t ,o p t i o ns例：生成一个新的价格变量n p r i c e,该变量的取值为原汽车价格变量p r i c e的基础上涨1 0 元 cd d:/s ta t a9,use。u/,c 1 e a r,gen nprice-price+10 生成新变量np r ic e,其值为price+10,list price n price/比较一下两个变量的取值/*上面的命令generat

14、 e（略写为g e n）生成一个新的变量，新变量的变量名为npr i c e,新的价格在原价格的基础上均增长了 1 0元。.r e pla c e npr i ce-np ri c e-10/*命令 re p la c e 则直接改变原变量的赋值,n p ric e 调减后与p r i c e 变量取值相等*/.l i s t pri ce npric e 再比较一下两个变量，相等。2.6条件表达式if exp b y var l i s t：c omma n d y a r 1 i s t=exp i f e x p inr a nge weight o p ti o n s例：若只想查看

15、国产车的品牌和价格，则加入筛选条件if自忆i gn=0*/.cd d：/s t at a 9,use aut o,clear.li s t ma k e pric e if%reign=0*只查看价格超过1 万元的进口车（同时满足两个条件），则.1 i s t 7 7 7 5 kepri c e iffo r e J g n-1&pric e 10 00 0*查看价格超过1 万元或者进口车（两个条件任满足一个）.lis t m a ke price i f foreign-1|pr J ce10000*分类型查看价格超过1万元的汽车的品牌和价格.by f ore 1 g n 9 s o rt:

16、1 ist ma ke price if pri c e J00002.7范围筛选i n ran g eby varlist comman d v a r l i s=exp if e x p in range we Ight,o p tio n s假如要计算较低的前1 0台车的平均价格，则要先按价格排序，然后仅对前10个车的价格求平均值 c d d:/s tata9 use auto,cl e ar sort price sum pr i ce in 1/5注意“1 /5”中，斜杠不是除号,而是从1到5的意思，即1,2,3,4,5O假如要计算前10台车中的国产车的平均价格，则可将范围和条件

17、筛选联合使用。,s um pric e in 1/10 i f fo r eign=02.8 加权weigh t b y varli s t:c ommand varlist=exp if ex p i n r a nge weight,o p tions任务：下表是2 0 2 3年湖北省高考6 4 0 分及以上成绩一分一段的人数记录，第一列s c o re为高考分数，第二列n u m为该分数段的人数。现在我们规定6 4 0分及以上考生的平均分数。s c ore num650 1936 4 9 26648 23647 16646 21645 2

18、6644 32643 23642 38641 29640 3 8操作：先将上面的表格复制，然后进入ST A T A,执行如下命令,clea r 清空 ST ATA.ed i t然后把光标定位在表格的第一行第一列，点右键，选择粘贴（paste）,上表数据便被复制到STATA 中，退出数据编辑器sum.vc ore/思考：得到的结果是640 分及以上考生的平均分吗？简朴地使用s u m命令得到的平均成绩显然是不对的的，由于各个分数下的人数是不同样的，对的的计算需要加权，加权的办法是.sum sc or e we i ght=num/*加权计算，比较该结果与s um s c ore的区别，事实

19、上，不用权重选项时，相称于权重相等。*/.su m s core w=n /w为we i g h t的略写，n为num的简写，两命令等价2.9其他可选项，optionsEby va rlistz c ommand var 1 is/=e xp if e xp in r a ng e wei gh t,o p t io n s许多命令都有一些可选项例如，我们不仅要计算平均成绩，还想知道成绩的中值，方差，偏度和峰度等*/.s u m score9 detail,sum s core,d/d 为de tail的略写，两个命令完全等价注意，结果中显示了 1%,5%等分位数，意思是把变量从小到大排序，第

20、 1%位置处的取值是多少，第 10%的位置上的取值是多少。显然，5 0%位置处的取值是中位数。此外，加了 d e ta il选项后，还得到最小的前5 个数,最大的5 个数，以及峰度和偏度等。*再如,1 i s t 命令也有一些可选项.c d d:/s tata9.use aut o,cl e ar.listpr ice i n 1/30,s ep(.10).list p rice in 10/3 0,s e p(2).1 i st p rice,noh e a d每10个观测值之间加一横线每2个观测值之间加一横线/不要表头C hapte r 3 数据3.1 打开示例数据和网络数据：use3.1

21、.1 示例数据示例数据为STATA帮助文献中所用的数据,其后辍名为.d ta,假如在STATA软件当前程径下,直接用use命令即可打开；假如不在当前程径下，则可以使用sys u se命令打开。.use a uto,c 1 e a r/打开汽车数据aut o.d t a.c d d:/改变途径到d：/.us e auto,clearfi 1 e a u to,d t a n o t found 系统提醒无法找到文献，由于auto.dta 不在d:/r(601);.s y s us e aw/o,clear/无论当前程径是什么，该命令均能打开系统自带文献3.1.2从网络获取数据上述示例数据也许没有

22、所有下载到你的所用的电脑中，因此简朴地使用use和sy s u s e命令时，也许出现错误，如.u se n 1 swork,clearfile nls w o rk.d ta n o t found此时，假如拟定该数据为示例数据,可以直接通过网络获取，其命令为：.use/从网站获取数据，或者.webuse n ls work,c 1 ear/与前一命令等价，从ST AT A官方数据库获取数据webus e只能从，假如不是该网站的数据，w e b use失效，只能把网站地址完全写出来。使用该命令时必须确保网络连接正常.另一个网络数据较多的地方是波士登大学的数据中心，伍德里奇的计量经济学导论

23、一书中所使用的所有数据都可以通过该数据中心获得。比如.u se即打开教材中例2.3中所使用的CEO数据。u s e 命令只能打开后辍名为“*.d t a”格式的数据，.d t a 格式以外的数据，ST A T A不能直接读取，需要从外部读入，最简朴而直接的办法是复制和粘贴。但是有时没有其他软件，比如，我们有S A S格式或S P S S 格式的数据，但没有S A S软件和SPSS软件，此时需要用S T A T A 提供的其他命令或者使用t r a n s f e r 数据格式转化软件。在讨论其他输入或导入数据的方法之前，我们先来学习一点数据类型的知识。3.2数据类型S TATA通常把变量划分为

24、三类:分别是数值型，字符型和日期型3.2.1 数值变量：用0、1、2 9 及+、-（正负号）与小数点”来表达。在输入数据时，逗号不能被辨认，如 1，0 2 4 应当直接写成1 0 2 4.5-55.25.2 e +35.2 e-2后面两个数据为科学计数法的数据，分别表达5 2 0 0 和0.0 5 2.其中的e 相称于 1 0,因此 5.2 e+3 的意思是：5.2*1 0 3=5 2 0 0数值型变量按其精度区分，又有五种类型，分别是：存贮类型最小最大 0-领域字节by t e-127 100+/11in t-3 2,767 3 2,740+/-1 2long-2,1 4 7,483

25、,64 7 2,147,483,62 0+/-14float-1.*10,3 8 l.*103 6+/-1 0 3 6 4doub 1 e-8.*1 0 307 8.*1 0-307+/1 0-323 8当运算精度规定很高的时候，需要将变量设立成浮点型或双精度型。另注意1 和 1.0 000的精度是不同的，前者在(0.5,1.5)区间内近似,而后者在(0.999 9 5,1.0 00 0 5)区间内近似。若多次运算反复取四舍五入，精度较低时将使计算误差迅速变大,然而，精度高时占用的内存资源较多。下面的命令有助于理解变量存贮类型变换。.c 1 ea r.set o b s 1/将设定一个观测值o

26、 b s w a s 0,now 1/提醒信息说,之前系统中没有观测单位，现在有了一个.gen a=l/生成一个新变量a,令a 取值为1.d/*d 为d esc r i b 命令的略写，descr i b 命令显示数据集的属性信息，注意观测显示结果中，a 的storage ty p e为floa t型,浮点型为默认类型*/Contai n s dat ao b s:1vars:1size:8(99.9%o f memor y fre e)st o rage d i splay va 1 uev aria b le n ame ty p e form a t 1 a be 1 vari a bl

27、 e lab e 1a f l o a t%9.OgSort e d b y:N o te：datas e t has c hanged since 1 ast s av e d,c o mpre s s/在不损害信息的基础上压缩，使数据占用空间尽也许小a w a s f l o a t,n o w b y t e /a由浮点型变为了字节型.d/注意a的s t o r a g e t y p e现在为b y t e型 replace a=101/*注意a 的s t o r a g e type 现在自动升为int型，由于b y t e最大只能为100*/a w a s b y t e n o

28、w i n t(1 r e a I c h a n g e m a d e),re p lac e a-1 00,compress.d/重新变回到b y t e型,repla c e a=327 41/直接变到l o n g 型，由于int型最大只能到32740,gen d ouble b-1/直接生成双精度变量b.rec a st doubl e a/将a变成双精度变量b注意到a 和 b 均为双精度型3.2.2 字符串变量字符变量通常是一些身份信息，如姓名，地名。止匕外，定类变量也可以用字符变量来表达，如性别分为“男”和“女”。字符串变量由字母或一些特殊的符号组成（如地名籍贯变量，迁出

29、地，住址,职业等等）。字符串变量也可以由数字来组成，但数字在这里仅代表一些符号而不再是数字。字符串变量通常以引号“”注标，并且引号一般不被视同为字符的一部分，注意这里的引号必须是英文输入状态下的引号。字符串最多可以达244个字符。一般用str#来表达字符的多少，如 s tr20表达将有2 0 个字符。一般三个中文字的姓名需要6 个字符。字符型示例“St r in g”“s t r i ng”“s t r i ng”“s tr in g ”/特殊字符串，表达空字符，缺失值。”/注意与空字符串的区别，具有一个空格“1 2 5.2 7”/”1 25.2 7”由于有双引号，将被视同为字符而非数值。“$

30、2,343.68”“I love you”“旺材是条狗”注意前四个字符串均不相同，大小写是不同样的,有无空格及空格的位置不同，都表达不同的字符串。对于”1 25.2 7”这样的数值型的字符串，可以用re al()函数或者destri n g 命令转化成数值型变量。具体操作见3.3.1。3.2.3 日期型变量在STA T A 中，1 9 6 0 年1月 1日被认为是第0 天，因此19 5 9 年 1 2 月 31 日为第-1 天，2 023年1 月2 5 日为150 0 0 天。对日期型变量的讨论将在后面的时间序3.2.4 缺失值没故意义的计算结果显示为“.”.disp 1 ay 2/0另一种情

31、况是，数据中具有缺失值，而STATA默认的缺失值也用”来表示。在有些数据文献中，缺失值不是用”或者空来表达的，而是用-9 9 9 6 等来表达，假如要将其所有替换为，或者反之，将”替换为一9 9 9 6,命令为：.mve n code age,m v(-99 9 6).mv d ec o de a ge,m v(-9 9 96)3.3数据类型转化任务:将destri n gl,des t ri n g2和 tostri n g 中的数据类型进行互相转化*3.3.1 字符型转化成数值型：des t ring*d e strin g l 数据中的数据全为字符型，转换为数

32、值型.w e b use des t ri ngl,c le a r.d es/*注意到所有的变量存贮类型(s t orage t y p e)均为字符型s tr#,其中#号表达字符串长度*/Contains data fromob s:10va r s：5 3 Mar 2 0 23 10:15size：2 4 0(99.9%of memory f r ee)storage di s p 1 a y valueva r iable name type f orma t 1 abe I v a riable lab e Iid str3%9sn um str3%9sco d e st r 4%9

33、 st o t a l str5%9 sincome str5%9s.sum/由于所有变量为字符型，所以不能进行数值计算.gen ni ncom-income 1 0/因字符不能进行四则运算，不能进行加法运算type m /sm a t ch 系统提醒类型不匹配，由于in c ome为字符型，1 0 为数值型.d e string,re p 1 a c e 所有转换为数值型，r e p 1 a ce表达将本来的变量(值)更新,sum 注意到转换为数值型后，可以求五数概略了.gen nin c o m-i neo m e *1.3 转换后，可以运算，工资终于涨了 3 0%!1 ist i nco

34、m inc o m e工资终于涨了 30%!*-将字符型数据转换为数值型数据:去掉字符间的空格一一一*destring2数据集中的d a t a 变量为字符型，且年月日间有空格,转移为数据型 w ebu s e d e s t ring2,cl e ar.d e s 注意到所有的变量均为字符型s tri s t d a le注意到d a te 年月日之间均有空格d a te1.1999 12 102.202 3 07 083.1997 0 3 0 24.19 99 09 0 0.d e stri n g date,replace/想把d a t e转换成数值型，但失败了，系统提醒说*date

35、c o n t a i n s n on-n ume r i c charact e rs;no re p lac e/*由于具有非数值型字符(即空格)，因此没有更新，也即转换命令没有执行。*/.des t r i ng date,rep I ac e i g n o re()/*忽略空格，然后转换，注意这里的”“中间有一个空格，不是*/date:char a c t ers s pa c e remov e d;replac e d as lo n g/成功转换为1 o n g型.des 注意到d a te 的st or age type 已变为long.list date 注意到空格消失了

36、d a t e1.199912 1 02.202307083.1 9970302/*与d a te 变量类似，变量pr i c e前面有美元符号，变量percent 后有百分号，换为数值型时需要忽略这些非数值型字符。*/.destr i n g p r i ceperc e nt9 ge n 5 r /c d perc e m2)ign o re(“6,%”).l i s t /注意到p r i ce2前面的$号消失，p ercent2后面的号消失d a te pri c e p r ice2 p e rc e n tp e rc e n 121.199912 1 0$2,343.68 234

37、 3.6 8 3 4%342.20230708$7,2 3 3.44 7233.44 86%86.d 注意到pri c e2和percent2均变为数据值型变量double和b y t e*3.3.2数值型转化为字符型：to s t r i ng.web use tostri ng,clear/*该数据中年月日的数据类型不同样，不能直接相加生成一个反映日期的新变量*/.des 注意到mo n th为字符型，而年和日为数值型.1 ist.g e n datel=month-/+day+/+y e ar/将年月日构成一个新的日期变量t y p e misma t c h/由于month为字符型

38、，年和日为数值型，不同类型不能相加r(10 9);.tos tr in g y e a r day,repl a c e 将年和日转化为字符型.des 注意到，现在所有变为字符型.gen d a t el=mont h+/+day+/+y e ar/将年月日构成一个新的日期变量.list 生成了一个新的变量da tel,其为三个字符串和两个“/符号连接而成.g en d ate2=d a te(d a t elm d y,5)/*d ate 0 为日期函数，它以 19 6 0年1月1日为第0 天，计算从那天起直到括号中指定的某天datel一共过了多少天。mdy”指定da t e l的排列顺

39、序，这里是按照月日年的顺序来表达日期。*/.list/新生成的d a te 2表达总天数*小游戏：请算算你活了多少天？示例：一个生于1975年12月2 7日的家伙，他活了？.di d a t e(-1975/12/27,ym d”)3.4数据显示格式：f o r mat/*f o rma t只控制数据的显示格式，并不改变内存中数据的大小。*/.w e bu s e censu s 70,clear 美国人口普查数据.d e s 第三列显示了数据的格式dis p 1 a y formatstorage disp l a y valuevar i a b le name t y pe form

40、at la b el va r iable labels t a t e st r 14%14s Sta t er e g ion int%8.0 g c enr e g Ce n su s re g ionpopion g%11.0 g Populati o nmedag e floa t%9.0 g Med i an age*注意到，stat a变量的格式为1 4 s,表达右对齐，共1 4个字符,%为固定用法.list in 1/4/注意不同的显示格式:均为右对齐sta t e reg io n p o p med a ge1.Alaba ma So uth 3893888 29.32.A

41、laska West 401851 26.13.Ar i zona West 2 7 1 82 1 5 29.24.A r ka n s as So u th 2 2 8 6 435 3 0.6.fo r m a t sta t e%-14s/该命令使s t a t a的显示格式左对齐，1 4前面多了个负号.list in 1/4/注意不同的显示格式，state现在左对齐了stat e re g i on p op medag e1.A 1 abama South 3893 8 88 29.32.Alaska West 4 0 1 851 26.13.Ari z o n a We s t 27

42、18215 2 9.24.A r kansa s S o u t h 228643 5 30.6.f o r m a t r egion%8.0g/*r e g i on变量看起来是字符型变量,但事实上为数据型，它也可以左对齐,同样是加一个负号.list in 1/4/注意re g i o n现在左对齐了.f o rm a t pop%11.0gc/*po p 的显示格式为 1 1.0g,后面加上c,则每三位数间用逗号分开，c为comma的意思.*/.list in 1/4/结果加上了逗号，但是第五个观测值没有任何变化st a t e r e g io n pop me d ag e1.A

43、 lab a ma South 3,8 9 3,88 8 29.32.Al a ska We s t 4 01,8 51 26.13.Arizona W e st 2,718,2 1 5 2 9.24.Arkansas Sout h 2,2 8 6,43 5 30.65.Cal i f ornia Wes t 2 3667902 2 9.9*由于这个数太大，加逗号将超过11位数，我们可以先把总的位数增长.format pop%12.0gc/把pop显示总长度数增长到12位.1 istin 5/现在所有的p o p都按逗号分开了5.Californ i a W e st 2 3,667,902

44、29.9.f orm a t meda ge%8.I f 规定所有的med a g e都显示一位小数.list in 1/4s t a t e region pop meda g e1 .A 1 ab a ma S ou t h 3,8 9 3,888 29.32.Alas k a West 4 01,851 26.13.Arizona W est 2,7 1 8,2 1 5 29.24.Ark a n s a s S ou t h 2,2 86,4 35 30.6.gen i d=_n/生成一个新变量i d,取值依次为1,2,3.r e pl a ce i d=9 8 42 m3 将id的第

45、三个变量替换为984 2Jis t in 1/3s t at e reg ion pop med a ge i d1.Alabama Sou t h 3 8 9 388 8 29.3 12.Alaska West 4 0 1851 26.1 23.Ar i zo n a West 2718 2 15 29.2 9842.form at id%05.O f 对于编号，我们希望前面用零使得位数对齐.1 ist in 1/3/注意到通过在前面补零，所有的id都成了 5 位数。s t ate region p op me d a g e id1.Ala b ama South 3 8 93888 29

46、.3 0000 12.A 1 as k a West 4 0 1851 2 6.1 000023.Arizon a We s t 2 7 182 1 5 2 9.2 0 9 8423.5在ST ATA中直接录入数据:input3.5.1 菜单式操作任务：按学号录入五个学生的经济学成绩i d e c on o my1 402 803 904 705 53操作：（1）点击图标白在打开的数据表格第一列中录入五个姓名在第二列中录入另五个成绩双击丫2 1弹出对话框将变量改名为1（1 在匕6 6 1中写入学号退出弹出窗口;双击 v a r 2 弹出对话框将变量改名为name在 1 abel中写入姓

47、名关闭数据编辑器,BStata EditorX(2)点击图标F保存数据给数据命令为s t u den t 退出d J e!-S 5 1 C D olX?1 S ta t ii/SE U.U在建立数据文献后，假如没有存盘，这个文献即是一个“临时的”数据文献,它将随着退出STATA系统时而消失。当数据文献被存储在后,它将成为一个“永久性”的数据文献,用户可以在以后经常使用它而不必重新建立之。3.5.2 命令操作任务:按学号录入五个学生的学号和姓名i d n am e e c onomy1 J ohn 402 Chris 803 Jack 904 H u ang 435 Tom 70操作：在com

48、m and窗口中键入(注：前面的点号不必健入，每完毕一行按回车键,黑体为命令,斜体为变量名或文献名):对于字符型变量，需要指明其为字符型并指明最大的字符长度。,c 1 e a r/清空内存 i nput i d st rl 0 n ame economy 输入变量名，特别注意姓名前的s t r1 0.1 J ohn 4 0录入第一个学生的学号和成绩 2 Chr i s 8 0录入第二个学生的学号和成绩3 J a c k 9 0 4 H u ang 7 0 5 Tom 53end录入数据结束 sa v e econ o my/保存数据到当前程径，文献名为ec o nomy3 5 3 程序操作(1

49、)打开do f i leeditor,键入以下内容:清空内存i n put id str 10 n a m e econ omy/输入变量名，特别注意姓名前的str1 0.1 J o h n 40录入第一个学生的学号和成绩2 Chr i s 803 J a ck 9 04 H u a n g 705 T o m 5 3e n d 录入数据结束s a ve econ o m y,e r p 1 a c e 保存数据到当前程径，文献名为e c o n o m y（2 ）保存程序文献为m y d o（3）点击 ,执行后得到数学成绩3.6导入其他格式数据in s h e e t经常会碰到的情形是:我

50、们有其他格式的数据，需要导入到S T A T A中进行分析，建议大家此时将其他格式数据复制到分析数据的文献目录下，然后直接用S T A T A的导入数据文献命令导入原始数据，用程序模式进行解决，然后导出处理结果。这样做的最大好处是:既不会破坏最原始的数据文献，又使我们的每一步数据解决和分析过程都有迹可循。3.6.1 ins h e e t 命令在本书所附数据文献中找到“3 o r i g i n.x 1 s”数据,将其打开并另存为 o r i g i n.c s v”，（另存时请注意要选择“保存类型”下拉单，选择C S V （逗号分隔）这一项）。然后在STATA命令窗口中用下述命令导入 ins

展开阅读全文