Stata 快速入门 1、Stata的窗口
?在最上方有一排菜单,即“File Edit Data Graphics Statistics User Window Help”。 ?左上“Review”(历史窗口):此窗口记录着自启动Stata以来执行过的命令。 ?右上“Variables”(变量窗口):此窗口记录着目前Stata内存中的所有变量。 ?正上方“Results”(结果窗口):此窗口显示执行Stata命令后的输出结果。 ?正下方“Command”(命令窗口):在此窗口输入想要执行的Stata命令。
2、将数据导入Stata
?打开Stata软件后,点击Data Editor(Edit)图标(也可以点击菜单“Window”→“Data Editor”),即可打开一个类似Excel的空白表格。 ?用Excel打开文件“nerlove.xls”,复制文件中的所有数据,并粘贴到Data Editor中。
?导入数据的另一方法是,点击菜单“File” →“Import”,然后导入各种格式的数据。但这种方法有时不如直接从Excel表中粘贴数据来得方便直观。 3、变量窗口
?关闭Data Editor后,即会看到右上方的“Variables”窗口出现了5个变量: ?分别为tc(total cost,总成本),q(total output, 总产量),pl(price of labor,小时工资率),pf(price of fuel,燃料价格),与pk(user cost of capital,资本的租赁价格。
4、存为dta数据文件
?此时,可以点击Save图标(也可以点击菜单“File” →“Save”),将数据存为Stata格式的文件(扩展名为dta),比如nerlove.dta。
?以后就可以用Stata直接打开这个数据集了(不需要再从Excel表中粘贴过来)。 5、打开dta数据文件 打开的方式有三种:
1.点击Open图标(也可以点击菜单“File” →“Open”),然后寻找要打开的dta文件的位置。
2.直接双击想要打开的dta文件
3.在命令窗口输入以下命令(假设文件在E盘的根目录)并回车(按Enter键)
?use E:\\nerlove.dta, clear
其中,选择项“clear”表示可以替代内存中的已有数据。
?如果要关闭一个数据集(如果对数据集进行了改动,别忘了先存盘Save),以便使用另外一个数据集,可以在命令窗口输入 ?clear
?这样,内存中所有的当前数据都被清空,然后可以再打开另外一个数据集。 6、变量的标签
?在变量窗口,每个变量的“名字”(Name)旁边显示了其“标签”(label)。但目前的标签过于简略,缺乏变量的解释信息。 ?如果想将变量“tc”的标签改为“total cost”,可进行如下操作。点击进入“变量管理器”(Variables Manager)图标(在Data Editor右侧)。 ?Stata中字母的大小写是严格区分的(case sensitive),因此Stata建议对于变量名一律使用小写字母。 7、审视数据
?一个数据集可能很大,而我们常希望看到数据的概貌。想看数据集中的变量名单、标签等,可以在命令窗口输入, ?describe ?其中,“describe”中的下划线表示,可以将该命令简写为“d”而得到同样的效果。
8、罗列数据
?如果想看变量tc与q的具体数据,可使用命令, ?list tc q 9、旧命令的调用
?把光标放在命令窗口,并按键盘上的“Page Up”键即可调用上一个命令(反之,使用“Page Down”键可调用下一个命令)。
?另一种简便的方法是,在左上角的历史窗口点击任何曾用过的命令:如果用鼠标单击旧命令,则会把旧命令重新调入命令窗口,按回车后即执行,或将旧命令进行编辑后再执行;如果用鼠标双击旧命令,则将马上自动执行。 10、定义子集
?有时我们想对数据集的一部分执行命令,比如只想看变量tc与q的前5个数据,则可输入命令: ?list tc q in 1/5 11、逻辑关系
?也可以通过逻辑关系来定义数据集的子集。如果要列出所有满足条件“”的变量tc与q的数据,则可以使用以下命令, ?list tc q if q>=10000 12、只对子集进行运算
?如果想删除满足“q>=10000”条件的观测值,则可使用命令, ?drop if q>=10000
?反之,如果只想保留满足“q>=10000”条件的观测值,而删去所有其他观测值, ?keep if q>=10000
13、考察变量的统计特征
?如果想看变量q的统计特征,可输入命令, ?summarize q
?如果不指明变量,则将显示数据集中所有变量的统计指标。 ?su
?如想看更多的统计指标,可使用命令 ?su q,detail
14、经验累积分布函数
?如果要显示变量pl的经验累积分布函数(empirical cumulative distribution function),可使用命令, ?tabulate pl 15、相关系数
?如果要显示内存中5个变量之间的相关系数,可输入命令, ?correlate tc q pl pf pk ?pwcorrpl pfpk,sigstar(.05) “pw”表示pairwise。 ?
?选择项“sig”表示显示相关系数的显著性水平(即p值,列在相关系数的下方), ?选择项“star(.05)”表示给所有显著性水平小于或等于5%的相关系数打上星号。 ?如pwcorr之后没有指定变量,显示所有变量的相关系数 16、直方图
?如果想看变量q 的直方图(假定组宽为1000),可输入以下命令(也可通过菜单来输入此命令):
?histogram q, width(1000) frequency 17、散点图
?如果要画tc与q之间的散点图,则可输入以下命令: ?scatter tc q
18、在散点图上标注观测值
?在散点图中,无法知道每个点分别对应哪个观测值
?为此,首先定义一个新变量“n”来表示第n个观测值。 ?gen n=_n ?其中,“_n”即表示第n个观测值。 ?scatter tc q,mlabel(n) mlabpos(6)
?选择项“mlabel(n)”表示以变量“n”作为“mark label”(标签);“mlabpos(6)”(mark label position)表示将此标签放在散点正下方(6点钟的位置),默认位置为散点的右边(3点钟)。
19、在散点图上画回归直线 ?twoway(scatter tc q)(lfit tcq) ?其中,“lfit”表示“linear fit”(线性拟合) ?graph save scatter1
20、在散点图上画二次回归曲线 ?twoway(scatter tc q)(qfit tc q) ?其中,“qfit”表示“quadratic fit”(二次拟合)。 ?graph save scatter2 21、将两图合并
?graph combine scatter1.gph scatter2.gph 22、案例操作
stata入门教程



