stata学习笔记(一)stata入门与基本操作

2024-01-21 06:04:04 作者:欧亿体育

这里开个新坑,主题有关stata使用以及定量分析入门,主要内容来自于之前与之后的课程学习、作业以及资料查询整理,主要目的是对个人学习过程的一个记录,方便日后回顾。

1 导入数据

方法1:点击文件选项,选择导入,根据数据类型选择即可;

方法2::点击进入数据编辑器界面,点击“文件”选择打开。注意,该方式只能打开.dta文件,若数据量较小建议在Excel中的打开,全选后复制,粘贴至数据编辑器中。

若想将导入后的Excel文件转换成dta数据,可在主界面的文件中选择另存为即可。

2 修改变量标签

方法1:在数据编辑器的属性窗口直接输入即可

方法2:在命令窗口输入
label variable 城市 “city”
注意var后面的跟变量名称,即使是汉字也不需要加引号

3 检视数据

1.输入命令describe(可简写为d)看数据集中变量名称、标签等

2.若想看某几个变量的具体数据,则输入命令:
list A B C

3.也可通过逻辑关系来定义数据集子集,比如列出C变量大于等于10000的数据,则使用命令:
list A C if C>=10000

这里注意下其他表示关系的逻辑符号有“==”(等于)、“~=”(不等于,也可以用“!=”表示)。stata中等号的作用跟Python中类似,一个=是赋值,两个= =才表示等于。此外,if后面的等号必须是“= =”。
4.删改数据:
①若要删除满足“C<=10000”条件的观测值,可输入
drop if C<=10000
②若只要保留“C<=10000”条件的观测值,可输入
keep if C<=10000
注意,stata中没有撤回,所以删除数据需慎重。
5.若想将数据按变量C升序排列,可输入
sort C
list
若想按变量C降序排列,可输入
gsort -C

4 画图

1.hist 变量名 , width(5) frequency
其中hist全拼histogram,表示直方图,width(5)表示将组款设为5,frequency表示将纵坐标定为频数(默认使用密度)
2.sc 变量1 变量2 , mlabel(变量1)
其中sc全拼scatter,即画出两个变量的散点图来看二者的关系。mlabel表示以变量1作为标签,显示在图中

5 统计分析

1.su 变量1
其中su全拼summarize,计算变量1的样本容量、平均值、标准差、最小值与最大值。若不表明变量则输出所有变量的统计指标

2.ta 变量1
其中ta全拼tabulate,显示变量1的经验累积分布函数,Freq表示频数,Percent表示百分比,Cum表示累积百分比

3.cor 变量1 变量2 变量3
其中cor全拼correlate,显示变量1 2 3之间的相关关系

6 生成新变量

1.通过generate 简写为gen来实现。
gen lnB=ln(B)
上面命令可定义变量B的对数并生成名为lnB的新变量
gen squareB=B^2
上面命令表示生成新的B的平方变量
2.生成虚拟变量,即只包含0 1的二值项
gen 变量2=1 if 变量11
replace 变量2=0 if 变量2
.
3.rename 变量1 变量一
变量1被重命名为变量一
4.drop 变量1
变量1被删除

7 链接新变量

若需要合并其他数据集中的变量,则要用到merge命令。例如表1中需要加入B变量,该变量位于表2中,其中共同字段为A,则可以通过以下命令来将B合并如表1中:
use C:\ 表1.dta,clear
merge m:1 A using E:\表2.dta , keepusing(B)
drop if _merge2
drop _merge
其中m;1表示数据对应关系为多对1,较为常见,关于merge用法的详解可以参考其他博文:https://blog.csdn.net/qq_42729246/article/details/105623056
keepusing(B)表示只引入B变量,若不加这个可选项则表示引入表2中的全部变量。
drop if _merge
2表示删除不匹配数据
drop _merge表示删除新生成的 _merge变量

8 do文件


点击上图的新建do文件,即可撰写代码实现可重复性的使用

9 相关练习

1.计算gdp、college的变异系数
变异系数的公式为V=S/|x ̅ | ,其中S 为标准差,x ̅为平均值。两者均可通过Stata自带的函数进行运算,具体代码如下:

计算出来的结果为,gdp的变异系数为0.7695182,college的变异系数为0.4989674(保留小数点后7位)。


2.用Stata计算基尼系数
这里我将人口与GDP数据相结合,计算了各省份人均GDP方面的基尼系数。选用公式为

其中p_i为地区单元比重,w_i为地区某指标比重,q_i为累积比重。因为要计算人均GDP的基尼系数,因此,p_i为各省份人口所占总人口的比例,w_i为各省份GDP占总GDP的比例,q_i为按人均GDP排序后的累积GDP比例。具体代码如下:

计算得到的基尼系数为0.2032725(保留小数点后7位)。

3.对trade变量进行极差标准化并赋值给新变量
与上个问题同理,其公式的不同在于分母,换成了最大值减最小值的极差。具体公式为:


运算结果如下:

在线咨询 拨打电话

电话

010-67916526

微信二维码

微信二维码