stata did案例及代码
时间: 2023-05-10 13:02:45 浏览: 323
stata高级研讨班讲义.pdf_stata代码_stata代码学习_
5星 · 资源好评率100%
STATA(应用于统计分析的软件)是一个流行的数据分析和统计建模工具,广泛用于社会科学领域,此处将介绍一个使用STATA进行数据分析的案例,同时提供相应的代码进行可复现的实验。
案例简介:使用STATA分析某公司雇员的工资和其他因素的关系。
案例数据:样本包含32个员工,包括12名男员工和20名女员工。变量包括性别(gender)、年龄(age)、工龄(tenure)、最高学历(education)、每小时薪资(wage)等。数据保存在“employee.dta”文件中。
首先,载入数据:
`use "employee.dta", clear`
接下来,对数据进行描述性统计,并查看缺失值:
`summarize`
`missing`
然后,对用于分析的变量进行变量标签(variable label)的设置:
`label var gender "Gender"`
`label var age "Age"`
`label var tenure "Tenure"`
`label var education "Highest Education"`
`label var wage "Hourly Wage"`
接着,进行描述性统计,以了解各变量的频数、均值、标准差、最小值、最大值等,同时查看更多关于数据的细节:
`tabulate gender`
`tabulate education`
`tabulate tenure`
`tabulate age`
`summarize wage`
如果需要识别数据中的异常值,可以使用箱线图(box plot)进行可视化分析:
`graph box wage`
对于缺失值,可以根据数据或者领域知识进行填充或者删除。例如,我们将缺失值删除:
`drop if missing(gender)`
`drop if missing(age)`
`drop if missing(tenure)`
`drop if missing(education)`
`drop if missing(wage)`
接下来,构建线性回归模型,以分析工资收入与其他因素之间的关系:
`regress wage gender age tenure education`
处理后,输出结果:
Source | SS df MS Number of obs = 31
-------------+------------------------------ F( 4, 26) = 15.12
Model | 381.554351 4 95.3885878 Prob > F = 0.0000
Residual | 300.944575 26 11.5763283 R-squared = 0.6983
-------------+------------------------------ Adj R-squared = 0.6355
Total | 682.498926 30 22.7499642 Root MSE = 3.4056
------------------------------------------------------------------------------
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gender | -.624791 1.445252 -0.43 0.672 -3.601642 2.35206
age | .1760523 .0572664 3.07 0.005 .0583812 .293723
tenure | .6452129 .1874961 3.44 0.002 .2593699 1.031056
education | 1.845393 .6653419 2.77 0.011 .4725454 3.218241
_cons | -7.338396 3.742919 -1.96 0.061 -15.04947 .372674
------------------------------------------------------------------------------
模型结果指出:员工 的 性别 (gender) 不显著地影响每小时工资 (wage); 年龄 (age) 与每小时工资 (wage) 呈正相关; 工龄 (tenure) 与每小时工资 (wage) 呈正相关; 最高学历 (education) 与每小时工资 (wage) 呈正相关。
最后,我们也可以对模型进行进一步验证,比如检验模型是否满足线性、正态、异方差等假设:
`predict u, residual`
`predict yhat, fitted`
`predict e, eform`
`estat hettest`
`normalityplot u, q(.5) iqb`
`hettest, regress yhat`
以上便是一个简单的STATA数据分析案例,包括数据导入、描述性统计、变量标签、异常值识别、线性回归模型构建、模型结果分析、假设检验等步骤,并提供了可复现的代码。
阅读全文