例如:当前计算机中正处于STATA状态下,并有二个配对变量x1和x2的数据,因此需要计算两个变量的差:x1-x2,则: gen x=x1-x2
修 改 数 据:STATA 命 令:
replace 变量名 = 表 达 式 [if 逻辑表达式] [in 范围]
如:变量x中所有值为999的数据是缺省资料,现改为STATA缺省值的记号,所有大于100的数据将改为2;x小于或等于100且大于5的所有数据改为1;x小于或等于5的所有数据为0。 则:
replace x=. if x==999 replace x =0 if x<=5
replace x=1 if x>5 & x<=100 [2] replace x=2 if x>100
[1]、方括号[]中的子命令表示可以省略,但方括号中的子命令是处理一些特殊情况的。
[2]在逻辑表达式中:“等于”用==表示;“不等于”用~=表示;“或”用|表示;“并且”用&表示。
第二章 描述性统计命令与输出结果说明
本 节STATA 命 令 摘 要
by 分组变量:]summarize 变 量 名1 变 量 名2 ? 变 量 名m[,detail] ci 变 量 名1 变 量 名2 ? 变 量 名m [, level(#) binomial poisson exposure(varname) by(分组变 量) ] cii 样 本 量 均 数 标 准 差 [, level(#) ] tab1 变量名 [,generate(变量名)] ? 资 料 特 征 描 述( 均 数, 中 位 数, 离 散 程 度)
例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版,p21): 患 者 2.6 3.24 3.73 3.73 4.32 4.73 5.18 5.58 5.78 6.40 6.53 健康人 1.67 1.98 1.98 2.33 2.34 2.50 3.60 3.73 4.14 4.17 4.57 4.82 5.78 并假定这些数据已以STATA格式存入ex2.dta文件中,其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。 计 算 资 料 均 数, 标 准 差 命 令 summarize, 以 述 资 料 为 例: use ex2,clear summarize x1 x2 结 果:
变量 样本数 均 数 标准差 最小值 最大值 Variable | Obs Mean Std. Dev. Min Max ---------+------------------------------------------------------------------- x1 | 11 4.710909 1.302977 2.6 6.53 x2 | 13 3.354615 1.304368 1.67 5.78 11
即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize以及子命令detail,仍以述资料为例: use ex2,clear
summarize x1 x2,detail 结 果:
x1 ------------------------------------------------------------- Percentiles Smallest( 最 小 值) 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11(样本数) 25% 3.73 (低四分位) 3.73 Sum of Wgt. 11 50% 4.73 (中位数) (最大值) Mean 4.710909(均数) Largest Std. Dev. 1.302977(标准差) 75% 5.78(高四分位) 5.58 90% 6.4 5.78 Variance 1.697749 (方差) 95% 6.53 6.4 Skewness -.0813446(偏度) 99% 6.53 6.53 Kurtosis 1.809951 (峰度) x2 ------------------------------------------------------------- ④ Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% ① 2.33 2.33 Sum of Wgt. 13 50% ② 3.6 Mean 3.354615 ⑤ ⑥ Largest Std. Dev. 1.304368 75% ③ 4.17 4.17 90% 4.82 4.57 ⑥Variance 1.701377 95% 5.78 4. 82 ⑦Skewness .2963943 99% 5.78 5.78 ⑧ Kurtosis 1.875392 由上述结果可知:summarize命令并使用子命令detail,不仅可以得到各变量资料的均数和⑥标准差,而且可以得到主要的非参数描述指标:①低四分位(lowerquartile),②中位数(Median)以及③高四分位(upperquartile)。对于非正态资料,一般不应用均数±标准差进行描述,而应使用中位数以及(低四分位-高四分位,称interquartilerange,IQR)进行描述。如:若本资料不正态[1],则x1的Median以及IQR为:4.73(3.73-5.78)以及x2的Median以及IQR为:3.6(2.33-4.17)。⑥为样本方差;⑦为偏度,偏度的绝对值越小,表明该数据的正态对称性越好;⑧峰度,峰度值越大表明该数据的正态峰越明显;④在该数据中最小的四个数据;⑤在该数据中最大的四个数据。 若调用ex2a.dta文件,进行描述性统计,可用下列命令: use ex2a,clear
sort group ( 将 资 料 以 group 变 量 为 例 从 小 到 大 排 序)
12
by group:summarize x 结 果: -> group= 0 x ------------------------------------------------------------- Percentiles Smallest 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11 25% 3.73 3.73 Sum of Wgt. 11 50% 4.73 Mean 4.710909 Largest Std. Dev. 1.302977 75% 5.78 5.58 90% 6.4 5.78 Variance 1.697749 95% 6.53 6.4 Skewness -.0813446 99% 6.53 6.53 Kurtosis 1.809951 -> group= 1 x ------------------------------------------------------------- Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% 2.33 2.33 Sum of Wgt. 13 50% 3.6 Mean 3.354615 Largest Std. Dev. 1.304368 75% 4.17 4.17 90% 4.82 4.57 Variance 1.701377 95% 5.78 4.82 Skewness .2963943 99% 5.78 5.78 Kurtosis 1.875392 上 述 结 果 与 前 面 的 结 果 对 应 相 同。 ? 根 据 样 本 数 据 计 算 可 信 限 [2] 95% 可 信 限 计 算: 正 态数 据:ci 变量名
0-1 数 据:ci 变量名, binomial
poisson 分 布 数 据: ci 变 量 名,poisson 90% 可 信 限 计 算( 其 它 可 信 限 类 推) 正 态数 据:ci 变量名, level(90)
0-1 数 据:ci 变量名, level(90) binomial
poisson 分 布 数 据: ci 变 量 名,level(90) poisson 以 ex2.dta 为 例 计 算 x1,x2 的 95% 可 信 限。
use ex2.dta,clear ① ② ③ ④ Variable | Obs Mean Std. Err. [95% Conf. Interval] ---------+---------------------------------------------------------------------- x1 | 11 4.710909 .3928624 3.835557 5.586261
13
x2 | 13 3.354615 .3617667 2.566393 4.142837 以 上 结 果 中:① 为 样 本 数;② 为 均 数;③ 为 标 准 误;④ 为 95% 的 可 信 限, 因 此 x1 的95% 可 信 限 为[3.8356,5.5863],x2 的 95% 可 信 限 为[2.5664,4.1428]。 ? 根 据 样 本 数, 样 本 均 数 和 标 准 差 计 算 可 信 限 [3] 。
若 数 据 服 从 正 态 分 布, 并 已 知 样 本 均 数 和 标 准 差 以 及 样 本 数, 则95% 可 信 限 计 算 为:
cii 样 本 数 样 本 均 数 标 准 差[,level(#)] 例: 已 知 样 本 数 为 90 样 本 均 数 为 40 以 及 样 本 标 准 差 为 12, 则: 计 算 该 样 本 均 数 的 95% 可 信 限 为
cii 90 40 12 Variable | Obs Mean Std. Err. [95% Conf. Interval] ----------+---------------------------------------------------------------------- | 90 40 1.264911 37.48665 42.51335 该 样 本 均 数 的90% 可 信 限 为 [37.48665, 42.51335]
cii 90 40 12,level(90) Variable | Obs Mean Std. Err. [90% Conf. Interval] ---------+--------------------------------------------------------------------------- | 90 40 1.264911 37.89752 42.10248 ? 计 数 资 料 中 频 数 和 比 例 STATA 命 令:
tab1 变 量 名[,g( 新 变 量 名)
因 为 该 命 令 主 要 适 用 描 述 计 数 资 料( 即: 属 性 资 料), 当 使 用 子 命 令 g( 新 变 量), 则 产 生 属 性 指 示 变 量。 在 回 归 分 析 中 经 常 需 要 这 些 指 示 变 量 作 为 亚 元 变 量 进 行 分 析。
例:50 只 小 鼠 随 机 分 配 到 5 个 不 同 饲 料 组, 每 组 10 只 小 鼠。 在 喂 养 一 定 时 间 后, 测 定 鼠 肝 中 的 铁 的 含 量(mg/g) 如 表 所 示: 试 比 较 各 组 鼠 肝 中 铁 的 含 量 是 否 有 显 著 性 差 别( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p220)。 用 x 表 示 鼠 肝 中 铁 的 含 量 以 及 用 group=1,2,3,4,5 分 别 表 示 对 应 的 5 个 组。 x: group: x: group: x: group: x: group: x: group: 2.23 1 5.59 2 4.5 3 1.35 4 1.4 5 1.14 1 0.96 2 3.92 3 1.06 4 1.51 5 2.63 1 6.96 2 10.33 3 0.74 4 2.49 5 1 1 1.23 2 8.23 3 0.96 4 1.74 5 1.35 1 1.61 2 2.07 3 1.16 4 1.59 5 2.01 1 2.94 2 4.9 3 2.08 4 1.36 5 1.64 1 1.96 2 6.84 3 0.69 4 3 5 1.13 1 3.68 2 6.42 3 0.68 4 4.81 5 1.01 1 1.54 2 3.72 3 0.84 4 5.21 5 1.70 1 2.59 2 6 3 1.34 4 5.12 5 tab1 group,g(a) -> tabulation of group ① ② ③ group| Freq. Percent Cum. ------------+----------------------------------- 1 | 10 20.00 20.00 2 | 10 20.00 40.00
14 3 | 10 20.00 60.00 4 | 10 20.00 80.00 5 | 10 20.00 100.00 ------------+----------------------------------- Total | 50 100.00 ① 为 各 属 性 资 料 的 频 数;② 为 该 属 性 占 整 个 资 料 样 本 数 的 百 分 比;③ 为 累 计 百 分 比。
本 例 中, 总 样 本 数 为 50, 共 有 5 组, 每 组 有 10 个 样 本 点, 各 占 总 样 本 数 的 10%。 因 为 使 用 了 子 命 令 g(a), 从 而 产 生 5 个 指 示 变 量( 又 可 称 亚 元 变 量): a1,a2,a3,a4 和 a5。 变 量 a1 用 于 指 示 第 1 组 的 资 料: 即: 当 资 料 属 于 第 1 组 的(group=1), 则 a1=1; 其 它 组 的 资 料(group11), 则 a1=0。 变 量 a2 用 于 指 示 第 2 组 的 资 料, 变 量 a3,a4 和 a5 相 应 分 别 指 示 第 3,4,5 组 的 资 料( 详 细 见 下 表)。
x: 2.23 1.14 2.63 1 1.35 2.01 1.64 1.13 1.01 1.70 group: 1 1 1 1 1 1 1 1 1 1 a1 1 1 1 1 1 1 1 1 1 1 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 x: 5.59 0.96 6.96 1.23 1.61 2.94 1.96 3.68 1.54 2.59 group: 2 2 2 2 2 2 2 2 2 2 a1 0 0 0 0 0 0 0 0 0 0 a2 1 1 1 1 1 1 1 1 1 1 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 x: 4.5 3.92 10.33 8.23 2.07 4.9 6.84 6.42 3.72 6 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 1 1 1 1 1 1 1 1 1 1 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 group: 3 3 3 3 3 3 3 3 3 3 x: 1.35 1.06 0.74 0.96 1.16 2.08 0.69 0.68 0.84 1.34 group: 4 4 4 4 4 4 4 4 4 4 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 1 1 1 1 1 1 1 1 1 1 a5 0 0 0 0 0 0 0 0 0 0 x: 1.4 1.51 2.49 1.74 1.59 1.36 3 4.81 5.21 5.12 group: 5 5 5 5 5 5 5 5 5 5 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0
15