好文档 - 专业文书写作范文服务资料分享网站

【009期】SPSS缺失值处理

天下 分享 时间: 加入收藏 我要投稿 点赞

3 3.1 缺失值(missing data)又叫不完整数据,其发生的原因主要分为两类,一类是个人填写

疏忽、题意不明漏答、拒绝作答等内部因素, 另一种是数据输入所造成的失误等外部因素。

缺失值最大的影响在于造成样本的流失,同时也会干扰分析结果。因此,我们可以通过 统计的方法对缺失值进行删除、替换或填补。这不是学术造假,这是一种统计处理技术。重 要的事情说三遍,这不是学术造假……

怎么发现缺失值?有的人说肉眼找,有的人说自己录的还不知道吗?首先,样本量比较 多的话,我们很难发现到底哪些题项有缺失,其次,处理他人数据时我们也不知道有没有缺 失,这时候我们需要去检验是否存在缺失值。如果存在缺失值,该怎么处理?

例如,报考心理学的研究生考试成绩有三科笔试分数、笔试总分和面试分数,此外还有 性别、年龄等人口学变量。

① 如果除了临时生病的外,都参加了考试,则三科笔试分数缺失的概率与数据中的变量都

无关,属于 MCAR;

② 如果只有笔试分数上线的考生才有资格面试,则面试缺失的概率与面试分数无关,但与

笔试分数有关, 属于 MAR;

③ 如果最后一科缺失的分数是因为考生觉得前面的考试没有考好而且该科很难而弃考,则

最后一科缺失的概率与该科和前面的考试分数都有关,属于 NMAR 。

(Rubin, 2004)

? 完全随机缺失(MCAR): 某个变量 X 缺失的概率与其本身和研究中的其他变量都无关。

? 随机缺失(MAR):某个变量 X 缺失的概率与研究中的某个或某些变量有关, 但与X 本

身无关。 ? 非随机缺失(NMAR): 某个变量 X 缺失的概率与 X 本身的取值有关(可能与其他变量

也有关)。

? MCAR:缺失数据是可以忽略的,简单地将有缺失的被试删除(列删法,listwise)。 ? MAR: 如果对引起缺失的变量与要估计的参数无关,则缺失数据也是可以忽略的。

? 缺失种类不明, 只要缺失数据很少(如5%之内),删除有缺失的被试通常影响不大。

? NMAR 或 MAR:待估参数与引起缺失的变量有关,缺失是不可忽略的,不能简单地将

缺失数据删除, 通常的做法是缺失值填补(imputation) 。

SPSS 和 Mplus 等软件均提供了多种填补的方法,包括均值填补、回归填补、EM算法 和多重填补。EM 算法和多重填补较好。 3.2 【分析】-【缺失值分析】-将变量分别选入“定量变量”和“分类变量”中—勾选【EM】方法- 点 击【EM】选项-勾选【保存完成数据】,并命名新的插补后的数据-得到插补后的数据列及具 体补充数据。

3.3 分析】-【描述统】-【频率】-将所有题项导入到变量框(第一个题项+shift 键+最

后一个题项,即可全选)—左下角的显示频率表的√取消—确定。

注:“缺失”可以显示是否缺失。上图反映性别缺失两个数据,年级和年龄各缺失一个,社交 网站使用时间和频率均无缺失。但只能显示缺失的数量,无法得知缺失哪一行的数据。这时, 我们可以将缺失所在列进行降序处理(选择缺失所在列—单击右键— 降序),就可以找到哪 些行有缺失。

对于缺失的数据,可以删除、替换或填补。如果一个被试缺失的数据比较多,或者样本 量比较大,可以考虑直接删除。相反,可以考虑替换或填补。对于替换或者填补,可以从手 动和自动两个方面着手。手动即根据数据类型来进行替换或填补(分类数据用众数替换,连 续数据用平均值替换)。这种方法适合缺失较少的情况。至于自动, 就需要用到统计操作。

【转换】- 【计算变量】-【Nmiss】,将检验变量拖入括号中。

【009期】SPSS缺失值处理

33.1缺失值(missingdata)又叫不完整数据,其发生的原因主要分为两类,一类是个人填写疏忽、题意不明漏答、拒绝作答等内部因素,另一种是数据输入所造成的失误等外部因素。缺失值最大的影响在于造成样本的流失,同时也会干扰分析结果。因此,我们可以通过统计的方法对缺失值进行删除、替换或填补。这不是学术造假,这是一种统计处理技术
推荐度:
点击下载文档文档为doc格式
8itus1b3hm3cwgi893aj3uh255c6oi00c3l
领取福利

微信扫码领取福利

微信扫码分享