.
第十六章 数据分析 第一节 常用的统计方法 变量类型
在编码时我们已经提到过,问卷的每一个题目都可以看做是一个变量,由于所提问题的性质不同,对应的变量类别就不一样,变量的类别由低到高依次为:定类变量、定序变量、定距变量(定比变量)。
(1) 定类变量:变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是定类变量。对于定类变量,加减乘除等运算是没有实际意义的。
(2) 定序变量:变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度”,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。
(3) 定距变量:变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。有时问卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。
定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。定比
.
.
变量取值为“0”时,则表示“没有”。上面举的“年龄”、“每月平均收入”也是定比变量,因为它们的“0”值都表示“没有”。而像“温度”这样的变量中的“0”值并不表示“没有”,而是表示“0℃”这一特定温度,这样的变量是定距变量,但不是定比变量。
在统计分析时,对不同类型的变量要选用不同的方法。一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量,反之则不行。比如适用于定类变量的分析方法,同时也可用于其他类别的变量,反过来适于定距变量的分析方法,一般不能用于其他类别的变量。 由于市场调查中的定类、定序变量较多,为了能够使用更多的统计方法,常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量,这样只适用于定距变量的统计方法,就可以用于这些定类和定序变量了。 对于缺失值的处理
在数据整理中,经常会碰到缺失值的问题,缺失值的数量过多的话,说明数据收集过程中存在着严重的问题。可以接受的标准是,缺失值的数量在10%以下。处理缺失值的方法有下面4种: (1)用一个样本统计量的值代替缺失值
缺失值可以使用一个样本的统计量去代替,最典型的做法就是使用该变量的样本平均值。由于该变量的平均值保持不变,其他的统计量如标准差、相关系数等都不会受到影响。如在收入或者年龄问题中出现缺失值,可以使用收入、年龄的平均值代替缺失值。
.
.
(2)用从一个统计模型计算出来的值去代替缺失值
另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替,常使用的模型有回归模型、判别模型等等。如“个人收入”、“ 年龄”与“品牌的选择”可能存在关系,利用这三个问题的被访者问答数据,可能构造出一个回归方程。根据这个回归方程,对于没有回答“品牌选择”的被访者,可以根据“个人收入”和“年龄”的选项,利用回归方程式,计算出品牌选择的值。 (3)将有缺失值的个案删除
将有缺失值的个鞍删除的方法,结果可能会导致样本量的减少,如果调查在收集过程中控制得不是很好,被访对象多多少少都会出现一些问题没有回答的情况,删除个案的方法,会导致大量的样本减少。 (4)将有缺失值的个案保留,仅在相应的分析中做必要的删除 将有缺失值的个案保留,仅在相应的分析中做必要的排除的方法,会使分析中不同计算的样本量不同,也有可能导致不适宜的结果。调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度的相关的情况下,市场研究者经常采用这种方式处理缺失值。 统计方法
根据研究的目的与要求,要选择不同的统计方法。如果是对一个变量取值的归纳整理及对其分布形态的研究,用频数分析(计算百分比等)、众数、中位数、均值和标准差等方法或统计量来描述;对两
.
.
个变量的相关性分析,可以用卡方分析、单因素方差分析、简单相关系数、一元线性回归分析等方法;对多个变量间的相关性分析,可以用多元线性回归、判别分析、聚类分析、因子分析等方法。
在学习掌握这些统计方法的同时,还应该会熟练使用相关的统计软件,因为很多统计方法靠手工计算是难以完成的。现在普遍使用的统计软件是SPSS、SAS。
下面我们分单变量的分析、两个变量的相关分析、多个变量的相关分析三部分,介绍一些常用的统计方法,主要介绍如何应用这些方法,并列举模拟的例子,给出相应的用SPSS统计软件分析的结果,使读者能够较快地学会使用这些方法。 第二节 单变量分析频数和百分比
所谓频数(Frequencies),时变量某一个去值的个案数;所谓百分比(Percentage),是表示该取值的个案数占总样本的比例,即频数/样本量×100%。将变量所有取值的频数和百分比列在一个表中,这种表叫频数表,从中可以看出变量各个取值的分布情况。 频数表分析方式一般适用于定序变量和定类变量,对定距变量,必须先将变量的取值进行分组,每一个分组作为一个新的选项,然后对这些新的选项进行频数表的计算。
.
.
(例1)
表中第一列是“变量标签”,是对变量取值的说明(现在使用的SPSS软件虽然是英文版,但是已经可以兼容中文,变量标签可以使用中文表示)。
第二列是“变量取值”,即:“1”至“5”分别代表了“非常不好”到“非常好”,其中“.”代表缺失值,即有些人没有回答此题;
第三列是“频数”,对应的数值表示各个取值的个案数,这里认为“非常好”有16样本、认为“好”的有216个样本、认为“一般”的有193人、认为“不好”的有10个样本、认为“非常不好”的有1个人,而没回答此题约有65人。
第四列是“百分比”,是频数对样本量(501人)的比率。 .