交叉表分析

由天下分享时间：2025/3/1 20:48:28 加入收藏我要投稿点赞

data05-02为某公司工资数据（n=15）。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。

可以利用data05-01中的数据，使用变量occcat80为工作性质分类，region为地区，childs为每个家庭的孩子数。将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析。

列联表（交叉表）分析

1、项目名称 Crosstabs过程 4、实训原理

Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表，并计算相应的百分数指标。

4-1 列联表分析的含义与任务

在实际分析中，当问题涉及到多个变量时，我们不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。很明显，如果还采用单纯的频数分析方法显然不能满足要求。因此，我们需要借助交叉分组下的频数分析，即列联表分析。列联表分析的主要任务有两个：

（1）根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。

（2）在交叉列联表的基础上，分析两变量之间是否具有独立性或一定的相关性。

4-2 卡方检验的原理

为了理解列联表中行变量（Row）和列变量（Column）之间的关系，我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样，卡方检验主要包括三个步骤：

（1）建立零假设：行变量和列变量相互独立。

（2）选择和计算检验统计量。列联表分析中的检验统计量是Pearson卡方统计量。其公式为：

?2???i?1j?1rc?foij?fije?fije2（4-9-1）

其中，r为列联表的行数，c为列联表的列数，f0为实际观测频数，fe期望观测频数。期望频数的计算公式为：

fe?RT?CT（4-9-2） n其中，RT是指定单元格所在行的观测频数合计，CT是指定单元格所在列的观测频数合计，n是观测频数的合计。

由式（4-9-1）可以看出，卡方统计量的大小取决于两个因素：一个是列联表的格子数；另一个是观测频数和期望频数的差值。在列联表固定的情况下，卡方统计量取值的大小取决于观测频数和期望频数的总差值。当总差值越大时，卡方值也就越大，表明行列变量之间越相关；反之，当总差值越小时，卡方值也就越小，表明行列变量之间越独立。

（3）得出结论并做决策。根据卡方统计量的概率P值和显著性水平?进行比较，做出拒绝还是接受原假设的结论。如果卡方检验的概率P值小于显著性水平?，则拒绝原假设，认为行列变量之间不独立，两者之间存在依存关系。反之，如果卡方检验的概率P值大于显著性水平?，则接受原假设，认为行列变量之间独立，两者之间不存在依存关系。

在卡方检验中还需要注意：交叉列联表中不应有期望频数小于1的单元格，或者不应有大量期望频数小于5的单元格。如果交叉列联表中有20%以上单元格中的期望频数小于5，则不应用卡方检验，可以采用似然比（Likelihood Ratio）卡方检验等方法进行修正。

5、背景材料

某新产品上市前一个月中，分别对北京、上海、深圳三地进行了市场调查，调查表中有一项是关于顾客获知该产品的渠道。随机抽取了300份调查表，统计顾客获知产品渠道的数据如下，SPSS数据文件见。

表4-9-1 顾客获知某新产品渠道的调查数据城市朋友电视网络报刊合计 6、实训步骤

6-1 选择菜单“Analyze”→“Descriptive Statistics”→“Crosstabs”弹出如图4-9-1所示的窗口，进入列联表分析界面。

图4-9-1 列联表分析窗口

6-2 选择列联表中的行变量进入Row(s)框，如表4-9-1中的获取新产品的渠道变量。

6-3 选择列连表中的列变量进入Column(s)框，如表4-9-1中的城市变量。 6-4 Layer框：Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next钮设为不同层。Layer在这里用的比较少，在多元回归中我们将进行详细的解释。

6-5 选择Display clustered bar charts复选框表示输出分组条图。选择Suppress table复选框表示禁止在结果中输出列联表。

6-6 单击按钮，弹出Exact Tests子对话框，如图4-9-2所示。

图4-9-2 Exact Tests子对话框

Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptotic only）、蒙特卡罗模拟（Monte Carlo）或确切计算（Exact）。其中，系统默认是不计算；蒙特卡罗模拟默认进行10000次模拟，给出99%置信区间；确切计算默认计算时间限制在5分钟内。这些默认值均可更改。

6-7 单击按钮，弹出Statistics子对话框，用于定义所需计算的统计量。如图4-9-3所示。

北京 20 9 60 34 123 上海 26 13 33 26 98 深圳 16 5 30 28 79 合计 62 27 123 88 300