第一章方差分析
50位全日制工作的妇女 2?x —刃2
例1、1977年,美国的某项调查从三种受过不同教育类型的妇女中各分别抽取了
样本,她们的年收入(单位:千美元)数据整理后归纳如下:
完成的学历年数 收入平均值 ~弭)
初中(8年)X1 7.8 9.7 高中(12年)X2
14.0 大学(16年)X3
解::顼=瓯x爲
:三组收入均值有显著差异
SSb/dfb
F = ,即组间均方/组内均方 S片F / df懈
1835 2442 4707
其中,组间自由度 ^=3-1=2,组内自由度 .裁;百=(50-1) X
3=147
由于样本均值沪(7.8+9.7+14.0)/3=10.5
宙円『=50*(於也牒+ )=1009 所以组间偏差平方和疑:=50
组内偏差平方和 藝?=£》*為-昂尸=1835+2442+4707=8984 1009/2 所以,F = ^8.2548419 > (2,147)=3.07
0,n5 B 964/147
拒绝原假设;认为不同学历的妇女收入存在差异。
例2、月收入数据:
男:2500, 2550, 2050, 2300, 1900
女:2200, 2300, 1900, 2000, 1800
如果用Y表示收入,哑变量X表示性别(X=1为女性),计算Y对X的回归方程,并在5%的水平下 检验收
入是否与性别无关(先求回归系数的置信区间) 。
根据最小二乘法,可知 (1)
h VAR(i^)
)
VAR(=
⑵
脸:收入与性别无 关
⑶
1)收入与性别不完全无关
1
Y X 2500 2550 2050 2300 1900 2200 2300 1900 2000 1800 0 240 0 290 0 -210 0 40 0 -360 1 160 1 260 1 -140 1 -40 1 -240 =2150 =0.5
根据公式1,得恰=-220 ;為才?徹,即Y=^^-220X+ll』j 根据公式2、3,得VAR(\\|:)飞癒顾胡
56.3549577
n=10., n-2=8 ;当 df=8 时,i;叮旷2.306
的0.05置信区间求解方法如下: 亠
bg-B2
-2.036<= <=2.306,得既施用觀匡际忒 140.57769.
se(b2]
亠
加系数不显著,收入与性别
由于原假设飓=0落入了这个置信区间,所以接受原假设,认为 无关。
第二章相关分析
例1、10对夫妇的一个随机样本给出了如下的结婚年龄数据 结婚时丈夫的年龄y 结婚时妻子的年龄x 1) 计算样本相关系数r; 2求总体相关系数 T的95%置信区间; )
24 24 22 18 26 25 20 22 23 20 21 23 24 19 25 24 22 23 23 22 -
- 13
由于弟=22, =23;
= 祀.3426
1
V1440
⑵ 由于 se( ,)= ------ , n=10,df=8:j 靠足=2.306,所以 詐匕亦弐卜
se( )=0.332
-2.036<=
得廉驾
043426-p 0332
<=2.306
—
2
(3) 1:血:夫妻的结婚年龄之间没有线性相关,
夫妻的结婚年龄之间不完全没有线性相关,
根据第(2)题的计算结果,
工
0
1.062072
-0376872 由于和-疤:的原假设落入了该置信区间,所以接受原假设,认为夫妻的结婚年龄 之间没有线性
相关关系。
第三章卡方检验和交互分析
例1、为了研究性别和“最希望看到的有关奥运会的电视节目类型”之间的关系,
了 1000个样本,调查数据如下: .、性别 男 希望看到的节目类型f 赛事直播 新闻报道 专题报道 精彩赛事集锦 开幕式和闭幕式 其他 1) 陈述H。;
2 ) 计算和H0的概值。
2
2004年在10城市调查
女 235 42 40 42 108 15 261 69 33 36 87 32 解:(1) :性别与希望看到的电视节目类型无关
匸才 性别与希望看到的电视节目类型不完全无关
(2)理论频数表如下:
希望看到的节目类型 频、次、 、-性另U 男 女 合计 赛事直播 新闻报道 专题报道 精彩赛事集锦 开幕式和闭幕式 其他 合计 257 57.5 37.8 40.4 101 24 518 239 53.5 35.2 37.6 94 23 482 496 111 73 78 195 47 1000
-'1261-257] 123^-2393
Z39
所以二 --------------- + -------------- +...?16.634311
:罰
自由度df=1*5=5 ; 所以拒绝原假设,备择假设
.成立,性别与希望看到的电视节目类型是有关联的。
3