好文档 - 专业文书写作范文服务资料分享网站

医学统计学课件:11相关

天下 分享 时间: 加入收藏 我要投稿 点赞

2015/4/26

第十三章 线性相关分析 linear correlation analysis 例13-1 为研究中年女性体重指数和收缩压 之间的关系,随机测量了16名40岁 以上女性的体重指数和收缩压,见 表13-1,试绘制散点图。 2520 15收缩压/kPa两个变量X和Y102.53.03.54.0成对出现,记4.5 体重指数(kg/m2) 为(Xi, Yi) 图13-1 16名中年女性体重指数 与收缩压的散点图 相关: 如:体重~收缩压 胰岛素~血糖水平 药物剂量~动物死亡率 父亲身高~儿子身高 姐妹身高~兄弟身高 表13-1 16名中年女性体重指数(kg/m2)与收缩压(kPa) 编号 体重指数X 收缩压Y X2 Y2 XY (1) (2) (3) (4) (5) (6) 1 2.86 18.00 8.1769 324.0000 51.4800 2 3.41 18.93 11.6281 358.3449 64.5513 3 3.62 20.00 13.1044 400.0000 72.4000 : : : : : : : : : : : : 14 4.12 22.67 16.9744 513.9289 93.4004 15 3.33 19.87 11.0889 394.8169 66.1671 16 3.76 21.07 14.1376 443.9449 79.2232 合计 56.50 314.68 202.1506 6240.7690 1121.8578 SX SY SX2 SY2 SXY 线性相关的概念 当所研究的两个事物或现象之间既存在着密切的数量关系, 又不象函数关系有确定的数量对应关系,称这类关系为相关关系, 简称为相关 若上述关系是直线趋势,称为直线相关或线性相关,也称简单相关(simple correlation) 目的:分析两个变量之间有无相关关系 资料要求:用于双变量正态分布(bivariate normal distribution)资料 1

2015/4/26

相关系数的意义与计算 线性相关系数又称积差相关系数(coefficient of product-moment correlation), 简称为Pearson相关系数 / 相关系数 样本相关系数:r 总体相关系数:r 意义:用来说明具有直线关系的两变量间相关关系的 密切程度(相关系数的绝对值)与相关方向(相关系数的 符号)。 ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? 正相关 完全正相关 0

2015/4/26

相关系数的假设检验 不存在相关关系 ? r ? 0 r ? 0的原因: ? 存在相关关系,总体相关系数r ? 0 ? 由抽样误差引起,总体相关系数r ? 0 例13-3 根据样本相关系数r=0.91,对总体相关系 数r进行假设检验。 解:1. 建立假设检验,确定检验水准 H0: r = 0 (变量间不存在线性相关关系) H1: r ? 0 (变量间有线性相关关系) a=0.05 2. 计算检验统计量 本例,n=16, r=0.9110, t0.9110r?(1?0.91102)/(16?2)?8.2653查表法 根据自由度df=14,查(P299,附表13)相关 系数r界值表,得r0.05/2,14=0.497,本例r=0.91, 故P<0.05,按a=0.05水准拒绝H0,接受H1。 与t检验结论相同。 常用的方法 ? t检验法 trr?r?0S?r(1?r2)/(n?2)Sr:相关系数r的标准误,自由度??n?2? 查表法 3. 确定P值,下结论 查t界值表,得t0.05/2,14=2.145,故tr > t0.05/2,14, 则P<0.05,按a=0.05水准拒绝H0 ,接受H1, 即可以认为体重指数和收缩压之间存在正相 关关系。 前提假设:(X, Y)服从正态分布 ? r 可以较好的估计总体相关系数 r 若(X, Y)不服从二元正态分布呢? 3

2015/4/26

Spearman秩相关 rs-----Spearman秩相关系数 间接反映X、Y间的相关性, 且不依赖X、Y的分布。 X、Y???秩变换?V、W,rlVWS?lVVlWWl2VV??V?(?V)2n,lVW??VW??V?Wn若n个X、Y值均互不相等(不同秩),上式可简化为rS?1?6?d2n(n2?1)d为每对观察值X、Y的秩次之差,n为对子数rd2S?1?6?n(n2?1)当n?50时,查附表14(P301)的rs界值表;当n?50时,计算检验统计量t,查t界值表:t?rS1?r2,??n?2Sn?2适用条件: 双变量计量资料: ? 资料不服从双变量正态分布 ? 总体分布型未知 ? 一端或两端是不确定数值的资料 ? 原始数据(一个或两个变量值)用等级表示的资料 20 相同秩较多时 rs 的校正 对X与Y分别排秩时,若相同秩较多,宜用如下公式计算校正rS? r?(n?n)6???(TX?TY)??dS???32??(n3?n)6???2T3X??(n?n)6???2TY公式中Tx(或TY)=Σ(t3-t)/12,t为X(或Y)中相同秩的个数。显然当Tx=TY=0时,该公式与非校正公式相等。然而, rlS?VWl无须校正.VVlWW22 例14-4 调查了某地区10个乡的钉螺密度与血 吸虫感染率(%)数据如表14-7。试分析该地区 钉螺密度与感染率之间有无相关关系? 4

2015/4/26

表14-7 10个乡的钉螺密度与血吸虫感染率(%) 乡编号 钉螺密度 感染率 X的秩 Y的秩 X Y V W d 1 33 17 3.0 2 1.0 2 52 24 10.0 8.5 1.5 3 22 13 1.0 1 0.0 : : : : : : : : : : : : 8 39 18 5.0 3.5 1.5 9 45 24 8.0 8.5 -0.5 10 43 20 7.0 6 1.0 l lVV =82.5 lWW =81.5 Sd2=30.0 VW=67.0 2. 查表法 查附表14,得rS=0.8171 >rS,0.05/2=0.648, 故P<0.05。 t检验法 计算t统计量 rS t?1?r2?0.81712?8S1?0.81712?4.01,??n? n?210?2 查附表2,得t0.05/2,8=2.306,t>t0.05/2,8,故P<0.05。 在a=0.05水准上拒绝H0,接受H1,即可以认为该地区钉螺密度与感染率之间有相关关系。 相关系数的可信区间 对r作Z变换Z?11?r2ln1?rZ~N(E(Z),1n?3)Z统计量总体均数E(Z)的(1-a)可信区间为:Z?ua/2/n?3e2z对此区间作反变换r??1e2z?1即可得到r的(1-a)可信区间。解:感染率----一般不服从正态分布,故计算 Spearman秩相关。 rd2S?1?6?n(n2?1)?1?6?3010(102?1)?0.8171 1. 建立假设检验,确定检验水准 H0: rS = 0 (不存在相关关系) H1: rS ? 0 (有相关关系) a=0.05 总体相关系数的可信区间 由于相关系数的抽样分布在r不等于零时呈偏态分布(大样本情况下亦如此),所以r的可信区间需要先将其进行某种变量变换,使之服从正态分布,然后再估计其可信区间。 28 例13-4 对例13-2所得r=0.9110,估计总体相关系数的95%可信区间。 z = 1.5334 z的95%可信区间为 (1.5334-1.96/16?3,1.5334+1.96/16?3) =(0.9898, 2.0770) 再对z作反变换,得到中年女性体重指数与收缩压的总体相关系数95%可信区间为(0.76, 0.97)。 30 5

医学统计学课件:11相关

2015/4/26第十三章线性相关分析linearcorrelationanalysis例13-1为研究中年女性体重指数和收缩压之间的关系,随机测量了16名40岁以上女性的体重指数和收缩压,见表13-1,试绘制散点图。2520
推荐度:
点击下载文档文档为doc格式
26jse9w1c63sk4u09qt56trx0171wu00evv
领取福利

微信扫码领取福利

微信扫码分享