好文档 - 专业文书写作范文服务资料分享网站

生物医学研究的统计学方法_课后习题解答

天下 分享 时间: 加入收藏 我要投稿 点赞

35 00034 00033 00032 000 收入/元 31 00030 00029 000 1.0028 000 5.00 9.00 13.00 17.00 21.00 25.00 29.00 33.00 3.00 7.00 11.00 15.00 19.00 23.00 27.00 31.00 35.00T 练习图22-5 “收入”时间序列经差分处理后的情形

Transforms: difference (1)

(2)这个序列拟合怎样的模型比较合适?

解:对差分后的序列求自相关函数和偏自相关函数,结果如练习图22-6和练习图22-7。可见,样本自相关函数(SACF)呈现拖尾,样本偏自相关函数(SPACF)在lag=2处截尾,以拟合AR(2)模型为宜。

1.0收入/元 .50.0 -.5 Confidence LimitsACF -1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Coefficient Lag Number Transforms: difference (1) 练习题22-6 差分处理后“收入”时间序列的自相关函数

1.0收入/元 .5 Confidence Limits0.0Partial ACF -.5 1 -1.0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Coefficient Lag Number 练习图22-7 差分处理后“收入”时间序列的偏自相关函数

Transforms: difference (1)

(3)对识别的模型作参数估计。

解:综合前述考虑,应该拟合的模型为ARIMA(2,1,0),由SPSS求出自回归系数:

Variables in the Model:

B SEB T-RATIO APPROX. PROB.

AR1 -.96956 .158193 -6.12898 .00000075 AR2 -.41220 .160849 -2.56263 .01529571 CONSTANT 31404.73077 59.216020 530.34180 .00000000

?1??0.969?2??0.412? 56,? 20,经假设检验,两个估计值对应的P<0.05,有统计

学意义。

(4)对建立的模型作诊断检验。

对残差序列求自相关函数和偏自相关函数,得练习图22-8和练习图22-9。

结果各阶自相关系数和偏自相关系数均无统计学意义(位于0的置信限内),可以认为序列中不再包含可供提取的非随机成分。所求的模型已经完整地概括了原始时序中蕴涵的信息。

或者求出残差序列的谱密度图(练习题22-10),未见特异性谱峰,可以认为残差序列为白噪声,即所建立的模型已经充分概括了原始时间序列中蕴涵的信息,结论同前述考核结果。

Error for 收入/元 from ARIMA, MOD_11 CON 1.0 .5 0.0 -.5 Confidence Limits FCA-1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 CoefficientLag Number 练习图22-8 残差序列的自相关函数 Error for收入/元 from ARIMA, MOD_11 CON 1.0 .5 0.0 F-.5 CAConfidence Limits laitraP-1.0 2 3 4 5 6 7 8 9 10 11 12 13 Coefficient 114 15 16 Lag Number 练习图22-9 残差序列的偏自相关函数

Spectral Density of Error for 收入/元 from ARIMA, MOD_11 CON20 000 000 18 000 000 16 000 000 14 000 000 12 000 000 10 000 000 8 000 000 2 6 8 3 45 7 9 10 20 30 40 Period Window: Tukey-Hamming (5) 练习图22-10 残差序列的谱密度图

Density (张晋昕)

第23章 遗传数据基因定位的统计方法

思考与练习参考答案

1.验证具有双等位基因的两个位点的连锁不平衡系数r为Pearson相关系数。

答:不妨设位点1,位点2的等位基因分别为0,1。设位点1的等位基因取值为X, 位点2的等位基因取值为Y, 则X=0, Y=0的频数为Np11, X=0, Y=1的频数为Np12, X=1, Y=0的频数为Np21, X=1, Y=1的频数为Np22,变量X, Y的Pearson相关系数为

rp?

?(X?X)(Y?Y)?(X?X)?(Y?Y)ii2ii2??XY?ii?NXY[?Xi2?NX2][?(Yi2?NY2]p22?p2?p?2[p2?(1?p2?)][p?2(1?p?2)]

??Np22?Np2?p?2[Np2??Np][Np?2?Np]Dp1? p2?p?1 p?2?r22?2?2

22.验证用来检验连锁不平衡的式(23-11)中的?检验统计量?2?ND2/(p1? p2?p?1 p?2) 即为Pearson?统计量。

答:不妨设位点1,位点2的等位基因分别为0,1。则类似题1,四格表的频数分别为Np11, Np12, Np21, Np22。Pearson

2?2统计量

(Np11Np22?Np12Np21)2NN(p11p22?p12p21)2ND2??????2

Np1?N p2?Np?1 Np?2p1? p2?p?1 p?2p1? p2?p?1 p?22p

3.对例23-4,能否对教材表23-7的基因型列联表数据直接进行Pearson?检验来说明两位点的连锁不平衡?

答:对教材表23-7的基因型列联表数据直接进行Pearson?检验来说明两位点间的基因型是否关联,当检验结论拒绝零假设,认为基因型关联时,在H-W平衡条件下,可认为等位基因关联,即连锁不平衡。但是,请注意:两位点的连锁不平衡(即两位点间的等位基因关联)并不等价于基因型关联。当两位点处于连锁平衡时,两位点等位基因分布相互独立。在H-W平衡成立时,必有基因型分布也相互独立。这意味着:在H-W平衡条件下,两位点间的基因型关联成立时,两位点间的等位基因关联成立。但反之不一定成立。

22

4.在采用病例-对照研究的关联分析中,对于已知遗传模式的疾病,可把遗传模式的信息利用到?2检验中或logistic 回归中,试问遗传模式分别为显性、隐性、乘积模式时,如何把这些信息加入到logistic 回归模型中?

答:logistic 回归是?2检验的推广,类似?2检验,logistic 回归也相应有基于基因型的模型、基于等位基因的模型,这两种模型的区别体现在给基因型的编码不同。在基于基因型的模型中,基因型看成无序分类变量,即要用两个哑变量的编码(0,0),(1,0),(0,1) 对应三种基因型11,12,22;在基于等位基因的模型中,基因型看成有序分类变量,即等级变量,基因型11,12,22分别编码成0,1,2。基于基因型的模型即对应一般遗传模式,基于等位基因的模型即对应乘积遗传模式。若等位基因2相对于1显性,显性遗传模式时, 基因型11,12,22分别编码成0,1,1。隐性遗传模式时, 基因型11,12,22分别编码成0,0,1。

(李彩霞)

第24章 基因表达谱分析的生物信息学方法

思考与练习参考答案

1.据教材表24–3提供的数据信息可以构建一棵决策树,请利用最大信息增益方法写出如何选出根结点中用于分割的特征。

教材表24-3 天气情况与是否去打球的关系数据集

Outlook Sunny Sunny Overcast Rainy Rainy Rainy Overcast Temp Hot Hot Hot Mild Cool Cool Cool Windy False True False False False True True Play No No Yes Yes Yes No Yes Outlook Sunny Sunny Rainy Sunny Overcast Overcast Rainy Temp Mild Cool Mild Mild Mild Mild Mild Windy False False False True True False True Play No Yes Yes Yes Yes Yes No 注:该信息表示根据天气情况决定是否出去打球,数据集共包含14个样本,两个类别信息(Yes、No),每个样本包含3个特征信息(Outlook、Temp、Windy)。

解:计算用每一个特征进行分割时所获取的信息增益,取信息增益最大的那个特征作为分割特征,以Outlook特征为例计算(参照练习图24-1)

生物医学研究的统计学方法_课后习题解答

35000340003300032000收入/元3100030000290001.00280005.009.0013.0017.0021.0025.0029.0033.003.007.0011.0015.0019.0023.0027.0031.0035.00T练习图22-5“收入”时间序列经差分
推荐度:
点击下载文档文档为doc格式
42xnj0pgih6rgfk15sw18xzko02xvg00fw1
领取福利

微信扫码领取福利

微信扫码分享