第十七章 随访资料的生存分析
一、教学大纲要求
(一)掌握内容 1.生存分析基本概念
生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。 2.估计生存率的方法:Kaplan-Meier法、寿命表法。 (二)熟悉内容
1.生存曲线、半数生存期。 2.生存资料的基本要求。
3.两生存曲线的比较的对数秩检验。 (三)了解内容 Cox回归模型。
二、教学内容精要
(一)生存分析中的基本概念
1.生存时间(survial time)指观察到的存活时间,如表11-1中t分别为360,990,1400,1800天。生存时间有两种类型:
(1)完全数据(complete data)指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。
(2)截尾数据(censored data)由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。从起点至截尾所经历的时间,称为截尾数据,如表11-1中1400天,习惯上记为1400天。
表11-1 4例鼻咽癌随访记录
患者序号
1
2 3 4
2.死亡概率与生存概率
(1)死亡概率(mortality probability)指死于某时段内的可能性大小,记为q。年死亡概率的计算公式为q=
某年内死亡数,若年内有截尾,则分母用校正人口数(校正人口数=年
某年年初观察例数?性别 (男=1)
0 1 1 0
处理组号
1 1 0 0
开始日期 11/29/80 06/13/82 03/02/83 08/04/83
终止日期 11/04/85 06/08/83 12/31/86 04/10/86
结局 (死=1)
1 1 0 1
存活天数 360 990
? 1400 1800
163
初人口数-
1截尾例数)。 2这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。 (2)生存概率(survival probability)与死亡概率相对应,记为p,表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小。年生存概率的计算公式为
p?1?q?某年活满一年人数,若年内有截尾,也要用校正人口数。
某年年初人口数(二)生存率的Kaplan-Meier法与寿命表法估计 1.生存率
(1)生存率(survival rate) 指病人经历tk个单位时间后仍存活的概率,记为S(tk)。若无截尾数据,则
tk时刻仍存活的例数 (11-1)
观察总例数其中T为病人的存活时间。如果含有截尾数据,分母就必须分时段校正,故此式一般不能直接应用。
(2) 生存率估计的概率乘法原理
假定病人在各个时段生存的事件独立,生存概率为p1,p2,?,pk,则应用概率乘法得生存
S(tk)=P(T?tk)?率估计的应用公式为
S(tk)=P(T?tk)?p1p2?pk (11-2) 若式中p1,p2,?,pk用校正人数估计,便可处理截尾数据。
生存概率与生存率在意义上差别很大,前者是单个时段的概率,后者是从0至tk多个时段的累积结果。
(3) 生存曲线(survival curve) 指将各个时点的生存率连接在一起的曲线图。 (4) 半数生存期(median survival time) 表示恰好有50%的个体可活这么长时间。 2.生存率的估计方法
(1)乘积极限法(product-limit method) 直接用概率乘法原理估计生存率(不分组),由Kaplan-Meier于1958年提出,因而又称Kaplan-Meier法。这是一种非参数法,主要用于小样本,也适用于大样本。其生存曲线是左连续的阶梯形曲线。
(2)寿命表法(life-table method) 当样本例数足够多时,乘积极限法可按时间分组计算,这就是寿命表法,实际上是乘积极限法的一种近似。其生存曲线呈折线形。 (三)两样本生存曲线的比较——对数秩检验
对数秩检验(log-rank test)用于两样本生存曲线的比较,其零假设为两总体生存曲线相同,基本思想是如果零假设成立,根据不同日期两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数。若零假设成立,则实际死亡数与理论死亡数不会相差太大,否则应认为零假设不可能成立,两条生存率曲线差异有统计学意义。
对数秩检验统计量(近似法)为:
(Ak?Tk)2 ??? ,??m?1 (11-3)
Tkk?12其中Ak和Tk分别是第k组死亡的实际数和理论期望数。在H0成立的条件下,统计量?服从
2m自由度为m?1的?分布,m为组数,据?作出是否拒绝H0的决定。
(四)Cox回归模型
Cox回归是生存分析中最重要的方法之一,其优点是适用范围很广和便于做多因素分析。
164
22Cox回归假定病人的风险函数为
h(t)?h0(t)exp(b1X1?b2X2???bpXp) (11-4) 其中h(t)为风险函数,又称风险率或瞬间死亡率,h0(t)为基准风险函数,是与时间有关的任意函数,X,b分别是观察变量及其回归系数。英国统计学家Cox D R 提出了参数bi的估计和检验方法,故称为Cox回归。
三、典型试题分析
(一)单项选择题
1.生存分析的效应变量是 ( )。
A.正态的和方差齐性的 B.生存时间和结局变量 C.生存时间 D.结局变量
答案:B
[评析] 本题考点:生存分析的概念
生存分析是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,所以它的应变量有两个,即生存时间和结局。
2.随访资料做生存分析的条件为( )。
A.有一定的例数 B.有一定的死亡数
C.死亡比例不能过小 D.自变量取值不随时间变化 答案:B
[评析] 本题考点:生存资料的基本要求
生存资料的基本要求为:①样本由随机抽样方法获得,并有足够数量;②死亡例数不能太少(≧30);③截尾比例不能太大;④生存时间尽可能精确到天数;⑤缺项要尽量补齐。所以最佳答案应选B。
3.Cox回归风险率( )。
A.等于一个常数 B.服从某种分布规律 C.等于基准函数乘上一个比例因子 D.适用于任意肿瘤资料 答案:C
[评析] 本题考点:Cox回归模型的特点及应用
首先,用于Cox回归模型分析的资料必须满足生存资料的基本要求,因此任意肿瘤资料不一定满足此要求,排除D。Cox回归风险函数中因h0(t)未定义,所以不知道风险在病人与病人之间的差别和风险随时间变化的具体分布,排除A,B。所以正确答案为C,从风险回归函数的定义式也可看出。
4.采用log-rank检验分析肺癌发病资料,其中吸烟、慢性支气管炎2个因素都有统计学意义,由此可认为( ):
A.吸烟与肺癌有因果联系 B.慢性支气管炎与肺癌有因果联系 C.2个因素与肺癌有因果联系 D.以上都不对 答案:D
[评析] 本题考点:模型中的变量如何选择取舍
选入模型的变量是统计学上的有关变量,不一定都与肺癌有因果关系,其中某些可能只
165