标准实用
对于多分类无序自变量的Logistic回归,即某个自变量为m个水平的名义变量(如治疗方法A,B,C),
只需要引入m-1(2个)个哑变量,然后采用上述方法进行分析。
例2.1.3 研究三种治疗方法对不同性别病人的治疗效果,数据如表2.1.4
表2.1.4 性别和治疗法对某病治愈情况的影响 性别 治疗方法 A 男 B C A 女 B C 有效mi 78 101 68 40 54 34 无效 28 11 46 5 5 6 总例数ni 106 112 114 45 59 40 [2]
由于治疗方法有三种,没有等级关系,所以属于无序的名义变量,故引入两个哑变量x2,x3分别代表A和B疗法,其中x2?1,x3?0表示方法A, x2?0,x3?1表示方法B, x2?0,x3?0表示方法C,将上述数据转化成标准格式,得表2.1.5。
表2.1.5 性别和治疗法对某病治愈情况的影响 性别x1 1 1 1 0 0 0
x2 1 0 0 1 0 0 x3 0 1 0 0 1 0 有效mi 78 101 68 40 54 34 总例数ni 106 112 114 45 59 40 对于分类数据,也可以采用极大似然法进行参数估计,具体见2.2节最后部分内容。
2.2 两分类未分组(连续)非条件Logistic回归
应变量y取值为0和1,设事件发生记为y=1,否则为0,设自变量x?(x1,x2,?,xk)T,n组观测数据记为(xi1,xi2,?,xik,yi),i?1,2,?,n。记Xi?(1,xi1,xi2,?,xik)T,xi0?1,则yi与xi1,xi2,?,xik的Logistic回归模型是:
E(yi)??i?f(?0??1xi1????kxik)?易知,yi是均值为?i的0-1型分布,其分布律为
e?0??1xi1????kxik?0??1xi1????kxik1?e?e?TXi?TXi (10)
1?e文案大全
标准实用
f(yi)??iyi(1??i)1?yi,yi?0,1;i?1,2,?,n
n则y1,y2,?,yn的似然函数和对数似然函数分别为: L???i?1iyi(1??i)1?yi
lnL??[yiln?i?(1?yi)ln(1??i)]??[yilni?1i?1nn?i?ln(1??i)] 1??i代入?i?e?0??1xi1????kxik?0??1xi1????kxik1?e,得
lnL??[yi(?0??1xi1????kxik)?ln(1?ei?1nn?0??1xi1????kxik)] (11)
??[yi?TXi?ln(1?ei?1?TXi)]
??(??,??,?,??)T使得LL(?)达到极大,记LL(?)?lnL(?),选取??(?0,?1,?,?k)T的估计?01k这就是Logistic回归模型的极大似然估计,该过程的求解需要采用牛顿迭代法。
构造得分函数Fg(?)??LL(?),g?0,1,2,?,k,共k+1个非线性方程组,令其=0求解?,其中 ??gnFg(?)??[yixig?i?0xige?TXi?TXi],g?0,1,2,?,k (12 )
1?e?2LL(?)构造信息矩阵Igh(?)??,g,h?0,1,2,?,k,即LL(?)二阶导矩阵的负矩阵,其中
?g?h?TXiIgh(?)??i?0nxigxihe(1?e?TXi,g,h?0,1,2,?,k (13 ) )2很明显Igh(?)?Ihg(?),故I(?)是一个对称矩阵。
求解算法及步骤:
1. 根据公式(12 ) 计算得分函数Fg(?),公式(13)计算信息矩阵Igh(?)
给定初值??0?(0,0,?,0), k =1 和精度?,可取0.000001
k02. 采用牛顿迭代式 ?文案大全
??k?1???, ???[I(?k?1)]?1F(?k?1),通过以下方式求解。
标准实用
构造增广矩阵IF(?k?1)=(I(?k?1)若||??||?F(?k?1)),通过对IF矩阵作k+1次ij消去变换求解??
k???g?0k2g?? 或者 ||??||??|??g|?? 或者 max{|??g|}??,则转3
g?00?g?k否则k = k +1,继续执行第2步
?,3. 此时?k就是回归系数?的数值估计?k就是迭代次数,消去变换后的IF矩阵的前k?1?k?1?)?(V)子阵就是?方差-协方差矩阵的估计阵Var(?ghk?1?k?1=V ,下面给出检验有关计算:
计算Wald统计量 Wg??2?gVgg,近似服从?2(1)分布,检验p值 pg?P(?2(1)?Wg)
??g标准误S.E.(?g)?Vgg, OR(?g)?e例2.2.1 公共交通调查数据
[1]
, g?0,1,?,k
在一次关于公共交通的社会调查中,调查项目为“是乘坐公共汽车上下班,
还是骑自行车上下班”。因变量y=1表示乘坐公共汽车,y=0表示骑自行车。自变量x1是年龄,作为连续变量;x2是月收入(元);x3是性别,x3=1表示男性,x3=0表示女性。调查对象为工薪族群体,数据如表2.2.1所示。
表2.2.1 公共交通社会调查
序号 年龄x1 月收入x2 性别x3 交通 y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
文案大全
18 21 23 23 28 31 36 42 46 48 55 56 58 18 20 25 27 28 30 32 33 33
850 1200 850 950 1200 850 1500 1000 950 1200 1800 2100 1800 850 1000 1200 1300 1500 950 1000 1800 1000
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
0 0 1 1 1 0 1 1 1 0 1 1 1 0 0 0 0 0 1 0 0 0
标准实用
23 24 25 26 27 28
38 41 45 48 52 56
1200 1500 1800 1000 1500 1800
1 1 1 1 1 1
0 0 1 0 1 1
以下计算结果采用LLLStat 1.0 软件得到:
表2.2.2 主要计算结果
序号 常数项 月收入 性别
均值 0.535714 0.464286
回归系数 系数标准误 wald统计量 自由度df 检验p值 OR=Exp(B) -3.655016 0.001517
2.091223 0.052119 0.001865 1.157818
3.054766 2.485516 0.661466 4.669175
1 1 1 1
0.080501 0.025861 0.114899 1.085639 0.416043 1.001518 0.030709 0.081934
年龄 1273.214286 0.082168
36.107143 -2.501844
表2.2.3 Logistic模型基本信息
总样本 求解方法
迭代次数(仅beta0) 仅常数项beta0 方程Wald值(相减) 方程自由度 方程检验p值
28
极大似然法 & Newton迭代 7(4) -0.143101 12.702611 4 0.012824
-2LogLikelihood(Beta) 25.970652 -2LogLikelihood(beta0) 38.673263
对于例2.1.3分组数据的极大似然估计法,主要过程如下:
miL??Cn?ii(1??i)imi?1nni?mi
n?ilnL??[lnC?miln?i?(ni?mi)ln(1??i)]??[lnC?miln?niln(1??i)]1??ii?1i?1nminimini代入?i?e?0??1xi1????kxik?0??1xi1????kxik1?e,得 lnL??[lnCnmii?mi?TXi?niln(1?ei?1n?TXi)]
则有 Fg(?)?xige?LL(?)??[mixig?ni],g?0,1,2,?,k
?TXi??gi?11?en?TXiIgh(?)???LL(?)??g?h2?i?1nnixigxihe(1?e?TXi?TXi,g,h?0,1,2,?,k; )2其中mi,ni分别表示分组i中事件发生次数和总观察数,如表2.1.4和2.1.5所示。然后可采用Newton-Raphson迭代法进行求解。由LLLStat计算得到如下结果。
文案大全
标准实用
表2.2.4 性别和疗法对某病治愈的影响(未分组Logistic似然估计法)
序号 常数项 性别 治疗A 治疗B
均值 1.000000 0.500000 0.333333 0.333333
回归系数 1.418399 -0.961618 0.584745 1.560763
系数标准误 wald统计量 自由度df 0.298690 0.299797 0.264108 0.315961
表2.2.5回归系数方差矩阵V(beta)(信息矩阵I(Beta)的逆矩阵)
0.089215 -0.072957 -0.030097
-0.072957 -0.029931 -0.030097 0.089878 0.000128
-0.000078 0.069753 0.029993
0.000128 0.029993 0.099831
22.550513 10.288472 4.901966 24.400993
1 1 1 1
检验P值 0.000002 0.001339 0.026826 0.000001
-0.029931 -0.000078
2.3 条件Logistic回归[2,3]
条件Logistic回归是配对设计(病例-对照)中常用的一种统计分析方法,通过配对方法收集资料:每一配对组可包括一个病例和一个或多个对照,有1:1型、1:m型配对。假设收集了如下数据:
表2.3.1 n个1:m配对组,k个协变量的比例资料
配对组号 1 2 … 病例组X 00x11,x12,?,x10k 0第1对照组X 111x11,x12,?,x1k 1… … … … … 第m个对照组X mmx11,x12,?,x1mk m000x21,x22,?,x2k 11x121,x22,?,x2k mmmx21,x22,?,x2k … 000xn1,xn2,?,xnk … 11x1n1,xn2,?,xnnk … mmmxn1,xn2,?,xnk n 配对资料用配对的方法来控制影响因素的干扰,并且每个配对组都可以建立一个Logistic回归方程:
iLogit(p)??0??1x1????kxk,i?1,2,?,n
1为此需要估计的参数有n个常数项?0配对数越多估计的参数就越,?,?0n和k个回归系数?1,?,?k,
多,但是一般的数据量难以支撑这样的估计,故一般的Logistic回归不适合配对资料。不过在参数估计
1时,常数项会被消去,所以方程组减少了n个常数项?0,?,?0n的估计,复杂度大大降低。对于回归参数
的估计采用条件似然函数替代一般的似然函数进行。
对于第i个配对组而言,共有m+1个观察对象,记为A,B1,B2,?,Bm,其中仅有一例发病,且正好是病例组A发病,而对照组均没有发病的条件概率pi(类似Bayes概率)可以表示成:
pi?P(AB1B2?Bm)P(AB1B2?Bm)??P(AB1?Bj?Bm)j?1m (14)
文案大全