xx线性模型
一、xx模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族
3.The Tweedie distribution:
特殊的指数族一员;在0点有很大的概率并且在非0点有合适的分布;方差与均值的p次幂成正比
4.GLM的结构:
连接函数、设计矩阵、预估变量、offset变量每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重
二、构建GLM模型 1.单因子分析:
无法反映变量之间的关系,GLM可以排除这类关系,得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应:
模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms:
当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到
3.变量估计:
1 / 4
通过逆矩阵相关方法求解 三、分析因子的显著性
1.chi-squared、F-statistics、AIC 等统计量 (1)偏离:
比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。
(2)偏离度调整
(3)chi-squared 统计量:
模型的自由度定义为观测的数量减去变量的数量 Nested models:
可以利用chi-squared来检验偏离度的变化 (4)F-statistics (5)AIC:
主要用于模型选择的统计量
AIC=-2*log likelihood+2*number of parameters
是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix
Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined
2 / 4
3.其他方法
(1)与预期值相比:
每种水平下相对值的变动幅度,同时考虑每个水平下得标准偏差,其值的 (2)Comparison with time:
model fit line;variation的大小应该与exposure的大小相反 不同渠道数据收集上的差异可能导致不一致的发生 四、测试模型的适当性 1.残差法 偏离残差:
xx了偏度的影响,分布更为正态化 xx残差:
观测值与预测值之间的差异,除以预测值的方差,这个办法使得具有不同均值的观测值可以进行比较,但是没有对分布的形状加以调整
2.残差图:
对于某种模型,如果所选的误差结构是正确的,那么残差的平均值就是0,并且残差值的范围
3.Cook’sdistance Leverage:
用于估计数据点对于模型结果的影响 五、模型refinement 1.完全交互以及边际交互
3 / 4
2.模型限制 Restrictions: Compensate:
adjust the fitted relativities for correlated factors,using the offset term in the GLM
Impose restriction at the risk premium stage: Counterintuitive model results: behavior factors
Distribution of ratio of fitted values between restricted and unrestricted models 3.aliasing :
linear dependency : (1):
Intrinsic aliasing
4 / 4