有问题到淘宝找“大数据部落”就可以了
逻辑回归模型
回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。
最简单的回归是线性回归,在此借用Andrew NG的讲义,有如图1.a所示,X为数据点——肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如h θ (x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤h θ (x)≥.05为恶性,h θ (x)<0.5为良性。
Zi=ln(Pi1?Pi)=β0+β1x1+..+βnxnZi=ln(Pi1?Pi)=β0+β1x1+..+βnxn
数据描述
用R语言做logistic regression,建模及分析报告,得出结论,数据有一些小问题, 现已改正重发:改成以“是否有汽车购买意愿(1买0不买)”为因变量,以其他的一些 项目为自变量,来建模分析,目的是研究哪些变量对用户的汽车购买行为的影响较为 显著。
问题描述
我们尝试并预测个人是否可以根据数据中可用的人口统计学变量使用逻辑回归预测是否有汽车购买意愿(1买0不买)。 在这个过程中,我们将: 1.导入数据 2.检查类别偏差
3.创建训练和测试样本
4.建立logit模型并预测测试数据 5.模型诊断
有问题到淘宝找“大数据部落”就可以了
数据描述分析
查看部分数据
head(inputData)
是否有汽车购买意愿.1买0不买. 区域 城市 人均地区生产总值.元. 1 NA NA 2 NA NA 3 0 中部 长沙 107890 4 0 中部 长沙 107890 5 0 中部 长沙 107890 6 0 中部 长沙 107890 职工平均工资.元. 全市总人口.万人. 全市面积.平方公里.
1 NA NA NA 2 NA NA NA 3 56383.16 662.8 11816 4 56383.16 662.8 11816 5 56383.16 662.8 11816 6 56383.16 662.8 11816
全市人口密度.人.平方公里. 市区总人口.万人. 市区面积.平方公里.
1 NA NA NA 2 NA NA NA 3 560.94 299.3 1910 4 560.94 299.3 1910 5 560.94 299.3 1910 6 560.94 299.3 1910
市区人口密度.人.平方公里. 城市道路面积.万平方米. 公共汽.电.车车辆数.辆. 1 NA NA NA
2 NA NA NA
3 1566.75 2996 4157
4 1566.75 2996 4157
5 1566.75 2996 4157
6 1566.75 2996 4157
公交客运总量.万人次. 出租汽车数.辆. 每万人拥有公共汽车.辆.
1 NA NA NA 2 NA NA NA 3 73943 6915 13.89 4 73943 6915 13.89 5 73943 6915 13.89 6 73943 6915 13.89 人均城市道路面积.平方米. 私人汽车保有量.辆. 地铁条数 地铁长度
有问题到淘宝找“大数据部落”就可以了
1 NA NA NA NA 2 NA NA NA NA 3 10.01 1200000 0 0 4 10.01 1200000 0 0 5 10.01 1200000 0 0 6 10.01 1200000 0 0 日平均温度.F.的平均值 日最高温度.F.的最大值 日最高温度.F.的平均值
1 NA NA NA 2 NA NA NA 3 64.42 104 71.5 4 64.42 104 71.5 5 64.42 104 71.5 6 64.42 104 71.5 日最低温度.F.的平均值 日最低温度.F.的最小值 日最高温低于0度天数 1 NA NA NA 2 NA NA NA 3 57.3 26 0 4 57.3 26 0 5 57.3 26 0 6 57.3 26 0
日最低温低于0度天数 日最高温高于30度天数 下雨天数 住房数 性别.1男2女. 1 NA NA NA NA NA
2 NA NA NA NA NA
3 22 95 173 2 1
4 22 95 173 2 2
5 22 95 173 3 1
6 22 95 173 1 1
年龄 职业类型 学生.1代表是.后同. 蓝领 白领.粉领 其他职业或无职业
1 NA NA NA NA NA NA 2 NA NA NA NA NA NA 3 40 4 0 0 1 0 4 30 4 0 0 1 0 5 26 4 0 0 1 0 6 30 2 0 0 1 0 电动自行车数量 汽车数量 摩托车数量 有驾照司机数 成人数 儿童数 在家
1 NA NA NA 2 NA NA NA 3 1 1 0 1 2 1 5 4 2 1 1 2 2 1 5 5 1 1 1 1 2 1 5 6 3 0 1 0 3 0 5 上学工作 家庭收入 行程 出行时间 X 购买时间 购买时间.1 购买时间.2
1 NA NA NA NA NA
有问题到淘宝找“大数据部落”就可以了
2 NA NA NA NA NA 3 4 5 10.0 0.63 NA 2009 2011 4 2 11 20.0 0.25 NA 2009 2009 2008.000 5 5 11 2.0 0.12 NA 2011 NA 6 2 3 2.7 0.17 NA 2009 2011 购买时间.3 购买时间.4 购买时间.5 购买时间.6 1 NA NA NA 2 NA NA NA 3 NA NA NA 4 NA NA NA 5 NA NA NA 6 NA NA NA
查看数据维度
[1] 948 56
对数据进行描述统计分析:
是否有汽车购买意愿.1买0不买. 区域 城市 Min. :0.0000 东部 :414 安庆 : 37 1st Qu.:0.0000 南部 :122 青岛 : 27 Median :0.0000 北部 :121 镇江 : 27 Mean :0.2144 中部 : 81 柳州 : 26 3rd Qu.:0.0000 西北 : 74 唐山 : 26 Max. :1.0000 西南 : 68 赤峰 : 24 NA's :20 (Other): 68 (Other):781
人均地区生产总值.元. 职工平均工资.元. 全市总人口.万人. 全市面积.平方公里. Min. : 17096 Min. :32183 Min. : 53.6 Min. : 761
1st Qu.: 36340 1st Qu.:41305 1st Qu.: 345.9 1st Qu.: 7615
Median : 54034 Median :48270 Median : 613.3 Median :12065
Mean : 63605 Mean :49529 Mean : 635.4 Mean :15970
3rd Qu.: 84699 3rd Qu.:54211 3rd Qu.: 759.7 3rd Qu.:16757
Max. :155690 Max. :93997 Max. :3358.4 Max. :90021