好文档 - 专业文书写作范文服务资料分享网站

考试模拟样题_数据分析应用(附答案与解析)

天下 分享 时间: 加入收藏 我要投稿 点赞

WORD格式..可编辑

1(50.0分)

移动公司想结合用户通话行为,推荐相应套餐,或者结合用户现有套餐优化用户套餐,提供个性化套餐,从而对客户进行精准营销,增加客户粘性。为此,移动公司收集了下列数据,移动公司收集到的数据包含下列字段: 变量名称 变量标签 Customer_ID 用户编号 Peak_mins 工作日上班时间电话时长 OffPeak_mins 工作日下班时间电话时长 Weekend_mins 周末电话时长 International_mins 国际电话时长 Total_mins 总通话时长 average_mins 平均每次通话时长 移动用户细分聚类data-移动用户细分聚类.xlsx

请你根据这些客户数据,进行数据的预处理(数据预处理过程中可以根据现有变量构造新变量进行分析),预处理之后选择合适变量进行分析,分析算法自行选择,写出分析思路和过程,通过数据分析对客户进行细分,将客户分为5类。并为移动公司提供客户精准营销的相关建议。(请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议)

答案解析:

根据题意解读本题可以选用聚类方式对客户进行类别划分,此处采用Kmeans聚类进行模型假设。

1、对数据进行预处理,数据均为数值型,此项不用处理; 检验数据可知没有缺失值,故此项不用处理;

将数据导入datehoop平台进行异常值处理可以看到虽然异常值较多但考虑到可能是特殊人群,故此项不做处理。聚类对变量相关性影响较为敏感,因此将数据通过datehoop平台进行相关性分析结果如下:

从相关矩阵可以看出Peak_mins和Total_mins相关性显著。此处利用比值法构建新的变量peak_mins/total_mins,因为变量之间取值范围差异较大,因此进行聚类时需要进行标准化(datehoop平台可以自动标准化,此处不单独处理)。

专业知识整理分享

WORD格式..可编辑

2、对变量进行聚类,选择变量peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_mins,average_mins;根据题目要求,聚类个数选择5,聚类结果如下:

平均轮廓系数为0.2485,虽然轮廓系数并没有接近1,但也是合理的。在实际聚类过程中并不是每次聚类都会达到较高的轮廓系数,轮廓系数不高说明类之间区分性不是特别明显,但并不代表类之间没有区分

3、针对聚类结果分析每一类客户在现有变量上的特征,这里选取平均值作为参考依据,每一类针对每一个变量的类中心点如下:

0类:工作日通话时长、国际通话时长、总通话时长都最长,周末通话时长也较长,可以定义为高端商务客户;

1类:平均每次通话时长最长,其他通话时长处于中等水平,可以定义为长聊客户;

2类:所有通话时长都最低,命名为不常使用客户;

3类:下班班时间通话时长最长,总通话时长和上班时间通话时长较长,可以命名为中端日常客户;

4类:周末通话时长最长,上班时间通话时长仅次于高端商务客户,国际通话时长和总通话时长都较长,可以命名为中端商务客户;

4、根据以上客户细分的结果和特征分析,移动产品开发部门有针对性的开发设计套餐品类,满足不同类型客户的实际需求,增加客户黏性,提高客户满意度,最终提高客户的生命周期价值。

针对不同的类别客户给出相应的营销建议。按照老师课堂讲解,可以发挥想象力针对每一类客户设置不同的营销策略,

(1)对于0类高端商务客户,移动公司可以推出较为优惠的电话资费以保证客户可以长期使用。在保证国内通话时长的前提下,可以推出优惠的国际漫游资费。

专业知识整理分享

WORD格式..可编辑

(2)对于1类长聊客户,移动公司可以推出相应的畅聊套餐或者开设亲情号以吸引客户的眼光。(3)对于4类中端商务客户可以推出和高端商务客户相似的套餐,以吸引顾客的目光。

(4)对于2类不常使用客户可以开设包月低价套餐,以增加客户使用率和客户粘性。

专业知识整理分享

WORD格式..可编辑

2(50.0分)

通过游戏用户相关行为数据预测用户是否会付费

某游戏公司,根据收集的2016年上半年的用户行为数据对用户是否会付费进行预测,根据预测结果对可能付费用户进行精准营销。

该公司一共收集了用户的编号,以及用户的注册时间和最后一次登录时间,以及用户退出时的等级还有用户是否付费等数据。 user_install_last_loginlevel_ois_paid date _date end s yer 登用户退录用户游戏安装最后一次登出时的手是否编号 时间 录游戏时间 游戏等机付费 级 系统 数据及数据类型解释 userinstall_last_loginlevel__id date _date os end 字符型,日期型 取值字符如: 为: 日期型 数值型 型 2015/5/4 Andr oid 和iOS active_days avg_session_cnt 活跃天数 每天登录频次 is_payer active_days avg_session_cnt 是否付费 1代表付费,数值型 0代表未付费 数值型 游戏数据训练集游戏训练数据.xlsx

游戏数据测试集游戏测试数据.xlsx

游戏预测数据.xlsx

专业知识整理分享

WORD格式..可编辑

请根据原始数据,对数据进行预处理(包括对类别型变量进行数值化处理、重新构造新的变量),然后根据原始数据,自行选择变量和分析算法进行分析(数据提供包含训练数据、测试数据、预测数据、其中测试数据的模型检验结果的计算提供了相应的excel表格,表名为:测试数据结果计算,只需把测试结果拷贝到第二类数下面,相应的指标即可计算出来),写出分析过程和思路,并且根据模型进行预测。 答案:

1、由题意可知本题是分析用户是否会付费这一问题,可以考虑用逻辑回归建立模型进行预测。本题中level_end、

os、

active_days

avg_session_cnt、duration、为自变量,i is_payer为因变量 2、对数据进行预处理,

因为登录手机系统OS为字符型数据,故进行数值化编码如下: os Android os编码 1 iOS 2 经检验数据可知无缺失值,故此项不用处理; 数据样本均衡,符合建模要求;

异常值分析:将所有变量导入datahoop平台进行异常值分析,由箱型图可知虽然存在异常数据,但是考虑到可能是分类所致,故此项不做处理。

逻辑回归对多种共线性敏感,因此需要进行共线性分析,将所有变量导入datahoop平台进行相关系数分析,得到相关系数矩阵如下: 相关系数矩阵 level_eos数值active_davg_session_duratiis_paynd 化 ays cnt on er level_end 1 0.0835 0.8886 0.7053 0.7279 0.6825 os数值化 0.0835 1 0.0628 0.0044 0.0684 0.1237 active_days 0.8886 0.0628 1 0.5281 0.7672 0.5323 avg_session_0.7053 0.0044 0.5281 1 0.3806 0.5184 cnt duration 0.7279 0.0684 0.7672 0.3806 1 0.4497 is_payer 0.6825 0.1237 0.5323 0.5184 0.4497 1 由矩阵可以看出变量之间虽然具有相关性,但是相关性不强,可以进行逻辑回归分析。

3、设定自变量level_end、 os、active_days 、avg_session_cnt、

专业知识整理分享

考试模拟样题_数据分析应用(附答案与解析)

WORD格式..可编辑1(50.0分)移动公司想结合用户通话行为,推荐相应套餐,或者结合用户现有套餐优化用户套餐,提供个性化套餐,从而对客户进行精准营销,增加客户粘性。为此,移动公司收集了下列数据,移动公司收集到的数据包含下列字段:变量名称变量标签Customer_ID用户编号Peak_min
推荐度:
点击下载文档文档为doc格式
0jeau6xd4y2i4cx3q5al1oirv327pb00pl3
领取福利

微信扫码领取福利

微信扫码分享