Chapter 2 使用决策树的预测建模
2.1 2.2 2.3
问题和数据探索 .................................................................................................................. 建模问题和数据难点 ........................................................................................................... 生成和解释决策树 .................................................................................. 错误!未定义书签。
2.1 问题和数据探索
内容:
问题和数据 初步数据探索
问题和数据
a. 预测建模问题 一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款扩展给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息变量建立一个模型预测一个申请人将来会不会欺诈。
b. 输入数据源 在对数据进行了分析之后,该公司选择了12个预测变量来建立每一个申请人是否欺诈的模型。输出变量(或目标)变量(BAD)表示申请人在房屋净值信贷中是否有欺诈活动。这些变量及其模型角色、测量水平、变量描述列表如下。
表 2.1 SAMPSIO.HMEQ 数据集合的变量
Name
Model Role Target
Measurement
Level
Binary
Description
BAD
1=defaulted on loan, 0=paid back loan
HomeImp=home
improvement, DebtCon=debt consolidation
Six occupational categories Amount of loan request Amount due on existing mortgage
Value of current property Debt-to-income ratio Years at present job Number of major derogatory reports
Number of trade lines Number of delinquent trade lines
Age of oldest trade line in months
Number of recent credit inquiries
REASON Input Binary
JOB LOAN MORTDUE
Input Input Input
Nominal Interval Interval
VALUE DEBTINC YOJ DEROG
Input Input Input Input
Interval Interval Interval Interval
CLNO DELINQ
Input Input
Interval Interval
CLAGE Input Interval
NINQ Input Interval
需要的结果-信用评分模型
该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值,欺诈概率超过阈值的那些申请人将建议不批准。