技术冲击波|探究竟!深兰科技运用自研Auto
解放工程师双手的深兰自研AutoML系统,被DeepbuleAI团队升级后,武力值飙升,在场景适应性上取得新突破,并于近日的IEEEISI2019国际大数据分析竞赛中夺得了一项冠军和一项季军的优异成绩。
这也是深兰科技继PAKDD2019AutoML3+挑战赛后,再一次运用AutoML以较大领先优势获得国际顶级会议竞赛冠军!
深兰科技机器学习科学家 DeepBlueAI团队罗志鹏 分享“企业投资价值评估赛题”
算法思路与技术细节
赛题介绍
本次比赛提供了基于3500家上市公司全量信息,描述公司在财务、法务、股权、经营状况、舆论等方面的属性特征,包含企业的工商信息、年报、财务信息、纳税信息、股权信息、法务信息、知识产权信息、经营信息、购地信息等数据(以实际发布的数据集为准)。这些数据来自于官方统计平台,数据真实可信。
每一家企业对应一个类目ID。参赛选手需要合理运用现有数据集材料,筛选出对竞赛有价值的信息进行特征构建和模型训练。 本次会议共有两个赛题: 赛题1:企业投资价值评估
参赛者可参照企业的年报、财务信息、经营信息、资产信息、税务信息,知识产权等企业综合信息对企业投资情况进行打分,为投资者提供投资依据。 赛题2:法律诉讼类型预测
参赛者可根据企业的法院公告、裁判文书、动产抵押、司法冻结、行政处罚、欠税信息、开庭公告等法务信息预测企业未来一段时间可能收到的法律诉讼类型,为企业规避法律风险,接下来将分享赛题1的思路与技术细节。 ■评测指标
使用均方根误差RMSE作为本次竞赛的主要性能指标,返回结果越小代表模型性能越好。比赛成绩以参赛团队提交的测试集结果为准,此部分占总成绩90%。同时会根据代码的鲁棒性、可扩展性、可读性为算法模型打分,此部分占总成绩10%。比赛最终排名取决于以上2部分成绩总和。
■题目特点以及主要工作
在这次比赛中,主要有以下难点:数据维度广,该赛题主办方提供37张xlxs格式的数据表格,一共包括304列。 信息复杂
包括公司产品信息、工商基本信息、购地信息、海关进出口信息、年报信息、融资信息、商标信息、上市财务信息、专利信息、招标信息等。 数据特征类型丰富
包括字符串、数值型、类目型、时间等。数据量小,训练集仅有3000条。
对于如此大量的字段,如果直接采用人工去做特征,一方面工作量巨大,另外一方面很多特征也难以想到。故团队成员基于以上难点,采用了自研的AutoML系统进行建模,该系统包括了自动数据清洗、自动特征工程、自动特征选择、自动模型调参、自动模型融合等步骤,极大提高了任务建模的效率,并且在此次竞赛中也大大提升了效果,使我们在这次竞赛中取得了较大领先优势。 ■自动化数据清洗
在通常的竞赛中,我们的数据往往是比较干净的,要么采集比较规范,要么已经经过加工处理。这次竞赛提供的数据是真实的工业界应用数据,含有大量的不规范字段。比如时间列,就存在各种各样的格式,比如存在年份缩写、中文年月日、标记格式不统一(有时用“\\”,有时用“-”来分隔)等情况。
△原始数据展示
考虑到这些数据情况,可能是由于数据录入的时候,不同年代采用不同的格式,并且数据保留了原来的格式,从而造成了众多数据不规范的问题,另外数据中还存在着大量噪声。而我们的自动化数据清洗模块,对不同类型的数据使用不同的清洗方法,能够有效清洗不规范数据。 ■特征工程
我们的特征工程部分包含两个阶段:AutoML自动特征工程阶段和业务特征强化阶段。
在AutoML自动特征工程阶段,将原始数据清洗成AutoML系统可处理的格式后,进行自动特征生成,然后进行特征选择迭代。在特征选择阶段我们采用lightGBM单模型。在自动特征工程中,我们假设通用场景类型选择和本次任务契合的场景类型,在每一轮特征迭代过程中我们参考了上一轮特征的重要性,在重要性高的特征上面进行迭代更新。
筛选出的特征中比较重要的有:行业细类特征、资历、年报等。具体的,原始特征包含了数值类型、分类类型、时间类型以及文本类型。对数值类型和类目特征生成了基本统计特征,以及数值和分类的聚合特征;对时间类型,提取了周期性特征;对文本特征,则采用了TF-IDF、LDA方法提取特征。同时我们也提取重要特征进行高阶组合,从而避免了指数级的特征组合,并且能挖掘三阶甚至四阶不同类型的特征组合,有效地提升了模型性能。