好文档 - 专业文书写作范文服务资料分享网站

基于局部采样样本均衡的P2P借贷违约预警模型

天下 分享 时间: 加入收藏 我要投稿 点赞

Finance 金融, 2024, 10(5), 455-464

Published Online September 2024 in Hans. http://www.hanspub.org/journal/fin https://doi.org/10.12677/fin.2024.105047

基于局部采样样本均衡的 P2P借贷违约预警模型

张雪飞

对外经济贸易大学信息学院,北京

收稿日期:2024年8月6日;录用日期:2024年8月21日;发布日期:2024年8月28日

摘 要

随着互联网金融的不断发展,P2P网络借贷的借贷人违约风险识别引起金融机构的重点关注,且随着互联网金融整改措施的实施,借贷违约量不断减少,因此在这P2P网络借贷历史违约数据不断减少的环境下,基于不均衡数据的违约预警分析显得尤为重要。本文在BSL不均衡样本抽样算法的基础上,通过Kmeans聚类算法降低抽样时间复杂度,并使用随机森林与其他机器学习分类算法进行对比实验,同时加入借款描述与借款标题的文本分析,最终建立了基于随机森林的P2P网络借贷违约预警模型来实现对于数据不均衡的P2P借贷违约风险识别。在满足高效率、高识别率的同时,满足了增量学习的现实需求,为P2P网络借贷平台提供一定的监管指导意见。

关键词

P2P网络借贷,违约预警,随机森林,样本均衡

P2P Lending Default Warning Model Based on Local Sampling Sample Equilibrium

Xuefei Zhang

E-Commerce in School of Information Technology & Management University of International Business and Economics, Beijing

Received: Aug. 6th, 2024; accepted: Aug. 21st, 2024; published: Aug. 28th, 2024

Abstract

With the continuous development of Internet finance, the identification of borrowers’ default risk

文章引用: 张雪飞. 基于局部采样样本均衡的P2P借贷违约预警模型[J]. 金融, 2024, 10(5): 455-464. DOI: 10.12677/fin.2024.105047

张雪飞

of peer-to-peer (P2P) lending has attracted the attention of financial institutions, and with the im-plementation of Internet finance rectification measures, the amount of loan defaults has been de-creasing. Therefore, under the environment of decreasing historical default data in P2P lending, default warning analysis based on unbalanced data is particularly important. In this paper, based on BSL unbalanced sample sampling algorithm, K-means clustering algorithm is used to reduce the complexity of sampling time, and random forest is used to compare with other machine learn-ing classification algorithms. At the same time, text analysis of loan description and loan title is added. Finally, a peer-to-peer lending default warning model based on random forest is estab-lished to identify P2P loan default risk of unbalanced data. It not only meets the needs of high effi-ciency and high recognition rate, but also meets the practical needs of incremental learning, and provides certain supervision guidance for peer-to-peer lending platform.

Keywords

P2P Lending, Default Warning, Random Forest, Sample Equilibrium

Copyright ? 2024 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

1. 引言

Open Access 2007年8月,我国第一家网贷平台“拍拍贷”成立,标志着纯线上无担保网贷平台在中国的正式起步。近年来,P2P行业在我国发展迅速,将金融服务领域进一步拓宽至互联网金融,增加了社会的金融普惠性。根据网贷之家数据显示,截至2024年12月底,我国P2P平台累计数量已达6605家,正常运营343家,成交量为428.89亿元。然而,由于网贷平台门槛较低、监管主体缺位等内在缺陷,存在许多借款人的违法行为,自2017年起,许多平台由于借款人的违约还款行为导致资金链断裂。2024年12月,银监会发布《网络借贷信息中介机构业务活动管理暂行办法(征求意见稿)》,进一步加大对P2P的管控约束。随着国家监管制度的不断完善,P2P行业也将逐渐规范化、成熟化,平台违约率也会越来越低,基于大数据、云计算的违约识别难度也会逐渐增大。基于不均衡数据的违约预测也将成为未来的一大难题。

在互联网金融逐渐发展的时代,学者们纷纷对P2P网络借贷违约行为进行违约结构分析,但随着互联网金融的整改措施,基于样本均衡的P2P网络借贷将会成为实际应用中的一个难题,传统SMOTE算法可以解决部分不均衡样本问题,但无法解决噪声数据导致的边界模糊问题,且鉴于互联网数据的爆发式增长,基于增量学习的机器学习违约行为识别算法也将成为实际应用中的一个降低时间复杂度与业务流程复杂度的重要问题。

2. 文献综述

随着P2P网络借贷平台的发展,学者们也纷纷进行了一些有价值的探究。在借款人的学历程度方面,廖理[1]等人研究了借款人学历在违约概率上的影响,研究发现学历较高的借款者违约概率更低。阮素梅[2]发现婚姻状况是否稳定对借款人的违约行为也有重要的影响,并且女性违约率显著小于男性。李广明等人[3]通过提取P2P违约借款人的特征,从13个变量的统计检验中发现,借贷金额小、借贷期限短、借贷利率低的借款人有较小的可能产生违约行为,并且借款者的学历高低、借款人所在城市、借款人职

DOI: 10.12677/fin.2024.105047

456

金融

张雪飞

业也与是否产生违约行为密切相关。刘博楠[4]表明借贷人个人特征、工作特征、信用特征、借贷特征均会对P2P违约风险造成不同程度的影响。

而针对于不平衡数据的处理问题,国内外学者的研究主要集中在两个方面。,首先从数据层面上采用不同的抽样方法进行样本的平衡,如SMOTE (Synthetic Minority Oversampling Technique)算法[5],该算法也被广泛应用在不平衡数据的处理中,但原始数据集中的噪声数据可能会使数据边界模糊造成数据分布改变。胡峰[6]等提出TWDIDO算法,结合三支决策理论,对边界域和负域中的小类样本进行不同的过采样处理,有效解决不平衡数据的二分类问题,但未进行一定的欠采样处理,对于样本均衡度及其不均衡的数据而言,过采样的迭代次数过高、重复度过大,同样会致使数据边界模糊,从而对原有数据分布造成一定的影响。第二个方面是降维,李杰[7]等人用随机森林的特征选择,对于不均衡样本而言,其标签分类结果无法达到最优。Sherif F. Abdoh等人[8]用随机森林和SMOTE结合递归特征消除并对比PCA降维,发现前者的组合分类性能提高都更大。张忠林[9]等人针对边界模糊的问题,提出BSL采样算法,借鉴K近邻的思想提出边界样本、安全样本和噪声样本的概念,基于边界样本进行插值,但由于K近邻思想的全局搜索与过高的时间复杂度,随着样本数据的增长,算法运行时间也将大幅度增长。

而P2P借贷人信息中,也存在一些文本信息,例如借款标题和借款描述。李杰[7]等人在众筹违约模型中,选取项目标题、项目发起人简介等文本数据进行文本相似度计算,作为新的特征加入预警模型中。黄承慧[10]等人提出对传统的基于频率的余弦相似度改进,即TF-IDF模型基础上分析文本中重要词汇的语义信息,借助外部词典分析词项之间的语言相似度。Mikolov [11]等人提出word2vec模型,基于三层神经网络,使得预测词汇相似度的精度得到大幅度提高。Kusner [12]等人提出WMD (Word Mover’s Distance)算法来衡量文本相似度,该算法充分利用了word2vec的领域迁移能力,且模型简单,没有任何超参数,并且将问题转为线性规划,有着全局最优解。本文在P2P网络借贷领域中,引入文本相似度的计算概念,作为一列新的特征添加到模型中,进一步丰富P2P违约风险预警模型。

学者们已经对P2P违约风险预警和不均衡样本处理做了大量的研究,但依旧存在一些不足。在P2P违约数据越来越少的情况下,传统的欠采样方式容易丢失有用的数据,即K近邻距离不同样本标签较大的优异分类型数据,造成信息的缺失。简单的随机过采样方法由于简单的随机复制,容易造成过拟合问题,且模型的普适性不强。SMOTE算法容易造成边界模糊的问题,对于采样后模型的参数要求较高,不易根据经验选择,仍然具有改变原有数据分布的可能性。借款标题与借款人描述等文本信息,未通过计算文本相似度来全面体现违约模型指标体系。

本文针对P2P网络借贷行业违约数据越来越少的情况,改进了张忠林[9]的BSL算法,通过KMEANS聚类算法降低抽样时间复杂度,在样本均衡的同时既改善了噪声样本造成的数据分布改变和边界模糊的问题,又大大降低抽样的时间复杂度,并使用随机森林与其他机器学习分类算法进行对比实验,同时借鉴李杰[7]的思想加入借款描述与借款标题的文本分析,通过计算文本相似度,进一步完善P2P借贷违约风险模型体系。最终选择并建立了基于随机森林的P2P网络借贷违约预警模型来实现对于数据不均衡的P2P借贷违约风险识别。该模型运行效率较高、违约识别率较为优秀,同时随机森林算法可以较为便捷的进行增量学习,在数据增长的情况可以通过添加一个新树的方式来进行增量学习,满足了实际业务的需求,为P2P网络借贷平台提供一定的监管指导意见。

3. 基于样本均衡的P2P借贷违约预警模型

本文在对数据进行了一定的剔除、编码和标准化后,改进张忠林[9]等人提出的BSL采样方法,首先利用聚类的方式将全局搜索维度改为多个局部搜索,对每一簇利用K近邻距离的思想,定义安全样本、

DOI: 10.12677/fin.2024.105047

457

金融

基于局部采样样本均衡的P2P借贷违约预警模型

Finance金融,2024,10(5),455-464PublishedOnlineSeptember2024inHans.http://www.hanspub.org/journal/finhttps://doi.org/10.12677/fin.2024.105047基于局部采样样本均衡的P2P借贷违约预警模型
推荐度:
点击下载文档文档为doc格式
2l5c810kfp9jajr88ky455t2h95xc900wdp
领取福利

微信扫码领取福利

微信扫码分享