您的浏览器版本过低,为保证更佳的浏览体验,请点击更新高版本浏览器

以后再说X

欢迎访问开元棋脾app-开元棋棋牌正版v3.2.5官网版2024最新下载

图片名

全国订购热线:
020-15641245

主页 > 资讯公告 > 公司新闻

公司新闻
活动公告 公司新闻 健身指南 器材保养 常见问题

开元棋棋牌正版v3.2.5 XGBoost算法在信用风险量化中应用

作者:佚名 发布时间:2024-05-05 00:07:27 次浏览

开元棋棋牌正版v3.2.5 XGBoost算法在信用风险量化中应用XGBoost算法在信用风险量化中应用.doc,XGBoost算法在信用风险量化中应用 【摘 要】近年来,消费金融飞速发展, 然而市场中的信贷违约风险也随之增大。在这种情况下

XGBoost算法在信用风险量化中的应用 [摘要] 近年来,消费金融快速发展,但市场信用违约风险也随之增加。 在这种情况下开元游戏大厅app,个人网上消费信用保险应运而生。 信用保险是以信用风险为基础的保险。 保险公司根据不同的信用风险程度收取不同的保费,符合市场规律。 违约概率PD是保费确定公式中的一个重要因素。 本文介绍了利用XGBoost[1]算法构建默认概率PD预测模型的过程。 XGBoost算法是一种高效、准确的分类算法。 通过这次实际测试,XGBoost确实展现出了优越的性能。 [关键词] 信用保险; 溢价定价; 消费起着很大的作用。 随着互联网和金融科技的快速发展,消费金融近年来也呈现爆发式增长。 但市场信用违约风险也有所增加。 顺应市场风险承受需求,个人网上消费信用保险应运而生。 个人网络消费信用保险是指在保险期限内,通过互联网进行信用消费活动的用户未按照网络消费合同约定的缴费金额和期限履行缴费义务的,保险人将向被保险人赔付。按照约定发给被保险人。 消费项目下的所有到期债务必须偿还。

投保人和被保险人为消费金融公司或资金出借人,保险人为保险公司。 信用保险是以信用风险为基础的保险。 保险公司根据不同的信用风险程度收取不同的保费,符合市场规律。 违约概率PD是保费确定公式中的一个重要因素。 本文以某保险公司个人线上消费信用保险产品差异化定价项目为背景,介绍了作者应用历史数据和XGBoost算法构建违约概率预测模型的过程。 该模型的应用将使每笔贷款申请获得自己的违约概率,从而获得自己的保费定价,最终实现保险产品的差异化定价。 eXtreme Gradient Boosting (XGBoost) 是一种基于梯度提升的集成学习算法。 其原理是通过弱分类器的迭代计算达到准确的分类效果。 梯度提升因其效率和准确性而广泛应用于分类和预测问题。 本文介绍 XGBoost 来解决信用风险量化问题。 结果表明开元棋脾app,与传统机器学习算法相比,XGBoost具有速度快、准确率高等优点。 1.数据说明本文使用的数据集来自某消费金融平台。 他们的产品是用户和消费信贷公司之间的匹配平台。 用户在该平台申请贷款,最终平台会根据用户的申请信息进行对接。 符合条件的贷款机构将向用户放贷。

贷款金额分为2000元、4000元、6000元三个级别。 还款期限为三个月,每月等额偿还本息。 该数据集包含2016年9月至2017年1月期间共499,971名在该消费金融平台申请贷款的用户的多维度信用相关数据以及完整还款周期的表现数据。 信用相关数据包括申请人的基本申请信息、历史表现记录、机构评级和行为日期。 经过处理后,这些数据将作为自变量X建立风险控制模型。 根据违约定义进行处理后,还款绩效数据将作为因变量Y建立风险控制模型。 原始变量的具体字段总结在表1中。 2.数据预处理 数据预处理是数据挖掘的一个重要问题,因为现实中的大多数数据都是不完整的、有噪声的和不一致的。 数据预处理包括数据清洗、数据集成、数据转换和数据缩减[2]。 (1)数据清洗数据清洗进行了以下操作:将age小于零的值替换为空值; 历史逾期次数和历史逾期天数填零; 用众数填充离散变量,用中位数填充连续变量; 将中表示“未知”的值0替换为10,使受教育程度成为数值上从“硕士及以上”到“未知”的有序变量; 用户评级A、B、C和D由数字1表示,并且替换2、3和4以将该变量从分类变量改变为序数变量。 (2)数据转换数据转换进行以下操作:将出生地和居住地的省份和城市分开,省份和城市分别成为新的字段; 申请时间减去合同开始时间,得到一个时间差变量,可以反映贷款人贷款需求的紧急程度,记为APPSubCtrctStt; 将申请时间转化为前十天的中后期,并导出新的变量; 将合约开始时间转化为前十天的中后期,并导出新的变量; 除以历史最大逾期天数 根据借款次数,导出一个变量,记为hist_borrow_rate; 通过将历史最大逾期天数除以借款数量得出变量。 如果历史借款笔数为空值,则将该变量取值为0.05,以区分重复贷款和未逾期贷款。 客户以及首笔贷款没有逾期的客户记录为hist_borrow_rate1; 对于分类变量:性别、职业、收入类型、是否有社保、是否有房子、是否有信用卡、早中晚申请月份、合同开始时间早中晚,居住城市级别(一、二、三、四线),原籍城市(一、二、三、四线),居住省份和所在地原产地省份采用one-hot编码; 对数变量:年龄、学历、收入水平、社交评分、基本信息评分、历史行为评分、交往行为评分、量化信用评分、良好信用评分、芝麻粉、用户评分、历史借贷次数、历史最大逾期天数、合同金额、月利率、月服务费、还款总额、月还款金额、本息总和、APPSubCtrctStt、hist_borrow_rate、hist_borrow_rate1,进行min-max标准化; 构造因变量Y:在我们的业务中,如果贷款人有3次还款,只要有1次还款未偿还开元棋棋牌正版v3.2.5,如果在还款日起三十天内全额还款完毕,就视为逾期。 此类客户被定义为违约客户,即因变量中的类别 1。

生成因变量Y后,违约客户总数为53313个,占总数据的10.7%,远小于良好客户总数。 因此,建模数据属于类别不平衡数据,需要在此过程中进行建模处理。 (3)数据约简数据约简进行了以下操作:将居住城市、出生地城市按照通俗理解分为一、二、三、四级; 居住省份和籍贯按照中国地理划分分为华东、华北、华中、华南、西北、西南、东北、未知; 变量筛选:首先使用树模型(Extremely random trees [3],极端随机树)计算变量的重要性,并根据重要性对变量进行排序。 经过计算,最重要的前十个变量分别是:芝麻分、信用分、基本信息分、沟通行为分、历史行为分、社交分、用户评分、合同开始日期与申请日期之间的天数、年龄,好信评分,如图1所示。可见,第三方机构评分对于预测客户是否可能违约有较大贡献。 同时,衍生品变量合约开始日期与申请日期之间的天数差异也起到了良好的作用,表明违约客户更渴望获得贷款。 之后,计算两个变量之间的皮尔逊相关系数。 如果一对变量的相关系数大于0.9,则说明该变量对严重共线,删除该变量对中不太重要的变量。 计算完成后,删除还款总额、本息总额、hist_borrow_rate、合约金额这四个变量。

3.机器学习算法建模 (1)训练集和测试集的划分 将上述所有数据分为两个集合:训练集和测试集。 训练集占70%,测试集占30%。 分割时采用分层抽样的方法,使训练集和测试集中不良客户的比例与原始数据集一致。 (2) XGBoost算法Boosting方法是一种常用的统计学习方法。 应用广泛且有效。 在分类问题中,它通过改变训练样本的权重来学习多个分类器,并将这些分类器线性组合以提高分类性能。 Gradient Boosting [4] 是 Boosting 的改进版本。 它是由 Freidman 提出来解决更一般的 ?p 损失函数的优化问题。 每一次的计算都是为了减少前一次的残差。 在残差中,模型是在差异减小的梯度方向上建立的,这与传统的Boosting注重正确和错误样本权重有很大不同。 算法流程如下: XGBoost的全称是eXtreme Gradient Boosting。 它是梯度提升的 C++ 实现。 XGBoost最大的特点是可以自动利用CPU的多线程进行并行化,同时改进Gradient Boosting算法,从而提高模型的精度和泛化能力。

(3)算法参数调整为了使模型取得更好的效果,本次建模过程中采用网格搜索法和五折交叉验证法对算法参数进行调整。 算法参数最终确定为xgb(max_depth=6,n_estimators=280,booster='gbtree',n_jobs=4,scale_pos_weight=9,silent=0,random_state=2)。 如前所述,建模数据中好客户的数量远大于坏客户的数量,分类器倾向于将测试样本分类到训练样本较多的类别中[5]。 与其批准更多的好客户,我们更愿意识别并拒绝更多的坏客户。 设置选项scale_pos_weight就是为了解决这个问题。 该值可以基于大类别与小类别的比率以及错误的数量。 根据成本进行调整,这里设置为9,即大类与小类的比例。 (4)其他分类方法Logistic回归模型也是解决分类问题常用的机器学习方法,已有30多年的应用历史[6],广泛应用于风险评估领域。 逻辑回归模型在变量可解释性和稳定性方面具有很大优势,是目前传统金融机构分析客户信用风险的主要评估模型[7]。 为了获得最优的分类预测模型,我们还利用相同的数据建立了逻辑回归模型,并比较了两种模型的预测效果。

(5)评估标准对于违约概率问题,我们不仅关注所有样本的预测准确率(Accuracy),更关注正样本即违约客户的预测准确率,因此我们使用正样本预测的准确性和准确性。 采用召回率作为模型评价指标:其中P为正样本总数,N为负样本总数。 Tp是正确预测的正样本的数量,Tn是正确预测的负样本的数量。 AUC和KS统计量[8]也是分类模型评价指标。 对于预测效果优于随机猜测的二分类模型,其AUC值应在0.5到1之间,越接近1效果越好。 KS 统计量是模型区分好客户和坏客户能力的指标。 如果该值在 0.41 到 0.5 之间,则认为该模型具有中等判别能力。 4 结果与讨论 (1)结果比较 XGBoost树模型和逻辑回归模型建立后,使用测试集样本来预测建模结果。 两种模型的结果如表2所示。结果表明,XGBoost在所有四个评价指标上均优于Logistic回归。 5.结论本文使用XGBoost分类算法,基于消费金融公司的真实贷款用户数据进行特征工程和分类建模。 与传统的逻辑回归方法进行比较,得到了更准确的预测结果。

通过分析变量重要性,我们确定对模型贡献更大的变量。 本项目中的机器学习算法最终能够有效预测每个用户的违约概率,对于将先进的机器学习算法应用于保险费定价领域具有重要的现实意义。 [参考文献] [1] 陈涛,何涛,Benesty M. xgboost:极限梯度提升[J]. 2016, 5(9): 222-208。 [2] 韩家伟,米什琳·坎贝尔。 数据挖掘概念与技术(第二版),机械工业出版社,2007:30-65。 [3] P. Geurts、D. Ernst. 和 L. Wehenkel,“极度随机树”,机器学习,63(1), 3 -42, 2006。 [4] Friedman J H. 贪婪函数逼近:梯度增压机[J]. 统计年鉴,2000 年,29(5):1189-1232。 [5]王兴等。 大数据分析与应用,清华大学出版社,2013:36-40。 [6]马凤鸣. 逻辑回归在我国个人信用评分中的应用研究[D]. 上海财经大学,2008.[7]王梦雪。 基于机器学习技术的P2P风控模型研究[D]. 哈尔滨工业大学,2017。 [8]单亮,毛晓林。 互联网金融时代消费者信用评分建模与应用,2015:141-144。

图片名 客服