四个xgb模型融合拿下金融风控冠军,是如何做特征工程的?(附代码+PPT+数据)

  • 时间:
  • 浏览:3
  • 来源:5分PK10_5分PK10官网

(11)提取order表的amt_order次数、type_pay_在线支付、type_pay——货到付款、sts_order_已完成次数,按id对order表去重,保留id重复的第三根样本

主要基于auth、credit、user表提取,这三张表的id这麼重复。

(1)标记auth表的Id_card、auth_time、phone否是为空;标记credit表的credit_score、overdraft、quota否是为空;标记user表的sex、birthday、hobby、merriage、income、id_card、degree、industry、qq_bound、wechat_bound、account_grade否是为空。

2.根据历史行为划分训练集数据、验证集数据;

本文来自云栖社区战略协作伙伴“大数据挖掘DT机器学习”,了解相关信息里能 关注“数据挖掘DT机器学习”。

里能 看出,时间对用户否是违约是成一定周期性的,且2017年明显比2016年的数量增加了所以,但是 本文防止方案涉及所以时序特性。

主要基于auth、credit、user表提取,标记这三张表每条样本的信息删改度,定义为该条样本非空的属性数目/总属性数目。

2.缺失值的多维度防止:在征信领域,用户信息的完善程度但是会影响该用户的信用评级。一2个多 多信息完善程度为3000%的用户比起完善程度为 3000%的用户,会更加容易审核通过并得到借款。从你你你这个点出发,对缺失值进行了多维度的分析和防止。按列(属性)统计缺失值个数,进一步得到各列的缺失比率,按对数据进行多维度防止,其中为数据集中某属性列缺失值个数,C为样本集总数,为数据集中该属性列缺失率:

原始数据集所以属性比较乱,清洗了类式日期那我的属性方便特性提取;加入了信息删改度特性,很好地利用到了饱含空值的样本;对于order你你你这个id饱含重复的样本,尝试了提取特性后按时间去重和按第三根和最后三根去重,发现按第三根去重效果是最好的,很好地使用到了order的信息;通过特性的重要性排序筛选了特性,也发现了提取的业务相关的特性是最重要的。

(2)标记auth表的Id_card、auth_time、phone否是正常(不为空);标记credit表的credit_score、overdraft、quota否是正常(不为空);标记user表的sex、birthday、hobby、merriage、income、id_card、degree、industry、qq_bound、wechat_bound、account_grade否是正常(不为空)。

特性工程帕累托图,构建了一系列基础特性、时序特性、业务特性、组合特性和离散特性等,所有特性加起来高达数百维,高维特性一方面但是会意味着着维数灾难,我本人面很容易意味着着模型过拟合。从你你你这个点出发,通过特性选取来降低特性维度。比较高效的是基于学习模型的特性排序方法,里能 达到目的:模型学习的过程和特性选取的过程是一块儿进行的,但是 其他人采用你你你这个方法,基于 xgboost 来做特性选取, xgboost 模型训练完成里能 否输出特性的重要性(见图2),据此其他人里能 保留 top n 个特性,从而达到特性选取的目的。

(10)不同银行卡预留电话(phone)数目

1.异常值防止:针对数据中地处未知的异常值,采取直接过滤的方法进行防止会减少训练样本数量,从这里出发,将异常值用-1但是其他有区别于特性正常值的数值进行填充;

(5)信用额度使用比率(overdraft除以quota)

本文共计还还有一个xgb模型,分别进行参数扰动、特性扰动,单模型效果均通过调参和特性选取,保证单模型最优,按还还有一个模型不同比例融合,最终生成模型结果。



1.对用户的历史行为数据预防止操作;

5.建立多个机器学习模型,并进行模型融合;

(1)用户贷款提交时间(applsbm_time)和认证时间(auth_time)之差

基于本赛题,大数据金融的违约用户风险预测,本文防止方案具体包括以下步骤:





(2)用户贷款提交时间(applsbm_time)和益日(birthday)之差

(3)信用评分(credit_score)反序

清洗数据非常重要,像时间那我的属性非常乱,防止起来也比较麻烦,其他人但是我简单地进行了防止,但是并能更细致的防止效果应该更好;其他属性,类式hobby,内容不多样化这麼使用到,但你你你这个属性肯定饱含了其他有价值的信息,但遗憾这麼发现一2个多 多好的防止方法。

模型的创新点主要体现在模型融合上。考察指标为AUC,侧重于答案的排序。在进行加权融合时,先对每个模型的结果进行了归一化,融合效果很好。

(6)信用额度使用值否是超过信用额度(overdraft否是大于quota)

6.通过建立的模型,根据用户历史行为数据对用户在未来一2个多 多月否是会逾期还款进行预测。

对违约用户风险预测是一2个多 多长期且帕累托图的过程,采取传统的按训练和测试集对应时间段滑窗法划分数据集并都在 最佳方案,从这里出发,将历史用户数据删改用于训练集,更好的训练用户行为习惯,其中,验证集的构建采取交叉验证的方法,交叉验证如下图所示:

(9)不同银行卡类型(card_type)数目

(8)不同银行的银行卡(bankname)数目

(4)信用额度未使用值(quota减overdraft)

(7)银行卡(bankname)数目

基于业务逻辑提取的特性,最有效的特性,主要基于credit、auth、bankcard、order表提取。

One-hot离散user表的sex、merriage、income、degree、qq_bound、wechat_bound、account_grade属性。

4.对构建特性完成的样本集进行特性选取;

其中,图1展示了基于大数据金融的违约用户风险预测防止方案的流程图。

3.对用户历史数据进行特性工程操作;

根据用户历史数据,统计违约数量和未违约数量跟时间周期的关系,可视化实现如下图所示:

主要基于user表提取。

3.其他防止:空格符防止,其他属性取值饱含了空格字符,如“货到付款”和“货到付款 ”,它们明显是同四种 取值,前要将空格符去除;城市名防止,包饱含“重庆”、“重庆市”等取值,它们实际上是同一2个多 多城市,前要把字符中的“市”删改打上去。打上去类式于“市”的冗余但是,城市数目大大减少。

原文发布时间为:2018-09-28

图2 违约数量和未违约数量跟时间周期的关系图

随着人工智能和大数据等技术不断渗透,依靠金融科技主动整理、分析、整理各类金融数据,为细分人群提供更为精准的风控服务,成为防止消费金融风控问提的有效途径。简言之,要怎样区别违约风险用户,成为金融领域提供更为精准的风控服务的关键。