度小满杨青:以贷养贷不会被发现?大错特错,时序网络助力风控升级 | AICon

百家 作者:InfoQ 2021-08-06 22:16:51 阅读:187
作者 | 杨青
编辑 | 李忠良


随着大数据与人工智能的引入,金融风控领域出现了很多探索与创新。就在 QCon 全球软件开发(北京站)2021,我们邀请到了度小满数据智能部总经理,技术委员会执行主席杨青分享了度小满在金融领域的实践,本文是杨青的分享整理文稿,希望对你有所启发~

今天我将分享三方面的内容:信贷风控流程、模型效果的四大挑战以及度小满风控创新式探索。

风控流程包含贷前、贷中以及贷后三部分。

从模型角度来看,风险端涉及贷前、贷中、贷后三大信用评分。除此以外还有很多辅助模型提升风险识别能力,反欺诈模型、预授信模型、预催收模型等等。

从经营侧角度来看,除了关注风险之外,金融公司还需要关注盈利性、用户的满意度等。

在贷前阶段,定价需要关注用户对利率的敏感性,定额需要关注用户的资产情况;在贷中阶段,流失率是需要着重关注的指标,这里会涉及流失模型、Offer 满意度模型等等。

1风控模型四大挑战

复杂场景下的智能金融风控挑战有以下四类:数据孤岛、非结构化信息、复杂模型的可解释性以及内外部场景个性化建模。

数据孤岛方面,我们知道做大数据信贷风控,最理想的情况是能够拿到用户的准确用户画像,了解到用户的资产情况。

比如用户的月薪、是否有车、是否有房和股票基金、历史的借贷行为以及交易流水等等。

但是现实情况下获取全部数据比较难,绝大部分公司仅仅通过查询征信报告来进行授信,很多数据可能需要从外部获取,但是数据监管越来越严格,跨行业的数据交换越来越难。

数据隐私保护出现之后,联邦学习是一种很好的解决方式。数据无需出狱,仅仅交换模型的参数,就可以保证模型的效果。

征信报告还存在非常多的非结构化信息,这些信息为提升模型带来了非常大的挑战。

首先是一些家庭住址、公司地址等文本信息,如何去处理?

其次是图网络信息,在征信报告中,我们可以看到人与地理位置之间的关系、企业的人和人、公司和公司之间的关系,这些关联网络的信息怎么去挖掘?

再有是时序信息,它也是另一类非结构化信息,负债敞口的变化、整体额度授信场合的变化、用户还款行为的变化等等都是值得挖掘的信息;

另外在信贷经营过程中,公司会有很多与用户交互的信息,比如电销、信审以及催收的时候,存在非常多的语音交互信息,它里面存在非常多有价值的信息,如何挖掘和利用也是很大的挑战。

在复杂模型的可解释性方面,我们之前使用的客户特征大概只有十几维,单个特征与模型结果是强相关关系。我们很容易获得用户信用分较低的具体原因。

但是现在模型的参数非常多,特征数量也非常多,单个特征对于最终结果的影响非常微弱,解释性比较差。

我们以 xgboost 为例,一个模型可能存在几百个数组,当我们建模时,每次都是优化已有结果与目标结果值来决定,这种残差的优化方式,使 xgboost 模型效果具有很好的区分度。

但是当我们建了第一棵树之后,再接着建第二棵树的时候,还会使用已有的特征来选择新分类节点。

因此一个特征出现在决策树模型的多棵树中,我们就很难解释最终的结果。

大家可能计算 xgboost 模型特征重要度,但是这仅仅得到模型本身的特征重要度排序,我们无法应用具体到一个案例,无法解释单个个体是否降额、升额的原因。

业务模型非常多,度小满有数千个模型,我们研发 AutoML 来助力建模,从特征管理、算法选择、模型的自动调优上线都使用 AutoML,一些简单模型完全实现了自动化。

对于一些复杂的模型,通过 AutoML 也能达到往往比人工还好的效果。目前在度小满,所有模型上线之前必须要通过 AutoML 机制。

2如何处理非结构化信息?

上述的每一项挑战都是非常大的话题,这次分享我将会聚焦在如何处理非结构化信息挑战。

每家金融公司的数据源都不一样,但是唯独征信报告都一样。我把度小满征信报告的解读技术,拆分成了 4 个阶段。

首先是专家经验阶段,这一阶段主要是依赖于工程师对金融业务的理解,人工地添加一些特征;

其次是人工特征衍生阶段,通过一些统计编号的方法,将特征进行衍生,特征数增加到了几千维;

接着是机器自动衍生阶段,可以达到 30 万维以上;

最后是中台阶段,我们将所有的 NLP、知识图谱等算法集成起来,提供一体化的服务。

专家经验阶段人工特征衍生阶段,其实主要依赖于人工经验。比如,当我做一个风控算法,风控算法的目标就是判断一个人是否会逾期?

我们会关注用户的还款意愿和还款能力,大家通过经验来增加一些变量,通过这些变量建模,来达到一个比较好的效果。

当我做征信模型的时候,可能更关心 Offer 满意度和用户借贷需求。在用户满意度方面,用户的借款账户在我司,是不是主账户?有多大的余额敞口等?

如果用户有 30 万的授信额度,其中 18 万是度小满的,那我们就相对比较满意。

在用户的借贷需求方面,用户流失是否因为产品不满意?还是因为没有需求而流失的?这里面会涉及信用卡的审批次数、借贷频次等变量。

这类基于人工经验的情况,对模型统计学要求比较高,需要我们对这个业务有洞察,工程师需要做大量的业务理解和特征工程工作,并且最终得出的特征系统完备性明显不足。

征信机器自动衍生阶段,我们观察上图右侧的征信范式框架。征信报告里有非常多的细粒度原子操作,通过最大化地刻画这些细粒度,可以使原子操作之间进行各种交叉组合。

交叉组合之外,特征维度可能达到了几千万维,其中有大部分是稀疏和无效的。

我们会通过一些模型,通过分布式训练框架,训练一些有间隙度的模型出来,然后通过特征重要的排序。

我们最终挑选出了 30 万维的有价值变量,这些变量大概可以覆盖 95% 的业务需求,大大减少人工特征加工的工作量,提升了我们的效率,而且在模型效果上面也有明显的增加。

那么对于征信 4.0 阶段,我们发现征信报告还有非常多的有价值信息,我们通过 NLP、图网络等模型,将征信的特征算法进行了打包,整个过程相当于一个中台服务

我们内部有一个聚焦于征信报告全方位解读的小组,专门提供最准确的客户画像,为各种金融业务线赋能。

地理信息挖掘与自监督学习应用

首先是地理信息挖掘应用。用户的稳定性是非常重要的策略因素,如何从征信报告里架构好这个变量?

左上有一个表格,这是征信报告的一个原始信息,用户填写了三个信息,福州市闽侯区上甘镇五虎路、福州市闽侯区青口镇沪屿街、厦门市思明区民族路。

当我们对应到右边,进行特征统计的时候,数据无法对齐。

征信报告的信息都是用户自己填写,它存在各种省略的情况,也会存在错别字,所以首先我们需要进行 PY 数据归一化。

从省、市、区、县完全归一化之后,我们可以对居住地信息进行稳定性加工,比如用户的城市数、区域数、同一个区域居住时长。

对于征信报里面的公司名、行业以及工作地点也可以做同样的事,首先进行数据规一化,之后就可以进行特征的衍生与加工。

其次是自监督学习的应用,通过自监督学习征信报告的内在语言关系,建立高容错的、可迁移的模型,可以大幅度地提升业务效果。

所有的金融公司申请未通过、申请通过未用信的人占据大多数,但是这两种人也有征信报告,只是这样的报告是没有 label 的,我们无法知道用户是否会逾期。这种数据占了 90% 以上,当我们在建模的时候,大部分的无标数据都被浪费了。

度小满通过自监督学习的方式使用了这些数据,一方面,我们对用户画像(例如学历)进行 Mask,通过征信报告的其他信息,自监督地预测学历情况;

另一方面我们对用户信贷的时序,进行统一的向量表达,减少一个特征维数,因为把之前没有使用到的信息使用起来了,业务获得了巨大的收益。

时序网路的探索

征信报里面有非常多的时序信息,例如贷款记录、中文信息、贷款机构、放款日期、本金输入类特征,针对不同的特征,需要进行不同的处理。

例如,对文本进行 Transformer,累加上时序以及数类特征进行融合,把所有的一条序列按时间排序,加上 Time 的标签,最后进行多头注意力机制, 通过时序网络了解到细粒度的时间变化趋势。

上图右方是一个时序模型发现以贷养贷的案例。

客户在 2007、2008 年分别有 2000 的农户贷款;2017 年有 29000 的授信额度,在 2017 年后面有一笔 16 万的预授信,当前使用 14 万;在 2018 年又发放 8000 额度的贷记卡;到 2019 年申请了两笔个人消费贷,并进行了消费贷分期。

如果基于特征加工方式的话,从客户无违约、最高授信十六万元等情况,无法看出有什么异样。

在我们的普通模型中这位用户信用较为优良,但实际上此用户在 2020 年 5 月 31 日存在一次逾期。

再分析一下刚刚的案例,我们可以着重关注以下几方面的信息。

首先用户虽然无违约记录,但结合农户身份、10 年来信息比较缺失、信贷资金使用率比较高等,我们感知到用户风险较大;

其次较为关键的是贷记卡金额转到消费贷,并且当消费贷转移完之后,用户还进行了较长期数的金融分期,这说明了用户的还款压力非常大。

上述案例告诉我们,通过这样的时序网络可以非常细致地观察到用户的时间变化趋势,能够更好地发现这种潜在的风险行为。

针对不同的时序行为,我们都做了同样的处理,并且在多种时序特征表达之上,我们进行了模块交叉,多头注意力机制,然后通过这种方法,我们希望能获得不同时序行为之间的关联关系。

通过时序行为变化,其实可以发现一些比较好玩的事情。

上述右图是一位历史无违约的用户,在 2019 年 9 月有三笔应还账单,大概分别是 4437、11000、5300 元,然后在同期此用户分别借了 11000 元的小贷和 8000 元的消费金融贷款,

我们可以观察到新借款的金额与待还款金额,在同一时间,额度非常接近,我们判定他是一位以贷养贷用户。

后来通过我们的电话调研,确实发现他存在以贷养贷行为。我们通过上述的时序关联关系,发现很多这样的潜在风险。

图模型发展与探索

接下来分享图模型发展在征信报告中的实践应用,征信报告中有非常强大的关键网络的关系,我们将它用在信用风险评估上。

图模型是比较相对中等功能的异构图,有用户节点、公司节点、位置节点以及节点与边的关系,通过异构图的挖掘,我们能够发现很多问题。

比如说某一个用户可能是优良的人,但它所关联的公司里面有很多逾期的人,这里边存在很大的风险。

我们之前发现过一个案例,用户所在公司里面存在大量的违约人员,原因是这个公司进行吸储放贷,员工将自己的钱存储在公司,公司支付其较高的利息。

很多员工会为了赚钱,然后通过借贷赚息差的方式盈利,最后这家公司暴雷,逾期的用户非常多,通过这种关联关系挖掘就可以识别这种情况。

3未来展望

首先是预训练模型深度应用,征信报告里存在大规模无标签的数据,通过预训练模型学习提升模型的信息提取能力;

其次风险模型本质是一个排序模型,之后我们会将逾期的先后顺序纳入模型;

第三是异构图的挖掘,这里还有非常多的算法可以尝试;

第四是多份征信报告的挖掘,如果用户是老客户的话,生命周期比较长,会涉及很多份征信报告,我们需要针对多次查询的征信报告学习差异信息;

最后是模型的可解释性,我们需要优化对复杂模型的归因方法,提升模型的实用性。

以上就是我今天的分享,谢谢大家。

4活动推荐

11 月 5-6 日,AICon 全球机器学习与人工智能大会(北京站)2021 设置了【NLP 技术与应用】专题,度小满技术委员会执行主席杨青担任专题出品人,我们一起邀请了业界四位 NLP 专家,为你分享 NLP 在各大厂的实践。

除去 NLP 专题外,还有人工智能前沿技术、通用机器学习技术、计算机视觉实践、智能金融技术与业务结合、推荐广告技术与实践、AI 工程师团队建设与管理、认知智能的前沿探索、AI 与产业互联网结合、大数据计算和分析、大规模机器学习算法及应用、智能语音前沿技术应用、大规模预训练模型进展、自动驾驶技术等,共 14 个专题。

更多精彩议题敬请期待!

目前大会门票限时特惠中,购票欢迎联系票务小姐姐文柳:13269078023(电话同微信),点击底部 【阅读原文】 可以了解更多大会信息。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:http://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

图库
关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接