酷应用

度小满杨青：以贷养贷不会被发现？大错特错，时序网络助力风控升级 | AICon

百家作者：InfoQ 2021-08-06 22:16:51

作者 | 杨青

编辑 | 李忠良

随着大数据与人工智能的引入，金融风控领域出现了很多探索与创新。就在 QCon 全球软件开发（北京站）2021，我们邀请到了度小满数据智能部总经理，技术委员会执行主席杨青分享了度小满在金融领域的实践，本文是杨青的分享整理文稿，希望对你有所启发~

今天我将分享三方面的内容：信贷风控流程、模型效果的四大挑战以及度小满风控创新式探索。

风控流程包含贷前、贷中以及贷后三部分。

从模型角度来看，风险端涉及贷前、贷中、贷后三大信用评分。除此以外还有很多辅助模型提升风险识别能力，反欺诈模型、预授信模型、预催收模型等等。

从经营侧角度来看，除了关注风险之外，金融公司还需要关注盈利性、用户的满意度等。

在贷前阶段，定价需要关注用户对利率的敏感性，定额需要关注用户的资产情况；在贷中阶段，流失率是需要着重关注的指标，这里会涉及流失模型、Offer 满意度模型等等。

1风控模型四大挑战

复杂场景下的智能金融风控挑战有以下四类：数据孤岛、非结构化信息、复杂模型的可解释性以及内外部场景个性化建模。

在数据孤岛方面，我们知道做大数据信贷风控，最理想的情况是能够拿到用户的准确用户画像，了解到用户的资产情况。

比如用户的月薪、是否有车、是否有房和股票基金、历史的借贷行为以及交易流水等等。

但是现实情况下获取全部数据比较难，绝大部分公司仅仅通过查询征信报告来进行授信，很多数据可能需要从外部获取，但是数据监管越来越严格，跨行业的数据交换越来越难。

数据隐私保护出现之后，联邦学习是一种很好的解决方式。数据无需出狱，仅仅交换模型的参数，就可以保证模型的效果。

征信报告还存在非常多的非结构化信息，这些信息为提升模型带来了非常大的挑战。

首先是一些家庭住址、公司地址等文本信息，如何去处理？

其次是图网络信息，在征信报告中，我们可以看到人与地理位置之间的关系、企业的人和人、公司和公司之间的关系，这些关联网络的信息怎么去挖掘？

再有是时序信息，它也是另一类非结构化信息，负债敞口的变化、整体额度授信场合的变化、用户还款行为的变化等等都是值得挖掘的信息；

另外在信贷经营过程中，公司会有很多与用户交互的信息，比如电销、信审以及催收的时候，存在非常多的语音交互信息，它里面存在非常多有价值的信息，如何挖掘和利用也是很大的挑战。

在复杂模型的可解释性方面，我们之前使用的客户特征大概只有十几维，单个特征与模型结果是强相关关系。我们很容易获得用户信用分较低的具体原因。

但是现在模型的参数非常多，特征数量也非常多，单个特征对于最终结果的影响非常微弱，解释性比较差。

我们以 xgboost 为例，一个模型可能存在几百个数组，当我们建模时，每次都是优化已有结果与目标结果值来决定，这种残差的优化方式，使 xgboost 模型效果具有很好的区分度。

但是当我们建了第一棵树之后，再接着建第二棵树的时候，还会使用已有的特征来选择新分类节点。

因此一个特征出现在决策树模型的多棵树中，我们就很难解释最终的结果。

大家可能计算 xgboost 模型特征重要度，但是这仅仅得到模型本身的特征重要度排序，我们无法应用具体到一个案例，无法解释单个个体是否降额、升额的原因。

业务模型非常多，度小满有数千个模型，我们研发 AutoML 来助力建模，从特征管理、算法选择、模型的自动调优上线都使用 AutoML，一些简单模型完全实现了自动化。

对于一些复杂的模型，通过 AutoML 也能达到往往比人工还好的效果。目前在度小满，所有模型上线之前必须要通过 AutoML 机制。

2如何处理非结构化信息？

上述的每一项挑战都是非常大的话题，这次分享我将会聚焦在如何处理非结构化信息挑战。

每家金融公司的数据源都不一样，但是唯独征信报告都一样。我把度小满征信报告的解读技术，拆分成了 4 个阶段。

首先是专家经验阶段，这一阶段主要是依赖于工程师对金融业务的理解，人工地添加一些特征；

其次是人工特征衍生阶段，通过一些统计编号的方法，将特征进行衍生，特征数增加到了几千维；

接着是机器自动衍生阶段，可以达到 30 万维以上；

最后是中台阶段，我们将所有的 NLP、知识图谱等算法集成起来，提供一体化的服务。

专家经验阶段和人工特征衍生阶段，其实主要依赖于人工经验。比如，当我做一个风控算法，风控算法的目标就是判断一个人是否会逾期？

我们会关注用户的还款意愿和还款能力，大家通过经验来增加一些变量，通过这些变量建模，来达到一个比较好的效果。

当我做征信模型的时候，可能更关心 Offer 满意度和用户借贷需求。在用户满意度方面，用户的借款账户在我司，是不是主账户？有多大的余额敞口等？

如果用户有 30 万的授信额度，其中 18 万是度小满的，那我们就相对比较满意。

在用户的借贷需求方面，用户流失是否因为产品不满意？还是因为没有需求而流失的？这里面会涉及信用卡的审批次数、借贷频次等变量。

这类基于人工经验的情况，对模型统计学要求比较高，需要我们对这个业务有洞察，工程师需要做大量的业务理解和特征工程工作，并且最终得出的特征系统完备性明显不足。

在征信机器自动衍生阶段，我们观察上图右侧的征信范式框架。征信报告里有非常多的细粒度原子操作，通过最大化地刻画这些细粒度，可以使原子操作之间进行各种交叉组合。

交叉组合之外，特征维度可能达到了几千万维，其中有大部分是稀疏和无效的。

我们会通过一些模型，通过分布式训练框架，训练一些有间隙度的模型出来，然后通过特征重要的排序。

我们最终挑选出了 30 万维的有价值变量，这些变量大概可以覆盖 95% 的业务需求，大大减少人工特征加工的工作量，提升了我们的效率，而且在模型效果上面也有明显的增加。

那么对于征信 4.0 阶段，我们发现征信报告还有非常多的有价值信息，我们通过 NLP、图网络等模型，将征信的特征算法进行了打包，整个过程相当于一个中台服务。

我们内部有一个聚焦于征信报告全方位解读的小组，专门提供最准确的客户画像，为各种金融业务线赋能。

地理信息挖掘与自监督学习应用

首先是地理信息挖掘应用。用户的稳定性是非常重要的策略因素，如何从征信报告里架构好这个变量？

左上有一个表格，这是征信报告的一个原始信息，用户填写了三个信息，福州市闽侯区上甘镇五虎路、福州市闽侯区青口镇沪屿街、厦门市思明区民族路。

当我们对应到右边，进行特征统计的时候，数据无法对齐。

征信报告的信息都是用户自己填写，它存在各种省略的情况，也会存在错别字，所以首先我们需要进行 PY 数据归一化。

从省、市、区、县完全归一化之后，我们可以对居住地信息进行稳定性加工，比如用户的城市数、区域数、同一个区域居住时长。

对于征信报里面的公司名、行业以及工作地点也可以做同样的事，首先进行数据规一化，之后就可以进行特征的衍生与加工。

其次是自监督学习的应用，通过自监督学习征信报告的内在语言关系，建立高容错的、可迁移的模型，可以大幅度地提升业务效果。

所有的金融公司申请未通过、申请通过未用信的人占据大多数，但是这两种人也有征信报告，只是这样的报告是没有 label 的，我们无法知道用户是否会逾期。这种数据占了 90% 以上，当我们在建模的时候，大部分的无标数据都被浪费了。

度小满通过自监督学习的方式使用了这些数据，一方面，我们对用户画像（例如学历）进行 Mask，通过征信报告的其他信息，自监督地预测学历情况；

另一方面我们对用户信贷的时序，进行统一的向量表达，减少一个特征维数，因为把之前没有使用到的信息使用起来了，业务获得了巨大的收益。

时序网路的探索

征信报里面有非常多的时序信息，例如贷款记录、中文信息、贷款机构、放款日期、本金输入类特征，针对不同的特征，需要进行不同的处理。

例如，对文本进行 Transformer，累加上时序以及数类特征进行融合，把所有的一条序列按时间排序，加上 Time 的标签，最后进行多头注意力机制，通过时序网络了解到细粒度的时间变化趋势。

上图右方是一个时序模型发现以贷养贷的案例。

客户在 2007、2008 年分别有 2000 的农户贷款；2017 年有 29000 的授信额度，在 2017 年后面有一笔 16 万的预授信，当前使用 14 万；在 2018 年又发放 8000 额度的贷记卡；到 2019 年申请了两笔个人消费贷，并进行了消费贷分期。

如果基于特征加工方式的话，从客户无违约、最高授信十六万元等情况，无法看出有什么异样。

在我们的普通模型中这位用户信用较为优良，但实际上此用户在 2020 年 5 月 31 日存在一次逾期。

再分析一下刚刚的案例，我们可以着重关注以下几方面的信息。

首先用户虽然无违约记录，但结合农户身份、10 年来信息比较缺失、信贷资金使用率比较高等，我们感知到用户风险较大；

其次较为关键的是贷记卡金额转到消费贷，并且当消费贷转移完之后，用户还进行了较长期数的金融分期，这说明了用户的还款压力非常大。

上述案例告诉我们，通过这样的时序网络可以非常细致地观察到用户的时间变化趋势，能够更好地发现这种潜在的风险行为。

针对不同的时序行为，我们都做了同样的处理，并且在多种时序特征表达之上，我们进行了模块交叉，多头注意力机制，然后通过这种方法，我们希望能获得不同时序行为之间的关联关系。

通过时序行为变化，其实可以发现一些比较好玩的事情。

上述右图是一位历史无违约的用户，在 2019 年 9 月有三笔应还账单，大概分别是 4437、11000、5300 元，然后在同期此用户分别借了 11000 元的小贷和 8000 元的消费金融贷款，

我们可以观察到新借款的金额与待还款金额，在同一时间，额度非常接近，我们判定他是一位以贷养贷用户。

后来通过我们的电话调研，确实发现他存在以贷养贷行为。我们通过上述的时序关联关系，发现很多这样的潜在风险。

图模型发展与探索

接下来分享图模型发展在征信报告中的实践应用，征信报告中有非常强大的关键网络的关系，我们将它用在信用风险评估上。

图模型是比较相对中等功能的异构图，有用户节点、公司节点、位置节点以及节点与边的关系，通过异构图的挖掘，我们能够发现很多问题。

比如说某一个用户可能是优良的人，但它所关联的公司里面有很多逾期的人，这里边存在很大的风险。

我们之前发现过一个案例，用户所在公司里面存在大量的违约人员，原因是这个公司进行吸储放贷，员工将自己的钱存储在公司，公司支付其较高的利息。

很多员工会为了赚钱，然后通过借贷赚息差的方式盈利，最后这家公司暴雷，逾期的用户非常多，通过这种关联关系挖掘就可以识别这种情况。

3未来展望

首先是预训练模型深度应用，征信报告里存在大规模无标签的数据，通过预训练模型学习提升模型的信息提取能力；

其次风险模型本质是一个排序模型，之后我们会将逾期的先后顺序纳入模型；

第三是异构图的挖掘，这里还有非常多的算法可以尝试；

第四是多份征信报告的挖掘，如果用户是老客户的话，生命周期比较长，会涉及很多份征信报告，我们需要针对多次查询的征信报告学习差异信息；

最后是模型的可解释性，我们需要优化对复杂模型的归因方法，提升模型的实用性。

以上就是我今天的分享，谢谢大家。

4活动推荐

11 月 5-6 日，AICon 全球机器学习与人工智能大会（北京站）2021 设置了【NLP 技术与应用】专题，度小满技术委员会执行主席杨青担任专题出品人，我们一起邀请了业界四位 NLP 专家，为你分享 NLP 在各大厂的实践。

除去 NLP 专题外，还有人工智能前沿技术、通用机器学习技术、计算机视觉实践、智能金融技术与业务结合、推荐广告技术与实践、AI 工程师团队建设与管理、认知智能的前沿探索、AI 与产业互联网结合、大数据计算和分析、大规模机器学习算法及应用、智能语音前沿技术应用、大规模预训练模型进展、自动驾驶技术等，共 14 个专题。

更多精彩议题敬请期待！

目前大会门票限时特惠中，购票欢迎联系票务小姐姐文柳：13269078023（电话同微信），点击底部【阅读原文】可以了解更多大会信息。