酷应用

这家中国公司用AI识破机器骗局，一场从60分开始起跑的直线竞速赛

百家作者：DeepTech深科技 2018-03-08 07:11:34

长按识别二维码，报名2018十大突破性技术中国区线下解读会

过去2年，AI在互联网行业的应用遍地开花，甚至可以说，互联网行业的AI应用已经非常成熟，更可能已经有点过于拥挤了。但就如同当初新兴互联网一时大量涌现的机会一样，AI在多个不同行业落地生根、甚至是开花结果的过程，现在才正要开始。在互联网以外的行业领域，在信息化达到一定程度之后，已然开始产生大量的数据，但因为AI导入应用还处于很原始的阶段。

在此其中，金融行业就是一个数据很海量、刚需非常明确、但AI应用导入仍刚起步的行业领域。而在中国可以看到的状况是，传统金融行业是非常人工的，而互联网公司则是非常智能的，在互联网金融快速发展之际，许多传统金融行业都明显感受到明显的竞争压力。

事实上，在中国现在正经历第三波金融科技升级浪潮，例如移动支付无处不在，金融服务的成本变得更低。金融机构只能去拥抱科技去更容易的获客，以更有效的运营，去应对更大的风险。

魔高一尺，道就得高一丈

互联网世界有什么妖魔鬼怪，互联网的人最懂。

近年来，结合大数据及人工智能（AI）相关技术如机器学习，成了金融业者一只新的探照灯，在庞杂的数据中照出风险。

例如，蚂蚁金服提供的蚂蚁微贷利用大数据、自然语言处理技术、基于深度学习技术的分析模型，分析是否放款，或是调整催收帐款的策略。知名美国线上借贷独角兽Avant、以学贷为主的SoFi，也是主打通过大数据和机器学习做风险评估，特别是非传统信用审查的资料，如购物、缴费活动行为、甚至是在社群媒体上的互动特征，号称能有效降低违约风险和诈骗。

有一群从互联网公司出身，整日与庞大数据打交道、做数据挖掘的高手，成立了氪信，专攻普惠环境下金融风控的痛点。

与其他人不同的是，氪信把互联网数据挖掘的核心概念“知识图谱”（Knowledge Graph）带进金融领域，并且运用常见于用来做网页搜索的算法—图计算，打造出基于用户移动行为语言处理的反欺诈框架，对抗诈欺团伙。

氪信（CreditX）CEO朱明杰表示，互联网行业的AI应用已经非常成熟，有点过于拥挤了，但还有很多领域的AI应用还很原始化，例如金融、医疗、能源等都有很大的潜力，金融的行为越来越在线化、移动化，产生大量数据，很像过去在互联网行业所见到的发展，“就像我们当初看新兴的互联网的机会一样，信息是金融的核心，这块是下一个战场，”他说。

在电商、互联网等行业也曾有很多欺诈手法，在淘宝、电商上刷单、刷销量、窃取帐户交易等，欺诈分子经过了互联网的洗礼，被教育了，反倒提升了他们的技术，但传统金融行业却是还是非常人工，过去金融业做信用评估多是靠风险专家的人工经验，但光靠这已远远不足解决现今的问题。

氪信的策略就是使用大量的机器学习和深度学习，产生出人工不能加工的特征，同时花了大量的时间建立金融领域的知识图谱，把过去大量没有用上的数据和金融的表现联系起来。通过知识图谱的好处就是可以将这些关系构建成图，更加可视化。

不久前，氪信在数据挖掘和机器学习应用顶级会议之一的 WSDM 2018（ACM International Conference on Web Search and Data Mining）大会，有两篇论文被大会接收，点出了两个创新的研究思维，一是把用户的移动行为跟图计算整合，打造出一个移动行为语言处理反欺诈框架 —— BLP（Behavior Language Processing）。什么是移动行为？是指人在移动设备上的动作，比如用户操作金融APP是否异常，有欺诈的嫌疑，联系纪录、交易信息等，通常都是基于大数据的统计结果，而并非人可以阅读的一条一条的规则。

另一项研究则是他们拿催收服务的“语音文本”做深度挖掘，加上无监督深度学习开发出一个特征提取框架（X-Encoder），能够有效地辨别出一系列逾期人的属性、还款意愿的高低等。

图丨氪信数据科学家姜松涛在 WSDM 上发布“基于X-Encoder的客服问答特征提取框架”的演讲

本届 WSDM 主题报告包括者美国国家工程院院士、微软全球执行副总裁、ACM/IEEE Fellow 沈向洋，图灵奖获得者、UCLA 教授、贝叶斯之父 Judea Pearl，谷歌杰出科学家 Andrei Broder , LinkedIn 首席数据科学家 Igor Peris 美国伊利诺伊大学香槟分校计算机系教授、ACM/IEEE Fellow 韩家炜、USC教授Shanghua Teng等等。

而在多位互联网搜索、数据挖掘领域大神面前，来自中国的新创公司氪信所发表的两篇论文，却让多位大神级科学家惊叹于 AI＋数据挖崛等技术整合的金融业跨域应用飞速的进展，特别是中国金融市场快速发展所累积的惊人使用者行为与数据量，更让国际学者印象深刻。因为这无疑是从来没有其他国家研究者真正有机会触及的领域，而这样的突破也进而让这緉篇论文直接入选本届WSDM大会。

图丨朱明杰在 WSDM 发表“The next battlefield”主题演讲

朱明杰表示，过去多年有许多科学家在互联网搜索、数据挖掘等领域所发展的技术，其实已经非常成熟，甚至可以说已经到了95分以上的程度，但结合AI与数据挖掘的垂直行业应用则是还在刚起步阶段，甚至可以说，即使是氪信目前的技术发展，也才达到65分上下水准，由此也可看出，在此一领域，还有相当的空间可以发挥，相较于其他市场，中国独有的金融环境与网贷行业所产生的巨量需求，无疑是提供了研究者直线提速前进的赛道环境。

移动装置的行为数据难造假，成了防欺诈利器

想要在线上借贷做识别欺诈其实有不少挑战，首先是信用相关特征的稀缺性，传统借款方式用来分析消费者信用状况的文件通常是强有力的特征，比如抵押贷款、工作证明和社会保险等，但网上借贷人群通常缺乏这些数据。再加上，传统金融服务的反欺诈检测方法包括电话访谈、线下尽调等，成本太高，效率比较低，而且存在操作人员的道德风险，因此应用在网上欺诈的效果较差。

而氪信提出的BLP框架，集成了用户线上行为数据采集系统、数据集成平台、知识图谱、特征提取以及预测模型，这些组件共同深入挖掘数据，包括个别的风险提取、基于网络分析的链接风险识别，进而描绘出用户的信用风险档案。

为什么是移动行为呢？移动装置已经渗透至每人的日常生活，搜集用户的行为数据更是相当普遍，例如运动健身，或是互联网业者透过你在网路搜索的关键字就能知道你的喜好跟关注事物等。这些代表着申请人的兴趣、社交关系、生活方式的行为数据，其实就说明了一个人的金融风险，更重要的是些行为数据很难伪造。

BLP的运作方式及架构是：在获得借款申请人授权后，主机端的APP会通过软件开发工具包（SDK）系统性的搜集行为数据，数据收集的范围会依照申请人授权的级别而有不同，像是金钱转帐交易、移动设备和上网的物理特征，如设备ID、WiFi MAC 地址、GPS位置等。接着映射到依据专家行业知识（domain knowledge）而建立的金融风险知识图谱。

再上一层则有一个整合了专家知识和资料采矿（Data Mining）技术的自动化特征提取模块。框架的顶层为一套集成学习算法，也就是预测模型。

图｜移动行为语言处理框架BLP

欺诈行为往往表现高同质性和高关联性

图计算在欺诈检测中能发挥良好效益的原因在于，欺诈行为往往会表现出高同质性和高关联性，以位置坐标为例，如果申请期间申请人都来自同一地址，当数据采集模块收集到GPS坐标时，就会被串连起来。或者，在某段时间内的申请件中，某家庭地址所在区域的历史申请逾期比例，也可以透过图计算清楚呈现。

图｜这张图表示的是群体风险，在某段时间内的申请件中，某家庭地址所在区域的历史申请逾期比例为80%

再举另一个例子，假设用户的手机号和很多用户的手机号都有联系，并且都是单向的联系，这个就是很明显的特征 —— 骚扰电话或是广告骚扰。基于这一点，也可以形成对于这个人的风险等级判断。目前在氪信的BLP架构中，连接的节点已经达到了几千万台设备的量级。

图｜这张图表示关联关系风险，申请手机号过去三个月内与大于1000人中仅有一次通话记录，为疑似骚扰手机号

图｜这张图表示有极高欺诈风险

因此，BLP可以说是把个人特征提取方法和欺诈团伙信号整合在一个集成的框架中，并将图计算应用在建立一个以欺诈为核心的二分图（Bipartite Graph）。

图｜二分图由两种节点构成，相同类型的节点只能通过不同类型的节点连接，在BLP解决方案中，则是应用节点（application nodes ）和信息节点（information nodes）

人工欺诈白天上班，机器人接着上夜班

朱明杰指出，图计算在机器人欺诈、刷卡欺诈都很有效用，机器人有很多特殊、跟一般人不同的行为特征，例如跟人的关联异常多，或是集中在某些时段频繁互动，另外，人工欺诈团伙的运作大多是早上9点到晚上6点，按一般的工作时间跟金融机构互动、打电话，但机器人多是在夜间运作，下班时间后用模拟器或程序去申请。以前没有使用图计算，就是靠人去检视这些状况，现在则可以交给AI来做。不过朱明杰也强调，光有这些还不够，还得要其他的要素一起判定，而且当银行的风控模式变了，大欺团伙也会跟着调整。只能说，真是善与恶之间的一场脑力长期大战。

对于网贷金融业者来说，除了得防范欺诈分子外，另一个压力则来自逾期未缴的坏帐，所面临的催收压力也剧烈增加，因此氪信也开发了一套以语音催收纪录进行特征抽取、以及自然语言处理（NLP）而生的分析系统X-Encoder，目前数据集中收录了5万个例子，正面和负面的还款意愿案例各有一半。

透过语意就能判断借款人的还款意愿吗？答案是很有关联的，只不过以前都是靠有经验的客服人员去判断，例如欠款人说了哪些借口、语气、规律特征等，都是靠人工鉴验，而氪信想的是利用语意分析把对话的特征找出来，关键词、时间顺序等，将大量的通话纪录变成结构化的数据，再用这些特征去评估还款的可能性、还款意愿关系，后续银行就可以再规划并提供欠款人更多的协助方法，例如债务重组等。

中国正在经历第三波金融科技升级浪潮，比如移动支付无处不在，金融服务的成本变得更低，金融机构只能去拥抱科技去更容易的获客，更有效的运营，应对更危险的风险。不过现在谈论AI似乎是一件容易，但实际执行才会知道很困难，特别是在中国做金融服务，缺少高价值的金融数据，更高明的欺诈者带来快速变化的特征，信用和风险是巨大的挑战。

因此朱明杰放眼的就是那些还有很大潜力的行业，缺乏互联网化和AI能力的持牌金融机构，以及缺乏金融实践经验的互联网企业，就是氪信主要目标对象和合作伙伴。另外，目前氪信主要的框架是以个人信贷为主，他指出，主要因为个人在线信贷有大量且分散的特点，是比较纯粹的数据化问题，非常适合机器学习模型去解决问题。其他的如企业信贷、汇率风险规避，需要行业知识和规则的风险，比如汇率、反洗钱等，也将是氪信后续希望覆盖的领域。

-End-