酷应用

演讲实录丨CAAI名誉副理事长杨强教授：人工智能的金融实践

百家作者：人工智能学家 2020-12-04 20:12:43

杨强

CAAI 名誉副理事长、微众银行首席人工智能官

AAAI/ACM/IEEE/CAAI/AAAS Fellow

转自中国人工智能学会

CAAI原创丨作者杨强教授

以下是杨强教授的演讲实录：

今天的报告主要讲两个内容，一个是人工智能发展；另一个是如何在金融领域落地。

刚才已经听过很多同事回顾人工智能，我这里特别说一句，人工智能是一个博弈过程，这 60年的发展让我明白一件事，人和机器人之间的沟通是人工智能发展的一个战场，一开始我们认为可以通过逻辑学做这种沟通，现在逐渐认识到，这种沟通是需要用数据进行，所以人工智能这一波大发展依赖于数据。

一、人工智能发展

人工智能的发展，除了数据还有算法和算力，但是在现阶段离不开数据，如大家熟悉的AlphaGo，包括强化学习、深度学习，都是靠大数据来养的。引出了我下面的一个悖论，AI 力量来自大数据。但是每个人工作和生活中遇到的往往都是小数据，可以举很多例子。在法律、金融、医疗等，小数据的存在方式一个是数据、是分布式的，另外是数据的样本很少，特征也不够。我一直以来做的研究也就围绕下面两个问题，一个是如何能够打破数据孤岛，用联邦学习来解决；另外一个是如何解决人工智能的冷启动问题，以迁移学习来解决。

第一个问题，分散在各地的数据，能不能把它聚拢起来形成大数据？这是很难的一个问题。因为有各种问题，其中一个问题是法律的准则。现在全世界各地纷纷出台类似 GDPR 这样的法律法规，规定数据的收集与原始数据贡献者的认可是非常相关的，不可以把数据收集用在另外一个方向上，这是违法的。同时，数据又是核心的资产、核心的要素，一个企业的数据代表它的利益，所以它不愿意随便地分享给别人。我们也看到，在这些法规下，国内外一些从事数据的企业，纷纷受到罚款或惩罚，如谷歌和 Facebook。国内数据的法规也是日益全面，最近在征求一个数据安全管理办法草案的意见。

在这个前提下，我们想用技术解决这个问题，联邦学习应运而生。联邦学习主要思想就是“数据不动，模型动”，数据是“可用不可见”，现在用联邦学习的做法就是带着这个模型（像“羊”一样）到各地访问这些数据，而这些数据本身可以不出本地，这只羊可以走来走去。具体实现中，模型是怎么走来走去？我们让不同数据拥有方可以交换加密模型参数。这个方法可以用在很多终端场景（现在各个手机厂商纷纷建立联邦学习的团队，包括谷歌和国内的大厂商），每一个终端上可以训练一个部分模型，这个模型很粗略，因为数据很少。但是可以把得到的第一批参数用加密手段包装后运到云端；云端可以作为集成学习，集成学习了后，可以把结果下沉到终端。这个做法经过几轮以后，每个终端模型都可以得到更新，我们把它叫做横向联邦学习。特别要提的是联邦学习有一个综合性的学科，加密数学的基础也是非常重要。这里重点讲一下同态加密的进展。

我刚讲的谷歌率先在安卓系统实现了这样的 POC，用集成学习的平均模型的办法来更新。同理，在不同机构之间也有更新我们的模型的需求。这个模型就像一开始说的，是分散在各地的，是分布式的。很重要的一点是，我们不但要分析模型，同时要保证任何一方不能猜出对方的数据和对方的模型，所以在分布式学习的过程中也要保护参数。比如，在工业界经常使用的一个算法SecureBoost，横向、纵向都实现了联邦学习的模型。纵观整个行业来说，就有一个特性——跨学科、多领域。除了算法以外，还要安全合规，包括与政府的政数局沟通；还有安全专家、模型安全、计算机安全、网络安全、算法效率；也包括底层的设计、网络的设计、网络的芯片；包括网络的结构，技术应用和联盟机制。联邦学习要引入经济学模型，如何鼓励这些数据参与方有更多选择，而且大家都可以达到一个平衡；也就是它参与到一个最优的联盟里得到收益最多，通过激励加强黏性，这种黏性也是大家关心的。所以，在隐私计算方面我们看到三个主要流派，联邦学习被称为无党派，因为是从基础理论出发的；还有一种做法是从硬件，英特尔有一个 TEE 的安全环境，这个环境是在硬件层面完成的；还有一个是安全多方计算，是从计算最本质的层面来的，它的效率现在还是问题，但是它的应用面非常广。

在这个领域离不开开源平台，因为尤其是多方参与时，要保证你使用的工具安全、可靠，大家都要保护隐私，因此都希望这样的平台是开源的，能够透明。我们团队开源了第一个开源平台，这个平台有 2 000 多的贡献；同时建立了第一个国际标准，已在 2020 年 9 月正式通过，也是世界上第一个联邦学习的国际标准。联邦学习也为我们所畅想的理念——5G，提供了一个应用场景，而且这个应用场景成为一个关键点。5G 是一个很先进的通讯技术，但是各应用方包括设备生产商都有一个困扰难题，如何找到 5G 的应用场景。为什么说联邦学习提供了这样的场景，因为它提供了工业级别的互联网，也就是可以让不同企业通过联邦学习，在保护隐私的前提下技术合作。这种合作非常像我们用的微信，微信是个人之间建立一个网络，联邦学习之间是企业之间建立学习网络。我们做了各种试验，包括如何把边缘计算与 5G 和联邦学习相结合，包括推出了一个平台 FedEdge，以及边缘计算算法库、中层的算法库和上面的模型，权限、审计、管理都俱全。还有仓储管理，物流是从一个公司的仓库运到另外一个公司的仓库，在仓储的预测上需要准确，这个过程一定要用联邦学习来进行具体预测；在仓储管理方面，包括对银行贷款时进行质押，监管是非常重要。这是一个例子。这三个仓库环境是从 1~3，它们就需要做好决策，需要知道自己仓库里的饱和度，这时在不暴露仓库内部的前提下，允许发生这种精确预测。

二、人工智能如何在金融领域落地

人工智能在金融行业有各种各样的落地，比如风险控制，其实就是用户画像，画像可以告诉你，这个客户的需求是什么、信誉度是什么；还有客服，与周博士讲的场景类似；还有支付的场景、理赔的场景等。营销，在这些场景中遇到一个很大的困境，就是数据不够；而且这些数据往往都是跨行业的，在不同公司、不同行业之间，大家不敢把数据分享出来，已成为现在行业的一个巨大挑战。在这个挑战中也带来另外一个维度的问题，就是监管。如果能让某金融机构的内部运作变得透明，通过联邦学习能为它建模，监管也可以因此往前发展，变成更加智能的监管，往 3.0 的时代发展。这里我要特别地说，监管机构也在深入地了解联邦学习，如《2019 中国智能金融发展报告》特别有一章讨论联邦学习在金融的应用。

下面举几个案例。第一个案例是反洗钱。反洗钱很简单，就看一个金融的服务有没有洗钱的动作。洗钱都是跨行业的，比如在 20 个行业里都有一小笔业务发生，如果没有对全 20 个金融行业的业务有一个统观了解，就不能发现这样的现象，而联邦学习就可以发现它。

下面这些例子主要是回应这里列举的几个痛点。比如，因为数据的缺乏，金融行业的风险控制就有几个挑战，如缺乏客观主动性、数据没有涵盖 360 度的观察、数据包含很多非结构化数据，还有不是实时的数据。所有这些问题不仅存在于金融行业，在医学上、在教育上也有很多类似缺乏数据产生的类似问题。

我们已经做出来很多的，包括合作者，大家一起做出来很多案例。例如，金融业中的金融推荐，我们第一个推出了“联邦推荐”这样的概念算法；包括保险业，通过与企业合作，计算机视觉方面推出了一个平台，多个不同的视觉数据拥有方；这是库存预测和产品质押的例子；还有医疗健康，这也是我们最近和腾讯天衍实验室的脑卒中预测发现，通过几十家医院建立更准确的预测模型。

下面给大家讲一下我们的应用。

这个应用是我们拥有卫星上的很多数据。卫星上有很多定位卫星，我们差不多是最全的，因为现在全世界各地，包括我国都有一些卫星数据的出口，这些低空卫星拍摄图像以后，会把这些数据汇聚在几个专业的出口，我们几乎覆盖了所有这样的数据。为什么？因为有了这些数据我们可以做这些应用，包括评估资管行业风险、为信贷提供风险控制、为保险提供风险评分。在最下面都是各种各样的数据，包括卫星数据和移动数据，还有传统的财报数据。举例来说，某家银行接受一个贷款申请，贷款方要建一个工厂，到底这个工厂施工进度如何，过去是派一些人到现场访问，现在通过卫星图像从左到右可以看到它的进度，还可以看到物流的增长，由此可以预估它的产量产能。这里为什么与联邦学习和迁移学习相关？因为这样的图像往往是没有标注的，在缺乏标注的情况下，要把通过别处的知识建好的模型迁移到现在的问题场景中，这种迁移包括要去保护数据的隐私和安全。

这是我们做的一个银行保险风险监测系统，这里也包括利用了各个行业的大数据，通过联邦学习把它加以聚合，比如进行舆情监测、机构监测等，进行整个城市里企业的画像。

还有一个就是在保险业也可以通过卫星和卫星之间的分析，因为不同的卫星属于不同公司，他们之间有意愿合作，但是又不想把数据共享，解决的办法就是把模型贡献出来。这是一个模型共建的例子。

最下面的图中示出了受灾前后，受灾后有很多沼泽，我们可以预估受灾的程度、受灾的区域，以及主动、快速进行理赔。

最后就是可持续发展的风险评估，左边是卫星图，中间有两个大烟囱冒烟，造成了严重的大气污染。经过测试发现超标污染很可能受到国家罚款，也是这个企业的经营风险之一；而此风险如果提前几个月发现，就能使投资机构对它进行启动处理预案，也就可以促进可持续发展和绿色工业的发展。

最后给大家带来一个概念。在工业落地的前提下，多个数据方、跨企业合作非常重要，因此也催生了很多新应用的发明、发现，包括刚才说的风险控制、反洗钱，还有大量的使用卫星数据。

本报告根据速记整理

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”