玩转联邦学习,摆脱数据枷锁,这届大学生有点强 !| Q荐读
如今,人工智能人才缺口日益增大,全球知名高校都在开设人工智能课程。据统计,今年全国共有 35 所高校获得人工智能专业首批建设资格。如果你还在为错过专业选择而惋惜,不妨听小编娓娓道来。
人工智能是一门年轻的学科,在被提出后的短短 70 年间,便发展史汇集了来自数学、计算机科学、逻辑学、哲学、神经科学、语言学等不同领域学者的努力,成为了典型的交叉学科。
人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。其核心课题包括:机器学习、计算机视觉、自然语言处理、语音识别、知识表示与计算、推理与规划等等,并在此基础上支持着许多重要应用场景如无人驾驶(无人车)、机器人等。
但当下的情况是,并非所有领域都适合尝试 AI。从行业数据和场景状态来看,金融领域的结构化数据相对完善,特别适合率先引入 AI 技术。比如在金融特定的营销和风控环节,机器学习可以处理上千维度特征,为新老用户分别构建不同的响应率预测模型;在资产管理领域,可以帮助原本无法享受专属理财顾问的客户,实现个性化理财推荐。
但同时也存在一个现象,就是大家对数据隐私越来越看重。那么问题来了:没有权限获取到足够的用户数据,企业如何进行建模?
很自然地,我们想到可以用迁移学习来进行。比如,A 公司有一些自己用户的数据,那么就可以和 B 公司的数据一起协同建模。然而,由于隐私法案的保护,使得两家公司之间的数据难以互通。理想很丰满,现实却很骨感。
为了解决上述问题,微众银行首席人工智能官(CAIO)、香港科技大学教授杨强,带领微众 AI 团队,提出了联邦学习开源项目 FederatedAITechnologyEnabler(简称 FATE)。这是全球首个工业级别联邦学习框架,可以让企业和机构在保护数据安全和数据隐私的前提下进行 AI 协作。
近日,微众银行已宣布将自主研发的联邦学习开源项目 FATE 贡献给 Linux 基金会,通过开源向整个业界回馈技术成果。同期,微众银行首届金融科技高校技术大赛也正式启动,面向全球高校学生团队征集基于 FATE 平台的优秀项目。
本次大赛基于 FATE 的两个赛题如下:
赛题 1:基于横向联邦学习场景,利用 FATE 支持的算法设计创新产品应用,包括并不限于推荐,图像,游戏,反洗钱等。
赛题 2:基于纵向联邦学习场景,利用 FATE 支持的算法设计创新产品应用,包括并不限于信贷,保险等场景。
微众银行将联邦学习的应用范畴进行业务扩展,形成了三类体系:纵向联邦学习、横向联邦学习和联邦迁移学习,我们接下来将主要对纵向与横向联邦学习进行介绍。

在两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练,这样的方法叫做纵向联邦学习。
举个例子,如果一家银行 A 希望联合一家社交媒体公司 B,共同建立一个风控模型,采用的数据包括 A 公司的用户财务数据和 B 公司的用户画像数据。在不应用联邦学习技术的前提下,可能性基本为零。
首先,这样的数据交换违反法律;其次,此类敏感数据的交换不符合双方利益。此时,纵向联邦学习开始发挥它的独特作用。
在此场景下,纵向联邦学习主要解决两大问题:
1、样本数据对齐。
用户 ID(证件号码、电话号码等核心信息)往往是一个公司最重要的用户资产,样本的数据对齐,是要在保证在建模过程中,双方只获悉交集部分,而对差集部分做严格的加密处理。
2、算法拆解。
完成样本的对齐后,在数据分散且不能移动的情况下训练模型,做算法的拆解。为了保证建模过程中没有任何数据泄露,这里引入了同态加密技术。同态加密是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。同态加密技术的分类:
1、如果满足 :
f(A)+f(B)=f(A+B)f(A)+f(B)=f(A+B),我们将这种加密函数叫做加法同态
2、如果满足:
?f(A)×f(B)=f(A×B)f(A)×f(B)=f(A×B),我们将这种加密函数叫做乘法同态。
3、如果一个加密函数 f 只满足加法同态,就只能进行加减法运算;
4、如果一个加密函数 f 只满足乘法同态,就只能进行乘除法运算;
5、如果一个加密函数同时满足加法同态和乘法同态,称为全同态加密。那么这个使用这个加密函数完成各种加密后的运算 (加减乘除、多项式求值、指数、对数、三角函数)。
在这里主要使用的是半同态加密,本质上是加法同态。
最终,AB 双方在保证数据隐私的前提下,分别持有各自的模型参数,并可以进行效果更好的联合预测,皆大欢喜。
在两个数据集的用户特征重叠较多,而用户重叠较少的情况下,我们把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练,这种方法叫做横向联邦学习。
Google 在横向联邦学习方向上有着丰富的应用经验,使 AI 模型直接在手机上训练,无需将手机中的数据上传到云端,从而在保护用户隐私的同时,持续优化AI 模型。
最典型的是银行间共建反洗钱模型。虽然用户特征重叠很多,但各自样本数量非常单薄。最终的诉求还是在保证各自数据隐私的情况下,共建联合的反洗钱模型,且模型效果超过单边数据建模。过程中引入安全数据融合(SecureAqqreqation)机制,保证不会被通过模型参数反推出合作方样本数据。
从理论到现实,从研发到开源。
为了有效帮助多方机构在符合数据安全和政府法规前提下,进行数据使用和联合建模,打破“数据孤岛”,FATE 开源平台从幕后走到台前,于 2019 年 1 月宣布开源,并于 3 月诞生第一位外部代码贡献者。

FATE 的核心功能主要分为四层:
1、FATEWorkflow:通过 DAG 图定义联邦学习算法工作流。
2、FATEFederatedMLFunctions:包含联邦学习算法各个功能组件。
3、EggRoll:分布式计算和存储抽象。
4、FederatedNetwork:跨站点网络通信抽象。
其中最核心的是 FederatedMLFunction,分为五层结构:

基于 FATE 的开发流程相对来说更加简单,微众团队认为四步即可实现:
1、选择一个机器学习算法,设计多方安全计算协议。
2、定义多方交互的信息变量。
3、构建算法执行工作流。
4、基于 EggRoll&FederationAPI 实现算法工程流中各个功能组件。
最终,基于这样一个向着“工业级别联邦学习系统”的目标稳步迈进的开源平台,辅以对纵向、横向联邦学习场景的深入理解,开发者将在如今的众多“痛点”领域大有可为!
比如小微企业信贷的风险管理、安防领域的视觉模型、个性化应用的推荐模型等等。
这也正是 FinTechathon 微众银行首届金融科技高校技术大赛举办的初衷之一:引领高校在校生关注 AI 行业技术痛点,使用优质的开源平台,培养实打实的项目操作经验。同时,这些“青年近卫军”也将挥洒自己才华,为联邦学习的应用场景提供更多有价值的创意和参考,反哺产业界,最终形成 Fintech 领域 AI 人才的正向生态循环。
微众银行·AI 技术沙龙·广州站已经落下帷幕,但如火如荼的 FinTechathon 金融科技高校技术大赛才刚刚开始。
如果你想了解更多信息,点击阅读原文,获取大赛更多资讯!

点个在看少个 bug ?
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 中共中央政治局召开会议 7903941
- 2 课本上明太祖画像换了 7809012
- 3 男子开保时捷跑顺风车 偷190块电瓶 7712288
- 4 8.85亿人次受益后 医保又出实招 7617690
- 5 近3成美国人承认结账时“顺手牵羊” 7524300
- 6 日本记者街头采访找不到中国游客 7426232
- 7 净网:网民造谣汽车造成8杀被查处 7332935
- 8 苟仲文受贿2.36亿余元一审被判死缓 7237273
- 9 外交部回应普京对中印关系评论 7141118
- 10 寒潮来袭 “速冻”模式如何应对 7043387







InfoQ
