微众银行首席AI官杨强 重塑金融范式 联邦学习 (微众银行首席信息官)
2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办。此次峰会由中国计算机学会主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。
在8月9日的「AI金融专场」中,《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念。
首先登场的,是微众银行首席AI官杨强教授。联邦学习和隐私计算,是今年所有金融巨鳄和科技寡头们,都在重点布局的重要技术方向。作为这一领域的全球领军人物,杨强也在会上带来了他在前沿研究与产业应用的真知灼见。
以下为杨强教授演讲全文,雷锋网AI金融评论做了不改变原意的整理:
先简单介绍一下,微众到现在有五年的历史了,目前有大概两亿的个人用户,还有将近百万的小微企业用户。这么短的时间可以获得这么大的用户群,应该说很大程度上是取决于技术上的创新,包括云计算、大数据和人工智能。
其中一大亮点就是做连接,把不同的企业连接成一个生态。在这个过程当中,AI是不可或缺的——正如今天的主题:AI到底在金融界能起到什么作用?
我们在很短的时间内汇聚了很多人才,这些人才主要在四个方面把互联网银行大致规模化、模型化了。这四个团队把微众银行内部和外部的业务过程、经验总结成了模型,这些模型可以供应给其他行业一键下载、一键装配,比如可以做营销、服务、资产管理,把金融的前台和后台都包括了。
迁移学习和联邦学习也是如今比较突出的两项技术,可以把整个金融业务再往前推进一步。
我们可以把未来的银行想像成从左到右的流程,最左边的是获客,这是任何企业都需要做的,要找到有价值的客户,对客户进行安全评估、风险信用评估,尽早发现可能的欺诈行为。
评估办法之一是参考央行的征信数据,但国内很多人没有征信数据(信用分),而且它只是一个维度,所以我们需要把维度变得更加丰富。
还有运营、监管、对沉睡用户的唤醒、7×24小时的客户服务,里面都有人工智能的影子。
分布性数据隐私保护、联合建模的挑战和需求
在所有这些过程当中有一个主线:如何能够顺利把尽量多的数据用起来。
我们联邦学习的宗旨是数据不动模型动,这是一个做法,目标就是数据可用不可见:数据可以用,但是别人的数据我是见不到的,所以可以把数据加入到生态里面来共同建模,一些散乱的小数据就可以成为虚拟的大数据,这是我们的思想。
这个思想的初衷其实是,现在很多行业并没有真正意义上的大数据,像在金融里面有很多的数据,其实是黑天鹅现象。比方说在反洗钱应用中用于模型训练的洗钱案例,其实数量并没有想象中那么多,还是属于少数现象。这种数据拿它来训练,效果不是很好。
如果要用人工智能改变很多行业的话,其实都没有高质量、有标注、不断更新的数据。
第四范式公司在实践当中就发现,如果要为大额贷款做一个营销模型或风控模型,数据往往是在上百例以内,这点样本是没有办法训练一个好的深度模型的,所以他们的做法是从小额贷款到大额贷款做迁移学习。
每个人也都有手机,手机都是联到云端的,每个手机上的数据,每时每刻都在更新,都有新的图片、新的声音、新的文章可以点击,每个手机上的信息又是私密的,如何保证私密不传出去,又能让云端的大数据模型得到更新呢?
大家都熟悉无人车,比如有一千辆无人车,每辆车见到的数据都是有限的,我们能不能让一千辆车的数据汇聚成一个虚拟的大数据,同时又不暴露某个车看到的某个场景?
这就是分布性数据隐私、联合建模的挑战和需求——能不能把小数据聚合起来成为大数据?
问题是,现在监管和社会的要求也非常严格,老百姓、社会对于技术工作者的要求是首先要保护隐私。政府也纷纷立法,比如欧洲建立了GDPR的数据法规。
我们国内也有相关的保护法,在国家层面、地区层面,大家都在探索类似于、甚至更加严格于GDPR的数据法规。所以,简单粗暴地把数据从A传到B是违法的。
透视联邦学习
联邦学习,“邦”的意思是每个实体参与者地位都是相同的,无论大小,提供的价值才是他们存在的意义。“联”就是用一种方式把它们联起来,把隐私保护起来,同时又可以做一些有意义的事情。
用一个简单的例子来解释:假设用一只羊来类比机器学习模型,草就是数据,我们希望羊吃了草以后能够长大。
过去的做法是,把草买到一起来建立模型。比方说左边的模型,左边的箭头是指向羊的。羊不动,但是草被购买到中心。相当于简单粗暴地获取数据,形成大数据,来建立模型。
但我们希望能够保护各自的隐私,所以让草不动,让羊动。这样羊既能吃那个地方的草,主人又不知道到底吃了哪些草,久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。
这个思想的关键是,当我们的模型从一个地方传到另外一个地方的时候,要传尽量少的东西,同时传的模型参数要被加密。图右这些带有一个框的W就是加密的意思,在本地加密,就只能在本地解密。
现在有一种穿透式的加密,把所有的加密包放在云端的时候,还可以对它进行更新操作。比如对这个模型的集成更新,用集成学习。
谷歌就提出了“对模型联邦平均”的做法,还有其他比较复杂的方法如神经网络等。
这种做法分两种数据格式,一种格式是把样本分割,放在终端,像图左边所表示的一样,这是横向联邦。
还有一种是纵向联邦,沿着特征把数据分成几块,每一块属于一个机构。比如有两家医院,双方数据可能在用户上有很多重叠,可是在特征上面没有很多重复。比如其中一家医院做的是胸片,另外一家做的是核酸检测,如果联合就可以做更好的模型。
但出于隐私或利益等原因,他们不愿意互传。这时就可以用如图所示的方式,可以让一方的数据在加密状态下传到另一方,参与模型更新,重复多次后得到最优化的模型。有新用户的时候也是通过加密传输,使中间结果得到运算。
纵向联邦适合to B的场景,横向联邦适合to C的场景。谷歌用的比较多的是横向,我们微众用的比较多的就是纵向,当然也有混合的用法,横向中有纵向,纵向中有横向。
在座的朋友们可能会问, 联邦学习跟以前的分布式AI、参数服务器、联邦数据库有什么区别?
过去,分布式AI和联邦数据库里面,数据的形态、分布、表征都是一样的,是同类的。在联邦学习里面,它们可以是异构的,特征不一样,分布也不一样。从机器学习的角度来说,更加复杂。
同时,隐私保护是第一性的要求。过去,分布式AI和联邦数据库都是在一个数据的功能下,把数据分布在不同的数据库,目的是并行计算、提高效率。但是现在数据本身属于不同的属主,所以需要做加密情况下保护隐私的计算。
可能还有听众想问, 假如在多个参与者中,有一个参与者是坏人怎么办? 他在努力猜你的数据,甚至在做数据的“下毒”,比如故意标注一些错误的信息,就有可能把最终的模型变成对自己有利的方向,这也是有可能的。
如果原始数据是0,在OCR的场景下,另一方可以不断地接受对方的梯度猜出对方的数据。如果百分之百地采用同态加密,用联邦学习的方法,这种情况就不会发生。
联邦学习的特点是引入了生态的维持机制,也就是经济学机制。如果要让联盟能够持续下去,每个参与者都要感觉到作用和收益是成正比的,这就要引入经济学或者博弈论的机制来保证持续的平衡点。
总结一下,其中有很多工作要做,包括安全合规,这是跟法律层面、跟政府层面合作;有防御攻击,还有算法效率,技术应用、还有激励机制,要引入很多经济学家的工作。
举个例子,因为联邦学习是一个大的框架,所以有各种各样落地的场景。比如推荐场景,大家用抖音、用头条、用电商,这个时候都离不开个性化的推荐,但是推荐是数据越多越好。
如果数据来自不同方,过去是把数据买到本地来进行推荐模型的建立。可以用联邦学习来解决这个问题,这个做法是“联邦推荐”。最近我们把联邦推荐的算法应用在广告推荐的场景上,用各方的数据,最后广告推荐的场景可以个性化,但是数据可以不出本地。
联邦学习如何为金融发挥作用?
应用在 信贷和征信系统 ,我们希望利用大数据建立360度的用户和企业画像,参加建立更好的征信。但是联邦学习出现以前都没有很好的技术,大家都不参与到这个生态里面,担心自己的数据被偷走。用了联邦学习以后就可以做这个尝试。
比如这个尝试是一家银行和票据公司的合作,数据都不出本地,银行所提供的是这个用户贷款的关键数据,合作企业提供的是企业的交易数据,这种交易数据为企业的活跃度提供了很多的信息,这两个数据进行联邦,可以让坏账率大幅度降低。
应用在计算机视觉,每个库房都有很多摄像头监控本地的库存,可以用不同视觉公司的监控数据进行供应链联邦。
更多跨领域的应用,比如监管和银行、互联网和电商、互联网和医院,都可以进行联邦。
建立这样一个生态,离不开行业标准。我们推进建立的IEEE国际标准这个月也会出台,国家层面也有标准。我们也推出了开源软件FATE。
我用微众银行的典型案例进行总结,刚才说的联邦技术贯穿了所有前台和后台。比如 智能营销 ,引入联邦学习以后,可以把不同的数据源结合起来,让营销提高点击率。
反欺诈方面,可以在人脸识别、语音识别方面都可以大幅度提高效率。
风控方面,也是利用大数据把金融公司和非金融公司联成生态,大家在这个生态里面进行数据价值的交易。
还可以利用另类数据,比如把卫星数据、电信数据、非传统财报数据联合起来,可以实时为投资者服务。
如何唤醒沉睡的、有价值的用户?也可以用联邦学习识别这个客户有没有重新跟你合作的意愿。我们的经验是在当前这个经济形势下,是非常好的金融场景。
7×24小时的机器人服务,微众现在有98%以上是机器人在做后台服务,包括对话系统、客户服务、服务当中的监管、质量检测、智能监控、反洗钱,把细碎的小数据联系起来,变成可用数据。
以上就是我们的经验和总结,谢谢大家。
原创文章,未经授权禁止转载。详情见 转载须知 。