CCF 联邦学习 TF 研讨会给出了答案 大数据在数据隐私保护下如何普惠共享 AI (联邦国际学院)

雷锋网 AI 科技评论按:3 月 24 日,由 CCF 主办、微众银行和深圳大学微众金融科技研究院协办的第 14 期中国计算机学会技术前线研讨会于深圳大学科技楼二号报告厅圆满召开,研讨会的主题为「联邦学习(Federated Machine Learning):技术及数据隐私保护」。

本次研讨会由微众银行首席 AI 官、香港科技大学杨强教授主持,同时,杨强教授还进行了主题为《数据孤岛,AI 向善与联邦迁移学习》的开场致辞。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

微众银行首席 AI 官、香港科技大学杨强教授

在正式致辞之前,杨强教授就十分谦逊地强调,对于「联邦学习」这个概念,他们这些开创者也还是在一边摸着石头过河,一边在将相关的知识传授给大家,因此对于本次论坛,他们更多地希望大家一起探索这个新概念,而不是单方面的教授与聆听。也正是基于这种考量,他们特地邀请了大学教授,企业科研人员、高管以及法律专家等各界人士来一起有针对性地对话交流。

致辞伊始,杨强教授表示,对于 AI,当前人们最关心的议题就是它与社会的关系,其中两个比较重要的议题,是在两会期间由李彦宏提出来的「数据孤岛」和马化腾提出来的「AI 向善」问题。

什么是「AI 向善」?杨强教授指出:它是指在传统的只有少数人能够享受的领域,利用 AI 作为工具,让广大民众也能享受到过去 VIP 所享受的特殊服务,例如 AI 与普惠金融、普惠教育、普惠医疗、智慧城市、灾难营救,AI 扶贫,AI +农业以及人工智能初创公司第四范式提出来的口号「AI for Everyone」等。而之所以提出 「AI 向善」则是由于:

随后他指出,虽然「AI 向善」是一个重大的议题,但是当天的论坛要聚焦的则是对 AI 系统至关重要的数据治理问题:数据越多,AI 系统的表现就越好,而这样的话就会造成数据和 AI 的寡头,例如 Google 以及国内的 BAT 等大公司,拥有巨量数据。而与之相对的则是小公司所面临的小数据场景,例如法律、金融、医疗大部分应用场景都存在小数据和「数据孤岛」的问题。

针对小数据,杨强教授从技术上提出了解决方案,包括:

那么如何将有效的数据孤岛聚合起来呢?第一、利用隐私安全的建模工具;第二,需要有好的安全证明,不涉及到隐私;第三,公平利益分配。有了这些工具后,这些小数据拥有者就能够组成一个跨行业的联邦学习联盟。

演讲最后,他呼吁道,建立联邦学习联盟,应该是整个社会的事情,希望社会各界都能够参与到其中来。

杨强教授的致辞之后,微众银行 AI 部门高级研究员刘洋博士带来了主题为《联邦学习的研究及应用》的演讲,她主要介绍了微众银行针对联邦学习所做的一些工作以及联邦学习当前的进展和未来的发展方向。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

微众银行 AI 部门高级研究员刘洋博士

首先,她介绍了「联邦学习」这一新概念,即大规模用户在保护数据隐私条件下的协同学习。具体而言,「联邦学习」包括自治和联合两个方面:自治是指用户在自己的终端设备中训练模型,不同的数据持有方就会训练出不同的模型,这些模型就都拥有不同的参数;联合则是指将模型的不同参数上传到云端从而实现模型的聚合,之后再将聚合的参数返回给用户,这一过程一直重复持续到训练完成为止——整个过程只上传模型参数而不上传数据,从而在保护隐私的情况下实现数据共享。

谷歌公司率先提出了基于个人终端设备的「横向联邦学习」(Horizontal Federated Learning)算法框架,在之后的一年到两年时间中,该算法框架也获得了较多的进展:

同时,刘洋博士还提到,发展至今,联邦学习已延伸出三个类别:

其中,她对纵向联邦学习的具体工作原理进行了介绍。纵向联邦学习的目标是 A 方与 B 方联合建立模型,并且假设只有一方有标签 Y,两方均不暴露数据,但可能遇到的挑战是只有 X 的一方没有办法建立模型或双方不能交换共享数据。而其最终要达到的预期为:双方均获得数据保护且模型无损失。

因而在进行保护隐私的机器学习之前,需要先对安全进行定义,其中涉及到三项重要的对比:半诚实和恶意;零知识和一些知识;恶意中心和恶意数据节点。之后再利用隐私保护下的技术工具来建模,包括多方安全计算、同态加密、姚式混淆电路、秘密共享以及差分隐私等。

在介绍联邦学习当前的进展之后,刘洋博士也提到联邦学习当前所面临的挑战和未来的研究展望。其中,挑战主要来自两个方面,一个是模型攻击;另一个则是数据攻击。而对于未来的研究展望,刘洋博士认为联邦学习应该在安全合规、防御攻击、算法效率、技术应用以及联盟机制等方向上进行发展。

最后,刘洋博士也介绍了目前联邦学习在金融领域(互联网公司+银行)、智慧城市(视觉应用+城市管理)等应用案例,并指出联邦学习生态建设应该是由开源、技术标准、商业赋能三大要素构建起来的。

刘洋博士演讲结束后,微众银行的范涛研究员也上台向大家介绍了微众银行基于「联邦学习」开发了联盟 AI 系统并开源联盟 AI 解决方案 FATE(Federated AI Technology Enabler)。FATE 是一个工业级联邦学习框架,提供了一种基于数据隐私保护的安全计算框架,为机器学习、深度学习、迁移学习算法提供强有力的支撑,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和建模,该项目开启于 2018 年,目前已在 GitHub 上()实现了开源。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

微众银行联盟 AI 解决方案 FATE 负责人范涛研究员

前一位演讲者从技术的角度解释为什么要加入联邦学习联盟,南洋理工大学南洋助理教授于涵博士则从博弈论的角度讲述怎样激励拥有高数据的拥有者加入联邦学习联盟,他的演讲主题是《联邦学习中的博弈论》。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

南洋理工大学南洋助理教授于涵博士

于涵博士提到,一个数据联盟的可持续发展取决于能否持续吸引高质量的个人或机构数据持有人的参与。然而如何吸引高质量的个人或机构数据持有人参与进来?其中一个重要的课题就是量化个人或机构的收益。

在找到解决方案之前,他先为大家介绍了当前比较成熟的三类利润分配博弈中的分配方案,包括:

而从系统角度考虑,总体的目标就是最大化集体效用。

然后,这些分配方案都存在各自的劣势,对此,他们提出的是联邦学习激励机制(FLI,Federated Learning Incentivizer)利益分配,这一分配方案的核心是从贡献和代价两个层面考虑怎样公平地对待参与者,在最大化数据联盟的整体效用的同时,也最小化参与者之间在「遗憾」和等待时长两个维度的不均衡。这样的话,FLI 能够同时兼顾对于每个数据拥有者可同时加入多个联盟、参与者加入/离开联盟的排序重要性、参与者加入联盟的代价、参与者加入联盟的「遗憾」以及参与者等待全额补偿所消耗的时间的考量。

演讲最后,于涵博士还用基于这套利益分配方案设计的 SmartHS 在中国「智慧民生」中的应用案例,来介绍了这套机制所带来的实际效果。他指出现有的电子政务系统依旧是工具包式的解决方案,未能解决系统层面的低效率问题,效果不明显,而SmartHS 则实现了流程标准化,人员角色定义标准化,流程智能管理(基于联邦学习机制设计的基础理论),不仅实现了 0 排队,减少了民众所耗费的时间(办事流程使用时长平均 90% 以上)和精力,政务工作人员的业务水平也大幅提高。据悉,该项目还获得了AAAI2018「人工智能创新应用奖」。

作为本次论坛的唯一一位法律从业者,北京观韬中茂(上海)律师事务所合伙人王渝伟律师,从法律的层面强调了数据隐私保护方面的重要性,他的演讲主题为《网络安全与数据保护的立法和实践》。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

北京观韬中茂(上海)律师事务所合伙人王渝伟律师

王渝伟律师从今年的 3·15 晚会中重点关注的数据隐私问题引入,结合庞理鹏与「去哪儿」、「东航」隐私权纠纷案,淘宝公司诉美景公司不正当竞争案,上海晟品非法爬取今日头条服务器视频数据案等国内外典型案例讲述在日趋严密的立法和频繁的执法下,企业如何建立数据合规体系并提升自身数据安全能力。

以上海晟品非法爬取今日头条服务器视频数据案为例,王渝伟律师指出,本案所涉内容是当今互联网企业所面临的一个普遍问题,该案件中的上海晟品网络科技有限公司利用爬虫技术抓取了字节跳动服务器视频数据,是违法法律规定的犯罪行为,处罚轻则拘役、重则判处有期徒刑。

对于这一案例,他也为相关企业提出了对策,一是要评估想要爬取的数据的开放程度和被爬取方的意愿;二是要考察数据的类别,判断数据是否为个人信息、版权内容或商业秘密。

演讲最后,他表示,关于数据隐私问题的解决,一方面是需要政府立法来制约对隐私数据的侵犯;而另一方面,「杨强教授他们提出的联邦学习或许是一个不错的思路」。

第四位出场的演讲嘉宾是第四范式联合创始人、首席研究科学家陈雨强博士,他的演讲主题是《联邦学习——AI For Everyone 的必经之路》。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

第四范式联合创始人、首席研究科学家陈雨强博士

他首先介绍了科学上的四个范式:第一范式是实验科学,强调发现现象、记录现象和重复现象;第二范式是理论科学,强调设计理论解释现象;第三范式是计算科学,即通过计算模拟现象;第四范式则是数据科学,即通过数据解释现象。他强调,第四范式是科学发展的未来。

随后他回归主题,为大家呈现了 「AI For Everyone」 的所需要经历的阶段:

随后他从机器学习的工业落地角度,指出工业界的机器学习最大的特点应该是可扩展——包括两个层面的可扩展:一方面,数据处理的吞吐随着集群、机器数的增加而增加;另一方面则是智能水平/体验的壁垒随着业务/数据的增加而增加。而工业大数据则需要高 VC 维模型,意味着需要高复杂度的模型或函数以及非常强的机器学习能力。

总体而言,工业界所需要的高 VC 维机器学习系统,需要在数据、特征和模型三个方向寻求提高和优化。而由于数据门槛较高,一般的做法是沿着特征和模型两个方向走。

然而目前,工业界应用机器学习依旧存在诸多难题,一方面是对于 AI 应用平台的需求巨大;另一方面则是人工智能还没有真的大规模应用到每个企业。以特征工程为例,要求该领域的研究者对机器学习与业务都有非常深的了解,而目前可以用来优化特征工程的方法有:隐式特征组合(NN、FM)、半显式显示特征组合(GBDT)以及显式特征组合(特征叉乘)。

最后,他表示,现在他们在尝试解决的是「AI For Everyone」的问题,而下一步则是要解决数据的问题。第四范式也在杨强教授的指导下,开展联邦学习的研究,主要的研究思路包括隐私保护和知识迁移,并且相关的成果目前已经应用到医疗领域中。

最后一位出场的演讲嘉宾是京东智能城市研究院资深研究员、京东城市计算事业部 AI 平台部负责人张钧波博士,他的演讲主题是《城市计算与跨域学习联合建模》。他主要从 城市计算的偏应用的角度,讲述联邦学习对于该领域的意义。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

京东智能城市研究院资深研究员、京东城市计算事业部 AI 平台部负责人张钧波博士

首先,他对「城市计算」(Urban Computing)的概念进行了介绍,即通过城市数据的采集、管理、分析挖掘和服务提供,解决交通、规划、环境等问题。然而由于数据异构、多源性及时空动态分布,目前城市计算面临着城市感知的数据缺失这一重大挑战。其中时空大数据因其空间上的临近性、层次性和时间上的周期性、趋势性等特性,更是城市计算亟需解决的问题。

随后,他以 AI 预测城市区域人流量及流转、基于大数据和 AI 的空气预测预测、基于 AI 和城市大数据管网水质量预测等应用场景为例,介绍了京东在城市计算方面所做的一些工作,然而这些工作都尚且无法很好地利用到目前已经存在的一些数据积累,包括:智慧城市建设中,各个政府机构已经建立的各种信息系统或数据平台;大型企业尤其是央企国企累积收集的各类海量数。同时,随着当前一些社会重要发展项目需要联合政府和大型企业事业单位数据共同完成,打破各机构间的数据壁垒成为需要。

而这样的需求所对应的则是一系列挑战:

对此,京东通过跨域学习联合建模,建立「联邦学习+随机森林」的联邦随机森林、「联邦学习+逻辑回归模型」的联合企业信用评级模型、「联邦学习+地块特征学习」的智能地块(区域)排序模型等,来打通数据壁垒,解决数据孤岛问题。

本次论坛的最后一个环节便是由杨强教授、张钧波博士、陈雨强博士、于涵博士、王渝伟律师以及特邀嘉宾——微众银行人工智能部副总经理陈天健先生一同参与的圆桌论坛,主题为《探索联邦学习之机遇与挑战》。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

杨强教授、张钧波博士、陈雨强博士、于涵博士、王渝伟律师、陈天健先生一同参与圆桌论坛

以下为编辑整理的对话实录:

杨强教授: 联邦学习作为一项新的技术,肯定还存在许多大家暂时还想不到的问题。比如说联邦学习将数据合并后,原本是在合并中心进行建模的效果是最好的,但是由于各种原因,同时需要保护隐私,要将这些数据分布到各个数据持有者的终端,这无疑要损失些东西。我想问大家的是,损失的是什么?以及损失的指标对业务的影响有多大?

陈天健先生 :这个问题是有正反两面性的。一方面联邦学习给大家带来了很大的机遇,拥有小数据的公司不再需要通过打破大数据拥有公司的数据垄断,而可以通过联邦学习这一技术享受到大数据的好处;另一方面,这也带来了一些挑战,比如说过去的数据在融合以后是完全透明的,可以以非常传统的方法进行加工处理,然而通过联邦学习融合数据,数据的特征必须通过联邦化、加密等协议进行数据加工,这样的话数据会受到一定的限制。

杨强教授: 有两位腾讯的同学私底下问了我一个问题:假如两方合作联合建模时,一方有Y,一方没有 Y,那没有 Y 的那一方就无法进行建模,这样的问题该如何去解决呢?

陈天健先生: 实际上,有Y 的那一方往往也是有实际应用的一方,由其来主导规定协议,也是非常合理和公平的。

陈雨强博士: 补充一下。我认为可能存在一种情况,例如腾讯旗下的业务矩阵是天然拥有很多数据的,如果它另开了一个新产品,而这个产品可能是没有Y 的,实际上如果存在这样的场景,现在是已经有技术能够将所有的数据共享过来的,而且实现的效果还挺不错。

杨强教授: 现场来了很多大学生、研究生和博士生,他们也正在寻找新的研究课题,各位对于他们有什么可以提供的建议吗?

张均波博士: 实际上,每个阶段的学生倾向做的课题方向可能不太一样。一般博士可能会倾向于去做一些学术型的课题,而本科、硕士则可以去选择一些偏应用型的课题。

于涵博士: 我从博弈论的角度补充一下。一个方面是我们学校的联合研究院也有很多面向学生的研究项目,例如联邦学习的分配课题;另一方面大家也可以思考一下其他方向的课题,比如说当两方建立联邦学习联盟时有第三方来捣乱,是否有什么方法来将第三方也融入进来呢?立法又会对 AI 的创新造成什么影响呢?

杨强教授: 国内的数据法律往往是由一些具体的案例驱动的,稍微有些滞后性,国内立法为什么是这样的现象?以后是否会有改变,我们是否能像欧洲一样提前提出相关法规,在全世界起到领导性的作用?

王渝伟律师: 目前国内的立法确实存在这样的问题。但是实际上,有些立法很早就出来了,只不过国家体制下的立法周期比较长,最终的明文出台会比较滞后。同时加上大家对于这些立法的直观感受不是很强,因此会产生一种国内立法滞后的印象。不过,国内的立法的水平可能确实没有那么高,因此在实施的过程中,大家也都普遍感觉效果不是很好。我们也希望这种现状有所改变,但是这个是跟国家立法机构本身的制度相关的,我们律师也会经常去国外跟其他律师交流,也在做这方面的努力和尝试,大家可以期待一下。

(完)

雷锋网 AI 科技评论报道

原创文章,未经授权禁止转载。详情见 转载须知 。

AI 大数据在保护下普惠共享?CCF TF「联邦学习」研讨会给出了答案

全局中部横幅
上海网站

上海网站排名,根据网站的综合值按照不同的上海网站进行筛选排名结果,通过筛选上海网站可以看到每个上海网站里面的网站排名优质的网站是哪些

乐视视频

乐视视频是以正版,高清影视剧为主的视频门户,乐视旗下专业影视剧视频网站。为用户提供正版高清电影,电视剧,动漫,综艺等视频在线观看,以及视频分享,视频搜索等服务。

知识网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

专业装修网

装信通网装修一站式服务平台,专业装修网,入驻全国上万家装修公司与设计师,为全国业主提供傻瓜式装修服务:发布装修招标免费申请本地装修装饰公司上门量房报价对比,并享受充分的第三方装修保障,同时整理丰富的装修知识学习装修经验、提供精美的装修效果图参考,让您轻轻松松搞装修!

高考资讯

考神网(ks01.cn),是致力为广大考生和家长提供一个当年和历年高考分数线查询、高考政策动态、全国大学查询、高考志愿填报、历年高考分数线、高考常识、大学生活、高考历年真题、高考作文、考生心理辅导等频道的平台,旨在让各位考生和家长能够获得最有用的信息。

齿轮减速机

泰兴五星减速机总厂是专业的江苏泰兴减速机的生产厂家,产品有四大系列K、R、S、F减速机、硬齿面减速机、摆线针轮减速机、齿轮减速机、圆柱齿轮减速机、电动滚筒、蜗轮减速机、丝杆升降机等。

永乐中村(苏州)物业服务有限公司

永乐中村(苏州)物业服务有限公司

树脂排水沟,树脂混凝土排水沟生产厂家

吉林省科维水泥制品公司为您提供一体性排水沟,吉林一体性排水沟,长春一体性排水沟,吉林一体性树脂排水沟,长春一体性树脂排水沟,吉林树脂排水沟,吉林成品排水沟,长春线性排水沟,长春树脂排水沟,长春成品排水沟,一体性排水沟生产厂家,树脂排水沟生产厂家,,质量上乘,技术领先,全方位服务!

坑道钻机

全液压坑道钻机生产厂家赤峰捷兴钻机主要产品有全液压坑道钻机、坑道钻机、探矿钻机、绳索取芯钻机、全液压探矿钻机、钻机配件等。型号齐全、批发价格、厂家直销。

实验室设备

无锡普瑞达公司是国内规模较大的实验室家具,实验室设备制造商,产品性价比高,质量有保证.是中高档实验室最佳选择.公司已获ISO9001:2008质量认证体系,和ISO14001:2004环境体系认证.电话;0510-87892822凌小姐.手机:013961512632.

普洱茶

普洱茶网专注于为茶友分享普洱茶、老班章、冰岛、曼松、那卡、昔归、麻黑、老曼峨、刮风寨等茶叶知识常识的网站,包括茶叶冲泡方法、选购鉴别与存放、功效与作用、茶叶价格等内容。

全局底部横幅