知识联邦 同盾科技李晓林 (联邦知识图谱)
【】2021年12月9日-2021年12月11日,2021第六届全球人工智能大会(GAIR 2021)于深圳开幕。本届大会由粤港澳大湾区人工智能与机器人联合会、联合主办,深圳市人工智能与机器人研究院、深圳市机器人协会、深圳市人工智能学会支持。
作为中国最具影响力和前瞻性的前沿科技活动之一, GAIR 大会已经度过了五次精彩而又辉煌的历程。
大会第二天,以《直面数据安全风险和挑战;挖掘隐私计算的100%可为》为主题的“数据安全与隐私计算”分论坛吸引了来自全国各地的专家、学者、企业家、投资人等,大家齐聚一堂共话新时代下“数据安全与隐私计算”的当下与未来。
其中 同盾科技合伙人兼人工智能研究院院长、中科院医学所首席教授李晓林带来了题为「知识联邦——打造基于隐私计算的共享智能平台」的精彩演讲 。演讲要点可概括为以下几个方面:
同盾科技合伙人兼人工智能研究院院长、中科院医学所首席教授李晓林
以下是李晓林演讲全文,做了不改变原意的整理与编辑:
大家好,我是李晓林,来自同盾科技,今天我分享的主题是“知识联邦——打造基于隐私计算的共享智能平台”。我将从建设这个平台的行业背景、平台的架构、平台的理论框架和平台的应用几个层面逐一展开解释。
数据隐私保护已成为各界的关注重点,尤其从最近推出的一系列的法律法规,比如《数据安全法》、《个人信息保护法》等中可以体现。对于数据安全和隐私保护的合规性要求进一步加剧了数据孤岛效应,成为数据共享瓶颈。同时,国家也把数据作为一个重要的新型生产要素,提升到了国家战略级别。保护数据和数据共享有一定的冲突。数据作为一种生产要素和其他生产要素有很大区别,比如容易失控,保护更难,而且数据的复制几乎是零成本。目前数据共享的程度比较低,数据生命力在各个孤岛上面,价值没有充分发挥。
我们说数据是新型“石油”或者新型“货品”,金融的价值是空间和时间上的流通,从银行贷款是把钱从银行转到你的口袋里,你用贷款来的钱做一些事情,未来再返还回去,是要付出代价的,今年的价值和未来一年后的价值是有时间差别的。数据也同样有时间价值,要实现价值就必须通过时间和空间上的安全合规的流通。比如说电力系统有很多用电的数据,这些数据是用来收费的,数据价值有用但比较有限。如果我们把它的数据价值充分发挥出来,用来做企业信用分析,比如对企业经营状况的判断和参考,价值就非常大了,而且数据价值是有时间差别的,去年的企业用电量和今年的企业用电量这一数据价值是不一样的。
为了保护数据隐私,还要发挥数据价值,实现数据的安全合规流通。我们已经知道业界推出了一系列的隐私计算技术手段,例如多方安全计算(MPC)、联邦学习(FL)、可信执行环境(TEE)等等,通过打破数据孤岛来增强数据的流通价值。而与此同时,随着各家隐私计算平台的推出,每个平台也是孤立的,又形成了新的数据群岛。此时就迫切需要打破平台之间群岛的壁垒。
要真正实现知识的共享互通机制,从而来充分发挥数据的价值,首要问题是保障一致性。一致性包括两个方面,一个方面是连接上的一致性,另一方面是数据、内容的一致性。连接上的一致性包括任务一致和同时启动,同时做同一个任务,计算节点一致、状态一致。流通内容包括参数、算法、模型,加密的流程、手段、顺序等都要一致,以及日志一致,以方便监管。
为了真正实现打破数据孤岛、数据群岛,我们打造了基于隐私计算的开放共享平台。核心是智邦平台iBond,下层是智邦的内核iCore。这一整套系统是基于云原生的平台,目前有一系列的组件,包括管理数据市场i-data、管理应用市场SAFE和数据沙箱FORT,管理算法市场Caffeine、数据安全流通机制FLEX协议,以及联邦通信框架—离子键 Ionic Bond。我们可以看到, FLEX提供了数据安全流通的一系列协议,Caffeine提供了算法算子的算法库,SAFE提供了API和开发的SDK。 上面是知识联邦的理论框架,从信息层、模型层、认知层到认知层,全方位的来融合知识。
知识联邦是一个统一的多层次框架,融合了多种安全多方功能,比如基于数据安全交换协议等等,有效利用多个参与方的协议,真正实现数据可用不可见,知识共创和共享。
知识联邦的信息层有两项MPC,做一些安全计算查询、密文上的训练。模型层有点像联邦学习,这两个和既有的技术有一些重合,但是从认知层和知识层看,有我们的独创性。知识联邦超越了国外的初级联邦学习,是国产原创引领的一个可信AI原框架。认知层能够分流知识,这个知识本身不会因为一次性使用丢失,而是能够传递下去,能够进一步进行知识推理、知识融合、知识表达。
我们为了支持各方面的流通,打通孤立的数据频道,打通平台间的壁垒。去年我们提出了FLEX协议,这是一整套的开源标准化的联邦协议,是可信AI的HTTPS。HTTP是是因特网上应用最为广泛的一种网络传输协议,所有的 WWW 文件都必须遵守这个标准。我们提出FLEX协议,也是希望能够在一个互联互通的标准下去使用数据,这也是业内首个联邦平台的互联互通协议,已经开源了,PPT右下角是我们的开源链接,我们也发布了FLEX白皮书。FLEX本身包括一个应用协议和公共组件,以及各种密码安全协议等等。
在此基础上,我们进一步提出全面互联互通参考模型FIRM模型。这是一个多层次的互联互通参考模型,把互联互通分为五个层次,包括平台层、通信层、数据交换层、算法层、应用层。比如说平台层,我们是智邦iCore内核,通信层是智邦Caffeine组件,在通信层数据流通的速度是开源的6倍左右。平台层是做一些用户的同步,启动任务、停止任务等等。通信层是信息传输,是数据安全交换,前面已经提到了。算法层可以做一些算法的存储类型及算法延伸。SAFE是场景的产生背景,场景的APE、SDK。
有了互联互通,有了iBond,有了智邦平台的支撑,有了知识联邦的理论框架,我们就可以进一步打通数据流通。基于合规的互联互通,我们进一步打造出数据的要素市场,即智邦iData。通过iData可以安全合规地使用多种多样的数据,提升各种模型算法的精度,有一系列可以自主编程、自主建模的辅助工具。下面是iCore,它能够实现公有云、私有云、混合云,支持亿级别乃至十亿级别的数据,是一站式数据安全合规的市场。
无论是数据的提供方、使用方还是应用开发者、提供方或使用方,都可以在上面发布数据、应用模型。使用者可以按使用付费,实现价值变现。我们也有一系列按照市场机制的数据定价,或者根据数据贡献度的判断来给出合理的价格。
有了这些平台和数据,我们就可以支持很多应用。刚才所说的知识联邦的四个层次都有丰富的应用,例如信息层,我们可以做一些安全合规的保护条件的查询,比如说SQL很简单的select,从A和B的数据,或者两个表去合join。对查询方也做一些安全措施,例如密语分享、同态加密等。
上面是模型层,我们可以打通数据源和金融机构的数据,做跨样本或跨特质的联邦学习。通过运营商或电网的数据能够对企业征信进行丰富描述,更准确地判断企业的运营情况,作出合适的风控建模和风险评估。
在认知层,可以通过多方预测来判断。例如做反欺诈,有了信息层的多方数据融合和计算,模型层有一些模型的判断,这时候从认知层的知识分流提出了分流嵌套特征,作为支撑来更进一步提升反欺诈评分卡,结合其他征信机构的数据,一起来做行业内部和行内的联邦信用风险的模块,作出最后的判断。
在知识层,我们可以通过联邦社交推荐来做精准营销。例如电商公司A和游戏公司B,或者通过不同的企业业主、企业社交网络、企业高管的社交网络来判断企业本身的经营状况以及是否存在欺诈团伙。
刚才说的知识联邦模型、互联互通协议以及我们的智邦产品和iData要素市场,都能够在私有云、公有云和混合云上做隐私计算和模型学习,提高交换的安全性。前面云原生的服务,我们同盾也有丰富的经验,例如我们的平均响应达到了200毫秒级别的,已经打造了T4级别的毫秒级的机房,可以做到杭州和上海一体双户,并注册了上万台的虚拟机,日流量超过一亿。所以我们有充分的技术积累和经验来支撑复杂的隐私计算共享智能平台。
同盾科技是智能分析决策的布道者、国产化的开拓者,已经服务了一万多家企业客户,覆盖了非常多的行业,包括政务、互联网、银行、保险等等,积累了丰富的客户经验。我们的目标还是比较远大的,希望为中国在下一代可信AI方面引领全球作出贡献。要达到这个目标需要群策群力,需要社区一起努力。
所以我们在去年的全球人工智能技术大会上创立了“知识联邦产学研联盟AKF”,通过企业、产业和研究院所、大学,形成知识联盟,企业的应用场景给研究院所,还能够向学生和教授团队提供前沿的技术方案和智能算法。同时一些前沿的研究也能够给企业带来新的方向,指引战略方向、输出人才。通过AKF和知识联邦,我们希望可以共同打造中国特有的下一代可信AI。目前已经有知名的高校和企业加入我们,我们也欢迎在座各位企业或者大学、世界顶尖的研究院所加入我们,共同打造下一代可信AI,为中国下一代可信AI作出贡献。
下面我来做一个总结。同盾的目标是做一个连接器,通过联防联控的独立第三方角色,联邦安全交换和充分互联互通,来帮助各个行业充分发挥数据的价值,通过人工智能持续强化学习,通过前沿算法来支撑智能,同时开源、开放联盟,合作共赢。
谢谢大家!
原创文章,未经授权禁止转载。详情见 转载须知 。