隐私保护 v.s. 数据共享 论道 (隐私保护V1.6)
雷锋网按:随着信息时代的不断发展,不同部门、不同地区间的信息交流逐步增加,而计算机网络技术的发展为信息传输提供了保障。面对大量的空间数据,多样的数据格式,数据共享是当下最好的解决途径,它让在不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。
实现数据共享,可以使更多的人充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,而把精力重点放在开发新的应用程序及系统集成上。
而共享的数据很大程度上已经深度涉及到隐私数据,这些隐私数据如果非法使用,将带来不可估量的后果。
如何处理数据共享和隐私保护之间的矛盾成为当前热议话题。
7月15日, AI Time举办第四期沙龙,邀请了明略集团首席科学家吴信东教授、清华大学朱小燕教授、清华大学的徐葳副教授,以及微众银行人工智能部的吴海山副总经理,一起论道“数据共享开放与隐私保护”。分享会由清华大学刘洋教授和中科创星投资总监,CCF YOCSEF学术秘书李文珏共同主持。
本次沙龙围绕数据开放共享和数据隐私保护进行讨论。本文对分享内容进行了不影响原意的改编。
问题一:国内外有哪些影响力非常大的数据开放共享的计划或者平台?
徐葳: 学术研究和教学上,我个人比较推荐kaggle,主要原因是kaggle一般会介绍数据的使用方式,预处理方式等。另外,美国联邦政府也有个开放数据网站data.gov。
吴信东: 学术界有一个比较大的开放数据平台DBLP,数据挖掘,数据库等领域的研究者用的比较多。
问题二:数据开放共享主要涉及哪些关键技术或者说挑战?
吴信东: 我个人认为共享平台里面的核心技术是数据治理技术。数据治理就是开放平台需要把碎片化的、零乱的、异构的、自治的数据整合在一起,让研究者能够看到共有的价值。我们最近发表了一篇关于数据治理技术的文章,核心内容就是数据标准化、数据映射、数据交换、噪音处理。
徐葳: 我认为数据共享的核心挑战在于形成数据流动的闭环。举一个例子,在数据量上,BAT这些公司可能比不过政府或者公安系统,但是大家都觉得这些公司的数据很多。这是因为这些公司知道各类数据分别可以产生何种价值,同时也知道想要实现某些功能需要采集哪些数据,企业中数据的利用率高才带来数据量大的印象,数据分享此时能带来更大的价值。只有形成了数据流动闭环,才能发挥数据的最大价值。
数据开发共享必然要解决隐私保护的问题,接下来主办方针对数据分享中的隐私保护问题对嘉宾进行提问。
问题三:您认为哪些数据是隐私数据?
徐葳: 我认为数据的隐私性不仅仅包含用户的个人隐私,还有一些企业隐私数据,比如我曾经用过某个企业的反欺诈数据集,这个数据集也是不能公之于众的,因为欺诈率,用户流量这种隐私数据可能会涉及企业运营机密。
朱小燕: 我个人认为有显性的隐私,有隐性的隐私。所谓显性隐私就是大家都比较在意的一些数据。隐形隐私就是你分享那些你认为无害的数据后,自己都没意料到这些数据会被别人利用来干一些伤害你或他人利益的事。做科研的人开放数据一定要小心。
吴海山: 讨论数据隐私离不开讨论数据服务。。举一个简单的例子,你用打车软件时可以把你的定位服务关掉,对方肯定无不知道你的位置信息,但是这样的话司机也找不到你了。所以我们谈任何个人隐私、企业隐私,都必须考虑服务效率和隐私之间的平衡。
问题四:数据隐私保护主要涉及哪些技术?通俗解释下技术基本原理。
吴信东: 关于隐私保护,我觉得现在基本上可以概括为四大类。第一类是加密,涉及到密码学的内容。其中清华大学姚期智院士发明的多方安全计算方法,从理论上证明了保护隐私的计算的可行性。
k-匿名
第二类是各种匿名算法,比如k-匿名。我在美国遇到有个同事害怕报警遭到罪犯报复。面对这种情况警察上庭通常会讲是半径多大范围之内的人打了电话报警,从而对报警居民达到匿名效果。
差分隐私
第三类是差分隐私,基本方法就是加噪音,使得根据这一屋子人的数据算出来的模型,和随便把某个人踢出去算出来的模型是一样的,这时候某个人隐私就得到保护。
联邦学习
吴海山: 第四类是联邦学习,也是目前微众银行在主推的机器学习技术。举个例子,用户去过A医院看病,也去过B医院看病,A医院主要看肝脏病,B医院主要看脑科病,把这些信息综合起来可以让模型训练效果更加准确。这个时候我们采用联邦学习来达到这个效果,不是用数据的共享,数据的传输,而是把模型的参数,包括梯度和损失函数以加密的方式进行传输。我们传输了损失函数和梯度之后就可以更新模型,我们把这种学习叫做联邦学习。
问题五:现有的技术能有效保护用户隐私数据吗?
徐葳: 我研究这个方向,可能会有偏见,但是我觉得能。我说能是有条件的,就是为了保护隐私肯定会大幅降低模型的运算速度。我前几天做过一个实验,运算时考虑保护隐私比直接明文计算慢了近100倍。所以这个技术可用么?某些场景中肯定可以,而且我认为在很多实际应用中这不是一个问题,因为即使慢100倍也还是能忍受,当然我们仍然值得思考如何在保护隐私的情况下提升效率。总的来说,我们能够在效率合理的范围内充分保护隐私。
吴海山: 我的答案和徐老师一样,我觉得这个答案是非常大的yes。我们现在研发的联邦学习,无论是从实践的角度还是从理论角度来看,都是一种非常有效在保护用户隐私的情况下实现机器学习的算法技术。同时我们必须去权衡用户隐私和算法复杂度以及运算时间。这个权衡的标准是用户隐私的定价,就是我的用户隐私到底价值几何?需要让我花费更多的计算资源,排放更多的碳,去实现隐私保护算法,这个是实践中值得思考的问题。就比如说深度学习,现在大多公司都是拼硬件,我的硬件比别人好,我模型准确性可以提高一丁点,而硬件好的背后意味着数据中心的计算时要花费更多的电,空调要花费更多的钱来维护,由此造成的环境污染以及其他花费和用户隐私的价值孰轻孰重?这也值得思考。
问题六:数据价值与隐私保护成本之间的平衡?
徐葳: 什么样的数据值得保护?你要是不计算成本,所有的数据都能保护。但这不是关键点,举一个例子,数据隐私保护技术,不管是加密,还是联邦学习等等,你可以把它看作是顺丰快递。值不值得寄要看你寄的东西价值相对快递费是什么样的。你不想废品分类,把废品从上海寄到北京再扔,然而这堆废品的并不值得花这么多邮费以及期间造成的碳排放。所以我们必须评估数据价值,同时是我们也要发展数据隐私保护技术,这两件事不矛盾。随着隐私保护技术的发展,越来越多的数据可以得到保护,因为算法优化的越来越快,技术越来越成熟,价格也越来越便宜。就像过去大家寄一个东西好难,现在十来块钱就可以寄个快递。技术成熟了,大家就习以为常了。
吴海山: 我觉得今天这些问题背后都隐含着同样的问题,就是我们如何对数据进行定价。可能很多人都觉得我的数据被监控了,我的隐私被侵犯了,那我问大家一个问题,如果我花一万块钱买你个人所有的数据你愿不愿意?你肯定觉得不行。如果我给你一个亿?在座的好多人可能会说Yes。这个问题的本质就在于我们怎么样对数据进行定价,然后再讨论隐私保护。离开数据的定价以及数据流动所产生的价值去讨论数据隐私,或者离开数据服务去讨论隐私,都是比较片面的,这是我个人的观点。作为AI从业者,我们认为如何开发能够保护用户隐私的机器学习技术是当务之急。
讨论完数据共享与隐私保护,接下来聊一聊现实情况,即现在的国内外隐私保护政策。
问题七:数据隐私保护在政策制定上的挑战主要有哪些?
徐葳: 我不是政策专家,但是GDPR我很关注。我觉得它限制不了像谷歌、facebook这种真正有可能需要你的隐私的互联网公司,反正这些巨头运营成本相对低廉,对他们来说也就多交了4%的税。但对传统企业来说,运营成本已经很高的这些企业,就会思考这些数据能带来多少利益价值,要不要冒这个风险。所以我认为政策必须要有可操作性,不能仅仅说要保护隐私,而是要制定切实可行的各种数据使用标准,指导企业使用数字资产。
朱小燕: 一是我觉得隐私保护政策肯定是跟国情有关,不能照搬欧洲、美国的政策。二是就像刚才一直在讨论的数据价值问题,不能所有数据用一个政策一刀切。比如我觉得金融数据和医疗数据,保护的范围和深度是不一样。其他的各种行业的数据都有特点,所以肯定要根据中国国情去制定更细致的政策。
吴海山: 一是我觉得这要分国家看待,我们不能照搬美国、欧洲。。从经济学角度来讲,GDPR会提高数据本身的价格,以及各大公司在使用数据层面上的成本。二是国外可能觉得中国对隐私重视程度不够。我觉得作为一个AI从业者有义务去给大众普及联邦学习、数据隐私、数据资产到底是什么?
问题八:各位嘉宾,是支持更严的隐私保护政策,还是支持更开放的数据共享?
吴海山: 更严的隐私保护政策无疑会增加数据成本,会让整个AI行业,尤其是小公司生存更加艰难。创业公司在欧洲的生存环境就比以前艰难很多。更开放的数据共享,可能会让大众和媒体放大数据隐私泄露的风险,反而忘掉数据共享带来的价值。我个人支持灵活的隐私保护,或者灵活的数据共享方案。作为一个技术从业人员,我们更应该思考怎么样通过新技术让隐私保护和数据共享变得更加灵活。
朱小燕: 我是教师,从科研的角度来考虑,我是支持更开放的数据共享。我回国二十多年,很多时候都感觉到我国数据共享很不开放。从研究者的角度来讲,真的是有很多人把数据或者一些技术当成自己的私有财产,喜欢把这些东西“锁在抽屉”里,然而“锁在抽屉”里不用的数据不会产生任何价值。正因为我们有这么一个不太好的习惯,所以我更加支持尤其是学术界的数据共享。同时可能需要政府的管理,因为我们不能期待人人做活雷锋,数据共享不等于无价获取,你应该尊重别人的数据,使用别人的数据至少得致谢。
吴信东: 我跟吴海山老师刚好相反,我两个都支持。我支持更严的隐私保护,也支持更开放的数据共享。如果两者必须选一个,我选更严格的隐私保护。我们在国外跟外国人交流会面对一些数据隐私的质疑,我一般回应此一时彼一时,过去我们有些地方确实做的不好,现在我们正在完善自身。国人隐私保护的意识刚刚觉醒,接下来要做的工作还有很多。所以如果二选一,我选支持更严格的隐私保护。
徐葳: 我支持数据共享。首先我认为隐私保护应该是数据开放的必要条件。监管和开放是不能分开的。就像药品,研发新药要保证有效性和安全性,临床二期做有效性,临床三期做安全性。如果没有安全性,只是有效,这个药不会存在。数据共享也是一样,没有隐私保护策略的数据共享就不应该存在。然后我觉得数据共享是非常重要的,但是政府必须有担当。以现在的环境,法无禁止的操作,过两天禁止了还是算你犯错误。所以现在是法无禁止皆不为,大家都不想共享。另一个原因是大家拿数据当个人财产,比如医疗数据,就是因为医生收集数据之后,指着这份数据发论文,评职称,凭什么给别的医生或医院呢?再比如VC投资之后,提供数据的人并没有任何利益,钱被那些做模型的人拿走了。如果提供数据的人没得到好处,那么他们凭什么继续提供数据,同时还担风险。所以我觉得现在的数据共享第一缺乏合理规则,第二缺乏利益协调,这两方面做好了,数据共享就会越来越好。这是一个过程,期间需要我们的努力。
雷锋网报道!
特约稿件,未经授权禁止转载。详情见 转载须知 。