不可或缺 外部有效性 单考虑分布偏移远不够!真实数据很复杂 (不可或缺的因素)

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

数据分布偏移(data distribution shift)是可信人工智能系统热衷于考虑的一个话题,每年关于它的相关研究数不胜数。然而,仅关注分布偏移就足够了吗?

近期,纽约大学AI Now研究所的技术研究员Deborah Raji在UC伯克利助理教授Benjamin Recht的个人博客argmin上发表了对这一话题的看法。

她对于学界过度关注分布偏移感到担忧,认为更应该考虑统计上一个相关概念,即外部有效性(external vadality)。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺



数据分布偏移

数据偏移一直在可信人工智能上的一项“杀手锏”。例如,由美国史诗系统公司研发、被密歇根大学医院广泛应用的败血症识别模型在2020年4月由于频繁出现虚假报警,而被紧急叫停。据分析,这是因为新冠大流行导致的人口地理学特征发生了变化才使得模型出现偏差。

这是数据分布偏移的一个例子:当测试集的数据与训练集的数据分布发生变化时候,模型无法有效迁移到新的应用场景下导致出错。

这和不断变化的本质相关:真实世界的数据往往是动态的、变化的、不确定的,例如软件部署变化,人口迁移,行为变化,语言演变等,如果模型不将这些予以考虑,就会出现系统性偏差。

Benjamin Recht发表过这样一个另一惊讶的 ,他们重新按照ImaGenet的数据收集方式收集了一批新的测试集,用原有的模型对新测试集进行准确性测试,发现了如下的结果:

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

其中,横轴代表在原始数据测试集的测试性能,纵轴代表新数据集上的测试性能,蓝色的每个点代表一个模型的结果,红色的线则是对它们的线性拟合,黑色的虚线y=x代表理论上测试结果应该具有的表现。

可以看出,尽管二者之间仍然存在线性相关,即在原数据集上表现好的,在新的数据集也表现得很好,反之亦然;然而,它们之间仍相差将近15%的差距,这就是由于数据分布偏差所导致的。这里的偏差可能来自不同的标注者偏好,不同的数据收集过程等等。




研究现状

Deborah Raji承认研究这种现象的重要性,但她认为ML的研究者们太过于执着于关注分布偏移这一话题了,以至于很多情况下将模型的任何失误都归因于了分布偏移,而她认为这是不合适的。

首先,她认为“分布偏移”这一问题有时候太过具体,有时候又不够具体。任何数据上的变化都可以认为是一种“分布偏移”,例如数据特征本身的变化、数据标签的变化以及二者都发生的变化。

另一方面,这一术语又太宽泛模糊了。“数据分布”这个概念自身就需要假设数据来自一个假象的“真实”分布中,而现实可以观察到的数据则是从这一整体分布中独立同分布的采样数据。然而这个分布是什么呢?没人知道——真实数据混乱、无序、不可预知。

数据分布偏移了,可是哪些部分发生了变化,为什么它们发生,这些都无从得知。

Deborah Raji进而警告道,对于这一术语的痴迷会如何限制ML社区的发展。一个表现是,现在的社区热衷于开发检测数据分布偏移的基准测试,以此来声称测试偏移的程度。然而这些数据是静态的、理想的,无法适应真实世界更加复杂的数据。

有些研究已经开始得出结论:过度强调数据分布偏移已经使得ML实践者和政策制定者更专注于回顾性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者针对于静态收集的历史性数据而言,后者则更加着重于系统的上下文背景。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

回顾性研究与前瞻性研究

为此,Deborah Raji希望研究可以更加转向“有效性”(validity)这一概念。有效性是统计中测度论(measurement theory)中的重要概念,用以衡量系统的可信赖性。有效性又包含内部有效性(internal validity)和构建有效性(construct validity)。当讨论泛化性的时候,我们更关注于外部有效性(external validity)。




外部有效性

外部有效性衡量模型如何泛化到其它场景、设定。这些测试的设定往往不是实验原有的环境,并且考虑到不仅仅是数据方面的变化。

Deborah Raji以一篇文章为例,这篇发表在JAMA的,名为“在住院患者中广泛使用的败血症预测模型的外部有效性分析”对于开头中的那个例子中的模型做了更加详尽的“外部有效性”分析。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺
外部有效性分析模型的论文

首先这篇文章描述了一项关于 2018 年 12 月至 2019 年 10 月期间(尤其是在大流行开始之前)使用败血症模型的回顾性研究。他们检查了接受38,455 次住院治疗的27,697名患者,发现Epic模型预测败血症发病的曲线下面积为 0.63,而“这比其开发人员报告的性能要差得多”。

此外,该工具“未识别出 1,709 名败血症患者(67%),因此造成了很大的虚假报警。”

这些研究人员正确地将这些问题描述为“外部有效性”问题,并详细研究了它们,这远远超出了“临床医生和数据集偏移”——一个静态的偏移数据集中描述的数据分布偏移。

对于Epic 系统的评估是基于 2013 年至 2015 年 3 个美国卫生系统的数据,这与密歇根大学 2018-2019 年的患者记录数据不同。但该评估不仅仅考虑数据问题,还评估了医生与模型交互的变化以及这些变化如何影响结果,以及其他与数据几乎没有关系的外部有效性因素——这远超过了数据分布偏移。

即使在讨论实质性的数据更改时,研究者们也会试图具体描述它是什么,并具体分析在他们医院部署时发生的差异。




关于作者

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

作者Deborah Raji是尼日利亚裔加拿大计算机科学家和活动家,她致力于研究算法偏见、人工智能问责制和算法审计。她曾与 Google 的Ethical AI 团队合作,并曾在纽约大学AI和AI Now研究所的合作伙伴关系中担任研究员,致力于研究如何在机器学习工程实践中考虑道德因素,曾于AI公正性研究的 做过同事,也曾获得过该领域多个奖项。

Deborah Raji与Ben Recht已经在这个外部有效性这一话题上已经展开了很多深入的讨论,后续关于这一问题的探讨也会陆续放在arg min的博客上,感兴趣的读者可以关注查看~

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

版权文章,未经授权禁止转载。详情见 转载须知 。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

全局中部横幅
RCO催化燃烧设备

福建桑涂环境科技有限公司是一家专注于RCO催化燃烧设备,环保催化燃烧设备,废气催化燃烧设备的高新技术环保企业,我司拥有严格的管理制度,一流的服务质量,详询18350183331。

稳定土拌合站厂家

山东贝特重工股份有限公司生产,开发,设计,制造山东潍坊稳定土拌合站,水稳拌合站,水稳搅拌站,山东潍坊混凝土搅拌站,移动式稳定土拌合站,山东潍坊混凝土搅拌楼,山东潍坊水稳拌合站,山东潍坊二灰拌合站等建设机械。

法律咨询

法律咨询就到找律网-这是一个专业的律师法律咨询网,为需要法律咨询及聘请律师的朋友提供快捷、高效的寻找律师、在线咨询律师、学习法律知识、合同协议范本下载、查询律师、查询律师事务所等服务,是网上找律师的优选网站!

叉车电池厂家

浙江法莱力新能源有限公司提供叉车电池,动力电池,叉车蓄电池组,叉车铅酸电池改锂电,防爆蓄电池等产品.源头厂家,质量可靠,型号齐全.我们致力于为客户提供高质量的电池产品和质优的售后服务,让您的叉车运行更加高效稳定.联系方式:18698558236

美考网

美术高考网www.mkao.cn创建于2006年,美考网定位于美术高考信息查询网站,为广大艺考生和家长提供最新的艺术院校招生简章、成绩查询、美术培训班画室、查询美术高考信息就上美考网。

天坛号

天坛号提供全球经济、股票、科技、创业、互联网等领域数据更新和实时解读。我们追求及时、全面、专业、准确的资讯与数据,为您保驾护航。

乐游游戏网

乐游游戏网是一个集海量游戏攻略、资深玩家社区、安全下载服务、个性化推荐和优质服务于一体的游戏平台。我们专注于为游戏爱好者提供全面、详细的游戏指南,以及安全、便捷的游戏下载服务,让您的游戏体验更加丰富多彩。快来与我们一起探索游戏的无限可能吧!

泉州老蔡原味膳饮食有限公司,老蔡鸭肉面线,鸭肉面线,老蔡原味膳

泉州老蔡原味膳饮食有限公司,老蔡鸭肉面线,鸭肉面线,老蔡原味膳

一帆文化传播有限公司

书法,教育,一帆教育,快乐习字

搜源头

搜源头主要提供品牌方联系方式,源头厂家微信,服装批发市场档口大全,全品类供应链目录,服装源头工厂,一手源头对接,达人主播,电商对接,直播商务对接。提供杭州,广州等高端带货类主播网红等资源联系方式,赋能服装行业。

超级链接APP下载

超级链接APP下载-私域社交永久关系链,超级社区-带您探索蜂群联盟项目,超级链接、方块兽、人猿世界、养乌龟等等,每日超级链接摩斯集卡解密玩法,带您探索更多网络项目!

全局底部横幅