不要迷信可解释性佐治亚理工学院发文小心被误导 (不能迷信)

文章编号：44204 资讯动态 2024-12-09 可解释性可解释人工智能系统佐治亚理工学院

佐治亚理工学院发文：不要迷信可解释性，小心被误导

可解释性对人工智能发展来说至关重要，但在可解释系统的可信度方面，理解其可能带来的负面效应亦同等重要。

近日，佐治亚理工学院研究团队发表最新研究，重点讨论了 可解释人工智能系统（XAI）中一种重要却未被阐明的负面效应 。

在这篇论文中，作者提出“ 可解释性陷阱（EPs） ”的概念，指出即使设计者最初没有操控用户的意图，模型的可解释性也可能带来意料之外的负面影响，它不同于具有刻意欺骗性质的黑暗模式（DPs)，但又与之相关。本文通过一项案例研究具体阐述了Eps概念，并证实解释的负面影响不可避免，最后作者进一步从研究、设计和组织三个层面提出了具体的应对策略。

发展可解释、可信的新一代人工智能越来越重要，因为人工智能已被广泛应用于医疗保健、金融、刑事司法等高风险决策领域。为了提高人工智能的安全性，我们需要打开AI内部运作的黑匣子，为用户提供可理解的解释。

目前关于可解释AI（XAI）的研究已经取得了令人称赞的进展，但最新研究发现，这些解释所带来的的影响不一定是积极的，也可能在下游任务中产生消极影响。例如设模型计者故意制造不合理的解释，让人们对人工智能系统产生信任，从而隐瞒其可能带来的风险。更重要的是，尽管模型设计的最初意图是好的，这种负面影响似乎也不可避免。

在这种情况下， 我们要如何区分有意和无意的负面解释？又如何将有意的负面效应概念化？

佐治亚理工学院发文：不要迷信可解释性，小心被误导

作者引入“可解释性陷阱（Explainability pitfalls ，EPs）”的概念，指出人工智能解释可能会误导用户在不知情、无防备的情况下做出符合第三方利益的决策。用户对人工智能的信任，能力的高估，以及对某些解释的过度依赖，是他们在无意识中被“可解释性”操控的主要原因。

EPs和DPs之间的最大区别在于“意图”不同——DPs存在故意欺骗的性质，不考虑到用户的利益。但EPs通过故意设置“陷阱（pitfalls)”也可以变成黑暗模式。

EPs的概念并不是纯粹的理论推导后的结果，而是在大量实际工作和经验的基础上提出的。这项工作展示了尽管没有欺骗的意图，但在人工智能解释的确会出现意料之外的负面影响.

本文不是一篇关于EPs的全面论述，而是在现有概念和实践上迈出了基础性的一步。作者表示，提出可解释性陷阱的概念，是为了让人们认识到未曾发掘的知识盲点（围绕人工智能解释的负面影响），并以此扩大XAI系统的设计空间。

在这项研究中，作者调查了两个不同的群体——有人工智能背景和没有人工智能背景的人，他们如何看待不同类型的人工智能解释。以下是用户对AI生成的三种解释的看法：

(1)有正当理由的自然语言

(2)没有正当理由的自然语言

(3)为智能体行为提供无语境下的数字

在这项研究中，参与者观看了三个智能体在连续决策环境中的导航视频，并提供了定性和定量的感知信息——在一个满是滚动的巨石和流动的熔岩的环境中，为被困的探险者取回必须供应的食物。

智能体通过简单地输出当前状态的数字Q值执行"思考"过程（如图1）。Q值代表智能体对每个行动的信任程度(不包含"为什么"可信)，参与者事前没有被告知这些Q值的意义，所以他们不知道哪些数值对应哪些行动。

佐治亚理工学院发文：不要迷信可解释性，小心被误导

图1：显示了智能体在任务环境中导航

两类参与者都对数字盲目信任，但信任的程度和原因不同。作者采用"认知启发"的概念，试图理解背后的原因。他们发现，

对于有人工智能背景的参与者来说，仅仅是出现的数字就能引发启发式思考。他们不完全理解智能体决策背后的逻辑，但也会将数学表示法与逻辑算法的思维过程联系起来。有意思的是，他们还把最聪明的AI投给了“行为最奇怪”的智能体，这说明，他们不仅过度重视数字结果，而且将“含义不明”的数字视为潜在的可操作性。这里的"可操作性"指的是在判断或预测未来行为方面，人们可以用这些信息做什么。

那么，智能体在实际场景中的可操作性到底如何？正如之前所强调的，Q值不能表明决策背后的 "原因"。除了评估现有行动的质量，这些数字并没有太多可操作性。也就是说，参与者对智能体产生了过度信任和错位评估。

对于没有人工智能背景的参与者来说，即使无法理解复杂的数字也会引发启发式推理，在他们看来，智能体就一定是智能的，这些数字代表了智能体“神秘而不可理解”的独特语言。需要说明的是，这种推理方式与之前有人工智能背景的人的推理过程不同，他们假设了未来的可操作性（尽管目前缺乏可理解性）。

如我们所看到的，没有标记的、无法理解的数字反而增加了两类群体对智能体的信任和评估。这项案例研究表明，即使没有欺骗的意图，EPs也会出现未曾预料到的结果，并误导参与者对数字生成过度依赖。

需要强调的是，本次案例假设Q值的“本意”是好的，如果这些数字被操纵了，一些人利用这些隐患恶意设计黑暗模式，鉴于案例中用户对数字的启发式信任，这将会误导更多人对系统产生过度信任和不正确认知。

总结来看，可解释性陷阱（EPs）有两个特性，一是它仅是存在，但并不一定会对下游产生危害；二是现有知识不能预测给定的一个人工智能解释何时、如何以及为何会引发意料之外的负面下游效应。

基于以上两点，作者认为虽然我们不太可能完全消除解释的负面效应，但需要意识到“陷阱”的存在，了解它们何时容易出现，又是如何运作的，并制定相应的措施，做到防微杜渐。文中作者从研究、设计和组织三个相互关联的层面提出了几点策略：

在研究层面，开展更多以人为本的情境和经验性研究，以获得不同解释对不同利益相关者在多维度下的精细理解。 这是因为当下游效应（如用户对人工智能解释的看法）表现出来时，陷阱就会表显露并被识别。如上述案例，具有不同人工智能背景的用户引发了同样的陷阱（即，对数字过度信任），但却有不同的启发模式。

其实，基于这则案例，我们还可以从用户知识背景和理解分歧两个维度进一步探讨：用户的组合特征（如教育背景和专业背景）如何影响 EPs的易感性？不同的启发式方法如何发现不利影响？不同的用户如何适应意料之外的解释？在这些探索中，具备陷阱意识可以帮助我们提高洞察力，发现人们对人工智能解释的反应是如何与设计者的意图相背离的。

在设计层面上，一个有效的策略是强化用户在解释过程中的反思（而不是一味地接受） 。最近以人为本的XAI工作也主张将通过反思来促进信任的方法概念化。Langer等人指出，如果我们不对解释进行有意识的和慎重的思考，就会增加掉进“陷阱”的可能。为了引发人们的注意，Langer等人建议设计 "努力的反应 "或 "有思想的反应"，它可以采用缝合设计的视角来帮助提高注意力。有缝设计是对计算系统中 "无缝 "概念的补充，其概念根源在于普适计算。接缝的概念与XAI非常吻合，这是由于： (a)人工智能系统被部署seamful spaces空间中； (b)该方法可以被看作是对“seamless”的黑暗模式人工智能决策的回应，具有“zero friction”或理解力。

就形式和功能而言，seams战略性地揭示了不同部分之间的复杂性和连接机制，同时隐藏了分散注意力的元素。这种 "战略性揭示和隐藏（strategic revealing and concealment)的概念是seamful design的核心，因为它将形式和功能联系起来，而对这种联系的理解可以促进反思性思维。因此，Seamful explanations战略性地揭示了系统的缺陷和承受力，并掩盖了那些分散注意力的信息，对它们的认识可以促进有用的反思。

在组织层面上，为设计者和终端用户引入教育（培训）计划 。搭建一个生态系统是很重要的，因为EPs具有社会维度的复杂性，我们需要一种超越技术层面的策略。近期工作表明，对黑暗模式的扫盲可以促进自我反思和减轻危害。EPs扫盲计划可以制定如下： (a)帮助设计者意识到EPs可能出现的表现；(b)让终端用户提高识别“陷阱”的能力。

总的来说，这些策略有助于我们用积极地预防EPs，促进对陷阱的复原力。虽然不够详尽和规范，但它在解决潜在有害问题上迈出了重要的一步。

从安全性和可靠性的角度来说，XAI系统对人工智能解释所产生的影响进行分类非常重要。这项研究通过“可解释性陷阱（EPs）”概念的讨论，揭露了人工智能解释可能带来的意料之外的负面影响。文中关于EPs的操作化和应对策略的解读和见解，有助于改善XAI系统的问责和安全机制。

基于这项研究发现，作者认为关于XAI还有一些开放性的问题值得进一步讨论：

1. 如何制定有效的 EPs 分类法，以更好地识别和减少负面影响？

2. 如何使用不恰当解释来说明“陷阱”在现实中的影响？

3. 如何评估训练过程，以减轻“陷阱”可能带来的影响

最后作者表示，从人机交互到人工智能社区，他们正在通过基础概念与应用进一步研究可解释性陷阱。相信通过了解XAI系统中陷阱的位置、方式和原因，可以显著提高人工智能系统的安全性。

佐治亚理工学院发文：不要迷信可解释性，小心被误导

版权文章，未经授权禁止转载。详情见转载须知。

佐治亚理工学院发文：不要迷信可解释性，小心被误导

谷普下载提醒您

本文链接：http://www.gpxz.com/article/bb49d3e861784995b0d7.html

上一篇：神经网络无法实现可解释重温三十年前对于NN

下一篇：长期主义增长曲线瑞莱智慧的走出清华给AI产

标准网

标准网是免费的标准分享、下载网站，致力于中国各行业的标准化建设。所有标准文本全部免费下载，无需注册。国家标准，企业标准，行业标准，工程建设标准，地方标准，IEC标准，ISO标准。

下载资源 2024-09-15 02:05:02

间采通一站式企业服务采购平台

间采通隶属于采林科技（北京）有限公司，是专注于企业服务类采购的综合平台，服务品类涉及市场营销、IT相关、行政后勤、设施建设、专业服务、设备及MRO、仓储物流。间采通由100多名世界500强及大型上市公司专业采购人士发起组建，拥有大量优质客户资源。通过间采通可以帮您解决销售痛点、缩短工作流程、提高工作效能、易得客源赚取更多利润。可以与2000多名外企或大型上市企业采购高管在线交流，了解客户的真正需求和对各服务品类的关注点，同时也可以在线与客户沟通项目内容，便于快速了解客户的真正需求。

下载资源 2024-08-18 00:07:28

大牛游戏

大牛游戏是权力的游戏平台,大牛说游戏解说带你感受游戏开发大牛的魅力,大牛游戏盒子让你畅玩游戏王大牛鬼等十大牛牛游戏,淘宝的大牛游戏带你进入大牛游戏的世界。

游戏网游 2024-08-18 00:28:34

单机游戏

单机游戏网为玩家提供最新的游戏新闻、攻略、单机游戏资源、汉化资源、游戏补丁、游戏论坛等，经过多年努力已成为游戏玩家首要选择的游戏资讯、游戏资源网站。

游戏网游 2024-08-18 00:49:22

领捷软件集团官网

领捷软件集团位于广东省东莞、广州、深圳等多家分公司。中国软件协会会员单位、广东省软件协会会员单位，立足于制造业行业30年。专业、专职、专注于制造业的信息化建立，公司一直秉承使命：为制造企业定制、提升管理标准、管理平台。

手机软件 2024-07-11 13:45:19

oiyoo

oiyoo-优印（上海）信息科技有限公司

行业信息 2024-08-18 01:24:16

长江云

长江云是湖北广播电视台打造的湖北广播电视台官方门户APP，湖北广电APP汇聚平台，湖北广电媒体融合基础和功能性产品，是湖北官方政务信息汇聚平台。

新闻资讯 2024-08-18 15:19:09

传奇sf发布网

传奇sf发布网(传奇私服发布网)提供的新开传奇sf是用户首选的传奇私服网,专注于发布刚开今天新开传奇网站信息,海量传奇私服网站任你浏览.

网站模板 2024-12-04 19:27:19

电影家园

电影家园-全网最全电影下载站之一,又名电影天堂、电影1234，搜集最新电影、电视剧高清版供网友免费下载，所有存档永不删除，网友可轻松检索、搜索历史经典电影、电视剧

电影视频 2025-01-26 02:25:17

兰州威荣科技有限公司

计算机系统是现代科技的核心，广泛应用于各个领域，从日常生活中的智能手机到复杂的数据中心和超级计算机。了解计算机系统的基本结构和功能，对于深入掌握计算机科学和技术至关重要。本文将从计算机系统的基本概念、组成结构、操作系统的作用及其发展趋势等方面进行详细探讨。

网络应用 2025-02-14 17:49:42

广东铭辉智能装备有限公司

广东铭辉智能装备有限公司专业制造直立式注塑机的合资企业，累计超过二十一周年注塑机的研发与制造经验。为相关行业提供先进、精密的注塑设备。电气及油压配件均采用日本及台湾产品，精心制造的铭辉机械，追求的是“安全、快速、稳定、耐用”，独特设计的零压慢速关模技术，保护人身安全与模具，品质、技术和服务位居同行业首位。

设计美化 2025-02-15 17:28:21

2022大型mmo游戏都有啥最火爆大型mmo手游有哪些 (2022大型设备阳性率要求)

大型mmo类型手游属于多人在线网络竞技，下面小编介绍一下2022大型mmo游戏都有啥，它实现上百、上千玩家共同竞技，游戏拥有多种玩法，体验不同角色扮演、策略比拼、复杂剧情任务等，实现良好的社交互动，它还融合了门派、帮派等团体，实现组队战斗等，1、，幻塔，这是一款轻科幻角色扮演游戏，它呈现了开放世界，拥有很高自由度，体验刺激战斗和解谜互...。

2025-02-11 18:59:11

在追求极致真实与非凡刺激的道路上，3D模拟驾驶游戏凭借其无可挑剔的沉浸感，赢得了广大玩家的青睐，小编给大家盘点几款3d模拟驾驶游戏手机版，旨在让大家在游戏里精进驾驶技艺，领略多样赛道带来的驾驶欢愉，让大家在游戏中磨砺驾驶的本领，享受赛道独有的魅力，1、，3D越野飞车，令人兴奋的赛车游戏，玩家有机会驾驭各式各样的越野车，在错综复杂的赛道...。

2025-02-11 18:36:08

帮你各种修万能小哥支付宝万能上线 (帮你各种修万物的人)

今日，支付宝官微分享了一项便民实用功能——万能小哥，灯具电路维修、龙头管件维修、卫浴洁具维修、门窗家具维修、墙面地面维修、打孔管道疏通、家居建材安装、家电维修、开锁换锁……你不会没关系，打开支付宝搜索——万能小哥即可搞定，万能，的支付宝，如今真的越来越万能了，据了解，家里的水、电设施以及家庭装修出现问题不必再找，小广告，和，马路游击...。

2025-01-30 19:05:38

暂不具备上市条件字节跳动回应上市传闻目前无上市计划 (暂不具备上市的条件)

字节跳动正式回应了！字节跳动突如其来的回应，网友们对此表示，，挖了个大将你居然说现在不上了，，也有网友认为，字节不上市是一种更聪明的选择，称张一鸣是，明白人，字节跳动此前对传闻并没有正面回应过，这次是字节跳动第一次正面回应上市事件，字节跳动上市传闻不断在2019年7月就开始有新闻爆料，，今日头条的母公司字节跳动预计将于2019年或...。

2024-12-03 16:32:22

notability怎样进行分类笔记 (notability)

notability怎样进行分类笔记，notability软件是非常好用的一款笔记软件，你可以在这轻松进行记笔记，你可以方便的记录你的灵感，还可以对你的笔记进行分类归档，那么应该怎么分类呢，还不清楚的用户就一起来看看吧！...。

2024-12-01 23:45:55

今晚8点 (今晚8点乒乓决赛直播)

最新一期sigma报告，数据驱动下的保险业，准备好迎接新领域，Data，driveninsurance，Readyforthenextfrontier，中表示，数据驱动型模式的发展，将影响了整个保险价值链，作为一种由大量条款文本承载商业价值的服务，数据对于保险行业营销、承保、核保、核赔等多个业务环节的精准化都有重要意义，而且像人...。

2024-11-30 16:43:45

奥图码EH412投影仪怎么样详细分析奥图码EH412质量如何 (奥图码EH460st参数)

发表在奥图码投影机2022，11，3009，50奥图码EH412是新上市家用投影设备，虽然没有内置系统，但是在画质等方面有出色的表现，具体奥图码EH412投影仪怎么样呢，下面就通过详细的参数配置来了解一下，看看奥图码EH412投影仪的质量究竟如何，奥图码EH412投影仪怎么样，1.光学参数奥图码EH412采用的是DLP显示技术，整体画...。

2024-11-28 20:04:34

多啦A梦回归哈喜动漫家居将掀热潮！ (哆啦a梦回归)

机器猫和大雄回来了！，哆啦A梦，时隔8年再出新刊！日本小学馆出版社宣布，将在已故作者藤子?F?不二雄生日即12月1日发行，哆啦A梦，新刊漫画，这是该作继2006年后再度发行新刊，新刊将收录以前出版的，哆啦A梦，漫画集未收录的21部作品，大雄、小静，你们还好吗，浙江哈喜创意家居有限公司，简称哈喜国际，，由喜临门正式牵手哆啦A梦、Hell...。

2024-11-23 00:16:45

玩把大的俄媒遏华白费无功后美国选择

俄罗斯，信息报，网站9月25日宣布题为，稀土反抗，的文章，作者是俄罗斯迷信院中国与现代亚洲钻研所初级钻研员叶卡捷琳娜·扎克利亚兹明斯卡娅，全文摘编如下，美国正在拼凑联盟，以削弱中国在稀土元素开采方面的主导位置，如今，以美国为首的西方国度正联手允许开采关键矿物的名目——它们是开展高科技产业无法或缺的，对17种稀土元素的争夺正在开展，假设...。

2024-11-13 08:19:30

完成汽车是什么品牌 (完成汽车营销活动的计划制定与活动实施)

完成汽车是一家中国的汽车品牌，于2008年成立，总部位于山西，作为山西太行完成汽车开售有限公司的子公司，该个人以汽车制作业为外围，同时涉足通用航空业和动力产业，构成了一个多元化的综合性企业，其重要消费皮卡和轻型车，并完成推出了如完成K1和完成V1等受欢迎的车型，在汽车制作实力方面，该个人领有两家汽车制作厂和一家发起机制作厂，早在200...。

2024-07-07 15:07:19

2010捷达怎样样 (2010捷达前卫排放是国几标准)

2010捷达是出口公众捷达系列中的一款车型，它以杰出的性价比而遭到许多车友的青眼，这款车只管外观繁复，但它的外在性能却令人印象深入，1.外观优雅2010捷达的外观设计优雅大气，全车驳回曲线流利的设计，搭配粗劣的灯光系统，使车辆看上去愈加时兴好看，它驳回前单桥带式独立悬架，后多连杆非独立悬架，协助车辆在路上愈加稳固，同时也能让车辆有更好...。

2024-07-07 06:13:23

although是什么意思 (although和though的区别)

Although的意思是，虽然，、，虽然，具体解释，1.，Although，的基本含意，Although，是一个罕用的连词，用于疏导退让状语从句，示意对比或转机相关，其关键作用是标明前面所述的状况虽然与前面所形容的状况有所抵触或不同，但两者在逻辑上存在必定的关联，2.，Although，的用法在句子中，，Although，理论位于句...。

2024-06-30 23:31:08

文章推荐

人气较高的二战卡牌游戏top5 流行的二战卡牌游戏分享2024 (人气较高的二字网名)

本期带来流行的二战卡牌游戏分享2024，如今的和平时代里，很多人都想要寻找到一些刺激，而二战卡牌游戏就绝对符合你的胃口，它以深度策略性的战斗玩法、尽善尽美还原二战史实及场景等，促进着玩家们上线，小编要带来的五款二战卡牌游戏，定然是你不容错过的，往下看便知，1、，钢铁命令将军的荣耀3，这款游戏促使你能和世界上所有爱好二战的人齐聚一堂，你...。

2025-02-11 17:15:31

资讯动态

阿里云可免费商用开源通义千问 (阿里云免费服务)

阿里云成为国内首个加入大模型开源行列的大型科技企业，就在昨天，阿里云公开表态，把自家的通义千问大模型开源，可以说阿里云没有藏着掖着，而是真正掏出了家底，只为推动国内大模型生态的发展，这一举措，将有助于推动人工智能技术的普及和发展，加速人工智能技术在各行各业的真正的落地应用，阿里云此次开源大模型，使得更多中小企业能够参与到中国大模型生态...。

2025-02-01 18:53:30

资讯动态

轻松应对高难度长文本序列这六大方法如何让 Transformer (轻松应对高难度的工作)

众所周知，多头注意力机制，Multi，HeadSelf，Attention，的计算开销很大，在处理长度为n的序列时，其O，n²，的时间复杂度会使得原始的Transformer模型难以处理长文本序列，在过去的两年里，已经出现了多种有效的方法来应对多头注意力机制的复杂度问题，本文将重点讨论在模型规模方面很有发展前景的方法，一、密集型多头注...。

2024-12-09 14:00:24

资讯动态

国家医保服务平台能缴费吗 (国家医保服务平台)

能缴费，国家医保服务枣脊平台是由国家医疗保障局开发的官方医疗保障服务平台，用户可以在该平台上查闷告询个人医保账户信息、办理医保业务、缴纳医保费用等蚂岩明，国家医保服务平台app是真的吗是真的，国家医保服务平台app由国家医疗保障局开发，是国家统一的医保服务平台，为百姓提供参锋拦保缴费、待遇申请、业务经办等多种实用功能服务；此外还提供医...。

2024-11-25 00:16:24

资讯动态

美97岁法官被劝退反而指控同僚违宪败诉后返岗宿愿渺茫美媒 (美国82岁法官)

[全球时报综合报道]就在美国总统拜登因，犯懵懂，而被，劝退，之时，美国最年长的法官保利娜·纽曼也堕入难堪境地，，从新上岗，宿愿渺茫，综合路透社、美国，华盛顿邮报，等媒体11日的报道，当初曾经97岁高龄的纽曼在2021年的一场心脏病之后产生了，清楚的心智消退，状况，不只断案效率大幅降落，就连自己电脑上的文件都找不到，即使如此她仍坚称身材...。

2024-07-13 15:02:15

技术教程

不要迷信可解释性 佐治亚理工学院发文 小心被误导 (不能迷信)

相关文章

文章推荐

不要迷信可解释性佐治亚理工学院发文小心被误导 (不能迷信)