2019 机器学习如何做好分布外异常检测论文提出了方法 NeurIPS 谷歌这篇 (2019机器人世界杯)

文章编号：46675 资讯动态 2024-12-10 分布外检测机器学习 ODD检测深度学习

雷锋网 AI 科技评论按：对于机器学习而言，区分异常数据或有显著差异数据至关重要。谷歌在NeurIPS 2019 论文中提出并发布了针对基因组序列 OOD 检测的现实基准数据集，进而提出一种基于似然比的解决方案，可显著提高 OOD 检测的准确性。AI 科技评论将谷歌对该方法的官方解读编译如下。

深度学习科学家要成功部署机器学习系统，需要系统能够区分出异常数据或与训练中使用的数据有显着差异的数据。

由于深度神经网络分类器可能会将以高置信度将分布外（ODD）的输入分类到分布内的类别中，因此区分异常数据或有显著差异数据是十分重要的。当我们利用这些预测为现实决策提供依据时，异常数据检测将尤为重要。

例如，将机器学习模型应用于基于基因组序列的细菌检测，就是一项具有挑战性的现实应用。细菌检测对于败血症等传染病的诊断和治疗，以及食源性病原体的鉴定都非常关键。

近些年来，随着新细菌种类不断被发现，虽然基于已知分类训练的神经网络分类器通过交叉验证达到了很高的测量准确性，但部署模型仍具有高的挑战性，因为现实数据在不断进化发展，并且将不可避免地包含以往训练数据中从未出现过的基因组（OOD 输入）。

机器学习如何做好分布外异常检测？谷歌这篇 2019 论文提出了方法

图1 近些年来，随着新的细菌种类逐渐地被发现。将已知的分类数据输入基于已知分类数据训练的分类器能够达到很高的准确性，这是因为输入的分类数据是已知的，但它可能将已知分类数据中混合了未知分类数据（如：ODD 数据）的输入进行错误的分类，并且具有很高的置信度。

在 NeurIPS 2019 发表的论文《分布外检测的似然比》（Likelihood Ratios for Out-of-Distribution Detection）中，谷歌受到上述新细菌种类检测这类现实问题的启发，提出并发布了针对基因组序列 OOD 检测的现实基准数据集。

他们利用基于基因组序列的生成模型测试了 OOD 检测的现有方法，发现似然值——即输入来自使用分布不均数据进行估算的分布数据的模型概率——通常是错误的。在最近的图像深度生成模型研究工作中，他们也观察到了这种现象，并通过统计背景影响来解释这种现象，进而提出一种基于似然比的解决方案，可以显著地提高 OOD 检测的准确性。

一、为什么密度模型无法应用于 OOD 检测？

为了模拟实际问题并系统地评估不同的方法，他们建立了一个新的细菌数据集，使用的数据来自美国国家生物技术信息中心（NCBI ）对外开放的原核生物目录基因组序列数据。

然后，他们基于分布内的基因组序列训练深度生成模型，通过绘制似然值曲线，检验模型辨别输入的分布内和分布外数据的能力。 OOD 序列似然值的直方图与分布内序列似然值高度重合，则表明生成模型无法区分在两个种类之间进行的 OOD 检测结果。

在图像深度生成模型的早期研究中（相关阅读参考：）也得到了类似的结论。例如，利用 Fashion-MNIST 数据集（由衣服和鞋类的图像组成）训练 PixelCNN ++ 模型，比来自 MNIST 数据集（包括数字0-9的图像）的 OOD 图像分配了更高的似然值。

机器学习如何做好分布外异常检测？谷歌这篇 2019 论文提出了方法

图2 左：分布内和分布外（OOD）基因组序列的似然值直方图。似然值未能分辨出分布内和OOD基因组序列。右：Fashion-MNIST 数据集训练模型、MNIST 数据集估计的似然值直方图。模型在OOD（MNIST）图像上比在分布内图像分配了更高的似然值。

在研究这种失败模型时，他们观察到背景统计可能影响了似然值的计算。为了更直观地理解该现象，假设输入由两个部分组成：（1）以背景统计为特征的背景成分，（2）以指定于分布内数据专用的模式为特征的语义成分。

例如，可以将 MNIST 图像建模为背景加语义。当人类解读图像时，可以轻松地忽略背景信息而主要关注语义信息，例如下图中的“ /”标记。但是当为图像中的所有像素计算似然值时，计算结果中同时包括了语义像素和背景像素。虽然他们只需使用语义的似然值进行决策，但原始的似然值结果中可能大多数都是背景成分。

机器学习如何做好分布外异常检测？谷歌这篇 2019 论文提出了方法

图3 左上：Fashion-MNIST 的示例图像。左下：MNIST 的示例图像。右：MNIST 图像中的背景和语义成分。

他们提出了一种去除背景影响并专注于语义成分的似然比方法。

首先，受遗传突变的启发，他们利用扰动输入方法训练背景模型，并通过随机选择输入值的位置，将其替换为另一个具有相等概率的值。为了成像，他们从从256个可能的像素值中随机选择输入值；针对DNA 序列，他们从四个可能的核苷酸（A，T，C或G）中选出输入值。此过程中，适量的扰动会破坏数据的语义结构，导致只能捕获到背景。

接着，他们计算完整模型与背景模型之间的似然比，去掉了背景成分，这样就只保留了语义的似然值。似然比是背景对比得分，即它抓住了语义与背景对比的意义。

为了定性评估似然值与似然比之间的差异，他们绘制了在 Fashion-MNIST 数据集和 MNIST 数据集中每个像素的似然值和似然比值，创建了与图像相同的尺寸的热图。

这使他们可以分别直观地看到哪些像素对于这两项值的贡献最大。从对数似然热图中可以看到，对于似然值而言，背景像素比语义像素的贡献更多。

事后看来这并不足为奇，这是由于背景像素主要由一连串零组成，因此很容易被模型学习。

MNIST 和 Fashion-MNIST 热图之间的比较则说明了为什么 MNIST 返回更高的似然值——仅仅是因为它包含了更多的背景像素！相反，似然比的结果更多地集中在语义像素上。

机器学习如何做好分布外异常检测？谷歌这篇 2019 论文提出了方法

图4 左：Fashion-MNIST 和 MNIST 数据集的对数似然热图。右：Fashion-MNIST 和 MNIST 数据集的似然比热图，具有更高值的像素会具有更浅的阴影。似然值主要由“背景”像素决定，而似然比则集中在“语义”像素上，因此更适合用于 OOD 检测。

这种似然比方法修正了背景影响。他们基于 Fashion-MNIST 训练 PixelCNN ++ 模型，然后在 MNIST 图像数据集进行 OOD 检测，实验结果得到了显著改善，AUROC 评分从 0.089 提高至 0.994 。

当他们将似然比方法应用于基因组基准数据集这一极具挑战的问题时，对比其它 12 种基线方法，该方法表现出了最佳性能。

不过他们也表示，尽管该似然比方法在基因组数据集上达到了最先进的性能，但离将模型部署到实际应用中的高准确性要求仍存在一定距离。他们鼓励研究人员努力去解决这一重要问题，并改善当前的最新技术。

via

原创文章，未经授权禁止转载。详情见转载须知。

机器学习如何做好分布外异常检测？谷歌这篇 2019 论文提出了方法

谷普下载提醒您

本文链接：http://www.gpxz.com/article/f7224502587596906480.html

上一篇：2019谷歌新智能体Dreamer将亮相NeurIPS数据

下一篇：NeurIPS获奖论文出炉微软华人学者Lin2019获

SIGEP

SIGEPChina深圳国际手工冰淇淋、烘焙及咖啡展览会，2023年落户深圳！是全球领先致力于甜品烘焙和咖啡餐饮业的B2B展会，被誉为欧洲最大的烘焙咖啡行业盛会！是整个行业创新的参考点，提供了所有新市场发展的完整概览：烘焙、巧克力、西点、冰淇淋、咖啡板块相互连接.提供了一个360度的甜点和咖啡世界。

行业信息 2024-07-11 13:24:52

西安代理记账

联创财税-西安工商财税服务平台,专业代理公司注册、代理记账及税收筹划。采用团队对1服务模式,为中小企业提供优质的公司注册、西安代理记账报税、纳税筹划及西安公司注销等公司发展全周期服务。

商业服务 2024-08-18 13:55:25

XPS挤塑板厂家

【齐工保温】是河南省大型保温材料生产厂家，主营XPS挤塑板、挤塑聚苯板、岩棉板、EPS泡沫板等外墙保温材料，河南齐工XPS挤塑板厂家拥有先进的二氧化碳挤塑板生产线6条，是率先淘汰氟利昂发泡工艺的挤塑板厂家！

电影视频 2024-08-18 16:57:22

江阴外贸谷歌推广

江苏小度网络运营服务有限公司定位于全网数字营销专家，公司服务范畴有：google优化推广，外贸seo整站优化，谷歌推广竞价广告，词条创建，百度seo推广，内外贸网站建设，以及facebook推广，外贸代运营等服务。拥有专业海外推广团队及执创人员，十年以上专业内外贸推广经验，为您的网站量身定制打造高质量的流量及询盘。

网络应用 2024-11-17 04:42:15

千贝网

千贝网，是一个分享电商运营，跨境电商，互联网运营，网络营销等互联网方面知识的专业文章。

网络应用 2024-11-29 10:25:26

西乌珠穆沁旗党建网

中共西乌珠穆沁旗委员会组织部默认栏目

组织协会 2024-11-29 12:41:15

myhard备案

最干净的下载网站

下载资源 2024-11-29 16:15:41

商用厨房设备提供商

无锡利邦厨具有限公司，一直从事于商用厨房设备的设计、研发、生产、安装、维修等服务。在上海、杭州、南京、苏州等全国大中城市设立了分公司及分支机构，欢迎新老客户咨询。

设计美化 2024-12-05 23:03:52

云南GRC轻质隔墙板

龙泉源建材（13888831737）是一家生产销售批发云南轻质隔墙板,昆明轻质隔墙板,云南GRC轻质隔墙板,昆明厨房排烟气道,昆明卫生间排气道,云南卫生间排气道,云南水泥烟道昆明GRC轻质隔墙板,多孔隔墙板的昆明轻质隔墙厂家.我们有良好的售后服务体系,欢迎各位新老客户前来咨询了解！

商业服务 2024-12-21 23:44:13

广东库斯家居科技有限公司

广东库斯家居科技有限公司成立于二零一二年，集沙发、软床、床垫、五金家具设计、研发、制造、销售于一体的现代化大型企业;公司拥有40000平方米的办公、研发、生产基地，6000平方米库斯总部大厦产品展示中心。

设计美化 2025-02-01 14:37:42

TFT工业液晶屏

杭州立煌科技是国内TFT工业液晶屏供应商，为各行业供应友达、京瓷、京东方、群创、天马、龙腾等品牌TFT工业液晶屏，提供0.96-55寸之间不同规格参数的TFT工业液晶屏产品，配套液晶屏驱动板、触摸屏、线材等一整套工业液晶屏解决方案。联系电话：19157671329

企业品牌 2025-02-16 21:32:57

山西太原台历印刷厂,挂历印刷,台历定做,挂历批发,台历印刷,挂历厂家

太原品味阁台历挂历印刷厂家20年专业企业台历印刷、挂历印刷、撕历印刷、周历印刷、吊牌印刷、对联印刷,台历挂历印刷价格一直是太原印刷厂家中较优惠，是太原地区知名的台历挂历厂家

企业品牌 2025-03-04 16:05:27

B端扩展处于拜师学艺阶段大华股份前三季度软件维持高增长 (扩展端什么意思)

近日，大华股份举行了投资者问答会议，第三季度实现营收79.8亿元，同比增长26.11%，实现归母净利润7.56亿元，同比下降48.09%，主要受去年同期芯片业务剥离，产生投资收益9.62亿元，剔除此影响实际增速53.01%，实现扣非归母净利润6.98亿元，同比增长56.5%，大华前三季度实现整体毛利率40.57%，同比20年下降4.4...。

2024-12-09 14:35:34

是根本不把它当AI项目来看光速中国韩彦我们看AI项目的方法 (根本就不)

随着人工智能风口渐起，资本也开始对这个领域越发重视，无论是之前的互联网、智能硬件的创业潮还是今天的人工智能领域，资本对于创业者们的支持与影响都十分重要，今年7月7日，由中国计算机学会，CCF，主办，雷锋网与香港中文大学，深圳，承办的第二届CCF，GAIR2017全球人工智能与机器人峰会召开，在7月8日下午的AI，创投专场上，光速中国基...。

2024-12-03 21:28:51

华为陶景文数字化转型的思考与新实践 (华为陶景文数字化转型课程)

雷锋网按，数字化浪潮下，过去关于企业要不要数字化转型的争论，到现在已经基本达成共识，企业家、CIO、相关业务主管已经认识到一定要用新兴技术帮助企业提升效率并进行更好的商业化运作，那么数字化转型要转什么，多年以来，华为在用自己的亲身实践践行着数字化转型的方案，华为董事、CIO陶景文在华为全联接大会2021上对这些问题进行了回答，雷锋网对...。

2024-12-03 17:09:28

极米投影仪屏幕倾斜怎么调整 (极米投影仪屏幕大小怎么调整)

发表在专业问答2024，10，915，59展示机型信息，品牌型号，极米RS10系统版本，GMUI6.0极米投影仪屏幕倾斜调整可以打开极米投影仪的手动梯形校正功能来调整，总共可以分为三步，下面为极米投影仪屏幕倾斜怎么调整的详细步骤做具体说明，极米投影仪屏幕倾斜怎么调整1.打开系统设置在极米投影仪主界面找到系统设置并点击打开；2.打开校正...。

2024-11-28 15:28:06

10月16的生日是什么星座 (十月16)

十月十六出世是天秤座，9月23日，10月23日，天秤座的人很有气质，谈吐应答得体，擅长与人沟通协调，是绝佳的谈判人才，属于诱人优雅派人物，只不过，思维易左右摇晃；谋求外表光鲜，易失去自我，主要词，合伙意味，天秤四象性，风主持宫位，第七宫阴阳性，阳性最大特色，权衡抉择主管星，金星色彩，褐色三方官，基本主持身材，胃脏珠宝，珊瑚、琥珀幸运号...。

2024-07-09 18:06:44

买火车票官方12306下载装置下载12360订票官方下载 (买火车票官方软件)

1、怎样下载购置火车票2、买火车票官方下载装置3、怎样装置手机购票怎样下载购置火车票要下载网购火车票买火车票官方下载装置，最好到官方下载，可以在网络上搜查官方买火车票官方下载装置，找到官方网址买火车票官方下载装置，提供下载是中国铁路，这样就可以安保下载了，实名注销注册后，就可以网购火车票了，要看分明购票须知等各种规定，买火车票官方下载...。

2024-07-09 01:46:20

索兰托2013款操作方法 (索兰托2013款参数)

首先是用钥匙发起汽车，普通钥匙有两档，关上电门直到仪表上的灯所有点亮，而后再拧一下钥匙，不要长，听见发起机进行了就要开放钥匙，而后用左脚踩下离合器，最左边的踏板，，用右手把拍档杆放入一档，普通是排挡杆微微靠左而后向前推就是一档，马上用右手放掉手刹，右脚轻踩油门，最左边的踏板，的同时缓缓抬起左脚，这个举措叫油离配合，要多练几次能力熟练，...。

2024-07-07 00:22:52

耶伦又说胡话了针对中国 (耶伦的讲话有多少是错的)

据彭博社报道，美国财政部长耶伦于美国外地期间6月20日，为拜登政府近期宣布的，对某些中国商品加征关税的选择，启动辩护，称此次对华新关税具备，高度策略性，耶伦还顺带批判称，美国共和党总统候选人特朗普的关税提议十分宽泛，会参与生产者的老本，耶伦再次宣称，拜登提出的新关税旨在包全美国电动汽车、太阳能产品和半导体产业免受中国适度投资形成的，...。

2024-07-04 22:55:18

挖掘鸡9.2全球修改版-挖掘鸡修改版下载v9.2绿色版

挖掘鸡是一款非常实用的漏洞检测工具。主要用于批量检测网站漏洞，后来被一些灰色行业作为另类应用，其原理是通过输入关键词，将搜索引擎中的网址进行批量扫描。对某些黑软或黑客的上传习惯(文件名、密码等)进行分析，针对性的进行扫描来大量获取现成的webshell，比

2023-11-15 17:57:53

如何进行C++代码的异常处理?-C++

如何进行C++代码的异常处理?引言：在编写C++代码时，异常处理是非常重要的一部分。异常处理机制可以帮助我们在程序运行时捕获和处理错误。在本文中，我们将讨论一些关于如何在C++中进行异常处理的重要概念和技巧。一、异常处理的基本概念异常处理是一种在程序运行时遇到错误时进行处理的机制。它可以帮助我们优雅地处理错误，避免程序的崩溃和终止。在C++中，异常处理是通过

2023-11-03 09:14:54

美团外卖饿了么外卖挂品牌

代理商城市挂品牌自配送代理商城市品牌建店折后扣点，不需要经理拜访直接上线美团外卖饿了么挂品牌，自配送服务费，不需要经理拜访直接上线

2023-08-18 12:12:12

360软件管家官方下载-360软件管家下载v7.5.0.1400官方最新版-

360软件管家,360软件管家是360安全卫士中提供的一个集软件下载、更新、卸载、优化于一体的工具。360软件管家支持软件升级、开机加速、正在运行进程检测。为用户提供着便利,您可以免费下载。

2023-08-11 17:16:52

文章推荐

因用户评论侵权卢松松收到法院传票索赔6000元 (因用户评论侵权的案例)

也许你见过图片版权官司、文字版权官司、字体版权官司，但可能你很少知道网站用户发评论还能吃版权官司，而这件事就发生在我身上，2020年8月4日，我正在吃午饭，突然收到了北京互联网的法院传票，开庭时间是8月26日，上图为我收到的邮政EMS快递，赫然写着，法院专递，收到这种快递一般都不是什么好事，我一摸，差不多有30页的起诉状，内容太多了，...。

2025-02-01 18:59:49

资讯动态

焚烧砸车成战场！法国出租车反Uber专车引暴动 (烧车焚尸案)

不仅仅在中国，UBER专车引发的出租车市场变革正在全世界范围内产生影响，面对Uber专车服务的入侵，世界各地的出租车司机都有自己的担忧，而法国出租车司机面临的情况似乎更为严峻，他们的反应也是全世界最激烈的，据，彭博社，报道，当地时间6月25日，巴黎出租车司机封锁了通往戴高乐和奥利机场的道路，以此向Uber乘车服务抗议，由于UberPo...。

2025-01-31 03:41:30

网络百科

数坤科技成CCR2023全场顶流赋能基层引领前沿 (数坤科技cto)

11月17日至19日，中华医学会第30次全国放射学学术大会，CCR2023，在苏州国际博览中心隆重召开，大会期间，数坤科技带来了全疾病多模态数字医生解决方案，重点展示了在CT、MR、X，ray、手术规划、科创平台等领域的多款创新AI产品和解决方案，成为了与会专家的关注焦点，此外，数坤科技还携手北京协和医院在大会上共同启动了CMR，AI...。

2024-12-03 20:08:08

资讯动态

苹果14promax怎样进行录屏 (苹果14pro价格)

苹果14promax怎样进行录屏，苹果14promax手机的录屏功能是很强大的，可以帮助大家记录各种详细的操作，那么对于刚使用苹果手机的新手来说还不知道怎么进行手机录屏，下面就一起来看看吧！...。

2024-12-02 20:28:41

技术教程

深度分析两款4k投影仪入手哪个极米rspro2跟皓4k哪个好 (深度分析两款产品区别)

发表在极米投影仪2021，4，2814，50极米rspro2跟皓4k哪个好，这两款投影仪都是4k画质，极米RSPro2是极米今年的新品，而极米皓4k是极米2.18年的产品，下面我们就来深度分析两款4k投影仪入手哪个，一、极米RSPro2和皓4K参数对比图二、极米RSPro2和皓4K对比区别1、投影参数极米RSPro2和皓4K的投影参数...。

2024-11-28 17:36:26

网络百科

2019 机器学习如何做好分布外异常检测 论文提出了方法 NeurIPS 谷歌这篇 (2019机器人世界杯)

一、为什么密度模型无法应用于 OOD 检测？

相关文章

文章推荐

2019 机器学习如何做好分布外异常检测论文提出了方法 NeurIPS 谷歌这篇 (2019机器人世界杯)