显著降低模型训练成本的主动增量学习 CVPR 2017精彩论文解读 (显著降低模型的方法)

雷锋网 AI 科技评论按:计算机视觉盛会 CVPR 2017已经结束了,雷锋网 AI 科技评论带来的多篇大会现场演讲及收录论文的报道相信也让读者们对今年的 CVPR 有了一些直观的感受。

相对于 CVPR 2017收录的共783篇论文,即便雷锋网 AI 科技评论近期挑选报道的获奖论文、业界大公司论文等等是具有一定特色和代表性的,也仍然只是沧海一粟,其余的收录论文中仍有很大的价值等待我们去挖掘,生物医学图像、3D视觉、运动追踪、场景理解、视频分析等方面都有许多新颖的研究成果。

所以我们继续邀请了宜远智能的刘凯博士对生物医学图像方面的多篇论文进行解读,延续之前最佳论文直播讲解活动,陆续为大家解读2篇的论文。

刘凯博士是宜远智能的总裁兼联合创始人,有着香港浸会大学的博士学位,曾任联想(香港)主管研究员、腾讯高级工程师。半个月前宜远智能的团队刚刚在阿里举办的天池 AI 医疗大赛上从全球2887支参赛队伍中脱颖而出取得了第二名的优异成绩。

在 8 月 1 日的直播分享中,刘凯博士为大家解读了「Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally」(用于生物医学图像分析的精细调节卷积神经网络:主动的,增量的)这篇论文,它主要解决了一个深度学习中的重要问题:如何使用尽可能少的标注数据来训练一个效果有潜力的分类器。以下为当天分享的内容总结。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

刘凯博士:大家好,我是深圳市宜远智能科技有限公司的首席科学家刘凯。今天我给大家介绍一下 CVPR 2017 关于医学图像处理的一篇比较有意思的文章,用的是 active Learning 和 incremental learning 的方法。

今天分享的主要内容是,首先介绍一下这篇文章的 motivation,就是他为什么要做这个工作;然后介绍一下他是怎么去做的,以及在两种数据集上的应用;最后做一下简单的总结,说一下它的特点以及还有哪些需要改进的地方。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

其实在机器学习,特别是深度学习方面,有一个很重要的前提是需要有足够量的标注数据。但是这种标注数据一般是需要人工去标注,有时候标注的成本还是挺高的,特别是在医学图像处理上面。因为医学图像处理需要一些 domain knowledge,就是说医生对这些病比较熟悉他才能标,我们一般人是很难标的。不像在自然图像上面,比如ImageNet上面的图片,就是一些人脸、场景还有实物,我们每个人都可以去标,这种成本低一点。医学图像的成本就会比较高,比如我右边举的例子,医学图像常见的两种方式就是X光和CT。X光其实一个人一般拍出来一张,标注成本大概在20到30块钱人民币一张;CT是横断面,拍完一个人大概有几百张图片,标注完的成本就会高一点,标注的时间也会比较长。

举个例子,比如标1000张,这个数据对 deep learning 来说数据量不算太大,X光需要2到3万人民币、3到4天才能标完;CT成本就会更长,而且时间成本也是一个很重要的问题。那要怎么解决深度学习在医学方面、特别是医学图像方面的这个难题呢?就要用尽量少的标注数据去训练一个 Promising 的分类器,就是说一个比较好的分类器。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

那我们就要考虑要多少训练数据才够训练一个 promising 的分类器呢?这里有个例子,比如左边这个图,这个模型的 performance 随着数据的增加是一个线性增长的过程,就是说数据越多,它的 performance 就越高。但在实际中,这种情况很少出现,一般情况下都是数据量达到一定程度,它的 performance就会达到一个瓶颈,就不会随着训练数据的增加而增加了。但是我们有时候想的是把这个临界点提前一点,让它发生在更小数据量的时候。比如右边这个图的红色虚线部分,用更小的数据达到了相同的 performance。这篇论文里就是介绍主动学习 active learning 的手段,找到一个小数据集达到大数据集一样的效果。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

怎么样通过 active learning 的方式降低刚才右图里的临界点呢?就是要主动学习那些比较难的、容易分错的、信息量大的样本,然后把这样的样本标记起来。因为这些是比较难分的,容易分的可能几个样本就训练出来了,难分的就需要大量的数据,模型才能学出来。所以模型要先去学这些难的。

怎么去定义这个“难”呢?就是 “难的”、“容易分错”、“信息量大” ,其实说的是一个意思。这个“信息量大”用两个指标去衡量,entropy大和diversity高。entropy就是信息学中的“熵”,diversity就是多样性。这个数据里的多样性就代表了模型学出来的东西具有比较高的泛化能力。举个例子, 对于二分类问题,如果预测值是在0.5附近,就说明entropy比较高 ,因为模型比较难分出来它是哪一类的,所以给了它一个0.5的概率。

用 active learning 去找那些比较难的样本去学习有这5个步骤

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

刚才的文字讲解可能不是很直观,我们用一个图来看一下。这个图从左到右看,一开始灰蒙蒙的意思是都还没有标注,然后用一个pre-trained model去预测一遍都是哪个类。这样每个数据上都有一个概率,可以根据这个概率去选择它是不是难分的那个数据,就得到了中间这个图,上面那一段是比较难的,然后我们把它标注出来。然后用一个 continuous fine-tune 的 CNN,就是在原来的模型上再做一次 fine-tune,因为有了一些标注数据了嘛,就可以继续 fine-tune了。fine-tune后的模型对未标注的数据又有了一个预测的值,再根据这些预测值与找哪些是难标的,把它们标上。然后把这些标注的数据和之前就标注好的数据一起,再做一次continuous fine-tune,就得到 CNN2了。然后依次类推,直到把所有的数据都标完了,或者是在没有标完的时候模型的效果就已经很好了,因为把其中难的数据都已经标完了。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

刚才提到了两个指标来判定一个数据是不是难分的数据。entropy比较直观,预测结果在0.5左右就认为它是比较难分的;但diversity这个值不是很好刻画,就通过> CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

这就会产生一个问题,原始的图像,比如左边这只小猫,经过平移、旋转、缩放等一些操作以后得到9张图,每张图都是它的变形。然后我们用CNN对这9张图求是一只猫的概率,可以看到上面三个图的概率比较低,就是判断不出来是一只猫,我们直观的去看,像老鼠、狗、兔子都有可能。本来这是一个简单的例子,很容易识别出来这是一只猫,但是增强了以后反而让模型不确定了。这种情况是需要避免的。

所以这种时候做一个 majority selection,就是一个少数服从多数的方式,因为多数都识别出来它是一只猫了。这就是看它的倾向性, 用里面的6个预测值为0.9的数据,上面三个预测值为0.1的就不作为增强后的结果了 。这样网络预测的大方向就是统一的了。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

这篇文章的创新点除了active learning之外,它在学习的时候也不是从batch开始,而是sequential learning。它在开始的时候效果就不会特别好,因为完全没有标注数据,它是从一个ImageNet数据库训练出的模型直接拿到medical的应用里来预测,效果应该不会太好。然后随着标注数据的增加,active learning的效果就会慢慢体现出来。这里是在每一次fine-tune的时候,都是在当前的模型基础上的进一步fine-tune,而不是都从原始的pre-train的model做fine-tune,这样就对上一次的模型参数有一点记忆性,是连续的学习。这种思路就跟学术上常见的sequntial learning和online learning是类似的。但是有一个缺点就是,fine-tune的参数不太好控制,有一些超参数,比如learning rate还有一些其它的,其实是需要随着模型的变化而变化的,而且比较容易一开始就掉入local minimal,因为一开始的时候标注数据不是很多,模型有可能学到一个不好的结果。那么这就是一个open的问题,可以从好几个方面去解决,不过解决方法这篇文章中并没有提。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

这个方法在机器学习方面是比较通用的,就是找那些难分的数据去做sequntial的fine-tune。这篇论文里主要是用在了医学图像上面,用两个例子实验了结果,一个是结肠镜的视频帧分类,看看有没有病变、瘤之类的。结论是只用了5%的样本就达到了最好的效果,因为其实因为是连续的视频帧,通常都是差不多的,前后的帧都是类似的,不需要每一帧都去标注。另一个例子也是类似的,肺栓塞检测,检测+分类的问题,只用1000个样本就可以做到用2200个随机样本一样的效果。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

这个作者我也了解一些,他是在 ASU 的PhD学生,然后现在在梅奥,美国一个非常著名的私立医院梅奥医院做实习,就跟需要做标注的医生打交道比较多。这相当于就是一个从现实需求得出来的一个研究课题。

总结下来,这篇文章有几个比较好的亮点。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

我今天分享的大概就是这些内容。其实这里还有一个 更详细的解释 ,最好还是把论文读一遍吧,这样才是最详细的。

Q:为什么开始的时候 active learning 没有比random selection好?

A:其实不一定,有时候是没有办法保证谁好。active learning在一开始的时候是没有标注数据的,相当于这时候它不知道哪些数据是hard的,在这个医学数据集上并没有受到过训练。这时候跟 random selection 就一样了,正在迁移原来 ImageNet 图像的学习效果。random selection 则有可能直接选出来 hard的那些结果,所以有可能比刚开始的active selecting要好一点,但这不是每次都是 random selection 好。就是不能保证到底是哪一个更好。

(完)

雷锋网 AI 科技评论整理。系列后续的论文解读分享也会进行总结整理,不过还是最希望大家参与我们的直播并提出问题。

中山大学金牌队伍分享获奖经验:如何玩转图像比赛

原创文章,未经授权禁止转载。详情见 转载须知 。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

全局中部横幅
作家报

作家报论坛:全国各地网络作家聚集的互动交流网站

增润黑麦草

增润黑麦草种植从事黑麦草种植,黑麦草种子繁育,黑麦草批发,黑麦草种子批发,增润草批发,有多年生黑麦草,一年生黑麦草种子批发,免费赠送黑麦草种植技术。增润黑麦草网有黑麦草资料,黑麦草图片,黑麦草价格,黑麦草种植技术等黑麦草信息查询。

链云

专业提供香港服务器租用,海外服务器租用,美国服务器租用,新加坡服务器租用,香港云主机,美国云主机,新加坡云主机

海淀区企业管理咨询

海淀区企业管理咨询由北京星颂企业管理有限公司提供服务。

干式变压器厂

山东科锐变压器有限公司欢迎咨询:137-0635-5630主营干式变压器厂,干式变压器厂家,scb11干式变压器,scb13干式变压器,scb10干式变压器,scb14干式变压器,scb18干式变压器等,价格合理,品质保障,欢迎您的选择.

浙江力达电器股份有限公司

浙江力达电器股份有限公司,创立于1987年,公司主营制造汽车及摩托车线束总成、连接器、端子、组合开关等,公司分三个基地,分别位于温州、上海、广州。

管道泵

上海正精给排水设备有限公司专业生产(供应)销售管道泵|管道离心泵系列产品,产品有ISW型不锈钢卧式管道泵,PBG型屏蔽式管道泵,YG型立式管道油泵,GDL型立式多级管道泵等型号可供选择,公司具有良好的市场信誉,专业的销售和技术服务团队,凭着经管道泵产品多年经验,熟悉并了解管道泵|管道离心泵市场行情,迎得了国内外厂商的一致好评,欢迎来电来涵洽谈交流!

新闻

天天资讯网给大家推荐财经、汽车、美食、体育、星座、科技、生活……等图文资讯信息让大家及时掌握图文资讯.

上金山宠物后事场

北京上金山,宠物后事场第一品牌。

潍坊东方银屑病研究院

潍坊银屑病医院哪家好?潍坊东方银屑病研究院附属潍坊银康医院(www.wfyxb.cn咨询电话:0536-3087125,微信:wfyxb120),建于1992年,由潍坊市卫生部门批准创办的潍坊治疗牛皮癣专科医院,是潍坊二级专科医院,山东省立医院联网医院,潍坊市慢性病医保定点医院.

全局底部横幅