视觉北大邹月娴 (北京大学视觉与图像研究中心)

文章编号：40955 资讯动态 2024-12-03 大规模预训练模型 2021 邹月娴中国计算机大会 CNCC

北大邹月娴：视觉-语言预训练模型演进及应用

整理 | 维克多

预训练模型在自然语言处理和计算机视觉领域引起了学术界和工业界的广泛关注。利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性，只需在小规模标注数据上进行微调，就可以在相应任务上有所提高。但相关研究的进展如何？还有哪些问题需要进一步探索？

2021年12月16日，北京大学深圳研究生院党委副书记、教授、博士生导师、北京大学现代信号与数据处理实验室主任 邹月娴 在中国计算机大会（CNCC 2021）“产业共话：大型预训练模型的商业应用及技术发展方向”论坛上，做了《视觉-语言预训练模型演进及应用》的报告，讨论了围绕大规模预训练模型的争议、最新进展以及研究思路，并给出了未来展望。

“‘视觉-语言’的子任务非常多，有各自的数据集，这使得解决NLP任务的进展非常快，但预训练模型方法在视觉领域却遇到了非常大的问题： MSCOCO数据集只标记了12万张图片，每张图片给出5个标记，总共花费了10.8W美金。”

“当前的几个主流VL-PTMs的技术路线很相似，都采用单一 Transformer架构建模视觉和文本输入；视觉输入为 Region-of- Interests (Rols) 或者 Patches，缺失全局或者其他高级视觉语义信息……”

而后者表明，主流视觉-语言预训练模型存在很多局限，导致在迁移至下游任务时，只适用于分类任务，而不适用生成任务。

以下是演讲全文，AI科技评论做了不改变原意的整理。

今天演讲的题目是《视觉-语言预训练模型演进及应用》，主要结合团队工作以及本人感悟探讨人工智能发展目前展现的趋势。本次演讲分为4个部分：背景介绍、视觉-语言预训练模型、视觉-语言预训练模型及应用研究以及未来展望。

北大邹月娴：视觉-语言预训练模型演进及应用

人工智能已经有六十多年的发展历程，自2017年以来，Transformer和BERT（2018年）相继提出，开启了大数据、预训练与迁移学习新篇章，将其定义为新时代也毫不夸张。目前，不同于前几十年的工作已成定论，该领域尚待进一步深入探索。

北大邹月娴：视觉-语言预训练模型演进及应用

以自然语言处理（NLP）为例，其演化过程如上图所示，openai在2018年发布第一代 GPT模型 ，短短几年时间“大模型”已经初具规模。这里的“大”有两层含义：模型训练使用的数据量大，模型蕴含的参数规模大。中国在这方面也有出色的工作，2021年的 悟道2.0 更是达到了万亿参数规模。

目前关于大规模预训练模型还有一些争议，主要的 争论点 在于：

1.超大模型学到了什么？如何验证？

2.如何从超大模型迁移“知识”，提升下游任务的性能？

3.更好的预训练任务设计、模型架构设计和训练方法？

4.选择单模态预训练模型还是多模态训练模型？

虽然有争议，但不得不承认 “暴力美学”确实有独到之处，例如 百度ERNIE3.0 曾经刷新了 50多个 NLP任务基准。要知道，在业界，无数学生、学者为一个SOTA就绞尽脑汁了，但大规模预训练模型却能批量“生产”SOTA。另一方面，50多个SOTA也说明，这不是偶然。

北大邹月娴：视觉-语言预训练模型演进及应用

目前学界已经公认AI的发展离不开借鉴人类大脑的研究成果，因此多模态预训练模型这条集成类脑机制和机器学习的路径，自然也成为关注的焦点。

但仍然有许多脑科学发现的机理未能弄清楚，例如多层抽象、注意力机制、多模态聚合机制、多模态代偿机制、多线索机制、协同机制等等。

人类约有的信息依靠视觉获得，剩余约的信息依靠听觉和触觉。关于人类智能，语言具备真正高阶的语义。例如，当说到“苹果”一词的时候，脑子 “浮现”的是一张“可以吃”的苹果图片；当说到 “苹果手机”的时候，大脑则会出现苹果牌手机的概念。

脑这种“视觉参与听觉感知”的机制、“视觉概念与语言概念一致性”的认知机制是我们机器学习采取多模态预训练模型的可靠性依据之一。

“视觉-语言模型”开发是否可行？中国人民大学的一项研究表明，互联网提供了的图文大数据，而文本数据只占了。在大量数据源的加持下，视觉-语言预训练模型也成了2021年的研究热点。

北大邹月娴：视觉-语言预训练模型演进及应用

，英文名称是“ Vision and Language，VL ”。 VL预训练模型旨在让机器处理涉及到“理解视觉内容和文本内容”的任务。VL任务可以分成VL生成任务和VL分类任务。

这两类任务解决的问题不一样，难度也不一样。对于VL生成任务，不仅需要对视觉信息进行理解，还需要生成相应的语言描述，既涉及编码，又涉及解码；而VL分类任务只需要理解信息。显然，生成任务的难度较大。

北大邹月娴：视觉-语言预训练模型演进及应用

生成任务的技术难点在于需要理解视觉的高阶语义，建立视觉-文本的语义关联。例如， 视频描述（Video Captioning） 任务需要“概括”视频内容， 图像描述（Image Captionin g）任务需要对每一帧图像生成描述。

目前， 视觉问答（VQA） 是热门的VL分类任务之一，可以理解为：给定一张图像，让模型回答任何形式的基于自然语言的问题。

北大邹月娴：视觉-语言预训练模型演进及应用

如上（左）图所示，如果你询问机器“What is she eating？”，VL分类器就会理解图片信息，然后给出正确的回答“hamburger”。

当前“视觉-语言”的子任务非常多，各有数据集，例如 VQA、VCR、NLVR2 等等。我们注意到，由于NLP任务有大数据集支持，其预训练模型技术发展迅猛。但对于视觉-语言任务，由于标注大规模数据集需要极高的成本，导致VL模型的性能提升缓慢。

以图像描述任务为例， MSCOCO数据集 只标记了 12万张 图片，每张图片给出 5个标记，总共花费了美金。因此，不同的VL任务依赖于不同的模型框架+不同的标注数据集，标注代价昂贵，性能尚未满足应用需求。

探索新的VL预训练代理任务，减少对数标注的依赖，是一个很有意义的研究方向。 2019年学术界开启了的研究工作。

北大邹月娴：视觉-语言预训练模型演进及应用

视觉-语言预训练模型的演进

北大邹月娴：视觉-语言预训练模型演进及应用

关于VL预训练模型，从2019年开始就出现了非常多的出色工作，例如“开山”的，2020年的以及2021年的。随着时间的推移，模型包含的数据量也越来越大，能力越来越“出众”。整体的技术路线可以分为两大类：

北大邹月娴：视觉-语言预训练模型演进及应用

是2020年由微软提出的，它用了4个代理任务训练模型，在4个下游任务进行了测试，获得了性能提升。上述研究都是采用预训练模型加 “微调”的研究范式。

北大邹月娴：视觉-语言预训练模型演进及应用

2021年OpenAI用双流框架开发了，CLIP的出现就技惊四座。其原理非常简单，分为编码和解码两个部分，编码器选用典型的Transformer。CLIP模型的惊艳之处在于，CLIP预训练模型直接能够拥有零样本学习（Zero-Shot Learning）能力， OpenAI在多个不同粒度的分类任务中测试发现，CLIP预训练模型具有良好的零样本迁移性能，能学到更通用的视觉表征。

视觉-语言预训练模型及应用研究

我们对上述主流VL预训练模型，从基础网络结构、视觉输入、文本输入、主流数据集、训练策略以及下游任务六个方面进行了分析。

北大邹月娴：视觉-语言预训练模型演进及应用

分析发现，主流的技术路线很相似：

1. 采用单一Transformer架构建模视觉和文本输入；

2. 视觉输入为 Region-of- Interests(Rols)或者 Patches，缺失全局或者其他高级视觉语义信息；

3.大多采用的代理任务是BLM（双向语言模型）、S2SLM（单向语言模型）、ISPR（图文匹配）、MOP（掩蔽物体预测）等等。

因此，已提出的视觉-语言预训练模型更适合迁移到下游分类任务，例如VQA。对于下游生成任务，例如图像描述，视觉-语言预训练模型并不适合。

北大邹月娴：视觉-语言预训练模型演进及应用

我们团队也开展了探索性研究，研究思路是堆叠 Transformer+自注意力机制 ，其中创新地提出自注意力模型区别地处理视觉模态和文本模态，即采用不同的QKV变换参数，分别对视觉和文本模态建模。

同时，引入视觉概念信息，缓解视觉语义鸿沟。经过验证发现，我们提出的基于注意力模态解耦的VL-PTM : DIMBERT(2020) ，可以同时适用于分类任务和生成任务。

相比当年（2020年）的最新SOTA, DIMBERT模型更小（隐形双塔），仅仅在 Conceptual Captions任务上进行预训练，具有数据量需求优势，在测试的下游任务都达到SOTA，在没有decoder的架构下，可以迁移至下游生成任务。

这项工作也给我们两点启示

1.从信息表征视角来看，视觉信息和文本信息需要不同的表达方法，毕竟文本拥有相对更加高阶的语义信息。

2.尽量引入人类高阶语义信息，人类对物体有非常明确的定义，苹果就是苹果，梨就是梨，因此定义物体属性，用语言信息缓解语义鸿沟非常有必要。

北大邹月娴：视觉-语言预训练模型演进及应用

2021年10月份，Facebook发布了相关工作，属于视频VL预训练模型。从这个模型可以看出，Video CLIP颇具野心，期待对于下游任务不需要任务相关训练数据集，不需要进行微调，直接基于Video CLIP进行零样本迁移。

具体而言，它基于对比学习结合Transformer框架，试图搭建视觉-文本联合预训练模型，期望能够关注更细粒度的结构。

对比学习框架结合训练数据样本的构造，其正样本的构造是视频段-匹配文本描述对。此外，通过对正样本进行近邻搜索，获得困难负样本，从而构建出视频-非匹配文本对。

该模型采用对比损失,学习匹配视频-文本对之间的细粒度相似性；通过对比学习方式拉近具有相似语义的视频-文本表征。这个工作从研究的创新性来看并不突出，但模型性能令人惊讶。

北大邹月娴：视觉-语言预训练模型演进及应用

我们认为，借鉴的研究思路，可以在更细粒度层面进行提升，我们提出了一个帧级别文本细粒度匹配方法。

实验结果表明，细粒度匹配能获得更加准确、具有完整的空间建模能力。我们在 ActivityNet数据集 上进行了视频检索的召回率测试，发现在所有下，我们提出的基于细粒度匹配策略的预训练模型性能都优于基于全局匹配策略的预训练模型；此外，我们发现，当获得同一性能，我们提出的基于细粒度匹配的模型其训练速度是基于全局匹配方法的四倍。

综上，预训练模型、跨模态预训练模型方面的研究是非常值得探索的，无论是模型结构、训练策略还是预训练任务的设计都尚有非常大的潜力。

未来，AI社区或许会探索更多的模态，例如多语言、运动、音频以及文字；更多的下游任务，例如视频描述、视频摘要；更多的迁移学习机制，例如参数迁移、提示学习、知识迁移等等。

北大邹月娴：视觉-语言预训练模型演进及应用

原创文章，未经授权禁止转载。详情见转载须知。

北大邹月娴：视觉-语言预训练模型演进及应用

谷普下载提醒您

本文链接：http://www.gpxz.com/article/4caf58f0f843af999cf2.html

上一篇：智能流体力学研究的进展西工大张伟伟教授智

下一篇：6位产学专家共话NLG从大模型竞赛到多模态应

心理测试

新浪星座是一个包含星座运势、星座时尚、情感故事、星座教程、心理测试题等内容的综合型星座频道。星座运势查询塔罗运势星座今日运星座每周运星座每月运2009年运势星座爱情运十二生肖2009年生肖运势星座速配星座魔法,占卜,风水,紫微,面相,手相,八卦,姓名,易经，血型，碟仙,笔仙,命理,命运,万年历,个人星盘鬼灵异等

星座灵异 2024-07-03 15:50:18

首页

为精英家庭2-15岁子女提供多元文化课程及特色主题课程的寄宿制国际化学校，让孩子成为有爱心、有社会责任感、有创造能力、有国际视野、有民族自信的新英才

历史文化 2024-07-04 18:06:58

多滋女性网

多滋女性网—为女性提供各类资讯和服务的垂直女性门户,以提供高品质内容，分享女性精彩生活为目标。

星座灵异 2024-08-17 19:55:21

北京保顶法律咨询服务有限公司

北京保顶法律咨询服务有限公司作为一家专业的法律咨询服务平台，隶属于巨中成名法网。我们不断创新，开拓进取，致力于为公众和企业提供优质可靠的法律咨询服务。

商业服务 2024-07-11 13:42:30

请填写标题

请填写网站自定义描述内容

网站模板 2024-11-21 21:26:44

好玩的网页游戏

我们好玩的网页游戏_1ddnc手游网_有趣的手机游戏_游戏攻略技巧，致力于为玩家提供全面、实用、好玩的游戏攻略和技巧，帮助玩家解决游戏中的难题，提升游戏技能。

游戏网游 2024-11-27 16:51:10

富春江审计集团

富春江审计集团是以涉税业务为核心的多元化专业服务机构，提供税务代理、会计审计、产评估等全方位服务。

商业服务 2024-12-03 22:08:21

TYJ交流散热风扇

深圳市统赢家科技有限公司是一家主营TYJ散热风扇、交流散热风扇、防水散热风扇、变频器散热风扇、充电桩散热风扇等产品的深圳散热风扇生产厂家，CCC认证散热风扇，UL认证散热风扇，如有需要，欢迎电话咨询：0755-82836718

管理咨询 2024-12-05 18:00:15

101计划实践平台

“101计划”实践平台是教育部“101计划”的核心课程实践资源共建共享平台，联合高校和产业力量，为计算概论、数据结构、算法设计与分析、离散数学、计算机系统导论、操作系统、计算机组成与系统结构、编译原理、计算机网络、数据库、软件工程、人工智能引论等12门核心课程开发配套实践内容与案例，将课程体系、教学内容、实践载体、增效手段融会贯通，构建“教师、学生、教材、课程、平台”五位一体的教育思想、课程建设、课堂提升、课程实践的教育教学新模式，持续推动核心课程、核心实践项目的建设和应用。

网络应用 2024-12-06 15:23:43

小游戏大全

小游戏大全包含连连看,连连看游戏,双人小游戏,赛尔号,洛克王国,三国杀,在线小游戏,斗地主,象棋,扫雷,麻将,h5,h5游戏,迷你世界,奥拉星,奥比岛,弹弹堂,单人游戏,逃跑吧少年,斗罗大陆,冒险王,召唤神龙,女生,休闲,动作,冒险,换装,敏捷,射击,益智,解密等最新小游戏。

游戏网游 2024-12-09 16:55:00

极致助手

极致助手是国内最大的苹果多开工具软件，免费提供应用多、应用分享、源码技术出售教学

网络应用 2025-01-29 23:38:33

网站建设中

网站模板 2025-02-15 22:24:34

超市加盟店要多少钱 2020年在长沙想开个超市需要多少钱 (超市加盟店要多少钱去哪家好)

超市作为方便大众消费者的服务配置，在每个城市都很常见，现在，超市门店越开越多，让很多人对其都产生了加盟的兴趣，那么，近日就有人前来询问超市加盟店要多少钱，2020年在长沙想开个超市需要多少钱，这就随着小编往下看吧，现有很多不同的超市品牌，要根据超市品牌、创业者的加盟需求、当时的加盟政策等因素，来确定加盟费用，总部人员会结合多方面的因素...。

2024-12-21 19:12:43

力量旷视......扒一扒冬奥会上的大华 AI 宇视商汤 (力量energy)

毫无疑问，2月份国内最火热的赛事莫过于北京冬奥会，人见人爱的冰墩墩，如美如画的开幕式，以及假期，霸榜，的谷爱凌选手......都给观众留下了深刻印象，这一精彩纷呈的赛事，背后离不开高新技术的支持，不论是场内外的安全防疫、观众引导和治安，还是场上捕捉精彩瞬间、赛事转播，以及现场8K观赛、线上VR观赛，背后都需要各类技术的融合支撑，随着冬...。

2024-12-03 18:23:06

5G商用第二年 5.5G也要来了 (5g第一个商用)

2020年正值5G商用第二年，也是5G规模建设的关键年，迄今为止，全球超过60家运营商已经部署了5G商用网络，还有超过320家运营商正在投资5G；到2023年，全球5G连接数预计将超过10亿，比在4G时代获得同样连接数快了整整两年；到2025年，全球5G连接数预计将达到28亿，目前，高通等多家手机芯片供应商已经提供了多种5G解决方案，...。

2024-12-01 00:48:18

多角度对比分析哪款好极米z6xpro和newz6x有什么区别 (多角度对比分析怎么写)

发表在极米投影仪2022，4，1311，21极米z6xpro是近期上市的新品投影仪，那么这款投影仪和前代newz6x对比有什么区别呢，下面就通过多角度对比分析两款投影仪的区别，看看哪款投影仪好一些，更值得用户入手，一、极米z6xpro和newz6x参数对比图二、极米z6xpro和newz6x有什么区别1.光学参数极米z6xpro和ne...。

2024-11-28 19:38:06

连锁加盟 (连锁加盟展会)

连锁加盟是指主导企业把自己开发的产品，服务的营业系统，包括商标，商号等企业形象，经营技术，营业场合和区域，，以营业合同的形式，授予加盟店的规定区域内的经销权或营业权，让加盟主可以用加盟总部的形象、品牌、声誉等，在商业的消费市场上，招揽消费者前往消费，而且加盟主在创业之前，加盟总部也会先将本身的技术等经验，教授给加盟主并且协助创业与经营...。

2024-11-27 17:55:18

中国超市有哪些秘鲁食品 (中国超市有哪些品牌名称)

中国日报网11月12日电，记者夏季，在中国超市里，记者发现了不少来自秘鲁的食品！秘鲁是最早同中国签订一揽子自在贸易协议的拉美国度，想一探超市里有哪些奥秘的秘鲁好食吗，戳视频，追随记者的镜头来揭秘！...。

2024-11-12 19:18:08

揭发即分期暴力催收 (即分期骗局)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 08:24:24

吉利豪情srv参数 (吉利豪情SRV配置详细介绍)

吉利豪情SRV是一款经典的家用轿车，其参数如下，吉利豪情SRV参数，*车型，紧凑型轿车*发起机，1.3L或1.5L人造吸气汽油发起机*最大功率，约63，78千瓦*最大扭矩，约110，141牛·米*变速器，手动或智能变速器*驱动模式，前置前驱*车身尺寸，长x宽x高，约4260x1680x1440毫米*轴距，约2460毫米*座位数，5座...。

2024-07-07 08:15:32

现代新款悦动多少钱? (现代新款悦动管柱涡齿怎么拆)

现代新款悦动须要7.99，11.59万，参数，1、外观方面依然是间断了韩系车一向的高颜值，团体觉得还是十分难看，驳回了全新家族式的设计格调，大尺寸的进气格栅加上镀铬条装璜显得十分有平面感，全体看起来愈加年轻时兴化，愈加合乎年轻生产者的审美观，内饰方面简洁时兴，中控台档次明显，驳回了当下比拟盛行的悬浮式中控屏，全体看起来十分有时兴感；2...。

2024-07-01 21:47:02

异光录屏下载-异光录屏v1.3.1官方免费版

异光录屏是一款功能全面，专业实用的优秀屏幕录制软件，为您提供实用的录制功能。软件能够让您在教育、演示、游戏录制

2023-11-05 06:59:43

青云科技与NVIDIA深度合作，共同推动AI初创公司成长-人工智能

NVIDIA主办、青云科技联合协办的“智在未来，算在雅云”暨NVIDIA初创企业展示2023·半程展示活动于10月19一20日在四川雅安举行。作为NVIDIAAI算力合作伙伴，青云科技受邀出席了本次活动，参观了作为成渝地区大数据产业基地的雅安大数据产业园，并以《新算力、新架构、新服务》为主题，介绍了青云AI算力产品与服务，分享了行业实践与经验。NVIDIA初创企业展示至今已举办了7届，为众多项目提供了相关资源支持，本次参展的20家重点企业，涵盖生成式人工智能、大语言模型、元宇宙等新兴和前沿领域。

2023-11-09 07:42:35

独家｜监管拟设立城中村改造专项借款|棚改|贷款|信贷

独家｜监管拟设立城中村改造专项借款,棚改,贷款,拆迁,信贷,城中村改造

2023-09-19 01:00:31

文章推荐

中国需要一大批超越BAT的大公司首届数字中国建设峰会上马云说 (中国需要一大批未来学家和战略学家)

4月22日，首届数字中国建设峰会今天在福州开幕，在主论坛环节，阿里巴巴董事局主席马云表示，中国需要一大批超越BAT的大公司，马云分别从，技术革命，大企业担当，和，数字经济法，三点给出了自己的见解，具体如下，第一，当前是这次技术革命的关键期，全社会要对互联网公司、互联网技术有更加深刻的认识，第一次工业革命欧洲抓住了机会，第二次是美国...。

2025-01-30 20:12:40

网络百科

努力就会成功 (努力就会成功的名言)

那一年，我加入了某知名公司的某知名部门，在办公室中，我看到了到处都挂着——，努力就会成功，的条幅，这个部门中大多数员工的邮件签名都会有，努力就会成功，，我感到一种热血沸腾的气氛，这是我在多年工作来都没有感受到的，当时挺高兴地能和这样一群人工作，也没多想，直到有一天，我看到这些高级的软件工程师们把自己关在又挤又吵的会议室中，拼命地加班，...。

2025-01-29 00:07:13

好文分享

新建材招商加盟加盟建材哪个项目好 (新建材招商加盟条件)

随着人们消费水平的不断提高，消费者对于家居环境的要求不断提高，人们会在装修房屋的过程中，对于许多建材的质量要求也让越来越高，符合现代家装审美的建材产品在市场上也逐渐走俏，那么，对于智慧之选者而言，新式建材招商加盟哪个项目好呢，现代市场上的五金是指五金工具、五金零部件、日用五金、建筑五金以及安防用品等，历史走进现代工业社会，金属五金制品...。

2024-12-21 17:28:04

创业加盟

扎根行业加速脱虚向实数实融合支持实体企业发展腾讯Q3财报 (扎根行业深耕行业)

11月10日，腾讯，0700.HK，发布2021年第三季度业绩报告，腾讯金融科技及企业服务业务收入同比增长30%至433亿元，财报提到，企业服务收入同比健康增长，是由于日益增加的传统产业的数字化及互联网行业的视频化趋势，据财报内容，腾讯企点已经服务了超过100万家企业，并愈来愈多地被大中型企业采用，腾讯企点为客户提供全天候多渠道的人工...。

2024-12-09 23:14:58

资讯动态

特色焖锅加盟哪家好 (特色焖锅加盟店)

烫菜都是适应季节的优佳美味，很多人都对这两种美味推崇备至，心向往之，这也令很多人在面对这两种美食的时候出现难以抉择的现象，特色焖锅的出现解决消费者选择恐惧症的既能品尝火锅的现象，也能品尝到烫菜的美味，满足了消费者多种需求，是以，特色焖锅人气剧增，有智慧之选价值，但特色焖锅品牌迭出，那么现在特色焖锅加盟哪家好，可随着小编一起来了解下，特...。

2024-12-02 20:54:43

创业加盟

视觉 北大邹月娴 (北京大学视觉与图像研究中心)

相关文章

文章推荐

视觉北大邹月娴 (北京大学视觉与图像研究中心)