从再到 Vision Action 万字漫谈三年跨域信息融合研究 Language 到 (从再到再到)

文章编号：43325 资讯动态 2024-12-09 人工智能

雷锋网 AI 科技评论按：本文作者为阿德莱德大学助理教授吴琦，他在为雷锋网 AI 科技评论投递的独家稿件中回顾了他从跨领域图像识别到Vision-to-Language 相关的研究思路，如今正将研究领域延伸到与 Action 相关的工作。雷锋网 AI 科技评论对文章做了不改动原意的编辑。

大家好，我叫吴琦，目前在阿德莱德大学担任讲师（助理教授）。2014 年博士毕业之后，有幸加入澳大利亚阿德莱德大学（University of Adelaide）开始为期 3 年的博士后工作。由于博士期间主要研究内容是跨领域图像识别，所以博士后期间，原本希望能够继续开展与跨领域相关方面的研究。但是，在与博士后期间的导师 Anton van den Hengel、沈春华教授讨论之后，决定跳出基于图像内部的跨领域研究，而展开图像与其他外部领域的跨领域研究。恰逢 2015 年 CVPR 有数篇 image captioning 的工作，其中最有名的当属 Andrej Karpathy 的 NeuralTak 和 google 的 Show and Tell，同时 2015 年的 MS COCO Image Captioning Challenge 也得到了大量的关注。所以当时就决定开始研究与 Vision-to-Language 相关的跨领域问题。后来也在这个问题上越走越深，近三年在 CVPR，AAAI，IJCAI，TPAMI 等顶级会议与期刊上，先后发表了 15 篇与 vision-language 相关的论文，近期我们又将这个问题延伸到了与 Action 相关的领域，开启了一个全新的方向。接下来我就介绍一下我的一些研究思路，工作，以及我对这个领域的一些想法。

我们 15 年第一个研究的问题是围绕 image captioning 展开的，当时这个方向的主流模型是基于 CNN-RNN 框架的，即输入一张图像，先用一个 pre-trained 的 CNN 去提取图像特征，然后，将这些 CNN 特征输入到 RNN，也就是递归神经网络当中去生成单词序列。这种模型表面上看起来非常吸引人，依赖于强大的深度神经网络，能够用 end-to-end 的方式学习到一个从图像到语言（vision2language）的直接对应关系，但忽略了一个重要的事实是，图像和语言之间，其实是存在鸿沟的。虽然我们用神经网络将图像空间和语言空间 embed 在同一个空间当中，但直觉上告诉我，这两个空间应该需要一个共同的 sub-space 作为桥梁来连接。于是我们想到了 attributes，一种图像和语言都拥有的特征。于是，基于上面提到的 CNN-RNN 结构，我们多加了一个 attributes prediction layer。当给定一张图像，我们先去预测图像当中的各种 attributes（我们的 attributes 定义是广义的，包括物体名称，属性，动作，形容词，副词，情绪等等），然后再将这些 attributes 代替之前的 CNN 图像特征（如图 1），输入到 RNN 当中，生成语句。