对偶学习的对称之美微软亚洲研究院秦涛 (对偶讲解)

雷锋网按：众所周知，大规模带标签的数据对于深度学习尤为重要。在以图像识别、机器翻译等为代表的任务中，深度神经网络通过大量带标签的数据进行训练。但这样的前提存在两个主要的局限性。首先是人工标记数据的成本很高；其次是大规模标记数据获取的难度较大。

为了解决这一问题，在 NIPS 2016 上，微软亚洲研究院提出了“一种新的机器学习范式”——对偶学习，利用任务互为对偶的特点从无标注的数据中进行学习。它的训练原理是怎样，具体有哪些应用前景，近期又有着怎样的进展？本期硬创公开课，雷锋网荣幸地邀请到微软亚洲研究院主管研究员秦涛博士，为我们讲述对偶学习的新进展。雷锋网做了不改动原意的整理与编辑，并邀请了秦涛博士核对确认，在此表示感谢。

嘉宾介绍

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

秦涛博士，微软亚洲研究院主管研究员，在国际会议和期刊上发表学术论文100余篇，曾/现任机器学习及人工智能方向多个国际大会领域主席或程序委员会成员，曾任多个国际学术研讨会联合主席。秦涛博士是中国科学技术大学兼职博士生导师，IEEE、ACM会员。他的团队的研究重点是深度学习和强化学习的算法设计、理论分析及在实际问题中的应用。

大家晚上好，很高兴能有这样一个机会和大家分享微软最近的一些研究成果。首先非常感谢雷锋网提供硬创公开课的平台，同时也感谢各位朋友这么晚还来参加这个线上活动。我今天报告的题目是对偶学习，主要想阐述的是人工智能的对称之美。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

先做一个简单的自我介绍，我叫秦涛，是微软亚洲研究院机器学习组的主管研究员。首先我将介绍下我们组所做的事情。

DRL团队介绍

我们组主攻方向是机器学习，有好几个小团队，涵盖了多个机器学习的方向。我们有一个团队侧重于分布式机器学习平台、架构及算法实现，我们做了很多开源的项目，包括微软认知工具包（原名： CNTK）及分布式计算平台 DMTK 等，这些项目都可以在 GitHub 上找到。

我们除了做平台外，另一个研究方向是机器学习算法，包括两个团队：

我们还有一个团队侧重于机器学习理论。我们始终认为，机器学习作为一个研究方向，不仅是算法和应用，也需要对学习的理论进行理解与认识。

具体到我带的深度学习与强化学习团队，主要课题如同 PPT 上所示的，有四个大方向。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

对偶学习 是非常重要的一个方向，也是我待会会重点介绍的内容。

第二个很重要的方向是 轻量级快速算法 。目前深度学习或强化学习的训练需要非常多的数据，非常长的训练时间及大量计算资源如GPU。我们设计了一些快速算法，能达到同样的精度或是相近的精度。

第三个方向是 自主学习 。我们意识到深度学习本身效果可以做得很好，但需要研究者或实践者具备一定的经验，知道如何调各种超参数，比如网络结构如何设计，每层多少节点，是否要用 residual connection/skip connection，卷积或 recurrent connection，包括优化过程中需不需要做各种各样的 SGD 算法，learning rate 怎么做 decay。这些对结果都会有很大影响。

当我们面临一个新的数据集时，可能我们需要花很多时间和代价才能得到一个好的模型。因为需要做很多超参数的 tuning.

我们自主学习的理念有点像在模仿自动驾驶，也就是说，能否通过学习的方式，来解决超参数的tuning问题？

此外，我们团队还会做深度学习与强化学习的 相关应用 ，主要涵盖三个方面，包括：

接下来我将进入今天的分享主题：对偶学习。

对偶学习

在介绍对偶学习之前，我想先介绍一下 AI 的发展。大家从很多媒体报道可以了解到，AI从 1956 年诞生以来至今已经 61 年，期间历经风雨包括两次高峰与两次低谷，到目前为止我们处于第三次的上升期，并且这一次的高峰可能还未到达。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

AI 在很多实际应用中取得了很好的成绩，特别是在很多具体的任务上打败了人类水平。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

因此我们可以说，现在正是 AI 的黄金时代。不仅仅因为它得到了政府的提倡和扶植，在学术圈是一个比较火的研究方向，更重要的是它在工业界的实际问题中取得了非常令人瞩目的成绩，比如：

虽然 AI （特别是以深度学习为代表）取得了非常大的成功，但它也面临着很多挑战。对于研究者而言，不仅要看它取得了哪些成绩，还要看它存在哪些问题，有哪些方向需要我们进行研究和推进。我们总结了当前 AI 或深度学习所面临的一些主要的挑战，也是我们组目前研究的方向。

AI 目前所面临的挑战

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

对偶学习的提出

对偶学习的提出，主要是为了应对第一个挑战，即大数据的问题。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

举些例子：

而目前，大量的人工标注数据存在几个问题：

首先是标注代价高；

其次是某些应用领域很难拿到数据，如癌症数据（需要与医院合作），而因为涉及个人隐私，病人可能不愿意共享数据。

我们可以估计一下机器翻译标注数据的代价。目前市场上请专家翻译，是按照每个词进行计费， 5-10 美分/词，那么我们按市场平均价 0.075 美元，一个句子平均 30 个词来算，如果我们需要翻译 1000 万句话，那么花费会达到 2250 万美金。

不过有人认为，其实这个成本也还能接受。但像微软这样的公司，通常提供的是几十种甚至上百种语言的互译。如果仅仅考虑 100 种语言的互译，数据标注可能就已经需要超过 1000 亿美元了。

因为标注数据的代价如此大，研究人员也提出了不同的解决方案来降低对标注数据的依赖。目前互联网非常发达，没有标注的数据量非常大，如何利用这些无标注的数据辅助机器学习呢？这些方法包括：

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

对偶学习：一种新的视角

我们采用一种新的视角来应对标注数据不足的问题，我们称其为人工智能的对称之美。其实大自然钟爱对称之美，例如生物构造（蝴蝶、人脸），人类也偏爱对称之美，比如泰姬陵、中国的故宫、太极。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

对称结构不仅存在于自然界，在 AI 的任务中也广泛存在。比如：

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

对偶学习的基本思想，实际上是一个新的学习范式，利用 AI 任务的对称属性（primal-dual）使其获得更有效的反馈/正则化 ，从而引导、加强学习过程（特别是在数据量少的情况下）。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

如何从零或非常少的训练数据中进行对偶学习？

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

这是我们发表在 NIPS 2016 的一个工作，主要是以机器翻译为目标。

以机器翻译为例，我们手头有两个智能体，一个只懂英文不懂中文，另一个反之。我们希望同时训练英翻中和中翻英的模型。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

首先，拿到一个无标注的英文句子，我们并不知道微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结的正确中文翻译。我们通过 primal model ；翻译成一个中文句子。

因为我们没有进行标注，因此无从判断句子微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结的正误。但懂中文的智能体可以判断作为一个中文句子，是否为一个通顺的、语法正确的句子。因此，懂中文的智能体可以给出一个 partial feedback，反馈句子的质量如何。

随后，我们通过对偶模型微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结，将中文句子再翻译为英文句子。懂英文的智能体收到这个句子后，它可以比较与的相似度。如果和的表现很好，那么与应该非常相近。如果反之，可能模型就需要改进。

这个过程实际上非常像强化学习的过程。在训练过程中，没有人告诉机器某个状态下正确的 action 是什么，只能通过「试错-反馈」的过程来反复尝试。

以围棋为例子，可能需要走上百步才能知道输赢，但通过最终的反馈，就能训练提高这个模型的优劣。对于我们机器翻译在微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结的状态下，我们无从知道正确的 action 是什么，因此只能通过已有的 policy 来 take action 得到，再用另一个 policy 得到 , 从而通过比较和获得反馈。这实际上也是一个不断试错的过程，而且像强化学习一样，是具有延迟的反馈，最开始采取第一个 action 微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结时，只能获得部分反馈，只有到流程结束，才能获得更有效的完整反馈，比如说和的相似性。

Policy Gradient

因此，像强化学习的一些算法，都可以直接用于训练更新模型微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结。我们的工作中用了一个叫策略梯度 policy gradient 的方法。它实际上是强化学习的一类方法。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

简单说来，它的基本思想是，当采取某个行动（action）获得了一个反馈/reward 后，如果反馈不错，那么我们会调整模型，使下一次采取同样行动的概率变大，如果反馈不好，那么我们就需要更新模型，降低我们采取同样行动的概率。在算法上的实际，我们会对 primal model 和 dual model 求梯度，如果反馈好，我们会把梯度加到模型上，增加这个 action 的概率；反之，我们会将梯度减去，减少这个 action 出现的概率。

举个简单例子，微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结为「Policy gradient methods are popular in reinforcement learning」，而得到的在语法上一看就有问题，从而我们发现和并不理想，因此希望更新和的参数，通过减去梯度，使不好 action 出现的概率变小。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

而在新的一轮迭代中，我们发现微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结和都不错，那么通过加上梯度，使得让好的 action 出现的概率变大。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

双语翻译

在英法翻译的实验上，双语标注的数据大概有 1200 万个句对，目前机器翻译最好的算法是基于深度神经网络（Neural Machine Translation），如果用 100% 的双语句对做训练，NMT 能达到 30 分的 BLEU score（满分为 100 分），如果只用 10% 的标注数据训练的话，NMT 的表现能达到 25 分；而在同样 10% 的数据下，采用对偶学习的思想进行训练，得分能达到 30 以上。也就是说，我们只用 10% 的双语数据就达到了 NMT 采用 100% 数据的准确度。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

前面我们估计过，1000 万双语标记的数据耗费大概为 2200 万美元，而如果只需要 10% 就能达到同样的效果，我们只需要花 200 万美元。有点夸张地说，我们可以节省 2000 万美元的标注费用，非常可观。这个实验结果表明，对偶学习利用无标注数据的效率还是非常高的。

语音处理、图像处理及问题生成

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

同样的思想也可以应用于语音处理中，primal task 指的是语音识别，而 dual task 则是语音合成，微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结是一个文本（句子），那么我们就能判断的语法是否正确，语言的模型得分如何，进而判断和的相似度。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

图像和文本之间的相互转换，问题回答与问题生成，也可以用同样的方式实现。我们有同事已经在这个领域做过一些尝试，也得到了很不错的结果。

image-to-image translation

这个工作我们发表在 NIPS 2016 上，有很多研究人员把对偶学习的思想推广应用到其它领域。比如这个叫「image-to-image translation」的任务，将两种不同的图像相互转换，比如将素描转换为一个照片（生成器 A），或是反过来，将照片转换为素描（生成器 B）。通过生成器 A 和生成器 B 的两次生成，我们希望原始素描与最后生成的素描越相似越好。或是反过来，通过生成器 B 和生成器 A 的先后两次生成，我们希望原始照片与最后生成的照片的重构误差越小越好。对偶学习和 GAN相结合，可以得到很好的结果。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

下图所示的是 Architecture label 的 photo translation 训练结果，第一列指的是原始 input 的 sketch(素描)，第二列就是真实图片的样子，第三列就是 DualGAN 得到的结果，而第四列则是只用 GAN 训练得到的结果，第五列则是 cGAN，是训练标注数据所得到的结果。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

第二行中，我们可以看到，中间 DualGAN 的结果比 GAN 及 cGAN 的结果都要好，比如第二行 GAN 的上半部分细节丢失得比较严重；而第三行中 DualGAN 生成的门相对比较清楚，而 GAN 和 cGAN 生成的门相对比较模糊。从实验结果的比对中我们可以看到，DualGAN 的效果相对要好不少。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

此外还有一个是从照片到素描（photo to sketch）的比对结果，同样地，第一列指的是原始 input 的 sketch(素描)，第二列是真实图像，后面三列分别是 DualGAN、GAN 和 cGAN 的训练结果。DualGAN 在细节上更加清楚，我们可以看到 GAN 甚至某些地方都变形了，而 cGAN 也有不少细节（特别是眼睛）不够清楚。

Face Attribute Manipulation

此外，我们还注意到另一个工作，它也是借鉴了对偶学习的思想，叫「Face Attribute Manipulation」，即图像处理方面的一些工作。比如说，有个人戴着墨镜，那么我们会希望「脑补」出对方摘下墨镜的样子。或是反过来，在淘宝上看到一个墨镜，想知道自己戴上墨镜会是什么样子。把墨镜从人脸上去掉或戴上，实际上也是一个互为对偶的任务。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

第一行是原始图片的样子，第二行则是结合 dual supervised learning 的方法来处理的结果；第三行则是不用对偶思想进行处理的结果。我们可以看出，第二行的结果比第三行的要好不少。从第一列及第五列可以看出，没有用对偶学习的话，不仅生成的图片比较模糊，脸也变形了。

从无标注数据进行对偶学习的基本思想是要能获得反馈、形成闭环（Closed loop 的反馈）。这种思想不仅仅是局限在互为对偶的两个任务，可以扩展到更多的任务上，比如翻译，我们可以在英文、中文、日文间进行转换，形成闭环，从无标注的数据进行学习；又比如语音、图像和文本三者的转换也可以形成闭环，进行对偶学习。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

目前为止，我们介绍了如何利用结构对称之美从无标注的数据进行对偶学习。需要指出的是，对称之美的价值不局限于此。我们来看看下面这个概率公式，我们可以想象其中微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结是中文，是英文，或是图片，是句子，联合概率可用不同的分解方式来实现，比如用 primal 的分解方式，即，同样地，对偶分解方式可以写成。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

利用这样一个互为对称的 AI 任务的概率关系，我们可以：

对偶学习如何增强监督学习？

下面我们首先来看看对称之美如何加强监督学习。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

机器翻译

我们还是以翻译为例，如果是有标注的数据，那么监督学习的训练过程相对简单。我们知道微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结是正确的翻译，因此，我们就希望更新模型，使出现的概率越大越好，也就是最大似然准则。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

同样地，对偶训练的过程也是迭代更新对偶模型微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结使，使条件概率最大化。在传统的监督学习中，两个任务的训练过程其实是分开的。我们知道，联合概率不论是用原模型计算还是用对偶模型计算，得到的值应该是一样的。但是如果是分开训练微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结和的话，不一定能保证联合概率相同。

为了解决这一问题，我们加入了「正则化」项，也就是微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结，将两个概率值的 gap 最小化。从而，我们实现了通过结构的对称性加强监督学习的过程，将两个互为对称的两个任务一起进行学习，我们把这个考虑的结构对称性的监督学习叫做对偶监督学习。对偶监督学习实际上要优化三个损失函数：最大化对数似然微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结，最大化对数似然，以及。第三项就是正则化像，即要求联合概率越接近越好。这与 SVM 的正则化像的区别在于，后者与模型有关，和数据无关，但对偶监督学习中讨论的正则化像还与数据相关。

基于对偶监督学习的方法，我们做了机器翻译的任务，包括英法、英中等翻译，我们的方法（Dual-SL）相比标准的神经机器翻译（NMT）效果还是要好不少，用BLEU来评价得分提高了 1-2 分。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

图像分类与生成

我们还将同样的思想应用到图像分类与图像生成上。这两个过程同样互为对称，但与机器翻译的主要不同点在于，这个过程存在着信息损失。比如将一张图分成一个类别，但一个类别如「猫」是一个很抽象的概念，可能对应很多不同猫的图片，也就是说从微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结至有信息损失。有人担心是否因为信息损失的问题，对偶学习就不管用了，实际上不然。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

我们在 CIFAR 上采用了 32 层的深度残差网络 ResNet 和 110 层的深度残差网络进行测试。单独训练图像分类时，32层的错误率是7.51；110 层的则是 6.43；而如果结合了对偶监督学习，错误率可以分别减少到 6.82 及 5.40。这个提高实际上非常显著，从 32 层到 110 层的效果提升也就是 1 个点左右，我们在 110 层的基础上加上对偶学习后，我们可以进一步将错误率降低一个点。目前这项工作已经被 ICML 2017 接受。

对偶学习如何增强推断？

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

就像我们前面讲的，不论是有标注的数据，还是无标注的数据，都是通过一种结构的对偶属性提高我们训练的过程，改进我们的模型，使我们的训练做得更好。除此之外，其实利用结构的对称之美还能提升我们推断及预测的过程。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

同样以机器翻译为例，如果我有了一个模型微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结（英翻中的模型）和模型（中翻英的模型）。如果有一个英文的句子，我们通过解码把能最大化的中文句子作为的翻译；同理，给定一个中文的句子微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结，我们把能最大化条件概率的英文句子作为的翻译。这就是机器学习中标准预测推断的做法。

前面我们讲到，联合概率微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结有两种计算方式，那么条件概率模型可以用正向模型来计算，也可以通过反向模型来计算，即。

因此我们提出了一个新的概念，叫对偶推断或对偶预测「dual inference」，在预测/推断过程中同时采用微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结和两个模型。原本机器学习标准的预测过程是：我要从预测出，直接用就可以了，但现在不同，我预测时，我希望生成能使两项最大化：和。

需要指出的是，对偶推断/预测不影响和的训练过程，这两个模型还可以按照原来的训练过程进行，我们只是改进了预测的过程。

我们在机器翻译、文本情感分类、图像分类上做了实验，结果如下面三张图所示，相对于传统的机器学习中的推断/预测方式，对偶推断对这些任务的准确度都有明显的提升（错误率明显降低）。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

对偶推断/预测这个工作也刚刚发表在国际人工智能大会上（IJCAI 2017）上，感兴趣的读者可以阅读我们的论文。

对偶学习：一种新的学习范式

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

对偶学习可以应用于很多方面，如无监督学习与半监督学习，但它的思想与传统思路有些不同。

与无监督/半监督学习对比：

首先在无监督学习里，无标注数据并没有反馈；半监督学习里会生成一些伪标签，但质量不能控制。这与对偶学习非常不同，我们会对无标注数据生成一个伪标签，进而通过对偶模型对这些伪标签给出质量反馈，因此我们能更有效地利用无标注数据，使得结果比以往的半监督/无监督学习要好。

与 co-training 对比：

其次，有人会认为这种方法与 co-training 很相似，但实际上 co-training 只是半监督学习的一种特殊方法，做了一些很强的假设，如数据的特征集由两个不相交的子集且每个子集的特征也足够强，且co-training只是针对一个任务进行学习。而对偶学习至少需要两个互为对称的任务，且对数据的特征没有假设。

与多任务学习对比：

对偶学习与多任务学习也有些不同。如多任务学习在邮件识别微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结中，废品邮件识别（到）与紧急邮件筛选（到），共享底层的表达，但上层的与是不同的。而对偶学习并不共享底层表达。

与迁移学习对比：

此外，对偶学习与迁移学习也有不一样的地方。迁移学习有一个主要任务，采用其它的任务辅助它。对偶学习的两个任务是共同提高的，不分主次。

因此，我们认为对偶学习是一种新的学习范式。

总结

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

对偶学习的工作有非常多的研究者共同参与，包括微软亚洲研究院的同事及实习生们。欢迎大家与我们交流讨论合作，一同推进对偶学习的研究。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

最后打一个广告。人工智能深度学习目前是非常火的研究领域，也面临着非常多的挑战，我们希望能有更多的朋友能加入这个方向的研究，共同推进人工智能的发展，创造未来。感兴趣的朋友特别是即将毕业的同学或者已经从事这方面工作的同学可以把简历发到这个邮箱 ml-recruit@microsoft.com。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

谢谢大家。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

1. 之前在知乎上看过秦老师关于对偶学习的回答，里面提到在解决大数据问题时，微软会将对偶学习应用到更多的领域中去，比如图像分类和生成。但图像的分类和生成，与机器互译的流程并不完全相同（即并不完全对称），您是如何理解这个问题的？

的确，过程看起来是对称的，实际上两者的信息保留度上相差很多。我们可以近似的认为，机器翻译从中文到英文是没有信息损失的，反之亦然。但像图像分类与图像生成存在信息损失，因此我们近期的工作「对偶监督学习」就希望将它应用于图像分类与图像生成中，这个工作可以参考我们ICML2017的论文。目前我们也正在研究如何利用对偶学习的思想针对图像分类和生成进行无标注学习。现在有一些初步的想法，但还没有一个成熟的结果。我们当前的结果表明，如果没有信息损失，那么可以采用对偶无监督学习。而不论是否有信息损失，都可以采用对偶监督学习。

2.对偶学习还有哪些可能的应用和方向？是否能谈谈研究院最近所做的一些进展？

我在前面的 PPT 也列举了一些应用，比如研究院的同事正在研究的方向，包括问题的生成与回答、语音合成与语音识别等。实际上，对偶学习的适用范围很广，研究和应用空间很大，感兴趣的朋友们可以和我们邮件联系。

3.在人工智能的学习过程中，如何看待大数据及小数据各自所起的作用？

简单讲来，如果我们有大量标注数据的话，自然我们会想办法充分利用，但如果没有大数据的话，小样本学习的重要一点在于如何利用 domain knowledge 或先验知识进行学习。包括对偶学习在某种程度上，需要利用两个任务的对称性，实际上这也是人类的一种先验知识，以加强学习。

4. 如何评价最近挺火的DiscoGAN/DualGAN跟对偶机器翻译之间的异同？

DualGAN 和对偶学习的思想非常类似，但他们的成果算是一个加强版，学习过程的反馈包括两部分，一个是重构误差，另一部分是判别器判断真假的反馈。

5.DualGAN连一小部分有监督数据都不需要，对偶机器翻译有可能也做到吗？

我们做了一些简单尝试，初步发现，如果完全不用标注数据，对偶机器翻译收敛会变得很慢，在资源比较有限的情况下，很难在几个月里达到一个好的结果。

我们组现在也在研究一个课题，即完全没有标注数据，是否能只通过一本英汉词典（先验知识）结合对偶学习思想进行学习。

6. actor critic是否也算有duel learning思想？对偶学习收敛性如何优化？

actor critic 有点像对偶模型，actor 负责 take action，而 critic 负责给这个 action 的好坏进行反馈，这样两者可以一起优化。但是 actor critic 不是利用了结构对称性，而是为了优化 actor 而构建一个 critic，因此我觉得 GANs 与它更相似。

优化也是我们现在对偶学习遇到的主要问题之一，也是深度学习算法普遍会遇到的一个问题。这是一个很复杂的过程，目前我们有一些经验，但通用性不强，因此也处于一个摸索过程。如果朋友们有什么想法，也欢迎一同讨论。

今天的直播就到这里结束。如果大家想看课程总结文章，可以关注雷锋网的公众号，里面有很多很好的内容，建议大家平时可以多关注。如果想看具体课程，可以回复「167」进入行业微信群讨论，也欢迎大家和我们交流，谢谢大家。

原创文章，未经授权禁止转载。详情见转载须知。

微软亚洲研究院秦涛：对偶学习的对称之美 | 雷锋网公开课总结

谷普下载提醒您

本文链接：http://www.gpxz.com/article/ed6ac60637b3e804edce.html

上一篇：清华大学获X清华大学获芯片领域重要突破

下一篇：当大模型升级速度变缓InfraAI创业还是一门

我秀网

我秀（woxiu）是一个人人在线视频娱乐直播平台，也是人气旺盛的美女在线直播互动社区，在这里人人可以玩直播，可以与美女网红主播在线视频、手机直播聊天交友！

电影视频 2024-03-24 00:22:23

暴走大乱逗h5

手机暴走大乱逗游戏,暴走大乱逗h5是一款暴走逗比风格的休闲动作类h5游戏在线玩，首款暴走逗逼风格游戏震撼来袭，不一样的打开方式，不一样的逗逼世界!独创诙谐画风，经典回合对战!激烈竞技逐杀，接受全服膜拜!前方高能，赶紧来战吧!;您可以免费在线玩。

游戏网游 2024-08-16 18:33:46

- 交通 - 交通运输网址大全--123网址之家

-交通-交通运输网址

网址导航 2024-07-18 15:53:45

北京设计院加盟

蓝院建筑规划设计公司主营北京设计院加盟,资质加盟,设计资质加盟,消防设计加盟,建筑设计院加盟,设计公司加盟,消防设计公司加盟,建筑设计资质加盟,设计加盟合作,消防设计合作,乙级设计院电话:13910867774

设计美化 2024-08-17 17:41:31

西安高端系统门窗厂家

陕西古思特门窗幕墙科技有限公司是一家集高端门窗幕墙设计、研发、生产、销售、售后服务为一体的专业无缝焊接系统门窗定制企业。公司推出无缝焊接平开门窗产品以来，始终以无缝焊接的创新技术，定位时尚、高端的门窗企业形象，塑造门窗全新品类“无缝焊接窗”，迅速成为高端系统门窗品牌的新风向，欢迎来电咨询：18161975809

设计美化 2024-08-17 23:32:15

首页

上海上尊机械制造有限公司

电影视频 2024-07-17 00:45:48

猪八戒网

找品质企业服务，就上猪八戒。猪八戒网可提供品牌设计、营销策划、网站建设、知识产权、工商财税等800+种品质服务。18年专业企业服务经验，300+线下服务网络，企业服务放心购，明码实价，不成功退款。

网络应用 2024-08-18 18:28:12

离合器片生产厂家

贝蒂蓝特汽车零部件有限公司(手机:15533777533石经理)专业生产各种卡车专用离合器片产品,欢迎来厂参观访问洽谈合作!

手机软件 2024-11-20 18:50:01

深圳市金诚服信息技术有限公司

行业信息 2024-11-30 15:25:38

风水大师许少锋:造风水,风水改运,风水调理,风水化解,风水气场修复创导者

中国风水大师许少锋是东南亚堪舆易玄学协会创会会长,美国东方大学教授,有华夏建筑风水第一人,金牌风水师之称。风水大师许少锋在传承传统堪舆术的精髓,又从现代风水学出发,致力于造风水,风水改运,风水调理,风水化解,风水气场修复升旺。

学校大学 2024-12-05 17:17:44

幫幫淘香港集運

【幫幫淘集運】擁有20年以上中港物流經驗，隨著電商發展市場需求，本公司於2022年成立幫幫淘集運，開拓發展優質現代化物流服務。

贸易批发 2025-01-29 23:57:39

深圳市富翔鑫胶业有限公司

深圳市富翔鑫胶业有限公司即现在的深圳市富翔鑫电子材料有限公司为同一家公司，是一家专业从事电子工业胶粘剂，室温RTV硅橡胶研发、生产、销售一体的高新技术企业；公司自2006年成立以来依托精湛的专业技术、高品质的产品和完善的服务系统回报客户；帮助客户解决生产制造、工业装配各种粘接固定、密封、绝缘、防水、防潮、抗震、散热、保护等问题，公司产品主要有RTV硅橡胶、导热硅脂、电子固定胶，UL黄胶、UL热熔胶条、厌氧胶、螺丝固定剂、UV胶、三防漆等产品；广泛用于电子电器，电源、安防、LED光电、仪器仪表、工艺品、机械设备，灯具、光伏等制造生产领域。公司多年以來，秉持诚恳、务实、创新的经营理念、兢兢业业。提供全系列高品質之接著剂．以应各界需求，进一步服务社会，携手共进发展．我们持“以質為本，以诚为上”的理念；以“信誉第一，用户至上”作为我们的服务宗旨；合理的价格，完善的售后服务立足于市場。產品质量穩定，信譽度好。欢迎新老客戶来电咨询！公司与多家工厂及和代理商建立了长期稳定的合作关系。公司产品价格合理，实力雄厚，重信用、守合同、保证产品质量，以多品种经营特色和薄利多销的原则，赢得了广大客户的信任。

商业服务 2025-03-05 17:12:38

今晚八点丨MIT大神用AI做出国内首款微生物创新药 (今晚八点半)

无论AI技术多么领先，无论团队实力多么强大，AI制药的真正价值最终还是体现在，谁可以更快拿出创新药分子，这是近期在首届生物计算大会，，笔者从投资人、学术专家、创业者中听到的最多看法，在资本和科研的热潮之下，我们近期已经听过太多AI新药研发的故事，根据2021年斯坦福AI指数报告中统计显示，过去一年，新药研发已成为人工智能领域获得投资...。

2024-12-09 15:33:34

全网最全对比评测！！！米家投影仪对比极米H2 (全网最全对比视频)

前言，说智能电视，就不能不提智能投影的地位，随便看看，做电视的几家品牌创新提升就是在做激光电视，而同为大屏，性价比更高的智能投影也越来越受到用户认可，作为家庭娱乐的第二块屏，智能投影在智慧家庭的大屏娱乐中比智能电视可能都更有潜力，智能投影不像智能电视那样过于同质化，但是想要选出自己心仪的也不容易，今天ZNDS评测君就拿市场上用户关注度...。

2024-11-28 23:14:07

Ultra区别极米RS10 Ultra和坚果N1S 全面对比分析哪款值得入手 (ultra区别)

发表在坚果投影仪2024，1，1016，38自坚果投影发布云台投影仪以来，如今其他投影品牌也陆续推出云台投影仪，其中极米投影在十周年发布会中更是发布旗舰投影极米RS10Ultra，具体极米RS10Ultra和坚果N1SUltra区别有哪些，下面通过详细的参数配置进行对比分析，看看极米RS10Ultra和坚果N1SUltra哪款更好，一...。

2024-11-28 20:30:37

投影和电视哪个比较适合家庭使用 (投影和电视哪个对眼睛影响小)

发表在专业问答2022，10，2418，00展示机型信息，品牌型号，当贝X3、索尼X80J系统版本，当贝OS2.0、当贝OS定制版投影仪比电视更适合家庭使用，因为投影仪可以提供更大尺的画面，且画面采用漫反射，相比电视更为护眼，并且万元级别以内的设备分辨率也能达到4K，保证了清晰度，而电视的优点是亮度高，色彩出色，但是对眼睛的刺激较大，...。

2024-11-28 15:00:55

时尚典雅芭乐兔选对童装让这个夏天怎么穿都对还是恬静活泼 (时尚d芭)

时间过得可真快，一不小心雪就化了，叶就绿了，天气也从冰冷变成了暖阳高照，火辣辣的夏天终于盛大登场，小朋友们被棉衣束缚了一冬的自由也终于到了盛放的季节，五颜六色的夏天，要穿成什么风格才能吸睛夺目呢，时尚还是典雅，恬静还是活泼，很抱歉，童年根本没有标准答案，只有选对童装，夏天才能怎么穿都是对的，01橘色格子套装兼具透气性与吸附性的面料，用...。

2024-11-16 16:40:05

王某某被除名！拒服兵役 (王某某被除名是哪一集)

7月10日，山东德州市武城县人民政府网站颁布，对于对王某某拒服兵役行为实施联结惩戒的通报，，概略如下，对于对王某某拒服兵役行为实施联结惩戒的通报王某某，男，大专毕业班生，武城县鲁权屯镇人，该青年被迫应征报名，经体魄审核、政治考核和役前教育合格后，于2024年3月，经武城县人民政府征兵办公室同意退伍，王某某退伍后，新兵训练时期自己屡次向...。

2024-07-13 01:40:10

巨蟹座男兽性情的具体剖析 (巨蟹座男兽性格怎么样)

巨蟹座男兽性情的具体剖析，有坚强意志力和耐力，坚韧不拔、节省浪费、残酷、热心、心情化、自大，1、有坚强意志力和耐力，坚韧不拔不能说无坚不摧，但目前还是坚强的活着，偶然受伤就会躲起来疗伤，疗好了就又武装起来了，无论自身沦落到怎么的境况都可以圆的花乱坠，只管总是失望多于失望，却可以从仅剩的残酷天性让周围人感遭到巨蟹座男生的单纯，2、节省浪...。

2024-07-09 22:27:06

2月4日是什么情人节 (2月4日是什么节)

2月4日是什么情人节2月4日是什么情人节，置信每年的2月14情人节大家都不生疏，但实践上每年的每个月都有一个情人节，大家对这些情人节或许不太了解，那么2月4日是什么情人节呢！2月4日是什么情人节1一、2月4日是什么情人节2月4号不是情人节二、西方情人节是几月几号，西方情人节来源于基，督，教，是西方国度的传统节日之一，三、中国情人节是几...。

2024-07-09 17:50:43

最值得买的7款新车来了 (最值得买的7座二手车)

最值得买的7款新车来了第1款，五菱缤果缤果共推出4款车型，是一款轴距为2560mm的A0级小车，驳回五门四座设计，售价凑近10万元，外观设计照旧很可恶，内饰提供织物，仿皮座椅，允许主驾4向手调、副驾4向手调，搭载7英寸和10.25英寸液晶仪表，配合上中控大面积的镀铬饰条，看起来具有不错的动感科技气息，性能方面，提供定速巡航、EPS电动...。

2024-07-06 19:58:28

想知道拉土方的出口2手泥头车的多少钱油耗和修缮费用 (拉土方的工程上一般叫什么车)

国产车大故障没有小故障始终，出口的好点，就是硬件贵，油耗得20个左右，修缮费不分明，但知道我一个亲戚花了18W买了辆二手的，又花了2W审核培修为什么买红岩车的人少买红岩车的人少的要素是，1、市场需求少，红岩车车型是泥头车，市场关于泥头车需求量少，2、整车多少钱高昂，红岩车多少钱比个别车贵，高达百万一辆，3、培修老本高，红岩车的整机均为...。

2024-07-06 01:09:26

逆水寒岁月神偷探索攻略逆水寒61级探索岁月神偷流程攻略

逆水寒岁月神偷探索攻略。逆水寒牢狱风云支线任务难度很高，全做完需要几个小时时间。NPC难找，还要小心别杀了，否则要重来。这个攻略可以帮到你，告诉你箱子和雕像的答案，下面就一起来看看逆水寒61级探索岁月神偷流程攻略吧,逆水寒岁月神偷探索攻略逆水寒61级探索岁月神偷流程攻略

2023-08-11 17:06:06

百分浏览器-百分浏览器下载v5.0.1002.295官方版-

百分浏览器,百分浏览器是一款追求速度、简约和安全的网络浏览器，基于最新的Chromium开源内核进行优化开发，充分继承其高速安全的特性，并且在Chromium内核的基础上增加了一些常用的、便捷的功能,您可以免费下载。

2023-08-11 13:12:23

文章推荐

小孩爱玩的游戏推荐 2023七岁小孩玩的游戏有哪些 (小孩爱玩的游戏有哪些)

2023七岁小孩玩的游戏有哪些，七岁的小孩已经开始上小学了，这个年纪对于小孩的大脑发育来说十分重要，所以家长在选择游戏的时候需要谨慎对待，避免小孩玩了一些损害心智的游戏，在挑选游戏的时候，尽量选择可以益智的游戏，帮助小孩提升智力，那么七岁小孩玩的游戏有那些值得一玩的，下面推荐几款给大家，1、，儿童益智贪吃蛇，贪吃蛇这款游戏对于很多家长...。

2025-02-11 21:18:20

资讯动态

干货太多完全听不过来…… 预告常青藤名校嘉宾来了！一周4场学术公开课 (干货太多完全不能吃了)

学术青年分享会是雷锋网旗下垂直AI领域学术交流社群——AI研习社所发起的活动，AI研习社致力于建设全球领先的AI求知社区，基于专业直播平台，进行技术交流的公益传播和深度交流，分享会通过邀请学术界、工业界学者进行高质量内容分享，让广大学术青年了解最前沿的学术与行业技术进展，成为连接学术界与工业界之间的桥梁，雷锋网希望能够从中发现一大批优...。

2024-12-09 23:29:15

资讯动态

Findings EMNLP2021 基于自修正编码器的神经机器翻译字节火山翻译提出 (finding)

随着网络上各种信息的指数级增长，以及跨语言获取信息的需求不断增加，机器翻译逐渐成为网上冲浪?‍♀️时必不可少的工具，网页翻译让我们在Reddit等外国论坛里和网友谈笑风生；火山同传等智能字幕翻译系统让我们无需等待字幕组，直接观看，生肉，剧集；聊天翻译让我们建立跨国贸易，结交外国友人，然而，上面提到的场景往往有一个共同点，那就是被翻译的...。

2024-12-09 16:40:29

资讯动态

前阳萌投资 Uber员工要做中国版 Calm 获邵亦波 (前阳酒业有限公司)

作者，王起端编辑，二维马Heartlylab冥想的logo像一个眼睛、又像一个帐篷、一堆篝火、一个稳定的三角形，给人内心以稳定安宁的居所，篝火和帐篷透露出质朴、自然，简陋的气息，它是在告诉我们心是可以随处安放的，一据世界卫生组织，WHO，数据，全世界抑郁症患者数字已达3.5亿人，中国抑郁症患者人数超过9500万人，工作时间长，生活压力...。

2024-12-04 01:17:33

资讯动态

退回推行币 (退币是什么意思)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 15:34:15

销售技巧话术

对偶学习的对称之美微软亚洲研究院秦涛 (对偶讲解)

嘉宾介绍

DRL团队介绍

对偶学习

AI 目前所面临的挑战

对偶学习的提出

对偶学习：一种新的视角

如何从零或非常少的训练数据中进行对偶学习？

Policy Gradient

对偶学习如何增强监督学习？

对偶学习如何增强推断？

相关工作

Auto Encoder

对偶学习：一种新的学习范式

总结

相关文章

文章推荐

对偶学习的对称之美 微软亚洲研究院秦涛 (对偶讲解)

嘉宾介绍

DRL团队介绍

对偶学习

AI 目前所面临的挑战

对偶学习的提出

对偶学习：一种新的视角

如何从零或非常少的训练数据中进行对偶学习？

Policy Gradient

对偶学习如何增强监督学习？

对偶学习如何增强推断？

相关工作

Auto Encoder

对偶学习：一种新的学习范式

总结

相关文章

文章推荐

对偶学习的对称之美微软亚洲研究院秦涛 (对偶讲解)