ICML 2021杰出论文公布!上交大校友折桂 田渊栋rebuttal加分论文获荣誉提名 (ICML2025截稿时间)
原定于在奥地利维也纳召开的ICML 2021,受疫情影响已于近日在线上召开。根据官方消息,会议将在7月18日~7月24日内完成所有的日程。
在接收的一千多篇论文中,组委会最终挑出了四篇论文,分别颁发了 一个杰出论文奖,三个杰出论文提名奖 。
杰出论文奖由康奈尔大学博士生获得,他本科毕业于上海交通大学,研究领域是分布式优化和机器学习系统。获奖论文标题为“OpTimal Complexity in Decentralized Training”,探究了去中心化训练的极限以及如何达到这种极限。
如上三篇文章获得了杰出论文荣誉提名奖,其中论文"Understanding Self-Supervised Learning Dynamics without Contrastive Pairs"由Facebook科学家 田渊栋 担任一作,其提出了一种新方法DirectPred,它根据输入的统计数据直接设置线性预测器,而无需梯度训练。
据田渊栋学者在知乎发表的想法,我们可以得知,这篇论文原来获得过一个Weak Accept,经过他与评审rebuttal,将其改为了Accept, 这在某种程度上说明了好的rebuttal的重要性,也说明只要你有“理”,就别怕!
此外,发表在ICML 2011的论文“Bayesian Learning via Stochastic Gradient Langevin Dynamics”获得了时间检验奖,作者是来自加利福尼亚大学的 Max Welling (现在是高通荷兰公司技术副总裁)和伦敦大学学院的Yee Whye Teh(中文名字 郑宇怀 ,现在是牛津大学教授)。
值得一提的是,郑宇怀 1997年于加拿大滑铁卢大学获得计算机科学与数学学士学位,之后在多伦多大学师从Geoffery Hinton,并于2003年获得计算机博士学位。 他还是Hinton那篇划时代论文《A fast learning algorithm for deep belief nets》的署名作者之一。
杰出论文奖:去中心化训练的极限在哪里?
去中心化(Decentralization)是扩展并行机器学习系统的一种有效方法。本文提供了该方法在随机非凸环境下进行复杂迭代的下界。我们的下界表明,许多现有的分散训练算法(如D-PSGD)在已知收敛速度方面存在理论差距。通过构造并证明这个下界是合理的和可实现的,我们进一步提出了DeTAG,这是一种实用的gossip风格的去中心化算法,只需要一个对数间隔就可以达到下界。本文将DeTAG算法与其他分散算法在图像分类任务上进行了比较,结果表明,DeTAG算法比基线算法具有更快的收敛速度,特别是在非缓冲数据和稀疏网络中。
荣誉提名奖之一:离散分布的可伸缩抽样
机构:多伦多大学,谷歌大脑
本文针对离散概率模型,提出了一种通用的、可扩展的近似抽样策略。该方法利用似然函数对离散输入的梯度来更新Metropolis-Hastings采样。实验表明,这种方法在高难度设置中,要优于一般的采样器,例如伊辛模型,波特模型,受限玻尔兹曼机,隐马尔可夫模型。本文还展示了改进的采样器,用于训练基于高维离散图像数据的深层能量模型。这种方法优于变分自动编码器和现有的基于能量的模型。此外,本文提供的边界,表明该方法在更新局部的采样器类中是接近最优的。
荣誉提名奖之二:为什么非对比自监督学习效果好?
一般而言,对比自监督学习(SSL)通过最小化同一数据点(正对)的两个增强视图之间的距离和最大化不同数据点(负对)的视图来学习表征,而最近的非对比SSL(如BYOL和SimSiam)的研究表明,在没有负配对的情况下,使用额外的可学习预测器(learnable predictor)和停止梯度操作(stop-gradient operation),可以使模型性能更佳。一个基本的问题出现了:为什么这些方法没有引发崩溃的平凡的表征?
本文通过一个简单的理论研究回答了该问题,并提出了新的方法DirectPred,它不需要梯度训练,直接根据输入的统计信息来设置线性预测。在ImageNet上,它与更复杂的BatchNorm(两个线性层)预测器性能相当,在300个epoch的训练中比线性预测器高2.5%(在60个epoch中高5%)。DirectPred方法,来源于我们对简单线性网络中非对比SSL的非线性学习动力学的理论研究。这项研究提供了非对比SSL方法如何学习的概念性见解,如何避免表征崩溃,以及预测网络、停止梯度、指数移动平均数和权重衰减等因素如何发挥作用。此外,本文还提供了该方法在STL-10和ImageNet上的消融研究结果。
荣誉提名奖之三:倒向随机微分方程结合张量格式的回归型方法
机构:德国柏林自由大学,德国波茨坦大学等
高维偏微分方程的应用在经济、科学和工程等研究中普遍存在。然而,由于传统的基于网格的方法易受到维数灾难的影响,该方程在数值处理上面临着巨大的挑战。在本文中,我们认为,张量训练为抛物型偏微分方程提供了一个更合理的近似框架:将倒向随机微分方程和张量格式的回归型方法相结合,有望利用潜在的低秩结构,实现压缩和高效计算。
遵循这一范式,我们开发了新的迭代方案,包括显式和快速(或隐式和准确)的更新。实验证明,与最先进的基于神经网络的方法相比,我们的方法在精确度和计算效率之间取得了一个良好的折中。
时间检验奖:随机梯度朗格文动力学
机构(原):加利福尼亚大学、伦敦大学学院
本文中提出了一个新的框架,在small mini-batches中迭代学习的基础上,可以用于从大规模数据集中学习。通过在标准的随机梯度优化算法中加入适量的噪声,论文证明,当anneal the stepsize,迭代将收敛到真实后验分布的样本。这种优化和贝叶斯后验抽样之间的无缝过渡提供了一个内在的保护,防止过度拟合。此外,还提出了一种实用的后验统计蒙特卡罗估计方法,它可以监控 “抽样阈值”,并在超过该阈值后收集样本。最后,将该方法应用于三种模型:高斯混合模型、逻辑回归模型和自然梯度的ICA模型。
具体而言,本文提出了一种基于大规模数据集的贝叶斯学习方法。将随机优化似然的Robbins-Monro型算法与Langevin动态相结合,Langevin动态在参数更新中注入噪声,使得参数的轨迹收敛到完全后验分布,而不仅仅是最大后验分布。由此产生的算法开始类似于随机优化,然后自动过渡到使用Langevin动力学模拟后验样本的算法。
ICML 2021大会上,香港科技大学教授、大会程序主席张潼通过一则视频展示了今年的论文收录情况。
两个月前,ICML组委会为了保证AC/SAC 接收标准和论文质量,宣布将接收论文砍掉10%。今年共接受论文1184篇,接收率21.4%,为近五年来最低。
今年的录用论文涉及深度学习、算法、应用、强化学习、隐私、理论、概率方法和社会方面等8个研究方向。
其中,算法方面的论文一枝独秀,提交的论文数量占比31%,比第二名深度学习,数量高出近一倍。排名Top3的算法、深度学习、理论三大机器学习热门方向,占据了总接收论文的50%以上。相对冷门的隐私、概率方法、社会方面等也有20%的论文被接收。
哪个领域接受率最强?理论工作32%,强化学习27%,概率方法26%,社会角度24%,优化22%,算法19%,应用和深度学习只有18%。
一篇论文往往有好几位合著者,似乎论文接收率有相关关系。据统计数据,如果一篇论文有着大于9位的作者,那么它将有1/3的概率被接收,如果仅有1位作者,论文接受率不到1/10;另外,8位作者和4位作者,虽然在人数上相差一倍,但是接受率仅相差2%。
在所有的提交论文中,有1446篇论文包含3位作者,大于或等于9位作者的论文数只有104篇;此外,还有205位作者单独提交了论文,由2位作者合写的论文数有1005篇。
经过统计,今年的ICML 2021接收的论文中,如果标题中带有这么几个词,将会有较高的接收率:强化学习、噪音、规划、Bandits、蒙特卡洛、流、隐私.......
特约稿件,未经授权禁止转载。详情见 转载须知 。