2022 新型图数据增强方法 杰出论文 G ICML 莱斯大学胡侠团队 (2022新型材料合集)

文章编号:41866 资讯动态 2024-12-03 G图神经网络泛化性Mixup
莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

近日,备受关注的第十九届机器学习国际会议(ICML 2022)在美国马里兰州巴尔的摩市举办。自新冠疫情以来,大会首次恢复线下形式,采取线上线下结合的方式举办。



ICML2022概况

15 篇杰出论文奖和 1 项时间检验奖。 复旦大学、上海交通大学、厦门大学、莱斯大学等多个华人团队的工作被评位杰出论文奖。 ICML 2012 的一篇论文《Poisoning Attacks against Support Vector machines》获得了时间检验奖。

今年的杰出论文奖不同寻常,评选数量多达 15 篇。而同样是 21% 左右的接 篇杰出论文,去年则仅有1篇。

本文我们来关注一下今年获奖的一篇优秀工作。AI 科技评论此次采访到 获得杰出论文奖的莱斯大学胡侠团队, 为我们解读他们的研究工作。该团队的获奖论文题目为:

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

在这项研究中,作者提出了一种新的图数据增强方法: 提高图神经网络的泛化性和鲁棒性。

胡侠,现任美国莱斯大学终身副教授,数据科学中心主任,AIPOW联合创始人兼首席科学家。其主导开发的开源系统AutoKeras成为最常用的自动机器学习框架之一(超过8000次star及1000次fork),开发的NCF算法及系统(单篇论文他引3000余次)成为主流人工智能框架TensorFlow的官方推荐系统,主导开发的异常检测系统在通用、Trane、苹果等公司的产品中得到广泛应用,研究工作多次获得最佳论文(提名)奖。




获奖工作G-Mixup介绍

图数据在我们的现实生活中无处不在,我们可以使用图来建模和描述各种复杂网络系统。而为了将图数据应用于具体任务,我们首先需要对图数据进行表征。近年来,通过深度学习技术对图数据进行表示学习的图神经网络(GNNs),在节点分类任务上取得了最优性能,因而已被广泛用于图形分析。同时,数据增强(data augmentation)和 Subgraph(子图)也被用于图分析,它们通过生成合成图来创建更多训练数据,以提高图分类模型的泛化性能。

当前流行的数据增强方法 Mixup 通过在两个随机样本之间插入特征和标签,在提高神经网络的泛化性和鲁棒性方面显示出优越性。但是,Mixup 更适用于处理图像数据或表格数据,直接将其用于图数据并非易事,因为不同的图通常:(1)有不同数量的节点;(2)不容易对齐;(3)在非欧几里得空间中的类型学具有特殊性。

为此,提出了一种 class-level 的图数据增强方法: 。具体来说,首先使用同一类中的图来估计一个 graphon。然后,在欧几里得空间中对不同类的 graphons 进行插值,得到混合的 graphons,合成图便是通过基于混合 graphons 的采样生成的。经实验评估,G-Mixup 显着提高了图神经网络的泛化性和鲁棒性。

G-Mixup 是一种通过图形插值的class-level数据增强方法。具体来说,G-Mixup 对不同的图生成器(graphon)进行线性插值以获得新的混合的生成器。然后,基于混合的新的生成器对合成图进行采样得到新的图数据以进行数据增强。改论文从理论上证明从该生成器中采样的图部分具有原始图的属性。

如图1所示,G-Mixup包括三个关键步骤: (1)为每一类图估计一个graphon,(2)混合不同图类的graphons,以及(3)基于混合的graphons采样生成合成图。

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话 图 1:在二值图分类任务中,有两类不同的图 G 和 H,二者拓扑不同(G 有两个社区,而 H 有八个社区)。G 和 H 具有不同的graphons。

Graphon 估计和 Mixup 。作者使用矩阵形式的阶进函数作为graphon来混合和生成合成图。对阶跃函数估计方法,作者首先根据节点测量值将节点对齐在一组图中,然后从所有对齐的邻接矩阵中估计阶跃函数。

合成图的生成 。一个 graphon W 提供一个分布来生成任意大小的图。

G-Mixup 的性能评估

那么,G-Mixup 在真实世界的图数据上表现如何?作者团队对 G-Mixup 的性能进行了评估。

一个数据集中不同类别的图的 graphons 显著不同。 图 2 表明现实世界中不同类别的图有完全不同的graphons,这为通过融合 graphon 来生成混合的图奠定了基础。

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话 图2:IMDBBINAERY 的 graphons 显示 class 1 的 graphon 有更大的密集区域,这表明该类中的图比 class 0 中的图具有更大的社区。REDDIT-BINARY 的 graphons 显示,class 0 中的图有一个高度节点,而 class 1 中的图有两个。

G-Mixup 合成的图是原始图的混合。 作者团队将在 REDDIT-BINARY 数据集上生成的合成图进行可视化,如图 3,混合 graphon(0.5∗W0+0.5∗W1) 能够生成包含高度节点和密集子图的图,这可看作是包含 1 个高度节点和包含 2 个高度节点的图的混合图。这验证了 G-Mixup 更倾向于保留来自原始图的区别性图案,其合成图确实是原始图的混合。

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

图3:在 REDDIT-BINARY 数据集上生成的合成图的可视化。

G-Mixup 可以提高 GNN 在各种数据集上的性能。 作者比较了使用 G-Mixup 的各种GNN主干网络在不同数据集上的性能。 实验结果表明,G-Mixup可以提高图神经网络在各种数据集上的性能。

G -Mixup 可以提高 GNN 的鲁棒性 。作者对 G-Mixup 的两种鲁棒性(标签腐蚀的鲁棒性和拓扑腐蚀的鲁棒性)进行研究,发现 G-Mixup 能够提高 GNN 的鲁棒性。

这项工作提出了一种名为 G-Mixup 的新型图增强方法。与图像数据不同,图数据是不规则的、未对齐的且处于非欧几里得空间中,因此很难进行混合。然而,同一类别中的图具有相同的生成器(即graphon),它是规则的、良好对齐的且处于欧几里得空间中。因此,作者转而对不同类别的 graphons进行混合来生成合成图。综合实验表明,使用 G-Mixup 训练的 GNN 获得了更好的性能和泛化能力,并提高了模型对噪声标签和被损坏拓扑的鲁棒性。




AI 科技评论对话G-Mixup作者团队

AI 科技评论:祝贺你们的研究获得ICML 2022杰出论文奖。首先,能否概括一下你们这项工作的主要贡献?

作者团队: 我们提出了 G-Mixup 来增强用于图分类的训练图。由于直接混合图是难以处理的,因此 G-Mixup 将不同类别的图的图元混合以生成合成图。其次,我们理论上证明合成图将是原始图的混合,其中源图的关键拓扑(即判别主题)将被混合。最后,我们证明了所提出的 G-Mixup 在各种图神经网络和数据集上的有效性。大量的实验结果表明,G-Mixup 能够增强图神经网络的泛化性和鲁棒性。

AI 科技评论:当时论文收到的审稿意见是怎样的?

作者团队:审稿意见总体比较 positive,不过当时审稿人对我们做数据增强的意义有一点疑问,我们对此作了详细的解释,比如就训练而言,有时训练数据集特别少,我们就可以用数据增强来获取更多的数据。审稿人在最后的意见中也表明认识到了数据增强的重要意义。

AI 科技评论:与以往的Mixup方法相比,G-Mixup的不同之处在什么地方?

作者团队: Mixup 技术主要应用在图像上,已经比较成熟,它是将训练数据中的两个数据集线性地加起来,得到一个新的训练数据,从而完成数据扩增。但它在图数据上还没有一个很好的解决方案。而我们的G-Mixup 是一个简单且有效的方法,它是对不同类别的图生成器进行混合来生成合成图。

AI科技评论:与图像数据和表格数据相比,对图数据做mixup的难点在什么地方?

作者团队: 目前针对图的mixup的研究比较少,因为图数据比较难处理,它不容易表示,而且两个图的节点数量、无结构信息是不一样的,所以很难将其融合到一起。图像数据和表格数据可以表示成连续的向量或矩阵的形式,所以很容易做融合,但图数据无法表示成这种形式。

AI科技评论:为什么说G-Mixup 是一种Class-level的图数据增强方法?

作者团队: 我们是用两个类来生成一个新的类,我们用多张图来估计图的生成规则也就是图的生成器,然后对每一类图来估计一个生成器,这样来生成一个新的类别。以往针对图像的mixup是用两张图片来做,属于instance-level,但针对图的处理方法与此不同。

AI科技评论:有哪些途径可以提高图神经网络的泛化性?

作者团队: 比如设计新的网络结构,做数据增强,以及训练技巧方面的一些工作,都可以提高泛化性,我们这项工作展示的是其中一种方法。

AI科技评论:针对这项工作所研究的问题,有什么下一步的研究计划?

作者团队: 我们这项工作提出的方法主要是用于图分类任务,以后我们可以进一步考虑在节点分类任务上做融合,节点分类也是图神经网络方面的一个重要任务。

AI科技评论:这次获得杰出论文奖,有没有什么经验、体会可以分享?

作者团队: 首先文章的写作质量要好,要将研究清楚地表述出来;研究的 idea 要十分合理;以及,研究问题本身要有意义和价值。

AI科技评论:这项研究的成果对相关领域有怎样的影响?有哪些实际应用的价值?

作者团队: 由于图数据的本身特性,使得mixup这个在其他数据上很有效的方法不能直接适用在图数据上,我们提出的g-mixup使用了图生成器去融合图数据,实现了class-level的图数据mixup, 希望能对图数据的mixup能有一定的启发作用。希望提出的方法能够在图生成,新药物发现方向能有一定的启发。

更多内容,点击下方关注:
莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话 莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

版权文章,未经授权禁止转载。详情见 转载须知 。

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

全局中部横幅
易超云科技

实时超声,在线超声,实时转播,会议系统

今日金价查询

金囊黄金网专注于提供每日黄金价格查询、黄金价格走势信息及内地和香港各金店今日金价查询;掌握新的金价行情讯息,了解全面的金饰保养知识,关注时尚的黄金新款饰品就上金囊黄金网。

除杂物机

洛阳广盈机械设备(0379-64311779)主营除杂物机,除大块机,自移式皮带机矫正器,冷藏车厢板热压机,清堵机等设备.公司座落于中国重工业及装备制造业基地,是一家从事新产品研发与销售,并为客户提供创造性解决方案和技术服务的创新性企业.

江西粤工电线电缆有限公司,江西电线电缆,江西家装线缆,江西控制电缆,江西交联电缆,江西高压电力电缆

江西粤工电线电缆有限公司位于江西历史文化名城,原苏区21个全红县之一—信丰县县名取“人信物丰,因信而丰”之意.公司于2019年7月25日成立,是一家专业化的大型电线电缆生产企业.主导产品以电气装备用线,电力输送电缆,特种电缆及信号输送电缆等强,弱电系列产品为主,是江西电线电缆行业企业之一

秋霞食品官方商城

秋霞食品是一家从事火锅底料生产的公司,秋霞食品是重庆火锅底料产业的龙头企业之一。秋霞食品官方商城主要销售重庆火锅底料,各类火锅底料批发、销售。

制砂机

【豫矿是新型制砂机厂家】提供各种建筑用砂制砂设备:河卵石型、鹅卵型、新型、移动制沙机,制沙生产线工艺设计,易损件成本低,咨询设备价格请联系:15333827088

河南金瑞提供全自动淀粉加工设备生产与制造,大中小型淀粉生产线厂家,淀粉加工设备工艺设计与制造.

淀粉设备生产厂家金瑞公司提供大中小型全自动红薯,木薯,土豆淀粉生产线设备,淀粉生产单机配套设备,淀粉厂加工工艺设计,全自动淀粉加工设备出厂价格直销13526615783

无忧图书馆

图书馆提供各大数据库学术论文下载,科技论文下载,英文论文下载,期刊杂志下载,电子书下载,SCI,IEEE,pubmed,EI.ACM,Spring,中英文数据库,知网账号论文下载.

gpt114,伴你左右!

如果你是从事IT行业,gpt114,是你的最佳选择!IT必备,软件开发必备,学习必备,人工智能,GPT,JAVA,VUE,DOCKER,MySQL,Tomcat,Langchain,大模型,修改图片大小,图片压缩

我的海龟汤题目

我的海龟汤题目,一般指情境猜谜,集结烧脑推理题目和海龟汤游戏等,收集整理优质海龟汤故事,欢迎脑洞大开的你前来投稿,海龟汤题目和答案全套拥有,解决你的疑惑。

在线工具大全

wetools.com微工具致力于打造和收集各种方便、易用、便捷的在线工具,网友无需注册和下载安装即可使用各种在线工具。

全局底部横幅