ICCV2021 (iccv2024)
我们观察到,成对标记的位时图像的重要性在于, 变化检测器需要成对的语义信息来定义对象变化检测的正负样本。 这些正、负样本通常是由两个不同时间的像素在同一地理区域是否具有不同的语义来决定的。位时像素的语义控制着标签分配,而位置一致性条件(两个时相的像素应处于相同的地理位置)仅用于保证独立同分布的训练和推理。可以想象,如果我们松弛位置一致性条件来定义正负样本,那么变化是无处不在的,尤其是在未配对的图像之间。
其中Xi, Xj为真实双时相图像对,对应的Y是其语义像素标签,F 为变化检测器参数。将伪双时相图像对(Xt1, Xt1)替换为真实双时相图像对,并重新利用逻辑异或运算分配伪双时相图像对的变化标签,从而将原学习问题松弛为下式的仅利用单时相图像即可完成的学习问题:
为了利用单时相图像提供监督信号,我们提出了一种伪双时相图像对构建技术,其通过对一个训练批次中的图像Xt1进行随机排列得到伪第二时相图像 Xt1,并且保证每个伪图像对中的图像各不相同。通过观察可以发现,伪双时相图像对的变化标签可用两张图像的语义像素标签(one-hot为二值标签)的逻辑异或表示,这样即可完成伪双时相图像对的正负样本定义。
图1:模型训练与推理流程
ChangeStar是一个简单而统一的网络,由一个深度语义分割模型和ChangeMixin模块组成。 这种设计的核心思想在于 重用现代语义分割架构 ,因为语义分割和物体变化检测都是密集的预测任务。为此,我们设计了ChangeMixin模块,使任何现成的深度语义分割模型能够检测物体变化。ChangeMixixin模块由若干卷积层和一个时序交换模块组成,其输入由分割模型计算得到的高分辨率语义特征,输出双向的变化检测图用于后续的学习与推理。我们在实验中发现,一个收敛的模型,双向变化检测图相似度极高,因此在推理阶段我们选择其中一个方向的变化检测图作为最终预测值。
这部分展示了所提出方法在不同训练数据与测试数据下的泛化性实验结果。对比方法采用基于深度语义分割模型的分类后比较法,作为单时相监督的基线。实验结果表明,所提出的方法可有效提升单时相监督下的变化检测性能,具有很好的泛化性能。
同时为了验证所提出架构的有效性,我们在双时相监督下训练了ChangeStar模型的各种变体。实验结果(表4)表明 ChangeStar架构对已有的分割模型具有良好的兼容性,在相同骨干网络的情况下可取得更加优异的性能。
为了了解单时相、双时相监督之间的实际差距,我们利用相同模型开展了多组对照实验,从实验结果中可以发现,单时相监督作为一种弱监督信号,与双时相监督这种强监督信号相比仍有一定差距,但差距随着骨干网络容量的提升而减小, 目前F1精度差距最小可缩小到10%以内。 然而本文提出的方法仅仅是在单时相监督上的初步探索,未来还有更大的改进空间,例如使用模型容量更大的transfomer模型作为基础模型、更大的单时相监督数据、更好的单时相监督学习策略都是值得未来探索的研究话题。
更多的消融实验与讨论可见原文。
在这项工作中,我们提出了 巧妙绕过了传统的双时相监督学习中收集成对标记数据成本高的问题。 STAR提供了一个利用任意图像对中的物体变化作为监督信号的新视角。为了证明STAR的有效性,我们设计了一个简单而有效的多任务架构,称为 用于联合语义分割和变化检测,它可以通过进一步提出的ChangeMixin模块重新使用任何深度语义分割架构。
大量的实验分析表明,提出的方法可以以较弱监督信息学习一个鲁棒的变化检测器;同样双时相监督条件下,超越了目前的state-of-the-art方法。我们希望STAR将作为一个坚实的基线,在未来服务于弱监督变化检测研究。
版权文章,未经授权禁止转载。详情见 转载须知 。