CVPR 2019口头报告:揭秘无监督域适应语义分割的神奇算法
百度研究院、华中科技大学和悉尼科技大学联合发布了一篇名为《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》的论文,该论文在CCF A类学术会议CVPR 2019上被收录为Oral 论文。该论文提出了一种从“虚拟域”到“现实域”的无监督语义分割算法,旨在利用成本较低的虚拟场景标注数据来完成对高成本现实场景数据的语义分割,大大减少了人工标注成本。
这篇文章是作者之一罗亚威为雷锋网AI科技评论撰写的一份解读。文章地址:https://arxiv.org/abs/1809.094781。
问题背景:
深度学习的语义分割方法效果出众,但需要大量的人工标注进行监督训练。不同于图像分类等任务,语义分割需要像素级别的人工标注,费时费力,无法大规模实施。借助于计算机虚拟图像技术,如3D游戏,用户可以几乎无成本地获得无限量自动标注数据。然而虚拟图像和现实图像间存在严重的视觉差异(域偏移),如纹理、光照、视角差异等等,这些差异导致在虚拟图像上训练出的深度模型往往在真实图像数据集上的分割精度很低。
传统方法:
针对上述域偏移问题,一种广泛采用的方法是在网络中加入一个域判别器Discriminator (D),利用对抗训练的机制,减少源域Source (S)和目标域Target(T)之间不同分布的差异,以加强原始网络(G)在域间的泛化能力。这一方法包括两方面:
利用源有标签数据进行有监督学习,提取领域知识。
通过对抗学习降低domain判别器(D)的精度,以对齐源与目标特征分布。
我们发现传统方法只能全局特征分布,对齐忽略了不同区域同类特征之间的情感一致性,在训练过程中容易造成负迁移,如表明目标车辆可能会被映射到其他类似火车的情况下出现不一致性。
改进策略:
为了解决这一问题,我们向基于对抗学习框架加入了联合训练思想。在今年CVPR发表的一篇论文中,我们向原框架里加入了两个互斥分类器,对目标特征进行分类。当两个分类器给出的预测很相似时,我们认为该特征已经能被很好的分类,就减少全局对齐策略产生负面影响;反之,加大全局对齐力度使其尽快与源特征配合作并,使得它们变得更加接近,并且更难以区别开来,从而达到最终目的,即让模型能够准确地将相同类型的事物归入同一类目。
网络结构:
为了实现这种语义级联交互,我们提出了Category-Level Adversarial Network (CLAN)。这个结构遵循联合训练思想,在生成网络采用互斥分类器判断目标隐层是否达到了局部情感平衡。在后续对抗训练时,由于两个预测向量之差决定权重,所以根据这些信息调整判别网络所反馈到的损失函数。此外,每个流程都包含一个余弦距离损失函数,它强迫两个参数正交,以便形成独立但相关性的多样化结果模式,而不是单一模式或完全不同的结果模式,同时确保他们都能有效工作并且不会相互干扰或冲突,而是相辅相成,并共同推动整个系统前进直至最终成功达成共识,并开始执行任务,将所有成员带入合适的地位和角色,让每个人都感到自己都是团队不可或缺的一部分,这样做不仅能够避免潜在错误,而且还能够增强团队协作效率,因为每个成员都会意识到自己的重要性以及团队整体成功所需彼此支持,不再只是简单地依赖某个人的努力或者某个人的才能。而这样一种团结协作的心态对于提高整个系统效率来说是非常必要也是十分关键的一个因素,因为它不仅促使大家更加积极主动参与工作,也鼓励大家不断探索新思路、新方式去寻找解决方案,这样的精神状态对于创造新的价值具有不可估量作用,是一种持续创新发展必不可少的心态状态。这就是为什么我们总是在寻求如何更好地结合各自优势资源和力量来共同推动事业发展,有时候也会遇到一些挑战,但只要坚持正确方向,不断尝试找到最佳途径,最终总能取得满意成绩,因为这是我们追求卓越与完美永远不能放弃的事情。”
实验验证:
我们的实验验证了CLAN比传统方法要优越很多。在GTA5 -> Cityscapes 和 SYNTHIA -> Cityscapes 这两项任务中,无论使用VGG16还是ResNet101作为基础网络,只要应用CLAN,都能获得state-of-the-art水平的性能表现。这证明我们的算法对于提升性能尤其有效特别是在那些常见类别中的表现尤其突出,其次又是一个重要例证说明如果你想要提升你的项目,你应该更多考虑使用最新技术工具,比如AI,可以帮助你自动化处理大量复杂工作,从而节省时间同时提高效率。但请记住,如果你想把握住这样的机会,你必须准备好迎接挑战,无论是在理论研究还是实际操作方面,都需要付出巨大的努力才能达到预期效果。你必须具备足够宽广的心胸接受失败,同时保持乐观的心态继续前行,因为只有这样,你才有可能真正意义上掌握这门艺术,让你的项目成为行业内瞩目的焦点。
综上所述,《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》引入了一种新的设计理念,它结合了联合培训和敌手学习,为无监督领域适应提供了一种新的视角。本文展示了如何通过改变一般情况下的策略,即通常只关心的是将输入转换成输出,而忽略了解决具体的问题本身,因此本文建议未来研究者们不要忘记思考一下他们真正想要解决什么问题,以及他们正在使用哪些工具,他们是否真的选择了最合适的手段去实现他们设定的目标?因为这是任何科学家都不应该忽视的问题,也是任何产品开发者也不应该遗漏的问题。如果没有仔细考虑这些基本原则,那么即使拥有最新最先进设备,没有清晰明确的问题定义,也无法保证最后得到满意答案。而今天,我希望我的讲话就结束于这里。我希望我说的这些内容可以启发你们继续探索未知,用您的智慧去创造更好的世界吧!