在本文中,我们将探讨IBM的最新研究成果,该研究旨在解决多标签小样本图像分类问题。这个领域一直是人工智能和计算机视觉研究中的一个挑战,尤其是在现实世界应用中,数据往往是不均衡且稀缺的。
首先,让我们回顾一下当前的状态。目前,大部分关于图像小样本分类的研究都集中在单标签场景上,每个训练图像只包含一个对象和对应的一个类别标签。但是,在现实世界中,许多情况下涉及到多个对象和相应的多个标签,这种类型的问题需要更多关注。
为了解决这个问题,IBM的研究人员进行了CVPR 2019上的论文分享,并将相关结果发表在了IBM官方博客上。这项工作提出了一个名为LaSO(Label-Set Operations networks for multi-label few-shot learning)的新方法。在这个方法中,将图像样本与一定的标签集结合起来,从而合成具有“合并”、交叉或减法操作产生新的训练样本。例如,如果有两幅图片,一张描绘的是一个人遛羊和狗,而另一张描绘的是一个人抱着一只狗和猫,那么LaSO网络可以生成新的训练样本,其中可能包括所有四个元素:人、羊、狗和猫。
LaSO网络通过直接操作深度神经网络学习特征空间中的特征向量来实现这一点,它能够执行各种复杂操作,如联合、交叉或减法等。这使得它不仅适用于原始任务,还能推广到包含未见过类别的情况下。此外,由于不需要任何额外输入来控制操作,因此LaSO网络可以自然地泛化到包含未知新类别的情形。
为了评估LaSO网络在多任务学习方面的性能,我们使用了大规模多标签数据集进行训练,并测试了不同方法对生成示例进行分类,以及使用这些示例作为源自留存测试集检索到的定性结果。实验表明,即使是在没有额外信息的情况下,LaSO网络也表现出很强的一般化能力。
最后,本文提出了一种全新的基准用于评估神经网络对LaSO标签集合操作性能,并展示了利用神经网络加强数据增强效果良好的潜力。这项工作鼓励更多的人员加入这方面的问题探索,以期推动这一重要领域前进。