广东弓叶科技有限公司 广东 东莞 523000
摘要:多标签图像分类是一项允许单个图像同时属于多个类别的重要机器学习任务。与单标签分类不同,多标签图像分类面临着标签间相关性、数据不平衡以及高维数据处理等挑战。随着工业界的算力提升,许多研究人员利用深度学习的强大学习能力来应对多标签图像分类中遇到的挑战,然而专门针对多标签图像分类的综合研究仍然很少。本文系统地综述了多标签图像分类的近几年的进展,首先介绍了多标签图像分类的背景以及定义,接着讨论了多标签图像分类问题挑战,然后详细回顾多标签图像分类的最新进展,其中包括了其在深度学习方面的现有研究成果,如深度卷积神经网络、Transformer,最后总结了多标签图像分类的现状。希望本文的综述能为多标签图像分类领域的研究人员和实践者提供有价值的参考和指导。
关键字:多标签图像分类,机器学习,深度学习,Transformer,深度卷积神经网络
1. 引言
随着大数据和人工智能技术的迅速发展,机器学习在各个领域中的应用日益广泛,数据的规模和复杂性不断增加,这对机器学习模型提出了更高的要求。在许多现实应用中,一个对象可能同时与多个标签相关联,这种问题被称为多标签学习[1]。多标签学习扩展了传统的单标签学习方法,其中通常有一组有限的潜在标签,可以应用于多标签数据集的实例。其基本目标是同时预测给定单个输入的输出向量,从而解决更复杂的决策问题。多标签学习中主要有两个任务:多标签分类和多标签排序[2]。多标签分类旨在训练一个模型,将标签集相对于查询实例划分为相关和不相关的类别;而多标签排序则侧重于训练一个模型,根据类标签与查询实例的相关性来排列类标签。
多标签图像分类的应用非常广泛,例如在图像分类中,一张图片可能包含多个物体。以垃圾分类为例,一张垃圾分类的图片可能同时显示塑料瓶、金属盖和纸标签,这意味着该垃圾同时属于“塑料”、“金属”和“纸张”类别。单标签分类方法无法处理这种复杂情况,而多标签图像分类方法则可以准确地对图片进行多类别标记,从而更好地指导垃圾回收和处理。
在应对复杂分类问题、提升分类精度和扩展应用场景方面,多标签图像分类技术具有巨大潜力,已成为学术界和工业界的研究热点。为了应对多标签图像分类的挑战,不断有新的算法和技术涌现,多标签图像分类逐渐成为机器学习领域的重要研究方向。深度学习技术极大地促进了多标签图像分类领域的发展,深度卷积神经网络(Convolutional Neural Network, CNN)和Transformer通过对图像进行深层次的特征提取和复杂标签关系建模,显著提高了多标签图像分类的性能。本文先梳理多标签图像分类问题面临的挑战,然后回顾近年来基于深度CNN和Transformer的针对多标签图像分类问题提出的算法,希望为多标签图像分类领域的研究者和实践者提供全面的参考和指导,推动该领域的进一步发展。
2. 多标签图像分类问题的挑战
2.1 标签相关性
多个图像标签的存在表明不同类别之间存在关联。例如,在识别图像中的物体时,狗和猫可能经常共存,而猫和鲨鱼则通常不会同时出现。因此,建模和学习类别之间的相关性一直是多标签分类的重点 [3]。关于这些依赖关系的建模,学习方法可以分为一阶、二阶、高阶,分别对应独立地处理每个标签、对标签进行建模以及同时处理两个以上的标签。深度学习方法的强大学习能力通常被用来以各种方式处理二阶标签依赖关系,包括通过图CNN[4]、基于自编码器[5]和Transformer[6]等。
2.2 数据不平衡问题
不平衡学习是在多标签数据集中观察到的一个广泛认可的内在特征,影响着各种多标签分类算法的学习动态。在许多实际应用中,不同标签的出现频率差异很大。例如,在医疗影像诊断中,某些疾病可能非常罕见,而其他疾病则很常见。这种不平衡性会导致模型在训练过程中偏向常见标签,从而影响稀有标签的预测准确性。多标签图像分类中的不平衡问题可以从多个因素来分析[7]:标签内不平衡、标签间不平衡、标签集之间不平衡。这些因素可能同时发生,进一步加剧了多标签分类任务的复杂性。传统的方法[8]和深度学习模型自适应方法[9]都被用于解决不平衡多标签分类问题。
2.3 高维数据处理
多标签图像分类通常涉及高维数据处理问题。每个实例可能有数百甚至数千个特征,而每个实例还可以同时属于多个标签,这导致数据维度急剧增加,从而增加了处理高维特征[10]的时间和计算复杂度。此外,高维数据还可能导致模型过拟合问题。为了缓解这些挑战,可以通过两种主要方法来降低特征维数:特征提取和特征选择。特征提取将高维特征映射到低维空间[11],而特征选择则选择更小的特征子集来替换整个特征集合[12]。特征提取可能生成缺乏物理意义的新特征,而特征选择则保留物理意义并具有可解释性。
3. 多标签图像
分类方法
3.1 基于深度CNN的多标签图像分类方法
多标签反向传播网络 (Backpropagation for Multilabel Learning,BP-MLL)[13]首次使用神经网络架构来解决多标签分类问题,利用其整合标签相关性的能力,因为考虑到了标签依赖性,这种方法在多标签场景下表现优于传统方法。然而随着标签数量的增加,BP-MLL对计算复杂度和收敛速度的要求越来越高。对改进BP-MLL方法,作者[14]通过修改全局误差函数,使神经网络在学习过程中能够自适应地确定阈值,而不需要额外步骤来定义阈值函数。
Weiwei等[15]也提出了针对多标签图像的深度CNN,结合了一个由最大边际目标、最大相关目标和交叉熵损失组成的新目标函数。该框架旨在通过在语义空间中学习来优化标签间相关信息的利用,增强了提取特征与其各自标签之间的相关性。与此同时,Zhu等[16]引入了一种空间正则化网络(Spatial Regularization Network,SRN),该网络通过注意图掌握图像数据集中各种标签之间的语义和空间联系。SRN为每个标签生成注意图,并通过可训练的卷积捕获内在关系,有效提升了多标签图像分类的准确性。文献[17]提出了一种深度CNN集成用于多标签图像分类,结合了VGG16[18]和Resnet-101[19]等知名架构,探讨了不同的图像尺寸如何影响结果,并利用一系列数据增强方法以及交叉熵损失来训练和评估模型。此外,Park等[20]提出了MarsNet,这是一种为多标签分类量身定制的基于CNN的架构,具有对不同大小输入的适应性。
在多标签图像分类任务中,损失函数的选择和设计至关重要,直接影响模型的性能。针对类别不平衡的问题, Ridnik T 等[21]提出了非对称焦点损失函数(Asymmetric Focal Loss, AFL),通过在损失计算中引入非对称权重,有效缓解了常见类别对稀有类别的影响。随后,Su J等[22]提出了ZLPR损失,将单标签分类中的交叉熵损失扩展到多标签分类领域,进一步提升了深度学习在多标签分类中的应用效果。通过这些改进的损失函数,多标签分类模型在处理类别不平衡和高维数据方面表现得更加出色。
3.2基于Transformer的多标签图像分类方法
研究[23]中提出的Query2Label框架使用Transformer解码器,创新性地应用于多标签图像分类问题。该框架分两个阶段运行,首先通过Transformer解码器提取特征,并通过多头注意力机制集中于对象类别的不同方面。此外,框架自主学习标签嵌入,并采用简化的非对称焦点损失来处理不平衡问题。Ridnik等[24]提出的ML-Decoder模型提供了统一的多标签图像分类的解决方案,该模型排除了预训练的全连接层,在MS-COCO 多标签分类任务中显示出速度和准确性之间的良好平衡。
近两年Yuan J等[25]提出了一种图注意力Transformer网络(Graph Attention Transformer Network, GATN),专门用于发现多标签分类问题中的复杂标签关系。GATN采用两步来增强标签关系的表达能力。首先,应用余弦相似度于标签词嵌入以创建初始相关矩阵,捕捉广泛的语义信息。然后,使用图注意力转换层适应当前领域。Chen等[26]提出了基于空间和语义Transformer(SST)的多标签图像识别系统,其使用Transformer技术同时捕捉空间和语义相关性,提高了多标签图像识别的性能,解决了传统基于CNN方法的局限性,更好地捕捉了图像中多个标签之间的复杂关系,并证明了在多标签图像识别中同时建模空间和语义相关性的互补性。
4. 结论
本文全面综述了多标签图像分类的最新研究进展,回顾了该领域的背景、定义及所面临的挑战。在挑战方面,重点讨论了标签相关性、数据不平衡、高维数据处理等关键问题。标签相关性的建模是多标签分类的核心难题,传统方法难以有效处理复杂的标签依赖关系,而深度学习技术如深度CNN和Transformer通过强大的特征提取和关系建模能力显著提升了处理效果。然而,数据不平衡导致常见标签和稀有标签在训练过程中的不均衡影响了模型的泛化能力,需要探索更有效的平衡策略。此外,高阶标签相关性的精确建模仍需进一步研究。
在方法论方面,本文详细介绍了基于深度CNN和Transformer等先进方法在多标签图像分类任务中的应用,并分析了它们在解决复杂多标签问题时的优势和局限性。
未来的研究应重点关注如何更好地模型标签相关性、改进数据不平衡问题的处理方法,并进一步提升多标签分类模型在高维数据处理和计算复杂度方面的效率和鲁棒性。通过不断优化这些关键技术,多标签图像分类将能够更好地应对复杂的实际应用场景,为学术界和工业界带来更多的创新和突破。
参考文献
[1]Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data[J]. Data mining and knowledge discovery handbook, 2010: 667-685.
[2]Fürnkranz J, Hüllermeier E, Loza Mencía E, et al. Multilabel classification via calibrated label ranking[J]. Machine learning, 2008, 73: 133-153.
[3]Wang Y, Xie Y, Liu Y, et al. Fast graph convolution network based multi-label image recognition via cross-modal fusion[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 1575-1584.
[4]Chen B, Zhang Z, Lu Y, et al. Semantic-interactive graph convolutional network for multilabel image recognition[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2021, 52(8): 4887-4899.
[5]Bai J, Kong S, Gomes C. Disentangled variational autoencoder based multi-label classification with covariance-aware multivariate probit model[J]. arXiv preprint arXiv:2007.06126, 2020.
[6]Fallah H, Bruno E, Bellot P, et al. Exploiting Label Dependencies for Multi-Label Document Classification Using Transformers[C]//Proceedings of the ACM Symposium on Document Engineering 2023. 2023: 1-4.
[7]Tarekegn A N, Giacobini M, Michalak K. A review of methods for imbalanced multi-label classification[J]. Pattern Recognition, 2021, 118: 107965.
[8]Tarekegn A N, Michalak K, Giacobini M. Cross-validation approach to evaluate clustering algorithms: an experimental study using multi-label datasets. SN Comput. Sci. 1 (5), 1–9 (2020)[J].
[9]Wu G, Tian Y, Liu D. Cost-sensitive multi-label learning with positive and negative label pairwise correlations[J]. Neural Networks, 2018, 108: 411-423.
[10]He Z, Lin Y, Wang C, et al. Multi-label feature selection based on correlation label enhancement[J]. Information Sciences, 2023, 647: 119526.
[11]Lin Y, Liu H, Zhao H, et al. Hierarchical feature selection based on label distribution learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 35(6): 5964-5976.
[12]Siblini W, Kuntz P, Meyer F. A review on dimensionality reduction for multi-label classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 33(3): 839-857.
[13]Zhang M L, Zhou Z H. Multilabel neural networks with applications to functional genomics and text categorization[J]. IEEE transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.
[14]Grodzicki R, Mańdziuk J, Wang L. Improved multilabel classification with neural networks[C]//Parallel Problem Solving from Nature–PPSN X: 10th International Conference, Dortmund, Germany, September 13-17, 2008. Proceedings 10. Springer Berlin Heidelberg, 2008: 409-416.
[15]Shi W, Gong Y, Tao X, et al. Training DCNN by combining max-margin, max-correlation objectives, and correntropy loss for multilabel image classification[J]. IEEE transactions on neural networks and learning systems, 2017, 29(7): 2896-2908.
[16]Zhu F, Li H, Ouyang W, et al. Learning spatial regularization with image-level supervisions for multi-label image classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 5513-5522.
[17]Wang Q, Jia N, Breckon T. A baseline for multi-label image classification using ensemble deep CNN[J]. arXiv preprint arXiv:1811.08412, 2018.
[18]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[19]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[20]Park J Y, Hwang Y, Lee D, et al. MarsNet: multi-label classification network for images of various sizes[J]. IEEE Access, 2020, 8: 21832-21846.
[21]Ridnik T, Ben-Baruch E, Zamir N, et al. Asymmetric loss for multi-label classification[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 82-91.
[22]Su J, Zhu M, Murtadha A, et al. Zlpr: A novel loss for multi-label classification. arXiv 2022[J]. arXiv preprint arXiv:2208.02955.
[23]Liu S, Zhang L, Yang X, et al. Query2label: A simple transformer way to multi-label classification[J]. arXiv preprint arXiv:2107.10834, 2021.
[24]Ridnik T, Sharir G, Ben-Cohen A, et al. Ml-decoder: Scalable and versatile classification head[C]//Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2023: 32-41.
[25]Yuan J, Chen S, Zhang Y, et al. Graph attention transformer network for multi-label image classification[J]. ACM Transactions on Multimedia Computing, Communications and Applications, 2023, 19(4): 1-16.
[26]Chen Z M, Cui Q, Zhao B, et al. SST: Spatial and semantic transformers for multi-label image recognition[J]. IEEE Transactions on Image Processing, 2022, 31: 2570-2583.
作者简介:莫卓亚(1984.5-),女,浙江绍兴人,硕士,中级工程师:任职于广东弓叶科技有限公司
东莞市引进创新创业领军人才计划资助(编号:东财[2016]380号)