华东交通大学 电气与自动化工程学院336300
摘要:对细粒度图像检测和分类研究进行介绍,包括可区分的细粒度图像特征检测、基于区域建议框的深度学习特征检测、基于回归的深度学习特征检测以及细粒度图像分类。最后总结存在的问题。
关键字:细粒度图像;检测;分类
近些年来,细粒度图像识别问题是机器视觉领域一大研究热点,主要是研究粗粒度下的子类别精细识别问题。细粒度图像识别可以有效地运用于工业航空装备缺陷检测、农业动植物良种选育以及生长监测、林业重大病虫害和森林生物灾害检测、以及动植物病虫害防治等[1-2]。与粗粒度识别问题相比,细粒度识别问题具有类内差异大和类间差异小的特点。
1.1 可区分细粒度图像特征检测
传统的特征检测存在区域选择没有针对性以及算法复杂度高的问题。此外,
提取的特征多为人工选定的特征,并无法有效地用于区分细粒度纹理图像。随着的深度学习的发展,基于区域建议框的深度学习特征检测算法和基于回归的深度学习特征检测算法得到了广泛研究。
(1)基于区域建议框的深度学习特征检测
候选区域建议框的选取极大地影响物体检测任务的精度。Girshick等[3]提出的R-CNN网络框架主要包括三部分。第一部分采用选择性搜索算法产生约2000个与检测目标类别有关的区域建议框。第二部分是采用AlexNet网络从每个区域建议框中提取约4096维特征向量。第三部分是采用线性支持向量机对提取到的区域特征进行分类。但是由于每个区域框都需要进行特征提取,特征存储以及卷积神经网络模型和支持向量机模型是分别进行训练的,构建R-CNN网络并不是端对端的,且检测速度慢,对硬件的要求也高。He等[4]和Lenc等[5]分别提出空间金字塔池化网络(spatial pyramid pooling net, SPP-Net)和R-CNN minus R方法对R-CNN进行优化。与R-CNN相比,既保持了原有的检测精度且检测速度得到大幅度的提升。Girshick等[6]又提出了一个精简而快速的物体检测框架Fast R-CNN,主要是采用层次采样策略和多任务损失函数对softmax分类器和边框回归器进行联合优化。但是,由于使用选择性搜索计算候选区域建议框的时间占用了物体检测总时间的70%,使得Fast R-CNN无法满足实时应用的需求。Erhan等[7]提出MultiBox框架生成区域建议框架取得了不错的效果。但由于MultiBox只对生成区域的建议框是否包含待识别对象进行检测,还需要训练一个识别网络进行分类,使得整个网络无法进行端对端的训练。基于MultiBox,Ren等[8]提出Faster R-CNN框架,主要采用区域建议网络(region proposal network, RPN)替代启发式区域生成算法,并通过交替优化策略对网络进行训练。Faster R-CNN将区域建议框的生成与卷积神经网络区域分类融合到一起,使用端对端的网络进行物体检测,在检测精度以及检测速度上都得到了极大的提升。
(2)基于回归的深度学习特征检测
基于回归的深度学习特征检测算法直接在图像的多个位置上回归出该位置的物体边框以及物体类别。Redmon等[9]提出YOLO(you only look once, YOLO)框架,直接将整幅图像作为输入,输出层能够回归出物体包围盒的位置以及类别。因此,YOLO具有速度快,泛化能力强的优点。但是,与基于区域建议框的方法相比,YOLO框架的检测精度和召回率(Recall)都更低。此后,Redmon等[10]又继续提出了YOLOV2框架对检测精度和召回率进行提升。Liu等[11]提出SSD(single shot multiBox detector, SSD)框架,它主要是通过结合YOLO的回归思想以及Faster R-CNN的定框机制来进行物体检测。Tao等[12]提出一个基于全卷积网络的物体检测框架RON(Reverse connection with Objectness prior Networks, RON)。
1.2 细粒度图像分类
传统的细粒度图像分类方法主要是使用人工设计的特征描述算子,如SIFT[13],HOG[14]等。从细粒度图像中提取底层特征,然后利用支持向量机等分类器进行分类。受制于人工设计特征的有效性以及有限性,这些方法的分类精度十分有限。随着深度学习的发展,目前的方法主要是基于各种卷积神经框架进行研究。Zhang等[15]提出Part R-CNN模型就是利用R-CNN算法对细粒度图像进行物体级别与局部区域的检测。Branson等提出的姿态规范化细粒度识别框架首先使用可变形部件模型(deformable parts model, DPM)通过语义部件的特征点来计算物体级别和部件级别的包围盒,然后对语义部位图像块进行姿态对齐操作。。
细粒度图像检测与分类是一项富有挑战性的计算机视觉任务,它旨在识别那些外观上极其相似但属于不同类别的物体,比如区分不同的鸟类品种或汽车型号。在这个领域中,存在的主要问题和难点包括但不限于以下几个方面:
(1)微小的类间差异与大的类内差异。同一类别下的不同子类可能只有非常微妙的区别,如动物的羽毛颜色变化、车辆的微小结构差异等,这使得传统图像分类方法难以有效捕捉到足以区分它们的关键特征。
(2)局部特征的重要性。在细粒度图像分类中,关键的区分性特征往往位于图像的局部区域,而这些区域相对于整幅图像可能占比很小,这就要求方法能够精确地定位并抽取这些局部细节特征。
(3)多视角和多姿态。同一物体在不同的视角、光照条件、姿态变化下表现形式各异,导致基于全局特征的模型难以适应这种复杂的变化,需要模型具备较强的视角不变性和姿态鲁棒性。
(4)背景干扰。背景杂乱或者主体与背景对比度低时,容易淹没细粒度特征,加大了对前景物体的精准识别难度。
(5)数据集质量与规模。通常需要大规模且高质量标注的数据集来训练模型,而这类数据集的收集和标注成本极高,尤其是对于具有很多细粒度类别的物体。
细粒度图像检测与分类面临的主要问题在于如何从视觉上相似的对象中抽取出精细且鲁棒的特征表示,并在此基础上构建高效准确的分类器。近年来,研究人员通过改进卷积神经网络架构、引入注意力机制、利用特征金字塔、挖掘上下文信息等多种策略来逐步解决这些问题。
参考文献
[1] Bell S, Bala K. Learning visual similarity for product design with convolutional neural networks[J]. ACM Transactions on Graphics, 2015, 34(4): 1-10.
[2] Felzenszwalb P F, Girshick R B, Mcallester D, et al. Object Detection with Discriminatively Trained Part-Based Models[J]. IEEE Transactions on Software Engineering, 2010, 32(9): 1627-1645.
[3] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, 580-587.
[4] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015, 37(9): 1904-1916.
[5] Lenc K, Vedaldi A. R-cnn minus r[C]. Proceedings of the British Machine Vision Conference (BMVC), 2015, 1-12.
[6] Girshick R. Fast R-CNN[C]. Processdings of the IEEE International Conference on Computer Vision (ICCV), 2015, 1440-1448.
[7] Erhan D, Szegedy C, Toshev A, et al. Scalable object detection using deep neutral networks [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, 2147-2154.
[8] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2017, 39(6): 1137-1149.
[9] Redmon J, pvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, 779-788.
[10] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 7263-7271.
[11] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]. Proceedings of the European Conference on Computer Vision (ECCV), 2016, 21-37.
[12] Kong T, Sun F, Yao A, et al. Ron: Reverse connection with objectness prior networks for object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 5936-5944.
[13] Gupta S, Kumar M, Garg A. Improved object recognition results using SIFT and ORB feature detector[J]. Multimedia Tools and Applications, 2019, 1-15.
[14] Naiel M A, Ahmad M O, Swamy M. A vehicle detection scheme based on two-dimensional HOG features in the DFT and DCT domains[J]. Multidimensional Systems and Signal Processing, 2019, 4(30): 1697-1792.
[15] Zhang N, Donahue J, Girshick R, et al. Part-based R-CNNs for fine-grained category detection[C]. Proceedings of the European Conference on Computer Vision (ECCV), 2014, 834-849.