计 算 机 研 究 与 发 展                2016年

(整期优先)网络出版时间:2024-07-17
/ 3

 计 算 机 研 究 与 发 展                2016年

计算机视觉中特征金字塔技术综述

王春霞

内蒙古自治区大数据中心

摘要随着人工智能时代的迅速发展,计算机视觉逐渐发展成计算机领域的一项不可或缺的研究内容,其中所广泛使用的特征金字塔技术提高了各类实际应用的性能,因此受到研究者关注。本文从特征金字塔的定义出发,综述了计算机视觉领域常用的几类特征金字塔技术,总结特征金字塔技术存在的缺陷,通过系统的梳理,对未来发展趋势进行展望。



 计 算 机 研 究 与 发 展                2016年

1 引言

计算机视觉是人工智能领域的重要分支,它让计算机能够在图像或其他维度的数据中识别和检测一些基础的视觉信息,实际应用领域极其广泛,如人脸识别、汽车自动驾驶、无人机导航、工业质量检测等,卷积神经网络正是实现这些任务的最基础工具。然而,卷积神经网络的低层次特征和高层次特征之间的信息差异较大,在执行各类计算机视觉任务时使得性能受限。为了解决该问题,研究人员于2017年提出第一个特征金字塔技术-特征金字塔网络FPN[1],通过金字塔形状结构将卷积神经网络的不同层次间的特征进行信息交互。FPN成为了特征金字塔技术的破冰之作,以FPN为基础,国内外研究者相继提出更加优秀的特征金字塔技术。基于此,本文综述了几种优秀的特征金字塔技术,为后续研究者进行更加深入的相关技术研究提供理论指导。

2 特征金字塔的定义

特征金字塔是计算机视觉中一种广泛使用的基础概念,它起源于卷积神经网络生成的固有金字塔形状的多尺度特征。在特征金字塔的构建过程中,通常是将图像或其他维度的数据分解成不同层次的特征表示,每个层次包含独特的图像抽象特征,随着层次加深,抽象度增加,特征分辨率降低。

3 简单的特征金字塔技术

(一)特征金字塔网络FPN

FPN是首次使用卷积神经网络固有的多尺度金字塔层次结构搭建的模型,缓解了需要大量计算内存的金字塔表示问题。首先,FPN包含一个自下而上的卷积神经网络,逐步提取图像特征,此时的最顶层特征经过多次卷积和下采样操作,存在位置信息缺失的问题,因此FPN设计了横向连接结构,将原始特征图进行传递。此外,FPN还引入一个自上而下传播信息的结构,通过上采样操作逐步将较高层特征与其相邻的较低层特征融合,实现增强的多尺度信息,如图2所示。

2特征金字塔网络FPN结构示意图

(二)路径聚合特征金字塔网络PAFPN

PAFPN以FPN为基础,进行三个方面的改进[2]

1.扩充FPN的自上而下信息传播路径。FPN中的自上而下路径逐步将较高层特征融合,使得较低层特征包含了较高层特征的信息。然而,较高层特征中并没有包含较低层特征的信息。因此,PAFPN在FPN的基础上增加了一条自下而上的信息传播路径,形成双信息传播路径,如图3所示。

3路径聚合特征金字塔网络PAFPN结构示意图

2.缩短信息传播路径。FPN中最低层信息传播到最高层需要经过100多层卷积和下采样操作,需要大量的计算内存,如图3红色虚线所示。为了解决这一问题,PAFPN增添了一条快捷路径,由不到10层卷积组成,节省大量时间,如图3深绿色虚线所示。

3.自适应特征池化技术。实际上,特征的重要性与其所在的层次相关性很弱,低层特征分辨率高,含有更多的局部细节信息,有益于使用大候选框检测。高层特征分辨率低,含有更多的抽象语义信息,有益于使用小候选框检测。基于以上思想,PAFPN提出了自适应特征池化技术,使用最大池化操作融合特征金字塔中不同层次的特征,使模型自主选择对任务最有用的信息。

(三)递归特征金字塔网络RFPN

RFPN以FPN基础,在宏观和微观进行改进[3]

1.宏观上运用递归思想。RFPN的核心思想是运用递归结构,重复应用卷积神经网络的基本层次信息来帮助模型多次学习图像信息,具体做法是将FPN自上而下的信息再次进行反馈连接。递归结构按照顺序展开两次如图4所示。

4递归特征金字塔网络RFPN结构示意图

2.微观上提出可切换空洞卷积。这一技术旨在以不同的空洞率与输入特征进行卷积,并使用切换函数收集结果。其核心思想是根据锁定机制设置不同的权重,锁定功能是空间相关的,即特征图的每个位置可能具有不同的开关来控制可切换空洞卷积的输出。

4 复杂的特征金字塔技术

(一)自动特征金字塔网络Auto-FPN

Auto-FPN将图像分类领域的神经架构搜索技术应用于特征金字塔,考虑了神经元对任务的敏感程度,发现高层神经元比低层神经元对目标更加敏感,因此为了查询所有的特征金字塔连接模式,设计了一个完全连接的大搜索空间,称为自动融合模块[4]。该技术首先搜索所有层次的最佳连接方式,在其基础上搜索该层次的最佳操作方式,这些方式包括不同空洞率的空洞卷积、不同卷积核大小的深度可分离卷积、跳跃连接和无操作,这些技术可以为特征金字塔融合过程提供足够大的感受野和空间感知能力。除此之外,Auto-FPN还使用了自动化检测头,与自动融合模块的选择方法类似。最后对两个模块的离散体系结构进行连续松弛,使用随机梯度下降算法在最高分辨率图像上直接进行架构搜索。通过上述操作得到最优的特征金字塔空间和架构,如图6所示。

6自动特征金字塔网络Auto-FPN结构示意图

(二)图特征金字塔网络GraphFPN

一些先进的特征金字塔技术如BiFPN、RFPN通过权重进行加权融合,这些方法仍然是在固定的拓扑空间中进行特征交互,而实际上图像中的内容具有不同的结构,呈现一种非拓扑性,因此研究者将图卷积技术引入特征金字塔,提出GraphFPN[5],它模拟人类的视觉将图像分为整体-部分的层次关系,动态地进行关系建模。

GraphFPN根据输入图像的特有内在结构,通过超像素层析结构自适应地将其拓扑结构调整为非拓扑结构,设计了上下文层和层次层实现了从卷积神经网络到图神经网络的特征映射,并将图神经网络的特征映射返回卷积神经网络,以在相同尺度内和不同尺度之间实现特征交互。此外,还在这两类图层中加入注意力机制,进一步增强性能。

(三)潜在特征金字塔网络LFPN

LFPN同样利用图卷积的思想[6],旨在将不同层次的特征图投影到潜在空间中,并利用投影图上的图卷积来对长程依赖性进行建模。

LFPN首先学习一个投影矩阵将原始特征映射到低维度潜在空间,然后将潜在空间中不同尺度的特征视为图的一个个节点,经过拉普拉斯平滑和残差连接操作在图上传播节点特征,捕捉不同特征之间的内部关系。接着通过图卷积捕捉不同特征的长程依赖关系,以端到端学习的方式对图卷积的邻接矩阵和参数矩阵进行初始化和更新,由此产生丰富的特征表示。最后通过反向投影将特征从潜在空间返回原始网络空间。LFPN通过在潜在空间中进行尺度内特征交互和跨尺度的特征融合,对内尺度和交叉尺度的长程依赖性进行建模,从而增强特征表示。

5 特征金字塔技术未来发展趋势

目前,特征金字塔技术的研究虽然取得一定进展,但是仍有许多问题需要思考和解决,包括金字塔结构较为复杂,泛化能力较弱,网络结构的不可解释性。因此这门技术在未来有如下发展趋势。

(一)轻量级特征金字塔

一些复杂的特征金字塔结构的确有助于检测性能的提高,然而,这种结构无法避免的损失是降低推理速度,这对于有实时需求的应用是一种无益的交换。现有的前沿特征金字塔技术中只有BiFPN明确指出轻量级体系结构的重要性。随着智能终端设备的普及,人体动作识别[7]、红外目标检测[8]等实时性任务对便携性、轻量级的需求日益增长,相信未来研究者会更加注重轻量级策略,将知识蒸馏、结构化剪枝等技术应用到特征金字塔结构中。设计极具高性能又满足实时性的特征金字塔结构,将为计算机视觉领域的发展带来新的机遇和挑战。

(二)更强的泛化能力

尽管特征金字塔技术发展迅猛,研究者开发很多新颖且强大的结构,但所有新结构在评估性能时,都是与在MS-COCO数据集上预训练的卷积神经网络相结合[9],并在特定的MS-COCO或PASCAL数据集上测试性能[10],这可能过度关注了数据集的分布情况。尽管一些下游任务使用了这些特征金字塔技术,在其各自领域实现较好的结果,但仍然无法预测在未来开发的新数据集和新任务上,这些技术是否也能实现很好的检测效果。因此,如何全面准确地评估新特征金字塔技术的泛化能力,是一个重要的挑战。

(三)合理的拓扑特征金字塔结构

利用神经架构搜索、图卷积等先进技术的一些特征金字塔方法被一些先进的研究团队如微软人工智能研究所定义为不可解释的拓扑结构,从这些方法的结构和代码可以看到性能提升的随机性,以及表达图像物体之间空间关系和拓扑结构的无效性,这导致语义鸿沟的出现。近年来的最新技术发展表明,合理的拓扑结构可以使模型参数更有效,对网络深度和宽度的探索也证实有效且可解释的特征金字塔结构可以创建更有益的语义信息流,有利于梯度传播。因此,如何设计可以有效表达图像内容特征,同时保持模型复杂度和性能平衡的有效拓扑特征金字塔结构,成为了未来研究的一个重要方向。

6 结束语

特征金字塔结构的持续发展已经成为计算机视觉领域的一个主流方向,高速高性能的特征金字塔结构更是成为无数研究者追求的目标。特征金字塔由于强大的特征重用能力,集成多尺度特征,融合上下文信息,从而提取更多的判别特征,提高模型的鲁棒性和泛化能力,对提高各领域任务非常有益。本文介绍了近几年发布在国际顶级会议上的主流特征金字塔结构,对其技术进行分析,并按照现存缺点对未来发展进行展望,希望能够对计算机视觉领域学习该技术的研究者有所帮助。

参考文献

[1]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.

[2]Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8759-8768.

[3]Qiao S, Chen L C, Yuille A. Detectors: Detecting objects with recursive feature pyramid and switchable atrous convolution[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 10213-10224.

[4]Xu H, Yao L, Zhang W, et al. Auto-fpn: Automatic network architecture adaptation for object detection beyond classification[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 6649-6658.

[5]Zhao G, Ge W, Yu Y. GraphFPN: Graph feature pyramid network for object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 2763-2772.

[6]Xie J, Pang Y, Nie J, et al. Latent feature pyramid network for object detection[J]. IEEE Transactions on Multimedia, 2022.

[7]陆静芳,智敏.基于MAPFormer的人体动作识别研究[J].内蒙古师范大学学报(自然科学汉文版),2024,53(01):44-52.

[8]邵延华,张兴平,张晓强,等.联合结构重参数和YOLOv5的航拍红外目标检测[J].电子科技大学学报,2024,53(03):382-389.

[9]Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13. Springer International Publishing, 2014: 740-755.

[10]Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International journal of computer vision, 2010, 88: 303-338.