基于YOLOv5改进的人脸检测网络

/ 2

基于YOLOv5改进的人脸检测网络

吴宇晨 王博 张新伟

(商洛学院电子信息与电气工程学院 商路 726000)

摘要:

在yoloV5网络的基础上,提出一个名为“HSA-YOLOv5”的人脸检测网络。此网络使用C3HB模块替换主干网络中的C3模块,使用space-to-depth取代了原有的卷积模块。此外在detect过程中也将Detct结构替换为ASFF_Detct结构,也提高了特征融合能力。在Widerface和AIZOO人脸数据集上经过训练和测试,结果表明,原始YOLOv5算法无法在恶劣环境下有效检测人脸,而本文提出的网络有效提高了检测的平均精度(AP),将平均精度(AP)从原始网络的90.9提高到92.2。

关键词:人脸识别,深度学习,YOLOv5,注意力机制

1 研究背景

人脸识别技术作为生物特征识别领域的重要分支,近年来取得了显著的发展。该技术利用人脸的独特性和普遍性,结合图像处理和模式识别技术,实现了在不同场景下的自动化人脸识别。人脸识别的广泛应用包括公共安全、电子商务、人机交互等领域,特别是在安防和金融行业中,人脸识别技术的应用大幅提升了身份验证的准确性和便捷性。然而,真实场景中的遮挡、光照变化、姿态变化等因素对人脸检测和识别的准确性构成了挑战,因此,研究鲁棒性强的人脸检测算法对于提高人脸识别系统的整体性能至关重要。

国内很多学者对人脸检测方面都有相关的研究。2012年,He Kaiming等人提出了一种基于区域建议网络(R-CNN)的改进算法,该算法通过区域建议网络生成高质量的候选区域,提高了人脸检测的准确率。2015年,Schroff提出了FaceNet算法,该算法通过直接在图像到欧氏空间的映射中学习人脸特征,显著提升了人脸识别的性能。2016年,Redmon提出了YOLO(You Only Look Once)算法,这是一种实时目标检测系统,也适用于人脸检测任务。2017年,Redmon, J提出了YOLOv3算法,进一步改进了YOLO系列,提高了检测速度和准确率。2018年,高锦风等人提出了基于改进的YOLOv3和Facenet的无人机影像人脸识别算法,提高了对遮挡和模糊人脸的识别鲁棒性。2020年,潘浩然通过改进YOLOv3的损失函数,针对人脸检测中的错检和漏检问题进行了研究。2021年,高锦风等人的研究结合了SE-ResNeXt网络和CIOU损失函数,提高了人脸检测的精度和召回率。2022年,中国科学院大学的研究人员通过结合轻量级网络和多尺度特征融合技术,提出了一种适用于移动设备的高效人脸检测算法。

本研究旨在通过基于YOLOv5的人脸检测方法,通过改进部分主干网络和head部分为实际应用场景提供更可靠、高效的人脸检测解决方案。通过深入挖掘YOLOv5模型在人脸检测中的性能表现,本文希望为相关领域的研究和应用提供有价值的参考,推动人脸检测算法的不断进步。

2.改进的yoloV5人脸检测模型

2.1模型改进

对原始YOLOv5模型做出三个改进,改进后的网络如图1所示。

(1)将原始YOLOv5骨干网络中的加入Space-to-depth模块,此模块会减少了网络的层数、减少了网络中的参数、减少了运算次数、减少占用CUDA内存、提高前向传播和反向传播的速度,同时将对mAP的影响降至最低。

(2)在主干网路中引入C3HB模块,提高了网络的特征表达能力。

(3)ASFF_Detect模块通过引入自适应空间特征融合方法,提高了算法对目标检测的精度和鲁棒性,使得算法在实际应用中能够更好地应对各种复杂场景。

图1  HSA-YOLOv5改进网络

2.2 Space-to-depth卷积

空间-深度结构是一种类似于Focus的结构如图2所示,该组件将基本图像下采样转换技术推广到 卷积模块对特征图进行下采样。该结构首先以步长为1将输入的特征图分割,在宽度(w)和高度(h)两个方向上每隔一个像素提取得到四个不同的下采样特征图。随后,对每个像素下的其他通道进行单独分割,得到四个单独的特征图  ,将这四个特征图的全部维度进行堆叠,得到宽度和高度分别为原输入一半,通道维度为原输入四倍的特征图,最后,经过一个1*1的卷积调整为与原始输入通道一致的大小后输出。

图2 深度-空间转换结构

2.3 C3HB模块

基于gnConv,构建了一种名为HorNet的新型通用视觉主干网络,将其在目标检测网络中优化后命名为C3HB,该结构如图3所示。其的结果表明,gnConv可以是视觉检测方法的一个有效的替代方案,并有效地结合了视觉Transformer和传统卷积的优点。

HorNet使用gnConv作为Vision Transformer或传统卷积模块中空间混合层的替代方案。在HorNet中,采用了与某些视觉Transformer相同的架构,即每个基本块包含一个空间混合层和一个前馈网络(FFN)。这意味着HorNet利用了gnConv来实现图像数据中的空间交互,从而代替了视觉Transformer或卷积模块中常用的空间混合层。通过这种方式,HorNet能够在构建模型时利用gnConv来增强模型的特征表达性能和效果。

图3 C3HB模块

3 实验结果与讨论

3.1 与主流模型的对比实验

为了对比改进模型HSA-YOLOv5与主流目标检测网络,本文选择与SSD、YOLOV4、YOLOV5s模型进行对比,表2列出了不同模型的精确度、召回率、mAP和帧速度。

表1  主流模型训练结果

模型

Model

精确度

Precision/%

召回率

Recall/%

平均精度均值

Mean average precision mAP/%

帧速率

Frame per second

FPS/(帧·s-1)

SSD

80.3

81.3

81.08

102.1

YOLOv4

81.4

89.6

88.4

80.6

YOLOv5s

84.0

92.8

90.9

135.1

HSA-YOLOv5

84.9

94.4

92.2

119.0

由表1可以看出HSA-YOLOv5模型在人脸检测方面的效果更高,结果显示HSA-YOLOv5模型的精确度、召回率、mAP都是最高的,相较于原始YOLOv5s模型精确度、召回率、mAP分别提高0.9、2.6、1.3,因此改进后的模型能更优秀的完成人脸检测任务。

32 检测效果对比

经过改进后的YOLOv5算法在人脸检测方面展现出了更为优秀的性能。在实际应用中,改进后的YOLOv5算法能够更准确地识别并定位人脸。从图4可以看出,在放大后的密集人脸检测效果图中,改进后HSA-YOLOv5网络比原始YOLOv5s网络对人脸的检测误检和漏检的人脸都更少。故改进后的算法有效解决了YOLOv5模型可能出现的漏检、误检问题,改善了复杂情况下人脸检测的精度。

图4 检测效果对比

3结论

本研究通过引入一系列改进模块,成功地提高了基于YOLOv5的目标检测模型的性能。我们使用了C3HB模块替换了原有的C3模块,增强了网络的特征提取效果。采用了SPPF模块增加模型对于图像全局和局部信息的感知能力,提升了检测精度。并使用了Space to Depth模块替换了原来的CBS模块,该模块有助于减少模型的计算复杂度和参数量,同时保持模型的有效性和性能。此外,实验还将Detect模块替换为ASFF_detect模块,改模块能够更好地结合不同层级的特征信息。这些改进模块的引入,显著提高了模型的检测精度。

参考文献:

[1]He, K. M., Zhang, X. Y., Ren, S. Q., & Sun, J. (2014). Spatial pyramid pooling in deep convolutional networks for visual recognition. In European Conference on Computer Vision (pp. 346-359). Springer, Cham.

[2]Schroff, F., Kalenichenko, D., & Philbin, J. (2015). FaceNet: A unified embedding for face recognition and clustering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 815-823).

[3]Redmon, J., pvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE [4]Conference on Computer Vision and Pattern Recognition (pp. 779-788).

Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.

[5]高锦风, 陈玉, 魏永明, 李剑南. 基于改进的YOLOv3和Facenet的无人机影像人脸识别. 中国科学院大学学报, 2023, 40(1): 93-100.

[6]潘浩然. 基于改进损失函数的YOLOV3的人脸检测[D]. 南昌: 南昌大学, 2020.

项目基金:省级大学生创新创业项目S202211396036