简介:摘要:图像标注处理是一种连接图像和文本的处理方法。人眼可以看到图像上的信息,但对于计算机来说,图像只是像素值,而文本标签是字符串。两者之间的信息是不对称的,这意味着存在“语义鸿沟”。本文将使用卷积神经网络算法作为主要模型来解决这一“语义鸿沟”。然而,传统的卷积神经网络可能泛化能力较差,忽略了小对象特征。因此,该项目将添加去噪自动编解码模型(DAE),并引入空间金字塔池(SPP)来改进算法模型,抑制图像信息中一些不重要的数据特征。为了提高模型的泛化能力和鲁棒性,同时考虑全局和局部信息,Skip gram模型用于计算标签之间的相关性,过滤掉不合理的注释词,使预测的注释词更接近图像信息。