衢州职业技术学院 浙江省衢州市324000
摘要:信息时代票据是其产物,是贸易和商业的象征,是维持消费者维权坚实基础随着数字时代的到来,票据在企业财务报销中的重要性越来越明显。使用票据也对财务人员施加压力,财务部门仍然有多个票据,大量票据使财务人员在录入查询中效率极低。随着大数据分析的蓬勃发展和深度学习世纪的到来,深度学习技术在图像处理中的应用越来越有效,基于深度学习的建模算法越来越强大,一些网络公司如阿里、腾讯、百度等票据验证提供了增量验证和票务接口。在信息时代,票据给人们的生活带来了极大的便利。但是,票据输入可能需要很长时间,有些可能会给财务人士带来负担。幸运的是,大数据分析和深度学习技术的开发通过基于深度学习的方法简化了这一过程。
关键词:票据分类;文本检测;文本识别
票据作为贸易关键工具,在数字时代对企业的财务报销起着重要作用。随着纸币数量的增加,财务人员在手动输入数据方面的效率越来越低。此外,包含大量个人信息,如果被滥用,可能会造成无法估量的损失。为了解决这些问题,许多公司为公司的内部网开发了票据识别。为了提高财务报销能力,本文提出了一种基于深度学习的方法。实施此过程的具体步骤包括首先对财务部门常见的不同类型发票的图像进行分类,然后对文本进行本地化和识别,最后从关键字段中提取信息。
一、票据识别系统的整体架构
典型的系统有前端和后端,包括客户端和服务器。客户端负责与用户交互,上传目标图像并显示扫描结果。该服务执行深度学习算法,如图像分类,文本检测,识别和提取。票据识别首先,图像分类引擎根据图像分类结果将图像发送到不同的算法服务器。其次服务算法执行深度学习算法来检测文本并提取有关文本字段和相关文本信息的信息。最后,提取根据文本框的位置和内部文本标识符映射关键字段,票面金额和日期。
二、票据识别系统的算法设计
1.票据分类。票面布局,背景,文本结构等,由于上述票据之间差异较大,同一类别较高一致性,有必要对票据进行分类,提高文本识别的准确性和文本识别模型。图像分类是计算机视觉领域的一项基本任务。在深度学习之前,图形特征通常是手工开发的,用于训练机器学习模型和神经表面网络。然而,功能技术是一个非常复杂和劳动密集型的过程,它依赖于广泛的经验和测试。尽管引入了定向梯度方向HOG和SIFT不变性等运算符,但图像分类的准确性仍然非常低。随着卷积神经网络(CNN)的出现,研究人员可以训练具有多个参数的模型,以自动执行资源提取和分类任务。CNN的基本结构由几个层组成,包括卷积、池化和全连接层。卷积层通过组合输入图像和学习的过滤器来创建检索函数。池化层旨在减少主要特征图,该系统使用ResNet分类算法,CNN网络增加了网络的广度和深度,深层网络通常比浅层更好,但深度的增加可能会导致梯度弥散和爆炸。ResNet特点是使用内部残差块连接,随着网络深度的增加,这些梯度消失,从而提高了学习和整体性能。
2.文本检测。是计算机视觉领域的一个重要问题,被认为是对象识别的一种特殊形式。文本检测是分析和提取文档,识别和提取图像中的文本区域。自然场景中的文本可以有多种方向,形状不均匀,极端长度比例,不同的字体,颜色和背景。此外,文本可能遮挡在其他对象中或显示在杂乱场景中,这使得很难提取它,是使用DBNet文检测模型,微分二值化使用(DB)来解决传统二值化算法中的非可微分梯度问题。首先,网络使用特殊技术来识别接收到的图像,然后从图像中提取属性F以生成p概率图和T值,最后近似二值图概率图和阈值图计。预测概率、阈值和近似二值基本上是在训练期间控制的。在推理过程中,只需预测正确的概率或近似二进制即可获得文本框。
3.文本识别。将检测文本字段转换为可编辑和可搜索的文本,文本识别算法分为基于技术的方法和基于深度学习的方法。基于功能性技术的方法首先突出显示图像特征,然后使用标识符来识别文本。该方法基于深度学习,使用神经网络直接从图像中学习文本特征,并使用语言模型来识别文本。对于用户输入,CRNN首先通过卷积神经网络捕获图像特征,然后提取有关图像特征的语义信息,使用短时记忆(LSTM)重建特征,最后执行相应的特征并预测权重。
三、实验分析
1.数据集。为其创建发票带标注,有票据的分类、文本位置和部分文本框的文本。由于票据上的文本量以及主字段的总数、日期和部分,因此只有关键字显示在文本字段中,其中深色文本框的关键字表示主字段的文本部分。Paddle Labe工具,简化了手动标记与Paddle标签。数据集中的票据图像用于形成训练票据类模型。在原始票据图像中标记文本框可用于形成文本检测模式。与此字段对应的文本将标注在关键字段旁边,票据分为训练,测试和验证区域,比例为8:1:1:1。此外,可以使用预训练化的文本识别网格,其中包含10万张行图片并标注。
2.实验环境。所有实验均在配备两个Tesla T4卡、32 GB RAM和八个英特尔5218 R处理器的工作站上进行。
3.文本分类。由VGG-19、ResNet-45和ResNet-50卷积神经网络模型对分类任务的影响如表1所示。在文本分类阶段,引入数据模块,增加网络层的数量,以减少模型的梯度消失。如表1所示,选择ResNet-45作为票据分类,因为ResNet-45是最准确的。
表1文本分类模型指标对比情况
企业出于会计目的使用票据正在迅速增加,并增加了负责输入票据的财务工作量。然而,传统的手工输入票据效率低下,无法满足不断增长的票据需求。为此,提出了一种基于深度学习技术的票据识别系统。本文对该系统的加工精度和速度进行了实验测试,并与传统的人工识别进行了性能比较,结果表明,拟议的系统优于人工识别。
参考文献:
[1]范凯强.浅谈电子发票对高校财务报销的影响[J].行政事业资产与财务,2021(24):87-88.
[2]广东省税务局.国家税务总局广东省税务局关于开展全面数字化的电子发票试点工作的公告[EB/OL].2021-11-30/2022-01-27.
[3]黄牛.图像物体分类与检测算法综述[J].计算机学报,2021,37(6):1225-1240.