面向自然语言处理的深度学习

(整期优先)网络出版时间:2021-09-02
/ 2

面向自然语言处理的深度学习

徐林波

许昌学院 河南许昌 461000



摘要:深度学习作为近年来的热门话题,在语言图像处理过程中日益发挥重要作用。本文以面向自然语言的处理为例,首先探讨开展深度学习研究的可行性,随后说明深度学习的应用路径。

关键词:自然语言;处理;深度学习


引言:语音图像处理研究的逐步升级,与深度学习价值逐步被挖掘关系密切。在未来的研究场景中,深度学习的作用不可替代。鉴于深度学习的重要性,有必要以自然语言处理为背景,探讨研究的可行性以及使用路径。


一、深度学习可行性研究

1.特征表示。对象的表现形式至关重要,也是自然语言处理的关注环节。以提升对象描述精准性为目的,在选择对象特征的基础上描述对象。传统处理文本的过程过于依赖手工抽取和词汇集合方式,执行效率和精准性明显不足,很多场景下需要重复进行特征提取工作,特征提取结果的共享度偏低。应用深度学习意味着自然语言处理的自动化程度有所提升,实现自动化方式获取特征数据的效果。

2.无监督学习。诸多自然语言处理相对依赖标志语料库,表现出明显的监督学习特征,实质上表现出对标注数据的依赖。但是通过标志语料库获取的标注数据规模庞大,如果在大规模的标注数据中进行挖掘分析,仅仅采取监督学习方式是远远不够的,事实上存在大量无监督学习需求。在标注数据分析场景中可以建立并应用一种训练模型,通过无监督学习方式就可以实现训练模型的构建效果并完成无监督训练任务,深度学习的优势之一就在于此。

3.学习多层分类。已知人脑结构是复杂的,相当于结构最完善的高级计算机。大脑结构中的皮质层与学习行为关联密切,说明皮质层与学习结构存在关联关系;而且这种表示关系抽象属性明显,对于任务处理过程提供交叉处理模式。由此可见学习模型的价值,在获取其中价值表示形式的基础上,充分发挥深度学习的优势。

自然语言体系中存在明显的递归属性,例如一套完整的语言结构包含较多的短语和词句,存在的特征资源也是非常丰富。利用深度学习可以对自然语言体系进行递归处理,并由此建立自然语言体系的递归组合;当前热门的递归神经网络充分体现递归操作思想。

4.技术支撑。组成深度学习结构的关键单位在于神经网络,若要获取高质量的训练结果,必须要有计算机技术的支撑和帮助。伴随着计算机技术以及相关技术的迅猛发展,计算机自身性能不断完善,能够为自然语言处理提供更多的支撑。图像处理本质上就是自然处理和计算机技术的融合,与此同时算法体系的快速发展,为完成更复杂的自然语言处理任务奠定坚实基础。例如在自然语言处理过程中经常使用到预演算法和模型,通过对RBM等技术的应用达到优化模型的效果。技术发展永不停歇,意味着深度学习研究还会进一步发展。


二、深度学习应用路径

1.应用目标。深度学习的应用过程需要合适的算法作为支撑,并采用原始特征达到表示效果,本质上体现出对深度学习模型的应用。以常见的图像处理过程为例,首先采用图像像素矩阵实现图像原始特征的表现效果;对于语音的处理则采用类似的路径,在设定语音单位的基础上,从一段语音中获取音素并分析。

由此可见深度学习具有明显的特征学习属性,以目标图像、语音的原始特征为基础,经过多层次结构处理后掌握其特征,并对这种特征进行学习。通过自动学习总结获取的特征能够表示深度学习,并与一定范围内的任务相结合。在此基础上可以构建新型分类器或者生成其他功能的工具,拓展新型分类器的任务领域。例如在一种逐层训练场景中,自动编码器在逐层训练体系中扮演核心角色。此前提到深度学习模型的关键在于神经网络,这一职责通过自动编码器体现。

2.无监督编码器的构建。首先提供原始输入资料,在无监督编码器体系中应用到训练模型,实现对结构的认知效果。根据输入的原始资料进行编码处理,由此获取输入资料的初级特征。获取特征后需要验证处理,确保信息没有出现丢失现象;因此通常将学习编码器和解码器结合使用,解码器主要负责输入资料特征的验证任务,确定其中是否存在数据丢失现象。通常情况下采用代价函数方式表示验证之后存在的误差现象,也是反映输入比较验证结果的重要方式。这种代价函数可以在训练场景中充分应用,通过代价函数训练后的编码器,在参数神经网络体系中扮演第一层模型的角色,进而获取原始数据的抽象表示结果。这种编码器融合神经网络的特征并表现出参数稳定性,完成原始数据结果抽象表示的任务后,需要对编码器参数进行固定处理,此后开启新的模型获取循环,由此获取其他层次的模型并达到训练的基本目标,最终获得自动编码器。

3.有监督分类器的构建。原始输入信号的特征并不是单一的,通过原始输入信号可以获取多种类型的表达特征;虽然构建了自动编码器并实现特征获取效果,但是对于获取特征的分类处理效果并不理想;由于这些特征类型众多,如果不能妥善处理特征分类任务,意味着特征利用效果也会出现折扣。因此有必要基于自动编码器的缺陷,构建分类器加以弥补。分类器主要设计在自动编码器的顶层,在调整参数的过程中可以针对自动编码器以及最顶层的分类器,发挥标签样本的作用。对于构建的深层模型进行调整处理,力求达到深层模型的应用最优解。基于深度学习理念建立的模型相对于浅层模型有很大的改进,浅层模型的根本缺陷在于无法彻底摆脱对人工主观经验的依赖,对于特征的分类以及预测效果参考价值不大,模型的作用无法深入发挥,最终结果受特征选择的影响偏大。因此在研究特征提取分类问题的过程中需要掌握到任务领域的关键点,同时大量的实验也是必不可少的,通过反复开展实验进行深入探索,方可达到问题研究的最佳效果。对于初始化模型的层次分析过程中可以发挥隐蔽层的作用,获取原始输入的结果后采用抽象方式表示,此后进一步探寻输入资料的特征,确定输入资料的具体类型,实现输入资料特征分类目的,提升获取特征结果的有效性和利用价值,模型深度训练的关键就在于此。

自然语言处理的过程需要综合考虑特征表示、特征提取等多项任务,在表示输入内容原始特征的过程中可以采用向量空间模型等多种方式;同时要对语言实际特征有精准的掌握,进而选择最合适的表示原始特征的模型。此前提到自然语言的递归特征,这种递归特性事实上反映出语言这一概念的最根本特性;在自然语言处理过程中可以建立神经网络模型,循环神经网络的应用非常典型,另外还有卷积、递归等多种神经网络模型。

4.深度学习应用总结。对于深度学习模型的构建要发挥原始特征的价值,采用端对端方式完成模型构建任务,基于建立的模型开展特征分析工作。另一种路径则注重到训练的原始特征,并将这种特征应用在实践环境中并起到辅助的作用。前一种思路的典型体现是Senna系统,这种思路以神经网络和向量方法为基础,对自然语言进行实体识别、词性标注等操作;Socher系统的工作原理类似。后一种思路的典型系统是Turian系统,发挥最优系统的作用,对于加入的词向量进行识别命名处理,保证识别处理的精准性,同时缩短识别过程的时间消耗。


结束语:关于深度学习的研究正处于不断推进的状态,对于语音图像处理的作用也会被进一步发掘。在自然语言处理过程中需要注重对深度学习的应用,不断增强特征提取分类效果,体现深度学习的价值。


参考文献:

[1]冯志伟. 神经网络、深度学习与自然语言处理[J]. 上海师范大学学报(哲学社会科学版),2021,50(02):110-122.

[2]仝鑫,王斌君,王润正,潘孝勤. 面向自然语言处理的深度学习对抗样本综述[J]. 计算机科学,2021,48(01):258-267.

[3]蒋萍. 基于深度学习方面自然语言处理技术(NLP)的研究[J]. 数字通信世界,2021,(01):31-33.

[4]刘睿珩,叶霞,岳增营. 面向自然语言处理任务的预训练模型综述[J]. 计算机应用,2021,41(05):1236-1246.

[5]马郅斌. 自然语言处理中的深度学习:方法及应用[J]. 科技传播,2020,12(21):128-130.