基于语音合成的翻译机器人设计

(整期优先)网络出版时间:2023-07-25
/ 2

基于语音合成的翻译机器人设计

林智同

330104199008131610

摘要:随着我国信息技术的快速发展,计算机技术在企业与生活中广泛应用在机器人设计过程中,针对机器翻译效果不佳的问题,提出设计一个基于语音合成的翻译机器人。首先,采用翻译机器人语音系统中的语音硬件设备进行语音数据采集;然后通过语音信号预处理方法分别进行数据预加重、分帧加窗和端点检测之后利用语言模型进行语音信号特征提取最后对翻译机器人语音进行编码处理,以实现精准识别。由此说明,本系统进行语音识别的所用时间更短,检测率更高,为翻译机器人语音交互提供了有效的数据支撑。

关键词:语音合成;翻译机器人;双门限算法;端点检测;递归神经网络

引言

翻译权是我国《著作权法》规定的著作财产权之一,即将作品从一种语言文字转换成另一种语言文字的权利。翻译权与改编权、摄制权等权利都属于利用已有作品创作出具有独创性作品的演绎权。演绎权具有“改变作品”和“创作出具有独创性的新作品”两个要件。翻译权进入著作权的权利体系是版权贸易发展的结果。19世纪,随着国际图书贸易的发展,作者开始关注作品的海外市场,但由于各国版权法坚守地域性原则,外国作品得不到保护,海外市场的图书盗版现象严重。

1翻译权制度技术基础的改变

在翻译权进入著作权权利体系之后的相当长时期内,翻译行为都是由自然人通过智力劳动直接完成的所谓“翻译技术”可能仅指翻译者的学识、经验和技巧,与科学技术几乎不发生关联,在此条件下,“完全依赖自然人翻译者的智力劳动”就构成了翻译权制度的“技术基础”。电子计算机技术出现之后,科学技术真正对翻译产生了直接影响,机器翻译本身就是技术应用的结果,机器翻译在经过了基于规则的机器翻译和统计机器翻译两个阶段之后,目前已经进入了对神经网络技术的应用阶段,人工智能技术已经成为现阶段支撑机器翻译的主要技术。机器翻译大量应用的现实已经昭示了翻译权制度技术基础的变迁,有学者将“特定时期由综合性的技术驱动引发的翻译研究和翻译实践的整体性变革”称之为“翻译技术转向”。不同于“完全依赖自然人翻译者的智力劳动”的传统翻译,人工智能时代基于深度学习的翻译系统(又称为“深度学习机器翻译”或“神经网络机器翻译”)可简单地由一个“编码器”(分析训练数据的系统部分)和一个“解码器”(根据编码器分析的数据,针对给定语句能够自动生成翻译的系统部分)组成。神经机器翻译的基本思想是利用神经网络对源语言和目标语言进行编码和解码,“编码器”将源语言序列映射到实数向量上,获得源语言序列的语义表示,“解码器”从“编码器”中获得源语言序列信息并计算目标语言表示,然后从该表示中计算目标语言序列各个位置的单词概率分布,基于单词概率分布,解码算法采样出合适的目标语言单词。不难看出,神经机器翻译所采用的“编码器”与“解码器”相互配合的技术原理与“完全依赖自然人翻译者的智力劳动”存在较大差异。

2基于语音合成的翻译机器人软件设计

2.1语音识别系统

语音识别即将一段语音信号转换为文字序列,其语音识别系统软件设计整体结构。语音识别系统主要分为四个部分,分别为声学特征提取模块、声学模型、语言模型、发音字典和解码器。该系统通过对语音数据进行特征提取后,即可将提取特征输入至声学模型中进行训练之后将训练结果与语言模型数据进行匹配最后进行语言模型解码,最终输出识别结果。

2.2语音信号预处理整体思路

翻译机器人主要通过MBO450CSC驻极体电容传声器采集用户的语音声波信息。由于采集的数据在嘈杂环境下会受到背景噪声影响,导致在信噪比低的环境下错误识别率较高。为解决此问题,提出采用改进的通用双门限端点检测算法对语音信号进行预处理,以提升语音识别正确率。

2.3语音信号预处理

语音信号预处理即对采集的语音信号进行预加重、分帧加窗和语音增强,具体操作如下。

2.3.1预加重

对语音信号进行预加重,能够在一定程度上增强高频频谱幅值,降低低频频谱幅值,从而提升语音识别正确率。为降低机器翻译机器人的错误识别率,提出对语音信号的高频部分分辨率进行增加,并采用高通数字滤波器进行语音信号预加重。该滤波器的传递函数可表示为:H(z)=1-az-1式中,a表示预加重系数,通常取值为0.98[10];当n时刻的采样语音值为f(n)时,预加重处理后的语音信号F(n)的表达式为:F(n)=f(n)-0.98f(n-1)(2)通过以上公式进行预加重处理后,可有效抑制低频语音片段分辨率,增加高频片段分辨率。

2.3.2加窗分帧

由于采集的语音信号存在幅值变化较大的问题,使得预加重后的语音信号稳定性较差。为解决此问题,提出采用加窗分帧处理方法对短时平稳的语音信号进行分析处理。语音数据加窗分帧算法的具体计算流程为:首先输入原始数字语音信号,读取语音数据并进行归一化处理;然后计算采样时间,将音频信号进行分帧加窗,计算总帧长和帧数取整后语音信号总长度;之后再进行分帧操作,由此可获得帧信号;最后即可进行信号加窗处理,最终输出加窗分帧后的数字语音信号。

2.3.3基于改进双门限算法的语音端点检测完成

语音分帧加窗预处理后,即可进行语音片段端点检测。常见的端点检测方法为双门限端点检测算法,其采用设置过零率阀值和能量阀值分别进行语音片段中的清音和浊音片段识别。在安静环境下,传统的双门限端点检测算法可取得较好的识别效果。但处于嘈杂环境时,极易出现低信噪比线性和突发性噪声,使得短时能量和短时平均过零率增加,导致语音识别错误率提升。基于此,提出对传统的双门限端点检测算法进行改进,即将短时能量和短时过零率相结合,从而实现语音片段中清音片段的准确识别,降低错误识别率。

2.4基于递归神经网络的语言模型构建

参考基于序列到序列的深度学习模型,常用的序列到序列的转换模型通常为卷积神经网络、递归神经网络和门控神经网络。三种神经网络中,递归神经网络具备超强的记忆功能,更适用于构建语言模型。递归神经网络的基本原理为对人类思考和记忆时大脑中的神经元进行模拟,该网络主要先从短期记忆对当前情况进行决策。

结束语

综上所述,设计的基于语音合成的机器翻译机器人具备可行性和有效性。语音信号识别系统可有效解决传统翻译机器人在嘈杂环境下无法准确识别语音的问题,从而提升了机器翻译效果,提升了语音识别准确率和人机交互效果。实验发现,提出的改进双门限算法进行端点检测的所用时间更短,识别正确率更高,对比于现有的双门限算法的所用时间更短。其为后续语音识别系统的语音识别提供了有效的数据支撑。

参考文献

[1]田泽佳,门豪,卓奕炜,等.基于前向注意力机制的长句子语音合成方法[J].电子设计工程,2022,30(18):86-90.

[2]黄清,方木云.一种基于HMM算法改进的语音识别系统[J].重庆工商大学学报(自然科学版),2022,39(5):56-61.

[3]张冠萍.基于手势识别的智能英语翻译机器人人机交互系统[J].自动化与仪器仪表,2022,(10):192-196.

[4]郭科,白英,邵雪瑾,等.基于多尺度注意力及卷积递归神经网络的端子排文本识别[J].安徽大学学报(自然科学版),2022,46(6):49-56.

[5]王浩.基于车联网的ESP32模组在线语音识别控制系统设计[J].办公自动化,2022,27(20):22-26+64.

[6]罗思洋,龙华,邵玉斌,等.噪声环境下多特征融合的语音端点检测方法[J].云南大学学报(自然科学版),2021,43(4):671-680.