身份证:2304021992****032X
摘要:在当前的发展阶段下,产业升级转型正在不断推进,在此背景下,人工智能技术获得了很大的发展,人工智能技术作为信息技术高度发展的产物,能够在社会生产生活中发挥重要的作用。目前人工智能技术已经被广泛的应用于各个行业领域中,相关技术的应用在转变产业发展方式,提升生产效率方面发挥了重要的作用。目前来看,在人工智能领域,语音识别技术发展较快,且技术也较为成熟,已经进入到了商业应用阶段,基于语音识别技术的智能语音机器人也被实际投入应用,并在应用的过程中展示出了较为明显成本优势以及效率优势。基于以上认识,本文从语音识别技术的概念出发,结合现阶段语音识别的实现难点,探讨语音识别技术在智能语音机器人中的应用要点以及应用实践,希望该研究能够能够为语音识别技术的实际应用提供一定的参考。
关键词:语音识别技术;智能语音机器人;可信度衡量;应用
人工智能时代,应用语音识别技术,实现更为高级的人机交互是现阶段的研究重点。现阶段人工智能机器人、虚拟现实技术以及机器学习算法都有了长足的发展进步,但是想要实现真正的人工智能还要克服很多问题,其中语音识别技术的有效应用就是一个绕不开的话题。目前来看,在人工智能领域,语音识别、自然语言理解以及语音合成是实现人机交互的主要方式,现阶段随着语言识别技术应用潜力不断被发掘,学界对于语音识别技术的研究也有所突破,尤其在智能语音机器人研发方面已经取得了巨大的进展,现阶段的智能语音机器人已经具备了比较高的应用价值。加强语音识别技术在智能语音机器人中的应用研究,对于该技术的发展以及应用具有重要的意义。
一、语音识别技术的概念
语音识别技术起源于二十世纪五十年代,该技术的最终目的就是让机器理解人类语言,从而提升人机交互水平[1]。从语音识别技术目前的研究重点来看,主要集中于连续语音识别与孤立词语音识别,二者在声学模型上有很大的差异。一般来说由于孤立词语音识别在技术上相对简单,因此往往应用DTW 动态时间规整算法,而连续语音识别存在较大的技术难度,因此需要应用HMM 模型或者 HMM模型,结合人工神经网络ANN来实现。
声音的能量来自于呼气过程中所产生的相对平稳的气流,喉部的声带起到了阀门和振动的作用。语音信号可以被看成是一个可以用 HMM (隐马尔可夫模型)来描述的时间序列[2]。对语音信号进行数字滤波和滤波,然后对其进行终端检测,从而获得语音片段。通过对语音片段的特征提取,将其转化为一系列的矢量序列。在此基础上,利用观测数据进行 HMM参数的估算。其中包含了观测数据的概率密度函数、相应的状态、状态转换概率等。在参数估算完成后,利用所估算的参数进行辨识。这时,将所采集到的观测值作为检测数据进行识别,从而对识别的准确性进行统计。该方法可以从一个特定的角度获得语音序列,并且可以方便地进行语音的识别,但是长时间的连续语音输出不可避免地会忽略部分语音的识别。在实际应用的过程中往往会出现使用者与机器人进行对话,但是机器人毫无反应或者与对话主题相偏离的情况。而人工神经网络是根据生物神经网络的特点构造的一种算法,它可以通过对大量输入—输出模式之间的映射关系进行学习和存储,从而达到识别语音的目的。人工神经网络是当前人类面临的一个难题,如果能够建立起一套完整的、系统的人工神经网络,智能语音机器人的语音识别将会达到百分之百的准确率。
二、语音识别的实现难点
虽然神经网络和深度学习是目前人工智能领域的前沿技术,但是相关技术距离真正的人工智能还有很大的差距。在人工智能的语音识别中,人工神经网络技术的应用面临着现实问题,例如,建立神经网络不但需要海量的数据支持,而且机器学习方法也与人类有很大的不同。对于一些特殊性的技能与事务,人类可能只需要少量的例子就可以理解学会,而对于机器,则需要数以万计的数据[3]。
在与智能语音机器人进行对话的过程中,其语音识别系统需要依据神经网络所学习的内容来判断识别语音的内容,在此基础上给出有针对性的回应。要实现这一点,就需要人工智能在语音识别的阶段记录学习大量的语音信息。而现阶段大数据和云计算技术的应用也存在诸多局限,智能机器人很可能会因为语音识别的效率太低而不能投入使用[4]。目前,很多大的软件厂商以及互联网巨头都在布置智能语音机器人,比如华为小艺、百度助手、小米小爱等。此外语音识别技术在电话客服中心也得到了广泛的应用,大量的智能语音机器人被应用于营销推广以及语音质检等方面。在现实的人机互动中,我们可以清楚地感受到语音识别技术的重要作用。这些都需要有人工智能技术的支撑,而语音识别技术在智能机器人中的应用尤为突出,因此必须突破技术上的限制,以实现更为高效准确的语音识别。
三、语音识别技术在智能机器人方面的应用要点
(一)问题域及相关数据组织
智能机器人和使用者之间的对话内容会被限制在特定的范围之内
[5]。在各个问题领域中,首先要找出数量有限的词库,然后用大量的语料库来训练处对应的词类。关键词列表是由词汇表中提取出来的,这些词汇表中的词汇和它们的有关信息有助于机器对问题的理解。另外,需要基于关键字表构建一个关键字的组合模板库,在该模板库中,每一个模板都代表了一个特定的问题字模板,用于智能语音机器人对相关问题的理解。
(二)识别结果可信度度量以及拒识
在关键字抽取、问题理解等过程中,语音识别的结果将会对整个系统的整体性能产生重要的影响[6]。在语音识别模块中,需要使用连续的声音识别引擎。在限定领域和限定词汇量的前提下,只要不超出限定词汇量,则识别的准确率可达95%。但当问题超出定义范围或者限定领域,识别系统的工作效率将大大降低。所以,衡量语音识别的可信度,对于减少集外词所产生的负面影响,是非常有必要的。
为了解决这一问题,可以采用统计语言模型,对所获得的整句的可信性进行度量。当一句话的错误率较低时,大量的三元短语就会在统计语言模型 Trigram中出现。相反,当更多的识别性错误发生时,大多数的单词和二元词组都会出现在 Unigram或 Bigram中。对几个单词组成的句子,要按照不同单词和它们组成的词组在统计语言模型中的表现进行评分。词语如在 Trigram中,有较高的可信性,因此得分也更高。而出现在 Unigram和 Bigram上的可信性很差,所以分数很低。最后,根据每个单词的得分,得出全句的可信程度。如果分数在一定阈值以下,就会被视为含有更多的识别错误,或者该词语的可信性不高,应该被拒识。
(三)关键词检测
通过识别所获得的识别结果,往往是由不同词汇组成的词序列,有些单词在理解整句话时起着举足轻重的作用。这些词就是关键词。关键词检测就是要把关键字抽取出来,组成一个关键字串,然后输入下一步的问题。这样的处理方式,也可以减少智能语音机器人在理解问题过程中的难度
根据问题领域的特点,设计出相应的关键字,并在此领域中预先指定该关键字是语音识别的关键环节[7]。关键词表在对应的问题范围内,需要对汉字串的类型、标识以及词序号等进行详细的描述。在检索关键字时,只要对语句进行检索,找出关键字,并将其出现的地点和顺序记录下来。例如:“想问一下现在伦敦的本地时间几点?”就需要从汉字串中抽取出关键词串“现在 伦敦 本地 时间 几点”。 以及对应的英文字串“Now+ city+ local time+ oclock”的关键字。对没有关键字的语句,可以将其视为无效或错误,并给予相应的提示。
(四)问题理解与答案生成
通过对关键字的抽取,可以获得汉字字符串和例句,从而实现对问题的理解和解答。在解决问题时,需要将所识别的关键词串,与模板结合库中的模板相比较,可以将其映射到特定类型的问题中,就像是“Now+ city+ local time+ oclock”这样的问题,可以被归类到“查询某个城市的本地时间”的问题。在智能机器人语音识别系统中,需要为每一个问题设计大量的关键字组合模板,每一个模板都对应一个问题,当一个关键字类型被映射到一个特定的问题时,就可以进行解答,如找不到关键词所映射的问题,可将问题视为无效或者错误。
在回答问题时,问题的类型已被明确,因此回答的基本的句式也就被确定,只需对其进行特定的补充就可实现对问题的回答[8]。通过抽取关键字、汉字字符串、字序列等关键字,可以对问题的特定内容进行惟一的判断,从而得出问题的最后解答。
五、语音识别技术在智能语音机器人领域的应用
(一)语音识别系统总体设计
智能语音机器人的主要任务就是识别和处理人类的语言,并与用户进行实时交互。通过研究大量的期刊文献可以发现,目前的智能机器人在语音识别上还存在着许多缺陷和问题,相关问题不但会影响到机器人的交互行为,还会导致算法的混乱,从而影响到人机互动[9]。因此,语音识别系统的整体结构应该包含语音控制与机器人行为控制两大部分。首先,在语音控制系统中,必须要有语音指令的识别和预处理环节,同时要有相应的翻译工具来对输入的语音进行分析,把输入的语音转化为计算机能够听懂的语言。其次,在机器人的中央控制系统中,必须具备与输入语音进行交互的能力,特别是需要有高效的分析算法作为支撑。大部分机器人的语音交互能力都是由其自身计算能力来决定的,有些机器人不仅能解答用户的问题,还能做出正确的判断。因此,在语音识别过程中,算法的分析和设计是非常重要的,需要根据智能语音机器人的设计目标与自身特点,选取相应的编译语言和算法。人工语音智能机器人除了要有强大的计算能力和编译能力外,还要考虑到很多细节问题。比如,在智能机器人的实际应用中,终端探测器声音识别系统的好坏会直接影响到机器人的实际应用,哪怕它的运算能力再强,再好的翻译程序,在语音识别阶段,也不可能将所有的信息都记录下来。因此,在语音识别系统的设计中,不仅要把核心工作做好,而且要在语音处理设备上进行创新和突破。
(二)语音信号预处理
语音信号的预处理包括:采样, A/D转换,分帧,数据加窗,高频提升等环节,这些环节对于语音识别准确率具有基础性的影响,采样会影响到声音的完整性,分帧是保证声音的有效转换,而数据加窗则是为了让机器人可以实现互动功能。在预处理过程中,通常会使用非定向话筒,将人类的声音信号多方位、完整地输入到智能机器人的存储系统中,但是在实际运行的过程中往往会出现声音不完整的问题。针对这一问题可以有针对性地扩展话筒,提升拾音器的性能。声卡在语音识别系统中承担着语音识别中的某些频率的采集工作,并对其进行 A/D变换,并负责语音数据的保存。这一点和语音参数库的工作原理非常类似。人的声音是一个随机的、无时无刻都在发生着变化,因此在对原始的声音数据进行处理和分析时,一定要对其进行时间的控制。将原语音信号分为几个片段,即分帧,并根据帧来进行数据处理。每帧20毫秒,帧移10毫秒。最后,在语音信号的加窗口和频率提升时,要特别注意人体的发音器官的特点,例如,声音从唇部发出的过程有有 6 分贝 / 贝频的衰减,这就给语音识别系统的特征提取带来了很大的难度,所以要对信号进行高频补偿,也就是提高频率,从而提高信号的频谱特征。从实际的情况来看,语音预处理对智能机器人的动作控制有着很大的影响,因此,在语音识别中,若能简化前处理,则会使其在接下来的动作控制上取得更好的效果。语音识别技术对于智能语音机器人的发展有着重要的意义,它不但为智能机器人提供了与外部世界的联系提供了技术保证,同时也在一定程度上决定了智能语音机器人的应用潜力。
(三)应用语音合成技术
对于智能语音机器人来说,不仅需要实现对语音信号的识别与理解,同时也需要具有语音输出能力,实现用户之间的交互,而语音识别技术就是实现与用户之间交互的基础,该技术的应用也会在很大程度上影响用户的使用体验。语音合成技术,也叫文语转化技术,该技术能够是把文本经过电脑转化为一种自然流利的语音,用于语音播报,语音提示,语音导航,智能客服等。在语音合成中,首先将文字序列分解为音位序列,然后根据不同的声音模式进行判断,从而产生相应的文本判断模式,从而使文本的参数化;接着,声参数序列由声码器译码为声音波形信号;最后,采用采样单元拼接技术对波形单元进行拼接,从而构成一套完整的语音合成波形信号。在实际应用该技术的过程中,需要保证所合成的语音流畅自然。而想要实现这一点不仅需要完善语音识别过程的系统架构,同时也需要进行大量语音数据的采集,在此基础上建立系统声学模型,采用机器学习算法对智能语音机器人进行训练,通过大量的训练,逐步提升语音输出的自然度。
总结:
语音识别技术是人工智能技术的重要组成部分,也是实现强人工智能的重要节点。现阶段随着机器学习算法不断完善,语音识别技术也有了很大的发展,现有的语音识别技术已经能够保证较高的识别准确率,同时在自然语言理解方面也有很大的进步。在此背景下,基于语音识别技术的智能语音识别机器人也得到了广泛的应用,但是目前来看,语音识别技术在实际应用的过程中还存在一系列的问题,在将其应用于智能语音机器人的过程中还需要对技术进行进一步优化,从而提升语音识别技术的实用价值。
参考文献:
[1]代伟,刘洪.基于神经网络的中文语音识别技术[J].四川师范大学学报(自然科学版),2022,45(01):131-135.
[2]胡钊龙,李栅栅.语音识别技术在智能语音机器人中的应用[J].电子技术与软件工程,2021(13):72-73.
[3]冯天艺. 基于多任务神经网络的多维语音识别技术研究[D].南京邮电大学,2020.DOI:10.27251/d.cnki.gnjdc.2020.001148.
[4]胡宝花. 基于HMM-ANN模型的语音识别技术研究[D].南昌航空大学,2016.
[5]蒋玉博. 基于HMM和ANN混合模型的语音识别技术的研究[D].电子科技大学,2016.
[6]唐柳,刘茜,方凤才.基于单个神经元的语音识别据识算法[J].广西师范学院学报(自然科学版),2012,29(04):88-91.DOI:10.16601/j.cnki.issn1001-8743.2012.04.008.
[7]蒋瑞,李海峰,马琳.基于ANN/HMM混合模型汉语大词表连续语音识别系统[J].智能计算机与应用,2012,2(05):23-26+30.
[8]黄文龙. 语音识别关键技术研究及系统实现[D].重庆大学,2010.
[9]朱淑琴. 语音识别系统关键技术研究[D].西安电子科技大学,2004.