毛兰·买买提(新疆自治区党委网信办新疆乌鲁木齐830000)
摘要:现阶段,我国国际上所开展的研究工作会关注于维汉机器翻译内容,这种机器翻译的方式带有一定的通用性,其在研究维汉机器翻译内容时,可以以主流机器翻译方式为基准。维吾尔语的语言较为复杂,其所形态变化比较丰富,很多词根都可以进一步的演变成为多种新形式。相比之下,我国汉语的形态变化就比较微弱,所以,目前,国际上所使用的机器翻译主要针对的对象就是英语等形态变化较为简单的语言,不需要对词形的变化进行分析。可以将各个不同词形的词语当做独立性的词语分析。本文主要就维汉机器翻译的维语命名实体的识别与翻译进行探究,找出现阶段我国维汉机器翻译现状以及存在的问题,科学合理的设计相应的系统。
关键词:维汉机器翻译;维语命名实体;识别与翻译
中图分类号:G652.2文献标识码:A文章编号:ISSN0257-2826(2018)12-172-01
引言
维汉机器翻译可以有效的识别以及翻译维语命名实体,其是该类机器翻译的重要任务,其应当建立在信息检索、抽取等各类技术的基础层面上。现阶段,我国的维吾尔语命名实体处于一个初步发展的研究时期,维吾尔语命名实体有着其自身较为独特的特征以及语法含义等,在进行维吾尔语命名实体的识别以及翻译过程中,必须要对其相关的语言特性进行深入的分析,处理好其机构名称的识别问题,对其进行序列性的标准,综合性的使用相应的条件探究上下文信息以及外部的特征内容,提升维吾尔语机构名识别的F值。
1维汉机器翻译现状以及存在的问题
1.1语料库资源较少
我国新疆地区的地理位置较为偏僻,所以其地区的经济发展速度比较慢,这就在一定程度上阻碍了我国维吾尔语和汉语的双语语料库构建工作开展进程,让其所开展的各类建设活动都明显带有一定的滞后性。首先,建设维汉双语的语料库的单位数量比较少。其次,维汉双语语料库的规模比较小,且实际的维汉双语语料库质量也比较低下,这主要是因为我国的维汉双语语料库建设时间比较晚,很多资料以及规模根本无法和英汉等其它双语语料库进行比较,其语料库的规范性也比较差,没有谁制定维汉双语语料库的规范性标准,让其识别以及翻译工作产生了各类的问题。最后,我国对于维汉双语语料的技术研究力度较为薄弱,其语料的总体规模比较小,这会使得大部分的研究学者丧失对其技术内容的研究兴趣以及热情。语料筛选技术是构建双语语料库工作的基础,且大量的试验证明,一个良好的双语语料筛选技术可以有效的提升其机器的翻译质量。但是受到维语标识语料缺失的影响,其实际的维吾尔语中的命名实体识别准确率比较小,这会影响到其实际的翻译效果。
1.2维汉语言跨度比较大
维吾尔语和汉语的形态差异比较明显,其维汉语言跨度也比较大,这就会增大其机器翻译工作的难度。简单来说,这两种语言的间隔越长,使用维汉机器翻译的结果就会越差。这给维汉机器的应用形成了挑战。
2系统的设计以及实现
2.1系统设计功能及实现原理
维吾尔语的命名实体识别的过程中,需要对其信息进行检索,采用信息检索的方式在文章中快速的翻阅并查找出有用的数据信息。针对其数字、人名等内容,其系统的功能可以被大致分成多个板块。
2.1.1分词功能
该项功能主要是将其所能读取出来的文本数据信息进行分词的处理,让其更为方便的取词和查找人名地名等,并各个词汇进行比对。
2.1.2数字识别
对其程序进行控制,可以更为直接的判断数字等信息,查找出文本中所出现的数字以及其数字出现的位置。
2.1.3人名识别
在维语命名中,人们习惯把名字命名为具有一定寓意的词语。因此,在人名中,我们提前建立一个人名数据词库,通过查找那些具有一定寓意的词语,把它们总结起来进行录入,然后通过分词功能把文章中的每个词语进行读取和比对,再加上句子的语法构成结构,从而判断该词是否属于人名,如果文章中出现过的人名不在数据库中,使该词保存到数据库中,以便在下次使用中出现该词语时会自动识别为人名。
2.1.4地名识别
通过程序的判断,得出该词属于哪一种地名构成的结构,从而得出一个较为完整和准确的地名。
2.2系统技术支持
后台技术:通过Java语言的控制与判断,实现对文本的读取,同时找出文本中的所要的信息,包括数字、人名、地名等。前台技术:通过Java中的Swing组件与AWT组件,完成对前台可视化的编辑,从而有一个更好的用户体验。数据库技术:MySql数据库是一个小型的,用户数量最多、最广的数据库,因此,此系统通过MySql数据库进行数据存储,同时还能够方便、快捷的对数据进行操作。
结语
依据文章上述的内容可以得知,实时的开展维语命名实体的识别以及翻译工作十分的重要。应当使用科学合理的方式完成各类软件系统的功能任务,加大对维吾尔语的语言特性、人名等各类词语的构成规则的研究力度,并总结出其翻译以及识别的规则。构建维语人名词典库和地名词典库,让其所开展的识别以及翻译工作进展的更为顺畅,合理妥善的使用其软件,翻查其词典库中的信息内容,以最快的速度找出其文本中的人名、地名等,完成其翻译以及识别工作。
参考文献
[1]赵紫玉,徐金安,张玉洁,刘江鸣.规则与统计相结合的日语时间表达式识别[J].中文信息学报.2013(06).
[2]艾孜尔古丽,阿里木?木拉提,苏国平.现代维吾尔语语言资源监测中数据分析技术研究[J].计算机应用与软件.2013(04).
[3]孙萌,华却才让,刘凯,吕雅娟,刘群.藏文数词识别与翻译[J].北京大学学报(自然科学版).2013(01).
[4]薛化建,董兴华,王磊,吐尔洪?吾司曼,蒋同海.基于词缀库的非监督维吾尔语词切分方法[J].计算机工程与设计.2011(09).
[5]衣马木艾山?阿布都力克木,吐尔地?托合提,艾斯卡尔?艾木都拉.基于规则的维吾尔人名汉文机器翻译算法研究[J].计算机应用与软件.2010(08).