辽宁科技大学 辽宁省鞍山市 114000
摘要:改进的向量生成模型和特征提取模型分别从融合后的环境体系中对关键词深层解读。通过CNN建模指代特征提取,以向量矩阵作为输入,融合后的分向样本作为输出集合多义词样本循环多层分向提取。模型内部特殊采用分向相对卷积思想,保留了空间信息内的词语完整释义。向量化指代分析中采用改进CBOW模型的PYP算法,观测每个单词的参数分布,模拟上下文窗口结构,加入权重系数验证结构和内容的概率分布可行。
一、研究背景及意义
汉语言文化看似简单实则复杂。结构上由单字、词语、复合词语、句子拼凑而成;内容上则有词性词义、上下文内容、主题特征的必然差异。在复杂的环境中剖析较为明朗的指代内容是不易的,抛开日常交流,尤其针对文本拆分、信息摘要、指代分析等深层实际技术很难突破。明确词语指代分析消除语言中的歧义提取关键词的重要特征要融合结构和内容,传统的基于监督型和文本库类型能解决精度较低的数据信息问题,结合机器学习领域神经网络结构,融合更多外部应用技术,针对词语指代分析问题有进一步研究。
二、词向量生成方式
2013年Google推出词向量转化工具word2vec之后,该技术被迅速广泛应用。其在将文本转化为基础词向量这一领域稳定存在。word2vec技术秉承着维度低稳定性高的理念,保持获取到的词向量在规定窗口长度内是富有有价值含义的。word2vec两个重要计算模型CBOW、Skip-gram在核心思想上可以理解成是一对互逆的运算。前者直接利用上下文反应内容计算词向量,后者是根据当前文本内容反推测上下文对应内容。word2vec两模型在针对不同规模工作任务上有着明确不同分工。CBOW模型更依赖于前后窗口大小限制来估计词和词之间或词和句之间的距离。而Skip-gram模型则直接利用词语间和向量间联系建模使上下文最大量化。它的反向推测计算有公式(2.3):
(2.3)
如上公式,V和U分别是w的输入和输出向量。为了提高模型容错度降低错误率,模型惯用softmax方法和负采样方法。负采样方法计算过程可拟作概率函数分布,有如下公式(2.4):
(2.4)
σ是使用的激活函数。c代表所提取出的关键词。公式4代表在输出层输入词向量以后函数使用负采样方法,对提取出的有效率高的词计算概率分布。
三、基于多维特征的词向量指代模型
在词义消歧应用在自然语言处理中较为低层的任务中,指代词向量的质量对其任务结果质量是不构成影响的。但面对深层多维度更复杂的问题,Word2vec作为生成工具往往会受训练窗口、上下文信息、备词系统不稳定、一词多义项等因素影响。这是因为Word Embedding生成方式默认有多种义项词义生成的词向量为语义内容更丰富的词语,单一义项词向量往往被直接忽略掉。这样会严重导致一词多义词向量被其多个义项词义“屏蔽”,导致消歧系统出现故障。本文提出结合PYP算法的多维特征融合的词向量生成模型。PYP全称Pitman-Yor,一种通过拆分函数来判断义项产生的类别及其类别主次的聚类算法。PYP算法将关键词义项在义项组内等额排序最大限度的保证义项结构和内容保持一致水平。其计算过程拟化为狄利克雷独立分布的自然序列,如公式(3.1):
xi | xa,xb..,xi-1~ (3.1)
本文对词语解读方式进行优化。将关键词义项横向拆分指代含义,纵向剖析词语词性,改进后的单一义项采样分布如公式(3.2):
~ (3.2)
多元义项采样分布如公式(3.3):
(3.3)
进行聚类后的第i个义项的X分布代表了在当前词语语义中根据词性拆分之后的概率值,分布系数越靠前,代表对该词语义项的指代解释越准确。
本文提出的结合PYP的方法不同于传统的聚类模型,在Skip-Gram模型的基础上,在其输入层通过义项单元拆分词语词性和指代内容,在训练中PYP给不同义项针对核心指代的向心力足够大,多次重复叠加关键义项使其更加稳固。簇心对应的指代向量作为义项的核心指代重新排列到词语义项的队伍中,而后更新义项关键词的全部义项顺序。SenseEmbedding区别于WordEmbedding的最大一点是默许了更多更复杂的词语义项出现,能对各种类型的关键词解析词义。该模型优于Skip-Gram模型在于对每一多元义项或单一义项采取不同的拆分模式,在聚类方式上两类分化,在语言结构基础上采取寻找突破,随着迭代次数增多簇心位置会越明显,在词向量生成这一环节避免了产生不必要的语言歧义。
四、实验结果与分析
实验设置中设定词汇表统一长度为6000个字符,经过测试实验比对卷积核大小128,卷积窗口大小3~5,反卷积核大小128,反卷积窗口默认为5。上下文特征窗口、主题特征窗口以及环境特征窗口由于实验需要,均设置为10。训练样本迭代次数50。分类模型的实现用支持分类回归聚类等操作的sklearn学习库,以上参数设置均为实验中效果最佳所对应的实验参数。在实验中采用自然语言处理中常用来衡量实验可行性的MUC标准,分别是精确率P(Pm)、召回率R(Rx)、F值(F1’),以这三个值来评价算法测试结果,其计算公式分别如下:
Pm= ,Py= (4.1)
Rx= ,Ry= (4.2)
F1’= ,F1= (4.3)
在词向量生成实验中,本文从模型内容和方法结构两方面入手。首先对本文提出的融合PYP算法的Word Embedding模型(表示为PNN+WE)和融合PYP算法的Sense Embedding模型(表示为PNN+SE)进行比较。由数据可知,PNN+SE比PNN+WE准确率高1.409%,是因为前者在内容上参与了更丰富的义项内容。而比词+字+ngram模型高出5.705%,说明未提取特征直接添加字或词对消歧模型的准确率是没有帮助的,延申的还有词+字模型、词+ngram模型等,实验对比证明加入该类特征并不能显著提高消歧任务。由实验结果得出,拆分义项比整体义项准确率明显提升。融合后的算法准确率最高,说明在拆分义项之后PYP算法的融入也促进了整个模型优化效果的提升。
参考文献
[1]冯志伟.词义排歧方法研究 [J].术语标准化与信息技术,2004,2004(01):31-37.
[2]张春祥,孙大松,于波.词义消歧技术研究 [J].科技展望,2015,25(08):282.
[3]余晓峰,刘鹏远,赵铁军.一种基于《知网》的汉语词语词义消歧方法}C]//第二届全国学生计算语言学研讨会论文集.2014.
[4]程晓煜. 基于神经网络的中文词义消歧研究[D].郑州大学,2019.