珠海科技学院 519040
1 绪 论
1.1 研究背景
随着职业教育越来越鼓励学生对知识的综合运用,而非单纯的知识水平考试,客观题的考察占比越来越低,方案设计等主观题的考察占比越来越高。传统的考评软件,仅支持客观题自动评分,文科类理论主观题仍需要老师人工打分。在教育现代化程度日益增强的今天,函需要一个软件系统把教师从批改考卷、作业这类的重复性工作中,彻底解放出来。
自然语言处理(Natural Language Processing,NLP)属于人工智能方面的重要研究领域之一,自然语言处理亦称之为计算语言学。本文就基于大数据挖掘的NLP技术提供一个可推广的中短文本语义相似度计算方案,提出的方案可广泛用于各专业知识点理论考核的主观题题目,系统实现有效分析语句的结构,识别语句中的否定词,能够完成动词、形容词、副词等的双重否定与原词的相似性匹配,能够针对常见的解释性语句做词语及其解释之间的匹配,突破传统考评软件,实现智能化主观简答题自动评阅平台的创造性发展。
1.2.1国内背景
AI 时代下,取景翻译,智能分词已不是新鲜的技术,初高中英语作文的自动化批改,也在一些线上学习系统中有所应用,但对于长篇大段复杂中文语义分析,仍未有较好的解决方案推出,对于大量应用主观题的公考、职业教育、资质类考试,主观题部分目前依旧依靠老师人工阅卷评分。
现有几款基于规则的命题情况下的自动评阅产品,虽然轻松了改卷老师,但实际上会增加命题老师的命题压力。而对于那些基于关键词匹配得分的方案,忽视了中文语义的多样性,对于关键得分点的表述,仍可能存在多种文字描述,而即便出现关键得分点,如果语义完全错误,仍不能认为表述得分。
1.2.2国外背景
国外有LSA利用文档相似度计算方法来判定文本相似性的系统和ETS基于性能的自动评价系统,以及AutoMark和ATM两款针对对错文本评估的系统。但以上提到的自动评分系统,由于中文语义的多样性,大多不适用于中文结构的文本。
1.2 相关技术简介
本论文主要研究内容是设计并实现一个针对文科类知识点理论应用题的辅助主观题评阅系统。要实现较为完善的辅助主观题评阅系统,主要的应用技术为自然语言处理相关技术,“辅助主观题评阅”是指教师在批阅学生作业和试卷时,可以分析学生作答步骤并对逻辑过程进行判断,帮助教师有效梳理学生的学习效果、学习弱点和难点。
本文应用自然语言处理技术,在设计过程中经过对多种模型和方法进行测试,利用开源的HanLP工具包,针对特定领域的文本训练出word2vec模型,并通过word2vec模型将词汇与语句转化成向量数据,实现特定领域词汇的语义分析和句子相似度分析,保证批判的专业性。在分词方面,分词是自然语言处理处理的基础,通过测试众多分词模型和方法,综合考虑了性能与效果,采用了基于HMM-Bigram的最短路分词方法,再通过附加特定领域的专业词典,实现了良好的分词效果。在判分过程方面,通过语句相似度从打分点的角度对参考答案与作答文本进行分析,匹配出打分点所分布语句,再对语句进行得分分析,实现精确打分,为给分提供依据,也方便打分结果的复查审核。
1.2.1 Word2vec模型训练
Word2vec模型是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。
词向量具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。所以,可以将词向量的每一维称为一个词语特征。词向量具有多种形式,distributed representation 是其中一种。一个 distributed representation 是一个稠密、低维的实值向量。distributed representation 的每一维表示词语的一个潜在特征,该特征捕获了有用的句法和语义特性。可见,distributed representation 中的 distributed 一词体现了词向量这样一个特点:将词语的不同句法和语义特征分布到它的每一个维度去表示。
1.2.2HMM中文分词技术
HMM中文分词是一种字标注法,即将分词任务转化成对每个字进行标注标签问题。 因此和词性标注问题基本类似。通过马尔科夫假设,得知分词问题可以归结于标注问题,是HMM的解码问题,使用到了维特比(Viterbi)算法。Viterbi算法使用了动态规划思想,全局最优通过逐步子问题最优求得。实际任务中,状态转移矩阵和观测矩阵可以由监督学习得来。这里我们可以用bigram模型,其中考虑到未出现的bigram对,这里可以使用不同的smooting技术(add-1, back-off…)。接着,得到HMM模型参数后,就可以通过Viterbi算法来找到最佳的标签序列了,继而完成对句子的分词。
1.2.3数据库技术
数据库技术兴起于上个世纪六十年代末,是现今信息系统和应用系统开发过程中的
一种核心技术和基础技术,也是一种计算机辅助管理数据的方法,用来研究数据的组织、存储和处理等方式,主要是为了高效管理和存储计算机信息处理过程中大量的数据资源。目前,数据库技术与其他技术的融合也为数据库技术的应用和发展提供了有利条件,其中与人工智能技术融合的优势体现的尤为明显,两者相辅相成,既弥补了人工智能技术在高效处理数据方面的劣势,又突出了人工智能技术强大的逻辑判断能力。该原型系统采用MySQL数据库,MySQL是隶属于Oracle公司的关系型数据库管理系统,该种关联数据库将以数据表的形式保存数据,有效提升了数据的读取速度且提高了灵活性;另外,MySQL可以运行于多种操作系统,支持多种语言,相对于SQL Server等其他关系型数据库而言,具有体积更小、处理速度更快等特点,所以更有利于对数据库进行增、删、改、查等基本操作。
1.3 实施方案
针对不同领域,尝试获取收集领域的专用词汇、行业词典词汇作为分词的扩充词汇表,然后,爬取试题语料、相关书籍语料、相关网页文本语料、领域词汇百科语料作为领域语料库,采用word2vec模型训练出不同领域的词向量模型,完成不同领域语料数据准备与模型建立。随后,设计与测试一套比较参考答案与学生答案之间相似度的通用算法,该算法采用之前训练的word2vec模型与准备的领域词汇表,采用语句片段的词向量的平均向量来用做余弦相似度计算,匹配参考答案的原始语句与得分点关键词,然后通过参考答案的原始语句与得分点关键词评分出作答文本中的得分点对应语句,随后扫描语句中的否定词汇数量判断得分点关键词观点正负,最后扫描得分点关键词分词结果是否按顺序相近在匹配语句中出现,以此为依据计算出每个得分点的得分情况。使输入一系列参考答案、参考答案得分点关键字、学生作答文本,给出学生答案与参考答案之间的相似之处与相似性,并设计一套合理的评价机制,为学生的答案做评分。
针对学校部分专业设计主观题自动评阅系统,力图减轻老师的改卷压力,实现教学智能化,自动化,为教学活动带来方便。通过收集学校的使用数据积累试题语料以及标准答案集合以及学生的答题数据集合,得到往年期末考遗留考试数据集,进行大数据分析挖掘,训练算法模型,对项目进行优化,迭代更新。
1.4 拟解决的关键问题
A.受服务器性能限制,对大量数据的语料分词,服务器压力过大。需要采用合适的语言模型与处理方法,例如采用依存句法分析实现否定语义识别开销过大
B需要大量的试题语料与领域相关语料来建立语言模型进行分析,以及大量的打分数据用作训练
C.产品的关键词相似度匹配算法仍然不能满足用户的需求,句子的流畅度和合理性暂时未纳入评判标准
1