简介:主观题自动评分(AutomatedEssayScoring,AES)是语言测试领域的难点,自动评分的第一步往往要用大量已经人工评分的数据集生成评分模型,但是研究者常常困顿于数据集的不足。从数学的角度来看,其实只需要小数据集就可以构建出媲美大数据集所生成的评分模型,从而有效提高科研工作者的效率和数据利用率。本文提出一种小数据集抽取算法(SmallDatasetRetrievalAlgorithm,SDRA),在基于潜伏语义分析方法(LSA)的自动评分软件平台上,分别实施SDRA和传统的大数据集的评分模型方法,实验结果表明,SDRA仅用了25%的数据量,即可达到接近于传统大数据集的评分效果,从而验证了SDRA是行之有效的。
简介:内容摘要:突发公共事件频发会给国家和社会的稳定带来威胁,给人民的生命财产安全造成损失,如何从突发公共事件文本信息中提取出有用的信息并以结构化的形式展现,具有研究意义,对突发公共卫生事件预警和采取应对措施具有参考价值。本文定义了突发公共事件抽取的三个子任务,提出了基于BERT与Bi-LSTM-CRF的混合模型识别事件触发词和实体,提出了基于多层注意力机制的多分类模型进行事件元素抽取,运用模式匹配的方法抽取事件关系,取得较好效果。
简介:摘要在和图像处理相关的行业中,图像抽取是经常性的工作,而费神耗力的图像抽取工作往往成为图像处理工作的拦路石,本文以photoshop软件为例,讨论了几种常见的图像抽取方法及其应用条件和应用范围。
简介:针对web社区的发现和链接分析技术的一些关键问题,基于面向主题的技术,重点研究了二分图的特征,引入了Х二分核集来更为明确地定义抽取的方法.通过扫描主题子图构造Х二分图,对该子图的(i,j)裁剪后得到Х二分核集,这也是社区的最小元素.最后,对所抽取的所有Х二分核集应用层次聚类的方法得到社区内部结构的树状图,证明了构造和裁剪方法的正确性并设计了算法.实验采用HITS(hyperlink-inducedtopicsearch)算法中的典型数据集获取方法,选择了10个主题和4个搜索引擎并综合返回的结果.采用社会网中测量社区结构强度的模块化度量来验证所提方法的有效性,实验结果表明所提方法是有效并可行的.
简介:摘要在和图像处理相关的行业中,图像抽取是经常性的工作,而费神耗力的图像抽取工作往往成为图像处理工作的拦路石,本文以photoshop软件为例,讨论了几种常见的图像抽取方法及其应用条件和应用范围。
简介:主观评论句中的评价对象抽取是细粒度情感分析的任务之一,在公众舆情、用户产品评论、竞争情报分析等领域有着广泛的应用价值.针对中文话题型微博语言简洁、不规范、常常省略评价对象等特点,提出一种基于语言学特征和微博结构特征的话题型微博评价对象抽取方法.通过挖掘中文微博语料的结构与内容,将词、词性、情感词、通过句法分析获得的主谓关系、来自主题标签生成的主题词序列以及由语义角色标注所获得的施事与受事中的名词等多种特征相融合,同时将评价对象抽取看作序列标注问题,建立条件随机场模型进行学习并训练。实验结果表明,语言学特征和微博结构特征使准确率提高了约10%.