简介:当今信息化大潮呈现如下明显趋势:信息存储方式的数字化,信息处理方式的自动化,信息传输方式的网络化,信息应用方式的产业化。语言是信息的主要载体,上述每一“化”的实现都离不开自然语言理解这一瓶颈问题。黑龙江大学计算语言学研究所把俄汉语信息契合对接处理、转换分析处理(不同于或不限于机器翻译)作为科研主攻方向。本文就这一项目的设计原则、实现目标、基本模型和应用前景予以概括性阐释。
简介:本文详细介绍了中文文本自动校对的研究现状,包括文本中错误的分类,中文自动校对中常用的语言模型,以及一些有代表性的工作.作为参考,本文还介绍了英文拼写检查的方法,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法.
简介:汉语自动分词中的歧义问题侯敏,孙建军引言随着中文信息处理研究的不断深入,出现了多种多样的自动分词方法。评定一种切分方法或一个分词系统的标准不外两条:一是速度,二是精度,而第二条尤为重要。要想提高切分精度,除了要建立一部(或几部)较完备的词典外,最重要...
简介:
简介:基于文本语义分析的自动文摘研究对于提高自动文摘的质量具有重要意义.利用语义信息进行文本机器处理的重要步骤就是建立详尽的语义词典,而建立语义词典首先必须使用逻辑语言对文本的语义信息加以形式化表示.借用逻辑人工语言的概念层次结构,可以对词典中的概念进行分类,并将概念分解为义子.通过计算文本中句子之间的语义相关度,就可以自动生成组成文本文摘的句子.
简介:中文姓名的辨识是自动分词、自动文摘的基础.独立于自动分词,我们运用姓名用字概率和规则,设计并实现了一个中文姓名辨识系统.对207757字语料进行了测试,召回率达到92.57%,精确率达到80.35%,且速度较快.
简介:本文结合藏文各类形态特征,首次提出了一种基于格助词和接续特征(BCCF,BasedonCase-auxiliarywordandContinuousFeature)的书面藏文自动分词方案.其总体技术特点是:在格助词、接续特征、字性知识库以及词典支持下,进行逐级定位的确定性分词.初步测试表明:这一方案在发现和消除切分歧义、解决未登录词问题,进而在提高藏文分词精度方面具有很高的实用价值.
俄文文本的自动化处理——信息自动获取问题探索
中文文本自动校对
汉语自动分词中的歧义问题
自动词的总代表──ナル
基于语义分析的文本自动文摘研究
基于统计和规则的中文姓名自动辨识
基于格助词和接续特征的藏文自动分词方案