简介:总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的-般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本分类的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.
简介:从技术角度按层分析数字图书馆的一般架构,对数字图书馆的运行模式进行分类,根据不同的层次特点及运行模式,总结数字图书馆的3个主要异构类型,分别是基础运行平台异构、信息存储异构和信息表示异构,分析得出从解决信息表示异构的角度消除数字图书馆的异构性是较理想的方法,最后从该角度给出解决数字图书馆异构性的思路及对策,即成立数字图书馆联盟,搭建数字资源共享平台,制定数字资源共享和交互标准;按该标准将信息管理方式按照面向资源架构的方式进行构建(新建数字图书馆)或改造(现有数字图书馆);数字图书馆联盟管理方需定期维护加入的成员馆,检查共享资源的格式和内容,保证共享资源的合法性和完整性。