学科分类
/ 1
10 个结果
  • 简介:随着信息技术发展,网络为信息资源开发提供了快速有效的获取途径,传统的获取信息的理论受到严峻的挑战。在网络传播中,学科资源数据库以超文本为载体。把文本、图像、音频、视频等融为一体,从而形成了新的超文本情景。在这种全新的网络情景中,信息资源的开发利用有着新的特点和规律。

  • 标签: 资源数据库 超文本 学科 信息技术发展 信息资源开发 获取途径
  • 简介:题目学科分类对海量题库的汇聚和应用有着重要意义。本文提出的二次分类方法能有效提高分类正确率,尤其针对那些容易混淆的学科,经过进一步的优化处理,取得比较显著改进效果。

  • 标签: 题库 卡方检验 朴素贝叶斯分类 支持向量机
  • 简介:本文首先讨论了在信息检索系统中应用统计语言模型的可行性,介绍了统计语言模型的简史以及在IR领域的研究进展,对信息检索过程中的两个模型作了公式化描述并简单介绍了数据平滑技术。接下来,介绍了支持语言模型在信息检索研究的工具箱——Lemur工具箱,并介绍了使用Lemur工具箱进行实验的方法、步骤,最后给出结论。

  • 标签: 统计语言模型 信息检索 LEMUR
  • 简介:总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的-般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本分类的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.

  • 标签: 专利文本 自动分类 机器学习 朴素贝叶斯 支持向量机
  • 简介:[目的/意义]运用本体特有的语义关联和知识聚合能力,深入内容层面设计构建中美赛珍珠主题硕博学位论文本体,并在此基础上展开内容比较分析。[方法/过程]从理论层面提出本体库的总体架构和构建流程,在实践层面使用Protégé进行本体库建模和实例填充,并开展以外部文献信息中时间分布和研究内容《大地三部曲》为示例的比较研究。[结果/结论]中美赛珍珠主题硕博学位论文的时间分布上美国起步较早,但发展缓慢,后劲不足;中国虽然早期文献产量低,但上升速度快,文献产量高,后来居上。《大地三部曲》是两国共同关注的核心研究对象,相比而言,中国学位论文研究的人物、事件更多,时间的跨度更长,而美国论文选择的研究对象和涉及到的人物关系相对集中。研究方向上两国有同有异,对人物形象和中国文化的研究是两国共同的主流。

  • 标签: 赛珍珠 学位论文 中美比较 本体构建 知识发现
  • 简介:[目的/意义]作为城市化进程中的“顽疾”,群租房屡禁不止,群租房引发的社会问题层出不穷。这一系列问题引发了微博热议,群租房微博舆情文本分析有助于获悉群租房存在的问题,从受众角度探讨政府群租房治理成效。[方法/过程]利用网络大数据爬取与分析技术,以群租房为研究对象,通过文本聚类分析与情感分析,进行热点评估,补充现有文献中忽视的群租房治理舆论研究。[结果/结论]研究发现,微博网民对群租房话题的关注明显呈波动趋势,讨论话题主要包括群租房产生的社会问题、政府对群租房的整治行动评价以及透过群租房现象折射出的中低收入群体的焦虑感。大多数微博网民在舆论场中的情感趋势为负面,认为有必要对群租房展开治理。本文的创新之处在于分析政府治理群租房所面对的舆论环境,并将其可视化呈现,为政府深入了解民情,制定适应民意的政策作铺垫。

  • 标签: 群租房 社会舆情 文本聚类 情感分析
  • 简介:本文针对DIPS系统中对象文件加工入库的方法,需要对字段数据进行处理和加工,而传统做法是一条条地加工处理,费时又费力,利用字段数据批处理技巧能在短时间内加工处理成"标准文本格式"数据,有利于提高工作效率。

  • 标签: 数据库 字段数据 批处理 技巧