简介:总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的-般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本分类的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.
简介:[目的/意义]运用本体特有的语义关联和知识聚合能力,深入内容层面设计构建中美赛珍珠主题硕博学位论文本体,并在此基础上展开内容比较分析。[方法/过程]从理论层面提出本体库的总体架构和构建流程,在实践层面使用Protégé进行本体库建模和实例填充,并开展以外部文献信息中时间分布和研究内容《大地三部曲》为示例的比较研究。[结果/结论]中美赛珍珠主题硕博学位论文的时间分布上美国起步较早,但发展缓慢,后劲不足;中国虽然早期文献产量低,但上升速度快,文献产量高,后来居上。《大地三部曲》是两国共同关注的核心研究对象,相比而言,中国学位论文研究的人物、事件更多,时间的跨度更长,而美国论文选择的研究对象和涉及到的人物关系相对集中。研究方向上两国有同有异,对人物形象和中国文化的研究是两国共同的主流。
简介:[目的/意义]作为城市化进程中的“顽疾”,群租房屡禁不止,群租房引发的社会问题层出不穷。这一系列问题引发了微博热议,群租房微博舆情文本分析有助于获悉群租房存在的问题,从受众角度探讨政府群租房治理成效。[方法/过程]利用网络大数据爬取与分析技术,以群租房为研究对象,通过文本聚类分析与情感分析,进行热点评估,补充现有文献中忽视的群租房治理舆论研究。[结果/结论]研究发现,微博网民对群租房话题的关注明显呈波动趋势,讨论话题主要包括群租房产生的社会问题、政府对群租房的整治行动评价以及透过群租房现象折射出的中低收入群体的焦虑感。大多数微博网民在舆论场中的情感趋势为负面,认为有必要对群租房展开治理。本文的创新之处在于分析政府治理群租房所面对的舆论环境,并将其可视化呈现,为政府深入了解民情,制定适应民意的政策作铺垫。