中通服咨询设计研究院有限公司 江苏省南京市 210019
摘要:随着5G网络技术的飞速发展,信息网络的广泛延伸,政治、经济、国防和军事等领域的信息安全问题逐渐突起。许多有害内容(如反动言论、色情信息等)通过网络得到了传播,如何将互联网上具有反动、色情性质的信息进行有效识别与取证是一个亟待解决、具有实际社会意义的问题,受到产业界和学术界的共同关注。宣扬不良信息是有害的,但并不能说出现了不良信息的字眼或讨论不良信息的信息就一定有害,还要看其是在宣扬不良信息还是在抨击不良信息,这也成为一个极富挑战性。针对上述问题,建立一个内容取证系统是一个有效的解决方案。
关键词:5G网络;入侵取证;聚类算法;文本分类
引言
根据领域特征的统计特性,利用基于统计的方式(如文本分类、聚类算法)对文本集进行主题性文本分类;而在各个主题下,利用自然语言理解的成果,对文本进行语法语义分析,从而最终判断其态度倾向性,对那些支持反动言论和宣扬色情、暴力的文档实施有效取证。
1国内外研究现状
自从上世纪90 年代以来,词汇倾向性的研究在同一篇文章中针对不同的对象作者立场态度会有所不同,而可能存在对所关心的主题持肯定态度,但却对其中的某个部分持反对态度。
2网络舆情热点分析与过滤技术的应用
2.1网络舆情热点分析与取证技术的介绍
现阶段对信息的取证主要采用两种方式:基于统计的方式和基于规则的方式。基于统计的方式利用文本特征项作为文本的表示,依据模板和文本所拥有的共同项或概念的多少,作为匹配的基础,该方式主要通过统计特征词汇在文档以及在整个语料库中的概率分布情况来决定是否需要将待测文档过滤掉.
2.2网络舆情热点分析中的主题多类分类取证算法
1)KNN算法
该算法的主要思想是:对于某一给定的测试文档D,在训练文档中,通过相似度找到与其最相似的K个训练文档。如果这K个文档中,有多个文档同属于一个类,在该类的得分为这些文档与测试文档之间的相似度之和。对这K个文档进行分值统计,按得分高低进行排序,从而确定待测文档的类别信息。该方法需要对每个测试文档求解其与训练集中的所有文档的相似度。
2)支持向量机(SVM)
该算法具有坚实的理论基础和严格的推证过程,从数学上找到了机器学习问题的核心所在,为研究有限样本情况下基于数据的机器学习方法奠定了基础。采用结构风险最小化准则设计学习机器,具有较好的推广能力。
3)最大熵模型
最大熵的基本原理是拟合所有已知事实,保持对未知事件的未知状态。他可以对非常广泛的自然语言现象建立概率模型,综合观察到各种相关或不相关的概率知识,对许多问题的处理结构都达到或超过其他方法的最好结果。
2.3技术路线
利用多类分类算法进行主题分类,其作用是确定文本的主题,这是进行态度倾向性分析的前提。这里要对分类中的特征提取和权重计算根据各主题领域的特性进行特殊处理(如采用主题领域特征词典等),从而实现在主题分类中的高效多类分类算法。
结语
在面向互联网的内容监督和管理技术中,国内外都对敏感信息识别进行了较为广泛和深入的研究。通过深入分析和研究发现基于统计方法在主题分类中表现良好;可以利用基于统计的方法进行主题分类,确定文本的主题,然后在特定主题下根据内容取证规则、统计特性并结合自然语言理解技术在语法、语义层面上对网络舆情热点进行取证分析。
参考文献
[1]唐琳. 基于机器学习的文本倾向性分析特征选择研究[J]. 赤峰学院学报(自然科学版), 2020, 036(001):36-38.
[2]段娜, 杨妍, 赵军民. 基于规则的短文本识别算法[J]. 计算机产品与流通, 2019, 000(002):P.173-174.
[3]陈 楠, 陈进才, 卢 萍. 基于深度学习的多元文本情感研究与分析[J]. 计算机科学与应用, 2018, 8(5):18.