(安徽财经大学管理科学与工程学院,安徽蚌埠 233030)
摘要:高度信息化的发展使得数据量呈现指数级增长趋势,一方面海量的数据资源隐藏着大量有价值的信息,通过分析、挖掘、整合能够形成更深层次认知的知识,提高决策水平。另一方面在信息洪流的冲击下,人们一味被动接受大量碎片化信息,客观上缺乏对完整知识体系的系统探索与理解。因此,如何在巨量且分散的大数据中挖掘潜在有用信息,并且对信息有效利用实现知识高效输出,从而针对社会领域问题进行科学智能信息决策,在当今信息时代尤为迫切重要。本文主要以知识图谱技术为核心,从Hadoop分布式并行数据存储,基于粒计算的关联规则挖掘方法等方面阐述,构建以大数据驱动的信息深度挖掘和知识提取自动化模型,为大数据场景下的碎片化信息困扰提供解决思路。
关键词:大数据;知识图谱;数据挖掘;信息决策;知识提取
1 引言
随着互联网深入发展,网络信息碎片化趋势越来越明显,在海量大数据时代下,由于提供给人们自主选择的机会增多,导致获取信息的方式也逐渐多元化,同时知识表达不单纯以静态文本格式展示,而且视频、图像、声音等非结构化数据模式层出不穷。虽然信息获取更加快捷,但真正匹配人们需求的知识少之又少。人们往往只满足于信息的获得感,却忽视对信息的加工识别,知识的再创造,进一步导致注意力稀缺,个人系统性知识积累速度下降等问题。针对海量大数据存储和有价值信息挖掘及知识提取困难的问题,不少学者进行了探索与研究。例如:利用分布式存储架构解决海量数据存储和类型复杂问题,利用专家系统模拟人类思考过程提供决策支持。
考虑到大数据场景下信息呈现多源,分布零散,结构无序的特征,因此在知识提取上应建立完备的组织体系,以便对有价值的知识归纳总结,辅助决策。现阶段,知识图谱技术应用广泛,涉及知识发现、知识融合、问答推荐系统等多领域,基于从知识图谱应用实践中得到启示,本文基于知识图谱技术,通过数据挖掘有用信息,实现碎片化信息有序组织。
2 信息挖掘与知识提取流程
本文不是从信息表面进行知识挖掘,而是基于知识图谱技术为零散信息搭建关系桥梁,形成统一知识体系,实现信息高效利用。整个研究分为4个过程:数据存储表示、数据挖掘、构建知识图谱、决策分析。数据存储表示包括Hadoop架构实现复杂数据类型并行计算和存储;数据挖掘主要采用基于粒计算的关联规则挖掘算法获取有价值信息;构建知识图谱主要从有价值的信息中抽取实体、属性、概念、关系等要素,然后通过一定规则联系整合;决策分析主要通过决策模型针对问题情况给出最优解。流程图如图1所示。
图1 信息挖掘与知识提取流程图
3 组织架构模型设计
3.1 层次架构
实现信息深度挖掘和知识提取自动化的目的是集中信息价值最大优势,联系不同角度提炼出多元化的知识,供用户学习决策。实现这一过程需要从不同层次出发,设计研究每一层次的关键要点,因此整体层次架构分为:基础层、提炼层、交互层、展示层。具体层次架构设计如图2所示。
图2 层次架构
(1)基础层,本层主要采集存储多源信息,由于Hadoop在海量数据存储及非结构化数据处理具有较大优势,因此将Hadoop分布式并行处理平台应用在信息采集和数据处理模块中。通过Hadoop技术管理结构化、非结构化和半结构化数据,可提高海量数据的高利用性,其中HDFS文件系统实现海量数据存储,Mapreduce实现数据处理计算。
(2)提炼层,提炼层是整个过程的核心,很大程度上决定了信息价值的优劣,主要包括信息深度挖掘和知识图谱的构建。首先从海量数据信息资源中应用基于粒计算的关联规则挖掘算法,提取具有潜在联系及能构建完整性知识的碎片化信息,然后通过知识抽取,将实体、属性、关系等要素进一步剥离出来,其次为了消除数据的异构、冗余程度、采用统一映射规则实现知识融合,建立可靠联系。
(3)交互层,交互层主要为用户提供访问接口,用户可以直接网络搜索查询,但与传统搜索引擎不同的是,此模型检索信息匹配度更准确。同时该模型能将用户以浏览手机新闻资讯、公众号文章途径获取到的碎片化信息更深层次研究内部组织规律,对可能存在有价值的碎片化知识进行置信度评估,最终合理有序组织整合,为用户提供精准且个性化的信息决策支持。
(4)展示层,该层实际上是知识提取结果的解释。通过信息搜索查询,将会呈现网络拓扑结构,节点之间的相互交互通过匹配关系连接,并且每个节点都是信息挖掘后呈现的知识表述,用户可以任意点击节点并生成详细知识。在碎片化信息管理上,该模型对整合的信息资源进行过滤筛选,形成脉络清晰的系统性知识。
3.2 关键技术
3.2.1 知识图谱
知识图谱,采用图的数据结构存储表示知识,以结构化方式描述现实世界的概念及相互关系。结合图和构建关系考虑,每个节点代表实体,但可以不是严格意义上现实世界存在的实体,属性、概念、属性值都可以作为节点表示。而节点与节点之间的边代表相互存在的关系。通俗来讲,知识图谱的任务是从海量数据中提取关键有效信息,将零散的信息碎片以图的方式按照规则联系起来,形成有参考价值的知识,帮助用户洞察分析决策。
知识图谱构建技术主要有以下几个方面:
(1)知识抽取,当今大数据时代信息来源广泛,一部分是企业、学校等单位机构以二维表存储的结构化数据,另一部分是互联网公开资料,包含图像、视频等非结构化和半结构化数据。而知识抽取的核心是如何自动获取结构化信息中的知识元素,因此从知识图谱的组成要素上看,知识抽取又分为实体识别和关系抽取两部分。实体识别可以基于深度学习算法分析句子结构特征,分词词性抽取实体对象,关系抽取则在已经建立好实体概念基础上,进一步研究实体之间存在的语义联系。
(2)知识融合,利用统一规则将来自不同数据源关于同一实体或概念属性信息进行消歧、融合,从而加深获取知识之间的关联性。在知识融合技术中最常用的方法是实体对齐,鉴于数据格式复杂、质量良莠不齐,通过各种相似度计算匹配实体,为后续链接实体、知识结构组织奠定基础。
(3)知识加工,经过知识抽取、知识融合对信息初步处理后,信息的知识化程度并不高,还需要经过知识加工,形成集成度高、层次分明的大规模知识库,以便知识更新、对潜在信息挖掘,新知识再发现,实现智能最优决策,供决策者分析判断。
3.2.2 基于粒计算的关联规则挖掘方法
关联规则挖掘是发现大量数据项集隐含潜在关联的有效方法,有利于寻找事务内部组织规律,但往往因扫描多次数据库产生大量候选集导致执行效率低下。粒计算思想善于将复杂问题细化成具体子问题,即对问题从不同角度层次度量,在处理海量模糊数据集上具有较大优势。因此,基于粒计算的关联规则挖掘方法能高效快捷地从巨量数据中挖掘潜在意义重大的数据集,实现知识有效提取。
首先,确定最小支持度,根据用户请求对信息源作适当地粒化处理,扫描数据库,如果粒子元素的支持度大于最小支持度,则加入粒子集合中,然后对粒子集合中的粒子进行运算处理,得到需要的频繁项集。这种方法提高了检索信息的时间效率和信息价值的准确度。
3.2.3 Hadoop分布式系统
大数据场景下,如果想借助信息资源实现分析决策,首先要解决数据存储问题,由于碎片化信息内容庞杂,结构化程度低,因此考虑Hadoop分布式系统存储数据。而HDFS分布式文件系统是Hadoop技术的核心基础,通常情况下,文件会被分割成多个块进行存储,而每个块被复制成多个副本存储在各个数据节点上,这种模式可实现数据海量存储。
3.2.4 用户信息管理
通过对用户浏览信息的数据采集进行实时分析处理,以直观清晰的视图为用户提供浏览信息的动态比,了解信息思考程度。为了让人们更清楚了解自身的行为,利用数据可视化,帮助用户在海量数据中实现更好的数据管理,以直观的视觉感受,方便人们对今后的行为做出预测与决策。
4 结语
本文首先利用Hadoop平台解决动态性数据存储问题,其次基于粒计算的关联规则挖掘算法从海量且无序的碎片化信息中挖掘有价值内容,是促成提取有效知识的基础,然后利用知识图谱技术有序组织和分类归纳碎片化知识,可针对自身需求实现知识有效提取利用,最终考虑用户自主性,一方面提供个性化信息管理,另一方面建立完备的知识体系实现智能决策。
参考文献:
[1]李家瑞,李华昱,闫阳.面向多源异质数据源的学科知识图谱构建方法[J].计算机系统应用,2021,30(10):59-67.
[2]贾丽丽.碎片化知识挖掘与智能推理方法研究[J].科技传播,2020,12(02):128-130.
[3]魏瑾,李伟华,潘炜.基于知识图谱的智能决策支持技术及应用研究[J].计算机技术与发展,2020,30(01):1-6.
[4]董彦良.大数据时代成人碎片化学习:趋势、痛点与提升路径[J].中国成人教育,2020,(16):4-10.
[5]陈子睿,王鑫,王林,徐大为,贾勇哲.开放领域知识图谱问答研究综述[J].计算机科学与探索,2021,15(10):1843-1869.
[6]Hao Xuejie,Ji Zheng,Li Xiuhong,Yin Lizeyan,Liu Lu,Sun Meiying,Liu Qiang,Yang Rongjin.Construction and Application of a Knowledge Graph[J].Remote Sensing,2021,13(13).
【基金项目】本文属安徽财经大学大学生创新创业训练计划项目《基于大数据场景下的智能信息决策和知识提取研究》研究成果(项目编号:S202110378235),指导老师:杨威。