中国飞行试验研究院 陕西西安 710089
摘要:以建立试飞安全知识图谱为目的,提出了一整套试飞安全知识图谱构建方法。首先对图数据库进行了介绍,介绍了国内外知识图谱相关研究现状。然后介绍了试飞安全知识库格式构建方法,基于航空试飞安全知识源的特征完成了信息提取、知识融合。最后介绍了试飞安全知识库建立过程,成功建立了试飞安全知识库。对飞行试验监控模式自动化的推进有一定的意义。
关键词:航空;飞行试验;图数据库;知识图谱;neo4j
Keywords:aeronautics,flight test,graph database,mapping knowledge domain,neo4j
1
0 引言
近年来,随着我国向航空强国推进速度的提升,越来越多自主研制的新机型不断推出,新技术应用层出不穷。但是随着科研试飞任务日趋繁重,给科研试飞保障人力资源、设备资源及技术储备带来极大的挑战。飞行试验现场值班压力大,监控画面与参数数量多,人的精力有限,监控人员无法同时兼顾所有参数。
为了提升试飞监控效率,突破人员限制,通过建立试飞安全知识库,可以推进实现自动化监控,解放飞行试验监控值班人员压力,缓解人员不足问题,实现由人工向机器自动化的转变,改变试飞监控模式,提升试飞效率和安全性。
1 图数据库
图数据库是一种以图论为理论基础,描述并存储图中节点及其之间的关系的数据库[1]。例如,科技巨头谷歌、微软的知识图谱均采用图数据库进行存储[2]。目前比较受欢迎的图数据库是Neo4j,其在图数据库市场上占有率最高,且是开源的,所以在人物关系知识图谱构建过程中选用Neo4j图数据库存储图信息。
将知识图谱存入图数据库,是将知识图谱的实体或属性值存为图数据库中的节点,而实体间的关系或属性对应存为连接各个节点的边。图数据库的存储方式更适用于涉及多重关系的查询,还可通过经典的图算法而实现更为复杂的图匹配查询与推理等[3]。
2 试飞安全知识库构建方法
2.1 知识图谱构建方法
建立知识图谱首先要对试飞监控领域内的知识进行抽象整理,得到本体。本体构建主要分3种:自顶向下法、自底向上法和综合法。[4]。
此外,还可结合自顶向下和自底向上两种方法来构建知识图谱[5]。首先,在知识抽取的基础上归纳构建模式层,之后可对新到的知识和数据进行归纳总结,从而迭代更新模式层,并基于更新后的模式层进行新一轮的实体填充。
2.2 信息抽取
信息抽取是知识图谱构建的第一步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元[6]。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术[7]。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
试飞风险知识主要来源于飞行手册以及试飞大纲。通过分析飞行手册、试飞大纲等风险知识源文件,进行知识图谱提取设计,抽取出图数据库中的实体。
处置方法中包含的属性有各个风险项的处置信息、确认依据以及显示交互方法。风险项中的属性包含风险名称以及告警等级。告警信息中的属性包含告警逻辑、设计参数以及参数符号,如表1所示。
表1 知识库属性表
实体 | 属性 |
飞机 | 型号,类型,构型 |
试飞风险 | 风险名称,所属课题,所属专业 |
判别方法 | 方法,关联参数 |
处置措施 | 措施 |
2.3 知识融合
实体对齐是指对于同一个实体,将相似实体都映射到同一个向量空间中,通过对实体距离的计算来实现实体消歧。如图1所示,以发动机转速超速为例,不同的源有不同的表示方法,通过实体对齐后,可以将知识进行融合,消除重复知识,优化数据库。
图1 实体对齐示例
3 neo4j图数据搭建
将第三章中提取出的知识提炼为Neo4j图数据库导入所需的Csv文件,分为节点(node)类型和关系(relation)两种类型的文件,节点类型文件格式如表2所示,其中:id是该条信息的唯一身份信息,处置信息、确认依据、显示及交互方式为该节点的属性,:label为该节点标签,是节点分类的主要依据。
表2节点(node)类型Csv文件示意表
:id | 处置信息 | 确认依据 | 显示及交互方式 | :label |
Cz1 | 关车 | 发动机快速检查单 | 告警灯/洋红色 | 处置方法 |
Cz2 | 慢车 | 发动机快速检查单 | 告警灯/洋红色 | 处置方法 |
Cz1 | 打开应急起飞 | 发动机快速检查单 | 告警灯/洋红色 | 处置方法 |
… | … | … | … | … |
关系类型文件格式如表3所示,其中:start_id和:end_id分别为关系的两个对象节点的身份信息,关系为该条关系的属性,:type为该条关系的标签,是关系分类的主要依据。
表3关系(relation)类型Csv文件示意表
:start_id | :end_id | 关系 | :type |
xt1 | kt2 | 所属课题 | 课题 |
fx174 | xt10 | 所属系统 | 系统 |
kt3 | fj2 | 所属飞机 | 飞机 |
… | … | … | … |
使用neo4j图数据库可以很直观的表现出试飞安全知识之间的相互关联性,能够利于挖掘出隐藏的知识,为自动化监控提供了完备的试飞安全知识技术基础。
4 总结
知识图谱的构建技术主要以数据挖掘、机器学习、自然语言处理、信息检索等多学科交叉技术为支撑,研究方法以定性与定量相结合、实证与计算相结合为主。本文中构建知识库受限于设备性能及知识不充分等问题,搭建的知识库还可以更加深入具体,挖掘更多信息。未来试飞安全知识库可以更深层次的,更底层的搭建,逐步完善,实现飞行试验安全知识库完备化,为试飞安全监控自动化提供坚实基础。
参考文献:
[1] 闫朋, 高建瓴. 图数据挖掘在社交网络的应用研究[J].电子世界,2016(8):53-55.
[2] Neo4j. https://neo4j.com/, [2018-03-06].
[3]AllegroGraph.https://allegrograph.com/,[2018-02-08].
[4] Zou L, Özsu MT, Chen L, et al. gStore: A graph-based SPARQL query engine. The VLDB Journal, 2014, 23(4):565–590. [doi: 10.1007/s00778-013-0337-7]
[5] 白宇,赵毓诚,陈建军,韩宇. 航空不安全事件知识图谱构建与事件类型分析[J]. 中国航空科学技术大会论文集,2019
[6] 车金立,唐力伟,邓士杰,苏续军. 基于百科知识的军事装备知识图谱构建与应用[J]. 兵器装备工程学报,2019,40(1) : 148-153.
[7] 蔡亚楠,汉鹏武,韩文博,王永明. 基于知识图谱的航天装备质量管理方法研究[J]. 质量与可靠性,2019,6(1) .