基于全流量报文分析的非法外联信息自动检测方法

(整期优先)网络出版时间:2020-11-16
/ 2

基于全流量报文分析的非法外联信息自动检测方法

李寒箬 廖莹璐

云南电网有限责任公司信息中心 云南省 , 昆明市 ,650217

摘要: 电网企业的网络安全一直关系着国家的命脉,近年来,国家在电网企业的网络安全关注度极高。电网企业的内网区域,虽然已经做了近乎详尽的安全防范措施,但依然是不法分子或外来势力的重要目标。本文就从非法外联检测的研究入手,提出了一种基于全流量报文分析的非法外联检测方法。

关键词:电网;非法外联检测;报文分析;网络安全

0引言

企业内部网络一直以来都被认为是“最安全的区域”,从表象上看,内网没有与互联网直接相连,发生信息泄露和网络攻击的可能性几乎没有。但实际上,内网恰恰是网络安全事件频发的重灾区。

根据中国权威机构的研究成果,许多政府机构或企业由信息窃取所造成的损失比网络病毒和黑客攻击的损失还高,内部人员泄密和犯罪是造成信息被窃取的主要原因。特别是一些与互联网隔离的特殊网络,这些网络安全措施并没有互联网完善,防范意识比较薄弱,如果将内部主机与互联网就进行相连,无疑增加了内部网络的安全隐患。为了减小非法外联行为对内网安全带来的威胁,本文提出了一种基于报文分析的非法外联信息自动检测的方法。

1 内网外联问题现状

在内网中如果用户进行了一些非法外联操作,就会将内网的主机与外部的互联网进行连接,也会将不属于内网的设备接入内网,这些操作都会影响内网的安全与完整,严重的将导致信息泄露。同时,根据发改委14号令等相关政策法规,严禁电力监控系统非法外联、跨区互联。

本地流量数据对象中的流量数据会被流量解析子模块解析,解析的过程中会筛选掉无关的报文数据,比如TCP中的ACK报文以及BGP的keepalive报文等。Kafka消息队列接收的是与系统有关的、BGP报文解析成的、具有特定格式的、多个解析字段信息组合的字符串。通过消息中间件Kafka及系统中的数据结构,模块与模块之间变的低耦合,并具有了很好的扩展性,可以将其他系统的Kafka获取的消息队列导入本系统中使用。这是开展报文分析的关键。

通常的对于报文分析的方式是不看内部的具体内容,而是对流量外部的数字化表现(比如数据包有多长,统一资源定位符有多长,网络地址是多少位,端口号是多少等等)的数据进行提取和分析,以便于从中获取需要的参数和类型标签,这个过程就是数据预处理。原始数据主要有小部分异常流量数据包、系统对它产生的警告日志文件、少部分正常流量数据包和大部分混合流量数据包组成。

2 一种基于报文分析的外联检测方法

获取交换机的流量报文是监测用户非法外联行为的首要工作,即通过报文分析实时监测内部网络外联行为。其次将流量中的不同报文信息,做分类数据处理,再根据数据分析做出数据的特征模型。最后,用误报信息滤除算法,将正常的操作信息进行过滤筛选,最终获得真实的非法外联信息。

本研究提出一种基于报文分析的外联检测方法,主要步骤为:

(1)对核心交换机镜像出的报文进行解析、分类。

(2)提取流量中的数据信息特征,建立特征自动检测模型,并不断调优模型,针对正常操作和误操作进行标签化处理。

(3)对常规操作的报警信息进行滤除,增加准确率。

2.1 流量报文处理

对于报文的解析处理,是一项重要的工作,报文包含了网络中将要发送的完整的数据信息,每条报文的长短不一致,长度不限且可变。报文的认证方式有传统加密方式的认证、使用密钥的报文认证码方式、使用单向散列函数的认证和数字签名认证方式。报文也是网络传输的单位,传输过程中会不断的封装成分组、包、帧来传输,封装的方式就是添加一些信息段,那些就是报文头以一定格式组织起来的数据。完全与系统定义,或自定义的数据结构同义。

为了统一系统数据的格式,按照格式化、标准化、数字化的要求将报文数据转换为标准的网络系统数据集。这样不仅为提取非法外联特征做足了准备,也提高了提取精度。不同的行业都存在着私有应用层协议,如果协议采用的是标准接口格式,只需要参照标准的格式进行解码分析即可。但并非所有私有协议都会采用标准接口格式进行消息的传输,如果是非标准接口的协议,则需要按照接口规范进行协议解码;对于行业或者用户私有的报文格式,则需要按照其报文封装格式规范进行单独的解码;此外,TCP或者UDP所承载的应用层消息部分,其实包含了大量有价值的信息,例如交易渠道、交易代码、交易流水号、交易金额、返回码、交易类型等等。

2.2建立特征检测模型

非法外联行为有多种表现形式,不能一概而论。常见的非法外联途径有:

(1)终端PC通过无线WIFI连接智能手机开启的个人热点进行外联;

(2)终端PC通过USB连接手机,以USB共享网络方式进行外联。

依据提取的数据特征不同,来构建正常类和非法外联类,它主要是在ADM - DL- IDS算法中引入数据流量的稀疏特征得到。对数据流量的分布使用交替方向乘子法进行计算,对照正常类和非法外联类对数据流量进行重新构建,并计算重构误差,这个误差作为自动检测用户非法外联操作的重要依据。

各个子数据类别下的稀疏特征利用交替方向乘子法得到,重构误差为:

5fb21c46060d2_html_d4efb201b2d04923.gif (X)

式(X)中,n为网络流量中的数据;5fb21c46060d2_html_3b5d1eae49c4387f.gif 为子类别与特征的重构结果。自动检测非法外联信息就是依据得到的重构误差结果。


2.3 常规操作的误报滤除

为了进一步提升非法外联报警系统的准确性,需要在最后的结果层面之前引入基于条件场的误报滤除算法,以筛选出在报警数据中,因常规操作不当造成的警报信息。算法流程如下:

CRF特征函数加权公式:

5fb21c46060d2_html_2398dd73fb87803d.gif

算法描述

在CRF模型中,待标记序列为攻击类型,标记序列为警报类型。具体见下面算法描述:

设置输入数据:非法外联检测系统产生的警报文件。

设置输出数据:标记后的警报文件(警报类别)。

设置参数:参数:攻击类别特征序列。

执行语句:Step1.初始化在训练过程中可以使用到的自定义输入参数,包括攻击类别特征属性值,警报类别,关键属性等。

执行语句:Step2.以关键参数为基础实验并构建CRF

执行语句:Step3.依据CRF公式计算概率。

执行语句:Step4.是否检测完成序列,如果是,跳到Step5;如果否,则获取当前表示的攻击类别特征ID,跳到Step2;

执行语句:Step5.获取当前攻击类别特征ID序列。

在算法中,两个攻击状态间的概率关系可以用Step2中CRF模型的存在边表示。Step3进行了概率数值计算。任意的依赖关系在CRF模型中都是允许存在的,特征的状态或观察值不完整在CRF模型中也是允许的。所以,模型可以使用少量的训练数据训练出来。

2 非法外联信息自动检测方法检测精准度分析

2.1部署环境和获取实验数据

通过设计仿真实验的方式,来验证基于全流量报文分析的非法外联检测方法的优势。本实验采用一台window10系统、cpu2.9GHZ、装有MATLAB 2018的终端作为实验平台。通过设置实验环境模拟出了某电网公司电力控制系统的运行,并对该系统的网络流量进行采集。

为了验证方法的可行性,先对该系统中数据流量的10%进行采集,验证通过后,将采集到的全部数据集分成训练集和检测集两个子集。

2.2 实验结果评价标准

参考相关文献,将实验结果评价标准定为四个指标,具体如表1所示

1实验结果评价指标


Anode

Negative

Anode

AT

NT

Negative

NF

AF

如表1所示,AT指的是实际结果和检测结果都是正,依次类推可知NT:实际结果是正,检测结果是负,NF:实际结果是负,检测结果是正,AF表示实际结果和检测结果都是负。

根据上面指标可知,非法外联操作占到全部操作的比例(检测率)的公式为:

5fb21c46060d2_html_324b48d2523679e4.gif

将非法外联操作判断为正常的操作的数量占所有正常操作的比例(误报率)的公式为:

5fb21c46060d2_html_240369f3a3ec8d95.gif

2.3实验结果与分析

下图表示误报率的对比效果。从下图也可以看出本文的方法在误报率方面也是很低的,平均15%,而普通的方法的误报率比本文提出方法的误报率高很多,平均在53%,比本文方法的误报率高38%。这些数据充分说明了本文提出的方法在精度,性能等方面的优势。

5fb21c46060d2_html_16cab11cba714668.png

5 传统方法与提出方法的误报率实验对比

3结束语

内网的安全,应该被作为企业关注的重点,信息技术的不断进步使得非法外联有了更多的途径。其实,网络安全的最核心要务就是保证内网的信息安全。本文结合实际的情况和现有的技术手段提出了一种基于报文分析的非法外联检测方法,经过试验验证,比传统方法的误报率低。

参考文献:

[1]胡海生.基于报文分析的非法外联信息自动检测方法[J].自动化与仪器仪表,2019(10):153-156.

[2]徐光亮,马锋,王健,刘会强.电力监控系统终端非法外联管控关键技术研究[J].科技风,2019(08):200-201.