基于套索(Lasso)模型的动力煤价格预测研究

(整期优先)网络出版时间:2021-09-30
/ 3

基于套索( Lasso)模型的动力煤价格预测研究

马俊

中国大唐集团有限公司,北京, 100033

摘要:随着我国煤炭价格市场化改革的不断深入,煤炭市场的价格走势一直成为各方关注的重点问题。本文考虑了煤炭价格的多种影响因素,采用套索(Lasso)模型作为煤炭价格模型的线性建模方法对煤炭价格进行预测,借助秦皇岛港5000千卡/千克动力煤平仓价数据进行模型检验,结果证明此模型预测结果精度较好,能在一定程度上预测出煤炭价格的变化趋势。

关键词:套索(Lasso)模型 动力煤 价格预测


引言

我国是一个以煤炭为主体的能源消费大国,长期以来,煤炭一直是我国的主体能源。 煤炭下游的4大行业为电力行业、钢铁行业、建材行业、化工行业,是在国民经济中占比很大的基础行业,煤炭价格变化会影响到多个相关行业产品价格。我国煤炭的价格走势一直处于大幅度波动状态,特别是近几年煤炭价格的持续上涨已经引起社会的广泛关注。煤炭作为主要基础能源,生产、供应端的不足,消费增加,将引发市场波动信号,影响价格调整变化。客观分析和判定煤炭价格的影响因素,了解并能够预测未来煤炭价格,对于掌握决策的主动权,作出合理的决策,是非常必要的。

常用的煤炭价格预测模型有时间序列预测模型、神经网络预测模型、线性回归模型。时间序列预测模型是将预测变量看为一个时间序列,考虑自身时序特征。郭建利[1]等人为提高煤炭价格预测模型的预测精度,采用组合预测的方法将ARIMA模型与SVM模型相结合,实验结果表明,组合模型比单模型有更高的预测精度。孙福玉[2]将数据作为时间序列进行数据分析,考虑影响煤炭价格的主要因素,采用季节时间序列预测模型(SARIMA)对煤炭价格进行预测,实验结果表明模型很好地把握了数据的规律。时间序列预测模型只考虑了变量自身的变化规律,并未考虑除自身外的影响因素,有较大的局限性。神经网络预测模型可以很好的学习数据中的非线性关系。刘硕[3]等人分析影响煤炭市场价格的特征指标,将遗传算法与BP神经网络模型相结合,对秦皇岛港煤炭市场价格进行预测,实证结果表明,相比BP神经网络模型有更高的预测精度。王永乐[4]使用Lookahead优化算法优化LSTM模型,有效提高了模型训练速度。将小波变换和卡尔曼滤波与LSTM模型相结合有效提高了模型的预测精度。在不降低模型性能的前提下,使得模型的收敛速度大幅提高,神经网络容易将数据中存在的噪声作为非线性关系进而学习,对噪声数据较为敏感。

对于煤炭价格预测,套索(Lasso)模型具有易解释性和防止数据过拟合的特点。本文将采用套索(Lasso)预测模型,考虑相关特征指标,对秦皇岛5000千卡/千克动力煤平仓价进行实证研究。

1.动力煤影响因素分析

煤炭市场价格的影响因素是多方面的,这些影响因素才是煤炭价格变化的根本原因,建立煤炭价格与各影响因素间的模型,对未来煤炭价格进行分析预测更具有合理性。本文结合我国煤炭产业的实际情况,重点从煤炭生产、煤炭供应、煤炭消费、煤炭运输、经济因素、其他因素等变量的影响,对煤炭价格进行统计模拟分析,建立煤炭价格与这些变量的套索(Lasso)模型,从而实现对未来煤炭价格的预测。

1.1煤炭生产、供应

在市场经济的背景下,商品价格主要由商品的供给和需求共同决定,煤炭生产、煤炭库存和煤炭进口共同决定了煤炭供应的上限,因此煤炭生产量、煤炭库存量和煤炭进口量直接影响了煤炭的市场价格。依据市场现有的统计数据,煤炭生产量因素选取国有重点煤矿原煤产量、国有大型煤企原煤产量等指标。煤炭库存量因素选取秦皇岛等各大港口的库存量指标。煤炭进口量选取全国煤炭进口量作为指标。

1.2煤炭消费

煤炭需求和供应都是随时间变化的,二者的共同影响导致价格的上下浮动。因此煤炭消费同样是煤炭价格变化的关键因素。煤炭的消费是多方面的,需要消费煤炭的行业主要有电力行业、建材行业、化工行业和冶金行业,其中电力行业的煤炭消费占比最大,2019年电力行业煤炭消费量占全国商品煤消费总量的53.61%。所选取指标包括:全国电网煤炭消费量、全国商品煤消费量、沿海六大发电厂耗煤量等。

1.3煤炭运输

煤炭运输是煤炭供给和煤炭需求之间的桥梁,运输的变化会直接影响产业链的库存,从而间接影响煤炭价格。运输成本是煤炭成本的一个因素[5],同样可以对市场的煤价产生一定的影响。所选取的指标包括大秦线煤炭发运量、秦皇岛等港口的调度数据、全国煤炭铁路日均装车量等等。

1.4经济因素

国内宏观经济的变化会影响全社会实体经济的运行趋势,从而间接影响能源需求。我国能源以煤炭为主体,因此会对煤炭的消费产生影响,从而影响煤炭市场价格。煤炭期货对煤炭价格存在长期均衡的正相关关系[6]。所选取的经济指标包括全国第二产业增加值、固定资产投资完成值、社会消费品零售总额、煤炭期货价格等等。

1.5其他因素

受气候影响,煤炭消费量有一定的波动性,进而间接影响煤炭的市场价格。气候影响因素所选指标为各省份重要煤炭消费城市的降水量和气温。在降水量少、冬季供热、夏季供暖的情形下,煤炭需求有所增加,在一定程度上会影响煤炭的市场价格。

国内政策是影响煤炭市场价格的主要因素之一。国内电煤价格在很大程度上受国家政策的影响。国内政策因素所选指标为领域专家输入的政策量化数据。政策量化数据取值范围为[-1,1],量化数据为0表示政策对煤炭相关数据无影响。量化数据在[-1,0]内取值时,量化数据趋近-1表示政策对煤炭相关数据的数值降低程度越大。量化数据在[0,1]内取值时,量化数据趋近1表示政策对煤炭相关数据的数值增加程度越大。对于自然灾害对煤炭价格的影响所选指标为领域专家输入的自然灾害量化数据,其机制与政策量化数据类似。特征指标选取情况如图1所示:















1. 影响动力煤价格所选特征指标图


615582733c4a0_html_56dd6bfda73785e8.jpg

2Lasso预测模型构建

对于典型的线性回归模型如公式(1)所示。


615582733c4a0_html_1f7d91cc59f1d533.gif

(1)

其中,615582733c4a0_html_b644513e33cc2a6.gif 是特征量集合,615582733c4a0_html_63cebb018e3c7f46.gif 是权重系数向量,615582733c4a0_html_3ffcacb7a7be8577.gif 是预测目标量,B为截距向量。

线性回归模型的目标函数如公式(2)所示。


615582733c4a0_html_aa145a3e2afe4c82.gif

(2)


公式(2)对权重向量615582733c4a0_html_63cebb018e3c7f46.gif 求极值,可得最小二乘估计,如公式(3)所示。


615582733c4a0_html_a40a23c9d1a8bb21.gif

(3)

Lasso模型在线性回归模型的基础上添加了L1惩罚项。Lasso模型是关于参数压缩估计的方法。Lasso模型通过构造L1惩罚项,经过求解得到更为简洁的模型。

Lasso模型的目标函数如公式(4)所示:


615582733c4a0_html_edd789317f3ca9f4.gif

(4)

其中,615582733c4a0_html_b644513e33cc2a6.gif 是特征量集合,615582733c4a0_html_63cebb018e3c7f46.gif 是权重系数向量,615582733c4a0_html_3ffcacb7a7be8577.gif 是预测目标量,615582733c4a0_html_204b3dc822b83ab0.gif 为L1惩罚项,615582733c4a0_html_ef1a1a00b8b2d6ab.gif 是正则系数。

L1正则化会将部分特征权重值压缩为0,从而实现剔除相关性低的特征的功能。615582733c4a0_html_ef1a1a00b8b2d6ab.gif 正则系数越大,L1正则项使参数向量中越多的参数压缩为0 ,筛选出更少的特征指标,从而在一定程度上减缓模型过拟合的程度。

由于Lasso模型的目标函数含有带绝对值的一阶函数项,不能用微积分方法求解,其目标函数的求解需要另寻其他的数值求解方法。最小角度回归算法(LARS)可以用来解决规划问题,利用LARS能够有效地求解LASSO回归问题。

3.实证检验

本文选取2017年1月1日年至 2018年12月31日的秦皇岛5000千卡/千克动力煤平仓价和相关特征指标数据进行模型训练,选取2019年1月1日年至 2021年1月22日的秦皇岛5000千卡/千克动力煤平仓价和相关特征指标数据进行模型验证。

3.1数据预处理

套索(Lasso)预测模型输出为秦皇岛5000大卡/千克动力煤平仓价,输入为各个特征指标。为避免特征之间的量纲差异降低模型性能,对全部数据进行归一化处理。归一化处理后的样本数据在615582733c4a0_html_8c4943da58821fea.gif 区间内取值,消除了不同特征指标的量纲差异。

3.2 Lasso模型预测流程

选取2017年1月1日年至 2018年12月31日的秦皇岛5000千卡/千克动力煤平仓价和相关特征指标数据作为训练集。选取2019年1月1日年至 2021年1月22日的秦皇岛5000千卡/千克动力煤平仓价和相关特征指标数据作为验证集。

2 套索(Lasso)模型预测流程图

615582733c4a0_html_8e643e7f8a94636.jpg

使用平均绝对误差(MAE)来进行模型的性能评估,MAE的定义见公式(5)。


MAE = 615582733c4a0_html_70113f273e7c2a35.gif

(5)

使用均方根误差(RMSE)来进行模型的性能评估,RMSE的定义见公式(6)。


RMSE = 615582733c4a0_html_4c5fed876bcea227.gif

(6)

使用平均绝对百分比误差(MAPE)来进行模型的性能评估,MAPE的定义见公式(7)。


MAPE = 615582733c4a0_html_a782bf7336715871.gif

(7)

其中n是验证集中样本的个数,615582733c4a0_html_9cc7db9f58a1c73f.gif 是模型预测值,615582733c4a0_html_d34ffaff7973f928.gif 是真实值。MAE、RMSE和MAPE取值越接近0,表明模型性能越好。

使用趋势正确率来进行模型的性能评估。Lasso模型预测流程见图2。

将经过数据预处理的数据进行特征指标筛选,将秦皇岛5000千卡/千克动力煤平仓价和所筛选特征指标代入Lasso预测模型进行模型训练,采用训练完毕的模型预测秦皇岛5000千卡/千克动力煤平仓价未来14天价格。模型训练和验证情况如图3所示。

3. 秦皇岛5000大卡/千克动力煤平仓价预测模型训练和验证情况

615582733c4a0_html_ed04ad228cf5f420.png

采用MAE、RMSE、MAPE、趋势正确率评价模型,具体的评价指标值如表1所示。

表1. 四种评价指标结果


MAE

RMSE

MAPE(%)

趋势正确率(%)

Lasso预测模型

19.973

40.679

3.590

68.57

通过图3和表1可以看出,Lasso模型的预测结果精度较好,预测效果较为理想。

4.结语

本文在国内煤炭价格影响指标分析和动力煤价格预测的研究成果上,结合已有的特征指标数据和秦皇岛动力煤5000千卡/千克平仓价数据,采用套索(Lasso)预测模型建立秦皇岛5000千卡/千克动力煤平仓价预测系统,通过四种评价指标表明,该模型对动力煤价格预测研究结果精度较好,预测效果较为理想,能为电力煤炭相关企业的采购、生产及销售决策提供重要判断依据,具有较好的实用价值。


参考文献

[1] 郭建利,程蕾,孙博超,颜瑞. 基于ARIMA-SVM的煤炭价格预测及实证研究[J]. 煤炭经济研究, 36(02): 6-10, 2016

[2] 孙福玉. 基于AHP-SARIMA的煤炭价格预测研究[J]. 现代经济信息, (07): 175-176, 2020

[3] 刘硕,何永秀,陶卫君,杨丽芳,张宇. 遗传BP神经网络的煤价预测与煤价风险规避策略[J]. 华北电力大学学报(自然科学版), 36(06): 75-80, 2009

[4] 王永乐. 基于LSTM的煤炭价格预测模型研究[D]. 硕士, 西安科技大学, 2020

[5] 杨靖. 煤炭价格波动的多因素分析[J]. 知识经济, (14): 81-82, 2015

[6] 雷强. 煤炭期货价格和现货价格的联动性效应研究[J]. 资源与产业, 17(04): 134-139, 2015

作者简介:马 俊(1980.08—),男,回族,北京人,管理学硕士,中国大唐集团公司燃料事业部高级主管,主要从事电力市场分析及电煤采购策略研究和质量监督管理等相关工作。