当前的位置:主页 > 技术资料 > 科技论文

基于时间序列和机器学习预测尘肺病发展趋势研究

时间:2024-01-04 来源:中国煤炭杂志官网 分享:

★ 煤矿安全 ★

基于时间序列和机器学习预测尘肺病发展趋势研究

李申龙1,王振平2,卢国群1,徐修立1,李宗山1,初 昊1,肖 旸2

(1.陕西未来能源化工有限公司金鸡滩煤矿,陕西省榆林市,719000;2.西安科技大学安全科学与工程学院,陕西省榆林市,710054)

摘 要 为研究尘肺病的未来发展趋势,减少尘肺病的患病几率,基于时间序列预测法和机器学习算法建立尘肺病预测模型。结果表明:经时间序列预测法建立的预测模型得出煤炭年产量和煤矿从业人员数呈持续上升趋势;以煤矿从业人员数、煤炭年产量以及年份作为输入变量,尘肺病病例人数作为输出变量建立的BP神经网络模型具有良好的预测效果,体现了该预测方法的可行性;经遗传算法优化后的BP神经网络相较之BP神经网络而言,其评价指标更优、预测精度更高;对比2种预测模型最终的预测结果,遗传算法优化后的BP神经网络(GA-BPNN)预测结果更加稳定,与预期的预测值更加接近。

关键词 尘肺病;时间序列预测法;GA-BPNN;煤炭产量;煤矿从业人数;尘肺病病例人数

0 引言

我国是一个以煤为主的能源生产和消费大国,目前我国煤炭消费量占全球的20.3%。当前,煤炭仍是我国最主要的能源,且在今后相当长的时间内以煤为主的能源消费结构不会改变[1]。“十三五”期间煤矿整体安全生产形势呈稳定好转趋势,但随着整体开采深度的增加,煤矿粉尘灾害日益严重[2]。井下工人长期吸入矿尘,极易引发尘肺病,因吸入煤尘过多而患上尘肺病的工人数量在逐年增加[3]

据统计,煤矿井下采煤工作面是产尘量最大的位置,约占50%,掘进工作面约占35%,喷浆作业地点约占10%,装煤、运煤以及卸煤过程约占5%[4]。这些生产环节所产生的粉尘有一部分可以通过一些降尘措施进行消除,但有大部分粒径较小的粉尘会从这些降尘措施中“逃逸”,并且可以长时间悬浮于生产作业空间之中[5-7]。这些粒径较小的粉尘被称为呼吸性粉尘,它可以通过防护面罩,经过鼻腔进入肺部并且无法从肺部排出,沉降在肺泡里导致肺部纤维化,最终导致尘肺病的发生[8]。由于这种尘肺病主要发病于煤矿行业,因此这类尘肺病又叫煤工尘肺病。在煤矿行业中,尘肺病是一种常见的职业性疾病,作为“隐性”矿害,它有着比瓦斯爆炸、水害等“显性”矿难更大的威胁[9]。据统计,每年因尘肺病死亡的矿工人数远高于其他原因死亡的矿工人数,并且尘肺病是一种潜伏时间较长的职业病,其危害的持续之久、程度之恶劣都足以引起大家对它的重视[10]。根据国家卫建委公布,近几年尘肺病新增病例总数约24.76万人,其中煤工尘肺病新增约12.54万人,约占50.65%[11]

综上所述,煤工尘肺病是占比最大的尘肺病病种。结合全国煤炭年产量、煤矿从业人数与每年尘肺病病例数,综合考虑各种影响参数,建立合理的模型预测2024-2030年煤炭产业发展状况与尘肺病的发展是一个重要的研究方向。笔者采用时间序列预测法预测2024-2030年全国煤炭年产量和煤矿从业人数,取2021年和2022年的真实数据作为参照,得出时间序列预测法的精确度;使用1998-2022年的煤炭年产量、煤矿从业人数与1998-2021年尘肺病病例数作为变量建立神经网络预测模型,将时间序列预测法得到的煤炭年产量和煤矿从业人数作为输入变量,取2021年的真实数据作为参照,用来对比检验模型,从而预测2024-2030年全国尘肺病患病病例数。

1 理论研究

1.1 时间序列预测法

时间序列预测法的原理是假设现阶段以往数据可以准确地显示其过去的历史轨迹[12]。则假定以往序列{Y}的历史轨迹时刻(1~n-1)对应的显示值{y1y2,…,yn-1}及当前时刻n对应的显示值yn,利用时序列预测法对未来出现的 n +t (t ≥1)时刻的值yn+t进行预测。当预测步长只有1 时,称之为单步预测;当预测步长大于1时,称为多步预测。设预测模型为:

(1)

式中:时刻的预测值;

f(…)、g(…)——待估函数;

{ζ}——观测噪声。

1.2 BP神经网络

BP神经网络(BPNN)是一种按误差反向传播训练的多层前馈网络,主要包括输入层、隐藏层和输出层3部分,3部分之间主要依靠权值和阈值连接[13],结构如图1所示。基本的BPNN是通过不断进行信号的正向传播和误差的反向反馈这2个过程来反复修正各单元权值和阈值,从而缩短预测值与目标值的差距。本研究输入层神经元个数为3,代表输入的影响因素;隐含层神经元个数为7,与输入层神经元个数n为2n+1的关系;输出层神经元个数为1,代表输出的尘肺病病例数。训练次数选择1 000次,训练目标选为0.000 1,学习速率选为0.01。

图1 BPNN结构

1.3 遗传算法优化后的BP神经网络(GA-BPNN)

GA-BPNN的要素主要包括5部分,首先通过编码现有的权值和阈值从而得到一个初始的种群,而编码的权值和阈值一般采用区间[-0.5,0.5]内的随机数[14]。个体编码使用二进制编码,主要包括输入层和隐藏层之间权值、隐藏层与输出层之间权值、隐藏层本身阈值、输出层本身阈值4部分,通过十位的二进制编码,将所有阈值和权值的编码连接起来形成个体的编码;之后为找出最优个体需要计算种群适应度值,其中obj作为目标函数的输出;最后进行变异操作,用随机方法选出发生变异的基因,如果所选的基因编码是1,则需要将其变为0,如果所选的基因编码是0则需要变为1。遗传算法运行参数包括群体范围T、遗传代数G、交叉概率Pe和变异概率Ph。在本研究中遗传代数选用100,交叉概率0.7,变异概率0.01。GA-BPNN算法流程如图2所示。

图2 GA-BPNN算法流程

2 结果分析与尘肺病发展趋势预测

本次预测模型选取数据来自于国家统计局官网、国家卫建委官网以及部分文献[15]。为预测2024-2030年尘肺病的发展方向,首先对1998-2020年煤炭行业从业人员和煤炭年产量2个变量进行统计,部分统计曲线如图3所示[16]

图3 1998-2020年煤矿从业人员、煤炭年产量及尘肺病病例数

由图3可知,煤炭年产量自1998年以来,除个别年份外,基本呈现稳步上涨趋势,说明煤炭依然是我国的能源主体;1998-2001年,煤矿井下作业人数呈现下降趋势,2001年以后又呈现上升趋势,2014年以后呈现大幅下降趋势,这一方面与国家发布政策有关,另一方面与现阶段全国煤矿实现智能化矿井有关;尘肺病病例数在2017年之前呈现上涨趋势,而近几年尘肺病病例数在不断下降。

随着国家对尘肺病的不断重视,新型高效的除尘技术在不段的研究发展,作业人员的个体防护措施也在不断加强,这使得在今后几年时间里,尘肺病新增病例数可能会维持在10 000人左右。

根据统计的1998-2020年全国煤矿从业人员和煤炭年产量数据,采用时间序列预测法对2024-2030年全国的从业人员和年产量进行预测。预测模型使用SPSS软件建立,煤矿从业人员的预测模型采用最优的布朗模型,煤炭年产量选用最适于预测的霍尔特模型,预测结果见表1。

表1 2024-2030年煤矿从业人员和煤炭年产量预测值

年份煤矿从业人员/万人煤炭年产量/亿t2024256.8548.992025257.0450.542026253.2252.082027250.4153.632028248.6155.182029249.7856.732030246.9758.28

由表1可以看出,煤炭年产量逐年递增,呈现稳步增长状态。现阶段国家大力发展智能化矿井,采掘速度和运输速度方面在不断提升,加之国家能源的主体依旧是煤炭,人们对煤炭的需求量不断加大,因此煤炭年产量有稳定增长的趋势,预测结果符合时代的发展和人们的需求。煤矿从业人数预测在2024年将达到256.85万人,在之后的几年会呈现微型波动的趋势,这种趋势取决于人们对煤炭产能的需求。而随着智能化矿井的推进,井下工作面工人数量将会实现部分缩减,但由于操作系统及设备的维护更换等仍需部分高科技作业人员,其趋势依旧为小幅度下降。

分析2021—2022年我国煤炭产业经济形势研究报告[17]和2022—2023年我国煤炭产业经济形势研究报告[1]得出,2021年我国煤炭年产量40.7亿t,煤矿从业人数261.2万人,2022年我国煤炭年产量45.0亿t,煤矿从业人数259.7万人。通过上述预测模型计算得出,2021年煤矿从业人数为263.29万人,煤炭年产量为41.34亿t;2022年煤矿从业人数为260.48万人,煤炭年产量为45.89亿t。通过对比报告真实结果与预测模型的预测结果可以看出,二者趋势相同。

将统计的1998-2020年全国煤矿从业人员和煤炭年产量数据分为23组,首先构建标准BP神经网络模型,训练样本随机抽取18组,其余5组数据作为测试样本,采用R2、标准均方根误差检验值(NRMSE)、 平均绝对百分误差(MAPE)以及相对误差作为判断拟合程度的评价指标,预测值如图4所示。

图4 2种模型下的预测值和相对误差

由图4可以看出,5组测试集中除了第二组和第四组数据有较大偏离外,其余3组预测值与真实值较为接近;由误差曲线可以清楚看出,第一组和第三组预测值与真实值最为接近。再将2021年和2022年煤矿从业人员和煤炭年产量值以及SPSS软件模拟的2024-2030年煤矿从业人员和煤炭年产量预测值以及年份作为神经网络预测阶段的输入变量,预测结果见表2。

表2 2024-2030年尘肺病病例数预测值

年份BPNN预测值/人GABPNN预测值/人202412 7509 961202512 7089 777202618 6529 595202728 3119 416202825 1359 239202916 2619 06520308 7678 892

通过分析预测值和真实值之间的关系,发现BPNN采用煤炭年产量、煤矿作业人员数量以及年份对尘肺病病例数进行预测是可行的,但是由于BPNN本身的局限性,它的预测精度未能达到预期效果。结合评价指标值可以看出BPNN中决定系数R2值为0.811,这表明BPNN的拟合效果欠佳,还需要进一步优化。

为提高BPNN的预测精度,采用GA优化后的BPNN模型。通过采用GA-BPNN模型对上述BPNN模型相同的训练集和测试集进行训练和测试,其测试集的预测值如图4所示。从图4可以看出,经GA优化后的BPNN模型相较之标准BPNN而言,其预测精度有了明显的提升;通过误差曲线也可以看出,经GA优化后BPNN相较标准BPNN而言误差有明显的下降。

BPNN和GA-BPNN的评价指标值如图5所示。由图5可以看出,经GA优化后的BPNN决定系数R2与BPNN相比有了明显的提高,而NRMSEMAPE则是有明显的下降。当R2越接近于1,说明该模型的预测值越接近真实值;当NRMSEMAPE越小,预测值越精准。

图5 两种模型下的评价指标值

采用同样方法,将2021年和2022年煤矿从业人员和煤炭年产量值以及SPSS软件模拟得出的2024-2030年煤矿从业人员和煤炭年产量预测值以及年份作为神经网络预测阶段的输入变量代入到经GA优化后的BP神经网络模型后,2024-2030年尘肺病病例数预测结果见表2。通过对比BPNN和GA-BPNN的预测值可以得出,BPNN的预测值在8 700~29 000之间,预测值左右偏离较大。而GA-BPNN预测值在8 800-10 000之间,预测值浮动不大,这表明GA-BPNN模型更加稳定,由此可得经GA优化后的BPNN提高了预测精度和模型的稳定性。

据国家卫健委官方数据统计,2021年尘肺病新增病例数为11 809例。对比2021年份GA-BPNN模型尘肺病病例数的预测值11 529人,其相对误差为2.37%;而BPNN模型尘肺病病例数的预测值13 115人,其相对误差为11.06%。因此,GA-BPNN的模型预测精度更高,而在往后的几年时间里,新增尘肺病例数应该普遍呈现降低趋势,这与国家对职业病防治的重视程度有密切关联,此外煤矿从业人数的减少对职业病病例数的增减也有重要影响。

3 结论

(1)结合我国国情和煤炭行业的发展前景来看,经过时间序列预测法得到的预测值,具有合理的发展趋势,并且通过选取最优的模型可以大大提高时间序列预测模型精度。

(2)根据尘肺病病例的预测结果可以清楚发现BPNN预测出的尘肺病病例数与真实值之间相差不大,表明通过BPNN建立从业人员数、煤炭年产量以及尘肺病患病人数的预测模型具有一定的科学依据,并且有一定的可行性。

(3)经GA优化后的BPNN预测结果明显优于BPNN 的预测结果,表明GA对标准BPNN模型的权值和阈值进行了优化得到最佳的权值和阈值,相较之只使用标准BP神经网络模型而言,经GA优化后的BP神经网络模型避免了局部最优解,使得模型更收敛,预测结果更加精确。

(4)通过不断增加尘肺病预测模型的输入变量个数,不断优化神经网络模型,可有望建立一个普遍适用的预测尘肺病患病人数模型,从而可以尽早提出相应的预防措施,不断完善职业病管理机制。

参考文献:

[1] 中矿(北京)煤炭产业景气指数研究课题组.2022-2023年中国煤炭产业经济形势研究报告[J].中国煤炭,2023,49 (3) : 2-10.

[2] 赵书田.煤矿粉尘防治技术[M].北京:煤炭工业出版社,2007.

[3] 刘彦青.上下山综掘工作面粉尘运移规律数值模拟研究[D].北京:中国矿业大学(北京),2015.

[4] 程卫民,周刚,陈连军,等.我国煤矿粉尘防治理论与技术20年研究进展及展望[J].煤炭科学技术,2020,48 (2) : 1-20.

[5] ZHAO Z, CHANG P, XU G, et al.Comparison of the coal dust suppression performance of surfactants using static test and dynamic test[J].Journal of Cleaner Production,2021,328: 129633.

[6] LIU G, XU Q, ZHAO J, et al.Research status of pathogenesis of pneumoconiosis and dust control technology in mine-A review[J].Applied Sciences,2021,11(21): 10313.

[7] NIE W, CHENG L, YIN S, et al.Effects of press-in airflow rate and the distance between the pressure duct and the side wall on ventilation dust suppression performance in an excavating tunnel[J].Environmental Science and Pollution Research,2021: 1-16.

[8] LANEY A S, WEISSMAN D N.Respiratory diseases caused by coal mine dust[J].Journal of Occupational and Nvironmental Medicine,2014,56(10): S18.

[9] 毛翎,彭莉君,王焕强.尘肺病治疗中国专家共识[J].环境与职业医学,2018,35(8) : 677-689.

[10] 林永听,葛燕萍,施为利,等.当前中国职业病防治问题的研究综述[J].中国卫生法制,2010(3) : 20-22.

[11] DONG L, TONG X, LI X, et al.Some developments and new insights of environmental problems and deep mining strategy for cleaner production in mines[J].Journal of Cleaner Production,2019,210(10):1562-1578.

[12] XIE C, BIJRAL A, FERRES J L.NonSTOP: A nonstationary online prediction method for time series[J].IEEE Signal Processing Letters,2018,25(10): 1545-1549.

[13] WANG L, ZENG Y, CHEN T.Back propagation neural network with adaptive differential evolution algorithm for time series forecasting[J].Expert Systems with Applications,2015,42(2): 855-863.

[14] ZHANG K, LV G, GUO S, et al.Evaluation of subsurface defects in metallic structures using laser ultrasonic technique and genetic algorithm-back propagation neural network[J].NDT &E International,2020,116: 102339.

[15] 王海涛,杨荔,苏亚娇,等.2009-2018年中国职业病发病规律及特征[J].职业卫生与应急救援,2020,38(2) : 178-182.

[16] 张敏,王丹,郑迎东,等.中国1997至2009年报告尘肺病发病特征和变化趋势[J].中华劳动卫生职业病杂志,2013,31(5):321-334.

[17] 中经煤炭产业景气指数研究课题组.2021-2022年中国煤炭产业经济形势研究报告[J].中国煤炭,2022,48 (2) : 5-14.

Research on predicting the development trend of pneumoconiosis based on time series and machine learning

LI Shenlong1, WANG Zhenping2, LU Guoqun1, XU Xiuli1, LI Zongshan1, CHU Hao1, XIAO Yang2

(1. Jinjitan Coal Mine, Shaanxi Future Energy and Chemicals Co., Ltd., Yulin, Shaanxi 719000, China;2. School of Safety Science and Engineering, Xi'an University of Science and Technology, Xi'an, Shaanxi 710054, China)

Abstract In order to study the future development trend of pneumoconiosis and reduce the incidence of pneumoconiosis, a pneumoconiosis prediction model is established based on time series prediction method and machine learning algorithm. The prediction model established by the time series prediction method shows that the annual coal production and the number of coal mine employees show a continuous upward trend; the BP neural network model established with the number of coal mine employees, annual coal production, and year as input variables, and the number of pneumoconiosis patients as output variables has good prediction effect, which reflects the feasibility of the prediction method; compared with BP neural network, the evaluation index of the optimized BP neural network by the genetic algorithm is better and the prediction accuracy is higher; comparing the final prediction results of the two prediction models, the prediction results of the optimized BP neural network by the genetic algorithm (GA-BPNN) are more stable and closer to the expected prediction values.

Keywords pneumoconiosis; time series prediction method; GA-BPNN; coal production; number of coal mine employees; number of pneumoconiosis patients

中图分类号 TD782.1

文献标志码 A

移动扫码阅读

引用格式:李申龙,王振平,卢国群,等.基于时间序列和机器学习预测尘肺病发展趋势[J].我国煤炭,2023,49(10)∶68-73.DOI:10.19880/j.cnki.ccm.2023.10.010

LI Shenlong ,WANG Zhenping ,LU Guoqun ,et al. Research on predicting the development trend of pneumoconiosis based on time series and machine learning [J].China Coal,2023,49(10):68-73.DOI:10.19880/j.cnki.ccm.2023.10.010

作者简介:李申龙(1980-),男,山东枣庄人,高级工程师,主要从事煤炭开采技术管理、超大采高特厚煤层开采装备与技术及水害、火灾、粉尘防治研究。E-mail:ykmzylsl@163.com

(责任编辑 张艳华)

新煤网