您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页基于季节性分解与长短期记忆网络的水质动态预警-214

基于季节性分解与长短期记忆网络的水质动态预警-214

来源:爱go旅游网
第3卷第4期 2021年12月

智能科学与技术学报 Vol.3 No.4

Chinese Journal of Intelligent Science and Technology

December 2021

基于季节性分解与长短期记忆网络的水质动态预警

许博文1,毕敬1,苑海涛2,王功明1,乔俊飞1

(1. 北京工业大学信息学部,北京100124;

2. 北京航空航天大学自动化科学与电气工程学院,北京100191)

摘 要:随着地表水水质恶化日益严重,有效的水质预警预测技术对于水资源的可持续发展与应急响应机制实施至关重要。长短期记忆网络在水质时间序列预测问题中被广泛使用,但是仅使用长短期记忆网络进行水质预测并不能解决各种复杂因素造成的水质序列的不规则波动问题。为了解决该问题,提出一种数据驱动的水质预测混合模型,该模型将基于局部加权回归散点平滑(Loess)的季节与趋势分解(STL)算法与基于编解码的长短期记忆网络(LSTM-ED)结合。首先通过STL的加法模型将水质时间序列分解为3个子序列,然后利用多元LSTM-ED神经网络对子序列进行预测,通过叠加将数据恢复为实际值,最后通过季节性分段的拉依达准则进一步判断水质是否存在异常并做出预警。实验结果表明,与单一的LSTM、LSTM-ED以及基于序列分解的LSTM-ED模型相比,所提出的模型能显著地提高水质时间序列预测的精度和可靠性,并为水质动态预警提供有效的数据支持。 关键词:季节性分解;长短期记忆网络;水质动态预警;异常检测 中图分类号:TP399

文献标识码:A doi: 10.11959/j.issn.2096−6652.202145

Dynamic water quality warning with seasonal decomposition

and long short-term memory network

XU Bowen1, BI Jing1, YUAN Haitao2, WANG Gongming1, QIAO Junfei1

1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China 2. School of Automation Science and Electrical Engineering, Beihang University, Beijing 100191, China

Abstract: Surface water quality is increasingly deteriorated in recent years, and therefore, high-quality early warning and prediction of water quality are essential for sustainability of water resources and emergency response mechanisms. Long short-term memory (LSTM) network is widely applied in the existing literature on the prediction of water quality time se-ries. However, only applying LSTM for the prediction of water quality time series cannot well address irregular fluctua-tions in the water quality series caused by multiple complex factors. To solve this problem, a data-driven prediction mod-el for the water quality time series was proposed, named STL-LSTM-ED, which was composed of seasonal-trend de-composition using locally weighted scatterplot smoothing (STL) and LSTM based on encoder-decoder (LSTM-ED). Compared with several typical models of LSTM, LSTM-ED, and a sequence decomposition method based on LSTM, the proposed STL-LSTM-ED can significantly improve the prediction accuracy and reliability of the water quality time series, and also provide the effective data support for dynamic warning of water quality.

Key words: seasonal decomposition, long short-term memory network, dynamicwarning of water quality, anomaly de-tection

收稿日期:2021−01−14;修回日期:2021−03−12 通信作者:毕敬,bijing@bjut.edu.cn

基金项目:水体污染控制与治理科技重大专项(No.2018ZX07111005);国家自然科学基金资助项目(No.61802015,No.62073005,No.62173013)

Foundation Items: The Major Science and Technology Program for Water Pollution Control and Treatment of China(No.2018ZX07111005), The National Natural Science Foundation of China (No.61802015, No. 62073005, No.62173013)

第4期 许博文等:基于季节性分解与长短期记忆网络的水质动态预警 ·457·

1 引言

水作为地球上珍贵的资源,它决定着人类和动植物的生存,水对于生态系统和社会都至关重要。然而,随着工业化进程的不断加快,工业废水、农业施药和生活污水等水质污染事件引发的水质异常现象频繁发生。为了实现水资源的可持续利用,加强水环境监管工作俨然成为我国政府迫在眉睫的重要任务。水环境监管工作可以有效解决水资源短缺以及水质污染等问题,其中水质预测及水质动态预警是水环境监管工作的重要研究内容之一。据世界卫生组织的报告显示,到2025年,全球将有半数人口居住在水资源紧张的地区。受污染的水可以传播多种疾病,如腹泻、霍乱、痢疾、伤寒和脊髓灰质炎等。受污染的饮用水估计每年造成超过48.5万例腹泻死亡。水质异常现象每年都在急剧增加,因此水质监测和水质动态预警刻不容缓。

物联网技术的发展以及越来越多的水质监测传感器的部署,使得获取高频的水质监测数据变得可行。水质监测和预警系统可降低水资源被污染的风险,水质指标的急剧变化往往暗示着水质污染的发生,及时对水质异常进行预警对于水资源的管理至关重要。通过大数据分析技术可以准确地预测水质的变化,反映实际的水质情况,从而为相关部门的联合调控与应急预警提供重要依据。由于采集的水质数据是时间序列数据,因此有效地利用大量与水质时间序列相关的参数之间的关系,可以提高水质预测及动态预警的准确性[1]。关于时间序列数据预测的方法有很多,但是应用在水质预测领域中的方法并不多,这也成为研究的难点之一。同时,为了保证预警的可靠性与时效性,需要模型具有较强的预知能力,这体现在预测模型里即需要有较大的预测步长。预测步长越大,预留给管控者的调控时间越多。研究发现,受季节性影响,不同季节的水质指标值合理波动范围具有较大的差异,为此异常检测的手段应考虑季节性的影响,进行局部的异常分析。水质监测系统是一个非线性动态系统[2],为了有效控制和治理水质污染事件,实现水资源的可持续利用,本文提出了基于季节性分解与长短期记忆(long short-term memory,LSTM)网络的水质动态预警方法(STL-LSTM-ED),从而获取更准确的预测结果。在此基础上,探索了季节性对异常检测方法的影响,采用按季节性分段的滑动窗口方式

对预测结果进行异常检测。本文提出的方法可以提供更加准确的预测效果,使得预警频率更加合理,从而大幅度降低错误预警导致的人力物力等资源的浪费。

综上所述,本文的主要贡献有以下3个方面: (1)本文给出LSTM与基于编解码的长短期记忆网络(long short-term memory based on encod-er-decoder,LSTM-ED)在水质预测上的效果;

(2)本文探索将基于局部加权回归散点平滑locally weighted scatterplot smoothing,Loess)的季节与趋势分解(seasonal-trend decomposition using Loess,STL)模型与经验模态分解(empirical mode decomposition,EMD)模型应用于LSTM-ED模型时对水质预测效果的影响,最终确定提出的STL-LSTM-ED模型充分结合了时间序列的周期性,从而有效地提高水质预测的精度;

(3)在此基础上,本文提出按季节性分段的滑动窗口方式来计算局部预警阈值,从而实现动态预警,并有效地避免因季节性变化导致的预警。

本文的结构如下:第2节讨论了与水质预测及与动态预警相关的研究;第3节介绍了水质动态预警方法;第4节介绍了一系列基于LSTM预测模型的对比实验和结果分析以及季节性对水质异常检测的影响;第5节对全文进行了总结并讨论了如何进一步改进该模型。

2 相关工作

目前,传统的时间序列预测方法可以利用数据之间的线性关系来捕捉其线性动态发展趋势。传统方法以其简单易行的优势在时间序列预测领域得到了广泛的应用。例如,Oliveira P J等人[3]采用自回归综合移动平均(autoregressive integrated moving average,ARIMA)模型预测区域需水量,实验证明,该模型可以获得较高的预测精度。但是,由于ARIMA模型非常依赖时间序列数据的稳定性,不适用于本文具有复杂非线性关系的数据。Parmar K S等人[4]采用统计分析和时间序列预测模型对水质分级和评价管理进行了研究。Cao Q等人[5]提出了基于最小二乘支持向量机(least squares support vector machine,LS-SVM)和马尔可夫链的预测模型。水环境参数具有随机性和复杂性等特点,且需要大量的水质参数和环境参数,因此难以建立周期较长的水质模型。

(·458· 智能科学与技术学报 第3卷

单一预测模型在某些数据集上的预测精度有限[6],需要做一些尝试来提高预测的精准性。多个模型结合的方式可以得到更高的预测精度[7]。因此,一些研究者提出了混合预测模型。张建晋等人[8]构建了面向季节性时空数据的预测式循环网络,并应用在城市计算中,用于季节性时间序列模型的预测。Tseng F M等人[9]结合了季节性自回归综合移动平均(seasonal and autoregressive integrated moving average,SARIMA)和反向传播神经网络的混合模型来预测季节性时间序列数据。Zhou Z J等人[10]提出了一种基于灰色和ARIMA的混合建模和预测方法。Khashei M等人[11]使用ARIMA与人工神经网络(artificial neural network,ANN)的组合模型对时间序列数据进行了预测。Zhang L等人[12]探索了小波神经网络(wavelet neural network,WNN),将小波变换和神经网络结合进行短期水质预测。Shi B等人[13]将小波分析方法和人工神经网络模型结合,进行高频地表水水质预测。

水质数据分解可以消除周期性因素的影响,反映水质的真实规律和趋势,提高水质预测的准确性。目前存在很多模型,如基于小波分解的预测模型与支持向量机[14]、基于经验模态分解的长短期记忆网络预测模型[15]、结合ARIMA模型和小波分解的混合模型[16]、基于长短期记忆网络模型和高斯混合模型[17]、基于变分模式分解和LSTM的模型[18]等。上述分解模型可以对序列进行分解并提高预测精度,但应用以上模型进行水质预测时,并没有充分利用这些时间序列数据的特性。

而STL模型充分考虑了水质数据的特征,Chen D W等人[19]将STL应用于同样具有季节性特征的地铁客流量数据的预测,将其分解为季节、趋势和残差分量。然而,该工作只预测了趋势子序列,并

没有充分利用分解后的全部特征。

3 水质动态预警方法

本文工作提出的水质动态预警方法将STL的加法模式与LSTM-ED神经网络模型结合,从而提高预测性能,STL-LSTM-ED模型结合异常检测模型的结构如图1所示。该混合算法主要包括以下3个步骤。

步骤一:水质序列分解。使用STL算法将水质时间序列分解为趋势、季节周期、残差3个子序列,将子序列合并,从而得到一个三维时间序列。

步骤二:水质序列预测。将步骤一中的三维时间序列输入多元LSTM-ED模型中进行训练,将得到的三维预测结果进行矩阵相加,得到一维时间序列。然后计算该序列与步骤一中待分解的时间序列的损失函数值,通过降低该损失函数值得到最优的超参数。图1中c表示融合了编码器全部信息的特征输出。

步骤三:水质序列预警。通过按季节性分段的滑动窗口方式,利用拉依达准则将步骤二中的预测结果进行局部异常检测,分析得出预警点。 3.1 基于Loess的季节与趋势分解

STL是由Cleveland R B等人[20]提出的时间序列分解算法。它将一个包含N个点的周期性时间序列Y,分解成趋势分量T、季节周期分量S和残差分量R。 Yv=Tv+Sv+Rv,v=1,\",N (1)

趋势分量表示时间序列低频率和长时间的变化;季节周期分量表示时间序列周期性频率的变化;残差分量则表示原时间序列除去趋势分量和季节周期分量后剩余的值。STL算法基于局部加权回归散点平滑算法进行周期子序列的平滑,并通过内、外循环进行趋势拟合与季节周期分量的计算以

图1 STL-LSTM-ED模型结合异常检测模型的结构

第4期 许博文等:基于季节性分解与长短期记忆网络的水质动态预警 ·459·

及鲁棒性权重的更新。

Loess是对二维散点图进行平滑的常用方法。内循环部分主要负责对时间序列的周期子序列进行平滑,对趋势分量和季节周期分量进行更新;外循环部分主要负责计算鲁棒性权重,避免数据中的离群值对计算结果产生影响。 3.2 长短期记忆网络

LSTM[21]是一种循环模型,已被用于许多序列学习任务,如手写识别、语音识别和情感分析等。LSTM由输入门、输出门和遗忘门组成。图2展示了由门单元组成的LSTM单元内的信息流。LSTM的计算步骤如式(2)~式(10)所示。

步骤一:将前一时刻隐藏层的输出Ht−1和当前状态的输入Xt合并。

图2 LSTM单元内的信息流

It=Ht−1+Xt (2)步骤二:计算第一个tanh的输出向量Yt。

Yt=fc(Wc⋅It+bc)

(3)其中,fc为激活函数,一般采用tanh函数,Wc为连接权重值,bc为偏置量。

步骤三:计算对应单元输入门、遗忘门和输出

门的输出向量。

Gi=fg(Wi⋅It+bi) (4) Gf=fg(Wf⋅It+bf) (5)

Go=fg(Wo⋅It+bo)

(6)其中,Gi、Gf和Go分别是输入门、遗忘门和输出门的输出向量。权重Wi、Wf、Wo和偏置bi、bf、

bo是3个门单元对应的参数。fg为门单元的激活函数Sigmoid,其输出值在0和1之间。

步骤四:计算长期记忆的新单元状态向量Ct。

Y't=Gi⋅Yt (7)

C't=Gf⋅Ct−1

(8)

Ct=Y't+C't

(9)

其中,Y't为Gi与式(3)中输出向量Yt的逐元素乘积,即哈达玛积;C't为上一时刻细胞状态向量Ct−1与遗忘门Sigmoid输出的哈达玛积;将Y't与C't相加得到Ct,Ct表示LSTM单元在t时刻的细胞状态,是长期记忆的新细胞状态载体,当被重新使用时会反馈给LSTM单元。在这一步骤中,长期记忆的细胞状态会获得新的信息,但会忘记一些旧信息。

步骤五:计算LSTM单元的输出向量Ht。

Ht=fc(Ct)⋅Go

(10)

其中,Ht为LSTM单元的输出向量,fc为与步骤二中相同的激活函数。激活函数可以稳定LSTM单元多次重用后的输出值。输出门的输出向量Go可以控制LSTM单元是否应该产生输出。

此外,在此步骤中,单元状态向量Ct不受fc的影响,因此可以很容易地保留LSTM单元的原始输出Y't,以便下次重用。 3.3 基于编解码的长短期记忆网络

LSTM-ED模型[22]近年来常被用于序列到序列的学习任务,如机器翻译[23]以及LSTM变种的应用[24]。LSTM-ED模型如图3所示,其工作原理如下:使用基于LSTM的编码器将多变量输入序列映射为固定维向量表示;译码器是另一个LSTM网络,它使用该向量表示来产生目标序列。图3中,X={x1,x2,\",xnx}是输入序列,Ct是编码器在第t步的中间状态,其中,Cmt∈R,m是编码器的神经元的数量;解码器将Ct解码成目标序列

Y={y1,y2,\",yn

y}。

图3 LSTM-ED模型

·460· 智能科学与技术学报 第3卷

3.4 局部异常检测

考虑到水质变化受季节影响,本文提出一种基于季节性分解与长短期记忆网络的水质动态预警方法,通过计算选定季节范围内的水质时间序列进行异常检测,即局部异常检测。基于此,有效地降低了季节性导致的水质变化趋势异常波动。采用基于拉依达准则的离群点检测方法,通过滑动窗口方式计算局部均值μ与方差σ2,在正态分布的假设下,区域μ+3σ包含了99.7%的数据,如果某个值与均值μ的距离超过了3σ,这个值将被定义为异常值。其中设置滑动窗口的长度为m,截取的序列为X(m)={x1,x2,\",xm}。μ与σ2的定义如式(11)和式(12)所示。异常值的定义方式如下:如果x>μ+3σ或x<μ−3σ,则该值为异常值;否则该值为正常值。

water information system,NWIS)发布的加利福尼亚州纽曼圣华金河支流默塞德河水体的水环境数据。

采样周期为时间跨度为2012年5月至2020年8月,

15~60 min。数据集共约280 000个数据,训练集、验证集和测试集的比例为8:1:1。训练集用于拟合模型,验证集用于在训练过程中对模型进行校正,测试集用于评估训练模型的预测精度和鲁棒性。本文利用水质指标值做预测。pH值、溶解氧与水温3个指标的原始数据如图4所示,从整体趋势上看,呈现较强的周期性。由溶解氧与水温的物理特性可知,水温越高,溶解氧越低,二者具有一定的相关性。 4.2 评价指标

2

1m(i)

μ=∑x

mi=11m(i)

σ=∑(x−μ)2

mi=1

(11) (12)

4 仿真与分析

4.1 数据集及实验设置

为了验证和评价所提出的STL-LSTM-ED模型的预测能力,本文利用3种常用的误差评价指标来计算预测值与实际值的差距。评价指标包括均方误

MSE)、均方根误差(root mean 差(mean square error,

、平均绝对百分比误差(mean square error,RMSE)

MAPE)。各评价指标的计absolute percentage error,

算式如下:

1n

ˆi−yi (13) MSE=∑yni=1

1nˆi−yi)2 RMSE=(y∑ni=1(14) (15)

本文利用美国地质勘探局(United States Geo-logical Survey,USGS)国家水信息系统(national

ˆi−yi100%ny

MAPE= ∑ni=1yi

图4 pH值、溶解氧与水温3个指标的原始数据

第4期 许博文等:基于季节性分解与长短期记忆网络的水质动态预警 ·461·

其中,n是样本个数,ˆy

={yˆ1,yˆ2,\",yˆn}是预测结果序列,y={y1,y2,\",yn}是实际序列。

同时,为了验证季节性分段在异常检测上的效

果,引入F1分数(F1-Score)对模型进行评估。F1-Score的计算过程如式(16)~式(18)所示,评价标准参数说明见表1。其中,Precision表示精准率,Recall表示召回率。

Precision=TP

TP+FP (16)

Recall=TP

TP+FN

(17) F1-Score=2⋅

Precision⋅Recall

Precision+Recall

(18) 表1

评价标准参数说明

真实情况 预测为正例

预测为反例

正例 TP FN

反例

FP TN

4.3 基于LSTM-ED的预测模型

LSTM-ED模型通常被用于解决Seq2Seqsequence to sequence)问题。LSTM-ED模型可以实现序列到序列的输出,即直接输出多步的预测结果。而在采用递归滚动预测方法的LSTM模型中,使用预测结果进行下一步的预测,因此导致了误差累计。本文通过多步预测实验将LSTM与LSTM-ED模型进行了对比。LSTM与LSTM-ED模型的多步预测精度见表2。从表2可以看出,LSTM-ED模型均取得了较好的效果。LSTM在溶解氧指标上的预测效果如图5所示,LSTM-ED在溶解氧指标上的预测效

果如图6所示。

本文中LSTM神经网络的参数设定保持一致。其中LSTM的隐藏层层数为2,隐藏层维度为32,损失函数使用均方误差,随机失活率为0.2。此外,本文使用了Adam优化器。 4.4 基于序列分解的预测模型

EMD是Huang N E等人[25]提出的一种自适应处理技术,常被用于分解非线性非平稳时间序列。信号的自适应体现在它根据时间尺度特征对信号进行分解。EMD不需要预先设置基函数或分解尺度,可以有效减少人为干预。EMD的基本原理是将原始信号自适应地分解为一系列振荡函数,其中包括有限个具有不同特征尺度的固有模态函数intrinsic mode function,IMF)和一个残差序列。固有模态函数满足以下两个条件:

表2 LSTM与LSTM-ED模型的多步预测精度

LSTM LSTM-ED

步长

MAPE

MSE

RMSE MAPE MSE RMSE 1 10.71 0.911.15 6.92 0.56 0.79 2 10.96 0.941.18 7.07 0.57 0.8 3 11.34 0.971.22 7.21 0.59 0.81 4 11.77 1.011.27 7.28 0.62 0.83 5 12.2 1.051.32 7.35 0.64 0.83 6 12.63 1.091.37 7.55 0.69 0.86 7 13.02 1.131.42 7.62 0.71 0.87 8 13.37 1.161.46 7.69 0.73 0.89 9 13.69 1.191.5 8.17 0.76 0.92 10 13.97 1.221.53 8.49 0.78 0.93 11 14.2 1.24

1.56 8.91 0.83 0.95 12 14.41 1.26

1.59 9.23 0.87 0.99 13 14.58 1.281.61 9.49 0.9 1.02 14 14.73 1.291.63 9.88 0.92 1.05

15 14.85 1.3 1.65 10.32 0.94 1.08 16 14.95 1.311.66 10.77 0.97 1.1 17 15.04 1.321.67 11.51 0.99 1.13 18 15.1 1.331.68 11.89 1.04 1.16 19 15.15 1.331.69 12.21 1.13 1.19 20 15.19 1.341.69 12.65 1.19 1.21 平均

13.59 1.18

1.49

9.11 0.82 0.97

图5 LSTM在溶解氧指标上的预测效果

图6 LSTM-ED在溶解氧指标上的预测效果

((

·462· 智能科学与技术学报 第3卷

(1)在整个数据长度内,局部极值点的个数和过零点的个数必须相等或最多相差1;

(2)在任何时刻,局部极大值定义的包络和局部极小值定义的包络的均值都为0。

在数据集分割上,先进行EMD分解会导致数据泄露问题,后进行EMD分解无法保证训练集与测试集的子序列个数相同。因此,在对比实验中,EMD训练集分解了14个子序列,验证集分解了8个子序列,测试集分解了11个子序列,将多余的子序列合并为残差序列。最终的数据集为8个子序列,然后输入LSTM-ED网络进行训练。在上述实验基础上,对比了基于序列分解的LSTM-ED模型在水质时间序列预测上的效果。EMD和STL对水质时间序列的分解结果分别如图7、图8所示。基于序列分解的LSTM-ED模型的多步预测精度见表3。从表3可以看出,STL-LSTM-ED模型取得了较好

EMD-LSTM-ED在溶解氧指标上的预的预测效果。

测效果如图9所示,STL-LSTM-ED在溶解氧指标上的预测效果如图10所示。

4.5 基于拉依达准则的水质异常检测模型 在拉依达准则中,可以根据实际数据来确定具体将几个标准差作为异常判别的阈值,因此可以

为了验证季节性分段异常将该准则扩展为kσ法。

检测的效果,按照先验知识对上述水质数据集中的异常进行人工标记。设定周期长度参数Period,即

图8 STL对水质时间序列的分解结果

需要输入的数据的长度。在实验过程中,首先验证了不同k值下的异常检测效果,实验结果见表4。当k=4时,F1-Score取得最大值,为0.516,模型评估指标AUC为0.67。拉依达准则方法中季节分段长度与k的F1-Score值热力图如图11所示。

在该水质数据上,当k=5,Period=11 000时,F1-Score达到最大值,为0.594,此时召回率为0.462,精准率为0.833,AUC为0.73。实验表明,增加了季节性分段异常检测的效果优于整体数据的异常检测,因此,将季节性应用于异常检测具有捕捉局部异常的特性。

图7 EMD对水质时间序列的分解结果

第4期 许博文等:基于季节性分解与长短期记忆网络的水质动态预警 ·463·

表3 基于序列分解的LSTM-ED模型的多步预测精度

EMD-LSTM-ED STL-LSTM-ED

步长

MAPE MSE RMSE

MAPE MSE RMSE

1 3.21 0.28 0.46 3.73 0.33 0.43 2 3.4 0.3 0.47 3.97 0.35 0.45 3 3.69 0.32 0.5 4.22 0.37 0.48 4 4.05 0.35 0.53 4.48 0.39 0.51 5 4.44 0.39 0.57 4.75 0.41 0.54 表4

k值

不同k值对异常检测效果的影响

F1-Score AUC

3 0.494 0.62 4 0.516 0.67 5 0.501 0.64 6 0.472 0.60 7 0.463 0.57 8 0.455 0.56

6 4.86 0.43 0.62 5.01 0.44 0.57 7 5.29 0.47 0.66 5.27 0.46 0.6 8 5.73 0.5 0.71 5.53 0.48 0.63 9 6.16 0.54 0.76 5.79 0.5 0.65 10 6.59 0.58 0.8 6.04 0.52 0.68 11 7.02 0.62 0.85 6.28 0.55 0.71 12 7.43 0.66 0.9 6.52 0.57 0.74 13 7.83 0.7 0.94 6.74 0.59 0.76 14 8.21 0.73 0.99 6.96 0.6 0.79 15 8.58 0.76 1.03 7.16 0.62 0.81 16 8.93 0.8 1.07 7.36 0.64 0.84 17 9.26 0.83 1.11 3.73 0.33 0.43 18 9.57 0.86 1.15 3.97 0.35 0.45 19 9.86 0.88 1.18 4.22 0.37 0.48 20 10.13 0.91 1.22 4.48 0.39 0.51 平均

6.71 0.60 0.83 5.31 0.46 0.60

图9 EMD-LSTM-ED在溶解氧指标上的预测效果

图10 STL-LSTM-ED在溶解氧指标上的预测效果

图11 拉依达准则方法中季节分段长度与k的F1-Score值热力图

5 结束语

预测是水质预警的重要前提,预测的可靠性

与精准性能够降低频繁预警导致的人力物力的开销,同时避免了低灵敏度预警导致的管控滞后。本文提出了一种基于季节性分解与长短期记忆网络的水质动态预警方法STL-LSTM-ED,该方法将STL分解模型与基于编解码的长短期记忆网络结合,用来预测水质时间序列。该方法采用STL进行季节性分解,使得神经网络更加专注学习复杂的特征,因此采用LSTM-ED模型比单一的LSTM有更好的预测精度。同时本文对比了EMD模型。相比于分解出3个子序列的STL,EMD会分解出更多的子序列,这会导致预测误差叠加,使得预测的准确率下降。研究结果表明,STL-LSTM-ED模型在各项指标中均优于其他模型。在未来工作中,笔者将进一步探索该模型的泛化能力,并将其应用于不同的水质监测站点的数据,从而进一步优化模型并提高实时预测与实时预警分析的能力。

·464· 智能科学与技术学报 第3卷

参考文献:

[1] JIN T, CAI S B, JIANG D X, et al. A data-driven model for real-time

water quality prediction and early warning by an integration method[J]. Environmental Science and Pollution Research International, 2019, 26(29): 30374-30385.

[2] 权利敏, 杨翠丽, 乔俊飞. 基于CFNN的污水处理过程溶解氧浓度

在线控制[J]. 智能科学与技术学报, 2020, 2(3): 261-267.

QUAN L M, YANG C L, QIAO J F. CFNN-based online control for dissolved oxygen concentration of wastewater treatment processes[J]. Chinese Journal of Intelligent Science and Technology, 2020, 2(3): 261-267.

[3] OLIVEIRA P J, STEFFEN J L, CHEUNG P. Parameter estimation of

seasonal ARIMA models for water demand forecasting using the har-mony search algorithm[J]. Procedia Engineering, 2017, 186: 177-185. [4] PARMAR K S, BHARDWAJ R. Water quality management using

statistical analysis and time-series prediction model[J]. Applied Water Science, 2014, 4(4): 425-434.

[5] CAO Q, LIU B X, CHENG X. Notice of retraction: forecasting model

based on LS-SVM and Markov chain for the water quality of Poyang Lake[C]//Proceedings of 2011 7th International Conference on Natural Computation. Piscataway: IEEE Press, 2011: 2070-2073.

[6] LE X H, HO H V, LEE G, et al. Application of long short-term memo-ry (LSTM) neural network for flood forecasting[J]. Water, 2019, 11(7): 1387.

[7] AYADI A, GHORBEL O, OBEID A M, et al. Outlier detection ap-proaches for wireless sensor networks: a survey[J]. Computer Net-works, 2017, 129: 319-333.

[8] 张建晋, 王韫博, 龙明盛, 等. 面向季节性时空数据的预测式循环

网络及其在城市计算中的应用[J]. 计算机学报, 2020, 43(2): 286-302.

ZHANG J J, WANG Y B, LONG M S, et al. Predictive recurrent net-works for seasonal spatiotemporal data with applications to urban computing[J]. Chinese Journal of Computers, 2020, 43(2): 286-302. [9] TSENG F M, YU H C, TZENG G H. Combining neural network

model with seasonal time series ARIMA model[J]. Technological Fo-recasting and Social Change, 2002, 69(1): 71-87.

[10] ZHOU Z J, HU C H. An effective hybrid approach based on grey and

ARMA for forecasting gyro drift[J]. Chaos, Solitons & Fractals, 2008, 35(3): 525-529.

[11] KHASHEI M, BIJARI M. A novel hybridization of artificial neural

networks and ARIMA models for time series forecasting[J]. Applied Soft Computing, 2011, 11(2): 2664-2675.

[12] ZHANG L, ZOU Z H, SHAN W. Development of a method for com-

prehensive water quality forecasting and its application in Miyun re-servoir of Beijing, China[J]. Journal of Environmental Sciences, 2017, 56: 240-246.

[13] SHI B, WANG P, JIANG J P, et al. Applying high-frequency surrogate

measurements and a wavelet-ANN model to provide early warnings of rapid surface water quality anomalies[J]. Science of the Total Envi-ronment, 2018, 610/611: 1390-1399.

[14] SUN Y X, LENG B, GUAN W. A novel wavelet-SVM short-time

passenger flow prediction in Beijing subway system[J]. Neurocom-puting, 2015, 166: 109-121.

[15] CHEN L, CHI Y G, GUAN Y Y, et al. A hybrid attention-based

EMD-LSTM model for financial time series prediction[C]//Procee- dings of 2019 2nd International Conference on Artificial Intelligence and Big Data (ICAIBD). Piscataway: IEEE Press, 2019: 113-118. [16] CONEJO A J, PLAZAS M A, ESPINOLA R, et al. Day-ahead elec-tricity price forecasting using the wavelet transform and ARIMA mod-els[J]. IEEE Transactions on Power Systems, 2005, 20(2): 1035-1042. [17] WU D, JIANG Z K, XIE X F, et al. LSTM learning with Bayesian and

Gaussian processing for anomaly detection in industrial IoT[J]. IEEE Transactions on Industrial Informatics, 2020, 16(8): 5244-5253. [18] NIU H L, XU K L, WANG W Q. A hybrid stock price index forecast-ing model based on variational mode decomposition and LSTM net-work[J]. Applied Intelligence, 2020, 50(12): 4296-4309.

[19] CHEN D W, ZHANG J H, JIANG S X. Forecasting the short-term

metro ridership with seasonal and trend decomposition using loess and LSTM neural networks[J]. IEEE Access, 2020, 8: 91181-91187. [20] CLEVELAND R B, CLEVELAND W S, MCRAE J E, et al. STL: a

seasonal-trend decomposition [J]. Journal of official statistics, 1990, 6(1): 3-73.

[21] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J].

Neural Computation, 1997, 9(8): 1735-1780.

[22] HABLER E, SHABTAI A. Using LSTM encoder-decoder algorithm

for detecting anomalous ADS-B messages[J]. Computers & Security, 2018, 78: 155-173.

[23] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by

jointly learning to align and translate[J]. arXiv preprint, 2014, ar-Xiv:1409. 0473.

[24] 倪维健, 孙宇健, 刘彤, 等. 基于注意力双向循环神经网络的业务

流程剩余时间预测方法[J]. 计算机集成制造系统, 2020, 26(6): 1564-1572.

NI W J, SUN Y J, LIU T, et al. Business process remaining time pre-diction using bidirectional recurrent neural networks with attention[J]. Computer Integrated Manufacturing Systems, 2020, 26(6): 1564-1572.

第4期 许博文等:基于季节性分解与长短期记忆网络的水质动态预警 ·465·

[25] HUANG N E, SHEN Z, LONG S R, et al. The empirical mode de-composition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings of the Royal Society of London Series A: Mathematical, Physical and Engineering Sciences, 1998, 454(1971): 903-995.

[作者简介]

许博文(1996− ),男,北京工业大学信息学部硕士生,主要研究方向为异常检测、水质预警等。

毕敬(1979− ),女,博士,北京工业大学信息学部副教授、博士生导师,主要研究方向为时空大数据特征建模与分析、计算智能、深度学习、数据中心节能等。

苑海涛(1986− ),男,博士,北京航空航天大学自动化科学与电气工程学院副教授,IEEE高级会员,现任中国体视学学会理事。主要研究方向为云计算、边缘计算、数据中心、深度学习、智能优化、时间序列特征建模与预测等。

王功明(1987− ),男,博士,北京工业大学信息学部助理研究员,主要研究方向为污水处理过程特征建模与水质预测、神经自组织结构设计与优化、离散事件动态系统安全策略优化等。

乔俊飞(1968− ),男,博士,北京工业大学信息学部教授、博士生导师,主要研究方向为智能计算、自组织控制以及污水处理过程优化运行控制等。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务