问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

基于LSTM模型和污染情景数据库的水质污染源反向追踪方法

创作时间:
作者:
@小白创作中心

基于LSTM模型和污染情景数据库的水质污染源反向追踪方法

引用
1
来源
1.
https://www.xjishu.com/zhuanli/55/202411326247.html

随着环保意识的增强和水污染治理需求的增加,如何快速准确地识别污染源及其污染类型成为水质管理面临的核心问题。本文介绍了一种基于LSTM模型和污染情景数据库的水质污染源反向追踪方法,该方法通过结合S-P模型和机器学习技术,能够在有限数据条件下快速识别污染物的类型和来源,为流域水质管理提供了强有力的技术支持。

背景技术

  1. 河流和湖泊的水质监测与管理对于保护水环境和保障生态健康至关重要。在水质管理中,及时准确地识别污染源及其污染类型(如点源或面源污染)是制定和实施有效污染控制措施的基础。然而,传统的污染溯源方法通常依赖大量的现场监测数据和复杂的数值模拟。这些方法不仅耗时且成本高昂,而且在数据有限的情况下,往往难以提供快速和精准的溯源结果。

  2. 在流域层面的水质管理中,水污染事件的发生往往伴随着复杂的污染情景,包括多个污染源和不同的污染物扩散途径。在这种情况下,如何在有限的监测数据条件下,快速识别污染物的类型和来源,成为水质管理面临的核心问题。这一问题的解决,不仅直接影响到污染事件的应急处理效率,还关系到整个流域的长期保护和生态系统的可持续性。

  3. 近年来,随着人工智能技术的发展,基于深度学习的模型逐渐应用于水质分析与污染溯源中。其中,长短期记忆(LSTM)模型因其在处理时间序列数据方面的独特优势,展示出广阔的应用前景。LSTM模型可以有效捕捉水质因子在时间上的变化规律,结合实测数据,能够模拟出污染物浓度的变化趋势。然而,仅依赖LSTM模型进行预测仍然不足以解决实际应用中的问题,尤其是在污染场景复杂且监测数据有限的情况下。

技术实现思路

  1. 针对现有技术在有限数据条件下难以准确识别污染源和污染类型的问题,本技术提出了一种基于LSTM模型和污染情景数据库的水质污染源反向追踪方法。该方法主要包括以下几个步骤:

  2. 获取水质监测数据中的污染源特征参数;所述污染源特征参数包括污染因子的浓度、时间以及地点。

  3. 根据污染物扩散方程构建用于描述污染因子在流域内的迁移和扩散的模型。

  4. 不同污染场景,将水质监测数据的所述污染源特征参数输入所述模型,根据所述模型,获取不同污染场景的响应所述输入的污染因子浓度变化曲线。

  5. 计算各场景下的污染因子浓度的观测值与所述模型响应所述输入输出的污染因子浓度的预测值的残差值。

  6. 将输入所述模型的所述污染源特征参数、所述模型输出的污染因子浓度变化曲线、所述残差值及对应的污染场景间形成映射,存储在数据库中。

  7. 使用所述数据库中的数据训练机器学习模型,输入格式为时间序列数据,输入数据为水质因子浓度的时间序列数据,输出目标为污染源特征参数。

  8. 将实测污染因子浓度的时间序列数据输入训练后的所述机器学习模型,由所述机器学习模型预测输出响应所述输入的污染源特征参数。

  9. 将所述机器学习模型预测输出的所述污染源特征参数,在所述数据库中匹配,获取数据库中匹配的污染源特征参数对应的污染场景。

  10. 根据所述机器学习模型预测输出的所述污染源特征参数获取污染源的地点信息,根据数据库中匹配的污染源特征参数对应的污染场景获取污染场景信息。

  11. 所述污染场景包括点源污染场景和面源污染场景。

  12. 所述污染因子包括COD或氨氮中的任一种或者其组合。

  13. 还包括对所述污染源特征参数的预处理,所述预处理包括:标准化所述污染源特征参数;补全所述水质监测数据中缺失的数据点。

  14. 所述用于描述污染因子在流域内的迁移和扩散的模型,包括S-P模型,由下式表示:

  15. 式中,c(x,t)为污染因子在距离污染源x处、时间t的浓度,表示污染因子浓度变化曲线,x为距污染源的距离,用于表示地点,c0为初始污染因子的浓度,t为时间,d为污染因子扩散系数,v为水流速度。

  16. 还包括评价所述用于描述污染因子在流域内的迁移和扩散的模型的拟合精度,包括:使用纳什效率系数(NSE)和均方误差(MSE)统计指标评价所述模型的拟合精度;其中,纳什效率系数(NSE)用于评估模型预测值相对于观测值的相对误差;均方误差(MSE)用于量化预测值与观测值之间的误差。

  17. 所述机器学习模型为LSTM模型的隐藏层和输出层,由下式表示:

  18. ht=σ(wx·xt+wh·ht-1+b)

  19. cpred=w0·ht+b0

  20. 式中,ht表示隐藏层状态,σ表示激活函数,xt为输入数据,wx表示输入xt的权重矩阵,ht-1表示前一时刻t-1的隐藏状态,wh表示前一时刻隐藏状态ht-1的权重矩阵,b表示偏置向量,用于对隐藏状态加上一个常量修正值,cpred为预测的污染源特征,w0表示隐藏状态到输出的权重矩阵,它将隐藏状态ht转换为输出空间,b0表示输出的偏置项。

  21. LSTM模型包括输入层、LSTM层以及输出层:

  22. 输入层接受多维时间序列数据,每个时间步长包含若干输入特征,主要包括河流中监测到的水质因子的浓度变化。

  23. LSTM层处理时间序列数据,通过记忆单元保存长时间的依赖信息,其中的门机制控制信息的流动;其中,LSTM层包括至少两个LSTM单元,LSTM单元包括输入门、遗忘门、输出门,具有候选记忆单元状态、记忆单元更新以及隐藏状态更新。

  24. 输出层全连接层,输出预测值,输出层的激活函数选择线性激活函数。

  25. LSTM单元输入门用于控制新信息的流入,由下式表示:

  26. it=σ(wi·[ht-1,xt]+bi)

  27. 其中:it为输入门的激活值,为0到1之间的值,控制新输入信息在多大程度上流入记忆单元;σ为激活函数,将输入值压缩到0到1之间;wi为输入门的权重矩阵,用于将先前的隐藏状态ht-1和当前输入xt映射到输入门;ht-1为前一时间步长的隐藏状态;xt为当前时间步长的输入数据;bi为输入门的偏置项。

  28. LSTM单元的遗忘门用于控制遗忘记忆单元中的信息,由下式表示:

  29. ft=σ(wf·[ht-1,xt]+bf)

  30. 其中,ft为遗忘门的激活值,为0到1之间的值,控制前一时刻的记忆单元中的信息在多大程度上被保留或遗忘;wf为遗忘门的权重矩阵,用于将先前的隐藏状态ht-1和当前输入xt映射到遗忘门;bf为遗忘门的偏置项。

  31. LSTM单元的输出门用于控制输出信息,由下式表示:

  32. ot=σ(wo·[ht-1,xt]+bo)

  33. 其中,ot为输出门的激活值,为0到1之间的值,控制记忆单元中的信息输出到隐藏状态的程度;wo为输出门的权重矩阵,用于将先前的隐藏状态ht-1和当前输入xt映射到输出门;bo为输出门的偏置项。

  34. LSTM单元的候选记忆单元状态,由下式表示:

  35. 其中,为候选记忆单元状态,表示基于当前输入和前一时间步的隐藏状态更新后的潜在记忆状态;tanh为双曲正切激活函数,将值压缩到-1到1之间;wc为候选记忆单元状态的权重矩阵;bc为候选记忆单元状态的偏置项。

  36. LSTM单元的记忆单元更新,由下式表示:

  37. 其中,ct为当前时间步长的记忆单元状态,综合遗忘门和输入门的结果,代表当前时刻的完整记忆;ct-1为前一时间步长的记忆单元状态;*表示元素乘法。

  38. LSTM单元的隐藏状态更新,由下式表示:

  39. ht=ot*tanh(ct)

  40. 其中,ht为当前时间步长的隐藏状态,基于输出门和记忆单元状态的计算结果;tanh(ct)为记忆单元状态的非线性变换,用以调节输出的幅度。

  41. 所述使用所述数据库中的数据训练机器学习模型,包括如下步骤:

  42. 将用于训练处理为时间序列形式。

  43. 将数据集分为训练集、验证集和测试集。

  44. 构建出所述LSTM模型后进行模型的训练,选择均方误差(MSE)作为损失函数,用于衡量模型预测值与实际值之间的误差,由如下公式表示:

  45. 其中,ytrue,i是实际值,ypred,i是预测值,n是样本数量。

  46. 使用反向传播算法和梯度下降优化器进行模型参数的更新,梯度下降优化器,由如下公式表示:

  47. mt=β1mt-1+(1-β1)gt

  48. vt=β2vt-1+(1-β2)gt2

  49. 其中,θt为模型参数在时间步t的值;gt为在时间步t计算出的当前梯度;mt为一阶矩估计;vt为二阶矩估计;为一阶矩估计的偏差校正值;为二阶矩估计的偏差校正值;α为学习率;β1为控制一阶矩估计的指数加权衰减率;β2为控制二阶矩估计的指数加权衰减率;∈为为防止除零操作而加的一个小常数。

有益效果

  1. 在第一方面上,本发明提出了一种结合LSTM模型与污染情景数据库的水质污染源反向溯源方法。使用S-P模型通过模拟不同污染情景下的污染物浓度变化,建立一个全面的污染情景数据库。该数据库涵盖了各种可能的污染类型和来源,能够在输入有限监测数据的情况下,通过与数据库中的情景进行匹配,快速识别出污染物的类型和来源。这种方法不仅提高了污染溯源的效率和准确性,还为流域水质管理提供了强有力的技术支持。该方法的应用对于流域的环境保护具有重要意义。一方面,它能够帮助管理者在污染事件发生时及时采取措施,减少污染对生态环境的影响;另一方面,它也为流域的长期保护和科学管理提供了新的思路和工具,有助于实现流域生态环境的可持续发展。

  2. 在第二方面上,本发明采用S-P模型结合有限数据条件下的模拟手段,通过模拟污染扩散过程,能够在监测数据不全的情况下快速生成多种污染场景。通过LSTM模型与数据库的结合,可以在缺少实时监测数据时,利用历史数据和污染情景库提供可靠的溯源结果,从而减少对大规模数据的依赖。

  3. 在第二方面的第一方向上,本发明具有较强的适应性:由于S-P模型基于污染物扩散方程,能够灵活调整扩散系数、流速等参数。这使得该技术不仅适用于特定的流域,也可以扩展应用到其他流域或区域,具有较强的普适性。模型中的参数调整适应了不同流域的地理和水文特征,因此可以在不同的环境条件下实现较为准确的污染源识别。

  4. 在第二方面的第二方向上,本发明具有可扩展性:可扩展性体现在模型的参数化特性和数据库的扩展上。污染情景数据库可以不断更新,涵盖更多污染源和污染类型。此外,模型的结构和计算方式可以通过调整适应不同规模的流域系统,能够根据需求增加新的数据源和污染物类型,扩展应用领域。

  5. 在第三方面上,相较于单独使用机器学习模型进行水质污染源的反向追踪,本发明通过前置S-P模型、建立污染情景数据库,再进行机器学习模型训练,能够提高模型精度与可靠性、减少数据需求、提升处理复杂污染情景的能力、增强适应性与可扩展性、加速污染源追踪的响应速度。

  6. 在第三方面的第一方向上,本发明能够提高模型精度与可靠性:S-P模型基于污染物扩散方程,能够模拟污染物在不同时间和空间的浓度变化,并生成多个污染情景。这些模拟结果可以为机器学习模型提供更多训练数据,使其能够在实际应用中处理复杂的污染情况,提高预测的准确性。相比于仅依赖历史数据进行训练,这种结合模拟与学习的方式能够捕捉到更多潜在的污染模式,从而提升模型的泛化能力和预测可靠性。

  7. 在第三方面的第二方向上,本发明能够减少数据需求:传统的机器学习模型通常依赖大量的监测数据进行训练,而本发明通过S-P模型生成模拟数据,弥补了实际监测数据不足的情况。这使得模型能够在数据有限的情况下依然有效工作,降低了对长期、大规模监测数据的依赖,从而提高了方法的实用性,尤其是在数据资源有限的流域或环境中。

  8. 在第三方面的第三方向上,本发明能够提升处理复杂污染情景的能力:单独的机器学习模型可能在面对复杂、多源污染情景时难以应对,而通过引入S-P模型和污染情景数据库,本发明能够模拟不同类型和源头的污染事件。这使得系统能够快速匹配当前监测数据与数据库中的污染情景,从而精准识别污染源和污染类型,尤其在突发性或非典型的污染事件中具有显著优势。

  9. 在第三方面的第四方向上,本发明能够增强适应性与可扩展性:通过S-P模型的前置模拟和数据库的建立,本发明不局限于特定流域或污染类型,具有较强的适应性和可扩展性。数据库可以根据实际需求不断扩展,新增不同的污染情景,进而提高系统对不同环境和污染事件的适应能力。这种可扩展性使得该方法不仅适用于当前的目标流域,还能推广应用于其他区域的水质管理和污染溯源。

  10. 在第三方面的第五方向上,本发明能够加速污染源追踪的响应速度:由于污染情景数据库已经预先建立,当出现污染事件时,模型可以快速匹配当前数据与数据库中的情景,迅速识别污染源。相比传统机器学习模型依赖逐步训练和优化的过程,该方法显著加快了应急响应速度,能够在污染事件发生后第一时间提供溯源结果。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号