科研一角 || 利用机器学习技术对极端事件进行原因分析
科研一角 || 利用机器学习技术对极端事件进行原因分析
随着全球气候变暖的加剧,极端天气事件频发,其背后的原因分析变得尤为重要。本文介绍了一项利用机器学习技术,特别是卷积神经网络(CNN),对极端天气事件进行归因分析的研究。研究通过训练CNN模型,评估了人为因素对极端高温事件的影响,并探讨了该方法的不确定性和未来改进方向。
研究背景
全球气候变暖的速度前所未有,人为因素导致世界各地极端天气事件的发生频率和强度不断上升。人类活动对特定事件的具体影响量度仍然是一个挑战。最近,在极端事件归因研究领域已经取得了显著进展,主要目标是探究极端气候事件是否与人为因素有关。事件归因研究致力于通过对比实际气候记录与假设的‘非气候变化’情景下的极端事件特性,来评估气候变化对极端天气事件的频率和强度所起的作用大小。
大部分关于极端事件的归因研究采取的是“概率基础”的评估方式,它们通常依赖于对现有的气候模型模拟或观测数据的分析,这种分析方法能够支持在极端事件出现后迅速进行归因分析。
材料与方法
用于训练卷积神经网络的数据集
训练数据来源:CMIP6,即第六轮国际耦合气候模型比较项目。全球气候模拟系统GCM:加拿大环境部模型第五代(CanESM5)和英国地球系统模型低分辨率版本(UKESM1-0-LL)。外部驱动因素:从1850年到2014年的历史温室气体排放影响以及2015年至2100年的SSP5-8.5排放预测情景。
可以将上述输入项重新表述为:“参数包括:海平面气压(SLP)、0至10厘米深度的土壤湿度(SM)、在700百帕、500百帕和250百帕气压层的位势高度(GPH)、一年中的日序(DOY)以及全年全球平均地表温度(GMT)。输出项:日最高温度(TMAX)。
CNN架构
输入层:各格点逐日海平面气压(SLP)、土壤湿度(SM)、海拔高度(GPH)。卷积层:包含两个卷积层,每个卷积层都使用8个3x3的滤波器,负责提取输入数据的空间特征。池化层:使用2x2的最大池化层,用于降低特征的空间维度,同时保留最重要的信息。全连接层:池化层的输出被展平成一个一维向量,然后与日序(DOY)和全球平均气温(GMT)进行连接。输出层:模型通过一个带有线性激活函数的输出层预测每日最高2米气温(TMAX) 。
构建反事实情景
真实数据来源:ERA5历史再分析数据集。输入项:海平面压力(SLP)、0-7cm的土壤湿度(SM)、700、500、250mbar的海拔高度(GPH)、日序(DOY)、不同升温情景的年全球平均地表温度(GMT)。输出项:不同升温情景下的日最高温度(TMAX)。
部分依赖分析
评估单一特征对机器学习模型输出的直接影响,同时忽略其他变量的作用,以揭示该特征与预测结果之间的独立关联。
图1 基于机器学习的极端事件归因方法示意图
主要结果
CNN模型的训练和评估
通过使用全球气候模型(GCMs)训练的卷积神经网络(CNN)模型能够有效地预测ERA5数据集中的日最高气温(TMAX)。此外,研究发现,模型在训练后对每日海平面气压(SLP)、土壤湿度(SM)和海拔高度(GPH)的变化较为敏感,这些影响因素表明天气模式的短期波动对模型预测结果有显著影响。
图2 三个不同的CNN分别使用GCMs(1851-2100)进行训练,以预测ERA5数据集中的TMAX
图3 使用GCMs(1851-2100)训练CNN预测ERA5数据集中的TMAX的基线性能比较
极端高温事件归因分析
两种GCMs训练得到的CNNs能较好地复现此次高温事件。2023年全球年平均温度(GMT)的情况下,自1850-1900年以来的人为强迫使该高温事件的TMAX升高了1.18-1.42°C。若GMT升温2.0°C时,每年6-8月将发生0.14-0.60个同类高温事件,GMT升温4.0°C时每年将发生2.36-5.62个同类高温事件。
图4 基于机器学习的北美中南部极端事件归因分析
讨论
与先前发表的结果比较
本研究与先前研究对同一极端高温事件进行了对比分析,探讨了与1850-1900年工业革命前相比,人为因素对极端高温事件强度增加的贡献。尽管各类归因研究在分析时段、区域范围和评估指标上存在差异,但本研究得出的结论与先前研究大体相符。
(1) 基于CNNs构建的反事实事件没有考虑大气动力学中可能的气候驱动变化对TMAX的影响。
(2) GMT异常幅度较小情况下的预测结果可能存在较大的误差。
(3) 本研究的方法依赖于全球气候模型GCMs的准确度和更新进步。
图5 2021年6月27日-6月30日太平洋西北部极端高温事件
不确定性的其他来源
不确定性来源:
① 归因结果受到GSMs和ERA5数据集之间偏差的影响。
② 输入量可能不能很好地表示复杂的物理过程。
降低不确定性的可能方法:
① 通过增加训练数据集中的GCM数量来减少CNN可能出现的偏差,使CNN学习的更大的气象条件样本;。
② 使用对特定变量和分析区域具有最小偏差的GCM进行训练,或者使用经过偏差校正的GCM数据集;。
③ 在极端事件发生前几天加入额外的输入变量,使CNN可以学习到更复杂的物理关系。
图6 2022年发生在印度西部的极端高温事件
未来的研究
进一步的改进:
2. 采用多样化的卷积神经网络(CNN)集合来评估不确定性,每个网络都具有独特的模型结构、超参数设置和训练成果。
4. 对比在不同全球气候模型(GCM)上训练得到的CNN性能,这种训练依赖于每日时间尺度上所需输入变量的可获得性。
6. 利用基于不同未来排放路径(如SSP1-2.6和SSP1-1.9)的GCM数据来训练CNN。
8. 通过实际气象数据来提升计算得到的反事实情景的强度和频率的准确性。
机器学习技术在提升极端事件归因的计算效率方面取得了显著进展,这增强了其对不同类型极端事件、不同地区以及不同时间尺度的广泛适用性。这种方法展现出巨大的潜力,能够作为一种高效的工具,用于经济高效地快速分析特定极端事件的原因。