问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

新冠疫情预测模型:逻辑斯蒂回归拟合与SEIR模型详解

创作时间:
作者:
@小白创作中心

新冠疫情预测模型:逻辑斯蒂回归拟合与SEIR模型详解

引用
1
来源
1.
https://developer.volcengine.com/articles/7385003760815276051

在新冠疫情的背景下,如何准确预测疫情的发展趋势成为了一个重要的研究课题。本文将介绍两种常用的疫情预测模型:逻辑斯蒂回归拟合和SEIR模型,并通过实际案例展示它们的应用效果。

逻辑斯蒂回归拟合

逻辑斯蒂回归拟合是一种常用的曲线拟合方法,其基本形式为:

其中,L、a、b均为未知参数,需要根据历史数据进行估计。逻辑斯蒂回归拟合在现代商业、生产行业、生物科学等方面有着非常广泛的应用。

我们利用生长曲线模型,拟合上海2022年3月1日到4月30日累计确诊病例数据,建立生长曲线模型。数据拟合如下图所示,蓝色部分显示的确诊病例观测值,橙色部分显示的是确诊病例预测值,并计算出3天的确诊预测病例数据(5月7日,5月8日,5月9日)。

截止本论文完成时间(5月9号),新冠确诊的实际人数是55599、55921、56155(分别为5月7日、5月8日、5月9日的数据),而根据此模型预测这三天的确诊人数分别为55926、56179、56387,可见预测值与实际值基本一致。

逻辑斯蒂拟合的代码:

从上图预测值生成的曲线来看,生长曲线模型整体呈现“S”型,按照相关参考文献说明,生长曲线可以分为初期、中期和末期三个阶段:

  • 在初期,虽然 t处于增长阶段,但是 y 的增长较为缓慢,这时曲线呈现较为平缓的上升;
  • 在中期,随着t的增长,y 的增长速度逐渐增快,曲线呈现快速上升的态势;
  • 当达到拐点(t,Y)后,因函数饱和程度的增长达到末期,随着t的增长 y 的增长较为缓慢,增长速度趋近于0,曲线呈水平状发展。

在了解模型特点后,假设外部因素干预事件发展,就会导致数据的突然增多或减少,会影响模型的预测精度。因此,logistic增长模型只是对疾病进行预估,并不能准确判断,也并不是最佳模型。当然可以通过模型优化,来提高预测精度,有的文献提出可以根据华罗庚提出的0.618选优法,对得到的模型进行优化(计算该模型是否能得到预测值和测量值最小残差平方和)。这里我们就不再展开,可以后期进行探讨学习。

疾病传播模型-SEIR

查阅相关文献后,发现常见的传染病模型按照传染病类型分为SI、SIR、SIRS、SEIR 模型等,用于研究传染病的传播速度、空间范围、传播途径等问题,用来指导对传染病的预防和控制。模型中涉及S、E、I、R、r、β、γ、α参数:

  • S类:表示易感者 (Susceptible),指未得病者,但缺乏免疫能力,与感染者接触后容易受到感染;

  • E类:表示暴露者 (Exposed),指接触过感染者,但暂无能力传染给其他人的人,对潜伏期长的传染病适用;

  • I类:表示感病者 (Infectious),指染上传染病的人,可以传播给 S 类成员,将其变为 E 类或 I 类成员;

  • R类:表示康复者 (Recovered),指被隔离或因病愈而具有免疫力的人。如免疫期有限,R类成员可以重新变为 S 类。

  • r:感染患者(I)每天接触的易感者数目;

  • β:传染系数,由疾病本身的传播能力,人群的防控能力决定;

  • γ:恢复系数,一般为病程的倒数,例如流感的病程5天的话,那么它的γ就是1/5;

  • α:潜伏者的发病概率,一般为潜伏期的倒数。

我们这里不再利用采集到的数据,模拟疫情发展形式,一方面原因是我们并不能较好的估计模型中涉及到各个参数, 需要考虑的的参数较多,另一方面数据并不能支撑其模型推导,特别是疫情的政府干预因素、社会舆情因素,对疫情发展趋势都会产生一定的影响,应将相关的因素考虑进去,所以这个问题相对来说是比较复杂的过程,我们这里不再进行过多探讨。大家有兴趣的可以去查找相关文献材料,进行深入研究学习。

SEIR模型代码:

一个在线的SEIR模型可视化平台

基于GNN的新冠肺炎疫情发展预测

https://github.com/Deathcup/GCN-final

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号