新冠疫情预测模型:逻辑斯蒂回归拟合与SEIR模型详解
新冠疫情预测模型:逻辑斯蒂回归拟合与SEIR模型详解
在新冠疫情的背景下,如何准确预测疫情的发展趋势成为了一个重要的研究课题。本文将介绍两种常用的疫情预测模型:逻辑斯蒂回归拟合和SEIR模型,并通过实际案例展示它们的应用效果。
逻辑斯蒂回归拟合
逻辑斯蒂回归拟合是一种常用的曲线拟合方法,其基本形式为:
其中,L、a、b均为未知参数,需要根据历史数据进行估计。逻辑斯蒂回归拟合在现代商业、生产行业、生物科学等方面有着非常广泛的应用。
我们利用生长曲线模型,拟合上海2022年3月1日到4月30日累计确诊病例数据,建立生长曲线模型。数据拟合如下图所示,蓝色部分显示的确诊病例观测值,橙色部分显示的是确诊病例预测值,并计算出3天的确诊预测病例数据(5月7日,5月8日,5月9日)。
截止本论文完成时间(5月9号),新冠确诊的实际人数是55599、55921、56155(分别为5月7日、5月8日、5月9日的数据),而根据此模型预测这三天的确诊人数分别为55926、56179、56387,可见预测值与实际值基本一致。
逻辑斯蒂拟合的代码:
从上图预测值生成的曲线来看,生长曲线模型整体呈现“S”型,按照相关参考文献说明,生长曲线可以分为初期、中期和末期三个阶段:
- 在初期,虽然 t处于增长阶段,但是 y 的增长较为缓慢,这时曲线呈现较为平缓的上升;
- 在中期,随着t的增长,y 的增长速度逐渐增快,曲线呈现快速上升的态势;
- 当达到拐点(t,Y)后,因函数饱和程度的增长达到末期,随着t的增长 y 的增长较为缓慢,增长速度趋近于0,曲线呈水平状发展。
在了解模型特点后,假设外部因素干预事件发展,就会导致数据的突然增多或减少,会影响模型的预测精度。因此,logistic增长模型只是对疾病进行预估,并不能准确判断,也并不是最佳模型。当然可以通过模型优化,来提高预测精度,有的文献提出可以根据华罗庚提出的0.618选优法,对得到的模型进行优化(计算该模型是否能得到预测值和测量值最小残差平方和)。这里我们就不再展开,可以后期进行探讨学习。
疾病传播模型-SEIR
查阅相关文献后,发现常见的传染病模型按照传染病类型分为SI、SIR、SIRS、SEIR 模型等,用于研究传染病的传播速度、空间范围、传播途径等问题,用来指导对传染病的预防和控制。模型中涉及S、E、I、R、r、β、γ、α参数:
S类:表示易感者 (Susceptible),指未得病者,但缺乏免疫能力,与感染者接触后容易受到感染;
E类:表示暴露者 (Exposed),指接触过感染者,但暂无能力传染给其他人的人,对潜伏期长的传染病适用;
I类:表示感病者 (Infectious),指染上传染病的人,可以传播给 S 类成员,将其变为 E 类或 I 类成员;
R类:表示康复者 (Recovered),指被隔离或因病愈而具有免疫力的人。如免疫期有限,R类成员可以重新变为 S 类。
r:感染患者(I)每天接触的易感者数目;
β:传染系数,由疾病本身的传播能力,人群的防控能力决定;
γ:恢复系数,一般为病程的倒数,例如流感的病程5天的话,那么它的γ就是1/5;
α:潜伏者的发病概率,一般为潜伏期的倒数。
我们这里不再利用采集到的数据,模拟疫情发展形式,一方面原因是我们并不能较好的估计模型中涉及到各个参数, 需要考虑的的参数较多,另一方面数据并不能支撑其模型推导,特别是疫情的政府干预因素、社会舆情因素,对疫情发展趋势都会产生一定的影响,应将相关的因素考虑进去,所以这个问题相对来说是比较复杂的过程,我们这里不再进行过多探讨。大家有兴趣的可以去查找相关文献材料,进行深入研究学习。
SEIR模型代码:
一个在线的SEIR模型可视化平台
基于GNN的新冠肺炎疫情发展预测
https://github.com/Deathcup/GCN-final