新冠疫情预测模型：逻辑斯蒂回归拟合与SEIR模型详解

创作时间:

作者:

@小白创作中心

新冠疫情预测模型：逻辑斯蒂回归拟合与SEIR模型详解

引用

来源

https://developer.volcengine.com/articles/7385003760815276051

在新冠疫情的背景下，如何准确预测疫情的发展趋势成为了一个重要的研究课题。本文将介绍两种常用的疫情预测模型：逻辑斯蒂回归拟合和SEIR模型，并通过实际案例展示它们的应用效果。

逻辑斯蒂回归拟合

逻辑斯蒂回归拟合是一种常用的曲线拟合方法，其基本形式为：

其中，L、a、b均为未知参数，需要根据历史数据进行估计。逻辑斯蒂回归拟合在现代商业、生产行业、生物科学等方面有着非常广泛的应用。

我们利用生长曲线模型，拟合上海2022年3月1日到4月30日累计确诊病例数据，建立生长曲线模型。数据拟合如下图所示，蓝色部分显示的确诊病例观测值，橙色部分显示的是确诊病例预测值，并计算出3天的确诊预测病例数据（5月7日，5月8日，5月9日）。

截止本论文完成时间（5月9号），新冠确诊的实际人数是55599、55921、56155（分别为5月7日、5月8日、5月9日的数据），而根据此模型预测这三天的确诊人数分别为55926、56179、56387，可见预测值与实际值基本一致。

逻辑斯蒂拟合的代码：

从上图预测值生成的曲线来看，生长曲线模型整体呈现“S”型，按照相关参考文献说明，生长曲线可以分为初期、中期和末期三个阶段：

在初期，虽然 t处于增长阶段，但是 y 的增长较为缓慢，这时曲线呈现较为平缓的上升；
在中期，随着t的增长，y 的增长速度逐渐增快，曲线呈现快速上升的态势；
当达到拐点(t，Y)后，因函数饱和程度的增长达到末期，随着t的增长 y 的增长较为缓慢，增长速度趋近于0，曲线呈水平状发展。

在了解模型特点后，假设外部因素干预事件发展，就会导致数据的突然增多或减少，会影响模型的预测精度。因此，logistic增长模型只是对疾病进行预估，并不能准确判断，也并不是最佳模型。当然可以通过模型优化，来提高预测精度，有的文献提出可以根据华罗庚提出的0.618选优法，对得到的模型进行优化（计算该模型是否能得到预测值和测量值最小残差平方和）。这里我们就不再展开，可以后期进行探讨学习。

疾病传播模型-SEIR

查阅相关文献后，发现常见的传染病模型按照传染病类型分为SI、SIR、SIRS、SEIR 模型等，用于研究传染病的传播速度、空间范围、传播途径等问题，用来指导对传染病的预防和控制。模型中涉及S、E、I、R、r、β、γ、α参数：

S类：表示易感者 (Susceptible)，指未得病者，但缺乏免疫能力，与感染者接触后容易受到感染；
E类：表示暴露者 (Exposed)，指接触过感染者，但暂无能力传染给其他人的人，对潜伏期长的传染病适用；
I类：表示感病者 (Infectious)，指染上传染病的人，可以传播给 S 类成员，将其变为 E 类或 I 类成员；
R类：表示康复者 (Recovered)，指被隔离或因病愈而具有免疫力的人。如免疫期有限，R类成员可以重新变为 S 类。
r：感染患者（I）每天接触的易感者数目；
β：传染系数，由疾病本身的传播能力，人群的防控能力决定；
γ：恢复系数，一般为病程的倒数，例如流感的病程5天的话，那么它的γ就是1/5；
α：潜伏者的发病概率，一般为潜伏期的倒数。

我们这里不再利用采集到的数据，模拟疫情发展形式，一方面原因是我们并不能较好的估计模型中涉及到各个参数, 需要考虑的的参数较多，另一方面数据并不能支撑其模型推导，特别是疫情的政府干预因素、社会舆情因素，对疫情发展趋势都会产生一定的影响，应将相关的因素考虑进去，所以这个问题相对来说是比较复杂的过程，我们这里不再进行过多探讨。大家有兴趣的可以去查找相关文献材料，进行深入研究学习。

SEIR模型代码：

一个在线的SEIR模型可视化平台