新冠肺炎患者数量增长模型分析

2020-5-13 01:22| 发布者: redchina| 查看: 32903| 评论: 2|原作者: 壮壮

摘要: 2020年3月后半段以来，红色中国网上每天都发表“远航一号”关于新冠肺炎疫情的文章：自3月20日起，笔者每日根据世界卫生组织提供的全球新冠病毒疫情形势报告做一些简单统计分析，帮助各位网友追踪全球疫情发展动态。他的研究过程很不严密，很可能导致明显错误的结论。

这一次笔者建立的模型经得起事实的检验，算是比较可靠的。但这一简单模型的片面性同样显而易见：它建立在每日患者增加量基本不变的基础上，而这与事实相去甚远。这样的模型很可能不适用于长期的未来，未来疫情很可能会缓和或加重，单日患者增量很可能明显少于或多于4月前半月。笔者建立的模型已经证明适用于4月后半月，可以尝试利用它预测5月初的情况，但这时已经不能保证精确度了，更长远的预测很可能是不适用的。

以上是笔者对自己建立模型的简单分析，接下来笔者打算用前面的方法分析一下“远航一号”建立的模型。2020年3月后半段以来，红色中国网上每天都发表“远航一号”关于新冠肺炎疫情的文章：“自3月20日起，笔者每日根据世界卫生组织提供的全球新冠病毒疫情形势报告做一些简单统计分析，帮助各位网友追踪全球疫情发展动态。”^[3]（需翻墙）但笔者觉得：他的研究过程很不严密，很可能导致明显错误的结论。

从给出这样模糊的结论就能看出研究过程很不严密：“线性回归结果表明，全球除中国以外地区累计病例最终将达到约186万例（回归R平方值0.540）”^[4]（需翻墙），别说通过回归分析得到的关系式了，连对哪些变量进行回归分析也不写明。这样的做法实在让人费解：根本不知道你的结论是怎么来，甚至都不知道回归分析求的是什么，如何判断对错呢？又如何相信像“按照现在的趋势，预计全球疫情将于今年7月份趋于稳定”^[3]这样的比较长期的预测呢？

（从4月27日开始，文章中给出了回归分析的部分结果：“按照目前的线性回归斜率，累计病例每增加100万例，新增病例与累计病例之比趋于下降1.21个百分点”^[5]（需翻墙），“远航一号”终于公开表明他到对哪些变量进行了回归分析，但他还是没给出完整的关系式。）

通过和“远航一号”互发电子邮件，笔者看到了展现《全球新冠病毒疫情统计分析（4月1日）》^[4]一文计算过程的电子表格，经过仔细阅读笔者才明白他到底是怎么做的。仅仅阅读红色中国网上公开发表的材料，一般读者很难想到计算方法竟然如此复杂而不严密。

获得进行回归分析的数据需要知道某一范围（“远航一号”选择“全球除中国以外地区”^[4]）某一天的患者数量和下一天的患者数量，这样便可以计算出当天这一范围的患者增长率，把当天患者数量和增长率看做一对相关联的变量，不断重复前面的计算便会得到多对数据，这样的数据便是“远航一号”进行线性回归分析所依据的材料。

回归分析总是会得出结果的，这一结果就是当天增长率与患者数量的线性定量关系。最近一段时间两者呈负相关关系，“远航一号”也给出了相关系数的平方，由此反推相关系数r<-0.7，很多时候r<-0.8，甚至有r<-0.9或-0.95的情况，两者负相关性很明显。但这种明显的相关性并不支持定量计算，相关系数r的绝对值离1还不够近：反推得到的绝对值都没达到0.99，甚至都不超过0.97。

这样的相关系数没有办法保证严格的负相关关系，存在患者数量更高且增长率也更高的情况。以全球4月份的情况为例：根据19日和20日的患者数量（2241778和2314621）可以求得相应数据对为2241778和3.25%，根据24日和25日的患者数量（2626321和2719897）可以求得相应数据对为2626321和3.56%，2241778<2626321、3.25%<3.56%，不满足负相关关系。还可以举出一些类似的例子，这样的情况显然与回归分析得到的负相关线性关系明显不符。

“远航一号”进行回归分析时刨去了中国的患者数量，但到4月中旬中国患者数量占全世界患者总数的比例已经很小，是否考虑进来不会影响对相关性的判断。得到的关系式与所依据的事实本身相差就非常大，“远航一号”竟然还要用这个关系式预测比较远的未来！他是怎么做的呢？

根据已经求得的当天增长率与患者数量的线性负相关关系（尽管很不可靠），如果患者数量足够大，当天患者数量就会零增长，这就表示疫情不再发展。通过算术方法就可以求得这一数量，也就知道了最终有多少新冠肺炎患者。

不得不说，理论上这是一种比较简单的预测最终患者数量的方法，但也仅仅是理论上的。关系式里没有直接涉及时间的变量是这种方法的另一特点，要想预测到什么时候疫情不再发展就要进行很多次复杂的迭代运算。

依据多日的患者数量计算增长率时，最后一天的增长率是无法直接求得的，只能根据增长率与患者数量的线性定量关系计算：把最后一天的数据代入关系式就行了。知道最后一天的增长率，结合最后一天的患者数量，便能知道下一天的患者数量，再把下一天的患者数量代入增长率与患者数量的关系式，就可以得到下一天的增长率，进而知道再下一天的患者数量……如此循环迭代便可以得到很多天以后的患者数量，当患者数量比较接近最终患者数量且单日患者增量不多时，对应的时期便是疫情稳定的时期。

从3月末以来，“远航一号”预测疫情发展趋势依靠的都是这种复杂的运算方法，他写的这一系列文章不严密的地方很多。

首先，有些文章选用的数据太少。考虑时间达到或超过14天才能在一定程度上反映出疫情的发展规律，但4月5-12日发表的“全球新冠病毒疫情统计分析”系列文章中涉及的时间为6-13天，4月26日的文章为13天，均未达到最低标准。这些文章所依据的事实都不够充分，结论的可信度当然很低。（笔者没发现“远航一号”的文章有选用数据过多的问题。）

其次，样本的选择特别是舍弃带有很大的随意性。

“远航一号”的文章这样描述对选取样本的调整：“ 4月4日，第一次调整回归样本起始时间，改用自3月30日开始的回归样本”；“4月20日，第二次调整回归样本起始时间，改用自4月7日开始的回归样本”；“4月25日”“当日第三次调整回归样本起始时间，改用自4月13日开始的回归样本”。^[5]

笔者并不反对根据疫情的发展舍弃一些样本，笔者反对的是舍弃的标准。

“第一次调整”中“远航一号”舍弃了大量样本：“鉴于目前全球疫情仍然在恶化，自本日起对线性回归分析所采用的数据范围做重大调整。仅采用新增病例与累计病例之比低于10%的观测值。”^[6]（需翻墙）这样做导致剩下的样本只涉及6天的时间，不到新冠肺炎潜伏期（14天）的一半，根本不可能反映疫情的发展变化。而且 “新增病例与累计病例之比低于10%”这样的标准仅仅是出于计数方面的考虑，并没有多少科学意义。这样欠考虑的舍弃笔者不能同意。

而接下来“远航一号”压根儿就没说为什么要舍弃样本：“自今日起，调整线性回归样本范围，采用自4月7日开始的数据作为回归样本。”^[7]（需翻墙）这样写文章笔者觉得欠妥，但好在舍弃一些材料后样本还涉及14天的时间，大体和新冠肺炎的潜伏期一致——这么做有一定道理。

再后来他又重复了和第一次舍弃样本时类似的错误：“鉴于全球疫情出现新的恶化迹象，自今日起调整回归样本范围，改用新增病例与累计病例之比小于5%的数据作为样本。”^[8]（需翻墙）这样做以后样本涉及13天的时间，短于新冠肺炎的潜伏期，研究的可靠性存在一定问题。而且“新增病例与累计病例之比小于5%”也还是仅仅考虑计数问题，没考虑科学意义。