AI如何抗击新冠？WHO的这篇论文说明白了

时间：2020-04-03 作者：王静发布单位：科研学术处发布范围：公开阅读：

WHO发文谈AI抗疫的3大应用场景

近日，来自杜伦大学、蒙特利尔大学、WHO等机构的研究者探讨了AI相关技术在疫情中发挥的作用，总结出了AI在医疗、分子、社会三个层面的应用。具体来说，分子层面包括药物挖掘等相关研究；医疗层面包括个体病人的诊断和治疗；社会层面包括流行病学和信息医学研究等。此外，论文还综述了AI未来有希望的研究方向及促进研究所需的工具和资源。

这篇综述的目的不是评估所描述技术的影响，也不是推荐它们的使用，而是向读者展示现有应用的范围，并提供有关AI如何帮助全球发展的初步图片和路线图。

文章核心观点

AI可以从医学影像支持COVID-19诊断，提供使用非侵入性设备追踪疾病进展的替代方法，并基于包括电子健康记录（EHR）在内的多种数据输入生成对患者病情的预测。

从分子角度看，AI可用于估计SARS-CoV-2相关蛋白的结构，识别可用于治疗病毒的现有药物，并提出可能对药物开发有希望的新化合物。

AI建模已在流行病学研究的多个领域中应用，其中包括根据不同的公共政策选择来预测新确诊病例的数量，以预测无症状病例的比率。

鉴于正在生成和共享的大量信息，人工智能可以帮助调查“信息流行病”的规模和传播，并帮助遏制错误信息的传播。

无论从医学层面，分子层面，还是科学的数据和模型，加快数据和模型的AI开发和运营，对应对COVID-19大流行的反应都至关重要。基于多学科的AI研究和开放科学的国际合作可以帮助应对疫情在世界各地的蔓延。

01医疗层面：从诊断到结果预测

迄今为止，AI在应对COVID-19上的应用大多集中在医学成像的诊断上。在近期多篇文献中，除了使用患者医学数据预测疾病进展的方法、用于病情监测的无创检测方法，还有AI协助计算机进行CT诊断的案例。

医学影像诊断

逆转录聚合酶链反应（RT-PCR）测试是诊断COVID-19的关键方法，但这种方法仍存在样本采集、分析时间等局限性，因此人们越来越关注使用医学成像技术进行COVID-19诊断。COVID-19具有特殊的放射学特征和图像模式，这些特征均可通过CT扫描的方式观察到，但即使对于放射学科的医务人员来说，识别这些图像仍颇为费时，因此在CT扫描诊断过程中使用机器学习方法是一种较为理想的选择。

多项研究已经将诊断定为二元分类问题，即“健康”与“新冠病毒阳性”。Wang等人使用改进过的Inception神经网络架构，对放射科医生确定过的区域进行训练，从而对健康患者和新冠患者进行二元分类。基于259位患者的约1000个图像切片的数据集，研究者训练出了能够识别疑似COVID- 19的模型，然后将结果提供给医生作进一步验证。同样的Chen等人的研究也发现，在经由专业放射医生标记过的6000多张CT图像切片数据上训练UNet++神经网络，其性能可实现接近专业医生的诊断水平。该研究的训练模型随后被部署到武汉大学人民医院，以帮助放射科医生加快对新病例的分析，并在互联网上开源以快速查看新图像。

其他机器学习方法将诊断归结为3种分类任务：健康、COVID-19患者及其他类型肺炎患者。在Xu和Song的研究中，经典的ResNet架构可用于特征提取。Xu等人添加了几个用于分类的全连接层，Song等人则添加了特征金字塔网络（Feature Pyramid Network）和注意力模块，使网络更加复杂，但在图像细粒度方面表现更好。这两项研究均表明，即使在诊断过程中可能存在多个疑似结果（包括非COVID-19的病例类型），这种方法也能够准确地将其区分开来。

此外，还有一些研究采用了混合方法：将现有的软件与特定机器学习方法相结合，以实现更高的准确性。在Gozes等人的研究中，商业医学影像程序可用来进行原始图像的处理，然后与一个ML Pipeline结合使用。这种两步式方法包含在肺异常医学影像数据上训练过的U-Net架构，以及在ImagetNet上训练过的Resnet-50，其中图像分类已微调为“冠状病毒”或“健康”。Shan等人的研究采用了“human- in-the-loop”的方法减少机器学习架构所需的标记时间。研究者使用少量人工标记的数据来训练基于V-Net架构的初始模型。该模型建议对新的CT扫描影像进行分割，之后经由专业放射科医生校正，然后在迭代过程中不断反馈到模型中。这种方法支持开发基于深度学习的系统，用于自动分割和计数感染区域，以及评估COVID-19的严重程度，例如整个肺部的感染百分比。研究表明，该模型的性能逐步提升，经过200个带注释的示例数据训练之后，将新图像分析所需的人工时间从开始的30分钟以上减少到5分钟以上。这个方法将机器学习的优势与人类的专业知识相结合，是一个前途广阔的研究方向。

疾病跟踪的非侵入式测量

另外一种不需要特殊医疗成像设备的原创性方法是，是使用Kinect深度相机来识别病人的呼吸模式。该方法是基于最近对COVID-19患者症状的临床发现，即COVID-19患者的呼吸模式不同于其他流感或普通感冒，其较明显地表现出呼吸急促症状。基于这些信息，研究人员开发出一种具有注意力机制的双向GRU神经网络，并使用它来识别异常的呼吸模式。研究者使用20名参与者的真实数据以及基于真实记录产生的大量仿真数据来训练该模型。虽然这些反常的呼吸模式并不一定与真实的COVID-19诊断相关，但对这些呼吸急促症状的预测可作为首要诊断特征，为大范围监控潜在患者提供了帮助。

还有一些方案是使用手机来检测COVID-19，有使用嵌入式传感器来识别COVID-19症状的，也有通过回答在手机调查问卷中的一些关键问题来排查高风险病人的。虽然以上方法都是在移动技术方面的重要尝试，但目前的研究并不足以评估这些方法的可行性与性能表现。

患者预测

Yan等人提出一种基于患者临床数据与血样检测中特征的预测方法，该方法能够帮助临床医生尽早地识别出高风险患者，希望以此提高患者的预后以及减少重症患者的死亡率。与此研究相类似的方法有，基于XGBoost算法的预测模型，其用于预测死亡风险和识别能够在医院中进行检测的关键测量特征。基于375名患者的数据，作者从300多个输入特征中筛选出三个关键临床指标，为预测患者死亡率提供了一种临床启发式的依据。该方法的一大优势是其具有良好的可解释性，因为筛选出的这三个指标与COVID-19病理学进展中的几个最重要因素相关，即细胞损伤、细胞免疫与发炎。

一个与此互补的研究是，在半自动标记的CT影像上训练一个U-Net变种，该方法旨在预测COVID-19患者是否需要长时间住院观察。这意味着一旦完成初期诊断，我们仍然可使用机器学习的方法来预测患者病情的严重程度以及是否需要长期住院。

这两种方法可以帮助确定可能需要重症和长期护理的患者，从而帮助医院更有效地管理其资源。最后，尽管这两项研究的范围和数据都受到限制，但它们构成了重要的研究途径，可以用来自世界各地传入病例的临床数据进行补充和扩展。

02分子层面：从蛋白质到药物挖掘

在分子层面，人工智能的潜在应用包括预测这些相关蛋白质的结构，鉴定可能有效靶向这些蛋白质的现有药物，并提出新的化学化合物作为潜在的治疗方法。

蛋白质结构预测

蛋白质具有的3D结构由它们的基因序列决定，并且该结构会影响蛋白质的功能与作用。一般而言，蛋白质结构通过X光晶体衍射图谱法等实验研究法来确定，但这些方法花费昂贵、耗费时间。

最近，计算模型已经被用来进行蛋白质结构的预测，主要有两种方式：一种是模板建模，它的原理是利用相似蛋白作为模板序列进而预测蛋白质结构；另一种是无模板建模，它主要预测那些无已知相似结构的蛋白质的结构。

2018年底，谷歌DeepMind重磅推出AlphaFold，它能够利用基因序列预测蛋白质结构。目前，AlphaFold可以预测与SARS-Cov-2相关的6种蛋白质的结构，分别为SARS-Cov-2膜蛋白、蛋白3a、Nsp2、Nsp4、Nsp6和papain-like蛋白酶。

改进病毒DNA测试

当前，机器学习和新型基因组技术也用来提升PT-PCR的测试效果。Metsky等人利用CRISPR来进行检验分析设计，用以检测包括SARS-CoV-2在内的67种呼吸道病毒。此外，对于那些被预测为敏感性和特异性并且涵盖多种基因组的检测分析，有些机器学习模型可以加速它们的设计。

老药新用

发现当前药物可以用来治疗COVID-19的一种方法是生物医学知识图谱。生物医学知识图谱网络可以捕捉蛋白质与药物等不同实体之间的联系，从而可以进一步了解它们彼此之间的关联。

Richardson等人利用生物医学知识图谱识别出了Baricitinib，这是一种通常用于治疗关节炎的药物，但由于它能够抑制AP2相关的蛋白激酶1（AAK1），使得病毒很难进入宿主细胞，所以该药物可能适用于COVID-19的治疗。Ge等人也提出一种类似方法来构建关联人体蛋白、病毒蛋白和药物的知识图谱，它所使用的数据集捕捉了这些实体之间的关系。这种知识图谱用来预测可能有效的候选药物。作者已经识别出了多聚腺苷酸聚合酶抑制剂CVL218，目前正处在临床试验阶段。其他一些研究也利用创建的模型来预测蛋白配体的复合物亲和性，以解决老药新用的难题。Hu等人使用多任务神经网络对亲和性进行广义预测。作者已经识别出了一系列SARS-Cov-2相关的蛋白质，如RNA依赖的核糖核酸聚合酶、3C-like蛋白酶、解旋酶以及包膜蛋白等等，从而借助于4895种药物的数据集展开靶向治疗。他们推荐了10种可能有效果的药物以及这些药物的靶蛋白和复合物亲和性评分。为了提升模型的可解释性，他们还对每个靶蛋白可能出现结合的精确位置进行预测。同样地，Beck等人利用他们提出的Molecule Transformer-Drug Target Interaction（MT-DTI）复合物亲和性模型，识别出美国食品及药物管理局（FDA）批准抗病毒药物中可能对6种冠状病毒蛋白质（分别为3C-like蛋白酶、RNA依赖的核糖核酸聚合酶、解旋酶、3』-to-5』核酸外切酶、endoRNAse和2』-O-ribose甲基转移酶）有效的药物。MT-DTI模型以SMILES数据和氨基酸序列的形式输入串数据，并运用一种借鉴BERT算法的文本建模方法。此外，该模型识别的药物可能对上述蛋白具有靶向效果。最后，Zhang等人利用密集全连接神经网络，它在PDBBind数据集上被训练用于预测复合物亲和性，从而识别3C-like蛋白酶的潜在抑制剂。他们利用SARS病毒变体创建了靶蛋白同源（模板）模型，并探索现有复合物（如ChemDiv和TargetMol）和三肽的数据集，从而找出对蛋白质具有靶向效果的治疗手段。

药物发现

也有一些研究试图发现用于靶向SARS-Cov-2的新型化合物。Zhavoronkov et al. (2020a)等就使用了一个专有管道，寻找类3C的水解酶抑制剂。他们的模型使用了三种输入：蛋白质晶体结构、类晶体的例子，以及蛋白质模型本身。对于每个输入类型，研究者拟合了28种不同的模型，包括生成自编码器和生成对抗网络。研究者使用强化学习探索潜在的候选药物，其中有一个奖励函数和一些标准——药物相似性、新颖性、和多样性相联系。同时，他们确认识别出的候选化合物和已有的化合物不同，说明它们确实找到了不同的药物。Tang et al. (2020)也使用了强化学习来发现药物。研究者整理了284种已知的分子——能够抑制SARS类病毒。他们将这些蛋白质打碎成316个片段，然后使用高级深度Q-learning来组合，进行药物设计。这种强化学习的奖励函数有三个评价角度：药物相似性分数、加入的预定义「倾向使用的」片段和出现的已知药效集团（和化合物的功效有关的特定结构）。结果，有4922个结果通过启发式搜索被过滤。最终有排名最前的47个化合物在分子模拟中进行评估。研究者会选择最可能有效的化合物，并进行生产和测试。

03社会层面：流行病学和信息病学

SARS-CoV-2在全球的传播受到了很多政策的关注，随着新信息和模型预测的到来，国家和地方层面的建议每天在许多地方发生变化。了解病毒的传播方式及其对不同人口和地理位置的影响，对于公共政策医疗干预至关重要。

流行病学

流行病学研究覆盖领域极其广泛，其流行的规模和相关性，以及数据的实时更新等多方面因素导致了研究工作必须进行多种类建模。但此次研究将专注于用机器学习去完成流行病学建模的案例。鉴于流行病感染速度迅速，所以短期实时预测是作为提供信息的重要来源之一，同时模型必须兼备灵活性，以适应各种不断变化的协议或是程序。

Hu et al. (2020b)†收集了WHO以及其他预测参与者于2020年1月11日至2月27日期间收集的数据，用以开发创建一个新的关于中国国内累积或是新增确诊病例的数据集。这些信息主要用于训练调整后的自动编码器（MAE），以便实时预测新病例，并估计流行病的严重程度以及持续时间。类似的，Al-qaness et al. (2020)提供了一种新的预测模型，可以使用历史数据并提前十天预测确诊病例的总数。作者的模型是基于neuro-fuzzy inference system (ANFIS) (Jang, 1993)，flower pollination algorithm (FPA) (Yang, 2012)以及salp swarm algorithm (SSA)(Mirjalili et al., 2017)，进而最优化模型里的参数。Mizumoto et al. (2020)通过机器学习的方法利用从钻石公主号游轮上所收集的感染数据来了解无症状病例的发生率。作者利用这些数据通过贝叶斯分析对时间序列进行建模，并使用了Hamiltonian Monte Carlo (HMC)以及No-U-Turn- Sampler (Homan & Gelman, 2014)进行调整模型参数，从而预估无症状感染者的比例。尽管在这种封闭式环境中进行分析是非常重要的，但是否值得对外适用于更广泛的人群还尚待观察。

信息学

当下社交媒体以及在线平台已成为疫情相关信息的主要传播渠道，尽管很多国家和国际组织已使用这些平台与公众进行建设性的交流，但我们也看到一种“信息流行病”，如错误信息或是谣言会越传越广，正确的信息却会被淹没。

在一项广泛研究中，Cinelli et al. (2020)†分析了与COVID- 19相关的社交媒体的内容，作者从Twitter, Instagram, YouTube, Reddit,以及Gab中收集的800万条于2020年1月1日至2月14日间使用COVID- 19关键字的评论或帖子。作者预估了对COVID- 19话题的参与度，并横向比较了各平台间话题的发展进度。互动参与度是通过使用累积的贴子数以及45天内对帖子的反馈来反应的（如评论，点赞等）。作者采用phenomenological (Fisman et al., 2013)以及经典SIR模型来表示信息传播或复制的数量。

类似的，Mejova & Kalimeri (2020)†研究对象是使用带有病毒相关内容的Facebook广告，通过使用“冠状病毒”以及“COVID- 19”等关键字去搜索所有广告，其范围覆盖了34个国家及地区，并收集了923余条结果。大部分位于美国和欧盟，而其中5%的广告是具有较强的误导信息。

此外，也有研究着手于新冠病毒特定新闻内容的整理，并进行了人工和自动的真实性验证和相关性分析。Pandey et al. (2020)†开发了一个评估每日新闻头条和WHO建议之间相似度的渠道。如果相似度高于某个阈值，则这篇新文章就会在用户的时间线上出现，同时附有WHO的相关建议。其中相似度的阈值由人工审核确定，依据用户反馈不断更新。针对相互矛盾的信息，这种方法可以帮助大众识别准确可信赖的新闻报道，也能促使重要的指导性文章产生更广泛的影像，推动官方的关注与采纳建议。

数据集和其他资源

使用AI技术解决COVID-19大流行的全球努力的成功取决于对数据的充分访问。众所周知，机器学习，尤其是深度学习，需要大量的数据和计算能力，以开发和训练新的算法和神经网络架构。在本节中，我们描述了当前存在的一些数据集和数据收集工作。

案例数据

案例数据是指病例的数量和地域分布，这种数据对于追踪COVID19疫情的蔓延具有重要作用。

文本数据

NLP方法在这次疫情研究中发挥了重要作用，利用该技术解读的大量文本信息可以帮助我们了解当前有哪些信息是已知的（如病毒传播、环境稳定性、风险因素等）。

生物医学数据

目前，用于诊断的开源数据集和模型还不是很多。上文中提到的一些CT扫描方法可以找到，但用于训练系统的方法并没有系统地开源。

在论文的最后，研究者进行了三个呼吁：首先，使用开放式存储库进行数据共享的可伸缩方法将极大地加快新模型的开发并为公众利益解锁数据，但是对医学数据的研究必须服从严格的法规要求和隐私保护机制；其次，在像新冠疫情这种特殊情况下，部署AI系统所需的研究具有多学科性质，因此需要创建极其多样化的互补团队和长期合作伙伴关系；最后，在应对新冠这种大流行病的情况下，要加强开放式科学与国际合作，通过国际社区的力量共同对抗疫情。

来源：医学AI在线（微信公众号）