对COVID-19出版物的分析确定了研究差距
自COVID-19大流行开始以来,科学和医学期刊发表了10万多篇关于SARS-CoV-2的研究。但根据创建了一种机器学习工具来分析海量出版物的数据科学家的说法,缺乏基于实验室的病毒微生物学基础研究,包括对其发病机理和病毒传播机制的研究。他们的分析发表在9月16日的杂志上模式.
第一作者、COVID-19分散志愿者研究网络的志愿者数据科学家Anhvinh Doanvo说:“在像这次大流行这样的危机中,我们预计实验室之外的研究会比实验室研究进行得更快。”“然而,与其他人类冠状病毒相比,相对缺乏基于实验室的研究似乎是SARS-CoV-2独有的。缺乏基于实验室的研究意味着科学界可能会错过病毒的关键方面,而这些方面可能会影响我们遏制这场大流行和应对未来大流行的能力。”
研究人员使用了从CORD-19 (COVID-19开放研究数据集)获得的研究摘要。CORD-19每天更新,包括来自PubMed Central的同行评审研究,以及来自bioRxiv和medRxiv的预印本。当他们在5月底进行第一次分析时,数据集包括了13.7万多项研究。该分析后来更新了截至7月31日的数据。
该团队使用了两种计算方法分析数据。第一个是降维,这有助于在许多文档中找到大的模式,比如科学研究的摘要,并根据这些模式确定趋势。第二种方法是主题建模,允许他们将文档分组到不同的主题中,并将对SARS-CoV-2的研究与对其他冠状病毒的研究进行比较。与以前只关注关键词的研究不同,这两种工具都使他们能够回顾摘要的全文。
“总的来说,我们发现研究社区已经在该病毒的临床表现、其传播的流行病学模型和其他基于从现场收集的数据的工作方面进行了大量工作,”哈佛医学院和波士顿儿童医院计算健康信息学项目的计算流行病学家Maimuna Majumder说。
研究人员还指出,随着时间的推移,研究已经发生了变化,对公共卫生应对、与病毒相关的临床问题、疫情的社会影响以及疾病如何在人群中传播的研究加速,而对疫情状况的报告已经开始趋于稳定。Majumder说:“这是一个积极的发展,因为它表明科学界已经从病毒的被动观察者的角色过渡到一个研究如何抗击其传播的群体。”
Doanvo说:“但是基础微生物研究的步伐一直很慢,留下了潜在的知识缺口。”“在这些时间和资源密集型的工作中提供更强有力的资源可能会更好地使科学界能够对这种情况作出快速反应病毒."
研究人员希望这一分析将有助于提高人们对优先开展基于实验室的SARS-CoV-2研究的重要性的认识。他们计划在大约一年内使用他们已经开发的工具对科学研究进行另一次分析。