COVID雷达:基因测序可以帮助预测下一个变种的严重程度
![Patient age and gender metadata trends in GISAID data. (A – Left) Mean clinical severity over time for patients in different age groups, showing that the overall trends are generally consistent across age groups, with older patients having mean severity as shown in Panel A. (B – Middle) Mean clinical severity, separating male and female samples, showing consistent trends across gender with male patients generally having a somewhat higher ratio of severe cases. (C - Right) Number of mild and severe cases across all samples split by gender, showing that there are more mild cases than severe among samples from female patients. Credit: <i>Computers in Biology and Medicine</i> (2022). DOI: 10.1016/j.compbiomed.2022.105969 COVID雷达:基因测序可以帮助预测下一个变种的严重程度](https://scx1.b-cdn.net/csz/news/800a/2022/covid-radar-genetic-se.jpg)
在世界各地的公共卫生官员与最新一轮COVID-19大流行作斗争之际,德雷克塞尔大学的研究人员创建了一个计算机模型,可以帮助他们更好地为下一次大流行做准备。通过使用机器学习算法来识别COVID-19病毒基因序列变化与传播、住院和死亡人数上升之间的相关性,该模型可以就新变体的严重程度提供早期预警。
在这场大流行爆发两年多以来,科学家和公共卫生官员正在尽最大努力预测SARS-CoV-2病毒的突变如何使其更具传染性,如何躲避免疫系统,并可能导致严重感染。但是收集和分析基因数据识别新的变异,并将其与特定的患病患者联系起来,仍然是一个艰巨的过程。
正因为如此,大多数关于新的“令人担忧的变种”(世界卫生组织将其分类)的公共卫生预测都是基于对它们已经蔓延地区的监测测试和观察。
德雷塞尔工程学院助理研究教授、该项目负责人巴拉德·a·索汉桑杰博士说:“像omicron这样的新变种在全球传播的速度意味着,当公共卫生官员很好地掌握他们的人群可能有多脆弱时,病毒已经到来了。计算机模型.“我们正试图为他们提供一个早期预警系统,就像气象学家的高级天气模型一样,这样他们就可以快速预测新的危险程度变体很可能是——并做好相应的准备。”
德雷克塞尔模型,最近发表在杂志上生物与医学中的计算机这种方法是通过对病毒刺突蛋白基因序列的有针对性的分析来实现的,刺突蛋白是病毒逃避病毒攻击的部分免疫系统并感染健康的细胞,它也是已知在整个大流行期间突变最频繁的部分,结合对COVID患者的年龄、性别和地理位置等因素的混合影响机器学习分析。
学会发现模式
研究团队使用了一种名为GPBoost的新开发的机器学习算法,该算法基于大公司常用的分析销售数据的方法。通过文本分析,该程序可以快速定位到基因序列中最有可能与变异严重程度变化相关的区域。
它将这些模式与从单独阅读患者元数据(年龄和性别)和医疗结果(轻症、住院、死亡)中收集到的模式进行了分层。该算法还考虑并试图消除由于不同国家收集数据的方式而产生的偏见。这个训练过程不仅可以让程序验证它已经对现有变体做出的预测,而且还可以让模型在遇到刺突蛋白的新突变时做出预测。它根据患者的年龄或性别显示了从轻症到住院和死亡的一系列严重程度的预测。
“当我们得到一个序列时,在实验室用动物模型或细胞培养进行实验之前,或者在足够多的人生病之前,我们可以收集流行病学数据,我们就可以预测一个变体的严重疾病风险。换句话说,我们的模型更像是新兴变异的早期预警系统,”Sokhansanj说。
来自GISAID数据库(最大的冠状病毒感染者信息汇编)的遗传和患者数据被用于训练算法。一旦算法被启动,研究小组就用它们来预测ba后的欧微米子变体。1和BA.2。
Sokhansanj说:“我们表明,未来的omicron亚变体更有可能导致更严重的疾病。”“当然,在现实世界中,这种增加的疾病严重程度将因之前的omicron变体的感染而减轻——这一因素也反映在建模中。”
跟上COVID
德雷克塞尔对COVID-19预测建模的定向方法是一项至关重要的发展,因为收集的大量基因测序数据已经使标准分析方法难以足够快地提取有用信息,以跟上病毒的新突变。
“数量峰值蛋白质德雷克塞尔大学生态与进化信号处理与信息学实验室主任、工程学院教授盖尔·罗森博士说:“病毒的突变已经相当严重,而且很可能会继续下去,因为病毒遇到了以前从未感染过的宿主。”
她说:“一些估计表明,SARS-CoV-2只‘探索’了30-40%的潜在突变空间。”“当你考虑到每种突变都可能影响病毒的关键特性,如毒性和免疫逃逸时,能够快速识别这些变异并了解它们对那些易受感染的人意味着什么似乎至关重要。”
罗森的实验室一直走在使用算法去除基因测序数据噪音和识别可能重要的模式的最前沿。在大流行早期,该小组通过开发一种快速识别和标记其突变的方法,能够跟踪新的SARS-CoV-2变体的地理演变。她的团队继续利用这一过程,以更好地了解大流行的模式。
变量间的视觉
到目前为止,除了实验室实验和流行病学研究,科学家们主要使用基因测序来更好地识别突变。在将特定的基因序列变异与新变异的病毒性联系起来方面几乎没有成功。德雷克塞尔大学的研究人员认为,这是由于随着时间的推移,疫苗接种和免疫系统逐渐发生变化,以及不同国家报告数据的方式有所不同。
“我们知道,到目前为止,连续出现的每一种COVID-19变体都导致了轻微的感染,这是因为疫苗接种、免疫和卫生保健提供者对如何治疗感染有了更好的了解。但我们通过混合效应分析发现,这种趋势并不一定适用于每个国家。这就是为什么我们的模型将地理位置作为机器学习算法考虑的变量之一。”Sokhansanj说。
虽然患者和公共卫生数据的差异和不一致一直是一个挑战公共卫生官员在整个大流行期间,德雷克塞尔模型能够解释这一点,并解释它是如何影响算法的预测的。
Sokhansanj说:“我们的主要目标之一是确保模型是可解释的,也就是说,我们可以知道它为什么会做出这样的预测。”“你真的想要一个模型,它可以让你看到引擎盖下的东西,例如,为什么它的预测可能与生物学家从实验室实验中理解的一致,以确保预测建立在正确的结构上。”
更好的视角
研究小组指出,这样的进展强调了向世界上脆弱地区提供更多公共卫生资源的必要性——不仅用于治疗和疫苗接种,还用于收集公共卫生数据,包括对新出现的变异进行测序。
研究人员目前正在使用该模型更严格地分析当前的一组新兴变体,这些变体将在omicron BA.4和BA.5之后成为主导。
Sokhansanj说:“这种病毒可以,也将继续让我们感到惊讶。”“我们迫切需要扩大我们在全球范围内对变异进行测序的能力,这样我们就可以在它们成为一个全球性问题之前,在它们出现时立即分析潜在危险变异的序列。”