新的系统发育工具可以处理SARS-CoV-2数据负载
加州大学圣地亚哥分校的研究人员与加州大学圣克鲁兹分校合作,开发了一种新的软件工具,用于追踪和绘制SARS-CoV-2病毒的进化,能够处理快速进化的病原体产生的前所未有的大量遗传数据。该软件被用于有效和准确地跟踪这种病毒的新变种,即所谓的系统发生树:生物体遗传变化和随时间和地理变化的可视化历史或地图。使用这种名为matOptimize的新型优化工具,研究人员现在能够更准确地跟踪SARS-CoV-2的病毒基因组,随着新变体的发展将其映射到系统发育树上,并跟踪病毒的进化和传播动态。
该工具在期刊中有描述生物信息学第一作者是加州大学圣地亚哥分校计算机工程专业的本科生程烨。在本期问答中,我们将了解更多关于叶先生在大学期间的研究历程,以及他在这样一个及时的项目中工作的经历。
在加州大学圣地亚哥分校电气和计算机工程教授Yatish Turakhia的指导下,研究人员在论文中写道:“现在有超过1000万个SARS-CoV-2基因组序列可用,用现有的软件计算所有可用的SARS-CoV-2序列的准确、全面的系统进化树变得不可行,但对于详细了解病毒的进化和传播至关重要。”
目前,用于SARS-CoV-2系统发育的程序被称为UShER:现有树上的超快样本放置。UShER由Turakhia作为加州大学圣克鲁斯分校的博士后研究员开发,并被加州大学圣克鲁斯分校用于维持SARS-CoV-2的系统发育。它可以在-上公开查看https://taxonium.org/?backend=https://api.cov2tree.org.
大流行几个月后,UShER面临着向树中添加新基因序列的挑战;该团队将逐步添加序列,一次添加一个,但当基因序列输入不正确或不明确时,系统将失去准确性。
“亚瑟会做一个猜测:一个有根据的猜测,但仍然是一个猜测,”图拉希亚说。
因此,这些序列偶尔会被次优化地放置在树上,产生假突变。为了优化这些位置,需要一种树优化方法。然而,现有的树优化器无法跟上正在生成的SARS-CoV-2基因数据的数量,目前每天映射1000万个序列,并增加多达10万个序列。
就在那时,Turakhia与Ye和其他学生在他的实验室里合作,挑战创造一个更好的树优化器。叶于2021年1月通过电气与计算机工程暑期研究实习计划(srrip)加入了图拉希亚的实验室。当Turakhia意识到叶在数据结构、并行算法、编程和生物信息学方面的基础知识相当强大时,他委托他在这项任务中发挥主导作用。
叶说:“我最初被分配到图形处理单元上加速序列比对的工作,但我认为SARS-COV-2系统发育项目可能更令人兴奋,事实也确实如此。”
图拉基亚说:“在那些日子里,(程)成了树木优化方面的专家。”
许多现有的树优化器都是闭源的,因此Ye被迫使用文献中可用的东西来设计一个解决数据挑战的解决方案。经过几个月的研究,叶教授开发了matOptimize,这是目前唯一能够跟上快速进化的SARS-CoV-2数量的工具基因数据.
为了实现这一点,Ye创建了一个真正的并行软件,处理分布在几个cpu上,内存需求显著降低。这使得它可以扩展到SARS-CoV-2系统发育所需的数据水平。
今天,UShER作为种系发生树采用matOptimize作为树状优化方法,对SARS-CoV-2进行系统发育特征分析。现在有一个完整的基因序列目录,从系统发育推论,被强调为更危险或更容易传播的序列,加州大学圣地亚哥分校和加州大学圣克鲁兹分校的科学家继续跟踪。
接下来,Turakhia的团队正在利用这一信息研究SARS-CoV-2的重组,这种现象可能会导致更新的、危险的变种。
Turakhia说:“在与加州大学圣克鲁兹分校的Russell Corbett-Detig教授的团队合作中,Cheng和我开发了一种名为waves的软件,可以在1000倍大的数据集中灵敏地检测重组。”“该软件将有助于监测新的SARS-CoV-2重组体的出现,未来也可能应用于其他病原体。”
进一步探索