2023年4月11日

枫:系统工具pandemic-scale基因组数据

与巨大的大量基因组数据来自生命科学实验,处理大型数据集在生物信息学领域仍然是一个挑战。COVID-19大流行期间,现有的生物信息学工具的有限能力意味着大量的数据无法分析,限制范围的进化和流行病学分析。

为了解决这个问题,领导的一个研究小组EMBL的欧洲生物信息学研究所(EMBL-EBI)开发了一个新的生物信息学工具,它可以处理大规模基因组数据集,允许科学家分析成千上万的病毒基因组。

这项研究发表在《华尔街日报》自然遗传学,描述了一种新的method-MAximum吝啬的似然估计(枫)——使用新的数学近似来开发一个算法,特别是在基因密切相关。这种新方法使快速重建系统发育林木的关键步骤为理解病毒进化和流行病学蔓延。

大流行疫情的经验教训

COVID-19大流行期间,研究人员难以分析的大量基因组数据集生成。这使它具有挑战性的研究SARS-CoV-2病毒是如何发展和蔓延。标准的生物信息学工具的限制迫使研究人员只关注样品的一个小子集。研究人员都很快意识到,他们需要更快更有效的方法。

“我们面临的许多挑战分析所有的数据在流感大流行期间,”尼古拉De Maio说,研究人员在EMBL-EBI科学家。“传统的系统工具成为不足随着数据量的增加。我们与他人合作,试图“拉伸”这些方法。我们尝试使用超级计算机来解决这个问题,但在某种程度上,似乎没有什么工作了。这促使我们去创造枫。”

枫的最重要的优点是它能够处理大规模基因数据集;数以百万计的微生物基因组进行分析。

流行病学工具问题

研究进化的经常使用的工具都是相同的是否你看最近爆发的病毒和细菌或远亲物种的进化。加快内部系统发育推断基因流行病学,研究人员开发了一种新算法,更好的工作密切相关的样本示例中,病毒基因组只有几十个核苷酸的差异,作为SARS-CoV-2基因组的情况。

研究人员也意识到这次大流行中吸取的经验教训将有助于生物信息学工具向前移动。做好准备为未来的大流行,生物信息学工具必须应对更大尺度的数据。

“我们从COVID-19 bioinformaticians学到了很多流感大流行,但是我们也需要考虑未来和如何做好更充分的准备,”尼克说,高盛在EMBL-EBI组长。“生物信息学工具需要能够处理更多的数据,我们需要一系列特定任务的工具。枫等新工具可以是一个有价值的生物信息学社区的阿森纳,帮助研究人员处理病毒数据更快和更有效地进行进化分析。”