在废水中可以找到精确的见解
今年早些时候,圣路易斯华盛顿大学凌芳琼实验室的研究表明,废水系统中SARS-CoV-2的数量与其所服务地区的covid -19疾病负担相关。
但在这项工作完成之前,凌需要知道:如何计算出在随机样本中所代表的个体数量废水?
凌是麦凯维工程学院能源、环境和化学工程系的助理教授,一次与同事的偶然相遇帮助她开发了一种机器学习模型该研究利用废水中发现的微生物种类来梳理出它们代表了多少个人。展望未来,这种方法可能能够将废水中的其他特性与个人级数据联系起来。
这项研究发表在杂志上PLOS计算生物学.
凌说,问题很简单:“如果你只取一勺废水,你不知道你测量的是多少人。”这与通常设计研究的方式背道而驰。
凌说:“通常当你设计实验时,你会设计样本量,你知道你要测量多少人。”在她寻找SARS-CoV-2和COVID患者数量之间的相关性之前,她必须弄清楚她正在测试的水中有多少人。
最初,凌认为机器学习也许能够揭示微生物的多样性和它所代表的人数之间的直接关系,但用“现成的”机器学习完成的模拟并没有成功。
后来,凌偶然遇到了文理学院数学与统计学助理教授陈丽凯。两人意识到,他们都对处理新颖复杂的数据感兴趣。凌提到,她正在做一个项目,陈也许能帮上忙。
陈说:“她和我分享了这个问题,我说,这确实是我们可以做的事情。”碰巧陈在解决一个问题时使用了凌也觉得很有用的技术。
能够梳理出样本中代表了多少个人的关键在于,样本越大,它越有可能类似于平均值或平均水平。但在现实中,个人往往不是完全“平均”的。因此,如果一个样本看起来像是微生物群的平均样本,它很可能是由很多人组成的。离平均值越远,就越有可能代表一个人。
“但现在我们处理的是高维数据,对吧?”陈先生说。你几乎有无数种方法可以将这些不同的微生物组合成一个样本。“所以这意味着我们必须弄清楚,我们如何在不同的地方汇总这些信息?”
利用这种基本的直觉——以及大量的数学——chen与Ling合作开发了一种更量身定制的机器学习算法,如果对来自1100多人的真实微生物群样本进行训练,可以确定废水样本中有多少人被代表(这些样本与训练数据无关)。
凌说:“它要快得多,而且可以在笔记本电脑上进行训练。”它不仅对微生物组有用,而且,有足够的例子-训练数据-该算法可以使用来自人类病毒组的病毒或代谢化学物质将个体与废水样本联系起来。
“这种方法被用来测试我们的测量能力人口规模凌说。但它远不止于此。“现在我们正在开发一个框架,以允许跨研究验证。”