研究人员提出了大规模数据集成和生物标志物识别的新方法

研究人员提出了大规模数据集成和生物标志物识别的新方法
肠道菌群元分析中的批处理效应和挑战。a,多个数据集集成中的常见挑战。b,基于7项研究中对照样本(开放点)和CRC样本(填充点)相对丰度的主坐标分析。箱形图表示七个研究之间或病例组与对照组之间的差异。在箱形图中:中心线,中位数;四分位范围(IQR;介于第25百分位和第75百分位之间);须,1.5 × IQR;点,离群值。双侧Wilcoxon检验或Kruskal-Wallis秩和检验。 ***P < 0.001; **P < 0.01; *P < 0.05. c, The number of differentially abundant bacteria with a two-sided Wilcoxon test in each study. The numbers on the leaves correspond to the unique differential bacteria of each study, and differential bacteria shared by multiple studies are shown in the central circle. d, Top: the bar height represents the meta-analysis significance of gut microbial genera derived from blocked Wilcoxon tests (top). Bottom: heatmap representing the fold change within individual studies. Bacteria are ordered by meta-analysis significance. e, The distribution of edges under different thresholds of microbial networks constructed from seven CRC studies. Inset: average degree under different thresholds; different colors of lines represent seven CRC studies, respectively. The gray regions indicate the 95% confidence intervals. Credit:自然计算科学(2022)。DOI: 10.1038 / s43588 - 022 - 00247 - 8

中国科学院北京生命科学研究所赵方清教授领导的研究团队提出了一种新的算法(NetMoss),用于高效整合大规模微生物组数据和生物标志物识别。

这项研究发表在自然计算科学5月23日。

两者之间的关系而且近年来受到越来越多的关注,积累了大量复杂的数据。然而,从这样的大数据中提取与疾病密切相关的信息具有挑战性。

一方面,肠道微生物组更容易受到饮食和地理等因素的影响。肠道微生物组的组成在不同人群中可能存在很大差异,这导致了数据的直接整合和基于丰度的生物标志物的识别存在偏差。另一方面,微生物丰度矩阵过于稀疏,难以进行常规测定去除基于该稀疏矩阵的批处理效应。

新提出的算法利用微生物相互作用网络有效地整合来自不同种群的数据。它可以量化不同类型之间的拓扑差异模块通过比较微生物网络在不同状态下的扰动,从而能够识别疾病相关的生物标志物。

与以往的方法相比,NetMoss可以更有效地无偏地整合不同批次的微生物数据,挖掘疾病相关的生物标志物,并识别驱动多种疾病发生的微生物生态失调共变模式。

在这项研究中,研究人员从患病和健康对照中收集了11377个肠道微生物组测序样本,涵盖78项研究,37种疾病,13个国家或地区。有了这些来自不同人群的多个数据集,他们发现目前使用的计算方法很难去除实验和测序过程引起的批量效应。

为了有效地进行下游分析并避免偏差,研究人员开发了一种有效的数据集成和计算模型识别。该模型基于微生物相互作用网络。

微生物相互作用网络单独构建,然后根据其结构特征使用不同权重进行集成。通过量化患病和健康网络中不同模块之间的拓扑差异,确定对外部影响扰动最敏感的细菌为生物标志物。

研究人员将计算算法应用于模拟和真实数据集。他们发现,无论是在集成数据集还是在单个数据集,它都是高度准确和稳健的。

“大多数生物标志物并不仅仅导致一种疾病,而是与多种疾病显著相关。类似的生态失调模式可能为不同疾病的发生提供重要线索,”赵教授说。

能帮助我们理解并更好地指导我们预防和治疗许多疾病。


进一步探索

推断微生物相互作用的新框架

更多信息:Liwen Xiao等,大规模微生物组数据集成使生物标志物识别成为可能,自然计算科学(2022)。DOI: 10.1038 / s43588 - 022 - 00247 - 8
所提供的中国科学院
引用:研究人员提出了大规模数据集成和生物标志物识别的新方法(2022,6月7日),检索自2022年8月4日//www.pyrotek-europe.com/news/2022-06-method-large-scale-biomarker-identification.html
这份文件受版权保护。除为私人学习或研究目的而进行的公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。
25股票

对编辑的反馈