统计模型有助于预测何时会发生高血压、心脏病和糖尿病
个性化医疗新方法的前景之一是,可以利用大型DNA数据集评估个体疾病风险。但许多疾病是高度多因素的,这意味着遗传风险因素在整个DNA中传播。奥地利科学技术研究所(IST)的马修·罗宾逊(Matthew Robinson)和他的国际团队的目标是找到这些难以捉摸的联系,并从中构建一个可靠的、可追踪的统计模型。
无数的遗传因素可以影响高血压、心脏病和2型糖尿病等疾病的发病。如果我们知道DNA是如何影响患上此类疾病的风险的,我们就可以从被动的护理转向更多的预防性护理,不仅可以提高患者的生活质量,还可以节省卫生系统的资金。然而,追踪DNA和疾病发病需要可靠的统计模型,能够可靠地在几十万病人的非常大的数据集上工作。
奥地利科学技术研究所(IST)助理教授马修·罗宾逊(Matthew Robinson)和一个国际研究团队现在开发了一种新的数学方法模型这改善了从大型患者基因组数据中获得的预测性质。这种方法可以帮助培养关于健康风险的个性化预测,类似于医生在讨论家庭的病史时确实。
抽样从数十亿
人类DNA由几十亿个碱基对组成,这些碱基对编码了生物结构和功能。在他们的研究中,科学家们选择了几十万个基因标记——DNA序列的短部分——用于他们的调查。使用他们的统计模型,然后他们将这些标记物的组成与数据库中患者高血压、心脏病或2型糖尿病的发病联系起来。研究人员对患者发病时的年龄特别感兴趣。有了这些信息,他们就可以用他们的模型来预测疾病可能发生的概率。
然而,这种统计模型不能构建某些基因与疾病发病之间的直接关系,而只是提供了一种对疾病发病概率的改进预测。在大数据研究中常用的黑盒模型和Robinson及其同事的这种方法之间还有一个重要的区别:黑盒模型产生预测,但由于其使用的多层抽象,其内部工作方式不容易被人类理解。相比之下,Robinson和他的同事们的模型提供了可追踪的统计计算。
能够理解用于预测健康和疾病发病的数学模型的内部工作原理,是使用大量敏感患者数据的伦理方法的重要组成部分。这样,研究人员就可以解释这些预测是如何产生的。
使用病人的数据
要充分利用这种预测方法的潜力,既需要有效的模型,也需要收集大量的基因组数据集,而这些数据集本身就涉及到数据安全和隐私,这是研究人员和医疗保健系统都必须解决的问题。
在使用患者数据时必须遵守严格的数据安全措施。只有在获得各自伦理委员会的许可后,研究人员才能从英国和爱沙尼亚的国家资助的生物库中获取匿名的患者数据——这些生物库收集了大量的患者遗传数据。他们使用来自英国的数据来建立他们的模型,并使用来自爱沙尼亚的数据来测试其预测能力。后者甚至首次提出了一些疾病发作的个性化风险评估。然后,这些信息将通过爱沙尼亚的保健系统转达给病人,鼓励他们采取预防措施。
Robinson和他的同事们提出的新的统计模型仅仅是利用大型基因组数据集的全部潜力进行预防保健的一步。生物样本库的模型和数据基础设施,以及一个健壮和安全的数据保护系统,都需要实现个性化预测医学的承诺。
该研究发表于自然通讯。
进一步探索
用户评论