新的计算机程序“学习”识别导致疾病的马赛克突变
基因突变会导致数百种无法治愈的疾病。其中,一小部分细胞中的DNA突变被称为马赛克突变,因为它们存在于很小比例的细胞中,所以非常难以检测到。
目前的DNA突变软件探测器在扫描人类基因组的30亿个碱基时,并不能很好地识别马赛克突变隐藏在正常的DNA序列中通常,医学遗传学家必须用眼睛检查DNA序列,以试图识别或确认马赛克突变——这是一项耗时的工作,充满了错误的可能性。
发表于2023年1月2日的自然生物技术,来自加州大学圣地亚哥分校医学院和雷迪儿童基因组医学研究所的研究人员描述了一种教计算机如何使用人工智能方法发现马赛克突变的方法。深度学习."
深度学习有时被称为人工神经网络,是一种机器学习技术,它教会计算机做人类与生俱来的事情:以身作则,特别是从大量信息中学习。与传统的统计模型相比,深度学习模型使用人工神经网络处理可视化表示的数据。这些模型的功能类似于人类的视觉处理,具有更高的准确性和对细节的关注,从而在计算能力方面取得了重大进展,包括突变检测。
“一个未解决的疾病的例子是局灶性癫痫资深研究作者约瑟夫·格里森博士说,他是加州大学圣地亚哥分校医学院的神经科学Rady教授,Rady儿童基因组医学研究所的神经科学研究主任。
“癫痫影响着4%的人口,约四分之一的局灶性癫痫发作对普通药物没有反应。这些患者通常需要手术切除短路的脑灶部分以阻止癫痫发作。在这些患者中,大脑内的马赛克突变可引起癫痫灶。
“我们有很多癫痫患者,我们无法发现病因,但一旦我们将我们称为‘深度马赛克’的方法应用于基因组数据,突变就变得明显了。这使我们能够提高某些形式癫痫的DNA测序的敏感性,并导致了一些发现,为治疗脑部疾病指明了新方法。”
格里森说,精确检测马赛克突变是第一步bob88体育平台登录致力于开发多种疾病的治疗方法。
Gleeson实验室的博士后学者Yang Xiaoxu博士说,DeepMosaic在整个基因组中接受了近20万个模拟和生物变异的训练,直到“最终,我们对它从从未遇到过的数据中检测变异的能力感到满意。”
为了训练计算机,作者提供了可靠的马赛克突变示例以及许多正常的DNA序列,并教计算机分辨其中的差异。通过对越来越复杂的数据集进行反复训练和再训练,并在十几个模型之间进行选择,计算机最终能够更好地识别马赛克突变人类的眼睛和之前的方法。DeepMosaic还在几个从未见过的独立大规模测序数据集上进行了测试,表现优于先前的方法。
“DeepMosaic在从基因组和外显子序列中检测镶嵌性方面超越了传统工具,”共同第一作者徐昕说,他曾是加州大学圣地亚哥医学院的本科生研究助理,现在是诺华公司的研究数据科学家。“深度学习模型捕捉到的突出视觉特征与专家在手动检查变量时关注的内容非常相似。”
DeepMosaic对科学家免费开放。它不是单一的电脑研究人员说,这是一个开源平台,可以让其他研究人员训练自己的神经网络,使用类似的基于图像的设置来实现更有针对性的突变检测。
更多信息:杨晓旭等,基于DeepMosaic的单核苷酸变异检测,自然生物技术(2023)。DOI: 10.1038 / s41587 - 022 - 01559 - w