新的信息软件帮助识别罕见的遗传变异
印第安纳大学医学院的一个研究小组已经开发了专门的生物信息学软件来识别罕见的遗传变异在全基因组测序研究。张梓琳Li博士,生物统计学和健康数据科学助理教授,是第一个和共同通讯作者最近的出版物自然方法这细节variant-Set测试协会使用注释信息管道(或STAARpipeline)框架。
“尽管有数亿罕见的遗传变异,他们一直具有挑战性的研究,因为没有方便、可伸缩的和健壮的管道综合内颈分析,这需要变异的评价集,而不是单一的变异,”李说。
STAARpipeline允许研究人员评估的罕见,非编码基因变异,这将有助于使基因研究。基因组的非编码基因变异是部分不编码氨基酸,蛋白质分子结合形成。超过98%的人的非编码DNA。
“罕见变异在99%的观察人类基因组和丢失的遗传的主要来源的复杂特征和疾病,”李说。
使用STAARpipeline,研究人员输入基因型(遗传密码)和表型(复杂的性状或疾病代码)数据到程序。软件分析数据,识别罕见变异,变异成八个功能类别分组gene-centric分析到固定大小的滑动窗口和新提议data-adaptive non-gene-centric分析动态的窗口。gene-centric分析集中在或附近的基因变异,而non-gene-centric分析侧重于变异基因间的地区,这是位于基因的DNA。然后程序包含多个变体功能注释为每个变量设置为进一步提高分析能力和总结用户的结果。
研究小组已经测试了STAARpipeline大样本大小,包括40000个国家心脏,肺和血液研究所(NHLBI) Trans-Omics精密医学程序。分析,STAARpipeline发现49显著关联gene-centric非编码分析,35的发现基于六个新提出的非编码类别。此外,data-adaptive大小动态窗口分析发现43重叠显著关联非编码基因,19.4%以上的经典固定大小的滑动窗口过程。
STAARpipeline基于STAAR另一个程序,李和他的同事们,这是一种基因变体设置测试通过使用注释信息寻找连接和关联。
“我们相信STAARpipeline可以扩展分析价值数亿变异的全基因组测序数据,”李说。“既然罕见变异在99%的人类基因组,发现了这个程序地址单位信息化的一个重要差距分析。”