现在完整的人类基因组揭示了新的秘密
当科学家们在2003年宣布人类基因组的完整序列时,他们有点捏造事实。
事实上,近20年后,大约8%的基因组从未被完全测序,很大程度上是因为它由高度重复的DNA块组成,很难与其他部分对齐。
但一个成立了3年的研究小组最终填补了剩余的DNA,为科学家和医生提供了第一个完整的、无间隙的基因组序列供参考。
新完成的基因组被命名为T2T-CHM13,代表了目前参考基因组的重大升级,目前的参考基因组被称为GRCh38,医生在寻找与疾病相关的突变时使用,科学家也在研究人类遗传变异的进化。
除此之外,新的DNA序列揭示了从未见过的关于该区域周围的细节着丝粒在这个过程中,细胞分裂时染色体被抓住并拉开,以确保每个“子”细胞继承正确数量的染色体。这一地区的多样性也可能为我们的人类祖先如何在非洲进化提供新的证据。
“揭示这些以前缺失的基因组区域的完整序列告诉我们很多关于它们是如何组织的,这对许多染色体来说是完全未知的,”他说尼古拉斯Altemose他是加州大学伯克利分校的博士后,也是四篇关于完整基因组的新论文的合著者。“以前,我们对那里的东西只有最模糊的图像,而现在它已经非常清晰,可以达到单碱基对的分辨率。”
Altemose是一篇描述着丝粒周围碱基对序列的论文的第一作者。一个纸解释如何进行测序将发表在4月1日的杂志印刷版上科学而阿尔特摩斯着丝粒纸另外四篇描述新序列告诉我们的内容的文章在期刊上进行了总结,论文全文发布在网上。四篇配套论文,其中一篇阿尔特摩斯是第一作者之一,也将于4月1日在该杂志上在线发表自然方法.
测序和分析是由一个100多人的团队完成的Telemere-to-Telomere财团即T2T,以所有染色体末端的端粒命名。该联盟的22个常染色体和X性染色体的无间隙版本由30.55亿个碱基对组成,碱基对是染色体和我们的基因构建的单位,以及19969个蛋白质编码基因。在蛋白质编码基因中,T2T研究小组发现了大约2000个新基因,其中大多数是失活的,但其中115个可能仍在表达。他们还发现了大约200万个额外的变异人类基因组,其中622个发生在医学相关基因中。
美国国立卫生研究院(National Institutes of health)国家人类基因组研究所(NHGRI)的高级研究员亚当·菲利普(Adam Phillippy)说:“在未来,当有人对他们的基因组进行测序时,我们将能够识别他们DNA中的所有变异,并利用这些信息更好地指导他们的医疗保健。”“真正完成人类基因组序列就像戴上了一副新眼镜。现在我们可以清楚地看到一切,我们离理解这一切意味着什么又近了一步。”
进化中的着丝粒
着丝粒内和周围的新DNA序列约占整个基因组的6.2%,或近1.9亿个碱基对,或核苷酸。剩下的新增加的序列,大多数在每条染色体末端的端粒周围和核糖体基因周围的区域被发现。整个基因组仅由四种核苷酸组成,它们每三组编码用于构建蛋白质的氨基酸。阿尔特摩斯的主要研究包括寻找和探索染色体中蛋白质与DNA相互作用的区域。
阿尔特摩斯说:“没有蛋白质,DNA就什么都不是。”阿尔特摩斯在获得博士学位后,于2021年在加州大学伯克利分校和加州大学旧金山分校联合获得了生物工程博士学位。牛津大学的统计数据。“DNA是一组指令,如果周围没有蛋白质来组织、调节、修复和复制它,就没有人能阅读它。蛋白质- dna的相互作用是基因组调控的所有活动发生的地方,能够绘制某些蛋白质与基因组结合的位置对于理解它们的功能非常重要。”
在T2T研究小组对缺失的DNA进行测序后,Altemose和他的团队使用新技术在着丝粒中找到了一个叫做着丝粒的大蛋白质复合物牢牢地抓住染色体的位置,这样细胞核内的其他机器就可以把染色体对分开。
他说:“当这个过程出错时,染色体就会错分离,这会导致各种各样的问题。”“如果这种情况发生在减数分裂中,这意味着染色体异常可能导致自发性流产或先天性疾病。如果它发生在体细胞中,你就会患上癌症——基本上是存在大量调控失调的细胞。”
他们在着丝粒内部和周围发现的是新序列层覆盖着旧序列层,就好像通过进化,新的着丝粒区域被反复铺设以与着丝粒结合。较老的区域具有更多的随机突变和缺失,表明它们不再被细胞使用。着丝粒结合的较新的序列变化较小,甲基化程度也较低。甲基的加入是一种表观遗传标记,倾向于使基因沉默。
着丝粒内部和周围的所有层都是由重复长度的DNA组成,基于大约171个碱基对长的单位,这大约是包裹一组蛋白质形成核小体的DNA的长度,使DNA保持包装和紧凑。这171个碱基对单位形成了更大的重复结构,这些重复结构被串联复制了很多次,在着丝粒周围形成了一大片重复序列区域。
T2T团队只专注于一个人类基因组,从一种被称为葡萄胎的非癌性肿瘤中获得,这本质上是一个拒绝母体DNA而复制其父DNA的人类胚胎。这样的胚胎死亡并转化为肿瘤。但事实上,这只鼹鼠有两个相同的父亲DNA副本——都带有父亲的X染色体,而不是来自母亲和父亲的不同DNA——这使得测序更容易。
阿尔特摩斯说,研究人员本周还公布了一条来自不同来源的Y染色体的完整序列,它的组装时间几乎与其余基因组的组装时间一样长。对这个新的Y染色体序列的分析将出现在未来的出版物中。
Altemose和他的团队,包括加州大学伯克利分校的项目科学家Sasha Langley,也使用新的参考基因组作为支架,比较了来自世界各地的1600个人的着丝粒DNA,揭示了着丝粒周围重复DNA的序列和拷贝数的主要差异。先前的研究表明,当古人类群体从非洲迁移到世界其他地方时,他们只带走了一小部分遗传变异样本。Altemose和他的团队证实,这种模式延伸到着丝粒。
阿尔特摩斯说:“我们发现,在最近祖先来自非洲大陆以外的个体中,他们的着丝粒,至少在X染色体上,倾向于分为两大簇,而大多数有趣的变异发生在最近有非洲血统的个体中。”“考虑到我们对其余基因组的了解,这并不完全令人惊讶。但这表明,如果我们想要研究这些着丝粒区域的有趣变化,我们真的需要集中精力对更多非洲基因组进行测序,并完成端粒到端粒的序列组装。”
他指出,着丝粒周围的DNA序列也可以用来将人类血统追溯到我们共同的猿类祖先。
阿尔特摩斯说:“当你离开活跃着丝粒的位置时,你会得到越来越多的退化序列,如果你走到这片重复序列海洋的最远海岸,你会开始看到古老的着丝粒,也许我们遥远的灵长类祖先曾经与着丝粒结合在一起。”“它几乎就像一层层的化石。”
长读测序改变了游戏规则
T2T的成功得益于一次对长段DNA序列进行测序的技术改进,这有助于确定高度重复的DNA序列的顺序。其中包括PacBio公司的HiFi测序技术,该技术可以高精度地读取超过2万个碱基对的长度。另一方面,牛津纳米孔技术有限公司开发的技术可以连续读取数百万个碱基对,但保真度较低。相比之下,Illumina Inc.所谓的下一代测序仅限于数百个碱基对。
“这些新的长读取DNA测序技术令人难以置信;它们是这样的游戏规则改变者,不仅对于这个重复的DNA世界,而且因为它们允许你对单个长DNA分子进行测序,”阿尔特摩斯说。“你可以开始以以前不可能的分辨率提出问题,即使是短读测序方法也不行。”
Altemose计划进一步探索着丝粒区域,使用他和斯坦福大学的同事开发的一种改进技术来精确定位染色体上被蛋白质结合的位置,类似于着丝粒与着丝粒结合的方式。这项技术也使用了长读测序技术。他和他的团队描述了这项名为“长读测序定向甲基化”(DiMeLo-seq)的技术纸这篇文章发表在本周的杂志上自然方法.
与此同时,T2T财团正在与人类泛基因组参考联盟努力建立一个代表全人类的参考基因组。
阿尔特摩斯说:“我们应该有一个代表所有人的参考资料,而不仅仅是一个人类个体或一个葡萄胎,这甚至不是一个真正的人类个体。”“关于如何实现这一点,有各种各样的想法。但我们首先需要的是掌握这种变异的样子,我们需要大量高质量的个体基因组序列来实现这一目标。”
他在中心点区域的研究,他称之为“激情项目”,是由博士后奖学金资助的。T2T项目的领导者是加州大学圣克鲁兹分校的Karen Miga,华盛顿大学的Evan Eichler和NHGRI的Adam Phillippy,他们提供了大部分资金。加州大学伯克利分校的着丝粒论文的其他合著者包括生物工程助理教授Aaron Streets;分子和细胞生物学教授艾比·德恩伯格(Abby Dernburg)和加里·卡彭(Gary Karpen);项目科学家Sasha Langley;以及前博士后吉娜·卡尔达斯。
更多信息:Nicolas Altemose等人,人类着丝粒的完整基因组和表观遗传学地图,科学(2022)。DOI: 10.1126 / science.abl4178.www.science.org/doi/10.1126/science.abl4178