Nature Biotech:新工具预测基因编辑成功
自2012年CRISPR-Cas9技术问世以来,基因编辑进入快车道,取得了一系列新突破。如果将CRISPR-Cas9比作能够破坏靶基因的分子剪刀,那么碱基编辑器(base editor)就可以称为分子铅笔,因为它可以取代单个核苷酸。2019年开发的prime编辑器功能更加强大,可以搜索和替换基因组,堪称分子世界的“文字处理器”。
开发这些技术的最终目标是修复人类基因中的有害突变。超过 16,000 个小缺失变异与人类疾病存在因果关系,理论上可以通过插入缺失序列来修复。囊性纤维化就是一个很好的例子,70% 的病例是由三核苷酸缺失引起的。
对于临床应用,需要一种技术来准确、高效、安全地插入序列,而不会出现不良结果。尽管prime编辑系统在治疗囊性纤维化等遗传性疾病方面显示出巨大潜力,但目前尚不清楚哪些因素决定了编辑效率。
英国威康桑格研究所和爱沙尼亚塔尔图大学的研究人员近日在《自然生物技术●杂志上发表论文称,他们开发了一种新工具,可以预测将基因编辑的DNA序列成功插入基因组的概率
影响插入效率的多种因素
在这项研究中,研究人员试图系统地评估插入序列的长度和组成、细胞系、靶位点和不同版本的prime编辑器如何影响插入效率。
为此,他们总共设计了 3,604 个 pegRNA,编码切口位点上游的插入,长度从 1 nt 到 69 nt 不等,GC 含量也各不相同。他们将序列插入到针对四个目标位点(HEK3、EMX1、FANCF 和 CLYBL)的两个细胞系(HEK293T 和 HAP1 细胞)中。一周后,他们对细胞的基因组进行了测序,看看编辑是否成功。评估插入效率的整体策略详见下图
由于插入率相差三个数量级,研究人员试图从插入长度开始了解相关特征。他们在HEK293T细胞中发现了两个特征:3和4nt序列比其他序列具有更高的插入率;15-21nt序列比周围序列具有更高的插入率。然而,在HAP1细胞中,1-4nt的短序列的插入率并不高于较长序列的插入率。他们将此归因于错配修复 (MMR) 系统,因为 HEK293T 细胞部分存在 MMR 缺陷。这在敲除错配修复基因 MLH1 的 HAP1 细胞中也得到了证明,表明 MMR 系统阻碍了短序列的插入。
随后,他们分析了prime编辑的不同步骤如何影响序列的插入率。他们发现,如果 pegRNA 含有四个或更多连续的腺嘌呤,插入率就会显着下降。此外,prime 编辑的另一个重要步骤是具有 5' 瓣(包含野生型序列)和 3' 瓣(包含插入片段)的中间体之间的平衡,而 5' 瓣核酸酶 FEN1 和 3' 瓣之间的平衡核酸酶 TREX1 和 TREX2 介导这种平衡。他们发现 3' 瓣核酸酶 TREX1 和 TREX2 抑制较长序列的插入。
同时,插入序列的核苷酸组成和二级结构也会影响插入率。研究人员发现,prime编辑系统对胞嘧啶有明显的偏好。插入序列中胞嘧啶每增加1%,插入率平均增加2.2%。相反,腺嘌呤和胸腺嘧啶的百分比降低了每个位点的插入率。此外,他们发现具有更高结构强度的序列能够更有效地插入。
在此过程中,他们使用了 Twist Bioscience 提供的寡核苷酸池。据Twist介绍,他们独特的硅基DNA合成平台单次可生成超过100万个寡核苷酸,数量几乎没有限制,而且寡核苷酸库准确且均匀,让人们对寡核苷酸充满信心。实验结果。信心。此外,实验中使用的多种载体和基因片段也由Twist Bioscience提供。
预测不同序列的插入率
了解了影响插入率的多种因素后,研究人员接下来想要预测同一位点不同序列的插入效率。他们采用机器学习方法,选择了10个特征来训练数据,包括插入序列的长度、组成、pegRNA二级结构和MMR。这种方法被称为MinsePIE,能够很好地预测测试数据的插入效率,相关性为0.68
在对现有数据进行训练后,他们在新数据上测试了 MinsePIE 模型,发现它能够准确预测多个插入序列的成功率。随后,他们还对预测的序列进行了实验测试。与预测具有较低插入率的变体相比,预测具有较高插入率的密码子变体确实表现出更高的插入率,这凸显了 MinsePIE 模型在密码子优化方面的优势。研究人员认为,这种计算模型可以帮助人们选择最有效的序列写入基因组。
最后,研究人员就如何提高prime编辑系统的插入效率提出了几点建议。他们建议选择胞嘧啶含量高且易于形成二级结构的序列。对于使用U6启动子的pegRNA,尽量避免插入腺嘌呤。对于小于14 nt的序列,暂时抑制MMR或敲除MLH1将大大提高插入效率。总的来说,这项工作增加了我们对短序列插入效率的理解,有望实现复杂的基因组工程和纠正各种致病突变。