用于碱基多样化的组合物、系统和方法与流程


用于碱基多样化的组合物、系统和方法
1.关于序列表电子提交的声明
2.根据37c.f.r.
§
1.821提交的ascii文本格式的序列表,标题为1499-9wo_st25,大小为609,139字节,生成于2021年1月29日,并通过efs-web提交,提供代替纸质副本。该序列表在此通过引用并入本说明书的公开内容。
技术领域
3.本发明涉及修饰或编辑靶核酸的方法,例如将胞嘧啶编辑为胸腺嘧啶和将腺嘌呤编辑为鸟嘌呤的方法和/或将胞嘧啶编辑为胸腺嘧啶、腺嘌呤或鸟嘌呤的方法。本发明进一步涉及用于修饰或编辑靶核酸的组合物和系统。


背景技术:



4.虽然crispr-cas9和相关技术提供了一种在基因座内产生靶向突变的方法,但它们产生的产物类型是非常确定的。当前的crispr技术不擅长以半随机方式产生等位基因多样性。等位基因多样性的产生对于发现新的表型和性状是有价值的。因此,能够从单一工具产生多种结果的新方法将是有利的。


技术实现要素:



5.本发明的第一方面涉及修饰靶核酸的方法,该方法包括:使靶核酸接触:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(指导rna)、胞嘧啶脱氨酶和腺嘌呤脱氨酶,其中crispr-cas效应蛋白、胞嘧啶脱氨酶和腺嘌呤脱氨酶形成复合物或包含在复合物中,从而修饰靶核酸。该方法可以进一步包括使用修饰的靶核酸确定期望的或优选的表型。
6.本发明的另一方面涉及碱基编辑组合物或系统,其包含:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)、胞嘧啶脱氨酶和腺嘌呤脱氨酶,其中crispr-cas效应蛋白、胞嘧啶脱氨酶和腺嘌呤脱氨酶形成复合物或包含在复合物中。
7.本发明的另一方面涉及修饰靶核酸的方法,该方法包括:使靶核酸接触:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)和胞嘧啶脱氨酶,其中该方法将靶核酸的胞嘧啶(c)修饰为腺嘌呤(a)、鸟嘌呤(g)或胸腺嘧啶(t),从而修饰靶核酸。该方法可以进一步包括使用修饰的靶核酸确定期望的或优选的表型。
8.本发明的另一方面涉及碱基编辑组合物或系统,其包含:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)和胞嘧啶脱氨酶,其中所述组合物或系统不含糖基化酶抑制剂(例如,尿嘧啶糖基化酶抑制剂(ugi))。
9.本发明进一步提供了包含本发明的核酸构建体的表达盒和/或载体,以及包含本发明的多肽、融合蛋白和/或核酸构建体的细胞。此外,本发明提供了包含本发明的核酸构建体和包含其的表达盒、载体和/或细胞的试剂盒。
10.应当注意,关于一个实施方案描述的本发明的方面可以并入不同的实施方案中,尽管没有相对于其的具体描述。也就是说,所有实施方案和/或任何实施方案的特征可以以
任何方式和/或组合进行组合。申请人保留更改任何最初提交的权利要求和/或相应地提交任何新的权利要求的权利,包括能够修改任何最初提交的权利要求以依赖和/或合并任何其他权利要求的任何特征的权利要求,尽管最初没有以这种方式提出要求。本发明的这些和其他目的和/或方面在下面阐述的说明书中详细解释。本领域普通技术人员通过阅读附图和随后的优选实施方案的详细描述将理解本发明的其他特征、优点和细节,这样的描述仅是对本发明的说明。
附图说明
11.图1是显示根据本发明一些实施方案使用ms2/mcp系统的c-和a-碱基编辑结果的图。
12.图2是显示根据本发明一些实施方案使用具有cas9的suntag系统的c-和a-碱基编辑结果的图。
13.图3提供了显示根据本发明一些实施方案使用tree系统的c-和a-碱基编辑结果的图。
14.图4是显示根据本发明一些实施方案使用与mcp融合的各种脱氨酶结构域的反式募集而由cas9(d10a)介导的碱基多样化的图。
15.图5是显示根据本发明的一些实施方案的碱基多样化可以在不存在ugi的情况下产生显著量的插入缺失突变,而无论脱氨酶结构域如何的图。
16.图6提供了显示根据本发明一些实施方案对靶碱基进行c编辑以及crt0044876降低插入缺失突变率的图。
17.图7-26是显示根据本发明一些实施方案的关于各个间隔区序列的碱基编辑百分比的图。
18.图27是显示根据本发明一些实施方案由具有或不具有gam的胞嘧啶脱氨酶产生的插入缺失(indels)百分比的图。
具体实施方式
19.现在将在下文中参考附图和实施例来描述本发明,其中示出了本发明的实施方案。该描述并非旨在成为可以实施本发明的所有不同方式或可以添加到本发明的所有特征的详细目录。例如,关于一个实施方案说明的特征可以并入其他实施方案中,并且关于特定实施方案说明的特征可以从该实施方案中删除。因此,本发明设想在本发明的一些实施方案中,可以排除或省略本文阐述的任何特征或特征组合。此外,根据本公开内容,本文提出的各种实施方案的许多变化和添加对于本领域技术人员来说将是显而易见的,它们不脱离本发明。因此,以下描述旨在示例说明本发明的一些特定实施方案,而不是详尽地指定其所有排列、组合和变化。
20.除非另有定义,本文使用的所有技术和科学术语与本发明所属领域的普通技术人员通常理解的含义相同。在本文的本发明的描述中使用的术语仅用于描述特定实施方案的目的,并不旨在限制本发明。
21.本文引用的所有出版物、专利申请、专利和其他参考文献通过引用整体并入,以用于与在其中呈现参考文献的句子和/或段落相关的教导。
22.除非上下文另有说明,否则本文所述的本发明的各种特征特别旨在以任何组合形式使用。此外,本发明还设想在本发明的一些实施方案中,可以排除或省略本文阐述的任何特征或特征的组合。为了示例说明,如果说明书声明组合物包含组分a、b和c,则特别意在a、b或c中的任何一个或其组合可以单独或以任何组合被省略和排除。
23.如在本发明的描述和所附权利要求中使用的,单数形式“一个”、“一种”和“该”旨在也包括复数形式,除非上下文另有明确说明。
24.同样如本文所用,“和/或”是指并涵盖一个或多个相关列出的项目的任何和所有可能的组合,以及当解释为备选方案(“或”)时缺少组合。
25.如本文所用的术语“约”在提及诸如量或浓度等的可测量值时,意在包括所述值的
±
10%、
±
5%、
±
1%、
±
0.5%或甚至
±
0.1%的变化以及所述值。例如,“约x”,其中x是可测量的值,意味着包括x以及x的
±
10%、
±
5%、
±
1%、
±
0.5%或甚至
±
0.1%的变化。此处提供的可测量值的范围可以包括其中的任何其他范围和/或单个值。
26.如本文所用,诸如“在x和y之间”和“在约x和y之间”的短语应当被解释为包括x和y。如在本文中使用的那样,诸如“在约x和y之间”的短语是指“在约x和约y之间”和诸如“从约x到y”之类的短语是指“从约x到约y”。
27.除非在本文中另有说明,否则本文中数值范围的列举仅旨在用作单独引用落入该范围内的每个单独值的速记方法,并且每个单独的值被并入说明书中,就好像它在本文中单独列举一样。例如,如果公开了10到15的范围,则还公开了11、12、13和14。
28.如本文所用,术语“包括”、“包含”和“含有”指定了所述特征、整数、步骤、操作、元素和/或组件的存在,但不排除一种或多种其他特征、整数、步骤、操作、元素、组件和/或它们的组的存在或添加。
29.如本文所用,过渡短语“基本上由......组成”是指权利要求的范围应解释为包括权利要求中列举的具体材料或步骤,以及那些不实质影响所要求保护的发明的基本和新颖特征的材料或步骤。因此,当在本发明的权利要求中使用时,术语“基本上由......组成”并不旨在解释为等同于“包括”。
30.如本文所用,术语“增加”、“增加了”、“增强”、“增强了”、“改善”和“改善了”(及其语法变体)描述了至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、100%、150%、200%、300%、400%、500%或更多的提升,例如与另一个可测量的特性或数量(例如,对照值)相比。
31.如本文所用,术语“减少”、“减少的”、“减少了”、“减少量”、“减弱”和“降低”(及其语法变体)描述例如至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、98%、99%或100%的减少,例如与另一个可测量的特性或数量(例如,对照值)相比。在一些实施方案中,减少可导致没有或基本上没有(即,微不足道的量,例如,小于约10%或甚至5%)可检测的活性或量。
[0032]“异源”或“重组”核苷酸序列是与引入其的宿主细胞不天然相关的核苷酸序列,包括天然存在的核苷酸序列的非天然存在的多个拷贝。
[0033]“天然”或“野生型”核酸、核苷酸序列、多肽或氨基酸序列是指天然存在的或内源性核酸、核苷酸序列、多肽或氨基酸序列。因此,例如,“野生型mrna”是在参考生物体中天然存在或对其是内源的mrna。“同源”核酸序列是与引入其的宿主细胞天然相关的核苷酸序
列。
[0034]
如本文所用,术语“核酸”、“核酸分子”、“核苷酸序列”和“多核苷酸”是指线性或分支、单链或双链、或其杂合体的rna或dna。该术语还包括rna/dna杂合体。当合成产生dsrna时,不太常见的碱基,如肌苷、5-甲基胞嘧啶、6-甲基腺嘌呤、次黄嘌呤等也可用于反义、dsrna和核酶配对。例如,含有尿苷和胞苷的c-5丙炔类似物的多核苷酸已显示以高亲和力结合rna,并且是基因表达的有效反义抑制剂。也可以进行其他修饰,例如对磷酸二酯骨架或rna的核糖糖基团中的2
′‑
羟基的修饰。
[0035]
如本文所用,术语“核苷酸序列”是指核苷酸的杂聚物或这些核苷酸从核酸分子的5

到3

端的序列,并且包括dna或rna分子,包括cdna、dna片段或部分、基因组dna、合成(例如化学合成)dna、质粒dna、mrna和反义rna,其中任何一种都可以是单链或双链的。术语“核苷酸序列”、“核酸”、“核酸分子”、“核酸构建体”、“重组核酸”、“寡核苷酸”和“多核苷酸”在本文中也可互换使用以指核苷酸的杂聚物。本文提供的核酸分子和/或核苷酸序列在本文中以5

到3

方向从左到右呈现,并使用用于表示核苷酸字符的标准代码表示,如美国序列规则37cfr
§§
1.821-1.825和世界知识产权组织(wipo)标准st.25。如本文所用,“5

区域”可以指多核苷酸中最接近多核苷酸的5

末端的区域。因此,例如,多核苷酸的5

区域中的元件可以位于从位于多核苷酸的5

末端的第一个核苷酸到位于多核苷酸中途的核苷酸的任何位置。如本文所用,“3

区域”可以指多核苷酸中最接近多核苷酸的3

末端的区域。因此,例如,多核苷酸的3

区域中的元件可以位于从位于多核苷酸的3

端的第一个核苷酸到位于多核苷酸中途的核苷酸的任何位置。
[0036]
如本文所用,术语“基因”是指能够用于产生mrna、反义rna、mirna、抗微rna反义寡脱氧核糖核苷酸(amo)等的核酸分子。基因可以或可以不能用于产生功能性蛋白质或基因产物。基因可以包括编码区和非编码区(例如,内含子、调控元件、启动子、增强子、终止序列和/或5

和3

非翻译区)。基因可以是“分离的”,其意指基本上或实质上不含通常发现的与其天然状态的核酸相关联的组分的核酸。此类组分包括其他细胞材料、来自重组生产的培养基和/或用于化学合成核酸的各种化学品。
[0037]
术语“突变”是指点突变(例如,错义,或无义,或导致移码的单个碱基对的插入或缺失)、插入、缺失和/或截短。当突变是氨基酸序列中的一个残基被另一个残基取代,或者是序列中一个或多个残基的缺失或插入时,突变通常通过识别原始残基、然后是该残基在序列中的位置以及通过新取代残基的身份来描述。
[0038]
如本文所用,术语“互补”或“互补性”是指多核苷酸在允许的盐和温度条件下通过碱基配对的天然结合。例如,序列“a-g-t”(5

至3

)与互补序列“t-c-a”(3

至5

)结合。两个单链分子之间的互补性可以是“部分的”,其中只有一些核苷酸结合,或者当单链分子之间存在完全互补性时,它可以是完全的。核酸链之间的互补程度对核酸链之间杂交的效率和强度有显著影响。
[0039]
如本文所用,“互补”可以表示与比较核苷酸序列100%互补性,或者它可以表示小于100%的互补性(例如,“基本上的互补性”,例如约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%等的互补性)。
[0040]
核苷酸序列或多肽序列的“部分”或“片段”将理解为表示长度减少的核苷酸或多
肽序列(例如,相对于参考核苷酸或多肽序列,分别减少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个残基(例如,核苷酸或肽)),并且包括以下、基本上由以下组成和/或由以下组成:与参考核苷酸或多肽序列分别相同或几乎相同(例如,70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%相同)的连续残基的核苷酸或多肽序列。根据本发明的这种核酸片段或部分可以酌情包含在其作为构件的更大多核苷酸中。例如,本发明的指导核酸的重复序列可以包含野生型crispr-cas重复序列的部分(例如,野生型v型crispr cas重复,例如来自crispr cas系统的重复,包括但不限于cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c1、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c等)。
[0041]
具有同源性的不同核酸或蛋白质在本文中称为“同源物”。术语同源物包括来自相同和其他物种的同源序列以及来自相同和其他物种的直系同源序列。“同源性”是指两个或更多个核酸和/或氨基酸序列之间在位置同一性百分比(即序列相似性或同一性)方面的相似性水平。同源性也指不同核酸或蛋白质之间具有相似功能特性的概念。因此,本发明的组合物和方法进一步包含本发明的核苷酸序列和多肽序列的同源物。如本文所用,“直系同源”是指不同物种中在物种形成过程中由共同祖先基因产生的同源核苷酸序列和/或氨基酸序列。本发明的核苷酸序列的同源物对本发明的所述核苷酸序列具有基本的序列同一性(例如,至少约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%)。
[0042]
如本文所用,“序列同一性”是指两个最佳比对的多核苷酸或多肽序列在整个组分(例如核苷酸或氨基酸)的比对窗口中不变的程度。“同一性”可以很容易地通过已知方法计算,包括但不限于:computational molecular biology(lesk,a.m.编)oxford university press,new york(1988);biocomputing:informatics and genome projects(smith,d.w.编)academic press,new york(1993);computer analysis of sequence data,part i(griffin,a.m.和griffin,h.g.编)humana press,new jersey(1994);sequence analysis in molecular biology(von heinje,g.编)academic press(1987);和sequence anaysis primer(gribskov,m.和devereux,j.编)stockton press,new york(1991)。
[0043]
如本文所用,术语“序列同一性百分比”或“同一性百分比”是指当两个序列最佳比对时,与测试(“主题”)多核苷酸分子(或其互补链)相比,参考(“查询”)多核苷酸分子(或其互补链)的线性多核苷酸序列中相同核苷酸的百分比。在一些实施方案中,“同一性百分比”可以指与参考多肽相比,氨基酸序列中相同氨基酸的百分比。
[0044]
如本文所用,在两个核酸分子、核苷酸序列或蛋白质序列的上下文中的短语“基本上相同”或“基本上同一性”是指当比较和比对最大对应时,具有至少约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%核苷酸或氨基酸残基同一性的两条或更多条序列或子序列,如使用以下序列比较算法之一或通过目视检查所测量的。在本发明的一些实施方案中,基本上同一性存在于本发明核苷酸序列的连续核苷酸区域上,其为约10个核苷酸至约20个核苷酸、约10个核苷酸至约25个核苷
酸、约10个核苷酸至约30个核苷酸,约15个核苷酸至约25个核苷酸、约30个核苷酸至约40个核苷酸、约50个核苷酸至约60个核苷酸、约70个核苷酸至约80个核苷酸、约90个核苷酸至约100个核苷酸或更多核苷酸的长度,以及其中的任何范围,直到序列的全长。在一些实施方案中,核苷酸序列可以在至少约20个核苷酸(例如,约20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40个核苷酸)上基本上相同。在一些实施方案中,基本上相同的核苷酸或蛋白质序列执行与其基本上相同的核苷酸(或编码的蛋白质序列)基本上相同的功能。
[0045]
对于序列比较,通常一个序列充当与测试序列进行比较的参考序列。当使用序列比较算法时,将测试序列和参考序列输入计算机,必要时指定子序列坐标,并指定序列算法程序参数。然后基于指定的程序参数,序列比较算法计算一个或多个测试序列相对于参考序列的百分比序列同一性。
[0046]
用于比对比较窗口的序列的最佳比对是本领域技术人员熟知的,并且可以通过诸如smith和waterman的局部同源性算法、needleman和wunsch的同源性比对算法、pearson和lipman的相似性搜索方法等工具,以及可选地通过这些算法的计算机化实现来进行,所述计算机化实现例如gap、bestfit、fasta和tfasta,这些作为wisconsin(accelrys inc.,san diego,ca)的一部分提供。测试序列和参考序列的比对片段的“同一性分数”是两个比对序列共享的相同组分的数量除以参考序列片段中的组分总数(例如整个参考序列或参考序列的较小定义部分)。序列同一性百分比表示为同一性分数乘以100。一个或多个多核苷酸序列的比较可以是与全长多核苷酸序列或其一部分、或与更长的多核苷酸序列比较。对于本发明的目的,“百分比同一性”也可以使用用于翻译的核苷酸序列的blastx 2.0版和用于多核苷酸序列的blastn 2.0版来确定。
[0047]
当两条核苷酸序列在严格条件下相互杂交时,也可以认为两条核苷酸序列基本上互补。在一些代表性实施方案中,被认为基本上互补的两个核苷酸序列在高度严格的条件下彼此杂交。
[0048]
核酸杂交实验如southem和northern杂交中的“严格杂交条件”和“严格杂交洗涤条件”是序列依赖性的,并且在不同的环境参数下是不同的。在tijssen laboratory techniques in biochemistry and molecular biology-hybridization with nucleic acid probes第i部分第2章

overview of principles of hybridization and the strategy of nucleic acid probe assays

elsevier,new york(1993)有对核酸杂交的详细指导。通常,高度严格的杂交和洗涤条件选择为比特定序列在确定的离子强度和ph值下的热解链点(tm)低约5℃。
[0049]
tm是50%的靶序列与完美匹配的探针杂交的温度(在规定的离子强度和ph下)。选择非常严格的条件以等于针对特定探针的tm。在southern或northern印迹中滤纸上,具有超过100个互补残基的互补核苷酸序列杂交的严格杂交条件的示例是50%甲酰胺与1mg肝素在42℃下进行杂交过夜。高度严格洗涤条件的示例是0.15m nacl在72℃洗涤约15分钟。严格洗涤条件的示例是0.2x ssc在65℃洗涤15分钟(参见sambrook,下文,对ssc缓冲液的描述)。通常,高严格性洗涤之前是低严格性洗涤以去除背景探针信号。对于例如超过100个核苷酸的双链体,中等严格性洗涤的示例是1x ssc在45℃下15分钟。对于例如超过100个核苷酸的双链体的低严格性洗涤示例是4-6x ssc在40℃下15分钟。对于短探针(例如,约10至
50个核苷酸),严格条件通常涉及在ph 7.0至8.3下小于约1.0m na离子的盐浓度,通常为约0.01至1.0m na离子浓度(或其他盐),以及温度通常至少约为30℃。添加去稳定剂如甲酰胺也可以达到严格的条件。一般而言,在特定杂交测定中观察到的信噪比是不相关探针的2倍(或更高)表明检测到特异性杂交。如果它们编码的蛋白质基本上相同,则在严格条件下不相互杂交的核苷酸序列仍然基本上相同。例如,当使用遗传密码允许的最大密码子简并性创建核苷酸序列的副本时,可能会发生这种情况。
[0050]
本发明的多核苷酸和/或重组核酸构建体可以针对表达进行密码子优化。在一些实施方案中,本发明的多核苷酸、核酸构建体、表达盒和/或载体(例如,其包含/编码核酸结合多肽(例如,dna结合结构域,例如来自多核苷酸引导的核酸内切酶、锌指核酸酶、转录激活因子样效应核酸酶(talen)、argonaute蛋白和/或crispr-cas效应蛋白的序列特异性dna结合结构域)、指导核酸、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶)可以针对在生物体(例如动物、植物、真菌、古细菌或细菌)中表达而进行密码子优化。在一些实施方案中,本发明的密码子优化的核酸构建体、多核苷酸、表达盒和/或载体与未经密码子优化的参考核酸构建体、多核苷酸、表达盒和/或载体具有约70%至约99.9%(例如,70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、99.9%或100%)同一性或更高。
[0051]
在本文所述的任何实施方案中,本发明的多核苷酸或核酸构建体可以与多种启动子和/或其他调节元件可操作地关联用于在生物体或其细胞(例如植物和/或植物细胞)中表达。因此,在一些实施方案中,本发明的多核苷酸或核酸构建体可以进一步包含与一种或多种核苷酸序列可操作地连接的一种或多种启动子、内含子、增强子和/或终止子。在一些实施方案中,启动子可以与内含子(例如,ubi1启动子和内含子)可操作地关联。在一些实施方案中,与内含子关联的启动子可以称为“启动子区域”(例如,ubil启动子和内含子)。
[0052]
如本文所用的关于多核苷酸的“可操作地连接”或“可操作地关联”是指所示元件在功能上彼此相关,并且通常也是物理相关的。因此,如本文所用,术语“可操作地连接”或“可操作地关联”是指单个核酸分子上功能关联的核苷酸序列。因此,与第二核苷酸序列可操作地连接的第一核苷酸序列是指当第一核苷酸序列与第二核苷酸序列处于功能关系时的情况。例如,如果启动子影响所述核苷酸序列的转录或表达,则启动子与核苷酸序列可操作地相关。本领域技术人员将理解,控制序列(例如,启动子)不需要与其可操作地关联的核苷酸序列连续,只要控制序列的功能是指导其表达即可。因此,例如,插入的未翻译但转录的核酸序列可以存在于启动子和核苷酸序列之间,并且启动子仍然可以被认为“可操作地连接”到核苷酸序列。
[0053]
如本文所用,关于多肽的术语“连接的”或“融合的”是指一种多肽与另一种多肽的附接。多肽可以直接地(例如,通过肽键)或通过接头(例如,肽接头)连接或融合至另一个多肽(在n-末端或c-末端)。
[0054]
关于多肽的术语“接头”是本领域公认的并且是指化学基团或连接两个分子或部分的分子,例如融合蛋白的两个结构域,例如crispr-cas效应蛋白和肽标签和/或目标多肽。接头可以由单个连接分子(例如,单个氨基酸)组成或可以包含多于一个的连接分子。在一些实施方案中,接头可以是有机分子、基团、聚合物或化学部分,例如二价有机部分。在一
些实施方案中,接头可以是氨基酸或者它可以是肽。在一些实施方案中,接头是肽。
[0055]
在一些实施方案中,可用于本发明的肽接头长度可为约2至约100个或更多个氨基酸,例如约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100个或更多个氨基酸的长度(例如,约2至约40、约2至约50、约2至约60、约4至约40、约4至约50、约4至约60、约5至约40、约5至约50、约5至约60、约9至约40、约9至约50、约9至约60、约10至约40、约10至约50、约10至约60、或约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个氨基酸至约26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100或更多个氨基酸的长度(例如,约105、110、115、120、130、140、150或更多个氨基酸的长度))。在一些实施方案中,肽接头可以是gs接头。
[0056]
如本文所用,关于多核苷酸的术语“连接的”或“融合的”是指一个多核苷酸与另一个多核苷酸的附接。在一些实施方案中,两个或更多个多核苷酸分子可以通过接头连接,接头可以是有机分子、基团、聚合物或化学部分,例如二价有机部分。多核苷酸可以通过共价或非共价键或结合(包括例如watson-crick碱基配对)或通过一个或多个连接核苷酸而连接或融合至另一个多核苷酸(在5

端或3

端)。在一些实施方案中,可以将某种结构的多核苷酸基序插入另一个多核苷酸序列内(例如,指导rna中发夹结构的延伸)。在一些实施方案中,连接核苷酸可以是天然存在的核苷酸。在一些实施方案中,连接核苷酸可以是非天然存在的核苷酸。
[0057]“启动子”是控制或调节与启动子可操作关联的核苷酸序列(例如,编码序列)转录的核苷酸序列。由启动子控制或调节的编码序列可以编码多肽和/或功能性rna。通常,“启动子”是指包含用于rna聚合酶ii的结合位点并指导转录起始的核苷酸序列。通常,启动子位于相对于相应编码序列的编码区起点的5

或上游。启动子可以包含作为基因表达的调节因子的其他元件;例如,启动子区域。这些包括tata盒共有序列,并且通常是caat盒共有序列(breathnach和chambon,(1981)annu.rev.biochem.50:349)。在植物中,caat盒可以被agga盒替代(messing等人,(1983)genetic engineering of plants,t.kosuge,c.meredith和a.hollaender(编),plenum press,pp.211-227)。在一些实施方案中,启动子区域可以包含至少一个内含子(例如,seq id no:1或seq id no:2)。
[0058]
可用于本发明的启动子可以包括例如组成型、诱导型、时间调节型、发育调节型、化学调节型、组织优选和/或组织特异性启动子,用于制备重组核酸分子,例如“合成核酸酸构建体”或“蛋白质-rna复合物”。这些不同类型的启动子是本领域已知的。
[0059]
启动子的选择可能因表达的时间和空间要求而异,并且也可能因要转化的宿主细胞而异。许多不同生物体的启动子在本领域中是众所周知的。基于本领域现有的广泛知识,可以为目标特定宿主生物体选择合适的启动子。因此,例如,对模式生物体中高度组成型表达基因上游的启动子了解很多,并且可以在其他系统中适当地访问和实施此类知识。
[0060]
在一些实施方案中,在植物中起作用的启动子可以与本发明的构建体一起使用。
可用于在植物中驱动表达的启动子的非限制性实例包括rubisco小亚基基因1的启动子(prbcs1)、肌动蛋白基因的启动子(pactin)、硝酸还原酶基因的启动子(pnr)和重复碳酸酐酶基因1的启动子(pdcal)(参见walker等人plant cell rep.23:727-735(2005);li等人gene403:132-142(2007);li等人mol biol.rep.37:1143-1154(2010))。prbcs1和pactin是组成型启动子,pnr和pdca1是诱导型启动子。pnr由硝酸盐诱导并由铵抑制(li等人gene 403:132-142(2007)),pdca1由盐诱导(li等人mol biol.rep.37:1143-1154(2010))。
[0061]
可用于植物的组成型启动子的实例包括但不限于:cestrum病毒启动子(cmp)(美国专利号7,166,770)、水稻肌动蛋白1启动子(wang等人(1992)mol.cell.biol.12:3399-3406;以及美国专利号5,641,876)、camv35s启动子(odell等人(1985)nature 313:810-812)、camv 19s启动子(lawton等人(1987)plant mol.biol.9:315-324)、nos启动子(ebert等人(1987)proc.natl.acad.sci usa 84:5745-5749)、adh启动子(walker等人(1987)proc.natl.acad.sci.usa 84:6624-6629)、蔗糖合酶启动子(yang&russell(1990)proc.natl.acad.sci.usa 87:4144-4148)和泛素启动子。源自泛素的组成型启动子在许多细胞类型中积累。泛素启动子已经从几种植物物种中克隆出来用于转基因植物,例如向日葵(binet等人,1991.plant science 79:87-94)、玉蜀黍(christensen等人,1989.plantmolec.biol.12:619-632)和拟南芥(norris等人1993.plant molec.biol.21:895-906)。玉蜀黍泛素启动子(ubip)已在转基因单子叶植物系统中开发,其序列和构建用于单子叶植物转化的载体在欧洲专利公开ep0342926中公开。泛素启动子适用于在转基因植物,尤其是单子叶植物中表达本发明的核苷酸序列。此外,mcelroy等人(mol.gen.genet.231:150-160(1991))描述的启动子表达盒可以容易地被修饰以表达本发明的核苷酸序列并且特别适用于单子叶植物宿主。
[0062]
在一些实施方案中,组织特异性/组织优选启动子可用于在植物细胞中表达异源多核苷酸。组织特异性或优选表达模式包括但不限于绿组织特异性或优选的、根特异性或优选的、茎特异性或优选的、花特异性或优选的或者花粉特异性或优选的。适合在绿组织中表达的启动子包括许多调节参与光合作用的基因的启动子,其中许多已从单子叶植物和双子叶植物两者中克隆。在一个实施方案中,可用于本发明的启动子是来自磷酸烯醇羧化酶基因的玉蜀黍pepc启动子(hudspeth&grula,plant molec.biol.12:579-589(1989))。组织特异性启动子的非限制性实例包括与编码种子贮藏蛋白(例如β-伴大豆球蛋白、十字花科蛋白、napin和菜豆蛋白)、玉米醇溶蛋白或油体蛋白(例如油质蛋白)或参与脂肪酸的蛋白质(包括酰基载体蛋白、硬脂酰-acp去饱和酶和脂肪酸去饱和酶(fad 2-1))的基因相关联的那些,以及在胚发育过程中表达的其他核酸(例如bce4,参见例如,kridl等人(1991)seed sci.res.1:209-219;以及ep专利号255378)。用于在植物,特别是玉蜀黍中表达本发明的核苷酸序列的组织特异性或组织优先的启动子包括但不限于指导在根、髓、叶或花粉中表达的那些。此类启动子公开于例如wo 93/07278中,其公开的启动子通过引用并入本文。可用于本发明的组织特异性或组织优选启动子的其他非限制性实例是美国专利6,040,504中公开的棉花rubisco启动子;美国专利5,604,121中公开的水稻蔗糖合酶启动子;de framond描述的根特异性启动子(febs 290:103-106(1991);ciba-geigy的欧洲专利ep 0452269);在美国专利5,625,136(ciba-geigy)中描述的茎特异性启动子,其驱动玉蜀黍trpa基因的表达;wo 01/73087中公开的certrum黄卷叶病毒启动子;和花粉特异性或优选
启动子,包括但不限于来自水稻的prooslps10和prooslps11(nguyen等人plant biotechnol.reports 9(5):297-306(2015)),来自玉蜀黍的zmstk2_usp((wang等人genome 60(6):485-495(2017))、来自番茄的lat52和lat59(twell等人development 109(3):705-713(1990))、zm13(美国专利号10,421,972)、来自拟南芥的pla
2-δ启动子(美国专利号7,141,424)和/或来自玉蜀黍的zmc5启动子(国际pct公开号wo1999/042587)。
[0063]
植物组织特异性/组织优选启动子的其他实例包括但不限于根毛特异性顺式元件(rhe)(kim等人the plant cell 18:2958-2970(2006))、根-特异性启动子rcc3(jeong等人plant physiol.153:185-197(2010))和rb7(美国专利号5459252),凝集素启动子(lindstrom等人(1990)der.genet.11:160-167;和vodkin(1983)prog.clin.biol.res.138:87-98),玉米醇脱氢酶1启动子(dennis等人(1984)nucleic acids res.12:3983-4000),s-腺苷-l-甲硫氨酸合成酶(sams)(vander mijnsbrugge等人(1996)plant and cell physiology,37(8):1108-1115),玉米捕光复合体启动子(bansal等人(1992)proc.natl.acad.sci.usa 89:3654-3658)、玉米热休克蛋白启动子(o

dell等人(1985)embo j.5:451-458;和rochester等人(1986)embo j.5:451-458)、豌豆小亚基rubp羧化酶启动子(cashmore,

nuclear genes encoding the small subunit of ribulose-l,5-bisphosphate carboxylase

pp.29-39于:genetic engineering of plants(hollaender编,plenum press 1983;和poulsen等人(1986)mol.gen.genet.205:193-200)、ti质粒甘露碱合酶启动子(langridge等人(1989)proc.natl.acad.sci.usa 86:3219-3223)、ti质粒胭脂碱合酶启动子(langridge等人(1989),同上)、矮牵牛查尔酮异构酶启动子(van tunen等人(1988)embo j.7:1257-1263)、大豆富含甘氨酸蛋白1启动子(keller等人(1989)genes dev.3:1639-1646)、截短的camv 35s启动子(o

dell等人(1985)nature 313:810-812)、马铃薯块茎储藏蛋白启动子(wenzler等人(1989)plant mol.biol.13:347-354)、根细胞启动子(yamamoto等人(1990)nucleic acids res.18:7449),玉蜀黍玉米醇溶蛋白启动子(kriz等人(1987)mol.gen.genet.207:90-98;langridge等人(1983)cell 34:1015-1022;reina等人(1990)nucleic acids res.18:6425;reina等人(1990)nucleic acids res.18:7449;和wandelt等人(1989)nucleic acids res.17:2354)、球蛋白-1启动子(belanger等人(1991)genetics 129:863-872)、α-微管蛋白cab启动子(sullivan等人(1989)mol.gen.genet.215:431-440)、pepcase启动子(hudspeth&grula(1989)plant mol.biol.12:579-589)、r基因复合物相关启动子(chandler等人(1989)plant cell 1:1175-1183)和查耳酮合酶启动子(franken等人(1991)embo j.10:2605-2612)。
[0064]
对种子特异性表达有用的是豌豆球蛋白启动子(czako等人(1992)mol.gen.genet.235:33-40;以及美国专利号5,625,136中公开的种子特异性启动子。在成熟叶中表达的有用启动子是在衰老开始时被转换的那些,例如来自拟南芥的sag启动子(gan等人(1995)science 270:1986-1988)。
[0065]
此外,可以使用在叶绿体中起作用的启动子。此类启动子的非限制性实例包括噬菌体t3基因95

utr和美国专利号7,579,516中公开的其他启动子。可用于本发明的其他启动子包括但不限于s-e9小亚基rubp羧化酶启动子和kunitz胰蛋白酶抑制剂基因启动子(kti3)。
[0066]
可用于本发明的其他调节元件包括但不限于内含子、增强子、终止序列和/或5

和3

非翻译区。
[0067]
可用于本发明的内含子可以是在植物中鉴定和分离的内含子,然后插入到表达盒中以用于植物的转化。如本领域技术人员将理解的,内含子可包含自我切除所需的序列,并以框内的方式并入核酸构建体/表达盒中。内含子可用作间隔物以分隔一个核酸构建体中的多个蛋白质编码序列,或者内含子可用于一个蛋白质编码序列内以例如稳定mrna。如果它们在蛋白质编码序列内使用,它们将被插入“框内”并包含切除位点。内含子也可以与启动子相关联以改善或修饰表达。例如,可用于本发明的启动子/内含子组合包括但不限于玉蜀黍ubi1启动子和内含子的组合。
[0068]
可用于本发明的内含子的非限制性例子包括来自以下的内含子:adhi基因(例如,adh1-s内含子1、2和6)、泛素基因(ubi1)、rubisco小亚基(rbcs)基因、rubisco大亚基(rbcl)基因、肌动蛋白基因(例如,肌动蛋白-1内含子)、丙酮酸脱氢酶激酶基因(pdk)、硝酸还原酶基因(nr)、重复碳酸酐酶基因1(tdca1)、psba基因、atpa基因或其任意组合。
[0069]
如本文所用,“编辑系统”是指现在已知或以后开发的任何位点特异性(例如,序列特异性)核酸编辑系统,该系统可以以靶标特异性方式在核酸中引入修饰(例如,突变)。例如,编辑系统可以包括但不限于crispr-cas编辑系统、大范围核酸酶编辑系统、锌指核酸酶(zfn)编辑系统、转录激活因子样效应核酸酶(talen)编辑系统,碱基编辑系统和/或启动编辑系统,其各自可包含一种或多种多肽和/或一种或多种多核苷酸,当它们在细胞中一起存在和/或表达时可以以序列特异性方式修饰(例如,突变)靶核酸。在一些实施方案中,编辑系统(例如,位点和/或序列特异性编辑系统)包含一种或多种编码多肽(包括核酸结合多肽(例如dna结合结构域)和/或核酸酶)的多核苷酸和/或一种或多种多肽(包括核酸结合多肽(例如dna结合结构域)和/或核酸酶)。在一些实施方案中,编辑系统由一种或多种多核苷酸编码。
[0070]
在一些实施方案中,编辑系统包含一种或多种序列特异性核酸结合多肽(例如dna结合结构域),其可以来自例如多核苷酸引导的核酸内切酶、crispr-cas效应蛋白(例如,crispr-cas核酸内切酶)、锌指核酸酶、转录激活因子样效应核酸酶(talen)和/或argonaute蛋白。在一些实施方案中,编辑系统包含一种或多种切割多肽(例如核酸酶),例如但不限于核酸内切酶(例如fok1)、多核苷酸引导的核酸内切酶、crispr-cas效应蛋白(例如,crispr-cas核酸内切酶)、锌指核酸酶和/或转录激活因子样效应核酸酶(talen)。
[0071]
如本文所用,“核酸结合多肽”是指以位点和/或序列特异性方式结合和/或能够结合核酸的多肽。在一些实施方案中,核酸结合多肽包含dna结合结构域。在一些实施方案中,核酸结合多肽可以是序列特异性核酸结合多肽,例如但不限于来自以下的序列特异性结合多肽和/或结构域:例如来自多核苷酸引导的核酸内切酶、crispr-cas效应蛋白(例如,crispr-cas核酸内切酶)、锌指核酸酶、转录激活因子样效应核酸酶(talen)和/或argonaute蛋白。在一些实施方案中,核酸结合多肽包含切割多肽(例如,核酸酶多肽和/或结构域),例如但不限于,核酸内切酶(例如,fok1)、多核苷酸引导的核酸内切酶、crispr-cas核酸内切酶、锌指核酸酶和/或转录激活因子样效应核酸酶(talen)。在一些实施方案中,核酸结合多肽与一种或多种核酸分子相关联和/或能够与其相关联(例如,形成复合物)(例如,与本文所述的指导核酸形成复合物),所述一种或多种核酸分子可以将核酸结合多
肽引导或指导至与所述一种或多种核酸分子(或其部分或区域)互补的特定靶核苷酸序列(例如基因组的基因座),从而引起核酸结合多肽在特定靶位点与核苷酸序列结合。在一些实施方案中,核酸结合多肽是如本文所述的crispr-cas效应蛋白。在一些实施方案中,为简单起见,特指crispr-cas效应蛋白,但可使用本文所述的核酸结合多肽。
[0072]
在一些实施方案中,编辑系统包含核糖核蛋白,例如组装的核糖核蛋白复合物(例如,包含复合物形式的crispr-cas效应蛋白和指导核酸的核糖核蛋白)。编辑系统的复合物可以是共价和/或非共价结合的复合物。如本文所用,编辑系统可以在引入植物细胞中时组装成复合物(例如,在引入植物细胞中之前组装成复合物)和/或可以在引入植物细胞中之后和/或期间组装成复合物(例如,共价和/或非共价结合的复合物)。示例性核糖核蛋白及其使用方法包括但不限于malnoy等人,(2016)front.plant sci.7:1904;subburaj等人,(2016)plant cell rep.35:1535;woo等人,(2015)nat.biotechnol.33:1162;liang等人,(2017)natmun.8:14261;svitashev等人,natmun.7,13274(2016);zhang等人,(2016)natmun.7:12617;kim等人,(2017)natmun.8:14406。
[0073]
如本文所用的“编辑的细胞”、“编辑的植物”、“编辑的植物部分”、“编辑的根”、“编辑的愈伤组织”和/或类似物分别是指包含修饰的核酸的细胞、植物、植物部分、根、愈伤组织和/或类似物,其中使用如本文所述的编辑系统修饰靶核酸以提供修饰的核酸。因此,“编辑的细胞”、“编辑的植物”、“编辑的植物部分”、“编辑的根”、“编辑的愈伤组织”和/或类似物包含与其未修饰或天然序列和/或结构相比已被修饰(即,修饰的核酸)和/或发生变化的核酸。
[0074]
如本文所用,术语“转基因”或“转基因的”是指至少一种这样的核酸序列:其取自一种生物体的基因组,或合成产生,然后被引入目标宿主细胞(例如植物细胞)或生物体或组织中,随后通过“稳定”转化或转染方法整合到宿主基因组中。相反,术语“瞬时”转化或转染或引入是指引入分子工具的方式,包括至少一种核酸(dna、rna、单链或双链或其混合物)和/或至少一种氨基酸序列,任选地包含合适的化学或生物试剂,以实现转移到细胞的至少一个目标区室中,包括但不限于细胞质、细胞器,包括细胞核、线粒体、液泡、叶绿体或膜中,导致引入的至少一种分子的转录和/或翻译和/或缔合和/或活性,而没有实现稳定的整合或掺入并因此遗传引入到细胞的基因组中的相应的至少一种分子。术语“无转基因”是指在目标宿主细胞或组织或生物体的基因组中不存在或发现转基因的情况。
[0075]
在一些实施方案中,本发明的多核苷酸和/或核酸构建体可以是“表达盒”或可以包含在表达盒内。如本文所用,“表达盒”意指重组核酸分子,其包含例如本发明的核酸构建体(例如,编码crispr-cas效应蛋白的多核苷酸、编码crispr-cas融合蛋白的多核苷酸、编码胞嘧啶脱氨酶的多核苷酸、编码腺嘌呤脱氨酶的多核苷酸、编码脱氨酶融合蛋白的多核苷酸、编码肽标签的多核苷酸、编码亲和多肽的多核苷酸和/或包含指导核酸的多核苷酸),其中核酸构建体与至少一个控制序列(例如,启动子)可操作地关联。因此,本发明的一些实施方案提供了设计用于表达例如本发明的核酸构建体的表达盒。当表达盒包含多于一个多核苷酸时,可以将多核苷酸可操作地连接至驱动所有多核苷酸表达的单个启动子,或者可以将多核苷酸可操作地连接至一个或多个单独的启动子(例如,三个多核苷酸可以由一个、两个或三个任意组合的启动子驱动)。因此,例如,包含在表达盒中的编码crispr-cas效应蛋白的多核苷酸、编码胞嘧啶脱氨酶的多核苷酸和包含指导核酸的多核苷酸可以各自与单
独的启动子(例如,任何组合的两个或三个启动子)可操作地关联,这些启动子可以彼此相同或不同。作为另一个实例,包含在表达盒中的编码crispr-cas效应蛋白的多核苷酸、编码胞嘧啶脱氨酶的多核苷酸、编码腺嘌呤脱氨酶的多核苷酸和包含指导核酸的多核苷酸可以各自与单个启动子可操作地关联或者一种或多种多核苷酸可以与任何组合中的单独启动子(例如,可以相同或不同的任何组合中的两个、三个或四个启动子)可操作地关联。
[0076]
在一些实施方案中,可以优化包含本发明的多核苷酸/核酸构建体的表达盒以在生物体(例如,动物、植物、细菌等)中表达。
[0077]
包含本发明的核酸构建体的表达盒可以是嵌合的,意味着它的至少一种组分相对于它的至少一种其他组分是异源的(例如,来自宿主生物体的启动子可操作地连接至待在宿主生物体中表达的目标多核苷酸,其中目标多核苷酸来自与宿主不同的生物体或通常不与该启动子关联)。表达盒也可以是天然存在的但已经以可用于异源表达的重组形式获得的表达盒。
[0078]
表达盒可以任选地包括在所选宿主细胞中起作用的转录和/或翻译终止区(即终止区)和/或增强子区。多种转录终止子和增强子是本领域已知的并且可用于表达盒。转录终止子负责转录的终止和正确的mrna多聚腺苷酸化。终止区和/或增强子区可以对于转录起始区是天然的,可以对于编码crispr-cas效应蛋白的基因或编码脱氨酶的基因是天然的,可以对于宿主细胞是天然的,或可以对于另一个来源是天然的(例如,对于启动子,对于编码crispr-cas效应蛋白的基因或编码脱氨酶的基因,对于宿主细胞,或其任何组合而言是外来的或异源的)。
[0079]
本发明的表达盒还可包括编码可选择标志物的多核苷酸,其可用于选择转化的宿主细胞。如本文所用,“可选择标志物”是指多核苷酸序列,当其表达时赋予表达该标志物的宿主细胞不同的表型并因此允许将此类转化的细胞与不具有该标志物的那些细胞区分开来。这样的多核苷酸序列可以编码可选择的或可筛选的标志物,这取决于标志物是否赋予可以通过化学手段选择的性状,例如通过使用选择剂(例如抗生素等)选择,或者取决于标志物是否只是一种可以通过观察或测试来识别的特征,例如通过筛选(例如荧光)识别。合适的可选择标志物的许多例子是本领域已知的并且可以用于本文所述的表达盒中。
[0080]
本文所述的表达盒、核酸分子/构建体和多核苷酸序列可以与载体结合使用。术语“载体”是指用于将一种(或多种)核酸转移、递送或引入细胞中的组合物。载体包括核酸构建体,其包含待转移、递送或引入的核苷酸序列。用于宿主生物体转化的载体在本领域是众所周知的。一般类型的载体的非限制性实例包括双链或单链线性或环状形式的病毒载体、质粒载体、噬菌体载体、噬菌粒载体、粘粒载体(cosmid vectors)、黏粒载体(fosmid vectors)、噬菌体、人工染体、小环或农杆菌双元载体,其可以是或者可以不是自我传播或移动的。在一些实施方案中,病毒载体可以包括但不限于逆转录病毒、慢病毒、腺病毒、腺相关病毒或单纯疱疹病毒载体。本文定义的载体可以通过整合到细胞基因组中或存在于染体外(例如,具有复制起点的自主复制质粒)来转化原核或真核宿主。此外,包括穿梭载体,其意指能够在两种不同的宿主生物体中自然或通过设计复制的dna媒介物,所述宿主生物体可以选自放线菌和相关物种、细菌和真核生物(例如高等植物、哺乳动物、酵母或真菌细胞)。在一些实施方案中,载体中的核酸在用于宿主细胞中转录的合适启动子或其他调控元件的控制下并且与其可操作地连接。载体可以是在多个宿主中起作用的双功能表达载
体。在基因组dna的情况下,这可以包含其自身的启动子和/或其他调控元件,而在cdna的情况下,这可以在用于在宿主细胞中表达的合适启动子和/或其他调控元件的控制下。因此,本发明的核酸构建体和/或包含其的表达盒可以包含在如本文所述和本领域已知的载体中。
[0081]
如本文所用,“接触”、“在接触”、“接触的”及其语法变体是指将所需反应的组分一起放在适合进行所需反应(例如,转化、转录控制、基因组编辑、切口和/或切割)的条件下。因此,例如,靶核酸可以与本发明的核酸构建体,例如核酸结合多肽(例如,dna结合结构域,例如序列特异性dna结合蛋白(例如,多核苷酸引导的核酸内切酶、crispr-cas效应蛋白(例如,crispr-cas核酸内切酶)、锌指核酸酶、转录激活因子样效应核酸酶(talen)和/或argonaute蛋白)、指导核酸和胞嘧啶脱氨酶和/或腺嘌呤脱氨酶,在一定的条件下接触,从而表达核酸结合多肽,并且核酸结合多肽与指导核酸形成复合物,复合物与靶核酸杂交,和任选地胞嘧啶脱氨酶和/或腺嘌呤脱氨酶被募集到核酸结合多肽(并因此募集到靶核酸)或胞嘧啶脱氨酶和/或腺嘌呤脱氨酶融合至核酸结合多肽,从而修饰靶核酸。在一些实施方案中,crispr-cas效应蛋白、指导核酸和脱氨酶接触靶核酸从而修饰核酸。在一些实施方案中,crispr-cas效应蛋白、指导核酸和/或脱氨酶可以是复合物的形式(例如,核糖核蛋白,例如组装的核糖核蛋白复合物)并且复合物接触靶核酸。在一些实施方案中,复合物或其组分(例如,指导核酸)与靶核酸杂交,从而修饰靶核酸(例如,通过crispr-cas效应蛋白和/或脱氨酶的作用)。在一些实施方案中,胞嘧啶脱氨酶和/或腺嘌呤脱氨酶和核酸结合多肽定位于靶核酸,任选地通过共价和/或非共价相互作用。
[0082]
如本文所用,关于靶核酸的“进行修饰”或“修饰”包括编辑(例如,突变)、共价修饰、交换/取代核酸/核苷酸碱基、缺失、切割和/或切口靶核酸核酸从而提供修饰的核酸和/或改变靶核酸的转录控制从而提供修饰的核酸。在一些实施方案中,修饰可以包括任何大小的插入和/或缺失和/或任何类型的单碱基改变(snp)。在一些实施方案中,修饰包括snp。在一些实施方案中,修饰包括交换和/或取代一个或多个(例如,1、2、3、4、5或更多个)核苷酸。在一些实施方案中,插入或缺失可为约1个碱基至约30,000个碱基的长度(例如,约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590、600、610、620、630、640、650、660、670、680、690、700、710、720、730、740、750、760、770、780、790、800、810、820、830、840、850、860、870、880、890、900、910、920、930、940、950、960、970、980、990、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10,000、10,500、11,000、11,500、12,000、12,500、13,000、13,500、14,000、14,500、15,000、15,500、16,000、16,500、17,000、17,500、18,000、18,500、19,000、19,500、20,000、20,500、21,000、21,500、22,000、22,500、23,000、23,500、24,000、24,500、25,000、25,500、26,000、26,500、27,000、27,500、28,000、28,500、29,000、29,500、30,
000个碱基或更多的长度,或其中的任何数值或范围)。因此,在一些实施方案中,插入或缺失可为约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300至约310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590、600、610、620、630、640、650、660、670、680、690、700、710、720、730、740、750、760、770、780、790、800、810、820、830、840、850、860、870、880、890、900、910、920、930、940、950、960、970、980、990、1000个碱基的长度,或其中的任何范围或数值;约50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300个碱基至约310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590、600、610、620、630、640、650、660、670、680、690、700、710、720、730、740、750、760、770、780、790、800、810、820、830、840、850、860、870、880、890、900、910、920、930、940、950、960、970、980、990、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000个碱基或更多的长度,或其中的任何范围或数值;约500、510、520、530、540、550、560、570、580、590、600、610、620、630、640、650、660、670、680、690、700、710、720、730、740、750、760、770、780、790、800、810、820、830、840、850、860、870、880、890、900、910、920、930、940、950、960、970、980、990、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000个碱基至约2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500或10,000个碱基或更多的长度,或其中的任何范围或数值;或约400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590、600、610、620、630、640、650、660、670、680、690或700个碱基至约710、720、730、740、750、760、770、780、790、800、810、820、830、840、850、860、870、880、890、900、910、920、930、940、950、960、970、980、990、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2500、3000、3500、4000、4500或5000个碱基或更多的长度,或其中的任何范围或数值。在一些实施方案中,插入或缺失可以是约1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500或10,000个碱基至约10,500、11,000、11,500、12,000、12,500、13,000、13,500、14,000、14,500、15,000、15,500、16,000、16,500、17,000、17,500、18,000、18,500、19,000、19,500、20,000、20,500、21,000、21,500、22,000、22,500、23,000、23,500、24,000、24,500、25,000、25,500、26,000、26,500、27,000、27,500、28,000、28,500、29,000、29,500或30,000个碱基或更多的长度,或其中的任何范围或数值。
[0083]
如本文所用,“募集”、“进行募集”或“募集作用”是指使用蛋白质-蛋白质相互作用、核酸-蛋白质相互作用(例如,rna-蛋白质相互作用)和/或化学相互作用将一个或多个多肽或多核苷酸吸引至另一多肽或多核苷酸(例如,至基因组中的特定位置)。蛋白质-蛋白
质相互作用可以包括但不限于肽标签(表位、多聚化表位)和相应的亲和多肽、rna募集基序和相应的亲和多肽,和/或化学相互作用。可用于募集目的的多肽和多核苷酸的示例化学相互作用可包括但不限于雷帕霉素诱导的frb-fkbp二聚化;生物素-链霉亲和素相互作用;snap标签(hussain等人curr pharm des.19(30):5437-42(2013));halo标签(los等人acs chem biol.3(6):373-82(2008));clip标签(gautier等人chemistry&biology 15:128-136(2008));由化合物诱导的dmra-dmrc异二聚体(tak等人nat methods 14(12):1163-1166(2017));双功能配体方法(将两种蛋白质结合化学物质融合在一起)(vob等人curr opin chemical biology 28:194-201(2015))(例如二氢叶酸还原酶(dhfr)(kopyteck等人cell cehm biol 7(5):313-321(2000))。
[0084]
在目标多核苷酸的上下文中,“进行引入”、“引入”、“引入的”(及其语法变体)是指以使核苷酸序列进入细胞内部的方式对宿主生物体或所述生物体的细胞(例如,宿主细胞;例如,植物细胞)呈现目标核苷酸序列(例如,多核苷酸、核酸构建体和/或指导核酸)。因此,例如,可以将编码crispr-cas效应蛋白、指导核酸和胞嘧啶脱氨酶和/或腺嘌呤脱氨酶的本发明的核酸构建体引入生物体的细胞中,从而用crispr-cas效应蛋白、指导核酸和胞嘧啶脱氨酶和/或腺嘌呤脱氨酶转化细胞。在一些实施方案中,可以将包含核酸结合多肽(例如,crispr-cas效应蛋白)的多肽和/或指导核酸引入生物体的细胞中,任选地其中核酸结合多肽和指导核酸可以包含在复合物中(例如,核糖核蛋白)。在一些实施方案中,生物体是真核生物(例如,哺乳动物,如人)。
[0085]
如本文所用,术语“转化”是指将异源核酸引入细胞。细胞的转化可以是稳定的或短暂的。因此,在一些实施方案中,宿主细胞或宿主生物体可以用本发明的多核苷酸/核酸分子稳定转化。在一些实施方案中,宿主细胞或宿主生物体可以用本发明的核酸构建体瞬时转化。
[0086]
在多核苷酸的上下文中,“瞬时转化”是指多核苷酸被引入细胞中并且不整合到细胞的基因组中。
[0087]
在将多核苷酸引入细胞中的情形中,“稳定地引入”或“稳定地引入的”意指引入的多核苷酸被稳定地掺入细胞的基因组中,因此细胞被多核苷酸稳定地转化。
[0088]
如本文所用,“稳定转化”或“稳定转化的”是指将核酸分子引入细胞中并整合到细胞的基因组中。因此,整合的核酸分子能够被其后代,更具体地,被多个连续世代的后代遗传。如本文所用,“基因组”包括核基因组和质体基因组,因此包括将核酸整合到例如叶绿体或线粒体基因组中。如本文所用,稳定转化还可以指在染体外维持的转基因,例如,作为微染体或质粒。
[0089]
瞬时转化可以通过例如酶联免疫吸附测定法(elisa)或western印迹来检测,其可以检测由引入生物体的一种或多种转基因编码的肽或多肽的存在。细胞的稳定转化可以通过例如细胞的基因组dna与核酸序列的southern印迹杂交测定来检测,所述核酸序列与引入生物体(例如植物)中的转基因的核苷酸序列特异性杂交。细胞的稳定转化可以通过例如细胞的rna与核酸序列的northern印迹杂交测定来检测,所述核酸序列与引入宿主生物中的转基因的核苷酸序列特异性杂交。细胞的稳定转化也可以通过例如聚合酶链式反应(pcr)或本领域熟知的其他扩增反应来检测,使用与转基因的靶序列杂交的特异性引物序列,导致转基因序列的扩增,可以根据标准方法检测。转化也可以通过本领域已知的直接测
序和/或杂交方案检测。
[0090]
因此,在一些实施方案中,本发明的核苷酸序列、多核苷酸、核酸构建体和/或表达盒可以瞬时表达和/或它们可以稳定地掺入宿主生物的基因组中。因此,在一些实施方案中,可以将本发明的核酸构建体与指导核酸一起瞬时引入细胞中,因此,在细胞中没有dna得到维持。
[0091]
可以通过本领域技术人员已知的任何方法将本发明的核酸构建体引入细胞中。在一些实施方案中,转化方法包括通过细菌介导的核酸递送(例如,通过农杆菌)、病毒介导的核酸递送、碳化硅和/或核酸晶须介导的核酸递送、脂质体介导的核酸递送、显微注射、微粒轰击、磷酸钙介导的转化、环糊精介导的转化、电穿孔、纳米粒子介导的转化、超声处理、渗入、peg介导的核酸摄取,以及任何其他电、化学、物理(机械)和/或导致将核酸引入植物细胞中的生物学机制,包括其任何组合的转化。在本发明的一些实施方案中,细胞的转化包括核转化。在一些实施方案中,细胞的转化包括质体转化(例如,叶绿体转化)。在一些实施方案中,可以通过常规育种技术将本发明的重组核酸构建体引入细胞中。
[0092]
用于转化真核生物和原核生物两者的程序在本领域中是众所周知的并且是常规的,并且在整个文献中都有描述(参见,例如,jiang等人2013.nat.biotechnol.31:233-239;ran等人nature protocols 8:2281-2308(2013))。本领域已知的多种植物转化方法的一般指导包括miki等人(“procedures for introducing foreign dna into plants”in methods in plant molecular biology and biotechnology,glick,b.r.和thompson,j.e.编.(crc press,inc.,boca raton,1993),第67-88页)和rakowoczy-trojanowska(cell.mol.biol.lett.7:849-858(2002))。
[0093]
多核苷酸和/或多肽可以以本领域公知的许多方式被引入宿主生物体或其细胞(任选地植物、植物部分和/或植物细胞)中。本发明的方法不依赖于将一种或多种核苷酸序列引入生物体中的特定方法,仅依赖于它们能够进入生物体的至少一个细胞的内部。在要引入多于一个核苷酸序列的情况下,它们可以组装为单个核酸构建体的部分,或作为单独的核酸构建体,并且可以位于相同或不同的核酸构建体上。多核苷酸和/或多肽可以在单个转化事件中或在单独的转化事件中被引入目标细胞中,或者备选地,多核苷酸和/或多肽可以被掺入植物中,例如,作为育种方案的部分。在一些实施方案中,细胞是真核细胞(例如,哺乳动物,例如人类细胞)。
[0094]
根据一些实施方案,提供了一种碱基编辑组合物或系统,其包含:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)、胞嘧啶脱氨酶和腺嘌呤脱氨酶,其中crispr-cas效应蛋白、胞嘧啶脱氨酶和腺嘌呤脱氨酶形成复合物或包含在复合物中。在一些实施方案中,复合物还包含指导核酸。在一些实施方案中,crispr-cas效应蛋白是v型crispr-cas效应蛋白。在一些实施方案中,本发明提供了一种核酸构建体,其包含:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)、胞嘧啶脱氨酶和腺嘌呤脱氨酶,各自如本文所述。核酸构建体可进一步包含糖基化酶抑制剂(例如,尿嘧啶糖基化酶抑制剂(ugi))。
[0095]
指导核酸可包含如本文所述的rna募集基序(例如,一个或多个ms2发夹)。在一些实施方案中,crispr-cas效应蛋白与指导核酸(例如,指导rna)相互作用、结合和/或复合。
[0096]
可以将crispr-cas效应蛋白融合至糖基化酶抑制剂、胞嘧啶脱氨酶和/或腺嘌呤
脱氨酶。在一些实施方案中,将crispr-cas效应蛋白在单一融合物中融合至胞嘧啶脱氨酶和/或腺嘌呤脱氨酶或者单独地融合至胞嘧啶脱氨酶和/或腺嘌呤脱氨酶之一或两者。在一些实施方案中,将crispr-cas效应蛋白融合至胞嘧啶脱氨酶。在一些实施方案中,将crispr-cas效应蛋白融合至腺嘌呤脱氨酶。在一些实施方案中,将crispr-cas效应蛋白融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶。在一些实施方案中,将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶不融合至cas9和/或任选地胞嘧啶脱氨酶和/或腺嘌呤脱氨酶可以通过非共价相互作用被募集至靶位点。在一些实施方案中,将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶融合或募集至v型crispr-cas结构域(例如,cpf1)。在一些实施方案中,将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶募集至v型crispr-cas结构域(例如,cpf1)。
[0097]
在一些实施方案中,将胞嘧啶脱氨酶和腺嘌呤脱氨酶融合在一起。在一些实施方案中,胞嘧啶脱氨酶和/或腺嘌呤脱氨酶包含ms2加帽蛋白(mcp)或其部分。可以将mcp或其部分在单一融合物中融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶两者或者单独地融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶之一或两者。例如,在一些实施方案中,可以将胞嘧啶脱氨酶单独地融合至mcp或其部分,和/或在一些实施方案中,可以将腺嘌呤脱氨酶单独地融合至mcp或其部分。mcp或其部分可以结合或能够结合如本文所述的rna募集基序,例如ms2发夹。
[0098]
在一些实施方案中,将糖基化酶抑制剂融合至crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。在一些实施方案中,将糖基化酶抑制剂融合至crispr-cas效应蛋白。在一些实施方案中,将糖基化酶抑制剂在单一融合物中融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶或单独地融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶之一或两者。例如,在一些实施方案中,可以将胞嘧啶脱氨酶单独地融合至糖基化酶抑制剂,和/或在一些实施方案中,可以将腺嘌呤脱氨酶单独地融合至糖基化酶抑制剂。
[0099]
在一些实施方案中,crispr-cas效应蛋白包含一种或多种(例如,1、2、4、6、8、10或更多种)如本文所述的肽标签。在一些实施方案中,肽标签可以是suntag和/或肽标签可以包含一个或多个(例如,1、2、3、4或更多个)gcn4表位。
[0100]
在一些实施方案中,腺嘌呤脱氨酶和/或胞嘧啶脱氨酶包含如本文所述的亲和多肽(例如,scfv),并且亲和多肽可以能够结合肽标签(例如,融合至crispr-cas效应蛋白的肽标签)。在一些实施方案中,将亲和多肽在单一融合物中融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶两者,或者将亲和多肽单独地融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶之一或两者。当将亲和多肽单独地融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶两者时,融合至胞嘧啶脱氨酶的亲和多肽可以与融合至腺嘌呤脱氨酶的亲和多肽相同或不同。
[0101]
在一些实施方案中,腺嘌呤脱氨酶和/或胞嘧啶脱氨酶包含一种或多种(例如,1、2、4、6、8、10或更多种)肽标签。在一些实施方案中,肽标签可以是suntag和/或肽标签可以包含一个或多个(例如,1、2、3、4或更多个)gcn4表位。在一些实施方案中,将肽标签在单一融合物中融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶两者,或者将肽标签单独地融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶之一或两者。当将肽标签单独地融合至胞嘧啶脱氨酶和腺嘌呤脱氨酶两者时,融合至胞嘧啶脱氨酶的肽标签可与融合至腺嘌呤脱氨酶的肽标签相同或不同。
[0102]
在一些实施方案中,crispr-cas效应蛋白包含如本文所述的亲和多肽(例如,scfv),并且亲和多肽可以能够结合肽标签(例如,融合至腺嘌呤脱氨酶和/或胞嘧啶脱氨酶的肽标签脱氨酶)。
[0103]
在一些实施方案中,腺嘌呤脱氨酶和/或胞嘧啶脱氨酶包含dna结合多肽。在一些实施方案中,本发明的融合蛋白包含crispr-cas效应蛋白、dna结合多肽和腺嘌呤脱氨酶和/或胞嘧啶脱氨酶。在一些实施方案中,将dna结合多肽不融合或连接至不同的多肽。在一些实施方案中,dna结合多肽在细胞中表达,任选地在存在于细胞中和/或引入细胞中的本发明的核酸构建体中表达。如本文所用,“dna结合多肽”是指能够结合或有能力结合(非特异性地和/或特异性地(例如,以位点和/或序列特异性方式))dna的蛋白质或多肽或其结构域。在一些实施方案中,将腺嘌呤脱氨酶和/或胞嘧啶脱氨酶融合(例如,连接)至任选地非特异性地结合dna的dna结合多肽,并且任选地将crispr-cas效应蛋白融合至脱氨酶和/或dna结合多肽。在一些实施方案中,dna结合多肽结合至少一条dna链,任选地结合双链dna的一条或两条链。在一些实施方案中,dna结合多肽结合双链dna断裂的一端或两端。在一些实施方案中,dna结合多肽结合双链断裂、捕获双链断裂和/或不结合任何蛋白质。在一些实施方案中,dna结合多肽与seq id no:100或seq id no:113具有至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或更多的序列同一性,任选地其中dna结合多肽包含seq id no:100或seq id no:113的序列。在一些实施方案中,dna结合多肽包含seq id no:100或seq id no:113的至少约50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或更多的连续氨基酸。在一些实施方案中,dna结合多肽减少或最小化在靶核酸的修饰期间(例如,在碱基编辑期间)的不期望插入缺失的形成,提高修饰靶核酸的效率(例如,提高碱基编辑效率),增加或提高碱基多样化活性,和/或提高修饰靶核酸的准确性。
[0104]
根据一些实施方案,提供了一种碱基编辑组合物或系统,其包含:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)和胞嘧啶脱氨酶,其中组合物或系统缺乏糖基化酶抑制剂(例如,尿嘧啶糖基化酶抑制剂(ugi),例如尿嘧啶-n-糖基化酶(ung)抑制剂)。在一些实施方案中,碱基编辑组合物或系统包含:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)和胞嘧啶脱氨酶,其中crispr-cas效应蛋白、胞嘧啶脱氨酶和任选的指导核酸形成复合物或包含在复合物中,任选地其中复合物缺乏糖基化酶抑制剂(例如,ugi,例如ung抑制剂)。在一些实施方案中,本发明提供一种核酸构建体,其包含:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)和胞嘧啶脱氨酶,任选地其中核酸构建体缺乏糖基化酶抑制剂(例如,ugi,例如ung抑制剂)。在一些实施方案中,组合物、系统和/或核酸构建体包含糖基化酶结构域。指导核酸可以与靶核酸具有不完全的互补性,例如小于100%的互补性(例如,小于99%、98%、97%、96%、95%、94%、93%、92%、91%、90%等)。胞嘧啶脱氨酶可以是rapobecl、apobec3a、apobec3b、haid和pmcda1中的一种或多种。crispr-cas效应蛋白可以包含v型crispr-cas效应蛋白和/或ii型crispr-cas效应蛋白,例如cas9,任选地与靶核酸具有减弱的相互作用的cas9。在一些实施方案中,crispr-cas效应蛋白可以包含(例如,融合至)任选地经密码子优化的外源聚合酶。在一些实施方案中,crispr-cas效应蛋白包含如本文所述的肽标签(例如,suntag),并且胞嘧啶脱氨酶包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将胞嘧啶脱氨酶和亲和多肽融合在一起。在一些实施方案中,胞嘧啶脱氨酶包含如本文所述的肽标签(例如,suntag),并且crispr-cas效应蛋白包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将crispr-cas效应蛋白和亲和多肽融合在一起。在一些实施方案中,胞嘧啶脱氨酶包
含mcp或其部分,任选其中将mcp或其部分融合至胞嘧啶脱氨酶氨基酸序列的n末端。在一些实施方案中,胞嘧啶脱氨酶包含(例如,融合至)cas9、cas12、cas13或cas14结构域。在一些实施方案中,胞嘧啶脱氨酶包含cas9结构域,任选地其中将胞嘧啶脱氨酶融合至cas9结构域。在一些实施方案中,胞嘧啶脱氨酶包含失活的lbcpf1(dlbcpf1),任选地其中将胞嘧啶脱氨酶融合至dlbcpf1。在一些实施方案中,胞嘧啶脱氨酶是密码子优化的,任选地用于单子叶植物表达和/或双子叶植物表达。
[0105]
在一些实施方案中,crispr-cas效应蛋白可以包含cas12a(cpf1)效应蛋白或其多肽或结构域,例如lbcpf1[毛螺菌科(lachnospiraceae)细菌]、ascpfl[氨基酸球菌属(acidaminococcus)物种]、bpcpf1[butyrivibrio proteoclasticus]、cmtcpf1[candidatus methanoplasma termitum]、eecpf1[挑剔真杆菌(eubacterium eligens)]、fncpf1(新凶手弗朗西丝氏菌(francisella novicida)u112)、lb2cpf1[毛螺菌科细菌]、>lb3cpf1[毛螺菌科细菌]、licpf1[稻田氏钩端螺旋体(leptospira inadai)]、mbcpf1[牛眼莫拉氏菌(moraxella bovoculi)237]、pbcpf1[parcubacteria细菌gwc2011_gwc2_44_17]、pccpf1[狗口腔卟啉单胞菌(porphyromonas crevioricanis)]、pdcpf1[解糖胨普雷沃氏菌(prevotella disiens)]、pecpf1[peregrinibacteria细菌gw2011_gwa_33_10]、pmcpfl[porphyromonas macacae]和/或sscpf1[史密斯氏菌属(smithella)物种sc_k08d17](例如,seq id no:3-22)。在一些实施方案中,cas12a效应蛋白结构域可以是毛螺菌科细菌nd2006 cas12a(lbcas12a)(lbcpfl)(例如,seq id no:3、9-11)、氨基酸球菌属物种cpf1(ascas12a)(ascpf1)(例如,seq id no:4)和/或enascas12a(例如,seq id no:20-22)。
[0106]
在一些实施方案中,本发明的核酸构建体(例如,编码crispr-cas效应蛋白的多核苷酸、编码crispr-cas融合蛋白的多核苷酸、编码脱氨酶的多核苷酸、编码脱氨酶融合蛋白的多核苷酸、编码肽标签的多核苷酸、编码亲和多肽的多核苷酸、rna募集基序、募集指导核酸和/或指导核酸和/或包含它们的表达盒和/或载体)可以可操作地连接至至少一个调控序列,任选地,其中至少一个调控序列可以经优化密码子以在植物中表达。在一些实施方案中,至少一个调控序列可以是例如启动子、操纵子、终止子或增强子。在一些实施方案中,至少一个调控序列可以是启动子。在一些实施方案中,调控序列可以是内含子。在一些实施方案中,至少一个调控序列可以是例如与内含子或包含内含子的启动子区域可操作地结合的启动子。在一些实施方案中,至少一个调控序列可以是例如泛素启动子及其相关内含子(例如,蒺藜苜蓿(medicago truncatula)和/或玉蜀黍(zea mays)及其相关内含子)。在一些实施方案中,至少一个调控序列可以是终止子核苷酸序列和/或增强子核苷酸序列。
[0107]
在一些实施方案中,本发明的核酸构建体可以与启动子区域可操作地关联,其中启动子区域包含内含子,任选地其中启动子区域可以是泛素启动子和内含子(例如,苜蓿属(medicago)或玉蜀黍泛素启动子和内含子,例如,seq id no:1或seq id no:2)。在一些实施方案中,与包含内含子的启动子区可操作地关联的本发明的核酸构建体可以经优化密码子以在植物中表达。
[0108]
在一些实施方案中,本发明的核酸构建体可以编码一种或多种目标多肽,任选地其中一种或多种目标多肽可以经优化密码子以在植物中表达。
[0109]
可用于本发明的目标多肽可以包括但不限于具有以下活性的多肽或蛋白质结构域:脱氨酶活性、切口酶活性、重组酶活性、转座酶活性、甲基化酶活性、糖基化酶(dna糖基
化酶)活性、糖基化酶抑制剂活性(例如,尿嘧啶-dna糖基化酶抑制剂(ugi))、去甲基化酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、核酸酶活性、单链rna切割活性、双链rna切割活性、限制性核酸内切酶活性(例如,fok1)、核酸结合活性、甲基转移酶活性、dna修复活性、dna损伤活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、聚合酶活性、连接酶活性、解旋酶活性和/或光裂合酶活性。在一些实施方案中,目标多肽是fok1核酸酶或尿嘧啶-dna糖基化酶抑制剂。在一些实施方案中,目标多肽是这样的多肽:其在碱基编辑期间减少或最小化不希望的插入缺失的形成,增加靶核酸的修饰(例如,在碱基编辑期间),提高修饰靶核酸的效率(例如,增加碱基编辑的效率),增加或改善碱基多样化活性,和/或增加修饰靶核酸的准确性。当在核酸(多核苷酸、表达盒和/或载体)中编码时,所编码的多肽或蛋白质结构域可以经优化密码子以在生物体中表达。在一些实施方案中,可以将目标多肽连接至crispr-cas效应蛋白以提供包含crispr-cas效应蛋白和目标多肽的crispr-cas融合蛋白。在一些实施方案中,也可以将包含连接至肽标签的crispr-cas效应蛋白的crispr-cas融合蛋白连接至目标多肽(例如,可以将crispr-cas效应蛋白例如连接至肽标签(或亲和多肽)和例如目标多肽(例如ugi)两者)。在一些实施方案中,目标多肽可以是尿嘧啶糖基化酶抑制剂(例如,尿嘧啶-dna糖基化酶抑制剂(ugi))。在一些实施方案中,可以将目标多肽连接至胞嘧啶脱氨酶和/或腺嘌呤脱氨酶以提供包含胞嘧啶脱氨酶和/或腺嘌呤脱氨酶和目标多肽的脱氨酶融合蛋白。在一些实施方案中,目标多肽可以在细胞(例如植物细胞)中表达并且可以不融合至另一个多肽。
[0110]
在一些实施方案中,本发明的编码crispr-cas效应蛋白和胞嘧啶脱氨酶和/或腺嘌呤脱氨酶并包含指导核酸的核酸构建体可以进一步编码目标多肽,任选地其中目标多肽可以经优化密码子以在生物体(例如植物或真核生物)中表达。
[0111]
如本文所用,“crispr-cas效应蛋白”是切割、切开或切口核酸、结合核酸(例如,靶核酸和/或指导核酸)和/或鉴定、识别或结合本文定义的指导核酸的蛋白质或多肽或其结构域。在一些实施方案中,crispr-cas效应蛋白可以是酶(例如,核酸酶、核酸内切酶、切口酶等)或其部分和/或可以作为酶起作用。在一些实施方案中,crispr-cas效应蛋白是指crispr-cas核酸酶多肽或其结构域,其包含核酸酶活性或其中核酸酶活性已被降低或消除,和/或包含切口酶活性或其中切口酶已被降低或消除,和/或包含单链dna切割活性(ssdna酶活性)或其中ssdna酶活性已被降低或消除,和/或包含自加工rna酶活性或其中自加工rna酶活性已被降低或消除。crispr-cas效应蛋白可以结合靶核酸。crispr-cas效应蛋白可以是i、ii、iii、iv、v或vi型crispr-cas效应蛋白。在一些实施方案中,crispr-cas效应蛋白可以来自i型crispr-cas系统、ii型crispr-cas系统、iii型crispr-cas系统、iv型crispr-cas系统、v型crispr-cas系统或vi型crispr-cas系统。在一些实施方案中,本发明的crispr-cas效应蛋白可以来自ii型crispr-cas系统或v型crispr-cas系统。在一些实施方案中,crispr-cas效应蛋白可以是ii型crispr-cas效应蛋白,例如cas9效应蛋白。在一些实施方案中,crispr-cas效应蛋白可以是v型crispr-cas效应蛋白,例如cas12效应蛋白。
[0112]
在一些实施方案中,crispr-cas效应蛋白可以是或包括但不限于cas9、c2c1、c2c3、cas12a(也称为cpf1)、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、casl、caslb、cas2、cas3、cas3

、cas3”、cas4、cas5、cas6、cas7、cas8、cas9(也称为
csn1和csx12)、cas10、csyl、csy2、csy3、cse1、cse2、csc1、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmr1、cmr3、cmr4、cmr5、cmr6、csb1、csb2、csb3、csx17、csx14、csx10、csx16、csax、csx3、csx1、csx15、csf、csf2、csf3、csf4(ding)和/或csf5核酸酶,任选地其中crispr-cas效应蛋白可以是cas9、cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c效应蛋白。
[0113]
在一些实施方案中,用于本发明的crispr-cas效应蛋白可以在其核酸酶活性位点(例如,ruvc、hnh,例如cas12a核酸酶结构域的ruvc位点;例如,cas9核酸酶结构域的ruvc位点和/或hnh位点)中包含突变。在其核酸酶活性位点具有突变并因此不再包含核酸酶活性的crispr-cas效应蛋白通常被称为“dead”,例如dcas9。在一些实施方案中,与没有突变的相同crispr-cas效应蛋白(例如切口酶,例如cas9切口酶,cas12a切口酶)相比,在其核酸酶活性位点具有突变的crispr-cas效应蛋白结构域或多肽可能具有受损的活性或降低的活性。
[0114]
可用于本发明的crispr cas9效应蛋白或crispr cas9效应结构域可以是任何已知的或后来鉴定的cas9核酸酶。在一些实施方案中,crispr cas9多肽可以是来自例如链球菌属(streptococcus)物种(例如,酿脓链球菌(s.pyogenes)、嗜热链球菌(s.thermophilus)、乳杆菌属(lactobacillus)物种、双歧杆菌属(bifidobacterium)物种、坎德勒菌属(kandleria)物种、明串珠菌属(leuconostoc)物种、酒球菌属(oenococcus)物种、片球菌属(pediococcus)物种、魏斯氏菌属(weissella)物种和/或欧陆森氏菌属(olseniella)物种的cas9多肽。在一些实施方案中,crispr-cas效应蛋白可以是cas9多肽或其结构域,并且任选地可以具有seq id no:23-37中任一项的核苷酸序列和/或seq id no:38-39中任一项的氨基酸序列。
[0115]
在一些实施方案中,crispr-cas效应蛋白可以是源自酿脓链球菌的cas9多肽并且识别pam序列基序ngg、nag、nga(mali等人,science 2013;339(6121):823-826)。在一些实施方案中,crispr-cas效应蛋白可以是源自嗜热链球菌的cas9多肽并且识别pam序列基序nggng和/或nnagaaw(w=a或t)(参见例如horvath等人,science,2010;327(5962):167-170和deveau等人,j bacteriol 2008;190(4):1390-1400)。在一些实施方案中,crispr-cas效应蛋白可以是源自变形链球菌(streptococcus mutans)的cas9多肽并且识别pam序列基序ngg和/或naar(r=a或g)(参见例如deveau等人,j bacteriol 2008;190(4):1390-1400)。在一些实施方案中,crispr-cas效应蛋白可以是源自金链球菌(streptococcus aureus)的cas9多肽并识别pam序列基序nngrr(r=a或g)。在一些实施方案中,crispr-cas效应蛋白可以是源自金黄葡萄球菌(s.aureus)的cas9蛋白,其识别pam序列基序n grrt(r=a或g)。在一些实施方案中,crispr-cas效应蛋白可以是源自金黄葡萄球菌的cas9多肽,其识别pam序列基序ngrrv(r=a或g)。在一些实施方案中,crispr-cas效应蛋白可以是源自脑膜炎奈瑟菌(neisseria meningitidis)的cas9多肽并且识别pam序列基序ngatt或n gctt(r=a或g,v=a、g或c)(参见,例如,hou等人,pnas 2013,1-6)。在上述实施方案中,n可以是任何核苷酸残基,例如a、g、c或t中的任何一个。在一些实施方案中,crispr-cas效应蛋白可以是源自沙氏纤毛菌(leptotrichia shahii)的cas13a蛋白,其识别原型间隔区侧翼序列(pfs)(或rna pam(rpam))单个3

a、u或c的序列基序,所述序列基序可能位于靶核酸内。
[0116]
可用于本发明实施方案的v型crispr-cas效应蛋白可以是任何v型crispr-cas核酸酶。可用于本发明作为效应蛋白的v型crispr-cas核酸酶可包括但不限于cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c1、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c核酸酶。在一些实施方案中,可用于本发明实施方案的v型crispr-cas核酸酶多肽或结构域可以是cas12a多肽或结构域。在一些实施方案中,可用于本发明实施方案的v型crispr-cas效应蛋白或结构域可以是切口酶,任选地,cas12a切口酶。在一些实施方案中,crispr-cas效应蛋白可以是cas12a多肽或其结构域并且任选地可以具有seq id no:3-19中任一项的氨基酸序列和/或seq id no:20-22中任一项的核苷酸序列。
[0117]
在一些实施方案中,crispr-cas效应蛋白可以源自cas12a,其是v型成簇规则间隔短回文重复序列(crispr)-cas核酸酶。cas12a在几个方面与更知名的ii型crispr cas9核酸酶不同。例如,cas9识别富含g的原型间隔区邻近基序(pam),它位于其指导rna(grna、sgrna、crrna、crdna、crispr阵列)结合位点(原型间隔区、靶核酸、靶dna)的3

(3
′‑
ngg),而cas12a识别位于靶标核酸的5

的富含t的pam(5
′‑
ttn,5
′‑
tttn)。事实上,cas9和cas12a结合其指导rna的方向与它们的n和c末端的关系几乎相反。此外,cas12a酶使用单个指导rna(grna、crispr阵列、crrna)而不是在天然cas9系统中发现的双指导rna(sgrna(例如crrna和tracrrna)),并且cas12a处理其grna。此外,cas12a核酸酶活性产生交错的dna双链断裂,而不是由cas9核酸酶活性产生的平末端,cas12a依靠单个ruvc结构域来切割两条dna链,而cas9利用hnh结构域和ruvc结构域用于切割。
[0118]
可用于本发明的crispr cas12a效应蛋白/结构域可以是任何已知的或以后鉴定的cas12a多肽(以前称为cpf1)(参见例如美国专利号9,790,490,通过引用将其公开的cpf1(cas12a)序列并入本文)。术语“cas12a”、“cas12a多肽”或“cas12a结构域”是指包含cas12a多肽或其片段的rna指导的核酸酶,其包含cas12a的指导核酸结合结构域和/或cas12a的活性、非活性、或部分活性的dna切割结构域。在一些实施方案中,可用于本发明的cas12a可包含核酸酶活性位点(例如,cas12a结构域的ruvc位点)中的突变。在其核酸酶活性位点具有突变并因此不再包含核酸酶活性的cas12a结构域或cas12a多肽通常称为deadcas12a(例如,dcas12a)。在一些实施方案中,在其核酸酶活性位点中具有突变的cas12a结构域或cas12a多肽可能具有受损的活性,例如,可能具有切口酶活性。
[0119]
在一些实施方案中,可以优化crispr-cas效应蛋白以在生物体中表达,例如在动物(例如,哺乳动物,如人)、植物、真菌、古细菌或细菌中表达。在一些实施方案中,可以优化crispr-cas效应蛋白(例如,cas12a多肽/结构域或cas9多肽/结构域)以在植物中表达。
[0120]
可用于碱基编辑的任何脱氨酶结构域/多肽可用于本发明。如本文所用,“胞嘧啶脱氨酶”和“胞苷脱氨酶”是指催化或能够催化胞嘧啶脱氨的多肽或其结构域,因为该多肽或结构域催化或能够催化从胞嘧啶碱基除去胺基团。因此,胞嘧啶脱氨酶可导致胞嘧啶转化为胸苷(通过尿嘧啶中间体),导致c至t的转换或基因组互补链中的g至a的转换。因此,在一些实施方案中,由本发明的多核苷酸编码的胞嘧啶脱氨酶产生靶核酸的有义(例如“+”;模板)链的c

t转换或靶核酸的反义(例如,
“‑”
,互补)链的g

a转换。在一些实施方案中,由本发明的多核苷酸编码的胞嘧啶脱氨酶在基因组的互补链中产生c至t、g或a的转换。
[0121]
可用于本发明的胞嘧啶脱氨酶可以是来自任何生物体的任何已知或后来鉴定的
胞嘧啶脱氨酶(参见例如美国专利号10,167,457和thuronyi等人nat.biotechnol.37:1070-1079(2019),其中每一个通过引用将其公开的胞嘧啶脱氨酶并入本文)。胞嘧啶脱氨酶可以催化胞苷或脱氧胞苷分别水解脱氨为尿苷或脱氧尿苷。因此,在一些实施方案中,可用于本发明的脱氨酶或脱氨酶结构域可以是胞苷脱氨酶结构域,催化胞嘧啶至尿嘧啶的水解脱氨。在一些实施方案中,胞嘧啶脱氨酶可以是天然存在的胞嘧啶脱氨酶的变体,包括但不限于灵长类动物(例如人、猴、黑猩猩、大猩猩)、狗、牛、大鼠或小鼠。因此,在一些实施方案中,可用于本发明的胞嘧啶脱氨酶可以与野生型胞嘧啶脱氨酶具有约70%至约100%的同一性(例如,与天然存在的胞嘧啶脱氨酶约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%相同,以及其中的任何范围或数值)。
[0122]
在一些实施方案中,可用于本发明的胞嘧啶脱氨酶可以是载脂蛋白bmrna-编辑复合物(apobec)家族脱氨酶。在一些实施方案中,胞嘧啶脱氨酶可以是apobec1脱氨酶、apobec2脱氨酶、apobec3a脱氨酶、apobec3b脱氨酶、apobec3c脱氨酶、apobec3d脱氨酶、apobec3f脱氨酶、apobec3g脱氨酶、apobec3h脱氨酶、apobec4脱氨酶、人活化诱导脱氨酶(haid)、rapobecl、ferny和/或cda1,任选地pmcda1、atcda1(例如,at2g19570),以及它们的进化版本。进化的脱氨酶公开在例如,美国专利号10,113,163,gaudelli等人nature 551(7681):464-471(2017))和thuronyi等人(nature biotechnology 37:1070-1079(2019))中,它们中的每一个都通过引用将它们公开的脱氨酶和进化的脱氨酶并入本文。在一些实施方案中,胞嘧啶脱氨酶可以是具有seq id no:40的氨基酸序列的apobec1脱氨酶。在一些实施方案中,胞嘧啶脱氨酶可以是具有seq id no:41的氨基酸序列的apobec3a脱氨酶。在一些实施方案中,胞嘧啶脱氨酶可以是cda1脱氨酶,任选地是具有seq id no:42的氨基酸序列的cda1。在一些实施方案中,胞嘧啶脱氨酶可以是ferny脱氨酶,任选地是具有seq id no:43的氨基酸序列的ferny。在一些实施方案中,胞嘧啶脱氨酶可以是rapobec1脱氨酶,任选地是具有seq id no:44的氨基酸序列的rapobec1脱氨酶。在一些实施方案中,胞嘧啶脱氨酶可以是haid脱氨酶,任选地是具有seq id no:45或seq id no:46的氨基酸序列的haid。在一些实施方案中,可用于本发明的胞嘧啶脱氨酶可以与天然存在的胞嘧啶脱氨酶(例如,“进化的脱氨酶”)的氨基酸序列(参见,例如,seq id no:47、seq id no:48、seq id no:49)约70%至约100%相同(例如,70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%相同)。在一些实施方案中,可用于本发明的胞嘧啶脱氨酶可以与seq id no:40-49中任一项的氨基酸序列约70%至约99.5%相同(例如,约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%相同)(例如,与seq id no:40-49中任一项的氨基酸序列至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同)。在一些实施方案中,编码胞嘧啶脱氨酶的多核苷酸可以经密码子优化以在植物中表达,并且密码子优化的多核苷酸可以与参考多核苷酸约70%至99.5%相同。
[0123]
如本文所用,“腺嘌呤脱氨酶”和“腺苷脱氨酶”是指催化或能够催化腺嘌呤或腺苷的水解脱氨(例如,从腺嘌呤去除胺基团)的多肽或其结构域。在一些实施方案中,腺嘌呤脱
氨酶可以催化腺苷或脱氧腺苷分别水解脱氨为肌苷或脱氧肌苷。在一些实施方案中,腺苷脱氨酶可以催化dna中腺嘌呤或腺苷的水解脱氨。在一些实施方案中,由本发明的核酸构建体编码的腺嘌呤脱氨酶可以在靶核酸的有义(例如“+”;模板)链中产生a

g转换或在靶核酸的反义(例如,
“‑”
,互补)链中产生t

c转换。可用于本发明的腺嘌呤脱氨酶可以是来自任何生物体的任何已知的或后来鉴定的腺嘌呤脱氨酶(参见例如美国专利号10,113,163,其公开的腺嘌呤脱氨酶通过引用并入本文)。
[0124]
在一些实施方案中,腺苷脱氨酶可以是天然存在的腺嘌呤脱氨酶的变体。因此,在一些实施方案中,腺苷脱氨酶可以与野生型腺嘌呤脱氨酶约70%至100%相同(例如,与天然存在的腺嘌呤脱氨酶约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%相同,以及其中的任何范围或数值)。在一些实施方案中,所述脱氨酶或脱氨酶在自然界中不存在并且可以称为工程化的、突变的或进化的腺苷脱氨酶。因此,例如,工程化的、突变的或进化的腺嘌呤脱氨酶多肽或腺嘌呤脱氨酶结构域可以与天然存在的腺嘌呤脱氨酶多肽/结构域约70%至99.9%相同(例如,与天然存在的腺嘌呤脱氨酶多肽或腺嘌呤脱氨酶结构域约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%相同,以及其中的任何范围或数值)。在一些实施方案中,腺苷脱氨酶可以来自细菌(例如,大肠杆菌、金黄葡萄球菌、流感嗜血杆菌(haemophilus influenzae)、新月柄杆菌(caulobacter crescentus)等)。在一些实施方案中,编码腺嘌呤脱氨酶多肽/结构域的多核苷酸可以经密码子优化以在植物中表达。
[0125]
在一些实施方案中,腺嘌呤脱氨酶结构域可以是野生型trna特异性腺苷脱氨酶结构域,例如trna特异性腺苷脱氨酶(tada)和/或突变/进化的腺苷脱氨酶结构域,例如突变/进化的trna特异性腺苷脱氨酶结构域(tada*)。在一些实施方案中,tada结构域可以来自大肠杆菌。在一些实施方案中,tada可以被修饰,例如,相对于全长tada,截短、缺失一个或多个n末端和/或c末端氨基酸(例如,相对于全长tada,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个n末端和/或c末端氨基酸残基可以缺失)。在一些实施方案中,tada多肽或tada结构域不包含n末端甲硫氨酸。在一些实施方案中,野生型大肠杆菌tada包含seq id no:50的氨基酸序列。在一些实施方案中,突变的/进化的大肠杆菌tada*包含seq id no:51-54(例如,seq id no:51、52、53或54)的氨基酸序列。在一些实施方案中,编码tada/tada*的多核苷酸可以经密码子优化以在植物中表达。在一些实施方案中,腺嘌呤脱氨酶可包含seq id no:55-60中任一项的氨基酸序列的全部或部分。在一些实施方案中,腺嘌呤脱氨酶可包含seq id no:50-60中任一项的氨基酸序列的全部或部分。
[0126]
在一些实施方案中,本发明的核酸构建体可以进一步编码糖基化酶抑制剂(例如,尿嘧啶糖基化酶抑制剂(ugi),例如尿嘧啶-dna糖基化酶抑制剂)。因此,在一些实施方案中,编码crispr-cas效应蛋白和胞嘧啶脱氨酶和/或腺嘌呤脱氨酶的核酸构建体可以进一步编码糖基化酶抑制剂,任选地其中糖基化酶抑制剂可以经密码子优化以在植物中表达。在一些实施方案中,本发明提供了包含crispr-cas效应多肽和ugi的融合蛋白和/或一种或多种编码其的多核苷酸,任选地其中一种或多种多核苷酸可以经密码子优化以在植物中表
达。在一些实施方案中,本发明提供了包含crispr-cas效应多肽、脱氨酶结构域(例如,腺嘌呤脱氨酶结构域和/或胞嘧啶脱氨酶结构域)和ugi的融合蛋白和/或编码其的一种或多种多核苷酸,任选地其中一种或多种多核苷酸可以经密码子优化以在植物中表达。在一些实施方案中,本发明提供了融合蛋白,其中可以将crispr-cas效应多肽、脱氨酶结构域和/或ugi融合至如本文所述的肽标签和亲和多肽的任何组合,从而可以募集脱氨酶结构域和/或ugi至crispr-cas效应多肽和至靶核酸。在一些实施方案中,可以将指导核酸连接至募集rna基序,并且可以将脱氨酶结构域和/或ugi中的一个或多个融合至能够与募集rna基序相互作用的亲和多肽,从而募集脱氨酶域和ugi至靶核酸。
[0127]
可用于本发明的“尿嘧啶糖基化酶抑制剂”或“ugi”可以是能够抑制尿嘧啶-dna糖基化酶碱基-切除修复酶的任何蛋白质或多肽或其结构域。在一些实施方案中,ugi包括野生型ugi或其片段。在一些实施方案中,可用于本发明的ugi可以与天然存在的ugi的氨基酸序列约70%至约100%相同(例如,70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%相同以及其中的任何范围或数值)。在一些实施方案中,ugi可包含seq id no:61的氨基酸序列或与seq id no:61的氨基酸序列具有约70%至约99.5%同一性的多肽(例如,与seq id no:61的氨基酸序列至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同)。例如,在一些实施方案中,ugi可以包含与seq id no:61的氨基酸序列的连续核苷酸的部分(例如,10、15、20、25、30、35、40、45、50、55、60、65、70、75、80个连续核苷酸;例如,约10、15、20、25、30、35、40、45至约50、55、60、65、70、75、80个连续核苷酸)100%相同的seq id no:61的氨基酸序列的片段。在一些实施方案中,ugi可以是与已知ugi具有约70%至约99.5%同一性(例如,70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%同一性,以及其中的任何范围或数值)的已知ugi(例如seq id no:61)的变体。在一些实施方案中,编码ugi的多核苷酸可以经密码子优化以在植物(例如植物)中表达,并且密码子优化的多核苷酸可以与参考多核苷酸约70%至约99.5%相同。
[0128]
包含crispr-cas效应蛋白或其融合蛋白的本发明的核酸构建体可以与设计用于与所编码的crispr-cas效应蛋白或其结构域发挥功能的指导核酸(例如,指导rna(grna)、crispr阵列、crispr rna、crrna)组合使用,以修饰靶核酸。可用于本发明的指导核酸可以包含至少一个间隔区序列和至少一个重复序列。指导核酸能够与由本发明的核酸构建体所编码和表达的crispr-cas核酸酶结构域形成复合物,并且间隔区序列能够与靶核酸杂交,从而将复合物引导至靶核酸,其中靶核酸可以被脱氨酶(例如胞嘧啶脱氨酶和/或腺嘌呤脱氨酶,任选地存在于复合物中和/或募集到复合物)修饰(例如,切割或编辑)和/或调节(例如,调节转录)。
[0129]
例如,可以将编码连接至胞嘧啶脱氨酶结构域的cas9结构域(例如融合蛋白)的核酸构建体与cas9指导核酸组合使用以修饰靶核酸,其中融合蛋白的胞嘧啶脱氨酶结构域使靶核酸中的胞嘧啶碱基脱氨基,从而编辑靶核酸。在另一个实施例中,可以将编码连接至腺嘌呤脱氨酶结构域的cas9结构域(例如,融合蛋白)的核酸构建体与cas9指导核酸组合使用以修饰靶核酸,其中融合蛋白的腺嘌呤脱氨酶结构域使靶核酸中的腺苷碱基脱氨基,从而
编辑靶核酸。在一些实施方案中,将crispr-cas效应蛋白(例如,cas9)不融合至胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。
[0130]
同样,可以将编码cas12a结构域(或其他选择的crispr-cas核酸酶,例如c2c1、c2c3、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、cas1、cas1b、cas2、cas3、cas3’、cas3”、cas4、cas5、cas6、cas7、cas8、cas9(也称为csnl和csx12)、cas10、csy1、csy2、csy3、cse1、cse2、csc1、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmr1、cmr3、cmr4、cmr5、cmr6、csb1、csb2、csb3、csx17、csx14、csx10、csx16、csax、csx3、csx1、csx15、csf1、csf2、csf3、csf4(ding)和/或csf5)的核酸构建体连接至胞嘧啶脱氨酶结构域或腺嘌呤脱氨酶结构域(例如融合蛋白),并可与cas12a指导核酸(或用于其他选择的crispr-cas核酸酶的指导核酸)组合使用以修饰靶核酸,其中融合蛋白的胞嘧啶脱氨酶结构域或腺嘌呤脱氨酶结构域分别将靶核酸中的胞嘧啶碱基或腺苷碱基脱氨基,从而编辑靶核酸酸。
[0131]
如本文所用,“指导核酸”、“指导rna”、“grna”、“crispr rna/dna”、“crrna”或“crdna”是指核酸,其包含至少一个间隔区序列(该间隔区序列与靶dna互补(并杂交)(例如,原型间隔区)),和至少一个重复序列(例如,v型cas12a crispr-cas系统的重复序列,或其片段或部分;ii型cas9 crispr-cas的重复序列或其片段;v型c2c1 crispr cas系统的重复序列或其片段;crispr-cas系统的重复序列,例如c2c3、cas12a(也称为cpf1)、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、cas1、cas1b、cas2、cas3、cas3’、cas3”、cas4、cas5、cas6、cas7、cas8、cas9(也称为csn1和csx12)、cas10、csy1、csy2、csy3、cse1、cse2、csc1、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmrl、cmr3、cmr4、cmr5、cmr6、csb1、csb2、csb3、csx17、csx14、csx10、csx16、csax、csx3、csx1、csx15、csf1、csf2、csf3、csf4(ding)和/或csf5,或其片段),其中可以将重复序列连接至间隔区序列的5’端和/或3’端。在一些实施方案中,指导核酸包含dna。在一些实施方案中,指导核酸包含rna。本发明的grna的设计可以基于i型、ii型、iii型、iv型、v型或vi型crispr-cas系统。
[0132]
在一些实施方案中,cas12a grna可包含从5’到3’的重复序列(全长或其部分(“柄”);例如,假结样结构)和间隔区序列。
[0133]
在一些实施方案中,指导核酸可以包含多于一个重复序列-间隔区序列(例如,2、3、4、5、6、7、8、9、10或更多个重复-间隔区序列)(例如,重复-间隔区-重复,例如,重复-间隔区-重复-间隔区-重复-间隔区-重复-间隔区-重复-间隔区等)。本发明的指导核酸是合成的、人造的并且在自然界中不存在。grna可以很长,可以用作适配体(如在ms2募集策略中)或悬挂在间隔区外的其他rna结构。
[0134]
如本文所用,“重复序列”是指例如野生型crispr cas基因座(例如,cas9基因座、cas12a基因座、c2c1基因座等)的任何重复序列或与本发明的核酸构建体所编码的crispr-cas效应蛋白一起起作用的合成crrna的重复序列。可用于本发明的重复序列可以是任何已知或以后鉴定的crispr-cas基因座的重复序列(例如,i型、ii型、iii型、iv型、v型或vi型),或者它可以是设计用于在i、ii、iii、iv、v或vi型crispr-cas系统中起作用的合成的重复。重复序列可以包含发夹结构和/或茎环结构。在一些实施方案中,重复序列可在其5’端形成假结样结构(即,“柄”)。因此,在一些实施方案中,重复序列可以与来自野生型i型crispr-cas基因座、ii型crispr-cas基因座、iii型crispr-cas基因座、iv型crispr-cas基因座、v型crispr-cas基因座和/或vi型crispr-cas基因座的重复序列相同或基本相同。来自野生型
crispr-cas基因座的重复序列可以通过已建立的算法来确定,例如使用通过crisprdb提供的crisprfinder(参见grissa等人nucleic acids res.35(web server issue):w52-7)。在一些实施方案中,将重复序列或其部分在其3’端连接至间隔区序列的5’端,从而形成重复-间隔区序列(例如,指导核酸、指导rna/dna、crrna、crdna)。
[0135]
在一些实施方案中,取决于特定的重复以及包含重复的指导核酸是加工的还是未加工的,重复序列包含至少10个核苷酸、基本上由至少10个核苷酸组成或由至少10个核苷酸组成(例如,约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50至100个或更多个核苷酸,或其中的任何范围或数值;例如,约)。在一些实施方案中,重复序列包含、基本上由或由以下组成:约10至约20、约10至约30、约10至约45、约10至约50、约15至约30、约15至约40、约15至约45、约15至约50、约20至约30、约20至约40、约20至约50、约30至约40、约40至约80、约50至约100或更多个的核苷酸。
[0136]
连接至间隔区序列的5’端的重复序列可以包含重复序列的部分(例如,野生型重复序列的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或更多个连续核苷酸)。在一些实施方案中,连接至间隔区序列的5’端的重复序列的部分的长度可以是约5至约10个连续核苷酸(例如,约5、6、7、8、9、10个核苷酸)并且与野生型crispr cas重复核苷酸序列的相同区域(例如,5’端)具有至少90%的序列同一性(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多)。在一些实施方案中,重复序列的部分可以在其5’端包含假结样结构(例如,“柄”)。
[0137]
如本文所用,“间隔区序列”是与靶核酸(例如,靶dna)互补的核苷酸序列(例如,原型间隔区)。间隔区序列可以与靶核酸完全互补或基本上互补(例如,至少约70%互补(例如,约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或更多))。因此,在一些实施方案中,与靶核酸相比,间隔区序列可以具有1、2、3、4或5个错配,这些错配可以是连续的或不连续的。在一些实施方案中,间隔区序列可以与靶核酸具有70%的互补性。在其他实施方案中,间隔区核苷酸序列可以与靶核酸具有80%的互补性。在其他实施方案中,间隔区核苷酸序列可以与靶核酸(原型间隔区)具有85%、90%、95%、96%、97%、98%、99%或99.5%的互补性等。在一些实施方案中,间隔区序列与靶核酸100%互补。间隔区序列可具有约15个核苷酸至约30个核苷酸(例如,15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸,或其中的任何范围或数值)的长度。因此,在一些实施方案中,间隔区序列可在长度为至少约15个核苷酸至约30个核苷酸的靶核酸(例如,原型间隔区)的区域上具有完全互补性或基本互补性。在一些实施方案中,间隔区的长度为约20个核苷酸。在一些实施方案中,间隔区的长度为约21、22或23个核苷酸。
[0138]
在一些实施方案中,指导核酸的间隔区序列的5’区可以与靶dna相同,而间隔区的3’区可以与靶dna基本上互补(例如,v型crispr-cas),或指导核酸的间隔区序列的3’区可以与靶dna相同,而间隔区的5’区可以与靶dna基本上互补(例如ii型crispr-cas),并且因此,间隔区序列与靶dna的总体互补性可以低于100%。因此,例如,在v型crispr-cas系统的指导中,例如,20个核苷酸的间隔区序列5’区(即种子区)中的前1、2、3、4、5、6、7、8、9、10个核苷酸可以与靶dna 100%互补,而间隔区序列的3’区的剩余核苷酸与靶dna基本上互补
cas系统的pam位于靶标链的5’。没有已知的用于iii型crispr-cas系统的pam。makarova等人描述了crispr系统的所有类别、类型和亚型的命名法(nature reviews microbiology,13:722-736(2015))。r.barrangou(genome biol.16:247(2015))描述了指导结构和pam。
[0146]
典型的cas12a pam富含t。在一些实施方案中,典型的cas12a pam序列可以是5
’‑
ttn、5
’‑
tttn或5’tttv。在一些实施方案中,典型的cas9(例如,酿脓链球菌)pam可以是5
’‑
ngg-3’。在一些实施方案中,可以使用非典型pam,但效率可能较低。
[0147]
本领域技术人员可以通过已建立的实验和计算方法来确定额外的pam序列。因此,例如,实验方法包括靶向侧接有所有可能的核苷酸序列的序列并识别不经历靶向的序列成员,例如通过靶标质粒dna的转化(esvelt等人2013.nat.methods 10:1116-1121;jiang等人2013.nat.biotechnol.31:233-239)。在一些方面,计算方法可以包括对天然间隔区执行blast搜索以鉴定噬菌体或质粒中的原始靶dna序列,并比对这些序列以确定与靶序列相邻的保守序列(briner和barrangou.2014.appl.environ.microbiol.80:994-1001;mojica等人2009.microbiology 155:733-740)。
[0148]
在一些实施方案中,本发明提供了包含本发明的核酸构建体(例如,本发明的编辑系统的一种或多种组分)的表达盒和/或载体。在一些实施方案中,可以提供包含本发明的核酸构建体和/或一种或多种指导核酸的表达盒和/或载体。在一些实施方案中,编码碱基编辑器的本发明的核酸构建体(例如,包含crispr-cas效应蛋白和脱氨酶结构域(例如,融合蛋白)的构建体)或用于碱基编辑的组分(例如,融合至肽标签或亲和多肽的crispr-cas效应蛋白,融合至肽标签或亲和多肽的脱氨酶结构域,和/或融合至肽标签或亲和多肽的ugi)可以包含在与包含一种或多种指导核酸的表达盒或载体相同或分开的表达盒或载体上。当编码碱基编辑器的核酸构建体或用于碱基编辑的组分包含在与包含指导核酸的表达盒或载体分开的表达盒或载体上时,可以使靶核酸接触(例如,提供有)编码碱基编辑器的表达盒或载体或用于碱基编辑的组分,以任何互相顺序接触,以及引导核酸,例如,在提供包含引导核酸的表达盒之前、同时或之后(例如,与靶核酸接触)。
[0149]
本发明的融合蛋白可以包含融合至肽标签或与肽标签相互作用的亲和多肽的序列特异性dna结合结构域、crispr-cas效应蛋白和/或脱氨酶,如本领域已知的,用于将脱氨酶募集至靶核酸。募集方法还可包括连接至rna募集基序的指导核酸和融合至能够与rna募集基序相互作用的亲和多肽的脱氨酶,从而将脱氨酶募集至靶核酸。备选地,化学相互作用可用于将多肽(例如脱氨酶)募集至靶核酸。
[0150]
如本文所述,“肽标签”可用于募集一种或多种多肽。肽标签可以是能够被相应的亲和多肽结合的任何多肽。肽标签也可以称为“表位”,当以多个拷贝提供时,称为“多聚化表位”。示例性肽标签可包括但不限于gcn4肽标签(例如sun-tag)、c-myc亲和标签、ha亲和标签、his亲和标签、s亲和标签、甲硫氨酸-his亲和标签、rgd-his亲和标签、flag八肽、strep标签或strep标签ii、v5标签和/或vsv-g表位。在一些实施方案中,肽标签还可以包括在由sh2结构域识别的特定序列环境中的磷酸化酪氨酸、含有被14-3-3蛋白识别的磷酸丝氨酸的特征性共有序列、被sh3结构域识别的富含脯氨酸的肽基序、pdz蛋白相互作用结构域或pdz信号序列和来自植物的ago钩子基序(ago hook motif)。肽标签在wo2018/136783和美国专利申请公开号2017/0219596中公开,通过引用将它们公开的肽标签并入本文。可用于本发明的肽标签可包括但不限于seq id no:65和seq id no:66。可用于肽标签的亲和
多肽包括但不限于seq id no:67。
[0151]
任何可以连接至多肽并且对于其存在可以连接至另一多肽的相应亲和多肽的表位可用于本发明作为肽标签。在一些实施方案中,肽标签可包含1或2或更多个拷贝的肽标签(例如,重复单元、多聚化表位(例如,串联重复))(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或更多个重复单元)。在一些实施方案中,与肽标签相互作用/结合的亲和多肽可以是抗体。在一些实施方案中,抗体可以是scfv抗体。在一些实施方案中,结合肽标签的亲和多肽可以是合成的(例如,进化用于亲和相互作用),包括,但不限于,亲和体(affibody)、抗运载蛋白(anticalin)、单抗体和/或darpin(参见,例如,sha等人,protein sci.26(5):910-924(2017));gilbreth(curr opin struc biol 22(4):413-420(2013)),美国专利号9,982,053,每一个都通过引用将与亲和体、抗运载蛋白、单抗体和/或darpins相关的教导整体并入。
[0152]
在一些实施方案中,可以将指导核酸连接至rna募集基序,并且可以将待募集的多肽(例如脱氨酶)融合至结合rna募集基序的亲和多肽,其中指导物结合靶核酸而rna募集基序结合亲和多肽,从而将多肽募集至指导物并使靶核酸与多肽(例如脱氨酶)接触。在一些实施方案中,可以将两种或更多种多肽募集至指导核酸,从而使靶核酸与两种或更多种多肽(例如,脱氨酶)接触。
[0153]
在本发明的一些实施方案中,可以将指导rna连接至一个或两个或更多个rna募集基序(例如1、2、3、4、5、6、7、8、9、10或更多个基序;例如,至少10至约25个基序),任选地其中两个或更多个rna募集基序可以是相同的rna募集基序或不同的rna募集基序。在一些实施方案中,rna募集基序和相应的亲和多肽可以包括但不限于:端粒酶ku结合基序(例如,ku结合发夹)和ku的亲和多肽(例如,ku异二聚体),端粒酶sm7结合基序和sm7的亲和多肽,ms2噬菌体操纵子茎环和ms2外壳蛋白(mcp)的亲和多肽,pp7噬菌体操纵子茎环和pp7外壳蛋白(pcp)的亲和多肽,sfmu噬菌体com茎环和com rna结合蛋白的亲和多肽,puf结合位点(pbs)和pumilio/fem-3mrna结合因子(puf)的亲和多肽,和/或合成的rna-适配体和适配体配体作为相应的亲和多肽。在一些实施方案中,rna募集基序和相应的亲和多肽可以是ms2噬菌体操纵子茎环和亲和多肽ms2外壳蛋白(mcp)。在一些实施方案中,rna募集基序和相应的亲和多肽可以是puf结合位点(pbs)和亲和多肽pumilio/fem-3mrna结合因子(puf)。可用于本发明的示例性rna募集基序和相应的亲和多肽可包括但不限于seq id no:68-78。
[0154]
在一些实施方案中,用于募集多肽和核酸的组分可包括通过化学相互作用起作用的组分,其可包括但不限于雷帕霉素诱导的frb-fkbp二聚化;生物素-链霉亲和素;snap标签;halo标签;clip标签;化合物诱导的dmra-dmrc异二聚体;双功能配体(例如,两种蛋白质结合化学物质融合在一起;例如二氢叶酸还原酶(dhfr)。
[0155]
肽标签可以包含或存在于肽标签的一个拷贝或2个或更多个拷贝中(例如,多聚化肽标签或多聚化表位)(例如,约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、9、20、21、22、23、24或25个或更多个肽标签)。当多聚化时,肽标签可以直接彼此融合,或者它们可以通过一个或多个氨基酸(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸,任选约3至约10、约4至约10、约5至约10、约5至约15,或约5至约20个氨基酸等,以及其中的任何值或范围)彼此连接。因此,在一些实施方案中,本发明的crispr-cas效应蛋白可以包含融合至一个肽标签或者融合至两个或更多个肽标签的crispr-cas效
cas效应蛋白在第一复合物中并且腺嘌呤脱氨酶和crispr-cas效应蛋白在第二复合物中,任选地其中第一复合物和第二复合物包括相同或不同的指导核酸。在一些实施方案中,将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶不融合至cas9。在一些实施方案中,crispr-cas效应蛋白是v型crispr-cas效应蛋白(例如,cpf1)。在一些实施方案中,靶核酸在基因的非编码区(例如启动子区)中和/或在基因的编码区中。
[0163]
在一些实施方案中,本发明的方法和/或包含crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶的复合物可以并行地和/或同时地修饰靶核酸,因为包含crispr-cas效应蛋白、胞嘧啶脱氨酶和腺嘌呤脱氨酶的试剂的单次递送可以提供和/或导致靶核酸中存在的胞苷和腺嘌呤碱基被修饰(例如,c至t和a至g)。靶核酸的并行和/或同时修饰可以发生在对应于足以导致两种类型编辑(即c至t和a至g)的试剂的单次递送的时间段内。在一些实施方案中,c至t和a至g的编辑发生在从起始于将试剂递送到细胞、组织和/或生物体的时间到细胞、组织和/或生物体被筛选用于编辑的时间的时间段内,其中只有单次递送试剂到细胞、组织和/或生物体。方法和/或单次递送可以进一步包括糖基化酶抑制剂(例如,ugi)和/或mcp或其部分,任选地包括肽标签。在一些实施方案中,胞嘧啶脱氨酶和腺嘌呤脱氨酶两者被募集到靶核酸并提供与crispr-cas效应蛋白的单一复合物。胞嘧啶脱氨酶和腺嘌呤脱氨酶可各自使用相同或不同的募集策略(例如本文所述的那些)被募集至crispr-cas效应蛋白。
[0164]
本发明的方法和/或包含crispr-cas效应蛋白、胞嘧啶脱氨酶和腺嘌呤脱氨酶的复合物可以提供和/或导致与目前的诱变方法例如cas9介导的诱变(例如,cas9介导的启动子诱变,tada融合至cas9的n末端,和/或pmcda1融合至cas9的c末端)相比增加的等位基因数量。在一些实施方案中,本发明的方法和/或包含crispr-cas效应蛋白、胞嘧啶脱氨酶和腺嘌呤脱氨酶的复合物可以提供和/或导致2个或更多个(例如,2、3、4、5、6、7、8、9、10、20或更多个)不同的修饰的靶核酸/靶核酸位点。
[0165]
在一些实施方案中,可以使用rna募集基序来募集胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。在一些实施方案中,指导核酸包含如本文所述的rna募集基序,任选地其中rna募集基序是ms2发夹。胞嘧啶脱氨酶和/或腺嘌呤脱氨酶可包含rna募集基序的相应亲和多肽,例如mcp或其部分。可以将如本文所述的糖基化酶抑制剂(例如,ugi)融合至crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。在一些实施方案中,糖基化酶抑制剂以反式提供。如本文所用的“反式”是指与crispr-cas效应蛋白和脱氨酶分开地表达组分(例如,化合物,例如糖基化酶抑制剂),任选地在相同的盒中使用其自身的启动子或在细胞中使用单独的表达盒。例如,在一些实施方案中,指导rna包含至少一个ms2发夹,并且将结合至ms2发夹的ms2加帽蛋白(mcp)或其部分单独或作为单一融合物融合至腺嘌呤和胞苷脱氨酶。糖基化酶抑制剂(例如,ugi)可以作为如本文所述的融合物或以反式提供。因此,腺嘌呤和胞苷脱氨酶可以任选同时被募集至指导rna和/或靶核酸,并且可以在脱氨时间框架和/或脱氨窗口内进行c至t和a至g的编辑(例如,靶核酸中通常观察到碱基编辑的子序列)。
[0166]
在一些实施方案中,可以将crispr-cas效应蛋白融合至胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。例如,在一些实施方案中,将胞嘧啶脱氨酶和腺嘌呤脱氨酶之一融合至crispr-cas效应蛋白,而另一个通过使用诸如rna募集基序的募集策略进行募集。
[0167]
在一些实施方案中,将crispr-cas效应蛋白融合至胞嘧啶脱氨酶并且将腺嘌呤脱
氨酶通过rna募集基序例如ms2发夹募集至复合物。例如,腺嘌呤脱氨酶可包含(mcp)或其部分(例如,可以将腺嘌呤脱氨酶和mcp或其部分融合在一起),因为mcp或其部分能够和/或结合ms2发夹。在一些实施方案中,将crispr-cas效应蛋白融合至腺嘌呤脱氨酶并且胞嘧啶脱氨酶通过rna募集基序例如ms2发夹募集至复合物。例如,胞嘧啶脱氨酶可包含(mcp)或其部分(例如,可以将胞嘧啶脱氨酶和mcp或其部分融合在一起),因为mcp或其部分能够和/或结合ms2发夹。
[0168]
在一些实施方案中,crispr-cas效应蛋白包含如本文所述的肽标签。肽标签可以是suntag和/或可以包含一个或多个(例如1、2、3、4或更多个)gcn4表位。腺嘌呤脱氨酶和/或胞嘧啶脱氨酶可包含如本文所述的能够结合肽标签的亲和多肽(例如,scfv)。在一些实施方案中,将腺嘌呤脱氨酶和/或胞嘧啶脱氨酶与亲和多肽融合在一起。因此,可以使用亲和多肽将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶募集至crispr-cas效应蛋白和/或靶核酸。例如,可以将crispr-cas效应蛋白的n或c末端融合至包含多个gcn4表位的suntag,可以单独或作为单一融合物将识别gcn4的scfv融合至腺嘌呤脱氨酶和/或胞嘧啶脱氨酶。糖基化酶抑制剂(例如,ugi)可以作为融合物或以反式提供。可以任选同时地将腺嘌呤脱氨酶和胞嘧啶脱氨酶募集至靶核酸,并且可以在脱氨时间框架和/或脱氨窗口内进行c和a编辑(例如,靶核酸中的子序列,其中碱基编辑是通常观察到)。
[0169]
在一些实施方案中,crispr-cas效应蛋白包含如本文所述的肽标签,并且可以将crispr-cas效应蛋白融合至腺嘌呤脱氨酶和/或胞嘧啶脱氨酶。肽标签可以是suntag和/或可以包含一个或多个(例如1、2、3、4或更多个)gcn4表位。在一些实施方案中,将腺嘌呤脱氨酶和胞嘧啶脱氨酶之一融合至crispr-cas效应蛋白,并且腺嘌呤脱氨酶和胞嘧啶脱氨酶中的另一个包含如本文所述的亲和多肽(例如,scfv),其能够结合肽标签。因此,可以使用亲和多肽将胞嘧啶脱氨酶和腺嘌呤脱氨酶之一募集至crispr-cas效应蛋白和/或靶核酸。例如,可以将crispr-cas效应蛋白的n或c末端融合至包含多个gcn4表位的suntag,而可以将另一个末端融合至腺嘌呤脱氨酶结构域或胞嘧啶脱氨酶结构域,并且可以将识别gcn4的scfv融合至腺嘌呤脱氨酶或胞嘧啶脱氨酶,这取决于融合至crispr-cas效应蛋白的情况。糖基化酶抑制剂(例如,ugi)可以作为融合物或以反式提供。
[0170]
在一些实施方案中,腺嘌呤脱氨酶和/或胞嘧啶脱氨酶可包含肽标签。肽标签可以是suntag和/或可以包含一个或多个(例如1、2、3、4或更多个)gcn4表位。在一些实施方案中,可以将腺嘌呤脱氨酶和/或胞嘧啶脱氨酶和/或肽标签融合在一起。crispr-cas效应蛋白可以包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将crispr-cas效应蛋白和亲和多肽融合在一起。因此,可以使用亲和多肽将crispr-cas效应蛋白募集至腺嘌呤脱氨酶和/或胞嘧啶脱氨酶和/或靶核酸。糖基化酶抑制剂(例如,ugi)可以作为融合物或反式提供。
[0171]
在一些实施方案中,crispr-cas效应蛋白可包含指导核酸(例如,指导rna),其包含rna募集基序。例如,可以将crispr-cas效应蛋白融合至包含rna募集基序的指导rna,任选地其中将指导rna融合至rna募集基序。在一些实施方案中,指导rna可以包含一个或多个ms2发夹。rna募集基序的相应亲和多肽,例如mcp或其部分,可以包含如本文所述的肽标签,并且相应的亲和多肽可以在接触步骤期间存在和/或也可以与靶核酸接触。胞嘧啶脱氨酶和/或腺嘌呤脱氨酶可包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将胞嘧啶
脱氨酶和/或腺嘌呤脱氨酶与亲和多肽融合在一起。在一些实施方案中,将胞嘧啶脱氨酶和腺嘌呤脱氨酶各自分别地融合至可以相同或不同的亲和多肽。在一些实施方案中,将胞嘧啶脱氨酶、腺嘌呤脱氨酶和亲和多肽融合在一起。在一些实施方案中,包含肽标签(例如,suntag)的mcp或其部分可被募集至包含指导rna的crispr-cas效应蛋白,该指导rna包括一个或多个ms2发夹,以及胞嘧啶脱氨酶和/或腺嘌呤脱氨酶包含亲和多肽(例如,scfv)并被募集至肽标签。
[0172]
根据本发明的一些实施方案,本发明提供了一种修饰靶核酸的方法,该方法包括使靶核酸接触:crispr-cas效应蛋白(例如,crispr酶)、指导核酸(例如,指导rna)和胞嘧啶脱氨酶,其中该方法将靶核酸的胞嘧啶(c)修饰为腺嘌呤(a)、鸟嘌呤(g)或胸腺嘧啶(t)。在一些实施方案中,c以半随机方式被转化为t、g或a。在一些实施方案中,靶核酸存在于植物细胞中。crispr-cas效应蛋白、指导核酸和胞嘧啶脱氨酶可形成复合物或可包含在复合物中。在一些实施方案中,复合物可缺乏糖基化酶抑制剂(例如ugi)或其结构域和/或胞嘧啶脱氨酶缺乏糖基化酶抑制剂(例如ugi)或其结构域。crispr-cas效应蛋白可以是v型crispr-cas效应蛋白。在一些实施方案中,crispr-cas效应蛋白是cas9(例如,dcas9或ncas9)。方法、组合物和/或系统可以提供大于约0.1%、0.5%、1%、1.25%、1.5%、1.75%、2%、2.25%、2.5%、2.75%、3%、3.25%、3.5%、3.75%、4%、4.25%、4.5%、4.75%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%或更多的碱基置换频率,任选地其中c至非t编辑(例如,c至g编辑和/或c至a编辑)的碱基置换频率为大于0.1%、0 0.5%、1%、1.25%、1.5%、1.75%、2%、2.25%、2.5%、2.75%、3%、3.25%、3.5%、3.75%、4%、4.25%、4.5%、4.75%、5%、10%、15%、20%、25%、30%或更多。在一些实施方案中,方法、组合物和/或系统可以提供大于约1%的碱基置换频率,任选地其中c至非t编辑(例如,c至g编辑和/或c至a编辑)的碱基置换频率大于约1%。本技术的发明人出人意料地发现,本发明的方法、组合物和/或系统可提供改进的碱基置换频率和与c至t变化相比c至g变化的改进比率。例如,在一些实施方案中,本发明的方法、组合物和/或系统可以提供c

g∶c

t变化的比率为约1∶1,任选地在植物中。在一些实施例中,本发明的方法、组合物和/或系统可以提供约0.1∶1、0.2∶1、0.3∶1、0.4∶1、0.5∶1、0.6∶1、0.7∶1、0.8∶1、0.9∶1、1∶1、1.1∶1、1.2∶1、1.3∶1、1.4∶1、1.5∶1的c

g∶c

t变化的比率,任选地在植物中。
[0173]
胞嘧啶脱氨酶可包含mcp或其部分,任选地其中将mcp或其部分融合至胞嘧啶脱氨酶氨基酸序列的n末端。在一些实施方案中,胞嘧啶脱氨酶包含cas9结构域,任选地其中将胞嘧啶脱氨酶融合至cas9结构域。在一些实施方案中,胞嘧啶脱氨酶包含失活的lbcpf1(dlbcpf1),任选地其中将胞嘧啶脱氨酶融合至dlbcpf1。胞嘧啶脱氨酶可以是密码子优化的。在一些实施方案中,胞嘧啶脱氨酶经密码子优化用于单子叶植物表达和/或经密码子优化用于双子叶植物表达。
[0174]
在一些实施方案中,本发明的方法、组合物和/或系统可以提供和/或产生脱碱基位点(abasic site)。脱碱基位点可用作跨损伤dna合成的模板。在聚合过程中,可以在脱碱基位点对面掺入任何核苷酸,因为糖环缺少可以在聚合期间参与碱基配对的dna碱基。因此,在一些实施方案中,可以以半随机方式将靶c转换为t、g或a。在一些实施方案中,靶核酸可以与尿嘧啶n-糖基化酶(ung)接触。ung可以存在于其中存在靶核酸的细胞中。在一些实施方案中,糖基化酶结构域(例如,ung结构域)可以通过共价和/或非共价相互作用、任选地
通过抗体-表位相互作用和/或rna结合基序-ms2而募集至靶核酸相互作用。
[0175]
在一些实施方案中,胞嘧啶脱氨酶可以是rapobec1、apobec3a、apobec3b、haid和pmcda1中的一种或多种,并且可以任选地将胞嘧啶脱氨酶融合至亲和多肽,例如mcp或其部分。如本领域技术人员将理解的,不同的胞嘧啶脱氨酶可以产生不同水平的碱基编辑以及不同核苷酸组成中的产物碱基谱;因此,可以选择胞嘧啶脱氨酶用于在靶核酸位点处的所需编辑窗口。胞嘧啶脱氨酶可以通过共价和/或非共价相互作用、任选地通过抗体-表位相互作用和/或rna结合基序-ms2相互作用而募集至靶核酸。在一些实施方案中,胞嘧啶脱氨酶可包含(例如,融合至)mcp或其部分。可以将mcp或其部分融合至胞嘧啶脱氨酶的n末端或脱氨酶的c末端。在一些实施方案中,指导核酸可以包含一种或多种rna募集基序(例如,一种或多种ms2发夹)。在一些实施方案中,可以将crispr-cas效应蛋白融合至胞嘧啶脱氨酶。在一些实施方案中,crispr-cas效应蛋白可以包含肽标签并且胞嘧啶脱氨酶可以包含能够结合肽标签的亲和多肽,或者胞嘧啶脱氨酶可以包含肽标签并且crispr-cas效应蛋白可以包含能够结合肽标签的亲和多肽。
[0176]
本发明的方法可以包括调节crispr-cas效应蛋白的dna结合亲和力。在胞嘧啶碱基编辑期间,胞苷通过胞苷脱氨基作用转化为尿苷。因此,尿苷/尿嘧啶是一种中间产物。在一些实施方案中,与不符合本发明的方法、组合物和/或系统相比(例如,与在一些实施方案中,与包括包含ugi和/或包含ugi的胞嘧啶脱氨酶的复合物的方法、组合物和/或系统相比),本发明的方法、组合物和/或系统可以增加尿苷/尿嘧啶中间体的存在期。在一些实施方案中,本发明的指导核酸与靶核酸具有低于完全的互补性,例如小于100%的互补性(例如,小于99%、98%、97%、96%、95%、94%、93%、92%、91%、90%等),与使用具有100%互补性的指导核酸的方法中的尿苷/尿嘧啶中间体的存在期相比,这可以增加尿苷/尿嘧啶中间体的存在期。在一些实施方案中,本发明的crispr-cas效应蛋白(例如cas9)与靶核酸的相互作用减弱,与使用与靶核酸没有减弱相互作用的crispr-cas效应蛋白的尿苷/尿嘧啶中间体的存在期相比,这可以产生脱碱基位点和/或增加尿苷/尿嘧啶中间体的存在期。在一些实施方案中,方法可以包括从尿嘧啶n-糖基化酶阻断尿苷/尿嘧啶中间体直到dna复制期间和/或之后。例如,在一些实施方案中,crispr-cas效应蛋白和/或胞嘧啶脱氨酶可以保留在靶位点,这可以屏蔽它从ung产生尿苷/尿嘧啶中间体,直到复合物在dna复制期间溶解,如它可能会导致一个有利的情况,即在dna复制期间产生的脱碱基位点可以优先用作dna聚合酶的模板。在一些实施方案中,本发明的方法可以包括调节(例如,增加或减少)crispr-cas效应蛋白在靶核酸处的停留时间。
[0177]
在一些实施方案中,方法包括在存在ap核酸内切酶i(ape1)抑制剂的情况下进行接触步骤和/或进一步包括使靶核酸接触ape1抑制剂。一种或多种ape1抑制剂可以存在于本发明的方法、组合物和/或系统中。在一些实施方案中,ape1抑制剂是有机化合物或核酸(例如,sirna)。示例性ape1抑制剂包括但不限于curr mol pharmacol.2012jan;5(1):14-35;mol pharmacol.,2008,73,669-677;madhusudan等人nucleic acids research,2005,vol.33,no.15 4711-4724;和j.med.chem.,2009,52,20-32中描述的那些,每一篇都通过引用整体并入本文。在一些实施方案中,ape1抑制剂包含crt0044876。本发明的方法可以包括抑制ape1,任选地在至少一部分接触步骤和/或碱基编辑期间抑制ape1。在一些实施方案中,sirna可用于抑制细胞ape1。
[0178]
在一些实施方案中,本发明的方法包括抑制或减少插入缺失形成,任选地与不存在ape1抑制剂和/或sirna的插入缺失形成量相比。在一些实施方案中,本发明的方法可以提供具有小于约50%、45%、40%、35%、30%、25%、20%、15%、10%、5%、4%、3%、2%、1%或0.5%的包含插入缺失的修饰的靶核酸的修饰的靶核酸。在一些实施方案中,本发明的方法可以通过减少产生的插入缺失的量来提高碱基多样化率。
[0179]
本发明的方法可以包括调节一种或多种细胞通路。在一些实施方案中,本发明的方法可以减少非同源末端连接(nhej),任选地通过抑制dna连接酶iv和/或通过dna-pkcs。在一些实施方案中,方法包括在存在dna连接酶iv抑制剂和/或dna-pkcs抑制剂的情况下进行接触步骤,和/或方法还包括使靶核酸与dna连接酶iv抑制剂和/或dna-pkcs抑制剂接触。在一些实施方案中,dna连接酶iv抑制剂和/或dna-pkcs抑制剂可以在本发明方法中的碱基编辑和/或碱基多样化事件期间存在。示例性的dna连接酶iv抑制剂包括但不限于scr7、l189和在cancer res.2008may 1;68(9):3169-77中描述的那些,其通过引用整体并入本文。在一些实施方案中,dna连接酶iv抑制剂可以是scr7。在crispr/cas9介导的基因组编辑期间,使用scr7已显示增加hdr并减少nhej(nat biotechnol.2015may;33(5):538-542.;febs j.2015nov;282(22):4289-94.)。示例性dna-pkcs抑制剂包括但不限于nu7026、ku-0060648、nu7441、ic86621和在sci rep.2019feb 12;9(1):1847;genome med.2015aug 27;7:93;和mol cell biol.2011apr;31(8):1719-33中描述的那些,其各自通过引用整体并入本文。在一些实施方案中,本发明的方法可以抑制nhej,任选地在碱基编辑或碱基多样化期间,并且可以增加或改善碱基编辑和/或碱基多样化和/或可以减少插入缺失形成。
[0180]
在一些实施方案中,方法可以包括抑制nhej通路中的一种或多种蛋白质,这可以导致该方法期间产生的插入缺失的量减少。在一些实施方案中,方法可以包括调节crispr介导的插入缺失率和/或同源定向修复(hdr)率。可抑制nhej通路中的一种或多种蛋白质和/或调节crispr介导的插入缺失和/或同源定向修复(hdr)率的示例性化合物包括但不限于febs j.2015nov;282(22):4289-94中描述的那些,其通过引用整体并入本文。
[0181]
在一些实施方案中,本发明的方法可以促进或增加聚合介导的脱碱基位点修复。在一些实施方案中,方法包括在存在外源聚合酶的情况下进行接触步骤和/或进一步包括使靶核酸接触外源聚合酶。外源聚合酶可以通过将dna聚合酶带至靶核酸来增加和/或强制在脱碱基位点上的聚合。外源聚合酶可以通过包含crispr-cas效应蛋白、指导核酸和胞嘧啶脱氨酶的复合物募集至靶核酸,或者可以通过不同的复合物募集至靶核酸。在一些实施方案中,可以将外源聚合酶融合至crispr-cas效应蛋白(例如,v型crispr-cas效应蛋白),任选地其中将外源聚合酶融合至cas9(例如,dcas9或ncas9)。外源聚合酶可以进行密码子优化,任选地进行密码子优化以在植物中表达。在一些实施方案中,聚合酶的过表达和/或能够跨脱碱基位点(包括涉及跨损伤旁路的那些,例如rev1)有活性的聚合酶的募集可以上调导致碱基多样化的通路。可用于本发明的方法、组合物和/或系统的示例性聚合酶包括但不限于人rev1、酵母rev1、人聚合酶iota、人聚合酶kappa、工程化聚合酶3a10(nat biotechnol.2007aug;25(8):939-43)、人类引物酶/聚合酶primpol(mol cell.2013nov 21;52(4):541-53)、噬菌体聚合酶b35dnap(proc natl acad sci u s a.2015jul 7;112(27):e3476-84)、转座子衍生聚合酶ehdnapolb2(plos one.2012;7(11):e49964)、细菌t4 dna聚合酶和/或硫叶菌(sulfolobus solfataricus)p2 dna聚合酶iv(dpo4)。
[0182]
在一些实施方案中,crispr-cas效应蛋白包含如本文所述的肽标签。在一些实施方案中,肽标签包含suntag和/或肽标签包含一个或多个(例如,1、2、3、4或更多个)gcn4表位。胞嘧啶脱氨酶可以包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将胞嘧啶脱氨酶和亲和多肽融合在一起。因此,可以使用亲和多肽通过与融合至crispr-cas效应蛋白的肽标签结合将胞嘧啶脱氨酶募集至crispr-cas效应蛋白和/或靶核酸。
[0183]
在一些实施方案中,胞嘧啶脱氨酶包含如本文所述的肽标签。在一些实施方案中,肽标签包含suntag和/或肽标签包含一个或多个(例如,1、2、3、4或更多个)gcn4表位。crispr-cas效应蛋白可以包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将crispr-cas效应蛋白和亲和多肽融合在一起。在一些实施方案中,使用亲和多肽将crispr-cas效应蛋白募集至靶核酸。
[0184]
本发明的方法可以包括使靶核酸接触crispr cas效应蛋白、脱氨酶和/或其融合蛋白和/或目标多肽,和/或靶核酸可以接触编码crispr cas效应蛋白、脱氨酶和/或其融合蛋白和/或目标多肽的多核苷酸,该多肽可以任选地包含在如本文所述的一个或多个表达盒和/或载体中,所述表达盒和/或载体任选地包含一种或多种指导核酸。
[0185]
如本文所述,本发明的核酸和/或包含其的表达盒和/或载体可以经密码子优化以在生物体中表达。可用于本发明的生物体可以是核酸修饰对其有用的任何生物体或其细胞。生物体可包括但不限于任何动物(例如哺乳动物)、任何植物、任何真菌、任何古细菌或任何细菌。在一些实施方案中,生物体可以是植物或其细胞。
[0186]
在一些实施方案中,经优化以在植物中表达的本发明的核酸构建体、表达盒或载体可以与包含相同多核苷酸但没有经密码子优化以在植物中表达的核酸构建体、表达盒或载体约70%至100%相同(例如,约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%)。
[0187]
可以使用本发明的核酸构建体修饰任何植物或植物部分的靶核酸。可以使用本发明的核酸构建体修饰任何植物(或植物,例如,属或更高级分类),包括:被子植物,裸子植物,单子叶植物,双子叶植物,c3、c4、cam植物,苔藓植物,蕨类植物和/或拟蕨植物,微藻和/或大型藻类。可用于本发明的植物和/或植物部分可以是任何植物物种/品种/栽培品种的植物和/或植物部分。如本文所用,术语“植物部分”包括但不限于胚、花粉、胚珠、种子、叶、茎、幼苗、花、枝条、果实、籽粒、穗、穗轴、外壳、梗、根、根尖、花药、植物细胞(包括在植物和/或植物部分中完整的植物细胞)、植物原生质体、植物组织、植物细胞组织培养物、植物愈伤组织、植物团块等。如本文所用,“幼苗”是指地上部分,包括叶和茎。此外,如本文所用,“植物细胞”是指植物的结构和生理单元,其包括细胞壁,也可以指原生质体。植物细胞可以是分离的单细胞的形式,或者可以是培养的细胞,或者可以是更高组织单元(例如植物组织或植物器官)的一部分。
[0188]
可用于本发明的植物的非限制性实例包括:草坪草(例如早熟禾、翦股颖、黑麦草、羊茅),羽毛芦苇草,簇绒草,芒草,芦竹,柳枝稷,蔬菜作物,包括朝鲜蓟,大头菜,芝麻菜,韭菜,芦笋,生菜(如头、叶、长叶),马兰加,瓜(如甜瓜、西瓜、crenshaw、蜜瓜、哈密瓜),芸苔属作物(如抱子甘蓝、卷心菜、花椰菜、西兰花、羽衣甘蓝、甘蓝、大白菜、白菜),刺菜蓟(cardoni),胡萝卜,napa,秋葵,洋葱,芹菜,欧芹,鹰嘴豆,欧洲防风草,菊苣,辣椒,马铃薯,
葫芦科(如西葫芦、黄瓜、密生西葫芦、倭瓜、南瓜、蜜瓜、西瓜,哈密瓜),萝卜,干洋葱,芜菁甘蓝,茄子,婆罗门参,茅菜(escarole),青葱,菊苣,大蒜,菠菜,大葱,倭瓜,青菜,甜菜(糖用甜菜和饲料甜菜),红薯,甜菜,辣根,番茄,芜菁和香料;水果作物,例如苹果、杏、樱桃、油桃、桃、梨、梅子、李子、樱桃、榅桲、无花果、坚果(例如,栗子、山核桃、开心果、榛子、开心果、花生、核桃、澳洲坚果、杏仁等),柑橘(例如,小柑桔、金橘、橙子、葡萄柚、橘子、柑橘、柠檬、酸橙等)、蓝莓、黑树莓、波森莓、蔓越莓、醋栗、鹅莓、罗甘莓、覆盆子、草莓、黑莓、葡萄(葡萄酒和餐食)、鳄梨、香蕉、猕猴桃、柿子、石榴、菠萝、热带水果、柚子、甜瓜、芒果、木瓜和荔枝,田间作物植物例如三叶草、苜蓿、提摩西草、月见草、草地泡泡草、玉米/玉蜀黍(田间、甜味、爆米花)、hops、荷荷巴、荞麦、红花、藜麦、小麦、水稻、大麦、黑麦、小米、高粱、燕麦、黑小麦、高粱、烟草、木棉,豆科植物(豆类)(例如,绿和干燥的)、小扁豆、豌豆、大豆),和油料植物(油菜、卡诺拉油菜、芥末、、橄榄、向日葵、椰子、蓖麻油植物、可可豆、花生、油棕)、浮萍、拟南芥,纤维植物(棉花、亚麻、、黄麻)、(例如,(cannabis sativa)、印度(cannabis indica)和粗(cannabis ruderalis))、月桂科(肉桂、樟脑),或者例如咖啡、甘蔗、茶和天然橡胶植物等植物;和/或花坛植物,例如开花植物、仙人掌、多肉植物和/或观赏植物(例如玫瑰、郁金香、紫罗兰),以及树木,例如林木(阔叶树和常青树,如针叶树;例如,榆树、白蜡树、橡树、枫树、冷杉、云杉、雪松、松树、桦树、柏树、桉树、柳树),以及灌木和其他苗木。在一些实施方案中,本发明的核酸构建体和/或编码其的表达盒和/或载体可用于修饰玉蜀黍、大豆、小麦、卡诺拉油菜、水稻、番茄、胡椒、向日葵、覆盆子、黑莓、黑树莓和/或樱桃。
[0189]
在一些实施方案中,本发明提供了包含本发明的多肽、多核苷酸、核酸构建体、表达盒或载体的细胞(例如,植物细胞、动物细胞、细菌细胞、古细菌细胞等)。
[0190]
本发明进一步包括用于实施本发明方法的一个或多个试剂盒。本发明的试剂盒可以包括试剂、缓冲剂和用于混合、测量、分类、标记等的装置,以及适用于修饰靶核酸的说明书等。
[0191]
在一些实施方案中,本发明提供了一种试剂盒,其包括一种或多种本发明的核酸构建体,和/或如本文所述包含其的表达盒和/或载体和/或细胞,以及其使用的可选说明书。在一些实施方案中,试剂盒可进一步包括crispr-cas指导核酸(对应于由本发明的多核苷酸编码的crispr-cas效应蛋白)和/或包含其的表达盒和/或载体和/或细胞。在一些实施方案中,可以在与本发明的一种或多种核酸构建体相同的表达盒和/或载体上提供指导核酸。在一些实施方案中,可以在与包含本发明的一种或多种核酸构建体的表达盒或载体分开的表达盒或载体上提供指导核酸。
[0192]
因此,在一些实施方案中,提供了包括核酸构建体的试剂盒,所述核酸构建体包含(a)本文提供的一种或多种多核苷酸和(b)驱动(a)的一种或多种多核苷酸表达的启动子。在一些实施方案中,试剂盒还可包括编码指导核酸的核酸构建体,其中构建体包含用于将与靶核酸序列相同或互补的核酸序列克隆到指导核酸的骨架中的克隆位点。
[0193]
在一些实施方案中,本发明的核酸构建体可以是可编码在所编码的多核苷酸内的一个或多个内含子的mrna。在一些实施方案中,本发明的核酸构建体和/或包含其的表达盒和/或载体可以进一步编码一种或多种用于鉴定转化体的可选择标志物(例如,编码抗生素抗性基因、除草剂抗性基因等的核酸)。本发明的多肽、多核苷酸、核酸构建体、表达盒、载
体、组合物、试剂盒、系统和/或细胞可以包含seq id no:1-112中的一个或多个的序列的全部或部分。在一些实施方案中,本发明的多肽、多核苷酸、核酸构建体、表达盒、载体、组合物、试剂盒、系统和/或细胞可以包含seq id no:1-112中的一个或多个的序列的至少约20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或更多连续氨基酸。
[0194]
现在将参考以下实施例描述本发明。应当理解,这些实施例并非旨在将权利要求的范围限制于本发明,而是旨在作为某些实施方案的示例。本领域技术人员想到的示例性方法的任何变化都旨在落入本发明的范围内。
[0195]
实施例
[0196]
实施例1:用于使用募集进行c和a编辑的ms2/mcp系统。
[0197]
在该系统中,递送crispr-cas效应蛋白(例如酶)、胞嘧啶脱氨酶、腺嘌呤脱氨酶和指导rna。将crispr-cas效应蛋白融合至胞嘧啶脱氨酶结构域(cbe)或腺嘌呤脱氨酶结构域(abe),另一种脱氨酶使用ms2发夹被募集至靶核酸。在hek293t细胞中,转染编码cbe或abe、mcp-c-脱氨酶或mcp-a-脱氨酶(互补cbe或abe)和含有ms2发夹的指导rna的质粒。3d后,收获细胞并使用高通量测序进行分析(图1)。
[0198]
例如,使用be4max和mcp-2xtada靶向hek2基因座(表1)。大部分细胞具有编辑了的c和a两者(表1)。此外,以高频率获得了包含多个突变的几个等位基因(表1)。
[0199]
表1.一个版本的并发碱基编辑器靶向样品的等位基因频率图。
[0200][0201][0202]
实施例2:用于c和a编辑的suntag系统。
[0203]
将crispr-cas效应蛋白(例如酶)的n或c末端融合至包含多个gcn4表位的suntag。将识别gcn4的单链可变片段抗体(scfv)单独地或作为单一融合物融合至腺嘌呤和胞苷脱氨酶,但在本实施例中单独融合至腺嘌呤和胞苷脱氨酶。ugi可以作为融合物或以反式提供,但在本实施例中以反式提供。结合后,两种脱氨酶将同时募集至靶位点,并在脱氨窗口内执行c和a编辑(例如,通常观察到碱基编辑的靶位点中的子序列)。这样的系统用于两种不同的指导rna。在这些基因座上,观察到靶向的c和a的稳健多样化,如图2所示。观察到窗口中c和a的稳健多样化(图2)。
[0204]
实施例3:用于c和a编辑的tree系统。
[0205]
在tree系统中,crispr-cas效应蛋白(例如酶)包含用ms2发夹修饰的指导rna。然后,通过融合至mcp蛋白(称为“分支”),将suntag表位募集至ms2发夹。最后,通过融合至结合suntag的抗体,将目标蛋白质募集至suntag。在hek293t细胞中使用ncas9(d10a)或encas9(d10a)、mcp-suntag、scfv-apobec1和scfv-2xtada来利用tree系统。它导致窗口中腺嘌呤和胞苷残基两者的诱变(图3)。如图3所示,观察到多样化。
[0206]
实施例4:多样化的脱氨酶筛选。
[0207]
对已显示有作为cas9融合物功能的五种脱氨酶分析碱基多样化功能:rapobecl、apobec3a、apobec3b、haid、pmcda1。将它们在n末端融合至mcp(ms2加帽蛋白),并通过使用融合至2x ms2发夹的grna而募集至cas9切口酶(d10a)。针对hek293t细胞中的几个基因组位点对它们进行测定。通过高通量测序来分析碱基转化谱,结果如图4所示。
[0208]
apobec1、apobec3a和pmcda1在碱基编辑窗口内稳健地将c转化为g、t和a核苷酸(图4)。每个脱氨酶结构域产生不同水平的碱基编辑以及不同核苷酸组成的产物碱基谱(图4)。此外,与apobec1或apobec3a相比,pmcda1更喜欢编辑远离pam位点的胞苷,因此可以为靶位点的所需编辑窗口选择不同的酶(图4)。这是使用apobec3b、pmcda1脱氨酶来诱导非c到t碱基变化的首次演示。
[0209]
ap核酸内切酶i(ape1)是碱基切除修复通路中的一种酶,在脱碱基位点处切割磷酸二酯键,在碱基编辑的链中产生切口。当与切口非碱基编辑的链的cas9切口酶结合使用时,导致双链断裂(dsb),引起插入缺失。在缺乏ugi的构建体中,碱基多样化通常伴随着插入缺失。例如,在上述所有靶位点中,约5-20%的产物包含插入缺失,这降低碱基多样化的效率(图5)。
[0210]
实施例5:细胞通路的调节——ape1抑制剂
[0211]
使用crt0044876抑制ape1(方案1),crt0044876是一种有效且众所周知的ape1抑制剂。
[0212]
方案1:crt0044876的化学结构。
[0213][0214]
为了确定这种化合物是否能改善碱基多样化谱,在crt0044876存在的情况下,用融合至cas9切口酶(d10a)的aid或pmcda1处理hek293t细胞。3d后,收获细胞并通过高通量测序(hts)进行分析。在100μm和200μm浓度下,crt0044876导致多个靶位点间产生的插入缺失的量显著减少,尽管也观察到碱基多样化率有所下降(图6)。
[0215]
实施例6:细胞通路的调节-sirna
[0216]
可以通过sirna抑制细胞ape1。将通过使用rnai方法抑制ape1。我们将在转染编码碱基多样化构建体的质粒之前或期间,转染靶向内源性ape1的sirna。孵育后,将收获细胞并通过hts进行分析。
[0217]
实施例7:dna-pkcs抑制剂和/或dna连接酶iv抑制剂
[0218]
抑制dna-pkcs(例如,nu7026和/或ku-0060648)和/或抑制dna连接酶iv(例如,scr7)的化合物将以不同的剂量应用于hek293t细胞。随后将编码碱基多样化构建体的质粒转染到细胞中。3d孵育后,将通过hts分析细胞以评估在靶位点处的碱基多样化率。
[0219]
实施例8:人体细胞测试方法
[0220]
真核hek293t(atcc crl-3216)细胞在补充有10%(v/v)fbs(fbs)的dulbecco’s modified eagle’s medium plus glutamax(thermofisher)中于37℃和5%co2下培养。cas和逆转录酶组分是使用固态合成进行合成的,并随后克隆到质粒中在cmv启动子后。将指导
rna克隆在人类u6启动子后。hek293t细胞接种在48孔胶原蛋白涂覆的biocoat板(coming)上。细胞在~70%的汇合度进行转染。根据制造商的方案,每孔使用1.5μl的lipofectamine 3000(thermofisher scientific)转染750ng的crispr质粒和250ng的crrna表达质粒。3天后获得来自转染细胞的基因组dna,并使用高通量illumina扩增子测序来检测和定量插入缺失。
[0221]
实施例9:使用abe8腺嘌呤脱氨酶的并行碱基编辑(cube)
[0222]
abe8.20m使用经过工程化和进化的tada酶(tada8.20m),其具有改善的腺嘌呤编辑活性(gaudelli等人nat biotechnol.2020jul;38(7):892-900)。在本实验中,掺入了abe8中使用的脱氨酶,以进一步改善cube活性。测试了apobec3a(a3a)与进化的tada8.20m到切口酶cas9和尿嘧啶糖基化酶抑制剂(ugi)的不同融合组合。测试的融合蛋白具有seq id no:79-83中任一个的序列。tada*表示上一代腺嘌呤脱氨酶(gaudelli等人.nature.2017nov 23;551(7681):464-471)。这些构建体在hek293t细胞中用多个间隔区进行了测试。hek293t测试方法如实施例8所述进行。测试的间隔区序列具有seq id no:84-93中任一个的序列。观察到用测试的间隔区在碱基编辑窗口内对腺嘌呤和胞嘧啶两者进行的稳健编辑(图7-16)。如图7-16所示,并行碱基编辑使得能够转换间隔区中的腺嘌呤和胞嘧啶两者。
[0223]
实施例10:gam蛋白的胞嘧啶碱基多样化(cbd)
[0224]
gam是一种结合双链dna断裂的蛋白质(shee等人elife 2013;2:e01222),其包含seq id no:100的序列。通过结合双链断裂(dsb)末端,已显示其在基因编辑实验期间减少插入缺失产物的数量(komor等人sci adv.2017aug 30;3(8):eaao4774)。在这个实施例中,将gam蛋白的至少一部分要么融合至cbd构建体,要么在细胞中表达以改善碱基多样化活性。转染的质粒编码cbd和gam构建体,并指导rna靶向hek293t细胞内源基因组中的各个位点。所测试的融合蛋白具有feq id no:94-99中任一项的序列,并且本实验中使用的间隔区序列具有seq id no:101-110中任一项的序列。hek293t测试方法如实施例8所述进行。3天后,使用高通量测序分析编辑结果。据观察,gam蛋白可与cbd酶一起使用以使胞嘧啶碱基多样化(图17-26)。将gam要么在n端融合至cbd酶,要么作为单独的分子添加,表示为“+gam”。如图17-26所示,胞嘧啶碱基多样化可以由具有和不具有gam的cbd构建体介导。图27显示了带有或不带有gam的cbd构建体生成的插入缺失。
[0225]
实施例11:具有cas12a cbd的大豆(glycine max)中的胞嘧啶碱基多样化
[0226]
使用农杆菌介导的t-dna转化将apobec3a-dcas12a(seq id no:111)转化到大豆植物中。靶序列具有seq id no:112的序列。在选择稳定的转化体后,在转化后5周对叶子进行取样。从叶子样品中提取dna,然后使用illumina高通量测序对编辑进行分析。表2显示了apobec3a-dcas12a在大豆植物中的胞嘧啶多样化活性。
[0227]
表2.
[0228][0229][0230]
以上是对本发明的示例性说明,不应被解释为对本发明的限制。本发明由以下权利要求限定,其中包括权利要求的等同物。

技术特征:


1.一种修饰靶核酸的方法,所述方法包括:使靶核酸接触:crispr-cas效应蛋白(例如,crispr酶),指导核酸(例如,指导rna),胞嘧啶脱氨酶,和腺嘌呤脱氨酶,其中胞嘧啶脱氨酶和腺嘌呤脱氨酶并行地和/或同时地修饰靶核酸,任选地在包含crispr-cas效应蛋白、胞嘧啶脱氨酶和腺嘌呤脱氨酶的试剂的单次递送中进行修饰,和/或其中crispr-cas效应蛋白与胞嘧啶脱氨酶和/或腺嘌呤脱氨酶形成复合物或包含在复合物中,从而修饰靶核酸。2.权利要求1所述的方法,其中指导核酸包含rna募集基序,任选地其中rna募集基序是ms2发夹。3.权利要求1或2所述的方法,其中crispr-cas效应蛋白包含指导核酸或复合物进一步包含指导核酸。4.前述权利要求中任一项所述的方法,其中将crispr-cas效应蛋白融合至胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。5.前述权利要求中任一项所述的方法,其中将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶不融合至cas9。6.前述权利要求中任一项所述的方法,其中将胞嘧啶脱氨酶与腺嘌呤脱氨酶融合在一起以提供融合蛋白,任选地其中融合蛋白包含seq id no:79-83中任一项的序列的全部或部分。7.前述权利要求中任一项所述的方法,其中胞嘧啶脱氨酶和/或腺嘌呤脱氨酶包含ms2加帽蛋白(mcp)或其部分,任选地其中将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶与mcp或其部分融合在一起。8.权利要求7所述的方法,其中mcp蛋白或其部分结合rna募集基序(例如,ms2发夹)。9.权利要求2-8中任一项所述的方法,其中使用ms2发夹将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶募集至靶核酸。10.前述权利要求中任一项所述的方法,其中使靶核酸接触进一步包括使靶核酸接触crispr-cas效应蛋白、指导核酸、胞嘧啶脱氨酶、腺嘌呤脱氨酶和糖基化酶抑制剂(例如,尿嘧啶糖基化酶抑制剂(ugi))。11.权利要求10所述的方法,其中将糖基化酶抑制剂融合至crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。12.前述权利要求中任一项所述的方法,其中crispr-cas效应蛋白包含肽标签(例如,suntag),任选地其中肽标签包含一个或多个(例如,1、2、3、4或更多个)gcn4表位。13.权利要求12所述的方法,其中腺嘌呤脱氨酶和/或胞嘧啶脱氨酶包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将腺嘌呤脱氨酶和/或胞嘧啶脱氨酶与亲和多肽融合一起。14.权利要求13所述的方法,其中使用亲和多肽将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶募集至靶核酸。
15.权利要求12-14中任一项所述的方法,其中通过融合至mcp或其部分将肽标签(例如,sun tag)募集至rna募集基序(例如,ms2发夹)并且使用亲和多肽将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶募集至肽标签。16.权利要求1-11中任一项所述的方法,其中腺嘌呤脱氨酶和/或胞嘧啶脱氨酶包含肽标签(例如suntag),任选地其中肽标签包含一个或多个(例如1、2、3、4或更多个)gcn4表位。17.权利要求16所述的方法,其中crispr-cas效应蛋白包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将crispr-cas效应蛋白与亲和多肽融合在一起。18.权利要求17所述的方法,其中使用亲和多肽将crispr-cas效应蛋白募集至靶核酸。19.权利要求16-18中任一项所述的方法,其中将肽标签(例如,sun tag)募集至rna募集基序(例如,ms2发夹)并且使用亲和多肽将crispr-cas效应蛋白募集至肽标签。20.前述权利要求中任一项所述的方法,其中crispr-cas效应蛋白是v型crispr-cas效应蛋白。21.前述权利要求中任一项所述的方法,其中靶核酸在基因的非编码区(例如,启动子区)中或其中靶核酸在基因的编码区中。22.前述权利要求中任一项所述的方法,进一步包括使靶核酸接触目标多肽(例如,包含seq id no:100或seq id no:113的全部或部分的多肽),任选地其中将目标多肽融合至crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。23.一种碱基编辑组合物或系统,包括:crispr-cas效应蛋白(例如,crispr酶),指导核酸(例如,指导rna),胞嘧啶脱氨酶,和腺嘌呤脱氨酶,其中crispr-cas效应蛋白、胞嘧啶脱氨酶和腺嘌呤脱氨酶形成复合物或包含在复合物中。24.权利要求23所述的碱基编辑组合物或系统,其中指导核酸包含rna募集基序,任选地其中rna募集基序是ms2发夹。25.权利要求23或24所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白包含指导核酸和/或复合物进一步包含指导核酸。26.权利要求23-25中任一项所述的碱基编辑组合物或系统,其中将crispr-cas效应蛋白融合至胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。27.权利要求23-26中任一项所述的碱基编辑组合物或系统,其中将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶不融合至cas9。28.权利要求23-27中任一项所述的碱基编辑组合物或系统,其中将胞嘧啶脱氨酶与腺嘌呤脱氨酶融合在一起以提供融合蛋白,任选地其中融合蛋白包含seq id no:79-83中任一项的序列的全部或部分。29.权利要求23-28中任一项所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶和/或腺嘌呤脱氨酶包含ms2加帽蛋白(mcp)或其部分,任选地其中将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶与mcp或其部分融合在一起。30.权利要求29所述的碱基编辑组合物或系统,其中mcp蛋白或其部分结合至rna募集
基序(例如,ms2发夹)。31.权利要求23-30中任一项所述的碱基编辑组合物或系统,还包含糖基化酶抑制剂(例如,尿嘧啶糖基化酶抑制剂(ugi))和/或目标多肽(例如,包含seq id no:100或seq id no:113的全部或部分的多肽),任选地其中将糖基化酶抑制剂和/或目标多肽融合至crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。32.权利要求31所述的碱基编辑组合物或系统,其中将糖基化酶抑制剂融合至crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。33.权利要求23-32中任一项所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白包含肽标签(例如,suntag),任选地其中肽标签包含一个或多个(例如,1、2、3、4或更多个)gcn4表位。34.权利要求33所述的碱基编辑组合物或系统,其中腺嘌呤脱氨酶和/或胞嘧啶脱氨酶包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将腺嘌呤脱氨酶和/或胞嘧啶脱氨酶与亲和多肽融合在一起。35.权利要求34所述的碱基编辑组合物或系统,其中使用亲和多肽将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶募集至靶核酸。36.权利要求33-35中任一项所述的碱基编辑组合物或系统,其中通过融合至mcp或其部分将肽标签(例如sun tag)募集至rna募集基序(例如ms2发夹)并且使用亲和多肽将胞嘧啶脱氨酶和/或腺嘌呤脱氨酶募集至肽标签。37.权利要求23-32中任一项所述的碱基编辑组合物或系统,其中腺嘌呤脱氨酶和/或胞嘧啶脱氨酶包含肽标签(例如suntag),任选地其中肽标签包含一个或多个(例如1、2、3、4或更多个)gcn4表位。38.权利要求37所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将crispr-cas效应蛋白与亲和多肽融合一起。39.权利要求38所述的碱基编辑组合物或系统,其中使用亲和多肽将crispr-cas效应蛋白募集至靶核酸。40.权利要求37-39中任一项所述的碱基编辑组合物或系统,其中将肽标签(例如,sun tag)募集至rna募集基序(例如,ms2发夹)并且使用亲和多肽将crispr-cas效应蛋白募集至肽标签。41.权利要求23-40中任一项所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白是v型crispr-cas效应蛋白。42.一种修饰靶核酸的方法,所述方法包括:使靶核酸接触:crispr-cas效应蛋白(例如,crispr酶),指导核酸(例如,指导rna),和胞嘧啶脱氨酶,其中所述方法将靶核酸的胞嘧啶(c)修饰为腺嘌呤(a)、鸟嘌呤(g)或胸腺嘧啶(t),从而修饰靶核酸。43.权利要求42所述的方法,其中胞嘧啶脱氨酶是载脂蛋白b mrna-编辑复合物
(apobec)脱氨酶(例如apobecl脱氨酶、apobec2脱氨酶、apobec3a脱氨酶、apobec3b脱氨酶、apobec3c脱氨酶、apobec3d脱氨酶、apobec3f脱氨酶、apobec3g脱氨酶、apobec3h脱氨酶、apobec4脱氨酶和/或rapobecl脱氨酶)、人活化诱导脱氨酶(haid)、ferny脱氨酶和/或cda1脱氨酶(例如,pmcda1、atcda1(例如,at2g19570))和/或其进化形式,任选地其中胞嘧啶脱氨酶包含seq id no:40-49中任一项的氨基酸序列的全部或部分。44.权利要求42或43所述的方法,其中使靶核酸接触进一步包括使靶核酸接触crispr-cas效应蛋白、指导核酸、胞嘧啶脱氨酶和尿嘧啶n-糖基化酶(ung)。45.权利要求42-44中任一项所述的方法,其中所述方法包括调节crispr-cas效应蛋白的dna结合亲和力。46.权利要求42-45中任一项所述的方法,其中指导核酸与靶核酸具有不完全的互补性。47.权利要求42-46中任一项所述的方法,其中crispr-cas效应蛋白包含cas9,任选地其中cas9与靶核酸具有减弱的相互作用。48.权利要求42-47中任一项所述的方法,其中所述方法包括调节(例如,增加或减少)crispr-cas效应蛋白在靶核酸处的停留时间。49.权利要求42-48中任一项所述的方法,其中所述方法包括产生用作dna聚合酶的模板的脱碱基位点。50.权利要求42-49中任一项所述的方法,其中使靶核酸接触进一步包括使靶核酸接触crispr-cas效应蛋白、指导核酸、胞嘧啶脱氨酶和ap核酸内切酶i(ape1)抑制剂,任选地其中ape1抑制剂是有机化合物和/或核酸(例如,sirna)。51.权利要求42-50中任一项所述的方法,其中所述方法包括抑制ape1。52.权利要求42-51中任一项所述的方法,其中所述方法包括抑制或减少插入缺失形成,任选地与不存在ape1抑制剂时的插入缺失形成的量相比。53.权利要求42-52中任一项所述的方法,其中使靶核酸接触进一步包括使靶核酸接触crispr-cas效应蛋白、指导核酸、胞嘧啶脱氨酶和dna连接酶iv抑制剂。54.权利要求42-53中任一项所述的方法,其中使靶核酸接触进一步包括使靶核酸接触crispr-cas效应蛋白、指导核酸、胞嘧啶脱氨酶和dna-pkcs抑制剂。55.权利要求42-54中任一项所述的方法,其中所述方法包括减少非同源末端连接(nhej)。56.权利要求42-55中任一项所述的方法,其中使靶核酸接触进一步包括使靶核酸接触crispr-cas效应蛋白、指导核酸、胞嘧啶脱氨酶和外源聚合酶,任选地其中通过crispr-cas效应蛋白将外源聚合酶募集至靶核酸。57.权利要求56所述的方法,其中将外源聚合酶融合至v型crispr-cas效应蛋白,任选地其中将外源聚合酶融合至cas9(例如dcas9或ncas9)。58.权利要求56或57所述的方法,其中外源聚合酶是密码子优化的。59.权利要求30-47中任一项所述的方法,其中crispr-cas效应蛋白包含肽标签(例如,suntag),任选地其中肽标签包含一个或多个(例如,1、2、3、4或更多个)gcn4表位。60.权利要求59所述的方法,其中胞嘧啶脱氨酶包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将胞嘧啶脱氨酶与亲和多肽融合在一起。
61.权利要求60所述的方法,其中使用亲和多肽将胞嘧啶脱氨酶募集至靶核酸。62.权利要求42-58中任一项所述的方法,其中胞嘧啶脱氨酶包含肽标签(例如suntag),任选地其中肽标签包含一个或多个(例如1、2、3、4或更多个)gcn4表位。63.权利要求62所述的方法,其中crispr-cas效应蛋白包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将crispr-cas效应蛋白与亲和多肽融合在一起。64.权利要求63所述的方法,其中使用亲和多肽将crispr-cas效应蛋白募集至靶核酸。65.权利要求62-64中任一项所述的方法,其中将肽标签(例如,sun tag)募集至rna募集基序(例如,ms2发夹)并且使用亲和多肽将crispr-cas效应蛋白募集至肽标签。66.权利要求42-65中任一项所述的方法,其中所述方法提供大于0.1%、0.5%、1%、2%、5%、10%、20%、30%、40%、50%、60%、70%或80%的碱基置换频率,任选其中c至非t编辑(例如c至g编辑和/或c至a编辑)的碱基置换频率大于约0.1%、0.5%、1%、2%、5%、10%、20%、30%、40%、50%、60%、70%或80%,和/或其中所述方法提供对于c

g∶c

t变化高至约1∶1或1.5∶1的比率。67.权利要求42-66中任一项所述的方法,其中靶核酸存在于植物细胞或真核细胞(例如哺乳动物细胞)中。68.权利要求42-67中任一项所述的方法,其中胞嘧啶脱氨酶包含ms2加帽蛋白(mcp)或其部分,任选地其中将mcp或其部分融合至胞嘧啶脱氨酶氨基酸的n末端。69.权利要求42-68中任一项所述的方法,其中胞嘧啶脱氨酶包含cas9结构域,任选地其中将胞嘧啶脱氨酶融合至cas9结构域。70.权利要求42-69中任一项所述的方法,其中胞嘧啶脱氨酶包含失活的lbcpf1(dlbcpf1),任选地其中将胞嘧啶脱氨酶融合至dlbcpf1。71.权利要求42-70中任一项所述的方法,其中胞嘧啶脱氨酶是密码子优化的。72.权利要求71所述的方法,其中针对单子叶植物表达或针对子叶植物表达对胞嘧啶脱氨酶进行密码子优化。73.权利要求42-72中任一项所述的方法,进一步包括使靶核酸与目标多肽(例如,包含seq id no:100或seq id no:113的全部或部分的多肽)接触,任选地其中将目标多肽融合至crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。74.一种碱基编辑组合物或系统,包括:crispr-cas效应蛋白(例如,crispr酶),指导核酸(例如,指导rna),和胞嘧啶脱氨酶,其中组合物或系统缺乏糖基化酶抑制剂(例如,尿嘧啶糖基化酶抑制剂(ugi))。75.权利要求74所述的碱基编辑组合物或系统,其中指导核酸包含rna募集基序,任选地其中rna募集基序是ms2发夹。76.权利要求74或75所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白包含指导核酸和/或复合物进一步包含指导核酸。77.权利要求74-76中任一项所述的碱基编辑组合物或系统,其中指导核酸与靶核酸具有不完全的互补性。78.权利要求74-77中任一项所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶是载脂
蛋白b mrna-编辑复合物(apobec)脱氨酶(例如apobec1脱氨酶、apobec2脱氨酶、apobec3a脱氨酶、apobec3b脱氨酶、apobec3c脱氨酶、apobec3d脱氨酶、apobec3f脱氨酶、apobec3g脱氨酶、apobec3h脱氨酶、apobec4脱氨酶和/或rapobec1脱氨酶)、人活化诱导脱氨酶(haid)、ferny脱氨酶和/或cda1脱氨酶(例如pmcda1、atcda1(例如at2g19570))和/或其进化形式,任选地其中胞嘧啶脱氨酶包含seq id no:40-49中任一项的氨基酸序列的全部或部分。79.权利要求74-78中任一项所述的碱基编辑组合物或系统,其中将crispr-cas效应蛋白融合至胞嘧啶脱氨酶。80.权利要求74-79中任一项所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶包含ms2加帽蛋白(mcp)或其部分,任选地其中将胞嘧啶脱氨酶与mcp或其部分融合在一起。81.权利要求80所述的碱基编辑组合物或系统,其中mcp蛋白或其部分结合至rna募集基序(例如,ms2发夹)。82.权利要求74-81中任一项所述的碱基编辑组合物或系统,还包含糖基化酶结构域(例如,ung结构域)。83.权利要求74-82中任一项所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白包括v型crispr-cas效应蛋白。84.权利要求74-83中任一项所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白包含cas9,任选地与靶核酸具有减弱的相互作用的cas9。85.权利要求74-84中任一项所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白包含(例如,融合至)外源聚合酶,任选地其中外源聚合酶任选地是密码子优化的。86.权利要求74-85中任一项所述的碱基编辑组合物或系统,其中crispr-cas效应蛋白包含肽标签(例如,suntag)并且胞嘧啶脱氨酶包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将胞嘧啶脱氨酶与亲和多肽融合在一起。87.权利要求74-86中任一项所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶包含肽标签(例如,suntag)并且crispr-cas效应蛋白包含能够结合肽标签的亲和多肽(例如,scfv),任选地其中将crispr-cas效应蛋白与亲和多肽融合在一起。88.权利要求74-87中任一项所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶包含mcp或其部分,任选地其中将mcp或其部分融合至胞嘧啶脱氨酶氨基酸序列的n末端。89.权利要求74-88中任一项所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶包含cas9、cas12、cas13或cas14结构域。90.权利要求89所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶包含cas9结构域,任选地其中将胞嘧啶脱氨酶融合至cas9结构域。91.权利要求74-88中任一项所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶包含失活的lbcpf1(dlbcpf1),任选地其中将胞嘧啶脱氨酶融合至dlbcpf1。92.权利要求74-91中任一项所述的碱基编辑组合物或系统,其中胞嘧啶脱氨酶是密码子优化的,任选地针对单子叶植物表达和/或双子叶植物表达进行密码子优化。93.权利要求74-91中任一项所述的碱基编辑组合物或系统,进一步包含目标多肽(例如,包含seq id no:100或seq id no:113的全部或部分的多肽),任选地其中将目标多肽融合至crispr-cas效应蛋白、胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。100.权利要求1-22中任一项所述的方法,其中靶核酸存在于植物细胞或真核细胞(例
如哺乳动物细胞)中。

技术总结


本申请描述了修饰或编辑靶核酸的方法,例如将胞嘧啶编辑为胸腺嘧啶和将腺嘌呤编辑为鸟嘌呤的方法和/或将胞嘧啶编辑为胸腺嘧啶、腺嘌呤或鸟嘌呤的方法。本申请还描述了用于修饰或编辑靶核酸的组合物和系统。本申请所述的方法、组合物和系统可用于产生等位基因多样性。性。性。


技术研发人员:

Y

受保护的技术使用者:

成对植物服务股份有限公司

技术研发日:

2021.01.29

技术公布日:

2022/11/22

本文发布于:2024-09-23 12:28:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/21884.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议