没有合适的资源?快使用搜索试试~ 我知道了~
文章非B DNA基序对启动子功能作用的高通量表征图形摘要亮点D 非B DNA基序基因座d大规模平行报告基因测定测量非B DNA基序对表达dZ-DNA显著影响跨细胞类型和实验的dG-四链体的取向影响它们的形成和启动子活性作者Ilias Georgakopoulos-Soares,作者:Jesus Victorino,Guillermo E.Parada,... Fumitaka Inoue,MartinHemberg,Nadav Ahituv通信mhemberg@bwh.harvard.edu(M.H.),nadav. ucsf.edu(不适用)简言之Georgakopoulos-Soares等人进行了生殖系突变的计算分析,并确定了非B DNA基序的突变性增加。使用大规模平行报告分析研究了非B DNA基序对基因表达的贡献,鉴定了Z-DNA作为基因表达的正调控因子,并发现G-四链体的方向影响启动子活性。Georgakopoulos-Soares等人,2022,细胞基因组学2,1001112022年4月13日-作者。https://doi.org/10.1016/j.xgen.2022.100111会会开放获取文章非BDNA基序对启动子功能作用的高通量表征1,2Jesus Victorino,3,4,14Guillermo E.Parada,5,6,14Vikram Agarwal,7Jingjing Zhao,1,2Hei Yuen Wong,8Mubarak Ishaq Umar,8Orry Elor,1Allan Muhwezi,5Joon-Yong An,9,10Stephan J. Sanders,2,9Chun KitKwok,8,11Fumitaka Inoue,1,2,1,2Martin Hemberg,5,6,13,*and Nadav Ahituv1,2,15,*1美国加州大学旧金山分校生物工程和治疗科学系2美国加州大学旧金山分校人类遗传学研究所3Centro Nacional de Investigaciones Muscervasculares Carlos III(CNIC),28029 Madrid,Spain4DepartamentodeBioqu′nimica, FacultaddeMedicina,Universidad Auto′ nomadeMadrid(UAM),28029Madrid,Spain5Wellcome Sanger Institute,Wellcome Genome Campus,Hinxton CB10 1SA,UK6Wellcome Trust Cancer Research UK英国剑桥大学戈登研究所,Tennis Court Road,Cambridge CB2 1QN,UK7Calico生活科学有限责任公司,南San弗朗西斯科,CA:美国8香港城市大学化学系及海洋污染国家重点实验室,香港特别行政区九龙塘9美国加州大学旧金山分校威尔神经科学研究所精神病学系,加利福尼亚州旧金山10韩国大学健康科学学院生物系统与生物医学科学学院,韩国11中国深圳香港城市大学深圳研究院12现住址:京都大学人类生物学高级研究所(WPI-ASHBi),日本13现住址:哈佛医学院恒大免疫疾病中心和马萨诸塞州波士顿布里格姆妇女美国14、作者贡献相等15引线触点* 通信:mhemberg@bwh.harvard.edu(M.H.),nadav. ucsf.edu(不适用)https://doi.org/10.1016/j.xgen.2022.100111总结替代DNA构象,称为非B DNA结构,可以影响转录,但其潜在的机制和功能的影响还没有系统的特点。在这里,我们使用了计算基因组分析结合大规模平行报告基因分析(MPRA),以表明某些非B DNA结构对基因表达有实质性影响。基因组分析发现,在启动子的非B DNA结构港的种系变异体过量多个MPRA的分析,包括一个启动子文库,专门设计来扰乱非B DNA结构,功能验证,Z-DNA可以显着影响启动子活性。我们还观察到,非B DNA基序的生物物理性质,如Z-DNA基序的长度和G-四链体结构相对于转录方向的方向,对启动子活性有显着的影响结合起来,它们的较高突变率和对转录的功能影响暗示了非B DNA基序的子集是人类基因表达相关表型的主要驱动因素介绍在生理条件下,DNA的有利构象是右手双螺旋,也称为B-DNA(图1A)。然而,替代的DNA构象,统称为非B DNA结构,已被确认并显示影响转录,复制,重组和DNA修复,无论是短暂的或较长的时间。1形成非规范结构的倾向及其生物物理性质由可从一级序列鉴定的非B DNA基序决定。2-G-四链体(G4)由散布有环元件的四个或更多个G-运行组成(图1C)。包括单核苷酸肽重复序列的同向和串联重复序列可以形成滑动结构(图1D);具有高A/G含量的镜像重复序列可以形成三链DNA结构(图1E);并且反向重复序列可以形成发夹和十字形(图1F和1G)。先前的研究表明,非B DNA结构是突变热点,因为它们更有可能以单链DNA的形式暴露出来,使它们容易受到损伤。6,7它们增加的突变性导致过量的群体变异体与非B DNA基序重叠8,9和癌症中这些位点处过量的体细胞诱变。10-它们在调节区16Cell Genomics2,100111,April 13,2022?作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取文章2细胞基因组学2,100111,2022A BECHI J K图1. 基因组变体在非B DNA基序((A) 典型的B-DNA结构。(B) 左手双链DNA,称为Z-DNA构象。(C) G-四链体形成的四个G-运行穿插成环区域的网站(D) 直接和串联重复序列不对齐,形成滑动的DNA结构。臂是重复单元,间隔物是插入的非重复部分。(E) 具有高AG/TC含量的镜像重复序列的子集折叠成分子内DNA结构,称为H-DNA。臂是镜像对称的重复单元和的间隔件的中间非重复部分(F和G)(F)反向重复折叠成发夹结构,(G)反向重复可以折叠成十字形结构。臂是具有反向对称的重复单元,间隔物是介于其间的非重复部分。(图例接下页)DFG细胞基因组学2,100111,2022年4月13日3文章会开放获取许多疾病,如癌症、脆性X综合征和弗里德赖希共济失调。20[23]因此,在对突变率和致病性建模时,考虑非BDNA基序七、十五、二十四在人类基因组中,非B DNA基序分布不均匀。它们富含某些调控区域,包括开放染色质、启动子和50和30 UTR。16-25-例如,G4被证明可以调节关键癌症基因的表达,如MYC,c-Kit,BCL2和KRAS,它们的破坏导致明显的表达变化。此外,癌症类型和患者之间的复发性突变,包括TERT和PLEKHS 1基因中高度复发的启动子突变,与非B DNA基序重叠33然而,由于启动子区的种系或体细胞突变,非B DNA基序破坏的功能后果尚未以系统的方式研究,并且仍然知之甚少。此外,虽然在单个基因座上已经证明了单个基因上的启动子非B DNA结构对基因表达调控的影响,34,36,37,但关于非B DNA基序作为激活子或阻遏子的作用,38在这里,我们开始系统地确定非-B DNA基序对启动子转录调控的影响。 我们发现,非B DNA基序具有过多的多态性,其中许多影响基因表达水平。 为了进一步了解非B DNA基序对基因表达的影响,我们分析了各种基于慢病毒的大规模平行报告基因测定(lentiMPRAs39),以系统地测试非B DNA基序对启动子活性的影响。我们观察到特定的非B DNA序列和基因表达水平之间的因果关系。 我们还表明,生物物理性质,这影响了二级结构形成的可能性,稳定性与这些调节作用有关。我们的研究结果表明,非B DNA基序是启动子活性的重要决定因素,它们增加的突变性暗示它们是基因表达相关表型的主要驱动因素。结果非B DNA基序具有过多的遗传变异由于以前的研究表明,非B DNA基序富集体细胞突变,11,14,15我们着手分析这种富集是否也存在于种系变异。我们利用了数千个个体的可用的全基因组测序(WGS)数据集,并分析它们以确定非B DNA序列是否富集变异体。我们测量了204,063,503个单核苷酸多态性(SNP)的全基因组分布,包括罕见和常见变体以及来自gnomAD项目40的15,496个基因组的25,925,202个小插入和缺失(indel;50 bp),这些基因组与7个非B DNA基序相关:反向重复序列(IR)、同向重复序列(DR)、镜像重复序列(MR)、短串联重复序列(STR)、G4、Z-DNA和H-DNA基序(图1A为了形成零分布,我们生成了模拟的SNP,控制三核苷酸背景和与原始SNP的接近度(STAR方法)。我们观察到过量的SNP直接重叠非B DNA基序(图S1A; Mann-WhitneyU,p 0.0001),但影响的幅度很小,高度显著的p值是由于样本量大值得注意的是,H-DNA基序和IR分别显示最高(1.56)和最低(1.05)倍富集(图1H、S1B和S1 C)。类似地,与非BDNA基序重叠的插入缺失的比例相对于模拟对照显著升高(2.26倍,Mann-Whitney U,p0.0001;图S1 D)。对于小插入缺失,个体非B DNA基序处遗传变体的富集高于SNP,范围从IR的2.44倍到STR的13.68倍(图1H、S1E和S1F)。我们进一步将插入缺失分为插入和缺失,发现了取决于非B DNA基序类别的差异(图S1G)。例如,STR的缺失频率较高,而G4的插入频率较高。将我们的分析扩展到来自gnomAD项目的505,529个结构变异断裂点,40我们发现与非B DNA基序的强相关性,14.61%的结构变异断裂点直接与非B DNA基序重叠,而模拟对照为8.83%(Mann-Whitney U,p0.0001;图S1 H),代表1.66倍富集。对于单独的非B DNA基序,富集范围为G4的1.23倍至H-DNA基序的3.50倍(图1H和S1我们将结构变异分为六类:插入,缺失,在示意图(D)-(H) 非B DNA基序相对于左侧204,063,503个SNP的分布非B DNA基序相对于中心的25,925,202个小indel变体的分布非B DNA基序相对于右侧505,529个结构变体的分布针对三核苷酸背景校正富集DR、G4、IR、MR和STR分别是指直接重复、G-四链体、反向重复、镜像重复和短串联重复。(I)结构变异断裂点类别与非B DNA基序富集之间的关联INV、CPX、CTX、DEL、DUP和INS分别指倒位、复杂重排、易位、缺失、重复和插入调整后的p值显示为 *p 0.05、**p 0.01和 *p 0.001。(J) eQTL在非B DNA基序相对于邻近区域的富集模式。(K) 来自G4抗体处理的G4峰处的eQTL密度。4细胞基因组学2,100111,2022会开放获取文章复制、倒位、易位和复合体。我们发现缺失、插入和重复在非BDNA基序中最丰富(图11)。总之,这些结果表明,非B DNA基序是人类群体中不同类别的群体变异中遗传变异的热点。非B DNA基序富含基因调控相关变体为了进一步了解这些变体的调控潜力,我们研究了与EnsemblRegulatory Build定义的6个调控元件相关序列/功能中的非BDNA基序重叠的变体的相对频率:42个启动子、CTCF结合位点、开放染色质区域、转录因子结合位点、启动子侧翼区域和增强子。在12种不同的细胞系中进行分析(STAR方法),发现大多数非B DNA基序在调控元件中富集SNP、插入缺失和结构变体,但插入缺失比SNP和结构变体更富集(图S2我们还研究了在7个注释的基因亚区室中非B DNA基序的致突变性的增加:基因、内含子、编码和50和30 UTR以及转录起始位点(TSS)上游的1 kb和转录终止位点(TES)下游的1 kb大多数区域具有升高的突变率,尽管幅度因突变类型和基因亚区室而异(图S2正如预期的那样,编码区相对于其他区域显示出最低的致突变性,最可能是由于选择限制和增加的DNA修复。43为了分析非B DNA基序的变异是否会对基因表达产生实质性影响,我们分析了表达数量性状位点(eQTL)。我们检测了由GTEx联合体表征的eQTL的频率,在全基因组的7个非B DNA基序中的每一个上有44个eQTL我们发现,相对于其侧翼区域,所有非B DNA类别中eQTL的富集,对G4的影响最明显(图1J)。尽管非B DNA基序附近eQTL的过量可以通过较高的背景频率的替换和插入缺失SNP来解释(图1H),但我们的结果表明,与非BDNA基序重叠的突变子集影响基因表达。由于G4对基因表达的影响最明显,我们接下来分析了G4测序(G4-seq)和G4染色质免疫沉淀(ChIP)-seq数据集与群体变异和eQTL的重叠。我们使用先前发表的来自HEK-293 T细胞系的G4-seq数据集研究了群体变体和G4之间的关联,所述HEK-293 T细胞系用吡啶抑制素(PDS)和K+处理,其提供G4形成潜力45的体外证据,并且来自Ha-Cat细胞系的G4 ChIP-seq衍生峰提供形成G4结构的位点的体内16根据G4基序分析,我们发现SNP、插入缺失和结构变体在G4- seq和G4 ChIP-seq峰处富集(图S3我们认为与G4-seq K+和G4-seq PDS峰重叠的G4 ChIP-seq位点是最高置信度的实验衍生G4(图S3G),并发现置换、小indel和结构变体的一致富集为1.14倍、1.41倍和1.36倍(图S3G)。S3H和S3I)。接下来,我们发现,eQTL被发现更频繁地比预期的机会,在实验推导的G4位点。总共有20,310个eQTL与8,955个ChIP-seq峰重叠,其中34%的峰具有一个或多个eQTL(图1K和S3J)。有趣的是,实验衍生的G4的富集比我们从G4基序分析得到的结果更明显。这可能是G4形成在开放的染色质和转录区更频繁发生的结果。16我们还研究了G4 ChIP-seq峰重叠基因是否在校正G4基序方向的背景偏倚后(图S4A),我们发现非模板链上的G4基序与G4ChIP-seq峰重叠的频率是模板链上基序的1.71倍(二项式检验,p 13 10- 12)(图S4B和S4 C),表明G4形成中存在显著偏倚,这取决于其方向。非B DNA基序在启动子区富集我们接下来研究了非B DNA基序在Ensembl Regulatory Build定义的六个调控元件对于大多数非B DNA基序,我们发现启动子和CTCF结合位点相对于其他调控元件富集(图2A和S5A),与以前的发现一致。46接下来,我们将基因体分成六个区室:TSS上游的1 kb窗口,50和30 UTR,编码外显子和内含子,以及TES下游的1 kb一致地,对于大多数非B DNA基序,启动子区显示出比基因体更高密度的非B DNA基序,富集范围从IR的0.97倍到G4的3.02倍(图2B和S5B)。我们还发现,相对于其他调控元件,PDS和K+处理的G4-seq衍生峰以及启动子处的G4 ChIP-seq衍生峰显著富集(图2C)。在整个基因体中,我们发现启动子、编码区和50个UTR处的富集最高(图2D)。在启动子处,对于大多数非B DNA基序,TSS上游的富集高于更宽的启动子区域(图2E)。对非B DNA基序相对于TSS的分布的仔细研究显示峰TSS上游约50 bp,DR和G4基序的范围分别为1.28倍和1.89倍(图2F)。重要的是,我们观察到G4 ChIP-seq峰在TSS上游约100 bp处富集5倍,与文献一致有趣的是,ChIP-seq衍生的富集显著大于G4基序和G4-seq数据集的富集(图2G),反映了体内启动子处结构形成的偏好。我们还在启动子上游区域进行了基因本体论(GO)术语分析对于G4、Z-DNA基序和MR,我们发现了与发育过程相关的多个术语,例如模式特化过程(GO:0007389)、胚胎器官发育(GO:0048568)和神经元分化的正调控(GO:0045666)(图S6A)。由于这些分析表明一些非 B DNA 基 序 可 以 控 制 组 织 特 异 性 基 因 表 达 , 我 们 使 用TissueEnrich计算了细胞基因组学2,100111,2022年4月13日5文章会开放获取A BC DG图2. 功能元件(A) Ensembl Regulatory Features非B DNA基序富集的12个细胞系的中位相对富集。(B) 每个非B DNA基序在功能基因组区室的非BDNA基序富集。使用Bonferroni校正的二项式检验估计统计学显著性(C) Ensembl监管特征中G4-seq和G4 ChIP-seq峰值密度的Z(D) 整个基因体的G4-seq和G4 ChIP-seq峰密度的Z对于(C)和(D),在G4-seq中使用稳定G4的两种处理,PDS和K+(E) 相对于较宽的启动子区(-1 kB,0),[-250,0]区中非B DNA基序的富集。误差条表示自举的标准偏差。(F) 相对于TSS的核苷酸基序分布的碱基对分辨率。IR、MR、DR、STR和G4分别是反向重复序列、镜像重复序列、同向重复序列、短串联重复序列和G-四链体的缩写。(G) 相对于TSS的G4基序、K+和PDS处理中的G4-seq峰以及来自G4 ChIP-seq峰的G4富集模式。组织特异性基因的富集并发现了组织特异性基因组,其中一组神经元特异性基因富集了在其上游启动子区含有G4、MR、DR和STR的基因(图S6B)。总之,这些结果表明,启动子富集非BDNA基序相对于其他调控元件和其他基因室,一些非B DNA基序更有可能发生在发育和神经元基因。因此,过量的遗传变异在早期发现的非BDNA基序可能对组织和发育阶段的基因调控表达水平具有广泛的MPRA鉴定G4和Z-DNA对基因表达启动子区非B DNA基序的富集和某些非B DNA基序内EF会开放获取文章一BC6细胞基因组学2,100111,2022D E图3.具有非B DNA基序的序列对基因表达的贡献(A) 不同非B DNA基序的存在与表达之间的关联。显示了具有和不具有每个非B DNA基序的序列的表达的中值差异。误差条显示自举的标准偏差。(B) 具有和不具有G4和Z-DNA基序的序列的比较分析。(C) 具有和不具有控制GC含量的G4和Z-DNA基序的序列的比较分析。(B和C)用t检验和Bonferroni校正计算统计学显著性。(D和E)在(D)HepG2和(E)K562 IentiMPRA中具有和不具有非B DNA基序和转录因子结合位点的序列的中值表达之间的相对表达差异用t检验和Bonferroni校正估计统计学显著性。在(B)和(C)中,调整后的p值显示为 *p 0.05、**p 0.01和 *p 0.001。促使我们利用MPRA研究它们对基因转录的功能影响。我们首先分 析 了 由 我 们 的 小 组 生 成 的 两 个 lentiMPRA 数 据 集 , 作 为ENCODE对照的一部分,47其中在K562和HepG2细胞系中以两个方向检查了总共14,625和7,346个候选启动子序列。我们在lentiMPRA测试序列中鉴定了非B DNA基序(STAR方法),并检查了它们与基因表达的关联。我们发现,具有G4和Z-DNA基序的序列在两种细胞系中均显示出显著增加的表达水平(图3A和3B; t检验,Bonferroni校正,p 0.001),而对于IR、DR、STR和MR,我们未观察到一致的结果(图S7A)。由于在表达和鸟嘌呤-胞嘧啶(GC)含量之间存在已知的正相关性,48这也在我们 的lentiMPRA 数据集 中观察到(在 K562 和HepG 2中Pearson r分别= 0.398和0.261),我们构建了线性模型以解释GC含量对表达的贡献(图S7B)。具有Z-DNA基序的序列相对于具有Z-DNA基序的序列具有显著升高的表达水平。即使在控制两种细胞系中的GC含量后,没有它们的序列也是如此(t检验,Bonferroni校正p 0.001;图3C和S7C)。然而,在GC含量校正后,G4与表达增加无关,而在HepG2中,它们反而与表达水平降低显著相关(图3C和S7C)。从线性模型中去除离群值后获得了类似的结果(绝对Z评分>2.5)。此外,模板链上的G4与两种细胞系中相对于非模板链的表达降低相关,但差异仅在HepG2细胞系中达到统计学显著性(图S7D)。对于其他非B DNA基序,我们在两种细胞系中均未发现一致的效应,这表明核苷酸组成在GC含量校正之前对观察到的效应有贡献。最后,我们使用转录因子基序的JASPAR脊椎动物非冗余列表在MPRA序列中鉴定了转录因子结合位点[49]我们比较了GC含量校正前后非B DNA基序相对于TFBS对表达水平的贡献。会开放获取文章细胞基因组学2,100111,2022年4月13日7~我们发现,G4和Z-DNA基序对已知TFBS(如EGR 1、YY 1和SP 9)具有相似的贡献,导致相对于不含它们的序列表达水平增加(图S8)。然而,当我们考虑GC含量时,只有Z-DNA基序具有相当的效果(图3D和3E),并且结果在HepG 2和K562IentiMPRA之间是一致的。为了进一步验证我们的发现,我们分析了来自文库的lentiMPRA结果,该文库表征了Simons SimplexCollection中鉴定的3,623个从头启动子突变的影响该文库测试了以变体为中心的两个等位基因,总共7,246个序列以及150个阳性对照和150个阴性对照,以确定它们对神经祖细胞(NPC)中启动子活性的影响(图S9该文库具有1,234个含有一个或多个非B DNA基序的序列(图S9D)。我们观察到,含有G4、DR和Z-DNA基序的序列比不含它们的序列显示出显著更高的表达(t检验,Bonferroni校正的p值,G4、DR和Z-DNA p 0.001),而含有IR、MR和STR的序列没有显示出显著的相关性(p> 0.05)(图4A)。与ENCODE MPRA文库的分析类似,我们观察到GC含量对某些非B DNA基序表达的影响在构建线性模型以调整GC含量后,我们观察到G4基序与降低的表达相关,而仅Z-DNA序列保持与较高表达相关(图4B),与先前的结果一致。在这种情况下,去除离群值与G4和基因表达保持正相关。我们还观察到依赖于G4基序方向的表达存在显著差异,在GC含量调整前后,模板链上的G4表达低于非模板链上的G4表达(图4C和S9E; Mann-Whitney U,p 0.001)。包含被环元件插入的连续G-运行的主要序列可以形成G4结构(图1)。进一步研究了G-运行和基因表达之间的关联,发现当考虑其GC含量贡献时,连续G-运行导致表达降低(图S9F)。此外,我们发现Z-DNA基序的长度与表达水平呈正相关(Kruskal-Wallis H检验,p0.001;图4 D)。与之前的MPRA类似,我们在MPRA序列中鉴定了TFBS,并比较了GC含量校正前后非B DNA基序相对于TFBS对表达水平的贡献我们发现,G4和Z-DNA基序对TFBS增加表达水平的贡献相当 , 与 没 有 它 们 的 序 列 相 比 增 加 了 1.27 倍 和 1.51 倍 ( 图S10A)。然而,当我们计算GC含量时,非B DNA基序的效果与最佳TFBS基序不可比较(图S10B)。因此,我们发现NPC与HepG 2和K562细胞系的结果存在显著差异,NPC中Z-DNA基序的贡献较低,这可能是由于选择了不一定靠近TSS的基因座,或者由于含有Z-DNA的序列数量较少,只有311个序列含有它们。为了验证我们在该NPC lentiMPRA中观察到的G4是否形成这些结构,我们选择了10个候选启动子近端启动子。在具有G4的序列中具有最低和最高表达的序列(表S1),并进行多个光谱测定以表征它们的结构(图4E和4F),因为G4结构具有不同的光谱特征。我们首先在锂离子(非G4稳定化)或钾离子(G4稳定化)的存在下使用含G4的DNA寡核苷酸的圆二色光谱测量来检查DNA G4的形成潜力,这表明我们的候选序列可以折叠成G4结构(图4E、4F、S11A和S11B)。此外,我们进行了UV熔融并发现钾离子条件下在295 nm处的减色位移,这支持了G4结构的形成,其熔融温度高于生理温度(图4E、4F、S11A和S11 B)。为了确认来自圆二色性和UV熔化实验的结果,我们使用基于荧光的阵列,包括N-甲基中卟啉IX(NMM)-配体增强的荧光和固有荧光实验(图4G、4 H、S12和S12 B)。在不存在NMM配体的情况下,在610 nm处未加入NMM后,在Li+下观察到弱荧光,当用K+取代时,其显著增强,支持G4的形成,其允许识别NMM并增强其荧光(图4G)。类似地,当用K+替换Li+时,G4的固有荧光增加,突出了DNA G4的形成(图4H)。为了证实我们的结果,我们观察到在促进所有候选物的G4形成的条件下荧光强度增加。我们还进行了两个阳性G4对照和一个阴性B-DNA对照,以验证我们的上述发现(图S13)。结合起来,这些结果验证了这些序列在体外形成G4结构。非BDNA基序对启动子活性有显著影响为了直接测试非B DNA结构对启动子活性的影响,我们产生了一个MPRA文库,该文库将各种非B DNA扰动引入到10个疾病相关基因中。这组基因包括癌症癌基因(CMYC、CKIT、BCL 2、KRAS)和与不同癌症类型相关的基因(ADAM 12、ALOX 5、SRSF6、VEGF 12)以及FMR 1、相关基因。与脆性X综合征(OMIM:300624)和SNX12相关的神经退行性疾病(表S2)。由于我们的MPRA测试序列的长度为200 bp,我们首先在K562、MCF7、IMR90和HEK293 T细胞中使用荧光素酶测定验证了我们选择的200 bp序列是否可以驱动启动子活性,发现大多数在大多数细胞系中是有活性的(图S14A和S14B)。在验证这些200 bp序列后,我们接下来产生了包括以下操作的MPRA文库:(1)破坏现有的非B DNA基序和(2)引入具有不同生物物理性质的不同非B DNA基序,包括IR、DR和MR中间隔区和臂长度的变化,G4中的方向和环长度,以及Z-DNA基序中的长度。如前所述进行lentiMPRA和随后的计算简言之,合成寡核苷酸并克隆到慢病毒MPRA启动子载体中(图5A;表S2),并产生慢病毒文库。文库用于感染K562和会开放获取文章8细胞基因组学2,100111,2022A B C DEFGH图4.与非B DNA基序相关的表达相关变体(A和B)具有和不具有每个非B DNA基序的序列的表达:(A)不调整GC含量和(B)调整GC含量。进行Bonferroni校正的t(C) 表达与G4在启动子处的取向相关。(D) Z-DNA基序的长度与基因表达增加相关(Kruskal-Wallis H检验,p 0.001)。(E) 在两种阳离子存在下G4形成电位的四个候选靶标的圆二色性(CD)光谱(F) 在K+存在下的四种G4候选物的UV熔融曲线。还显示了反向解链曲线(K+rev),并与正向解链曲线(K+)很好地匹配。在295 nm处的减色位移是G4形成的标志,其可在导数图(dAbs/dT)中转化为负峰,用于G4稳定性分析。G4的解链温度(Tm)可在最大负值处确定。(G) 在Li+或K+离子存在下,与NMM配体结合G4候选物相关的荧光发射(H) 四种候选DNA寡核苷酸在Li+或K+条件下的固有荧光。在(A)-(C)中会开放获取文章细胞基因组学2,100111,2022年4月13日9图5.九种启动子模板中非B DNA基序的表征(A) 启动子IentiMPRA的实验设计的示意性总结其中一个启动子的实例在左上方描绘,具有几个非B DNA基序,并且对于G4,几个突变显示在底部(位点突变)和右侧(重复/取代)所有启动子的集合被排序为230-mer的寡核苷酸文库。将寡核苷酸文库进行PCR扩增并使用简并反向引物在50 UTR处条形码化。接下来进行将PCR产物克隆到慢病毒启动子测定载体中。然后将PCR产物克隆到无启动子的慢病毒载体中。对该质粒文库进行测序以将每个条形码分配给文库中的一个启动子(左),并用于产生慢病毒文库(下),然后将其用于感染感兴趣的细胞系(K562和HEK293T)。感染后3天收集RNA和DNA,并对条形码进行测序。启动子活性计算为log(RNA/DNA)。LTR,长末端重复序列; ARE,抗阻遏元件。(B) K562和HEK-293 T细胞系的9种基因及其序列变体的表达水平。(C) 箱形图显示了K562和HEK293T细胞系中每个基因单独计算的具有和不具有每个非B DNA基序的序列的Z评分(D) 对于SNX 12和SRSF 6基因,具有Z-DNA基序的序列显示出比具有Z-DNA破坏的序列更高的表达。(E) 在非模板链上具有G4基序的序列比在模板链上具有G4基序的序列具有更高的表达(F) 具有较长Z-DNA基序的序列显示较高表达。(在HEK293T细胞中孵育3天,以允许非整合慢病毒简并,并对DNA和RNA条形码进行测序。由于我们实验室先前的工作表明,较低的基础活性可能对MPRA结果具有显著影响,因此选择这两种细胞系,因为与空载体相比,几乎所有选择的启动子都显示出R2倍活性(除了HEK293T中的CKIT)。所有实验一式三份进行,并使用MPRAflow53和MPRAnalyze进行计算分析。我们观察到所有三个重复之间(所有情况下Pearson rR0.9;图S15A)和两个细胞系之间(Pearson r = 0.87;图S15 B)的强相关性。我们的MPRA中的启动子表现出不同的表达,SRSF6的表达水平最高,而SRSF6的表达水平最低。对于ADAM 12(图5B)。我们研究了每个非B DNA基序对两种细胞系中跨启动子表达的贡献,使用Z评分标准化调整跨基因。具体来说,对于每个基因,我们计算了每个序列的Z得分,其通过从该基因的所有序列的平均值减去该序列的表达水平并除以标准偏差来计算。与我们先前的MPRA分析一致,我们观察到具有Z-DNA和G4基序的序列具有显著更高的表达(图5C和5D)。有趣的是,虽然我们在先前的MR、DR和IR的MPRA分析中没有观察到一致的结果,但是在这里,当MR和DR存在时,我们观察到显著更高的表达水平,而对于IR,我们发现显著更低的表达(图5C)。对于STR,我们在两个细胞系中没有发现一致的模式。当我们考虑GC含量时,非B DNA基序的上述结果没有改变;然而,这很可能是由于我们的实验设计仅具有少量靶向的基因座,因此,其具有窄且无信息的GC含量范围。会开放获取文章10细胞基因组学2,100111,2022对于G4,我们在原始G4基因组位点的一次、两次、三次或每次G-运行中引入了一个、两个或三个突变。我们将突变序列与原始序列进行了比较,发现在G-运行中具有破坏的序列与原始序列没有显示出显著的表达差异(图S15C).我们设计了具有杂乱的Z-DNA基序或在交替的嘌呤-嘧啶束中具有嘌呤到嘧啶的破坏的MPRA序列,其用作Z-DNA对照。我们发现,在Z-DNA基序的分离后,表达有统计学显著性降低(图5D),支持它们是激活序列的观点我们还观察到,在两种细胞系中以及在GC含量校正之前和之后,非模板G4的表达高于模板链的表达(Mann-WhitneyU,Bonferroni校正;图5 E),这与我们早期的结果一致。对于Z-DNA,较长的基序导致较高的表达(图5F)。这些结果表明,非B DNA基序和它们的生物物理特性有助于跨启动子模板的表达。讨论通过分析数千个WGS数据集,我们发现非B DNA基序是遗传变异的热点,符合其已知的增加的突变特性。它们增加的突变性在突变类型中一致地观察到,包括取代,但也包括更大和更具破坏性的插入缺失和结构变体。在非B DNA基序的诱变的可能性增加也与癌症基因组中体细胞突变的先前分析一致。15先前已经确定了个体非B DNA基序突变率较高的不同机制,例如在微卫星上的DNA聚合酶滑动错误导致缺失,20这也在本研究中观察到。我们还观察到在非B DNA基序附近有过量的eQTL。特别地,在实验鉴定的G4处,eQTL富集甚至大于在G4基序中观察到的eQTL富集(图1J和1K),这可能是由于G4基序的形成在开放染色质区域和核小体耗尽区域中更频繁。16我们进一步表明,非B DNA基序在启动子中富集,它们可以直接影响下游基因的表达水平。具体来说,我们观察到Z-DNA基序增加表达,而G4的作用取决于所研究的基因综合起来,这些结果表明,基因调控变异更有可能发生在非B DNA结构,它们对基因表达有重大影响G4的启动子效应先前已被证明是抑制性的或激活性的,这取决于靶基因。56-58类似地,先前的工作已经表明,Z-DNA序列可以作为启动子中的激活和抑制元件。29,59,60在这里,我们发现在没有化学扰动的情况下,Z-DNA序列更可能被激活,而G4更可能是抑制性的和启动子依赖性的。Z-DNA基序可能增加基因表达的机制之一可能是它们引起的核小体占据的减少。60G4基序启动子表达的减少可能是由于干扰了转录因子的表达。转录因子或RNA聚合酶II结合。此外,模板G4比非模板G4具有更强的抑制作用。在模板链处的较强抑制作用也与潜在干扰RNA聚合酶II结合一致。这些结果提示G4在启动子中的抑制作用,如果不考虑GC含量的影响,则其可能被错误表征,以及方向依赖性调节作用。非B DNA结构的形成依赖于多种因素,包括DNA超螺旋性以及多种酶如拓扑异构酶和解旋酶的活性。61,62稳定G4的小分子可以显著改变结构形成的热力学平衡,导致基因表达的显著变化。63,64因此,在关键调控位点靶向这些序列可能是一种潜在的新治疗途径。[65]虽然这些化合物的选择性通常是有限的,但区分G4的分子也已被鉴定。这些可以调节临床重要基因的活性,如最近显示的端粒酶基因(TERT),其中启动子突变与多种癌症有关。通过用小分子靶向TERT启动子中的G4,癌细胞中端粒酶的表达下调。34然而,靶向G4的小分子可能导致伴随的DNA损伤和端粒功能障碍,影响端粒长度,并干扰其他生物过程。通过顺式调节疗法靶向这些非B DNA结构可能是改变靶基因表达的替代方法68越来越多的人认识到,非B DNA基序参与了大量的细胞过程,如转录和翻译起始、剪接和转录终止。26-此外,测量体细胞和癌细胞中每个细胞分裂的单个非B DNA基序的诱变进一步的系统性和高通量的功能测定可以扩展我们对特定非B DNA基序及其变体的功能多样性和临床评价的理解。该研究我们的研究有很多局限性。首先,通过MPRA实验对非B DNA基序的调节作用的检查没有研究稳定其形成的分子如何影响所得出的结论。其次,MPRA结果是基于特定的细胞系,并且检查这些发现中的哪些可以在细胞类型中推广以及哪些效应是细胞类型特异性的将是有意义的。我们也不能排除实验设计对我们的发现的影响。此外,还需要更多的实验和机制工作来进一步加深我们的理解,包括生物物理和分子实验。最后,未来的工作将需要解决非B DNA基序突变在疾病发展和进展中的相关性。会开放获取文章细胞基因组学2,100111,2022年4月13日11人类疾病。上述限制可能对今后的工作具有重要意义。STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d实验模型和子系统d方法样本B基因组元件B集成监管构建B非B DNA基序鉴定BG4-seq和G4 ChIP-seq图谱B转录因子结合位点图B群体变异分析BeQTL分析B基因集富集分析B荧光素酶测定启动子的BlentiMPRABMPRA分析管道BNMM配体增强荧光B圆二色性(CD)光谱B通过UV光谱监测的热熔融B固有荧光光谱d量化和统计分析B群体变异分析B转录因子结合BMPRA分析补充信息补 充 信 息 可 以 在 www.e
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)