没有合适的资源?快使用搜索试试~ 我知道了~
DNA基序组合与细胞类型特异性基因调控相关
资源介导细胞类型特异性基因调控的DNA基序顺式调控词典图形摘要亮点d通过RNA-seq、ATAC-seq和H3 K27 ac HiChIPd鉴定838种细胞类型特异性的、重复的异型DNA基序组合d通过大规模平行报告基因测定d癌症类型特异性DMC与肿瘤形成过程有关作者Laura K.H.作者:Margaret G.郭,杨钊,...,罗宾·M 迈耶斯拉斯湾作者:Paul A. 卡瓦里对应khavari@stanford.edu简言之在介导细胞类型特异性基因表达的DNA序列内编码的顺式调节逻辑是不确定的。Donohue et al.在15种二倍体人类细胞类型中产生多组学数据,并提出了一个新的整合框架,用于识别调控DNA基序组合(DMC)。具体来说,他们确定细胞类型和状态特定的DMC,并预计该方法的广泛适用性。Donohue等人,2022,细胞基因组学2,1001912022年11月9https://doi.org/10.1016/j.xgen.2022.10019115种二倍体人类细胞类型2种人类癌细胞类型增强子多组学监管格局分析启动子综合分析与建模基因细胞类型特异DNA基序组合+细胞类型特异性顺式调控模块TGAGTCACGGTG增强子增强子启动子增强子+TAGGTCAGGCATGCCTG+TGAGTCAGAGCATGCCTGMotifMotif基序基序基因基与细胞类型特异性基因相关的协同DMC预测的调控DMC的慢病毒MPRATF基序靶基因GO术语片段minLuc条形码功能DMC类别协同缓冲癌症DMC调节癌症正常癌症类型特异性DMCMotif组合Motif组合Reddit单驱动程序主题组合主题组合协同DMCMPRA信号MPRA信号MPRA信号MPRA信号协同作用评分差异(癌症-正常)细胞型协同DMC癌症正常DMCs会会~开放获取资源介导细胞类型特异性基因调控的DNA基序顺式调控词典Laura K.H.Donohue,1,2,3,11Margaret G.郭、1、4、11杨钊、1、3郑南英、1、5罗斯T.Bussat,1,6Daniel S.Kim,1.4Poornima H.Neela,1,7Laura N. Kellman,1,8Omar S.Garcia,1Robin M.迈耶斯,1.2罗斯湾。阿尔特曼,2,4,9和Paul A. Khavari1,8,10,12,*1美国加州斯坦福大学医学院上皮生物学专业2美国加州斯坦福大学医学院遗传学系3美国加州红木城Synthego4斯坦福大学生物医学信息学项目,斯坦福大学,加利福尼亚州,美国5浦项科技大学生命科学系,浦项,韩国623andMe,Inc.,关闭CT,USA7Fauna Bio,Emeryville,CA,美国8斯坦福大学癌症生物学项目,斯坦福大学,加利福尼亚州,美国9斯坦福大学生物工程系,斯坦福大学,加利福尼亚州,美国10退伍军人事务部帕洛阿尔托医疗保健系统,帕洛阿尔托,加利福尼亚州,美国11作者贡献相等12引线触点* 通讯地址:https://doi.org/10.1016/j.xgen.2022.100191khavari@stanford.edu总结基因表达受转录因子(TF)控制,转录因子结合顺式调节元件(CREs)中的同源DNA基序序列然而,在体内平衡和疾病中起作用的DNA基序的组合还不清楚。生成基因表达、染色质可及性、TF足迹和H3K27ac依赖性DNA环数据,并应用基于随机森林的模型来鉴定15种二倍体人细胞类型中的7,531种细胞类型特异性顺式调控模块(CRM)CRM内的共富集框架提名了838个细胞类型特异性的、经常性的异型DNA基序组合(DMC),这些组合使用大规模平行报告基因测定进行了功能验证。癌细胞参与了与正常细胞中的肿瘤形成过程相关的DMC,同时也激活了仅在肿瘤状态下可见的新DMC。这种整合的方法鉴定了不同正常和患病人类细胞中的细胞类型特异性顺式调节组合DNA基序,并代表了用于破译基因调节中顺式调节序列逻辑的一般框架介绍在控制细胞类型特异性基因表达的调控DNA序列中编码的顺式调控逻辑是不明确的。 破译这一逻辑一直是具有挑战性的,因 为许 多 顺 式 调节 序 列 1位 于 远 离 其靶标的 转 录 起 始 位 点(TSS)的非编码元件2中。3-[8]基因失调是疾病的标志,[9,10]患病细胞是否参与新的调控逻辑,而不是调节正常逻辑的活性,目前尚不清楚。 将高分辨率表观基因组分析与不同人类细胞类型和疾病状态的计算建模和功能测定相结合,可能有助于解决当前的知识空白。基因组规模的顺式调控DNA序列逻辑作图的一种方法涉及鉴定复发性DNA分子,存在于特定细胞类型的非编码CREs中的tifs,包括与细胞类型特异性基因表达相关的启动子(P)和增强子(E)。11-15活性增强子和启动子由H3 K27 ac组蛋白标记,16转录因子(TF)以组合方式在CREs中起作用,通过协同结合特异性DNA基序来调节基因转录。因此认为细胞类型特异性基因表达依赖于TF基序组合的顺式调节逻辑,称为顺式调节词典。20,21计算效应试图预测这个词汇22-虽然全基因组调控图谱已经产生,Cell Genomics2,100191,November 9,2022 1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取资源2细胞基因组学2,100191,2022+...100-10TGAGTCATF基序CAGGTGTF基序TAGGTCAGGCATGCCTG已学习CRM的百分比TF基序BTF基序TF基序突变一来自15种组织的二倍体人用于鉴定细胞类型特异性峰环转录物(PLT)的多组学数据生成和分析示意图表观基因组学和转录组学差异分析细胞类型特异性PLT星形细胞角质形成细胞(KC)黑素细胞(MC)食管胰腺肾膀胱气道甲状腺乳腺(HMEC)结肠GM12878-750kbRNA-seqATAC-seqH3K27acHiChIP第3章:18.4 Mb+250 kb前列卵巢子宫环基因A增强子基因B基因C基因DB细胞类型特异性顺式调节模块(CRM)PLT内的TF足迹基序分析,以获得细胞类型特异性CRM模型输入随机森林模型,用于导出特定于细胞类型的CRM细胞类型特异性CRM内的TF基序共富集增强子H3K27ac HiChIP启动子ATAC-seqRNA-seq足迹足迹足迹足迹模体中心细胞类型特异性CRM中的DMCTF基序ATF基序B增强子内+TF基序ATF基序B启动子内TF基序ATF基序B增强子-启动子间+TF基序ATF基序B增强子-启动子间+TGAGTCACAGGTGTAGGTCATGAGTCAGAGCATGCCTGTGAGTCAC细胞类型特异性DMC的大规模平行报告基因测定(MPRA)验证示意图预测的监管DMC天然基因组实例慢病毒MPRA图书馆条形码捕获后进行RNA-seq+的...XX+的X xD功能DMC类别E调制示意图细胞状态特异性协同DMCs协同20100母题组合缓冲20100母题组合冗余20100母题组合单个驱动器20100母题组合癌症正常母题组合(图例见下页)TAGGTCA增强子启动子基因分析以识别PLT中占据的转录因子(TF)DNA基序增强子启动子Motif模体基因GAGCATGCCTG片段minLuc条形码标准化log2信号基序A+基序 B基序A+scr BscrA+基序 BscrA+scr B标准化log2信号基序A+基序 B基序A+scr BscrA+基序 B标准EIS20scrA+scr B400标准化log2信号基序A+基序 B基序A+scr BscrA+基序 BscrA+scr B标准化log2信号auROC基序A+基序 B基序A+scr BscrA+基序 BscrA+scr B协同作用评分差异(癌症-正常)TF基序A细胞基因组学2,100191,2022年11月9日3资源会开放获取在许多人类细胞类型中,28 ,29鉴定绝大多数正常人类细胞类型 的 E-P 连 接 的 功 能 性 细 胞 类 型 特 异 性 DNA 基 序 组 合(DMC)尚未完全确定,也不知道这些组合在疾病中如何在这里,我们生成了15种二倍体人类细胞类型的染色质可及性、3D染色质TF足迹分析提取直接结合的DNA序列基序的TF在这些PLT相关的CREs和随机森林模型被应用于推导细胞类型特异性DMC为每一个这15种细胞类型。TF足迹基序的统计共富集分析产生了细胞类型连接的DMC的活性预测,其通过相关细胞类型中的大规模平行报告基因测定(MPRA)进行验证从功能上讲,监管DMC分为四个不同的类别:协同、缓冲、冗余和单一驱动。将该框架应用于癌细胞中产生的平行数据表明,恶性细胞不仅参与新的DMC,而且它们还间接调节正常谱系DMC,控制介导增殖、代谢和细胞迁移的癌症相关基因。这种综合方法揭示了人类DMC词典驱动细胞类型特异性基因转录在各种正常细胞和它们的恶性对应物,并提供了一个框架,为未来的努力,以定义的DNA序列逻辑,使细胞类型特异性基因表达。结果表征表观基因组景观在15二倍体人细胞为了在不同的细胞类型中定位基因调控元件及其推定的靶基因,在15种原代人类细胞类型中生成染色质可及性、H3 K27 ac染色质环和RNA测序(RNA-seq)数据,包括来自12种最常见的人类癌症发生组织的上皮来源的细胞。这些细胞是肺气道、乳腺(人乳腺上皮细胞[HMEC])、膀胱、结肠、食管、皮肤角质形成细胞(KC)、卵巢、胰腺、前列腺、肾、甲状腺和子宫细胞,以及两种神经源细胞类型,原代人星形细胞和黑素细胞(MC),以及二倍体人淋巴母细胞样细胞系GM 12878。对于每种细胞类型,生成重复的30mRNA-seq、ATAC-seq(转座酶可及染色质测定,随后进行高通量测序)和H3 K27 ac HiChIP(Hi-C文库制备,随后进行染色质免疫沉淀)数据(图1A)。主成分分析(PCA)显示生物学代表之间具有高度一致性结果显示,尽管读段深度的差异可能导致方差(表S2),但是,读段深度的差异可能导致方差(图S1公开可用的数据11,30这些数据提供了一个资源,开始解码从不同的人体组织的原代细胞中的活性CREs的调控逻辑。二倍体人类细胞的表观基因组景观和分子亚型整合了这15种人类细胞类型的RNA-seq、ATAC-seq和H3 K27ac HiChIP数据,以评估调控DNA中的细胞类型特异性特征。RNA-seq鉴定了14,098个总表达基因,其中7,531个差异表达(图2A)。与PCA分析相似,这些差异RNA转录物聚簇成四个不同的组,包括两个上皮细胞组:(1)上皮细胞簇1(EC1),包括结肠、食管、卵巢、胰腺、肾和甲状腺上皮细胞;(2)上皮细胞簇2(EC2),包括气道、膀胱、KC、HMEC、前列腺和子宫上皮细胞;(3)神经内分泌/神经嵴谱系(N)星形胶质细胞和MC;和(4)造血类淋巴母细胞GM 12878细胞。细胞谱系特异性表达程序的相关预期基因与这些差异簇相关,例如GM12878中的IRF 4、星形胶质细胞中的RUNX 2、EC 1、36、37中的WT 1和EC 2中的TP 63(图2A和S1A)。ATAC-seq鉴定了总共2,342,155个可及区域,其中30,519个(1.3%)在所有15种细胞类型中表现出显著变异。染色质可及性将细胞类型分成通过差异RNA转录物发现的相同的四个簇,EC1、EC2、N和GM12878(图2B和S1B)。H3K27ac HiChIP数据鉴定了2,822,181个环锚,其中46,540个(1.6%)在所有15种二倍体人细胞类型中存在差异。差异调节环聚集成EC1、EC2、MC、星形胶质细胞和GM12878(图2C和S2C)。这些差异调节环的进一步表征揭示了预期的推定靶基因,例如GM12878中的CD22、星形细胞中的40SYNDIG1、MC中的41MLANA、EC1中的42TFF 1、43和EC2中的KRT 1、44(图2C)。差异调节环的分层聚类揭示了细胞类型相关性,中胚层来源的造血GM12878 B细胞、中胚层和内胚层来源的内分泌和胃肠道系统相关EC1细胞以及神经外胚层来源的神经内分泌星形胶质细胞和MC更紧密地聚类到外分泌系统相关EC2细胞,包括角质形成细胞和HMEC(图2D)。这些数据确定了数万个与数千个表达基因物理连接的假定增强子。图1.15种二倍体人类细胞类型的综合多组学资源(A) 跨15种二倍体人类细胞类型的细胞类型特异性ATAC峰、HiChIP环和靶基因转录物(PLT)的工作流程(B) PLT内转录因子(TF)足迹分析的示意图,以识别随机森林模型的输入,从而获得细胞类型CRM。CRM内的共富集分析提取DMC。(C) 通过MPRA测试推定的增强子内和启动子内DMC的天然基因组实例。使用组合突变来评估慢病毒设置中DMC的协同性。(D) DMC相互作用的MPRA验证功能类别示意图。(E) 比较相应细胞类型中正常和癌症来源的DMC的协同DMC MPRA活性的示意性条形图4细胞基因组学2,100191,2022会开放获取资源A B CD E F GHK图2.表观基因组景观揭示了人类细胞的不同分子亚型(A) 差异基因表达的RNA转录物(行)对细胞类型(列)(log2倍数变化>0.1,t检验,FDR调整的p值0.05)。(B) 可接近峰(行)与细胞类型(列)的热图,指示差异ATAC峰。显示具有最高组间SD的ATAC峰(C) H3K27ac HiChIP环路(行)与指示差分环路的细胞类型(列)的热图。显示了具有最高组间SD的差分环路(图例接下页)我J细胞基因组学2,100191,2022年11月9日5资源会开放获取为了表征这些细胞类型之间的3D基因组结构,研究了通过H3K27ac HiChIP鉴定的显著的成环相互作用,并且在所有细胞类型中共有10,117个共同的锚。这些基因与453个共同表达的靶基因连锁,其中36个是管家基因,45个和112个是必需基因。在给定细胞类型中检测到的2.5%至45%的HiChIP相互作用对于该细胞类型是独特的(图2E),并且80%的所有HiChIP相互作用发生在彼此180kb内的DNA区域之间(图S1D)。重要的环锚被分类为推定的增强子和启动子。通过HiChIP和ATAC-seq数据的整合,推定的增强子被定义为在按细胞类型匹配的数据集内含有可接近的染色质峰的启动子相互作用区域(PIR)。启动子被定义为包含可接近的染色质峰和基因的TSS的区域。在1,175,428个总成环相互作用中,58.4%在推定的增强子基因座(E-E)之间,33.6%是E-P,8.0%是P-P(图2F)。单个启动子被标记为两个推定的增强子的中值。与表达的基因连接的启动子具有比未表达的基因更多的E-P连接(Mann-Whitney U检验,p值=1310- 41)。在E-P相互作用中,鉴定了198,896个细胞类型独特的推定增强子,其中24,557个仅直接接触单个最近的靶基因的启动子,38,524个推定增强子直接接触最近的靶基因和远端基因,而135,815个推定增强子仅接触远端基因(图2G)。P-P相互作用已经在共调节基因簇中被鉴定,47,48并且最近启动子也被证明在体内作为长距离增强子起作用。5,49在32.0%的P-P相互作用中,两种基因都表达,在45.8%中,一种基因表达而另一种不表达,在22.2%中,两种基因都不表达(图51E),这表明一些启动子起增强子功能的作用,并突出了CREs在人类细胞类型中的3D复杂性。相关生物过程术语在细胞类型特异性推定调节环中富集,例如GM12878细胞中的B细胞活化、分化和增殖,星形胶质细胞中的突触组织和神经元轴突生成,MC中的色素沉着和黑素细胞分化,EC 1中胃肠道上皮和上皮细胞形态发生的维持,以及EC 2中的表皮发育(图2H)。簇和细胞类型特异性过程的关联表明CREs具有谱系特异性调节作用。事实上,发现KC中表皮分化的已知调节剂ZNF 750(50,51)是与两个EC 2特异性推定增强子接触的EC 2特异性表达基因(图21和S1F)。发现两个GM12878特异性推定增强子直接接触对B细胞调节重要的细胞因子IL 1052(图2J)。TYRP 1,其能够使黑色素生物合成,53类似地显示与MC特异性表达相关的MC特异性推定增强子的接触(图2K)。整合的HiChIP、ATAC-seq和RNA-seq数据提供了跨多种正常人类细胞类型的物理连接的调控元件与其生物学相关靶基因的推定图谱。与先前的工作一致,鉴定的54-56个细胞类型特异性CREs包含其相应组织疾病的风险相关变体。将细胞类型特异性远端CREs与来自全基因组关联研究(GWAS)目录的疾病相关变体交叉。然后使用HaploReg v458 来鉴定高于0.8的连锁不平衡(LD)阈值的连锁单核苷酸变体(SNV),其中55,202个SNV与发展由所述细胞类型产生的15种癌症类型的风险相关此外,还评估了具有9种炎性疾病的LD中的总共31,276个SNVS,包括系统性硬化症、炎性肠病和溃疡性结肠炎,并且在5%FDR下的82,610个独特SNV以疾病特异性和细胞类型特异性方式在鉴定的CRE的所有性状中显著富集(图S2A和S2B)。例如,发现与子宫内膜癌和淋巴瘤风险相关的SNV存在于推定的增强子内,该增强子分别在子宫细胞和GM 12878细胞中与已知在癌症生长中重要的BUB 1B有丝分裂检查点激酶基因成环58、59(图S2 C);这些淋巴瘤相关SNV还在GTEx全血数据中评分为BUB 1B组织选择性eQTL(表达定量性状基因座),并为几种B细胞相关TF产生基序(图S2 D)。此外,发现 前 列 腺 癌 相 关 SNV rs6983267 , 60 和 肾 癌 相 关 SNVrs35252396,61位于CRE基因座中,所述CRE基因座在其各自的细胞类型中与MYC癌基因成环(图S2E),并且淋巴瘤和胰腺癌相关SNV也分别在GM12878和胰腺远端CRE中富集因此,E-P连锁的细胞类型特异性CREs包含疾病相关的变体,其对靶基因调控具有推定的功能作用,可能通过破坏相关TF基序。顺式-调节模块识别跨人类细胞的词汇我们接下来在细胞类型特异性CRE中搜索细胞类型特异性DMC。首先,HINT-ATAC62包进行TF足迹法以鉴定ATAC-seq数 据 中 蛋 白 质 结 合 的 推 定 DNA 碱 基 。 然 后 使 用 来 自HOCOMOCO v1163的TF位置权重矩阵将推定的TF与TF足迹匹配(图S3A)。推定的TF基序足迹与基于CRE-based(D) 差异H3K27ac HiChIP环的分层聚类。(E) 条形图描绘了细胞类型特异性3D染色质结构和15种不同细胞类型之间的重叠(F) 条形图描绘了按细胞类型的P-P、E-P和E-E相互作用的分布(G) 条形图描绘了在不同E-P相互作用类型中鉴定的推定增强子和靶基因(H) 使用GO生物过程的调节环模块功能富集EC1和EC2被组合在一起。点颜色对应于GO富集的p值(超几何检验)。(I) 5 kb分辨率的虚拟4C可视化和以ZNF 750TSS为中心的RNA和ATAC-seq轨迹>和分别表示正和负DNA链上的基因方向(J) IL10的虚拟4C可视化。(K) TYRP 1的虚拟4C可视化。与图S1、S2和表S2相关。6细胞基因组学2,100191,2022会开放获取资源12345A细胞类型特异性EHiChIP+ATAC+RNA+TF足迹CRMTF RNA差异表达标准化log2(TPM)靶基因功能富集-Log10(p)子宫甲状腺肾脏前列腺胰腺卵巢MCHMECGM12878KC食管结肠膀胱星形胶质细胞气道PPV−2−1012基序FOSNR2F2HMGA1STAT3JUNKLF6NR2F1ETS2KLF5HMGA2SNAI2STAT1NFE2L1UBP 1VDRHBP1E2F40.0B1.00.90.80.70.60.50.40.8预计CRM模型JUNDMAFGJUNBFOXP 1FOSL 2TGIF 1NFIAPATZ 1STAT 2ETV 6SREBF2 RELAHRBACH 1CEBPGPOU2F2IRF 7ARID3ASOX 15PRDM 1TP 63BARX 2FOXA 10.00.20.40.60.81.01.2GATA6已学习CRM的百分比CKC增强子POU2F2基序ATATGCAAATGTF足迹GGAT GCAAAGAFLGRUNX2GLIS3STAT5ANFATC1ZNF589FLI1SOX17ELF3KLF4FOXD 1PITX1HOXB 6KC前列腺KC前列KC前列KC前列-100 kb第1章:152.3MbKC+150 kb5,000400SOX13HOXC9PPARGRORARFX2SMAD4RARGSP2RARAMAFKMSX2IRF8SPIBIRF5FOXM1WT1SHOX2 GATA4FOXF2DLX4KLF 15RefSeq基因 1),低表达基因的足迹平均为5.4(0 TPM% 1),非表达基因的足迹平均为1.6(TPM = 0)。这种以基因为中心的CRM捕获了细胞类型特异性的3D接触信息,染色质接近,能力和转录机制,可能有助于细胞类型特异性转录。与该前提一致,使用随机森林、基于树的算法,该模型成功地确定了CRM的细胞类型(图3A)。当基于来源测定选择CRM模型特征时,发现RNA、ATAC、HiChIP和TF足迹的组合是实现最高细胞类型性能所必需的。使用一维(1D)RNA和ATAC信息作为基线(紫线),单独添加3D HiChIP(橙线)导致模型性能增加0.17(受试者工作特征曲线下的面积[auROC]),单独添加1D推定TF基序(红线)导致增加0.32,而添加远端定位的推定TF基序(蓝线)表现最好,导致模型性能增加0.46(图3B和S3因此,缺乏循环和TF基序数据的模型在细胞类型预测任务上表现不佳,表明远端增强子和TF基序身份在细胞类型特异性CRM中的重要性。有趣的是,假定增强子中的TF基序虽然包括推定的增强子降低了CRM基序矩阵表示的稀疏性,从而增强了模型性能,但其中远端增强子与HiChIP鉴定的基因启动子连接的模型比其中增强子与最近基因连接的模型表现好24%,并且比其中增强子与随机染色体内基因连接的模型表现好10%(图S3F)。这表明DNA环数据捕获介导细胞类型选择性基因表达的远端增强子。细胞类型特异性CRM可能是细胞类型之间例如,基因本体论(GO)富集分析揭示了与GM12878细胞中已知B细胞TF、IRF4和IRF8,34以及IKZF164的复发CRM基序相关的细胞类型相关的生物学术语,例如肿瘤坏死因子信号传导(图3E)。除了富集调节单个细胞类型内相同靶基因的不同推定TF基序之外,不同推定增强子中的相同基序与参与特定细胞过程的基因成环。(图3E)。例如,POU2F2基序位于与KC分化基因FLG65成环的推定增强子内(图3C)。P0U2F2基序也在环接至UGDH的独特前列腺CRM中发现,UGDH是前列腺细胞中雄激素活性的调节剂66(图3D)。这些结果表明,TF基序在CRM链接到目标基因表达程序的调节,重要的是建立相关的细胞类型特异性的生物过程。异型基序组合的细胞类型特异性顺共有TF基序在细胞类型特异性表达程序中的富集表明,与细胞类型独特基序不同的基序的特定组合有助于细胞类型特异性转录。为了确定TF DNA基序在细胞类型特异性基因调控中的潜在协同关系,对与每种细胞类型相关的CRM中的所有成对异源基序-基序组合进行了共富集检验(Fisher该分析鉴定了838个总DMC,每种细胞类型12至106个,平均55.9个(图4A这些DMC鉴定了已知的共调节剂,例如角质形成细胞分化协同TF KLF 4和TP 63、MAF和MAFB,以及KC DMC67这表明,显着共同出现的TF基序与细胞环境中的不同过程。接下来,鉴定每种细胞类型内指定的TF调节DMC的所有基因组实例,并确定成对组合内基序的基因组位置。有趣的是,虽然一些DMC对1D启动子内相互作用具有强烈的偏好,例如KLF 4-SALL 4和EGR 2-KLF 4,但其他DMC对1D推定的增强子内相互作用具有强烈的偏好,例如HBP 1-RORA和EGR 2- JUNB,并且几乎所有DMC都发生在3D推定的增强子-启动子间相互作用上(图1B、4B和S4A)。 TF基序在这些不同的表观基因组相互作用中的统计学共富集表明,鉴定的DMC顺式调节逻辑作用于局部近端启动子、远端推定的增强子和跨越3D E-P接触以控制细胞类型特异性活性。图3.通过足迹法细胞型标准物质富集TF基序(A) 描述细胞类型预测模型的阳性预测值(PPV)的混淆矩阵。(B) 散点图显示auROC与基于随机森林的细胞类型预测模型中学习的CRM百分比。使用逻辑回归将线拟合到点。(C) 虚拟4C可视化以及POU2F2位置权重矩阵(PWM)、TF足迹序列和以FLG为中心的周围ATAC峰。(D) 虚拟4C可视化以及POU2F2 PWM、TF足迹序列和以UGDH为中心的周围ATAC峰。(E) 热图(左)描绘了对应于源自15种细胞类型(列)中TF足迹分析(行)的基序的指定TF的归一化log2(TPM)值。TF按表达式相似性排序。点图(右)描绘了在细胞类型特异性CRM(y轴)中的TF足迹基序近端或远端成环的靶基因(x轴)的GO富集。点按细胞类型着色。大小对应于GO富集的-log 10(p值)(超几何检验)。与图S3有关。会开放获取资源8细胞基因组学2,100191,2022GGGG T G C GG C AG.GTATTTTF足迹TF足迹表观基因组C细胞类型特异性DMC中的KC CRM TF基序共富集ARID5BASCL2ATF2BACH1BARX2CEBPBEGR2EGR3FOSFOSL2HBP1HMGA1ID4IRX3JUNJUNBJUNDKLF4KLF5MAFMAFB- log 10(p值)255075 100规范化交点0.2 0.4 0.60.8已知KC共调节因子TF100806040200D启动子内KC DMCKLF5基序AGGG GGGGCTGHMGA1基序ATTMAFFMAFGMAFKMSX2NFATC1NFATC4NFE2L1NFIANFICNR3C1OSR2PLAG1PRDM1RARGRFX2RORASALL4SMAD3SNAI2SP2SREBF2 STAT3启动子50 kbRNA ATACH3K27acHiChIP循环RefSeq基因GTT1,000500TFE3TGIF1THRBTP63UBP 1ZBTB49ZNF563> PLEKHG 6ZNF76>PPARD>RPL10A>ARMC12RefSeq基因60>DEF6>FANCE TULP1FKBP5>CLPSL2F增强子-启动子间KC DMC40200启动子增强子DNA基序组合RNAATACH3K27acHiChIP循环50 kb20050RefSeq基因>FNBP1L
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IPQ4019 QSDK开源代码资源包发布
- 高频组电赛必备:掌握数字频率合成模块要点
- ThinkPHP开发的仿微博系统功能解析
- 掌握Objective-C并发编程:NSOperation与NSOperationQueue精讲
- Navicat160 Premium 安装教程与说明
- SpringBoot+Vue开发的休闲娱乐票务代理平台
- 数据库课程设计:实现与优化方法探讨
- 电赛高频模块攻略:掌握移相网络的关键技术
- PHP简易简历系统教程与源码分享
- Java聊天室程序设计:实现用户互动与服务器监控
- Bootstrap后台管理页面模板(纯前端实现)
- 校园订餐系统项目源码解析:深入Spring框架核心原理
- 探索Spring核心原理的JavaWeb校园管理系统源码
- ios苹果APP从开发到上架的完整流程指南
- 深入理解Spring核心原理与源码解析
- 掌握Python函数与模块使用技巧
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功