没有合适的资源?快使用搜索试试~ 我知道了~
资源全基因组编码和lncRNA双重筛选在诱导性多能干细胞图形摘要亮点d双基因组范围筛选提供人类iPSCd与编码基因相比,lncRNA基因在神经诱导中的作用更丰富dPerturb-seq揭示了对神经诱导d交互式资源允许数据探索:danlimlab。shinyapps.io/dualgenomewide作者David Wu,Aunoy Poddar,Elpiniki Ninou,.,殷神:Jonathan S.作者:Daniel A. Lim对应daniel. ucsf.edu在对编码和lncRNA基因组在分化等过程中的功能的系统理解有限。吴等人在来自多能干细胞的神经诱导中进行了双全基因组编码和lncRNA CRISPRi筛选和Perturb-seq,发现了编码基因和非编码基因在这个复杂的生物过程中的根本不同的作用。Wu等人,2022,细胞基因组学2,1001772022年11月9https://doi.org/10.1016/j.xgen.2022.100177会会开放获取资源双全基因组编码和lncRNA筛选在诱导多能干细胞的神经诱导中的吴大卫,1,2,3,4奥诺波达尔,1,2,3,4埃尔皮尼基尼努,1,2,5伊丽莎白黄,3,4米切尔A。科尔,1,2,3,4S。约翰·刘,1.6最大A。10、11、12、13、14、15、16、17、18、19、1回复,4,12,13,14乔瓦尼A.尼古拉斯·W·L·卡罗索15张宗勋,15沈银,15,16乔纳森.Weissman,7,8,13,14,17和Daniel A.Lim1,2,18,19,*1Eli and Edythe Broad Center of Regeneration Medicine and Stem Cell Research,University of California,San Francisco,SanFrancisco,CA,USA2美国加州大学旧金山分校神经外科系3美国加州大学旧金山分校生物医学科学研究生课程4美国加州大学旧金山分校医学科学家培训课程5希腊雅典雅典生物医学研究基金会学院6美国加州大学旧金山分校放射肿瘤学系7美国加州大学旧金山分校细胞和分子药理学系8美国加州大学旧金山分校霍华德休斯医学研究所9遗传学和基因组学分部,波士顿儿童10美国德克萨斯州达拉斯市德克萨斯大学西南医学中心药理学系11塞西尔·H.和Ida Green生殖生物学科学中心,德克萨斯大学西南医学中心,美国12美国加州大学旧金山分校Tetrad研究生课程13Whitehead Institute,Cambridge,MA,USA14美国马萨诸塞州剑桥市麻省理工学院生物学系15美国加利福尼亚州旧金山市加利福尼亚大学人类遗传学研究所16美国加利福尼亚州旧金山市加利福尼亚大学神经病学系17大卫·H.美国麻省理工学院科赫综合癌症研究所18旧金山退伍军人事务医疗中心,美国19引线触点* 通讯:daniel. ucsf.eduhttps://doi.org/10.1016/j.xgen.2022.100177总结人类染色体普遍转录,但缺乏对细胞分化中编码和长非编码RNA(lncRNA)基因组功能的系统理解。在人类诱导多能干细胞中使用CRISPR干扰(CRISPRi),我们进行了双基因组范围的筛选-评估了18,905个蛋白质编码和10,678个lncRNA位点-并确定了419个编码和201个lncRNA基因调节神经诱导。综合分析显示了编码和lncRNA基因组功能的不同特性,包括与增殖相比,lncRNA基因在分化中的作用富集了10倍此外,我们将CRISPRi扰动与单细胞RNA-seq(Perturb-seq)结合,以获得对神经诱导表型的颗粒状见解虽然大多数编码命中停滞或中止分化,但lncRNA命中富集了不同细胞状态的发生,包括神经谱系之外的那些。除了为理解编码和lncRNA基因在发育中的功能提供丰富的资源外,这些结果还表明lncRNA基因组以与编码基因根本不同的方式调节谱系定型。介绍人类基因组表达了数千个基因,包括编码基因和非编码基因1,2,其中许多基因对发育过程中细胞分化的复杂过程至关重要。3-6长非编码RNA(lncRNA)是长于200个核苷酸的转录物,不编码蛋白质,许多是在神经组织中表达。2,7,8这些基因座最近的进化扩展导致了lncRNA基因在复杂器官发育中起关键作用的假设。811更广泛地说,缺乏对编码和lncRNA基因组如何调节发育过程的系统理解。遗传筛选是用于鉴定感兴趣的表型的基因的有力方法。12、绝大多数Cell Genomics2,100177,November 9,2022 1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取资源2Cell Genomics2,100177,2022基于CRISPR的筛选集中在蛋白质编码基因组上,通常不包括lncRNA基因座。然而,这些研究通过将筛选数据整合到丰富的文献基础中,包括物理和功能相互作用网络的知识,提供了对编码基因组功能的原理的洞察。虽然lncRNA的遗传筛选现在正在出现,但整合来自编码基因组和lncRNA基因组的信息的全基因组筛选是罕见的14,并且尚未在复杂的环境如细胞分化中进行。这种双全基因组方法可以提供独特的数据资源,以发现发育调控的原则。在这项工作中,我们使用功能基因组学系统地评估了18,905个编码基因和10,678个lncRNA在人类神经诱导中的作用。使用基于双全基因组CRISPR干扰(CRISPRi)标记的筛选,我们鉴定了419个蛋白质编码基因和201个lncRNA基因,这些基因调控了从诱导多能干细胞(iPSC)产生NSC。该资源的规模和设计使得能够进行综合分析并发现编码和lncRNA基因组功能的一般特性。为了更深入地了解这些调节因子的生物学,我们应用该资源进行了CRISPRi扰动与单细胞RNA测序(RNA-seq)的结合,称为Perturb-seq。16-结果双全基因组CRISPRi筛选鉴定调节神经诱导的大脑发育的早期步骤是从多能干细胞诱导神经使用双重SMAD抑制(dSMADi),6,21我们在多西环素诱导型控制下从表达dCas9-KRAB的iPSC(CRISPRi-iPSC)诱导NSC(图1A)。NSC的诱导随时间推移是渐进的,我们通过在多个时间点(0-11天)对典型标志物 PAX 6(图1B)和多腺苷酸化和总RNA的RNA-seq进行流式细胞术分析来成千上万的编码和非编码基因在神经诱导过程中动态表达(图1C;表S1)。我们应用转录组学数据来告知双全基因组文库(STAR方法)的组装,该文库含有靶向人类编码(hCRISPRi-v2)22和lncRNA(CRiNCL)基因的已发表的、经验证的CRISPRi单向导RNA(sgRNA)13这些sgRNA是基于神经诱导期间的RNA-seq表达选择的,并且在先前的研究中使用结合了核小体定位和基因表达数据的FANTOM帽分析以及脱靶活性过滤的方法设计的。13,22我们包括针对29,583个靶标的总共212,938个sgRNA(具有4,523个非靶向对照),覆盖18,905个编码(5个sgRNA/靶标)和10,678个lncRNA基因(10个sgRNA/靶标)。我们使用具有PAX 6染色的CRISPRi-iPSC作为神经诱导的读数进行双基因组范围的筛选(图1D)。我们选择神经诱导的第8天作为当PAX 6+和PAX 6-群体都存在时,终点(图1B),使得能够鉴定增加或减少该神经诱导标志物的命中。在对组装的文库进行测序以确保均匀分布后,我们包装慢病毒并以两个生物学重复转导约6.5亿个CRISPRi-iPSC。将细胞在嘌呤霉素选择下在自我更新培养基中繁殖,直到达到>80%的sgRNA阳性,通过共表达的蓝色荧光蛋白(BFP)检测。在 神 经 诱 导 过 程 中 , 我 们 将 筛 选 维 持 在 每 次 重 复 > 1 ,0003sgRNA覆盖率。收集时间零(T0)等分试样以评估初始sgRNA丰度。在神经诱导和dCas 9-KRAB表达8天后,收获细胞并定量。将总共约27亿个细胞固定、透化并用针对PAX 6的抗体染色,用于荧光激活细胞分选(FACS)成PAX 6+和PAX 6-级分(顶部和底部三分之一;图1D,右)。通过PCR扩增,然后通过Illumina测序来定量每个级分中sgRNA的丰度计算所有靶和非靶向对照的分化表型rho(PAX 6+相对于PAX 6-级分中标准化sgRNA丰度的r ; log 2富集比)(图1D,右)。 在其他基于标志物的研究中使用的该r值表示阳性级分中的每种sgRNA相对于阴性级分的log 2倍数变化。13,16,23r的负值表明sgRNA 降低神经诱导(例如,前神经因子的敲低),而正r值表明sgRNA促进PAX6+细胞的发育多能性因子的敲低)。独立的重复是相关的(图S1A),并且非靶向对照sgRNA产生以零为中心的r值,如预期的(图S1B)。超过99%的sgRNA符合阈值>100- 3覆盖率(97%>500- 3)为所有29,583个靶标提供了足够的数据,其中94%的靶标具有所有设计的sgRNA。在应用0.05的经验错误发现率(FDR)、排除靶向多个基因座和基因"邻近命中"的sgRNA(STAR方法)之后,我们鉴定了改变PAX6+ NSC的产生的419个蛋白质编码基因和201个lncRNA基因(图1E)。由于每次命中被多个sgRNA靶向,我们通过计算与命中相同方向的sgRNA的分数来评估这些sgRNA是否一致。命中显示非常高的中值一致性1(表明所有sgRNA具有相同的效果),而靶向非命中的那些具有中值一致性0.5(表明随机机会)(图S1C)。此外,考虑到屏幕的大规模,我们通过对原始数据进行下采样以进行精确-召回分析来估计较小规模下的命中识别性能。在10%的下采样(~1003覆盖率)时,性能很差(识别出40%的命中).这在200μ 3和500μ 3覆盖度下显著改善,其中分别鉴定了>70%和>80%的命中(图S1D)。因此,双全基因组筛选的全面规模为这种早期分化过程提供了无与伦比全基因组筛选结果的验证在筛选的18,905个编码基因中,PAX 6本身预期是最高评分的阴性命中(图1E),r=-3.01,Cell Genomics2,100177,2022年11月9日3会开放获取资源图1.双全基因组CRISPRi筛选鉴定调节神经诱导的编码和非编码基因(A) 通过双重SMAD抑制对CRISPRi-iPSC的神经诱导,针对PAX 6蛋白(NSC的典型标志物)染色比例尺,50mm。(B) 通过流式细胞术分析的PAX6+ NSC在神经诱导期间随时间的进行性增加PAX 6+和PAX 6-的明显峰出现在第8天,这被选为筛选终点。(C) 热图显示在神经诱导期间差异表达的编码和lncRNA转录物的Z标度基因表达(D) 基于标记的全基因组CRISPRi筛选设计概述,用于评估神经诱导调控中的18,905个编码基因和10,678个lncRNA靶标每个类别用~100,000个sgRNA靶向,其中5个sgRNA/转录起始位点(TSS)用于编码基因,10个sgRNA/TSS用于lncRNA基因。在FACS期间分选PAX6级分的顶部和底部三分之一用于下一代测序。(E) 编码基因和lncRNA基因的筛选结果的火山图,其中X轴显示筛选表型rho(r)值(PAX 6 +/PAX 6-级分中的log2富集),y轴显示-log10p值。蓝点表示命中(FDR 0.05),深灰色点表示未命中,浅灰色点表示非靶向对照。另见图S1和表S1和S2。表明通过FACS PAX6+细胞减少88%我们还观察到许多对神经诱导具有预期积极或消极影响的命中的例子。例如,促多能性因子(POU 5 F1/OCT 4、GBX 2、SMARCC 1、PRDM 14)具有已知神经发育作用的基因(SOX 2、SOX 4、SOX 11、HES 1、OTX2)为阴性。蛋白质-蛋白质网络分析揭示了已知的编码基因命中之间的功能相互作用,例如BRG 1/BRM相关因子(BAF)染色质重塑复合物、Polycomb抑制复合物(PRC)和对神经发育至关重要的信号传导途径(如NOTCH)(图S2A和S2 B)。此外,基因本体论(GO)和京都基因和基因组百科全书(KEGG)的编码命中途径分析揭示了富集的过程4Cell Genomics2,100177,2022会开放获取资源图2. 全基因组筛选结果(A) 使用CRISPRi-iPSC的阵列化的单个sgRNA验证测定的图,具有阴性和阳性筛选命中的示例性PAX 6流式细胞术直方图。(B) 直方图显示编码和lncRNA类别的经验证的阳性和阴性命中的PAX6流式细胞术染色(C) 靶向编码和lncRNA类别两者的阳性和阴性命中的32个sgRNA的验证散点图(16个总靶点,3个2个重复,3个2个sgRNA),其中X轴示出全基因组筛选r,y轴示出个体验证r0,其中r0是强相关的(Pearsonr=0.91)。参见图S2。在早期发育中很重要(图S2C)。因此,我们的筛选回收了大量已知在复合物和对神经诱导重要的通路中起作用的基因。为了实验性地验证筛选结果,我们选择了16个命中并且用两个独立的sgRNA靶向每个命中(总共32个不同的sgRNA覆盖每个命中子类别,即,编码/lncRNA,阳性/阴性,每个sgRNA有两个生物学重复)。将这些sgRNA单独转导到iPSC中,并且在神经诱导和CRISPRi 8天后,通过流式细胞术通过PAX6染色分析细胞(图2A)。靶向编码和lncRNA基因的独立sgRNA显示出与其筛选表型匹配的表型(图2B)。总的来说,来自各个实验的定量结果与筛选r表型高度相关(Pearsonr = 0.91,图2C),为筛选中鉴定的命中提供了实验验证。lncRNA基因富集促进神经诱导的作用相似数量的编码基因命中对神经诱导产生正(52% )和负(48%)作用,并且这种轻微的偏差不显著(排列检验p = 0.27;图3A,左)。相比之下,鉴定的大多数(87%)lncRNA命中是阴性命中,并且lncRNA命中分布中的这种富集是高度显著的(排列检验p 1310- 6;图 3A,右)。这些结果表明,lncRNA命中富集了通常促进神经诱导的功能。在发育过程中,细胞分裂对分化有重要影响。为了研究神经诱导期间增殖的影响,我们将第8天PAX 6+和PAX 6-级分中的总sgRNA丰度(最终丰度)与筛选开始时收集的样品中的初始sgRNA丰度进行比较(图S3A)。这使得能够计算生长富集指数γ(g;负值表示增殖减少;正值表示增加),我们在没有FACS的单独筛选中直接验证了这一点(STAR方法;图S3 B)。我们鉴定了在神经诱导期间改变细胞增殖的730个编码基因命中和24个lncRNA基因命中(表S2)。正如预期的那样,编码基因命中包括许多细胞周期、凋亡和其他必需基因(例如,CDC20 、 CDT1 、 TP53 、 MDM2 、 T0P2A 、 BAX ) ( 图S3C)。增殖命中强烈富集了与基本生物学过程相关的GO术语,包括核糖体生物发生和DNA解旋酶活性(图S3D)。作为一个组,编码命中偏向于阴性增殖命中(图3B),与先前对必需基因的研究一致。24-26分化和增殖效应的综合分析(图3C)显示大多数(91%)命中产生单一表型(即,分化或增殖,Cell Genomics2,100177,2022年11月9日5会开放获取资源图3.lncRNA基因富集促进神经诱导的作用(A) 基于PAX6标记的分化筛选中编码和lncRNA命中的全基因组r值分布*p 13 10-6通过排列检验。(B) 基于生长的增殖筛选中编码和lncRNA命中的全基因组g值分布*p 13 10-6通过排列检验。(C) 散点图显示了所有筛选基因的分化(r)和增殖(g)表型,其中命中以其主要表型着色(分化,蓝色;增殖,橙色;或双重,紫色),而非命中以灰色显示。(D) 维恩图显示了编码和lncRNA命中的相对分解,按比例绘制(E) 神经诱导中编码基因和lncRNA的分化与增殖命中率。*p 13 10-6通过排列检验。另见图S3和表S2。但不是两者)。在编码和lncRNA基因组的1,258个命中中,仅9%的命中具有双重表型(图3D)。 例如,双重命中POU 5F1/OCT 4的敲低增加分化(阳性p;图1 E)和减少增殖(阴性g;图S3 C),与其作用一致。维持多能性和自我更新干细胞分裂。二十七、二十八值得注意的是,编码基因组和lncRNA基因组在分化和增殖表型的倾向上存在很大差异。在编码基因中,与增殖命中相比,只有一半的分化命中(排列检验,p 13 10- 6)。与此形成鲜明对比的是,在lncRNA基因中,增殖命中数超过增殖命中数9倍以上(排列检验,p 13 10- 6;图3E)。分化与增殖比率的这些差异突出了基因组的这两个方面在调节细胞生物学中的独特作用。总的来说,这些对双基因组范围筛选结果的综合分析表明,lncRNA基因组远未被发现。6Cell Genomics2,100177,2022会开放获取资源与编码基因组相比,在促进神经诱导方面的作用更加专门化。编码和lncRNA基因命中的不同转录组学和表观基因组学我们接下来利用筛选数据来鉴定区分命中与非命中的转录组学我们假设差异表达是命中的先决条件。例如,阴性命中可具有类似于PAX 6的表达模式(在NSC中高,在干细胞中低),而阳性命中可具有POU 5 F1/OCT 4的表达模式(在干细胞中高,在NSC中低)。然而,对单个基因的检查显示两者都是阴性的(例如,PAF1)和阳性(例如,SMARCE1)在整个神经诱导过程中具有稳定表达的命中(图S4A)。为了系统地评估转录组和表观基因组数据之间的关系以筛选表型,我们转向了机器学习方法。为了提供这种分析的转录组学特征,我们使用了我们的神经诱导RNA-seq时间序列数据。对于筛选中的每个靶标,我们确定了基因表达(每百万个转录本[TPM])、相对于第0天在每个时间点的倍数变化、最大表达、最大倍数变化和缩放表达(Z分数表示随时间的相对变化对于表观基因组特征,我们使用了来自Roadmap Epigenomics项目的数据,该项目描述了经历双重SMAD抑制神经诱导的人胚胎干细胞(ESC)中的27个组蛋白标记,类似于我们的筛选中进行的。29具体而言,个体表观基因组特征将是干细胞和NSC阶段中组蛋白标记的水平。对于所有编码和lncRNA基因启动子,我们定量了这些阶段的组蛋白标记水平为了比较转录组学和表观基因组学数据区分命中与非命中的总体能力,我们构建了机器学习分类器并分析了受试者操作特征(ROC)的曲线下面积(AUC)(图S4B)。虽然转录组学数据能够对编码命中进行分类(平均AUC,0.74),但这些数据对于lncRNA命中(平均AUC,0.55)总体上和在个体特征的自举分析中表现不佳(图4A和4B)。编码命中的中值表达水平(50.4 TPM)比非命中的中值表达水平(11.7 TPM)高4倍以上,而lncRNA命中(0.7 TPM)和非命中(0.4 TPM)的表达水平差异较小且不太显著(图S4C,左)。差异表达差异(最大绝对倍数变化)与编码命中的相关性也大于与lncRNA命中的相关性(图S4C,右)。此外,在时间表达动力学分析中,编码命中与某些表达模式相关,但lncRNA命中未富集任何模式(图S4D和S4 E)。因此,用于预测编码基因的生物学活性的常见的转录表观基因组数据以相似的性能对编码和lncRNA基因命中进行分类,平均AUC分别为0.75和0.74(图4C)。为了在更具体的水平上探索这一发现,我们转向对单个组蛋白标记的分析(图4D),其显示组蛋白-3赖氨酸-4三甲基化(H3 K4 me 3),表明该标记区分命中与非命中比随机机会更好地用于编码和lncRNA基因。H3K4me3修饰与活性基因相关,30其中前5%31染色质免疫沉淀测序(ChIP-seq)谱的分析揭示了在编码和lncRNA命中启动子区两者处升高的H3 K4 me 3沉积(图4E)。另外,编码和lncRNA命中物在最宽的H3 K4 me 3结构域中显著富集(比值比,~4总之,这些发现说明了表观基因组特征作为一个组以及在特定组蛋白标记水平上如何在神经诱导调节剂的筛选中区分命中与非命中。一小部分lncRNA基因命中有增强子样功能的证据一些lncRNA基因座可以作为转录增强子。 32-与总体分布(2Mb)相比,lncRNA基因命中与编码基因命中的线性基因组距离略有降低(中位数,1.4 Mb),尽管这些分布在很大程度上重叠(图S5A)。为了更全面地鉴定命中中的潜在增强子基因座,我们考虑 了43,011个人增 强子的哺乳 动物基因组 功能分析(FANTOM 5)图谱,35鉴定了在人神经诱导期间激活的1,547个候选调控序列的大规模平行报告基因测定(MPRA),36每个lncRNA基因命中与最近的编码基因命中的基因组关系,以及lncRNA与源自邻近连接辅助ChIP-seq(PLAC-seq)的编码基因之间的长距离三维染色体内相互作用(图5A总共有18%(201个中的36个)的lncRNA命中与这些图谱中的至少一个重叠(图5G,左)。值得注意的是,这些广泛包含的标准还将13%(419个中的54个)的编码命中分类为潜在增强剂(图5G,右)。在更高的严格性下-来自至少两个分析的证据-只有2%(201个中的4个)的lncRNA命中被分类为增强子(表S3和S4)。因此,只有少数编码和lncRNA基因命中物是潜在的增强子。双全基因组筛选使Perturb-seq实验能够剖析编码和lncRNA表型通过将CRISPRi基因扰动与丰富的单细胞转录组学读数相结合,Perturb-seq16-虽然合并筛选的读数通常基于简单的表型,如细胞生长,存活或标记基因表达,但Perturb-seq允许解剖在批量实验中被掩盖的不同表型和分子机制。我们使用来自双全基因组筛选的功能图谱来通知Perturb-seq实验,该实验询问编码和lncRNA基因功能。我们通过优先考虑得分最高的分化命中并排除具有强增殖表型的任何命中来选择靶标;即,绝对g值大于1的人群(由于生存差异,预计将出现显著的代表性过高或代表性不足为了进行比较分析,我们还随机抽取了非命中基因Cell Genomics2,100177,2022年11月9日7会开放获取资源图4.机器学习分析揭示了编码和lncRNA命中的不同转录组学和表观基因组学特性(A) 转录组学数据在分类编码和lncRNA命中与非命中中的代表性ROC曲线选定的曲线在1,000次训练/验证试验的平均AUC的1%以内(B) 热图显示用于分类编码和lncRNA命中与非命中的个体转录组学特征的AUC值。统计学显著性在99%置信水平下从1,000个自举中确定;非显著性特征以灰色表示。(C) 表观基因组数据在分类编码和lncRNA命中与非命中中的代表性ROC曲线。选定的曲线在1,000次训练/验证试验的平均AUC值的1%以内。(D) 热图显示用于分类编码和lncRNA命中与非命中的个体表观基因组特征的AUC值统计显著性在99%置信水平下从1,000个bootstrap中确定;非显著性特征以灰色表示。(E) ChIP-seq图谱显示ESC中编码和lncRNA基因的启动子区的2-kb窗口中的平均H3 K4 me 3信号。绿色为编码命中,洋红色为lncRNA命中,灰色为非命中。(F) 在宽H3K4me3结构域中富集命中的比值比。与非命中相比,编码和lncRNA基因命中均显著富集。虚线表示比值比为1(零假设),误差条表示Fisher精确检验的95%置信区间。* 第1页,第3页,第10- 8页。另见图S4和表S1。相似的表达水平。最终的Perturb-seq文库由240个独特靶标的480个sgRNA组成(120个lncRNA和120个编码基因,每个靶标具有两个独立的sgRNA),覆盖 60个阳性分化命中、85个阴性分化命中、30个双重命中和65个非命中;另外,包括12个非靶向对照sgRNA,总共492个独特将文库以0.1的低感染倍数(MOI)转导到CRISPRi-iPSC中,对应于>95%的细胞具有单一sgRNA整合。在对sgRNA+细胞进行FACS后,我们开始神经诱导和CRISPRi的活化(图6A)。在第8天,我们收获细胞并使用直接sgRNA捕获制备单细胞RNA-seq(scRNA-seq)文库18在测序和数据处理之后,我们过滤细胞用于sgRNA检测、单态状态和质量度量(STAR方法;表S5)。我们获得了总共78,393个具有单个sgRNA扰动的细胞,每个扰动以317个细胞的中位数表示。靶基因表达数据的分析揭示了80%的中值敲低效率(图S6A),与先前的研究相当。18使用均匀流形近似和投影(UMAP)在二维中可视化Per-turb-seq数据集基于RNA速度分析37、38(图6B)和标记基因表达(图6C和S6B),我们鉴定了三种主要的细胞轨迹。最大的轨迹(NSC谱系,代表约50%的细胞)对应于进行神经诱导的非循环细胞,其速度指向具有高表达神经标志物(包括PAX6、FOXG 1和EMX2)的最终细胞状态。多能性标志物如GBX2和8Cell Genomics2,100177,2022会开放获取资源图5.一小部分lncRNA基因命中有增强子样功能的证据(A) 映射到FANTOM 5图谱和MPRA神经诱导增强子数据集的增强子序列的筛选命中图。(B) 条形图显示编码和lncRNA基因的分数(彩色,命中;灰色,非命中)映射到(A)中描述的增强子通过Fisher精确检验比较命中和未命中,p <0.05不显著。(C) 近距离lncRNA编码命中对基因组关系图。(D) 条形图显示了(C)中描述的每个类别中编码和lncRNA基因的分数(彩色,命中;灰色,非命中)*p 0.05,通过Fisher精确检验比较命中和未命中不显著。(E) lncRNA和编码命中对之间的长距离3D染色质相互作用图。(F) 直方图显示由PLAC-seq鉴定的长距离3D基因-基因环相互作用的距离。交互命中以浅红色着色;所有其他交互以灰色着色。(G) 维恩图显示了分类为上述类别的潜在增强子样筛选命中。另见图S5和表S3和S4。P0 U 5 F1/0 CT 4在该轨迹中低表达,但存在于其他细胞群中(图6C和S6B)。第二大轨迹(细胞周期,约30%的细胞)由活跃的循环细胞(CDC 6+和MKI 67+)组成,包括表达多能性标志物的PAX 6+细胞和PAX 6-退出细胞周期轨迹的细胞分支成NSC谱系或第三胚层-非中枢神经系统(非CNS)外胚层,约14% 的细 胞-特征 在于外胚 层谱系 的标志物 (例如 ,TFAP2A/B),其通常在CNS外发育,并且可以出现在经历神经诱导21大约7%的细胞不属于这三个主要轨迹。每个Perturb-seq sgRNA被映射到每个细胞,并且我们构建了归一化的2D密度热图以可视化UMAP空间中命中和非命中的富集。作为一组,阳性命中sgRNA在PAX 6+ NSC中富集,而阴性命中sgRNA在多种PAX 6-细胞状态中富集(图6D)。非命中sgRNA组与非靶向对照sgRNA(代表未受干扰的细胞)在统计学上不可区分,表明它们不具有靶向性。Cell Genomics2,100177,2022年11月9日9会开放获取资源图6.双全基因组筛选使Perturb-seq实验能够剖析编码和lncRNA表型(A) 具有直接捕获sgRNA的神经诱导Perturb-seq实验设计的概述(B) 主要轨迹来自RNA速度和可视化UMAP。(C) 在UMAP上可视化的NSC、多能细胞和循环细胞的标志物的表达。(D) UMAP上命中和非命中sgRNA的归一化密度热图在UMAP空间中计算靶sgRNA的密度分布,并归一化为非靶向对照的背景密度*p 13 10- 3基于多变量Kolmogorov-Smirnov检验对比非靶向对照分布。(E) 通过重叠系数的sgRNA密度谱的相似性对Perturb-seq靶标进行分级聚类的热图。两组靶点,BAF和PAF 1复合物,分别以蓝色和红色突出显示。(F) 靶向BAF和PAF 1复合体成员的sgRNA的归一化密度热图,显示它们在UMAP中的共定位。另见图S6和表S5和S6。对神经诱导转录组的实质性影响。因此,Perturb-seq验证了来自全基因组筛选的靶标的分化表型。为了评估潜在的sgRNA对细胞增殖的影响,我们定量了表达每种sgRNA的细胞的数量,提供了这种生长表型的相对测量(例如,减少增殖的靶标将随时间推移而脱落,导致更少的sgRNA+细胞)。对于Perturb-seq实验中的靶标,神经诱导第8天的sgRNA细胞计数与来自全基因组筛选的g(图S6C),双重命中显示强相关性(Pear-sonr = 0.92)。因此,Perturb-seq证实了增殖和分化表型,支持全基因组筛选的发现(图3C和3D)。为了研究单个命中的影响,我们使用基于密度的空间聚类和噪声应用39(DBSCAN)来识别高sgRNA密度的离散UMAP区域(STAR方法),为每个靶标生成归一化密度热图。sgRNA密度谱的成对分析和聚类揭示了具有相似作用的靶点组10Cell Genomics2,100177,2022会开放获取资源(图6E、S6D和S6 E;表S6)。例如,BAF 1复合物成员在全基因组筛选中是阳性命中(图1E和S2B),靶向ARID1A(BAF250A)、SMARCA 4(BRG 1)、SMARCC 1(BAF 155)和SMARCC 2(BAF 155)的sgRNA在全基因组筛选中是阳性命中(图1E和S2 B)。SMARCE1(BAF 57)在UMAP中以相同的模式定位(图6F,顶部),表明它们以类似的方式影响神经BAF复合物的敲除导致细胞沿着NSC和非CNS外胚层轨迹更远,这与该染色质调节物复合物在维持多能性和充当分化的一般屏障 40由阴性命中物PAF1、CTR 9、RTF 1和CDC 73编码的蛋白质在称为PAF1c的复合物中物理相互作用,该复合物调节转录、染色质结构和对胚胎发生重要的信号通路。41靶向这些PAF1c组分产生的转录组与神经诱导中观察到的主要细胞轨迹不同(图6F,底部)。类似地,Perturb-seq揭示了与介体、DNA合成和Polycomb复合物相关的物理相互作用命中之间的重叠表型(图S6D)。此外,在相同途径中起作用的基因产生相似的UMAP密度分布。P0 U 5 F1/0 CT 4被SALL 4上调,42并且这两个阳性命中的密度热图高度重叠(图S6E,左),表明P0 U 5 F1和SALL 4的阻遏导致相似的表型。密度热图的分析还鉴定了在相同途径中起作用的其他编码基因之间的相似模式,例如无翼(WNT)和促分裂原活化蛋白激酶(MAPK)信号传导(图S6E)。总的来说,这些实施例表明,相同途径或分子复合物中基因的Perturb-seq靶向产生高度相似的UMAP谱,其反映了由这些基因控制的潜在生物学过程。编码基因抑制停滞或中止分化,而lncRNA基因抑制允许更大的细胞状态基于对所有Perturb-seq目标的密度分布的分析,我们鉴定了总共29种细胞状态(图7A和S7然后分析每个Perturb-seq靶标的sgRNA映射到29种状态中的每一种的相对分布,并通过热图可视化这些数据(图S7D)。根据来自双全基因组筛选的阳性或阴性差异表型对命中进行颜色编码,并且尽管该信息不用于通知聚类,但阳性和阴性命中彼此分离。例如,与NSC状态(例如,16,12,9,23,24),而阴性命中在分化程度较低的中间细胞状态(例如,13、6)。对于编码基因和lncRNA基因,阳性命中通常产生相似的PAX6+ NSC状态。例如,靶向OGT的sgRNA-其编码调节多能性和神经分化的O-GlcNAc转移酶蛋白43、44-在NSC状态16中富集(图7B)。这种状态的特征是神经标志物的最高表达,包括参与前脑发育的基因(例如,PAX 6、FOXG 1、FEZF 1、EMX2)(图7C;表S6)。靶向新的lncRNA基因LH 09400(内部标识符)导致NSC状态的富集12(图7B),其表达高度相似的神经标志物特征,但具有升高水平的HES4、HES5和ID4,NOTCH信号传导下游的基因(图7C)。阴性命中显示编码基因和lncRNA基因之间的高度分歧表型。对于编码基因,最常见的表型(40%)是富集在中间细胞状态。例如,敲低前脑发育因子HESX1(一种同源异型框)45导致细胞状态6的富集。这种中间状态位于主要RNA速度轨迹的交界处(图6B),其特征在于PAX 6-/GBX 2+细胞退出细胞周期(图6C),表明这些细胞与未分化细胞最相似,并且可能已经停滞或沿其分化轨迹进展较慢,以其次最常见的表型(16%)是凋亡标记(例如,BAX,CDKN1A),表明这些细胞分化失败,最可能是由于存活受损。总之,停滞和凋亡表型(统称为相反,少数lncRNA基因扰动表现为非生产状态的主要表型。相反,lncRNA基因的抑制通常导致沿着多个轨迹的不同细胞状态(图S7E)。例如,靶向未表征的lncRNA基因SERTAD 4-AS1的sgRNA在所有三个轨迹中富集(图7B),即使该命中抑制神经诱导至与HESX 1相似的程度。除了影响NSC谱系中的细胞(状态12)之外,SERTAD 4-AS 1的扰动还导致细胞周期的变化(状态18),以及非CNS外胚层轨迹远端的细胞出现神经嵴衍生(状态1;图7 C)。因此,尽管抑制神经诱导到相似的程度,SERTAD 4-AS 1的潜在表型与HESX 1的表型有很大不同。阴性命中表型的定量分类揭示了编码基因和lncRNA基因之间的显著差异(图7D).尽管编码基因敲低通常通过产生非生产性的(即,停滞或凋亡)表型时,lncRNA基因敲低通常通过沿多个投射物分散细胞(包括NSC谱系外的细胞身份)来阻断神经诱导。此外,神经诱导效应大小无法解释轨迹数量(图S7F)。因此,这些颗粒Per- turb-seq表型支持我们在编码和lncRNA分化和增殖表型中的差异的更广泛的发现(图3D和3E)。总的来说,我们的研究结果表明,神经诱导所需的编码基因和非编码基因具有明显不同的表型,这表明lncRNA基因(在进化中比编码基因出现得晚得多)可能被基因组用于广泛不同的细胞角色,在发育过程中提供了复杂基因调控的另一个方面。抑制SERTAD 4-AS 1增加TAGLN+细胞的产生为了促进我们的资源的广泛使用,我们创建了一个交互式数据门户网站(danlimlab.shinyapps.io/dualgenomewide)。这个网站可以直观地探索我们的集体数据集,而无需任何编程经验,从检索感兴趣的基因的分化和增殖效应,Cell Genomics2,100177,2022年11月9日11会开放获取资源图7.编码基因抑制停滞或中止分化,而lncRNA基因抑制允许更大的细胞状态多样性(A) UMAP上与目标扰动相关的细胞状态(B) 阳性和阴性编码和lncRNA命中的归一化密度热图具有来自全基因组筛选的相似程度的影响(C) 在(B)中观察到的细胞状态的基因表达特征的热图,具有丰富的本体术语的示例(FDR 0.01)。(D) 饼图显示被归类为非生产性或多个轨迹的负面点击比例。编码和lncRNA命中在这些表型的比例上显著不同。*p 13 10-5,Fisher(E) 内部控制的分化测定的图,含sgRNA的细胞用GFP或RFP标记。(F) 表达TAGLN蛋白的GFP和RFP细胞的总体百分比(每个条件n= 3次重复排除GFP/RFP双阳性细胞(表达两种误差条表示1 SD。*p 0.01,t检验。(G) 在Perturb-seq实验中,与sgControl相比,在具有sgSERTAD 4-AS 1的细胞中SERTAD 4-AS 1和SERTAD 4编码基因的相对表达。与对照细胞相比,实现了对SERTAD 4-A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功