6
Cell Genomics2,100083,2022
剩余的局部批次效应(图S1G;见STAR方法)。
(2)
在图的中心,簇5和15在表皮和表皮周标记物(例如krt
4)周围具有高可接近性,并且在簇15中,
(3)
在早期神经元调节
因子
sox 2
44
周围具有广泛富集的主要神
经元区域,其被细分为代表脊髓的簇9;代表后脑的簇7和2;
代表分化神经元的簇6;和代表中脑的簇12(图1G基于这
些标记基因关联,从这一点开始,为簇分配代表性名称
(图1H)。
ScregSeg
定义了特定于单个和多个集群的可访问
性动态
细胞多样性是由调节“程序”的实施重要的是,这些程序的各个组
件可以在几个不同的上下文中重用。典型的差异可访问性分析选
择与所选背景单元集合这引入了对复杂的多单元类型可访问性模
式的偏见,并可能导致仅对单个单元类型的错误分配。我们推
断,HMM有助于对监管环境进行无偏见的表征,因为它不需要
预 先 定 义 前 景 和 背 景 细 胞 类 型 。 因 此 , 我 们 再 次 应 用
ScregSeg,这次是在集群折叠的可访问性配置文件上(即,具
有用于图1中定义的17种细胞类型中的每一种的输入轨道,而不
是单个细胞)。我们使用30种状态来表征具有500-bp分辨率的
基因组(图2A和S2A-S2HMM的状态表示识别单个监管程序,例
如特定于单个或几个集群的可访问性,以及背景可访问性(图
2B和S2A;下面进一步详细讨论与ScregSeg-fi(图1)识别的基
于单细胞的状态相比,ScregSeg-pi(程序识别)分割经常
导致ScregSeg-fi状态的细分,表明基因组区域的精细分类用于
跨细胞类型的可接近性模式(图S2D)。ScregSeg-pi全基因组
区段是我们研究的主要来源(表S6)。
为了描述ScregSeg-pi分割,我们专注于显示与细胞簇强关联
的状态(图2B和S2A)。该模型识别了多个状态,每个状态显示
出与单个细胞类型的明确关联(例如,29、4、14、24、10、
23、21和20;图2B)。ZFIN和scRNA-seq标记基因集周围的状态
富集(表S3和S4)与从我们的差异分析(表S1和S2)中观察到
的单个细胞类型簇的状态富集一致。然而,其他状态捕获在多种
细胞类型中可访问的CRE(例如,5、26、25、13和1;图2B)。
例如,ScregSeg-pi状态5和18与所有神经元簇(簇2、7、9和
12)具有高度关联与这些状态相关概率最高的区域之一是ascl1b
基因座周围(图2B),这是一个关键的神经元谱系决定TF。由
于该基因座在几个簇中是可接近的,因此其未被差异可接近性分
析检测到,证实ScregSeg-pi能够捕获广泛作用和高度特化的
CREs。
我们发现了多个不同的调节程序在单一细胞类型中起作用的证
据例如,细胞类型簇14(图1)富含在体轴延伸
45
-48期间具有脊
髓、体节和血管分化潜能的多能尾侧前体的标志物该簇与三种
ScregSeg-pi状态(25、26和13)强烈相关,其区域可能分别构
成尾侧前体的已知内皮、神经元和肌原性轨迹背后的不同调控程
序,如它们与这些其他细胞类型(分别为簇1/11、9和3/16)和
状态标志物基因注释(图2C;表S3-S5)共享的可接近性所证明
的在神经元细胞类型中的另一个示例中,簇12(中脑)显示与2
个状态(状态5和24)的强关联Screg-Seg-pi状态5区域在除簇6
(分化神经元)之外的所有神经元簇中是可接近的,并且在神经
发生级联的标志物周围富集,而簇12特异性状态24包括与脑空
间身份
49
、
50
强烈相关的基因组区域(图2C;表S3这个例子表明,
有可能将驱动特定细胞谱系分化(神经发生)的调节程序与大脑
区域的空间分离分开。
单细胞可及性测量有可能揭示转录调控的序列代码。受深度学
习方法在染色质可及性建模和TF结合提取方面
(B)
热图表示基于状态的发射概率与(归一化的)每个簇的总体读段覆盖率之间的对数比的状态与簇之间的关联显示限于显示与单细胞类型簇(左)和多细胞类
型簇(右;图S2 A中的完整热图)的最强关联的状态ScregSeg-pi状态5和18(突出显示)包括在4种神经元细胞类型簇中可接近的CRE。在UMAP空间中表示的
这些状态的具有最高分配概率的100个CRE的可访问性,其中颜色表示给定区域的基于秩的AUCell富集分数
35
,
36
ascl1b周围的基因座具有很高的概率分配到状态
5和18,如下面的聚类聚集可及性轨迹所示,ascl1b基因座(以粉红色突出显示)在代表神经元细胞类型的UMAP区域中显示出高度归一化的富集。
(C)
与多个ScregSeg-pi状态(分别为26、25和13以及5和24)相关的细胞类型簇(尾芽和中脑)的两个实例右侧小图显示了映射至区段的基因的基因体处的可及
性的每细胞分布,其中对于这些状态中的每一个具有前100个logFC富集