Cell Genomics3,100247,2023年2月8日
3
因此,我们开发了一种我们称为"ClonoCluster"的算法,该算
法整合了转录组和克隆条形码信息,允许使用连续参数(a)来
聚类细胞,该参数(a)调整转录组与克隆信息的相对权重。我
们将ClonoCluster应用于6个先前发表的独立单细胞RNA测序数
据集,包括
体外
造血、定向干细胞分化和肿瘤细胞系的药物治
疗。
11
,
12
,
18
我们发现,随着a被转移到更重的克隆起源,细胞到
簇的分配发生了大规模的重排。这些重排具有新的、可能更生物
学上可解释的簇标记,并且与参与细胞外基质产生和翻译的基因
的表达相关这些结果在克隆命运由内在决定的数据集上保持不
变,并且在细胞命运由外在决定的数据集中效果明显不那么强。
受这种克隆加权网络图聚类方法的启发,我们开发了一个可调参
数(Warp Factor,范围从0到10),该参数将克隆性信息纳入
到通常用于可视化高维数据集的均匀流形近似和投影(UMAP)
算法之前的降维步骤中我们将ClonoCluster和Warp Factor包含
在 开 源 R 包 ClonoCluster
(https://github.com/leeprichman/ClonoCluster)中。随着条形
码数据变得越来越普遍,ClonoCluster可以提供一种方法来评估
通过考虑克隆来源可以改变聚类的程度。
设计
ClonoCluster
集成克隆条形码和转录组信
息
克隆条形码分配和转录组水平数据代表两种不同的数据模式,可
用于聚类单细胞RNA测序。在原型克隆条形码化实验中,用随机
转录的条形码转染细胞群,使得每个初始克隆可能表达独特的条
形码。增殖后,实验者应用一些额外的实验条件,如药物处理或
分化。
11
-条形码本身可以通过以下方式确定:
各种副反应和随后的测序,从而为每个细胞的转录组添加克隆标
识符(In在实践中,单细胞RNA测序的克隆鉴定和取样的技术限
制意味着只有一些测序细胞的子集将具有可识别的条形码。
一旦细胞同时具有转录组和克隆信息,就可以比较分类方法。
两种流行的仅通过转录组信息对细胞进行分类的软件包是Seurat
和scanpy,
19
,
20
其中,将社区检测算法应用于网络图以识别最
互连的小区簇。 然后,我们可以通过转录组簇与克隆条形码直
接比较细胞的分类(图1A)。原则上,这两个分类方案可以几
乎相同,也可以完全不相关。
可调参数
a
产生杂交克隆
-
转录组定义的簇
我们想知道是否有某种方法可以将克隆和转录组信息结合起来,
以产生“杂交”簇,将平衡转录组相似性和克隆关系的细胞分组。
为了生成这样的混合聚类,我们开发了ClonoCluster模型来测量
细胞之间的相似性。该模型包括可调参数a,其在仅通过细胞转
录组的聚类(a= 0)和在成熟 的单细胞RNA测序分 析包(如
scanpy和Seurat
)
中,算法构建了由边连接的细胞(节点)的网
络图,边由转录相似性(“转录组权重”)加权,由主成分空间中
共享的最近邻的数量确定。
19
、
20
然后通过该图内的社区检测来确
定聚类本身,返回最高度互连的小区分组作为分配的聚类。在
ClonoCluster中,我们保留了这个整体结构,通过修改权重来合
并克隆信息,如下所示。对于细胞之间的每条边,我们还根据细
胞是否具有相同或不同的条形码创建了1或0的“克隆权重”。然
后,我们通过具有该条形码的细胞的数量来标准化“克隆重量”,
以确保条形码的吸引力“力”不随细胞的数量而缩放。我们使用a
线性组合转录组和克隆权重,使得它返回a=0和a = 0的纯转录组
权重。
图1.ClonoCluster方法使用
a
参数以可调方式集成了转录组和克隆聚类模式
(A)
描绘单细胞条形码化的通用方法的示意图,其产生可通过两种数据模式聚类的输出,转录组聚类和通过回收的条形码的克隆聚类。
(B)
描述使用ClonoCluster方法整合这些克隆和转录组聚类模式的示意图,其中修改转录组最近邻网络图边缘权重以并入具有可调自由参数
a
的克隆聚类。在
a
= 0
时,聚类与传统的转录组聚类相同。在a= 1时,簇与克隆条形码分配一致。
(C)
Sankey图描绘
了在体外
造血测定中从第2天存在的15个最大克隆簇重组细胞簇
12
,其中增加了由初始转录组簇(顶部)和克隆(底部)着色的值节点/框表示
簇,并且条带描绘簇之间的细胞流
(D)
高剂量BRAF抑制剂处理的黑色素瘤克隆细胞系(用1
mM
BRAF抑制剂维罗非尼
11
处理的克隆WM 989细胞)的代表性图,显示簇数接近独特克隆条形码数,
其中在固定群落检测分辨率下增加值‘‘High ‘‘Low 在
a
= 0时,聚类与传统的转录组聚类相同在
a
= 1时,簇与克隆条形码分配一致。
(E)
来自高剂量BRAF抑制剂数据集处理的黑素瘤克隆细胞系的15个最大克隆簇的代表性Sankey图,其描绘了转录组、低α和高α水平下簇的重排,通过初始转录
组簇分配(左)和高α簇分配(右)着色