ClonoCluster：基于克隆起源的转录组聚类方法

11 浏览量更新于2023-12-06 收藏 2.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

技术ClonoCluster：一种使用克隆起源来通知转录组聚类的方法图形摘要亮点d克隆信息代表转录组dClonoCluster结合转录组和克隆数据生成混合聚类通过ECM和核糖体基因表达d混合聚类识别生物学相关标志物并降低细胞类型熵作者放大图片作者：Lee P. Richman，Yogesh Goyal，Connie L.阿尔琼？拉杰？姜对应arjunrajlab@gmail.com简言之单细胞RNA测序中的新型细胞条形码方法提供了同时聚类底物：转录组和克隆信息。Richman等人开发了ClonoCluster来结合这些方法来产生混合集群。杂交簇由生物学上显著的标记物分开，并减少跨簇的标记细胞类型的熵。Richman等人，2023，细胞基因组学3，1002472023年2月8日，作者（S）。https://doi.org/10.1016/j.xgen.2022.100247会会开放获取技术ClonoCluster：一种使用克隆起源来通知转录组聚类的方法李坡里奇曼，1，2约格什戈亚尔，3，4，5康妮L。Jiang，6and Arjun Raj2，3，7，*1病理科，布里格姆妇女2美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院遗传学系3美国宾夕法尼亚大学工程与应用科学学院生物工程系4美国伊利诺伊州芝加哥市西北大学范伯格医学院细胞与发育生物学系5美国伊利诺伊州芝加哥市西北大学合成生物学中心6遗传学和表观遗传学，细胞和分子生物学研究生组，佩雷尔曼医学院，宾夕法尼亚大学，费城，美国7引线触点* 通讯地址：https://doi.org/10.1016/j.xgen.2022.100247arjunrajlab@gmail.com总结基于细胞的高维轮廓进行细胞聚类是一个重要的数据约简过程，研究者可以通过然而，细胞条形码的出现提供了一种将细胞分组的替代方法：通过它们的克隆起源。我们开发了ClonoCluster，这是一种结合克隆和转录组信息的计算方法，可以创建混合聚类，用可调参数对两种数据进行加权。我们在六个独立的数据集上生成了混合聚类，发现ClonoCluster在所有情况下都生成了定性不同的聚类这些杂交簇的标记物是不同的，但具有等同的保真度，仅转录组簇。与杂合簇中重排关系最密切的基因是核糖体功能基因和细胞外基质基因。我们还开发了补充工具Warp Factor，它将克隆信息纳入流行的2D可视化技术，如UMAP。整合ClonoCluster和Warp Factor揭示了细胞身份的生物学相关标志物介绍自从高维分子谱的出现以来，聚类一直是应用的数据分析和可视化的最常见形式，允许人们从具有相似谱的实体中形成组1，2聚类使得能够检测疾病基因的网络和跨癌细胞系的功能模式的丢失3，4最近，单细胞测量技术的发展已经允许对单个细胞进行高维分析。在这种情况下，聚类已被用于将细胞分类为离散的分子状态，通常称为5，6同时，在许多生物学背景下，单细胞也有谱系关系;即，它们可能起源于共同的祖先。该信息原则上提供了对单细胞的聚类概况的补充方式，但其尚未被并入单细胞概况的系统学中[7]在许多情况下，纯粹基于分子图谱的聚类分析是可行的，但它依赖于一些难以严格评估的假设。简单地说，大多数聚类方法从某种形式的特征选择或降维开始。然后，通过k均值聚类、层次聚类或基于图的社区检测方法（使用连接性来通知团体成员资格。所有这些方法的本质是使用细胞之间的某种距离，该距离是通过它们的分子谱之间的距离的某种度量来测量的，但是原则上许多其他类型的信息可以用于通知或修改这些距离。最近，细胞条形码系统的发展提供了一种将细胞分组的替代手段首先，这些系统已经用于通过某种生物过程（例如分化或治疗抗性）纵向跟踪分子谱。9-例如，该方法鉴定了Mettl7a1（一种甲基转移酶）的表达作为成功干细胞重编程的驱动因子，13鉴定了TCF 15对于造血干细胞自我更新是必要和充分的，并且鉴定了Pou2f2在祖细胞中的表达作为预测DC样与嗜中性粒细胞样单细胞命运。12，16，17这些结果表明，克隆信息的掺入在确定具有不同功能结果的细胞之间的表达差异方面可能非常有用能够在聚类算法中对转录组和克隆信息进行加权将潜在地使得能够识别这样的Cell Genomics3，100247，February 8，2023？ 2022作者。1这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。会开放获取技术2Cell Genomics3，100247，2023（图例见下页）Cell Genomics3，100247，2023年2月8日3会开放获取技术因此，我们开发了一种我们称为"ClonoCluster"的算法，该算法整合了转录组和克隆条形码信息，允许使用连续参数（a）来聚类细胞，该参数（a）调整转录组与克隆信息的相对权重。我们将ClonoCluster应用于6个先前发表的独立单细胞RNA测序数据集，包括体外造血、定向干细胞分化和肿瘤细胞系的药物治疗。11，12，18我们发现，随着a被转移到更重的克隆起源，细胞到簇的分配发生了大规模的重排。这些重排具有新的、可能更生物学上可解释的簇标记，并且与参与细胞外基质产生和翻译的基因的表达相关这些结果在克隆命运由内在决定的数据集上保持不变，并且在细胞命运由外在决定的数据集中效果明显不那么强。受这种克隆加权网络图聚类方法的启发，我们开发了一个可调参数（Warp Factor，范围从0到10），该参数将克隆性信息纳入到通常用于可视化高维数据集的均匀流形近似和投影（UMAP）算法之前的降维步骤中我们将ClonoCluster和Warp Factor包含在开源R包ClonoCluster（https://github.com/leeprichman/ClonoCluster）中。随着条形码数据变得越来越普遍，ClonoCluster可以提供一种方法来评估通过考虑克隆来源可以改变聚类的程度。设计ClonoCluster集成克隆条形码和转录组信息克隆条形码分配和转录组水平数据代表两种不同的数据模式，可用于聚类单细胞RNA测序。在原型克隆条形码化实验中，用随机转录的条形码转染细胞群，使得每个初始克隆可能表达独特的条形码。增殖后，实验者应用一些额外的实验条件，如药物处理或分化。11-条形码本身可以通过以下方式确定：各种副反应和随后的测序，从而为每个细胞的转录组添加克隆标识符(In在实践中，单细胞RNA测序的克隆鉴定和取样的技术限制意味着只有一些测序细胞的子集将具有可识别的条形码。一旦细胞同时具有转录组和克隆信息，就可以比较分类方法。两种流行的仅通过转录组信息对细胞进行分类的软件包是Seurat和scanpy，19，20其中，将社区检测算法应用于网络图以识别最互连的小区簇。然后，我们可以通过转录组簇与克隆条形码直接比较细胞的分类（图1A）。原则上，这两个分类方案可以几乎相同，也可以完全不相关。可调参数a产生杂交克隆-转录组定义的簇我们想知道是否有某种方法可以将克隆和转录组信息结合起来，以产生“杂交”簇，将平衡转录组相似性和克隆关系的细胞分组。为了生成这样的混合聚类，我们开发了ClonoCluster模型来测量细胞之间的相似性。该模型包括可调参数a，其在仅通过细胞转录组的聚类（a= 0）和在成熟的单细胞RNA测序分析包（如scanpy和Seurat）中，算法构建了由边连接的细胞（节点）的网络图，边由转录相似性（“转录组权重”）加权，由主成分空间中共享的最近邻的数量确定。19、20然后通过该图内的社区检测来确定聚类本身，返回最高度互连的小区分组作为分配的聚类。在ClonoCluster中，我们保留了这个整体结构，通过修改权重来合并克隆信息，如下所示。对于细胞之间的每条边，我们还根据细胞是否具有相同或不同的条形码创建了1或0的“克隆权重”。然后，我们通过具有该条形码的细胞的数量来标准化“克隆重量”，以确保条形码的吸引力“力”不随细胞的数量而缩放。我们使用a线性组合转录组和克隆权重，使得它返回a=0和a = 0的纯转录组权重。图1.ClonoCluster方法使用a参数以可调方式集成了转录组和克隆聚类模式(A) 描绘单细胞条形码化的通用方法的示意图，其产生可通过两种数据模式聚类的输出，转录组聚类和通过回收的条形码的克隆聚类。(B) 描述使用ClonoCluster方法整合这些克隆和转录组聚类模式的示意图，其中修改转录组最近邻网络图边缘权重以并入具有可调自由参数a的克隆聚类。在a= 0时，聚类与传统的转录组聚类相同。在a= 1时，簇与克隆条形码分配一致。(C) Sankey图描绘了在体外造血测定中从第2天存在的15个最大克隆簇重组细胞簇12，其中增加了由初始转录组簇（顶部）和克隆（底部）着色的值节点/框表示簇，并且条带描绘簇之间的细胞流(D) 高剂量BRAF抑制剂处理的黑色素瘤克隆细胞系（用1mM BRAF抑制剂维罗非尼11处理的克隆WM 989细胞）的代表性图，显示簇数接近独特克隆条形码数，其中在固定群落检测分辨率下增加值‘‘High ‘‘Low 在a= 0时，聚类与传统的转录组聚类相同在a= 1时，簇与克隆条形码分配一致。(E) 来自高剂量BRAF抑制剂数据集处理的黑素瘤克隆细胞系的15个最大克隆簇的代表性Sankey图，其描绘了转录组、低α和高α水平下簇的重排，通过初始转录组簇分配（左）和高α簇分配（右）着色4Cell Genomics3，100247，2023会开放获取技术表1. 数据集描述和来源号的数据集名称源描述复制命运决定低剂量BRAF抑制剂Goyal等人bioRxiv（2021）11WM 989 A6-G3克隆性黑素瘤细胞1内在用100 nM维罗非尼治疗，3高剂量BRAF抑制剂Goyal等人bioRxiv（2021）11WM 989 A6-G3克隆性黑色素瘤2内在用1 mM维罗非尼3Cario-directediPSCsJiang等人Genome Biol. （2022年）18PENN 123 i-SV 20人IPSC系1外在指向心肌细胞的命运第14体外造血Weinreb等人Science（2020）12造血祖细胞1内在从小鼠骨髓分化培养2天WM983B BRAF抑制剂Goyal等人bioRxiv（2021）11WM 983 B E6-C6克隆性黑色素瘤细胞2内在用100 nM维罗非尼治疗，3紫杉醇治疗乳腺癌Goyal等人bioRxiv（2021）11MDA-MB-231 D4克隆性乳腺癌2内在癌细胞用1 nM紫杉醇处理细胞，3a= 1的纯克隆权重（图S1A）。然后，我们可以使用该图进行集群分配，就像传统算法所做的那样（图S1B）。因此，对于介于1和0之间的a值，ClonoCluster提供了对克隆和转录组信息进行加权的混合聚类。结果我们使用ClonoCluster从来自我们实验室和其他实验室的六个不同的克隆条形码化单细胞RNA测序数据集生成杂交簇11，12，18（参见STAR方法和表1）。我们首先以从传统的仅转录组聚类（a= 0）到克隆分组（a= 1）的a的逐步值进行混合聚类我们想要确定杂交簇与单独的转录组或克隆簇有多不同，以及如何将重组簇从初始转录组簇增加到单个克隆簇。为了可视化细胞通过这些渐进杂交簇的流动，我们使用每个样品的15个最大克隆簇构建了数据集的Sankey图21（图1C和S2A）。随着a的增加，在前15个克隆簇中的整个簇中存在可见的细胞重组，在所有样品中，在a的大部分范围内簇数目、组成和大小存在如所预期的，当α接近1时，杂交簇和克隆簇之间的一致性增加，这意味着杂交簇主要由单个克隆或其组合组成，克隆在簇间分裂的频率变得更少。（在a= 1时，簇相当于克隆分组。）在每个数据集中，具有相同克隆起源的细胞（即，共享条形码）在给定的α水平下表现出不同程度的重组成一致的簇，其中一些需要比其它更高的α值来完全统一成单个混合簇。数据集之间的重排模式也各不相同。例如，心脏定向iPSC数据集显示，与用高剂量维罗非尼处理的WM 989 A6-G3黑色素瘤细胞相比，前15个最大克隆簇中克隆簇和转录组簇之间的一致性在心脏定向iPSC数据集中，每个顶级克隆集群通过a= 0.6分离到单独的集群，相比之下，在两个黑素瘤重复中a= 0.8或0.9（图S2A）。我们正式评估克隆到集群一致性使用科恩当共享条形码的克隆细胞更频繁地被分配到单个簇时，科恩(Ata= 1其中混合聚类和克隆聚类是等价的，科恩对于大多数数据集，我们观察到科恩k随着a的增加从0到1的逐渐过渡然而，心肌细胞定向的iPSC显示出在低k和高k之间的非常突然的转换（图S2B），表明在纯转录组聚类和纯克隆聚类之间几乎没有有意义的中间杂交聚类。Sankey的可视化与这种解释相匹配，显示克隆在仅转录组的簇之间相当混杂，几乎没有明显的部分聚集区域。在心肌细胞定向的iPSC情况下，在生物学上，我们先前的发现表明细胞命运是外部决定的，并且与克隆性没有很好的相关性;因此，杂交簇将越来越多地由基本上随机类型的细胞组成，解释了该数据集的这些观察结果。当接近1时，鉴定的杂交簇的数量接近数据集中的大量个体克隆簇，其通常比使用常用方法返回的标准转录组簇更多。我们想知道我们是否可以确定Cell Genomics3，100247，2023年2月8日5会开放获取技术（图例见下页）6Cell Genomics3，100247，2023会开放获取技术产生了许多与转录组簇的数目相似的杂交簇，其也显示出与仅转录组簇不同的显著的细胞重组。因此，我们计算每个样本中跨a值返回的聚类数，以确定仍返回此范围内的聚类数的最大a值;是由Seurat软件包中实现的Louvain算法确定。19，22Louvain算法迭代地切断网络图边以实现社区成员的最佳内部互连性（模块化），并返回具有较高输入分辨率参数值的更多社区。我们以固定的分辨率进行所有聚类，因此随着值的增加，聚类数量的增加可以归因于聚类的模块化程度的提高，因为网络分裂成类似条形码克隆的隔离网络。‘‘High 高α值在样品之间变化，从0.4到0.7。即使在限制返回的簇的数量的该受限范围内，我们观察到前15个克隆簇在低和高α下的重组（图1E）。杂交a聚类揭示了新的聚类标记，而没有标记保真度单细胞RNA测序分析的共同目标是鉴定在特定簇的细胞中表达高的“标记"基因（即，对簇成员敏感）并且在其它簇中的小区中低（即，特定于集群成员）。5，6，23我们认为最有用的标志物是那些对簇中的细胞特异性和敏感性的标志物，因此具有“高标志物保真度”。考虑到增加改变的簇数量和成员资格，我们想知道作为最佳标记的基因是否随a而改变，以及这些标记是否能够保持与纯转录组学定义的簇相似的灵敏度和特异性。我们使用受试者操作特征（ROC）来评估所有表达的基因作为标记物，以在所有可能的标记物表达截止值处将细胞分类为簇。我们使用来自ROC的曲线下面积（AUC）通过量化其作为标志物的灵敏度和特异性来总结标志物的保真度。0.5的AUC指示在确定细胞的聚类成员资格时不比随机机会更好的分类器，其中值1是完全预测的。我们确定了具有最高AUC的聚类标记物在每个a的每个杂交簇中，对于不同的α值，簇的平均值是不同的（图S4和S5A）。利用观察到的最高标志物的这种变化，我们想知道混合聚类是否保留了如AUC所反映的在每个α处的最高聚类标志物的总体保真度我们发现，在几乎所有的数据集中，在每个α值处的前簇标志物的中值AUC与单独的转录组聚类没有显著差异（图2A和55B），这表明通过并入克隆信息引起的重排没有从根本上降低找到簇的单个标志物的能力，尽管事实上标志物本身改变了。在高α和克隆簇水平下，我们确实看到心肌细胞定向的iPSC（低剂量vemurafenib治疗的黑色素瘤样品也具有标记物保真度的降低，尽管程度较小，0.80和0.84对比0.90。再次，考虑到心肌细胞定向的iPSC中的外在决定，我们预期杂交簇的标志物将难以找到;实际上，许多推定的标志物在高α18下具有较差的性能（图55 A）。因此，在分析的数据集中，其中细胞状态被认为是内在决定的（表1），杂交聚类产生了由克隆性信息揭示的新的聚类标记，通常与转录组聚类具有相同的保真度。由ClonoCluster鉴定的替代标记可能代表其表达在不同克隆群体之间比在克隆群体内变化更大的基因。除了顶级聚类标记之外，我们想知道任何单个标记的标记保真度如何可能随着我们用a增加克隆重量而改变。我们使用Sankey图直接可视化标记阳性细胞通过杂交簇的流动作为变化。我们发现转录组簇标记的保真度随着a的变化而变化，其中一些标记在所有a值中持续存在，而其他标记则戏剧性地改变其保真度。许多标志物在增加α值的过程中保持其保真度（图2B中显示的代表性样品）。我们还鉴定了在转录组簇水平上是强簇分类器的标记物，其在低和高α簇中失去保真度（图2C），表明这些标记物基于单独的转录组的分类特性相反，我们还观察到随着α的增加而保真度增加的标记，这意味着那些标记在一起形成杂交簇的克隆中高度表达（图2D）。因此，跨a的标记保真度的分析鉴定了新的标记集，其在聚类分配中平衡克隆差异与转录组差异，特别是有利于在两者中强烈一致的标记图2.操纵a揭示了簇标记物的周转(A) 在多个样品的α的零、低、高和最大（α= 1）值下，每个簇的最高标志物的AUC值，在第2天的体外鼠造血测定，BRAF标记物处理的克隆黑素瘤细胞系WM989 B，以及诱导的多能干细胞（iPSC）向心肌细胞命运的定向分化，其中细胞命运的外在决定因素预期在克隆条形码上占主导地位的系统18 "全局p"表示采用Bonferroni校正的非参数Kruskal-Wallis检验的p值。当“全局p”小于0.05时方框上方的注释表示与a= 0相比的校正Wilcox检验p值（n.s.，不显著;*p 0.001）。（对于存在于感兴趣的簇中的相应标志物呈阳性的细胞被标记为紫色如STAR方法中所述确定阳性阈值。标记物的曲线下面积（AUC）注释在簇节点上方选择代表性标志物以证明其分类器强度跨a值持续的标志物（B）、仅在转录组簇中强的标志物（C）和在高和低a值下更强的标志物（D）。Cell Genomics3，100247，2023年2月8日7会开放获取技术（图例见下页）8Cell Genomics3，100247，2023会开放获取技术重组的集群与一个解释的差异表达的细胞外基质和预防相关基因为了鉴定与细胞从转录组簇到杂交簇的重组相关的基因的表达，我们评估了作为用于解释细胞重排的分类器的基因。图3A展示了我们比较重组细胞以描绘这些差异表达基因的方法.对于所有可能的转录组簇和低α簇对，我们计算了数据集中每个基因的AUC，作为来自转录组簇的细胞是否将成为低α簇的在该分析中具有高AUC的基因是细胞是否会切换成特定低α簇的强预测因子，因此代表了解释簇重排的差异表达基因，所述簇重排在将克隆信息并入聚类算法时从转录组簇中分裂或聚集细胞我们将差异表达基因的这种AUC称为重组AUC（“reorg-AUC”），其解释了簇分类为杂交a任何转录组的reorg-AUC大于0.80以杂交簇的任何基因被认为是与来自转录组簇和感兴趣的低α簇的贡献细胞相关的标志物的代表性实例显示在图3B中。以这种方式为所有数据集识别重组标记。然后使用配对的杂交簇和贡献转录组簇的每组重组标记进行过度代表性分析。24多个基因集合在来自所有样品的重组标记物中显著富集。为了可视化，我们生成了在三个或更多个样品中显著过表达的所有基因组的最大富集比的热图，以及几个通常选择的基因组作为阴性对照（图3C）。在最大数量的样品中共享的基因集与翻译、“多核糖体”、“rRNA结合”和“核糖体的结构成分”相关，以及许多样品显示与细胞外基质相关的基因的富集，包括“细胞外基质”、“细胞外基质结构成分”、“细胞外基质结合”、"胶原三聚体“、”细胞外基质结构成分“、”细胞外基质结合“、”细胞外基质结构成分"“胶原蛋白结合”和“纤连蛋白结合”在选择的阴性对照基因组中通常未观察到富集。这些分析表明，即使在低水平的α下，由克隆性信息的掺入诱导的簇重组也不是由随机基因组驱动的，而是由特定的生物过程驱动的，例如与细胞外基质和翻译相关的生物过程。值得注意的是，这些结果适用于从非常不同的生物样本中提取的独立数据集。逻辑系统，这表明与细胞外基质和翻译相关的生物过程扭曲因子s修改UMAP表示以增强克隆分离除了聚类和标记物鉴定之外，单细胞RNA测序分析中的一个独立步骤是使用维度缩减技术（如t-SNE或UMAP）对转录组数据进行二维可视化表示6，25本着混合聚类的精神，我们想知道我们是否可以将加权克隆信息应用于这些低维视觉嵌入。鉴于a修改了输入到聚类算法的网络图中的边的权重，我们试图构建一种方法，将克隆信息与可调参数（扭曲因子）合并到UMAP算法的输入UMAP表示在单个流形中使用吸引和排斥分量的转录本计数矩阵导出的主分量分析（PCA）中的变化通常将两个UMAP维度投影以可视化高维数据。我们修改了UMAP的 PCA输入，以将克隆条形码信息与转录组变异合并。为了测试这种方法，我们模拟数据并使用模型来创建修改的主成分（PC）矩阵，其中可调的减少克隆内细胞的差异在s=0时，PC矩阵未修改，在最大值s= 10时，数据中存在的唯一变化将在克隆簇之间（图S6B）。将翘曲因子并入可视化促进了模拟数据中UMAP空间中克隆簇的分离（图4A）。然后，我们使用Warp Factor对数据集中的克隆簇进行可视化正如预期的那样，随着翘曲因子的增加，单个克隆簇之间的传播当我们使用高Warp因子时，单个克隆簇在UMAP空间中形成不同的空间簇。促进个体克隆簇和单联体明显分离成分离的空间组所需的扭曲因子的量在数据集之间变化，这可能是由于克隆簇的大小和数量以及克隆与转录组一致性的初始程度的差异（图4B）。出乎意料的是，我们还观察到，翘曲因子方法在以下情况下有效：图3.重组标志物在翻译和细胞外基质相关基因集中富集(A) 示意图描绘了解释具有调节的簇重排的差异表达方法。对于每个杂合体α簇和贡献转录组簇对，在α簇内部和外部的细胞之间进行差异表达分析，产生重组的AUC（reorg-AUC）。然后在重组细胞上对这些差异表达基因组进行基因组过度表达分析，其中reorg-AUC >0.80（参见STAR方法）。(B) 代表性Sankey图显示低α簇和贡献转录组簇，颜色指示通过标记物分类的细胞比例和相关簇AUC和reorg-AUC。(C) 热图显示了通过跨九个不同数据源的重组标记物的过度代表性分析显著富集的基因集的最大对数富集比显示了在三个或更多个样品中富集的所有基因集（顶部）以及作为阴性对照的几个通常探索的基因集灰色图块表示样品中没有统计学显著的富集（错误发现率>0.05）。Cell Genomics3，100247，2023年2月8日9会开放获取技术（图例见下页）10Cell Genomics3，100247，2023会开放获取技术通过在基础PC矩阵中减少克隆内簇变异和增加克隆间簇变异，将克隆信息并入单细胞RNA测序数据集结合混合聚类和Warp Factor突出显示独特的聚类和标记我们试图证明ClonoCluster和Warp Factor在一起使用时的潜在生物学效用，重点关注来自黑素瘤11和造血的数据。12从黑素瘤开始，我们首先鉴定了高α（α从0.55至0.6）的顶级标记基因;这些标记与通过纯转录组聚类鉴定的那些标记不同（图5A）。其中包括低剂量维罗非尼处理中的C0L6A2和高剂量维罗非尼处理中的C0L6A1，这与我们的发现一致，即在低剂量和高剂量维罗非尼处理的WM 989细胞的三个重复中，胶原相关基因集富集重组标志物（图3C在标准UMAP中，高度表达这些标志物的细胞是分散的，但在使用Warp因子5时，这些细胞聚集在一起，表明Warp因子可以直观地表示并入克隆信息的结果。我们还对Weinreb等人的第2天体外造血数据进行了类似的评价[12]最初的作者在第2天将这些细胞中的大多数标记为12实际上，使用常规转录组聚类，鉴定的许多顶级聚类标记（Alox5、Plac8、S100a9、Ptma和Ctsc）不是已知与该系统中的不同细胞类型相关的标记。然而，对于高α（α= 0.75），两个标志物作为已知嗜热链球菌特异性基因的顶级簇标志物（Mpo和Prtn3）出现（图5B）。[26]使用9.9的翘曲因子（可能是由于每个克隆的细胞数量较少而需要的），我们可以在一定程度上将这些标记拉在一起ClonoCluster能够回收更多生物学上有意义的标记物的事实表明，在其使用中可能存在生物学效用。为了进一步评估ClonoCluster是否产生了更具生物学意义的分组，我们基于标记基因的截止值计算了具有已知类型的细胞的分布熵。在这种情况下，较低的熵表明相同类型的细胞（生物学确定）分布在较少的簇（计算确定）中。我们发现，与仅基于转录组的聚类相比，在低α时，ClonoCluster确实降低了几种细胞类型（嗜碱性粒细胞、红系祖细胞、随着α的进一步增加，熵的这种降低通常减少或丢失，这表明需要克隆和转录组信息来最好地反映生物学上有意义的簇（图S7）。聚类分布熵的改进在同一类型的细胞中，除了鉴定更特异的标记物之外，杂交克隆-转录组簇更好地反映了已知的生物学，这是有希望的证据。讨论克隆条形码提供了额外的信息，可用于基于克隆起源和转录组的细胞聚类ClonoCluster提供了一种加权克隆和转录组信息的方法-使用可调参数a-以生成混合聚类。这些簇与纯转录组学定义的簇不同，具有独特的标记基因组。重组通常伴随着细胞外基质蛋白表达的排列，这表明蛋白质的类别对于区分克隆彼此可能是重要的。此外，我们开发了Warp Factor，灵感来自ClonoCluster，作为修改流行的UMAP可视化以纳入克隆信息的一种方式。一个主要的问题是这些杂交簇是否比转录组学定义的簇更准确地反映生物学差异。我们提出ClonoCluster作为一种方法来调整克隆信息被纳入的程度。有人认为，克隆信息在一定程度上确实揭示了生物信息。首先，细胞到簇的分配随着α的改变而显著改变的事实此外，聚类的顶级标记发生了显著变化，再次表明不同的生物学特性。很难知道什么标志物是生物学上"正确的“，但我们确实指出，在体外造血数据集的情况下，我们发现增加a导致检测到Mpo和Prtn3作为标志物，其是众所周知的嗜中性粒细胞特异性此外，我们发现，通过减少计算生成的簇中已知细胞类型的熵，更好地概括了已知生物学的中间水平此外，在来自Jiang等人的心肌细胞定向的iPSC的情况下，18中，我们知道细胞命运主要由外在因素决定，因此较少由克隆因子决定，我们观察到标记物保真度在高α水平下降低，为ClonoCluster提供阴性生物对照。我们的分析表明，在某些系统中，将克隆信息添加到聚类中会生成聚类，从而减少已知细胞类型在分组中的可能错误传播，并产生与已知生物学更好相关的标记。因此，考虑到随着a的增加，在杂交a簇中鉴定的标记物的特征以及总体标记物强度，对实验系统的深思熟虑的询问将有助于确定向ClonoCluster聚类添加克隆信息是否提供生物学上有意义的见解。我们期望混合聚类将揭示许多系统的重要标记和分组，图4.扭曲因子s是一个可调参数，用于修改UMAP可视化以合并克隆条形码信息(A) 针对具有四个条形码和六个主成分的3，000个细胞的模拟数据，证明增加翘曲因子值对UMAP结构的影响每个UMAP轴被缩放并居中，以允许面之间的比较。(B) 多个数据集的UMAP具有增加的扭曲因子，突出显示每个数据集中的单个大型克隆群集。(C) 具有递增的扭曲因子的UMAP在两个数据集中显示单峰单态是样品中唯一具有其独特条形码的细胞Cell Genomics3，100247，2023年2月8日11会开放获取技术（图例见下页）12Cell Genomics3，100247，2023会开放获取技术发育生物学和其他领域，其中克隆性似乎也与细胞命运决定相关，这将难以单独使用基于转录组的聚类获得。Wang et al.最近的27开发Co-Spar算法有力地证明了将克隆信息纳入祖细胞中识别早期命运偏差的实用性。Co-Spar方法确定了多个时间点的克隆命运，以近似过渡流形，并将可能的祖先状态分配给甚至单个观察到的克隆。这种方法对于通过依赖来自多个时间点的数据来识别承诺已知命运的早期状态是在没有这样的时间序列数据的情况下，ClonoCluster提供了一种可调的时间无关的方法，将克隆和转录组信息纳入命运识别。随着在不同情况下进行世系追踪的实验数量继续增加，将需要进一步开发工具。一个潜在的重要考虑因素是所讨论的系统是否处于端点，或者仍然处于向其最终状态的转换过程中。原则上，转录组和克隆信息之间的最有可能的是，我们认为细胞命运由内在状态决定的sce- narios将从ClonoCluster中受益最多。该财产可能持有对于过渡或终点细胞状态，因此可能需要在逐个情况的基础上评估。事实上，在我们将ClonoCluster应用于两个移行细胞系统中，即造血和定向心肌细胞分化，前者是内在决定的，ClonoCluster 是信息性的，而后者显示了外在决定，ClonoCluster的信息性较低。因此，我们认为与克隆信息整合驱动的重组相关的主要转录组学是什么？我们发现这些相关性主要与翻译、核糖体活性和细胞外基质成分有关。这些关联在不同的、独立的数据集中发现，表明它是克隆转录组已知核糖体基因表达与总体基因表达水平之间存在关联，这可能是其对细胞聚类的6细胞外基质可能表明克隆之间不同的初始微环境差异的一些记忆。然而，这种记忆将独立于随后的微环境差异而持续存在，因为不同的药物后微环境具有几乎相同的转录组。因此，胞外肿瘤蛋白也可能固有地反映稳定的细胞类型或状态标识符。[28]克隆信息是由这些转录因子以外的因子携带的，这也许也是令人惊讶的这种差异表明，细胞外基质蛋白可能是更重要的细胞类型决定的这些微妙的方面比一般认识。总的来说，我们在这里所描述的问题在许多方面与物种是否应该由遗传系统发生或表型特征来组织有关。在某些方面，通过表型对物种进行分类类似于通过表型对细胞进行聚类（即，转录组），而通过遗传同源性对物种进行分类类似于通过谱系对细胞进行聚类早期动物学先于遗传信息，通过可观察的表型对物种进行分类，但遗传信息的加入很快成为分类的一种重要形式;以此类推，在细胞聚类中使用克隆信息可能同样改变我们对细胞类型的分类。该研究最终，需要进一步测试每个簇内细胞功能特性的同质性，以真正确定什么样的聚类方法最接近生物学特征。我们的研究没有发现一种可靠的方法来确定哪些实验系统具有细胞命运的内在决定因素，因此最有可能产生更多的生物学意义的集群与克隆信息。现在，我们推荐一种经验方法来确定克隆信息的添加是否有用，首先确定从标准的仅转录组聚类返回所需数量的聚类的分辨率值，然后绘制随着a的增加返回的聚类数量。当a接近1时，杂交簇的数量接近数据中独特克隆条形码的数量。该可视化允许用户确定实验系统将容忍的最大值，以生成与仅转录组聚类相当数量的标记物保真度的分析或与地面实况数据的比较可用于确认a值产生生物学上有意义的杂交簇。用于确定最佳α值的示例代码和示例协议在ClonoClusterGitHub存储库（https://github.com/leeprichman/ClonoCluster/blob/main/clono.Rmd; https：//doi. org/10.5281/zenodo.3369197.）此外，现在已经开发出读取全谱系数据（而不仅仅是克隆数据）的技术，通常使用CRISPR-Cas9基因组编辑来在基因组中进行突变。图5.将混合聚类和Warp Factor相结合，突出显示UMAP表示中具有不同标记的聚类(A) 在用维罗非尼处理的WM 989细胞的不同重复和剂量中，突出显示具有指定的顶部标记基因（C0L6A1和C0L6A2）的单个高a簇的UMAP11表示由a和翘曲因子分层灰色点表示高聚类之外的细胞颜色反映高a簇（紫色）或贡献转录组簇的顶部标记如果在感兴趣的高α簇中存在少于10个细胞，则贡献转录组（α= 0）簇被分组为(B) 如（A）中的UMAPS，对于第2天的体外造血数据12，突出显示了由富含粒细胞的标志物Mpo和Prtn3标记的高a簇（顶部）和描绘两个簇水平的标志物阳性的Sankey图，节点用顶部簇标志物注释Cell Genomics3，100247，2023年2月8日13会开放获取技术其可以通过测序3033-我们预计，使用时间序列信息而不是我们探索的有限分辨率单个时间点数据的全谱系追踪将增加流行率，ClonoCluster和类似方法将需要适应这种更高分辨率的设置。STAR+方法本文件的在线版本提供了详细的方法，包括以下内容：d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d方法样本B转录组和克隆条形码与Clo-noCluster的整合B分组分配B克隆条形码与聚类相关性分析和可视化B聚类标记鉴定B重组标志和任职人数偏高分析B改进的主成分和UMAP可视化d量化和统计分析补充信息补充信息可以在 www.example.com 上找到 https://doi.org/10.1016/j 。xgen.2022.100247。致谢Y.G.感谢Burroughs Wellcome基金职业奖在科学界面，简·科芬·蔡尔兹纪念基金和施密特科学奖学金的支持。 A.R. 感谢 NIH 院长的变革研究奖 R01GM137425 、 NIH R01 CA238237 、 NIH R01 CA232256 、 NIH P30CA016520、NIH SPORE P50 CA174523和NIH U01 CA227550的支持作者贡献L.P.R.，Y.G.，和A.R.构思并设计了这个项目。L.P.R.，Y.G.，和C.L.J.汇编和预处理数据。L.P.R.设计、执行和分析所有实验，由A.R.监督L.P.R. 和A.R.用所有作者的输入编写了申报利益A.R.获得Stellaris RNA FISH探针相关的版税。投稿时间：2022 - 03 -修订日期：2022受理时间：2022发布时间：2023引用1. M.B.，Spellman，P.T.，布朗，邮政编码，Botstein，D.（1998年）。全基因组表达模式的聚类分析和显示。Proc. Natl. Acad. Sci. USA 95，14863-14868.2. 阿隆大学，Barkai，N.，诺特曼检察官Gish，K.，Ybarra，S.，Mack，D.，Levine，A.J.（1999）.通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了基因表达的广泛模式。Proc. Natl. Acad. Sci. USA 96，6745-6750.3. Tripathi ， B. ， Parthasarathy ， S. ， Sinha ， H. ， Raman ， K. ，Ravindran，B. （2019年）。适应社区检测算法用于异质生物网络中疾病模块识别。前面Genet. 10，164。4. Cowley，G.S.，Weir，文学士，Vazquez，F.，Tamayo，P.，斯科特，J.A.，Rusin，S.，East-Seletsky，A.，阿里有限公司Gerath，W.F.，Pantel，S.E.，等人（2014年）。在216个癌细胞系中进行平行基因组规模的功能丧失筛选，以确定背景特异性遗传依赖性。Sci. 数据1，140035。5. Peyvandipour，A.，Shafi，A.，Saberian，N.，和Draghici，S.（2020年）。使用稳定聚类从单细胞数据中识别细胞类型。Sci.众议员 10，12349。6. Kiselev，V.Y.，安德鲁斯，T. S.，和Hemberg，M.（2019年）。单细胞RNA-seq数据的未监督聚类中的挑战。遗传学国家牧师20，273-282.7. Wa

下载后可阅读完整内容，剩余1页未读，立即下载