细胞类型图：植物发育生物学中的新基准

16 浏览量更新于2023-10-26 收藏 18.96MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

208970CellTypeGraph：一个新的几何计算机视觉基准0Lorenzo Cerrone 1 Athul Vijayan 3 Tejasvinee Mody 2 Kay Schneitz 20Fred A. Hamprecht 101 HCI，海德堡大学，德国 2 慕尼黑工业大学生命学院，德国3 德国马普植物育种研究所0lorenzo.cerrone@iwr.uni-heidelberg.de0摘要0对一个器官中的所有细胞进行分类是植物发育生物学中一个相关且困难的问题。我们在这里将这个问题抽象为一个地理参考图中的节点分类的新基准。解决这个问题需要学习器官的空间布局，包括对称性。为了方便测试新的几何学习方法，拟南芥胚珠的基准数据集作为一个PyTorch数据加载器提供，同时还提供了大量预计算特征。最后，我们对八种最近的图神经网络架构进行基准测试，发现DeeperGCN在这个问题上表现最好。01. 引言0理解形态发生，即形态生成，仍然是生物学中的一个重大挑战。它需要对底层机制的分子和细胞过程进行详细的定量描述。具有细胞空间分辨率的3D数字器官有望帮助解析植物复杂器官的形态发生[19, 32, 36,54]。它们可以通过3D显微成像，然后进行细胞实例分割和组织注释来生成。植物器官适合这种方法，因为它们具有相对良好的结构化分层组织，并且可以根据其位置和形态来识别组织。因此，植物发育生物学正在从越来越多的3D数字器官中受益。然而，对于具有复杂细胞结构和形状的植物器官（如拟南芥的胚珠[51]），在器官内部对不同组织类型进行自动注释[31, 32,40]仍然是该领域的一个主要问题。在医学图像分析中，类似的问题是0使用3D编码器-解码器CNN架构成功地解决了对整体扫描进行分割的问题[25,52]。然而，在植物形态发生的感兴趣图像中，这种直接的方法效果不好：这里的语义类别缺乏对基于卷积的架构有帮助的显著局部和纹理特征[13]。相反，这个任务需要非常长程的空间意识和良好的几何推理能力。为此，我们将问题转化为节点分类任务。为了成功，任何方法都需要提供有信息量的输入特征，事实上我们展示了具有细胞级特征的细胞邻接图是一个强大的表示。尽管如此，我们的主要目的有两个：首先，为高度结构化输入上的机器学习创建一个测试平台。事实上，它将典型的节点分类与像量子化学[3, 16, 37,56]中的地理参考图一样要求进行泛化的数据集[14, 30,42]结合在一起。我们的第二个目的是，通过允许计算机视觉和机器学习科学家在不必处理实际上在许多应用项目中花费最多时间的数据处理问题的情况下，引导我们社区的创造力和资源，帮助解决一个迷人的生物学问题。作为一个起点，我们展示了对最先进和流行模型性能的广泛实验评估。总之，我们做出了以下贡献：01.我们提出了一个新的基准，用于地理参考图中的节点分类。我们发布了与PyTorch[33]数据加载器配套使用的基准数据集。源代码和使用说明可在https://github.com/hci-unihd/celltype-graph-benchmark上找到。Pre-processing:The segmentation images as publishedin [51] have been further manually curated. We have en-sured that for each specimen, cells form a single connectedcomponent. In case of multiple specimen imaged together,2089802.我们使用最先进的图神经网络进行比较实验，并对特征的相关性进行研究。03.我们提供了一套广泛的预计算特征和额外的地面真实标签。01.1. 相关工作0可以说，节点预测最流行的数据集类型是引文数据集系列，如Cora [30]、CiteSeer [14]或PubMed[42]。虽然任务名义上是相同的，但学习任务在这里是转导的，底层拓扑结构却非常不同。在我们的CellTypeGraph中，任务是归纳的，节点具有地理参考，并且节点度数变化有限，没有远距离节点之间的捷径。这在引文数据集中通常不是这种情况。更相关的是其他自然科学数据集，如QM9 [3,37]或ZINC [16]，MoleculeNet[56]。这里的节点代表原子，并且具有地理参考。然而，它们在很大程度上对全局图属性的回归和分类感兴趣。开放图基准[20]包含了不同规模的大量数据集，并发布了易于使用的数据加载器和评估工具。正如[20]中指出的那样，在许多数据集上，由于尺寸有限、缺乏一致的训练/验证/测试划分以及使用不同的度量标准，很难衡量该领域的进展。在CellTypeGraph中，我们还发布了确保简单和可重复实验所需的所有工具。此外，我们提出了交叉验证[47]，而不是简单的训练/验证/测试划分，以进一步减少采样偏差。受卷积神经网络的成功启发，一些图神经网络架构试图将相同的概念推广到非网格结构化数据[9, 18,24]。这些架构和更多其他架构[4, 6, 17, 26, 27, 50, 55,57]可以建模为消息传递[15]，其中在节点级别构建的消息可以在局部邻域中共享。在地理参考或空间图中，节点位置可以用来模拟图邻接上的消息聚合[7, 8]。或者，其他人[41,48]通过仅使用节点位置并忽略图邻接在分子任务上获得了有竞争力的结果。02.CellTypeGraph基准02.1. 概述0我们引入了CellTypeGraph基准，旨在为几何学习社区提供有价值的工具。为此，我们将一个公开可用的生物数据集[51]提炼成一个可供机器学习使用的基准。特别是，我们希望将社区的注意力集中在两个主要目标上：0•寻找更好的图神经网络架构和方法。在这种情况下，我们鼓励使用我们预先计算的特征，从而可以与我们的基准进行直接比较，详见第4节。0•寻找更具表达力的特征或者通过端到端学习替代手工设计的特征。我们将在第3.2节中详细展开。0在这两个挑战中取得进展都是实现改进植物生物学自动化工具的最终目标的有效贡献。数据集的统计数据总结在表1中。02.2. 原始数据0基准数据集是从拟南芥胚珠的三维共聚焦显微图像中获得的[51]。胚珠是高等植物中的雌配子体，成功受精后最终形成种子。三维数字胚珠图谱是原始细胞边界图像及其相应的细胞分割的组合，进一步进行组织注释。图1显示了每个发育阶段的样本胚珠。早期阶段的胚珠（2-III至2-V）作为一个简单的三层圆顶状结构从胎座表面突出。胚珠在珠被起始和生长过程中形成复杂的三维组织结构。四层珠被组织包围着器官的核心（细胞标签L1至L4）。珠被组织经历生长冲突，导致其在成熟时具有类似头巾的外部结构的最终形状。珠被的内部组织层以弯曲的管状形式排列。总体而言，该器官由三维细胞的复杂排列塑造而成，部分遵循器官中部和上部的细胞分层排列，并且还形成了部分径向和双侧对称性。基准数据集的地面真实细胞类型标签是通过首先在MorphographX[46]中使用修改的检测层堆栈过程进行半自动获取，然后手动校对这些预测结果获得的。基本上，上部中部的分层细胞通过细胞层检测方法进行标记，然后进行手动校正，而器官的其余细胞则通过手动标记。这需要大量的人工输入，本研究中的数据集总共需要大约60个人工小时。组织注释允许对不同组织和不同发育阶段的生长的细胞基础进行广泛的生物学分析[51]。3-I3-VI2-III2-IV2-V3-I3-II3-III3-IV3-V3-VI2-IVFigure 1. 3D surface view of a small subset of specimens from the CellTypeGraph Benchmark. Different developmental stages areindicated. From left to right the tissue complexity increases with organ growth. Scale bar 50µm. Bottom: three stages are represented withtheir 3D view and a 2D section displaying the internal tissue architecture. Colors show ground truth cell types.Number of specimens84Number of developmental stages9Total number of cells/nodes95757Total number of edges632443Average number of nodes per specimen1140Average number of edges per specimen7529Number of semantic classes9Number of node features78Number of edge features11Table 1. Salient statistics of the CellTypeGraph benchmark.they have been split in separate stacks. Lastly, cell type an-notations have been added for missing cells. Although wedid our best to hand curate the data, minor imperfectionsmight still be present due to the variability of the organs.Since the L5 cell type is rarely present in the later stages,we slightly simplified the benchmark task by merging thecell types L4 and L5.2.3. EvaluationMetrics:The ovules cell types are imbalanced. This notonly impacts the learning procedure but also requires atten-tion when discussing the results quantitatively. An effectiveway to account for imbalance is to evaluate the model per-formance for each class independently and then report asfinal score the average of the single class results. In thiswork, we use two metrics, the simple global top-1 accuracyand the class-average accuracy.In order to further stabilize the class-average accuracy,esnua-chp-chL1L2L3L4/L5fuFigure 2. 2D section view of a mature Arabidopsis ovule display-ing the raw cell boundary image and the respective CellTypeGraphground truth labels manually annotated for the benchmark dataset.Different colors indicate different tissue labels annotated to the3D instance cell segmentation. Abbreviations es: embryo sac, nu:nucellus, L1: outer layer of outer integument, L2: inner layer ofouter integument, L3: outer layer of inner integument, L4/L5: in-ner layer of inner integument, fu: funiculus, a-ch: anterior chalaza,p-ch: posterior chalaza. Scale bar 20µm.we ignored cell label 7, see Fig. 2. Cell label 7 representsthe “embryo sac”. This tissue is not a cell in itself but isan ensemble of non-segmentable cells in the inner part of20899later-stage ovules. This region is unique and distinct, beingthe largest and highest degree node in the cell graph. Nev-ertheless, we kept the “embryo sac” in the benchmark fortraining purposes because of its crucial role in graph con-nectivity.Moreover, if any cell type is not present in a specificspecimen, that cell type will not be counted in the class-average accuracy, i.e.,class-average accuracy = 1NsNs�s=1�c ac · 1s,c�c 1s,cwhere Ns is the number of specimens, ac is the one-vs-allclass accuracy, 1 is an indicator function valued 1 if theclass c is present in the specimen s, 0 otherwise. This isparticularly relevant in the early stages of development.We release evaluation code for all the metrics introducedabove bundled with our benchmark.0.20.30.40.50.60.70.80.9209000专家共识：细胞类型是基于基因表达模式、空间中的细胞位置和组织层面的上下文来确定的。对于分层细胞类型（L1到L4），共识是强烈的；在这里，分割质量是模糊性的主要来源。但是，在细胞位置本身难以确定组织边界的区域，例如fu、ch和nu之间的边界，可能会出现变异性。为了定量评估这种变异性并评估专业生物学家的参考性能，我们生成了一个独立的第二组标签。总体结果报告在表2中，而在不同发育阶段和不同类别的专家表现的额外细分报告在附录第5节中。0训练和评估划分：我们在CellTypeGraph数据加载器中发布了两种不同的模式：标准化的训练-验证-测试划分和五折交叉验证划分。虽然在流行的机器学习基准测试中，训练-验证-测试划分是标准做法，但这种方法容易受到抽样偏差的影响[43]。在我们的CellTypeGraph中，不同阶段和不同标本之间存在高度的变异性，请参见图1。这个结合相对较小数量的标本，使得划分非常容易受到抽样偏差的影响。我们通过从每个阶段采样相同数量的标本来解决阶段变异性。然而，为了进一步消除实验的偏差，我们更倾向于采用五折交叉验证的方法。交叉验证减轻了来自随机抽样的噪声，但训练成本更高。所有呈现的实验都是使用交叉验证进行评估的。0DeeperGCN GCN0全局参考系统：0Es PCA Estrivial LabelFu. LabelSurf. trivial0类别平均准确率0图3.所有参考系统都同样好。我们在五个不同的参考系统上训练了GCN和DeeperGCN。使用任何参考系统都没有统计学上的显著差异。我们唯一观察到的差异是异常值的分布。03. 特征0本节详细介绍了CellTypeGraph基准测试中包含的节点和边特征。然而，在解释其选择之前，有必要讨论用于表示位置和方向相关特征的参考系统。03.1. 参考系统0全局参考系统：显微镜获取的胚珠图像的方向并不总是一致的。这种标本方向的不一致可能导致训练模型的泛化能力较差。可能的解决方案是系统地使用旋转和平移等变方法，或者固定基于地标的全局参考系统。第一种解决方案更通用，并在泛化能力和参数效率方面显示出巨大潜力[11, 21,39]。当无法形成标准化的方向时，等变方法具有明显的优势，例如在一般化学问题中。在我们的情况下，可以定义一个明确的标准姿势，因此为了简单起见，我们选择了基于地标的方法。具体而言，我们评估了四种基于地标的方法，包括有监督的方法（Label Surf，LabelFu）和无监督的方法（ES trivial，ESPCA）。详细描述可以在附录第1节中找到。所有坐标系都具有类似的准确性，请参见第4.2节。然而，与其他方法相比，局部参考LabelSurf稍微更一致，更不容易受到异常值的影响，请参见图3。因此，Label Surf被用作我们所有实验的默认方向系统。209010图4.自动提取的局部方向特征：生长方向和表面方向分别用实线黄线和实线红线表示。左图：成熟拟南芥胚珠的3D表面视图，上面覆盖了预测的生长方向。轴向预测与器官表面上细胞的纤维排列很好地一致。右图：同一胚珠的表面和生长方向。尽管生长轴的方向遵循器官的规则结构，但轴的方向是任意的。0局部参考系统：胚珠细胞没有可以用来定义局部方向的明显各向异性。然而，生长的优势方向和细胞沿器官中央弯曲轴的分裂导致细胞在外包组织层（L1到L4）内呈纤维状排列。这种规则的纤维状细胞排列可以用来识别外包组织并将其与其他组织分开。外包组织通过垂直分裂来维持其类似薄片的结构。细胞分裂主要沿着横向垂直方向发生，使组织能够增长。分裂面还可以进一步映射到从三维实例细胞分割中提取的细胞壁的面上。这包括纵向垂直壁、横向垂直壁和周向壁。为了利用这个先验知识，我们构建了一个启发式算法来识别横向垂直壁，并基于它们的连接性定义了一个生长轴。0此外，这些组织（L1到L4）在继续垂直分裂时遵循分层模式。在这种情况下，我们提出了另一个简单的启发式算法来构建与分层方向平行的表面轴。这两个算法的详细描述见附录第2节。我们以这种方式找到的近似生长轴和表面轴有两个重要的限制：轴不保证正交，只定义了它们的方向而不是方向。最后，为了获得我们的局部参考系统的完整的三维基础，我们简单地计算与前两个轴正交的第三个轴。预测的生长轴和表面轴的示例可见图4。03.2. 特征提取0作为第一步，我们计算细胞邻接图G（N，E），其中每个细胞表示为节点ni∈N，边ei，j∈E连接每对相邻的细胞。其次，我们从每个细胞的表面采样固定数量的点。为了获得均匀分布的点，我们使用最远点采样算法[35]在细胞表面上进行采样。这些采样点在必要时用于更高效地计算下游特征。然而，同样的表面采样点也可以使用等变点云架构的思想进行端到端的特征学习。尽管这个方向很有吸引力，但它将导致一个更复杂的流程。我们还使用相同的采样策略从任意两个相邻细胞之间共享的边界上采样点。在每种情况下，我们每个节点/每个边采样500个点。我们可以将所有特征分为两类：不变特征和协变特征。0不变特征与参考系统无关，在标本旋转或平移时不会改变。这些特征可以是形态学特征，如细胞体积、表面积、沿局部参考轴的长度以及表面和生长轴之间形成的角度；或者是从细胞邻接图中派生出来的特征，如从每个节点到胚珠表面的最短路径、电流流动接近中心性[45]和度中心性。0协变特征在旋转和平移下随参考系统变换。在这个类别中，我们包括：细胞质心、局部参考轴和细胞主成分分析轴。此外，我们还包括：局部参考系统与全局参考系统之间形成的角度以及主成分分析轴与全局参考系统之间的角度。尽管角度在形式上不是协变的，但它们是从协变特征派生出来的，并且在旋转和平移下可以预测地变换。0在我们的基准测试中，边缘特征也是预先计算的，特别是：共享细胞边界表面、相邻质心之间的距离以及相邻细胞的局部参考轴之间的角度。但是正如在第4.1节中讨论的那样，在我们测试的架构中，这些特征并没有带来显著的改进。03.3. 特征同质化0适当的特征处理对训练动态有很大影响。在将特征连接之前，正确地对不可比较的特征进行归一化和同质化非常重要。209020为了向网络提供PCA和局部参考系轴的方向，我们使用了以下变换：0f：R3 → R6，(x, y, z) → [x^2, y^2, z^2, xy, xz,yz]0也就是说，我们消除了选择方向而不仅仅是方向的歧义。这将在R6中嵌入方向的流形，其存在性由Whitney嵌入定理[1,53]保证。除角度之外的所有标量特征都被归一化为零均值和单位方差。此外，我们将分类特征编码为独热向量，并将向量特征缩放为单位范数。这个协议通过测试每组特征的不同预处理和归一化策略来建立。结果在补充材料第3节中展示。我们尽力确保所选特征具有表达能力。然而，我们的数据加载器可以很容易地扩展以添加新特征或更改当前特征的处理方式。到目前为止讨论的特征都是默认包含在加载器中的，但在补充材料第3节中，我们列出了其他特征。所有原始分割、注释和预计算特征都可以在https://zenodo.org/record/6374104上找到。04. 图神经网络基准测试0为了展示现有方法在这个新基准上的准确性，我们尝试了各种各样的模型。我们试图代表最普遍的图神经网络范式。特别是，我们测试了图卷积网络、基于注意力或transformer的架构，以及基于消息传递的架构。0架构：我们测试了以下图神经网络架构：GCN[24]，GraphSAGE [17]，GIN [57]，GCNII[6]和DeeperGCN [26,27]；都是在[10]中实现的。此外，我们还测试了图注意力网络GAT[50]的两层重新实现，使用[4]中引入的图卷积操作的同一架构GATv2，以及使用基于transformer[49]的图卷积的进一步变体TransformerGCN[44]。测试的两种架构可以考虑边特征，TransformerGCN和DeeperGCN。当使用边特征进行训练时，我们将它们称为EdgeTransformerGCN和EdgeDeeperGCN。所有模型都使用softmax作为最后一层的激活函数。0训练：所有模型都使用ADAM优化器[22]和带有L2权重惩罚的交叉熵损失进行训练。学习率、权重正则化和模型0模型0节点分类top-1准确率类别平均准确率0GIN [57] 0.714 ± 0.071 0.563 ± 0.136 GCN [24] 0.762± 0.043 0.617 ± 0.077 GAT [50] 0.824 ± 0.033 0.705 ±0.084 GATv2 [4] 0.855 ± 0.041 0.757 ± 0.087GraphSAGE [17] 0.859 ± 0.048 0.765 ± 0.093 GCNII[6] 0.863 ± 0.050 0.772 ± 0.100 Transf. GCN [44]0.868 ± 0.045 0.779 ± 0.098 EdgeTransf. GCN [44]0.868 ± 0.044 0.777 ± 0.098 DeeperGCN [27] 0.877 ±0.050 0.796 ± 0.098 EdgeDeeperGCN [27] 0.878 ±0.047 0.797 ± 0.0950专业生物学家0.932 ± 0.025 0.909 ± 0.0490表2.在节点分类任务上，不同架构获得的Top-1准确率和类别平均准确率。DeeperGCN始终是表现最好的架构。然而，DeeperGCN的结果仍然比人类专家弱。EdgeDeeperGCN和EdgeTransformerGCN使用了额外的边特征进行训练，但它们对我们的指标影响不显著。不确定性定义为所有样本和交叉验证折叠的标准差。0特定的超参数，如：层数、隐藏特征、dropout等，通过粗略的网格搜索为每个模型进行了调整。每个训练实例使用单个GPU和少于2GB的VRAM。使用单个Nvidia RTX6000GPU进行完整的五折交叉验证只需不到一小时。对于所有实验，源代码可在https://github.com/hci-unihd/plant-celltype上获得。04.1. 基线结果0在表2中，我们根据类平均准确性在五折交叉验证中呈现了表现最佳的模型。DeeperGCN始终是表现最好的架构，尽管它还不能与专业生物学家的表现相媲美。总体而言，所有的注意机制方法表现相对较好，而像GCN和GIN这样的简单模型则表现较差。对于高端和低端模型，使用边特征并没有提高准确性。图6显示了按发育阶段划分的类平均准确性。与GCN相比，DeeperGCN在后期阶段具有明显优势，而在早期阶段（2-III到2-V）的差距较小。图5显示了按细胞类型划分的平均准确性。可以很容易地发现L2、L4和ac这几个类别对于GCN和DeeperGCN来说是最具挑战性的。00.20.40.60.8GCNDeeperGCNES PCA0.578 ± 0.0890.754 ± 0.118All but Label Surf0.618 ± 0.0860.787 ± 0.103Label Surf0.613 ± 0.0800.790 ± 0.100209030类别：0 - L0类别：1 - L0类别：2 - L0类别：3 - L0类别：4 - 0类别：5 - 0类别：6 - f0类别：8 - a-ch01 模型0准确性0图5.按真实类别划分的Top-1准确性。准确性在不同类别之间差异很大。特别是对于L2、L4和a-ch组织，GCN的准确性急剧下降。04.2. 附加实验0我们对所有附加实验使用了相同的标准化设置。我们限制了自己使用两个模型，GCN [24]和DeeperGCN[27]，并使用第4节的最佳超参数，详见补充第4节。04.2.1 全局参考系统的重要性0如第3.1节所讨论的，一些特征对标本的方向敏感。我们测试并比较了四种基于地标的方向以及平凡的方向，即质心在原点和显微镜获取的原始方向。从图3中我们可以观察到不同方向之间没有显著差异。唯一的相关差异是使用标签找到的参考系统在标本之间具有更小的方差。另一方面，平凡表示法表现出最多的异常值。对于从业者来说，另一个有趣的问题是在参考系统改变时的泛化能力。我们通过使用三种不同的方向训练我们的流程，并始终在相同的方向上进行测试来测试这一点。如表4所示，在测试时，当在不同的方向上进行评估时，准确性显著下降。然而，实验还表明，通过同时在多个方向上进行训练，可以缓解这个问题。04.2.2 不变特征与协变特征0为了评估不变特征和协变特征对准确性的相应贡献，我们仅使用其中之一来训练我们的模型。表3显示，不变特征无疑是神经网络所依赖的特征。0特征 GCN DeeperGCN ∆ 类平均准确性 ∆类平均准确性0仅不变特征 -0.028 -0.019 仅协变特征 -0.175-0.3370表3.每个特征组对准确性的贡献。该表显示了基线模型的类平均准确性与扰动模型的类平均准确性之间的差异。delta值越低，神经网络的特征重要性越高。对于两种架构，不变特征比协变特征更重要。0训练数据 GCN DeeperGCN 类平均准确率类平均准确率0表4.不同方向下的泛化性能。我们测试了我们的基准模型对全局方向轴变化的鲁棒性。我们在不同方向上训练了我们的模型，并在特定方向上进行了测试，即 LabelSurf。从类平均准确率可以观察到，当在单个不同的参考系统（ESPCA）上进行训练时，准确率显著下降。然而，通过使用多个方向的训练数据进行数据增强，这个问题可以很容易地得到弥补。不确定性定义为所有样本的标准差。0为了进一步理解差异，在图6中我们分别报告了每个发育阶段的结果。可以看到两组特征之间的区别：不变特征对后期阶段（3-I到3-VI）的准确性影响更大，而协变特征在早期阶段（2-III到2-V）起到更重要的作用。04.2.3 仅使用局部图特征0为了强调细胞邻接图结构在解决这个任务中的重要性，我们还训练了仅使用节点的度和其邻居度分布（即所谓的度分布）的模型[5]。这是一种极其不利的设置，因为卵母细胞图中的度是相当均匀的。图6显示的结果表明，即使在这种情况下，网络仍然能够比随机预测更好。此外，后期的DeeperGCN表现与使用协变特征训练的相同模型相当。05. 限制0CellTypeGraph基准测试受样本数量限制。大规模成像、分割和注释是有限的。2-III2-IV2-V3-I3-II3-III3-IV3-V3-VI00.20.40.60.81Features:AllOnly CovariantOnly InvariantDegree profileNone2-III2-IV2-V3-I3-II3-III3-IV3-V3-VI00.20.40.60.8209040DeeperGCN0发育阶段0类平均准确率01 GCN0发育阶段0类平均准确率0图6.四种不同特征集的类平均准确率比较。如预期的那样，使用所有特征始终实现最高准确率。有趣的是，可以观察到协变特征在早期阶段（2-III到2-V）对准确性的贡献最大。在后期阶段（3-I到3-VI），不变特征是整体准确性的主要贡献者。最后，即使只使用节点的局部度分布作为特征，网络仍然能够在任务上做出优于随机的预测。0与其他数据集相比，3D体积的处理非常耗时，因此可用的样本数量较少[16，56]。可以通过数据增强来缓解这个限制。尽管不是详尽无遗，但在我们的实验中，这种方法并没有显示出明显的改进。实验的描述和结果可以在附录第6节中找到。0然而，卵母的结构复杂性使其成为基准测试的理想候选。然而，卵母并不是植物生物学中所有器官的普适代表，因此在我们的基准测试上预训练的模型可能无法在不同的器官上成功。可能的解决方案包括：i）在有标签的情况下重新训练模型。ii）使用自监督方法，如图自编码器[23，38]，然后在潜在空间中进行社区聚类。这种设置在单细胞数据分析中已被证明是成功的[2，29]。iii）通过采用主动学习来加快半自动标注的速度。0在基准测试中，复杂性的两个主要来源是手工制作的特征和定义全局方向的需要。通过将点云几何深度学习领域的模型应用于我们的表面样本，可以实现端到端的特征学习，参见第3.2节。此外，像[12]这样的新框架正在加速对等变神经网络架构的易用性。06. 致谢0这项工作得到了德国研究基金会(DFG)研究单位FOR2581Quantitative Plant Morphodynamics的支持。07. 结论0我们引入了一个新的用于节点分类的图形基准测试，广泛测试了几种相关的图形神经网络架构，并发布了用于快速实验、数据处理和评估的工具。尽管我们的基准测试结果令人鼓舞，但我们很期待看到社区在这个任务上的进一步发展。正如第5节讨论的那样，在3D虚拟器官中的组织标记是一个相关且相对未开发的领域。我们还希望看到基准测试在超级监督学习以外的严格范式中的应用，例如自监督学习和主动学习。0参考文献0[1] Masahisa Adachi. Embeddings and immersions. AmericanMathematical Soc., 2012. 60[2] Matthew Amodio, David Van Dijk, Krishnan Srinivasan,William S Chen, Hussein Mohsen, Kevin R Moon, AllisonCampbell, Yujiao Zhao, Xiaomei Wang, ManjunathaVenkataswamy, et al. Exploring single-cell data with deepmultitasking neural networks. Nature methods,16(11):1139–1145, 2019. 80[3] Lorenz C Blum and Jean-Louis Reymond. 970 milliondrug-like small molecules for virtual screening in thechemical universe database gdb-13. Journal of the AmericanChemical Society, 131(25):8732–8733, 2009. 1, 20[4] Shaked Brody, Uri Alon, and Eran Yahav. How attentiveare graph attention networks? arXiv preprintarXiv:2105.14491, 2021. 2, 60[5] Chen Cai and Yusu Wang. A simple yet effective baselinefor non-attributed graph classification. arXiv preprintarXiv:1811.03508, 2018. 78209050[6] Ming Chen, Zhewei Wei, Zengfeng Huang, Bolin Ding,and Yaliang Li. Simple and deep graph convolutionalnetworks. In International Conference on Machine Learning,pages 1725–1735. PMLR, 2020. 2, 60[7] Tomasz Danel, Przemysław Spurek, Jacek Tabor, Marek´Smieja, Łukasz Struski, Agnieszka Słowik, and ŁukaszMaziarka. Spatial graph convolutional networks. InInternational Conference on Neural Information Processing,pages 668–675. Springer, 2020. 20[8] Pim De Haan, Maurice Weiler, Taco Cohen, and MaxWelling. Gauge equivariant mesh cnns: Anisotropicconvolutions on geometric graphs. In InternationalConference on Learning Representations, 2020. 20[9] Micha¨el Defferrard, Xavier Bresson, and PierreVanderhey nst. Convolutional neural networks on graphswith fast localized spectral filtering. Advances in neuralinformation processing systems, 29,

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

细胞类型图：植物发育生物学中的新基准

AIPerf：大规模人工智能算力基准测试程序.pdf

基于利率定价和传导机制的研究：迎接贷款利率市场化新基准，LPR-0724-浙商证券-10页.pdf

ArcGIS中的地图投影、基准面和坐标系统.pdf

echarts y轴基准线

echarts折线图添加基准值

如何改正这个代码：fund_position['业绩基准'] = fund_position['市场'].apply(lambda: '000300.SH' if x=='A' else 'HSI.HI')

1、控制测量的基准面和基准线概念及相关内容：

C# List<double>A，有1000个数，现在需要：以第59个数为基准，第59个数之前以及第59个数之后，每隔2个数取出，Linq方法

css图片与文字基准线

python写2. 快速排序算法，算法描述如下： (1) 从数组中选择一个元素作为基准(pivot)。 (2) 所有小于基准的元素放到基准前面,大于基准的元素放到基准后面。 (3) 对基准前后的两部分数组重复步骤1和2,直到数组有序。 步骤：

echarts柱状图基准线虚线

性能测试中的基准测试

backtrader策略中减去基准

solidworks中基准面变为灰色是什么问题，怎么修改

R语言 单细胞数据注释

电流型带隙基准怎么设计

机器学习中什么是基准

最新资源

python写2. 快速排序算法，算法描述如下： (1) 从数组中选择一个元素作为基准(pivot)。 (2) 所有小于基准的元素放到基准前面,大于基准的元素放到基准后面。 (3) 对基准前后的两部分数组重复步骤1和2,直到数组有序。步骤：

R语言单细胞数据注释