端到端学习低秩嵌入：樱桃采摘梯度与可微交叉逼近

86 浏览量更新于2025-01-16 收藏 1.65MB PDF 举报

"樱桃采摘梯度：学习低秩嵌入视觉数据的可微交叉逼近" 本文提出了一个新的端到端训练框架，旨在处理大规模视觉数据张量，特别是针对3D图像数据如3D断层扫描。这一框架的核心是结合神经网络编码器和张量分解技术，学习低秩潜在编码，并运用可微交叉近似（Cross Approximation, CA）策略。这种方法能够通过选择局部代表性样本，而非处理整个高分辨率数据，有效地减少内存需求。样本数量的增长仅与输入大小呈对数关系，这极大地缓解了处理大尺寸多维数据时的存储问题。 **樱桃采摘梯度（Cherry Picking Gradients）**是本文引入的一种自适应采样算法，它在张量分解过程中动态选择最具代表性的子集进行学习，从而避免了全数据集的高内存消耗。这一概念类似于在张量分解中进行有选择的采样，以最小化信息丢失。 **低秩嵌入（Low-Rank Embedding）**是研究的重点，它基于视觉数据往往存在于低维流形的假设。通过学习低秩嵌入，可以将高维数据压缩到更小的维度，同时保持足够的信息来重构原始数据。传统的低秩表示方法如奇异值分解（Singular Value Decomposition, SVD）和非负张量因子分解在此基础上得到扩展，但可能不适用于大规模的神经网络学习。 **神经网络编码器（Neural Network Encoder）**在这里的作用是将输入数据转换成低秩表示，而**解码器（Decoder）**则负责从低秩编码中恢复原始数据。通过这种方式，高分辨率的图像可以被有效地编码和解码，减少了对硬件资源的需求。 **可训练框架**是指整个模型可以端到端地进行训练，即所有组件（包括编码器、解码器和CA）都是可微的，允许通过反向传播优化整个系统的性能。 **大规模视觉数据**的处理是当前深度学习领域的一个挑战，特别是在3D医学图像分析等场景中，传统的2D CNN架构往往无法应对。提出的框架能够处理这些高维数据，同时保持良好的上下文理解能力，例如在预测整个器官的医学状况任务中。总结起来，"樱桃采摘梯度"是一种创新的自适应采样技术，结合低秩嵌入和神经网络，为处理大规模3D视觉数据提供了一种高效、可微的解决方案。通过这种方法，即使在硬件资源有限的情况下，也能实现对高分辨率数据的有效处理和学习。这种方法的源代码已在GitHub上公开，可供研究者进一步探索和应用。

11428

⇥

存在稳健的数值方案来找到TT分解。标准TT-SVD

算法产生准最优分解 [38] ，但基于多轮奇异值分解

（SVD），即，它必须访问输入张量的所有条目。

我们的工作至关重要的是一个不同的算法，称为

交叉

近似

，有效地构建TT核心的基础上自适应选择的序列

的本地样本，从输入张量。只需要查询所有张量元素

中的一小部分;参见第3节。

2.2.

机器学习

张量分解已经被研究作为从高维数据集[41，8]和大

规模[14]中提取特征的一种方式。塔克分解特别

是，最近还扩展到核心之间的非线性交互，使用高斯

过程[54]或深度神经网络[31]。

[5]探索Tucker分解作为多维网格数据的有损压缩工

具。我们的工作更进一步：我们的目标是通过低秩表

示来压缩网格数据，但学习针对秩约束瓶颈定制的编

码器/解码器结构，以最小化相关的信息损失。

在深度学习中，TT格式到目前为止主要用于压缩非

常大的网络层[35]。最近，该格式被用作药物设计的

条件生成模型的一部分[30，53]，其中变量自动编码

器与潜在变量和类别标签的联合分布上的TT诱导先验

相结合。在那里，TT核的全局集合是可学习的参数，

而我们对每个单独的输入张量进行TT分解，因此需要

高效且可微分的过程。

2.3.

健康指标

在第4节中，我们展示了我们的方法在从医学3D扫

描（分别是肺部的CT和脑部的MRI）预测患者的未来

状况的具体目标应用上。从扫描数据回归健康指标在

医学图像分析中具有悠久的传统，例如，[27、51]。

随着计算机视觉的普遍趋势，最近的方法大多采用深

度CNN来完成任务。示例包括来自MRI扫描的脑年龄

估计，例如，[24，9];以及来自MRI扫描的生存预测

[26、13]。所有这些作品都使用标准的CNN架构，如

VGG，U-Net或ResNet，并在低分辨率扫描（尺寸低于

200 200 100体素）上操作，以保持在GPU内存限制

内。

方法

我们首先以前馈模式描述我们的模型，其中它经由

低秩TT瓶颈将张量值输入数据映射到预测然后，我们

解释了有效的简单-

该方法包括该模型的分段和端到端学习，包括通过交

叉近似算法的反向传播，以及TT核心的投影以获得唯

一的特征表示。

3.1.

模型架构

C-P IC由四个主要构建块组成：（i

）

可被视为习得

的非线性维数降低的编码器;（ii

）

TT分解，接着是

（

iii

）

特征投影;以及

（

）

传统的、学习的预测函

数。参见图2。在第一块中，学习映射将输入张量X变

换为潜在编码E。该编码的低（张量）秩由后续TT分

解施加。该映射被实现为3D卷积网络（但是也可以使

用另一个可微分前馈算子）。结果，我们针对输入张

量X中的每个位置获得非线性编码E中的向量，即，这

两个张量具有相同的形状，除了在E中的额外通道维

度。

在没有任何可学习参数的第二块中，编码E被分解

成具有预定义的低TT秩的一组TT核Q

，全部由超

参数r界定。R的作用是约束，

表示E的有效容量，并且提供了表达性和存储器约束

之间的折衷。至关重要的是，为了构建TT分解，不需

要将完整的张量X和E存储在内存中，而是在3.2节中描

述的特定位置观察它们就足够了。这使得有可能回避

内存限制，但提出了通过离散位置的选择传播梯度的

挑战。

在最后两个块中，所获得的TT核被用作预测的基

础。由于TT分解不是唯一的，因此它们首先被投影到

规范基础上以获得不变特征向量（参见第3.3节），然

后将其用作最终预测步骤的输入，在我们的实现中是

多层感知器（MLP）。

3.2.

可微交叉逼近

如果张量X和E具有高分辨率，则将它们存储在存储

器中很快变得难以处理。因此，我们建议利用一种称

为交叉近似（CA）的高效

近似

张量学习算法[39]。CA

的原理是通过仅在仔细选择的位置处考虑张量X的选

定条目来减少存储器消耗。

最初，

被认为是一种矩阵采样方法

[49

，

其使用所谓的

伪骨架分解

[17]

来近似重建矩阵

，同

时仅观察其行和列的

这些具有索引

的行和具有索

引

的列的交叉部分可以被定义为具有索引

的行

和具有索引

的列的交叉部分。

骰子

定义了一个（

）大小的子矩阵

（

，

）。找到

产生最大值的

、

det

（

，

））

导

致

剩余11页未读，继续阅读

cpongm

粉丝: 6

端到端学习低秩嵌入：樱桃采摘梯度与可微交叉逼近

基于视觉识别技术的移动式樱桃采摘机器人设计.pdf

人工智能AI：农业病虫害计算机视觉-樱桃病害识别（2种病害）

CherrySwap::cherries:利息掉期，上面放着樱桃:cherries:

樱桃树：樱桃树

樱桃采摘机器人设计——基于PLC高速并联自动化控制.pdf

深度学习图像识别数据集：14种不同植物叶片数据集（14分类）

某镇樱桃种植采摘项目商业实施计划书.doc

经典CNN网络之VGG16图像分类网络实战项目：30种水果图像分类数据集（迁移学习）

面向机器人采摘的樱桃番茄力学特性研究.pdf

水果采摘装置：迈向自动化的重要探索

最新资源