递归张量列车的正交逼近扩展模型用于医学图像分析

148 浏览量更新于2023-10-16 收藏 12.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Ronak Mehta1, Rudrasis Chakraborty2, Yunyang Xiong1, and Vikas Singh1ronakrm@cs.wisc.edurudra@berkeley.eduyxiong43@wisc.eduvsingh@biostat.wisc.edu1University of Wisconsin Madison2University of California Berkeley105710通过张量列车中的正交逼近来扩展递归模型0摘要0现代深度网络已被证明对分析现实世界的图像非常有效。然而，在医学成像领域，它们的应用仍处于早期阶段，主要是由于三维图像的大尺寸，需要巨大的卷积或全连接层 -如果我们将图像（而不是图像块）视为一个样本。当关注点转向通过递归结构进行三维图像体的纵向分析，并且在科学应用中需要可靠性度量时，这些问题只会加剧。借鉴微分几何的见解，我们将张量列车分解调整为构建具有显著较少参数的网络，从而使我们能够对整个脑图像体序列进行强大的递归网络训练。我们描述了“正交”张量列车，并从理论和实证的角度展示了它表达标准网络层的能力。我们展示了它相对于标准张量列车分解的更快收敛和更强的置信区间，以有效地重建整个脑体积。我们提供代码，并使用图像序列在ADNI数据集上进行实验，以回归与认知相关的结果。01. 引言0递归神经网络（RNN）及其变体是机器学习和视觉中建模序列数据的事实上的选择工具。但直到最近，这些模型在建模高维数据方面一直受到限制。部分原因是递归结构通常导致依赖于序列长度的大型模型大小，因此还需要相应数量的增加计算量。虽然RNN在某些情况下已成功应用于视频数据，但由于从输入到隐藏表示的大量映射，该策略需要问题特定的创新。可以说，模型参数数量的增长在0各种类型的递归模型对于高维数据集仍然是一个瓶颈。另一方面，卷积神经网络（CNN）更好地处理高维数据，并且可以通过生成丰富的特征图来显著减少输入的维度。大多数计算机视觉任务都涉及架构中的某种形式的CNN，但将CNN无缝地融入递归结构中以减轻上述RNN特定的模型大小问题并不总是直接的。请注意，直接用CNN替换输入和输出层会显著缩短序列长度[24]，而预训练CNN层可能会导致在没有使用端到端流程进行训练时出现较差的局部最小值[7]。最近的一些工作建议使用扩张卷积网络进行序列建模[28]，以在一定程度上减轻这些问题，但这一领域的工作仍在发展中[31]。对于RNN风格的网络和其他网络的模型大小减小，已经使用了PCA或随机投影[2,27]风格的“压缩”思想，并且其成功程度各不相同。0关于给定网络所提供的有效自由度的有趣观点，即架构的实际“大小”的替代方法，可以通过张量方法来提供。基于张量分解的方法最近已经被证明可以实现对非常高维数据的低维表示[13]，虽然这些想法在“浅层”领域早就被认为是有效的，但新的结果也证明了它们在深度神经网络中的适用性。特别是在过去一年中，我们看到许多基于张量的方法被成功地应用于深度神经网络的设计和压缩[4, 25, 29,30]。具体而言，[26]表明这些压缩方法在减少RNN中权重层参数成本方面非常有效，使得以前在计算上是不可行的简化视频分析任务成为可能。0在这篇论文中，模型的大小尤其是在顺序数据的形式化中是至关重要的，有许多关键原因。我们的目标是设计丰富的顺序或循环模型来分析纵向的高维3D脑成像序列。这个任务· · ·(2)105720引发了两个问题。首先，除非模型的大小是简洁的，否则我们发现仅仅使用涉及多个时间点的3D图像数据来实例化模型，即使在多个高端GPU实例上，也是具有挑战性的。其次，医学图像分析的最终目标是科学发现或为患者生成可操作的知识。这两个目标都需要通过经典或现代统计技术来评估模型的置信度：例如，模型对其预测的置信度有多高？评估深度神经网络模型的模型不确定性的大多数可用工具都严重依赖于模型中的参数数量。因此，即使上述第一个问题可以通过巧妙的实现思路得到缓解，但从实际角度来看，设计具有少量参数的丰富和表达力模型对于计算模型不确定性具有巨大的好处。本文及其贡献。我们通过使用循环/顺序模型来建模顺序3D脑成像数据的问题。我们的开发从关于张量分解的众所周知的结果开始。特别地，我们使用了已被证明在视觉和机器学习中的几个应用中有效的张量列车表示。我们推导出了一种使用正交约束的分解重构，并展示了尽管这使得估计稍微更具挑战性，但可以将参数数量减少一半。我们提出了一种基于Stiefel流形优化的新颖参数估计方案，并展示了端到端构造如何对收敛性和不确定性估计产生好处。最后，从经验的角度来看，我们讨论了如何使用顺序3D脑成像数据集进行分析和预测，据我们所知，这是使用深度循环架构的第一个这样的结果。02. 预备知识02.1. 张量分解和张量列车。0设X ∈ R n 1 ×∙∙∙× nd是一个d维数组或张量，其中每个模式的长度为ni。存储一个完整秩的张量需要nd的存储空间。已经开发了许多张量分解方法来减少这种存储成本。CANDECOMP/PARAFAC（CP）[3,10]分解将存储减少到O(dnr)，但是找到精确的CP秩r是NP难的。分层张量方法在张量压缩中也被证明是有效的[4,5]。最近的一种分解方法是张量列车分解（TT）[22]，它将张量的一个元素定义为0X(x 1, ..., x d) = A 1(x 1) ∙ ∙ ∙ A d(x d) (1)0其中x i ∈ {1, ..., n i}，每个i ∈ {1, ..., d}的A i (x i) ∈ R r i− 1 × r i被称为张量列车的核心。0r 0 = r d = 1。等价地，完整的张量可以写成：0X =0r 0是一个参数。0r d0k d =1 A 1 (k 0, :, k 1) � ∙ ∙ ∙ � A d (k d − 1,:, k d)0在这种格式中，A i ∈ R r i − 1 × n i × ri。这种格式需要O(dnr^2)的存储空间，但是与CP格式相比有两个主要优点。首先，找到任意张量的TT秩（满足等式的最小一组ri）是可行的，因此所有张量都可以高效地重写为TT格式。其次，将任意张量投影到固定秩的TT格式只需要一组QR和奇异值分解[22]。这种投影，TT-rounding，还允许将具有一定秩的给定TT张量投影到秩较低的TT空间，计算复杂度为O(dr^3)。此外，特定的张量列车构造最近被确定为一种通用循环网络形式[15]。我们将张量算子G定义为将张量模式分组为“输入”和“输出”列表，使得G ∈ R(n in 1 × ... × n in d)× (n out 1 × ... × n outd)。这个算子G可以被看作是矩阵W的TT表示，其中W ∈R(n i 1 ∙∙∙ n i d) × (n o 1 ∙∙∙ n od)。在[20]中，作者使用这个公式将神经网络中的权重层直接压缩。算子中的核心由输入和输出索引进行索引，即A i (xi , y i) ∈ R r i − 1 × r i，其中x i ∈ [1, ..., n in i]，y i ∈ [1,..., n outi]。张量列车的常见操作需要将TT格式的核心转化为矩阵形式。在这里，我们将核心A i (x i)的左矩阵化定义为AL i ∈ Rr i − 1 n i × r i，右矩阵化类似地定义。02.2. 张量列车的微分几何0具有固定TT秩的张量列车形成Rn1×∙∙∙×nd的黎曼子流形[12,18]：0Mr := {X∈Rn1×∙∙∙×nd with TT秩r0, ..., rd} (3)0黎曼流形是具有平滑变化内积的可微流形。切空间是在流形上的特定点定义的向量空间，由通过该点沿流形上的所有可能曲线的所有可能切向量组成。切丛是所有切空间的不交并，用于流形上所有点的切空间，具有一个投影映射：Π：TM→M。指数映射定义了从特定点上的切空间到流形上的局部映射Exp(x,∙)：TxM→M。根据这些定义，优化关于黎曼流形值变量的函数等同于在环境空间中计算自由导数，将梯度投影到当前迭代的切空间，并使用（回退）指数映射计算在流形上的下一个迭代。�.(6)105730映射以计算流形上的下一个迭代。[21]中的作者使用此过程更有效地学习线性模型中所有指数多个相互作用的模型。具有固定大小和秩的正交矩阵也形成一个流形，即（紧致）Stiefel流形：St(p, n) = {Y∈Rn×p | YT Y = Ip, p≤n}。任意X∈Rn×p0可以使用X→UVT将矩阵投影到Stiefel流形St(p,n)，其中X=UΣVT是X的（瘦）奇异值分解。03. 正交张量列车0如上所述，关于近似和投影的一些TT操作需要计算矩阵化核的QR分解。在最初开发张量列车的应用中，这些操作是必要的[17,22]。对于现代神经网络应用，其中张量运算符可能是我们学习的目标，将每个矩阵乘积视为自己的变量可能足够，并通过标准的TT分解沿着Stiefels的乘积学习核心。一种朴素的方法可以使重新整形的核正交化，并逐步将核分解的上三角部分推入下一个核中，从而得到以下具有适当重新整形的精确公式：0X = AL1AL2∙∙∙ALd = QL1R1AL2∙∙∙ALd = QL1 �R1AL2 �∙∙ALd = QL1QL2R2∙∙∙ALd = QL1∙∙∙QLdRd(4)0其中[QL1, R1] = qr(AL1)，[QLi, Ri] = qr(Ri-1ALi)，i∈{2, ...,d}，QLi∈Rri-1ni×ri，Ri∈Rri×ri。每个QLi都在St(r_i,r_i-1ni)上。这里，Stiefel空间的分量数为d，其中“残差”Rd∈R。这种分解是精确的，只需要对张量核进行重新整形。如果所有ri=r，ni=n，则所需的总参数数量为dnr^2-(d-1)r^2+r。02，与完整格式dnr^2相比0总参数。重要的是要注意，在这种形式中，核本身不是正交的。需要重新整形将矩阵化形式转换回大小为ri-1×ri的TT-cores，并且在实践中很难以这种形式进行简单的TT张量乘法。此外，现在我们需要在较大尺寸的Stiefel流形上进行优化，即O(nr^2)。03.1. 更好的张量列车近似0理想情况下，我们希望保持标准的TT-core格式，并在“较小”的Stiefel流形上进行优化。考虑以下表示形式，其中每个TT-core本身都是正交的。0定义1.（正交张量列车）正交张量列车定义为0X(x1,...,xd)=Q1(x1)∙∙∙Qd(xd),(5)0其中每个Qi(xi)位于Stiefel空间St(mi,Mi)，其中mi=min(ri−1,ri)，Mi=max(ri−1,ri)。0虽然在这个公式中，Stiefel空间的乘积空间中的分量总数为nd，但每个流形的维数要小得多，仅取决于核秩而不是模式大小。如果ni=n，ri=r，则总参数数目为0n0d�0i=10�r2−r2+r0�=dnr2−dnr2+r0与完整的TT表示相比，正交张量分解(OTT)所需的参数数量为(r+1)/2r≈1/2。如果ri=ri+1，则St(mi,Mi)=SO(mi)，其中SO是特殊正交群。这种构造可以看作是对完整张量列车格式的近似，在其中每个核的上三角部分设置为单位矩阵：0X(x1,...,xd)=A1(x1)∙∙∙Ad(xd)=Q1(x1)R1(x1)∙∙∙Qd(xd)Rd(Xd)0≈Q1(x1)∙∙∙Qd(xd)(7)0这有用吗？这种构造是否有用并不明显。通过这种近似损失了多少？使用这种构造获得了什么？接下来，我们将证明可以使用OTT来近似任何范数有界的张量，并且在完全秩假设和可训练常数的情况下，我们的公式可以得到一个误差为�的解。03.2.理论分析0我们首先将任意张量X重塑为矩阵XM，通过将模式分组为两组，XM∈Rn×m。我们可以将这个任意矩阵固定为XM=A∈Rn×m。0命题1.给定一个2D张量A∈Rm×m，Aij∈[−1，1]，存在一组单位向量{xi}mi=1�Rm，{yj}mj=1�Rm，使得对于任意�>0，∥A−�A∥<�，其中，0对于任意的i，j，�A0证明。设A = USVT是A的奇异值分解。设� >0，我们将沿对角线扰动S以生成�S，使得∥S−�S∥<�。设X = [xi]和Y =[yi]。我们首先给出一个算法，生成�X和�Y，使得每列都正交，且�XT�Y = S。然后，X = �XUT0并且Y=�YVT。我们从m=3开始一个算法。选择{�xi}为单位向量，并赋值�y3=�x1×�x2，�y2=�x3×�x1。∥s.t.Qi(xi) Qi(xi) = Ip∀i, xi(8)105740随机OTT优化0对于t=1,...,T，计算gt:=dfdWf(Xmini−batch)对于CoreQit∈Wt和Core Gradientgit∈gt，计算Git=PTWtM(git)�Projection StepQit+1←Exp(Qit,Git)�Retraction Step end for end for0SO(n)0xt0gt0SO(n)0Rn×n0xt+10Retract0项目0(b)图1：使用Stiefel流形上的投影和回退的梯度下降更新的算法(a)和可视化(b)。更新应用于每个核心，允许较小的流形操作，否则将随着维度的增加而扩展得很差。0然后，使得�y2和�y3的长度为单位长度。现在，在由{�x1，�x2}张成的平面上旋转�x2，使得�xt2�y2 =�S22。类似地，在由{�x3，�x1}张成的平面上旋转�x3，使得�xy3 = �S33。现在，赋值，�y1 =�x2×�x3，并使其长度为单位长度。现在，固定�x2和�x3，上述步骤是从S2到[−1，1]的连续映射F，即通过改变不同的�x1∈S2，我们将得到不同的�xt1�y1的值。还要注意，如果对于特定的{�xi}的选择，�xt1�y1>0，则对于�−xi�的选择，上述构造回−�y2和−�y3，而F返回−�xt1�y1<0。因此，如果a∈F�S2�−a∈F�S2�。此外，1∈F�S2�0因此，− 1 ∈ F � S 2 � 。由于S 2是连通的，F是连续的，F � S 2 � 是连通的，因此，� { x i }m i =1 � R m0以及{ y j } m j =1 � R m ，使得( � { i, j } ) ，� x t i � y j = � 0∥ S − � S ∥ < � ，而选择的� > 0是任意的，我们可以看出 ∥A − � A ∥ < �。使用外代数的广义叉积，上述过程可以自然地扩展到任意的m > 3 。0上述结果的一个直接推论允许近似任意的2D矩阵。0推论1.给定一个2D张量A ∈ R m × m ，存在一组单位向量{ xi } m i =1 � R m ，{ y j } m j =1 � R m 以及0存在一个固定常数c，使得对于任意� > 0 ，∥ A − � A ∥ < �，其中，� i, j, � A ij = c x t i y j 。0证明.给定任意的矩阵A，定义A' = A/ | A | ∞ 。那么A' ij ∈ [ − 1 , 1] ，根据命题1，我们可以构造单位向量x i ，y j，使得对于任意的� > 0 ，∥ A' ij − x T i y j ∥ < �。然后，对于任意的A ij ，我们有A ij = cA' ij ，其中c = |A | ∞ 。0我们还可以直接从命题1得到以下结果。0推论2.给定一个2D张量A ∈ R m × m ，满足 ∥ A ∥ F ≤ 1，存在一组正交矩阵{ B i } � SO ( m )0以及一组单位向量{ y j } m i =1 � R m ，使得 � � > 0 ，∥ A− � A ∥ < � ，其中，� i, j, � A ij = 1 t B t i y j 。0例子3.1.将上述结果应用于OTT，等价性相对容易证明。考虑近似一个4维张量X，其中n 1 , 2 , 3 , 4 = n = r 。令Q1 ( x 1 ) ∈ R 1 × n ，Q 2 ( x 2 ) ，Q 3 ( x 3 ) ∈ R n × n，以及Q 4 ( x 4 ) ∈ R n × 1。根据推论2，我们可以将由x 1 ，x 2 以及x 3 ，x 4索引的两个向量写成X A ( x 1 , x 2 ) = Q 1 ( x 1 ) � Q 2 ( x 2) 以及X B ( x 3 , x 4 ) = Q 3 ( x 3 ) Q 4 ( x 4 )。这两个向量的乘积X A ，X B 再次得到由x 1 ，x 2 ，x 3，x 4 索引的单个元素，该元素可以在[ − 1 ,1]之间取任意值，根据命题1。显然，核心Q构成了X的等价定义。0然后，我们可以应用推论2，并发现索引正交矩阵和正交向量的乘积可以近似任意有界范数的矩阵。将这个应用到我们的OTT格式，立即可以得出结论，通过在R中添加至多dn个常数，我们可以近似任意的张量。虽然这样做会使得格式中的参数数量超过标准格式中的参数数量，但这足以证明，在我们的模型已经过度参数化的典型学习环境中，我们仍然可以捕捉到插入OTT格式的模型类的全部表达能力。值得注意的是，上述维度计算是内在维度。对于精确的公式，实际分配的变量数量确实是dn3。理论上分析近似在r

下载后可阅读完整内容，剩余1页未读，立即下载