增量多分辨矩阵分解算法

105 浏览量更新于2023-10-16 收藏 1.73MB PDF 举报

矩阵分解算法

多分辨率分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1增量式多分辨矩阵分解算法瓦姆西湾Ithapu†，Risi Kondor§，Sterling C.约翰逊，维卡斯·辛格芝加哥大学芝加哥大学http://pages.cs.wisc.edu/www.example.com摘要多分辨率分析和矩阵分解是计算机视觉中的基本工具。在这项工作中，我们研究了这两个不同的主题之间的接口，并获得技术来揭示对称矩阵的层次块结构我们的新算法，增量多分辨率矩阵分解，发现这样的结构，一次一个功能，因此规模很大的martices。我们描述了这种多尺度分析如何比直接的“全球”因子分解的数据可以识别得更远我们使用医学成像数据评估回归任务中相对杠杆作用的因子化的有效性我们还对流行的深度网络学习到的表示进行了因子分解，证明了它们即使在没有明确训练的情况下也能够推断语义关系我们表明，该算法可以作为一种探索性的工具，以改善网络架构，并在许多其他设置的视觉。1. 介绍矩阵分解是计算机视觉问题的核心。虽然在运动结构[38]、人脸识别[40]和运动分割[10]中广泛使用因子分解方案是已知的，但在过去十年中，对这些想法重新产生了兴趣。具体来说，关于低秩矩阵完成的著名工作[6]已经实现了从独立分量分析[18]到降维[42]到在线背景估计[43]的视觉问题的广泛横截面每年都在开发基于鲁棒主成分分析[13，6]的新扩展与因子分解方法相比，基于信号处理早期工作的独特而丰富的工作可以说在视觉中得到了更广泛的应用。具体来说， Wavelet [34] 和其他相关概念（curvelets [5]，shearlet [24]）松散地属于多分辨率分析，基于SIS（MRA）的方法驱动了特征提取[29]和表示学习[34]中的绝大多数此外，Wavelet仍然是SIFT特征可以被认为是所谓的散射变换（使用小波理论）的特殊情况[4]。值得注意的是，散射变换的前面的讨论提出了一个问题，即在因子分解和小波分解之间是否有任何有趣的桥梁。这条调查线最近研究了最常见的“离散”对象中遇到的视觉图。从扩散波的开创性工作开始[11]，其他人研究了矩阵的树状分解[25]，并使用小波组织它们[16]。虽然这个主题仍然是新生的（但不断发展），这些重要的结果表明，这些看似不同的主题的融合可能对视力问题有很大的希望[17]。我们的重点是研究Wavelet和Factorization之间的特别是，我们描述了一个有效的（增量）多分辨率矩阵分解算法。为了具体化上述论点，考虑视觉和机器学习中的代表性示例，其中可以部署因子化方法。图1显示了一组协方差矩阵，分别从AlexNet [23]，VGG-S [9]（在一些ImageNet类[35]上）和医学成像数据学习的表示中计算。作为探索的第一条线，我们可能有兴趣描述在这些基质中看到的明显的简约我们可以很容易地验证，调用事实上的结构，如稀疏性，低秩或衰减的本征谱不能解释该数据中固有的这种块结构的内核是块低秩和分层因子化的原始动机[36，8] -但多分辨率方案更自然-事实上，理想的-如果可以分解29512952S其中Q ∈ O和QSL图1. AlexNet、VGG-S（一些ImageNet类）和医学成像数据的从左到右的类别（或类）协方差示例。矩阵的方式，块自动从概念上讲，这相当于一个顺序因式分解，同时考虑到这样一个事实，即这个层次结构的每一级必须对应于近似矩阵中的一些非平凡结构。最近的一个结果正是这样一个对称矩阵的多分辨矩阵分解（MMF）算法[21]。（B）我们评估了高阶因子分解在视觉回归任务中相对利用像素/体素集合的功效;以及（C）使用增量MMF的输出结构，我们可视化了由深度网络推断的类别关系的语义，并且反过来，提出了一些探索性工具来适应和修改架构。2. 多分辨矩阵分解注释：我们从一些注释开始矩阵是粗体大写，向量是粗体小写，标量是小写。 [m]：={1，. . . ，m}，对任意m∈ N. 给定矩阵C∈Rm×m和两组指数S1={r1，. . . rk}，并且S2={c1，. . . cp}，CS1，S2将表示C切出的块考虑一个对称矩阵C∈Rm×m. PCA de-将C组成为QTΛQ，其中Q是正交矩阵，由行S1和列S2。C：，i是C的第i一般来说，它是致密的。另一方面，稀疏PCA（sPCA）[46]对Q的列施加稀疏性，允许较少的维度相互作用，可能无法捕获全局模式。由这种单独的低秩分解产生的因子分解不能捕获数据维度之间的层次关系。相反，MMF应用一系列精心选择的稀疏旋转Q1，Q2，. . . QL将C分解为C=（Q1）T（Q2）T. . . （Q L）T~ Q L。. .Q2Q1，从而揭示C的不同行/列的软分层组织。典型地，Q矩阵是稀疏的k阶旋转（正交矩阵，除了它们的行/列中的最多k个之外，它们是恒等的），导致层次树状矩阵组织。MMF被证明是一种有效的压缩工具[39]和预处理，是m维恒等式。 SO（m）是群m维单位行列式正交矩阵Rm是m维对称矩阵的集合，这些矩阵除其S × S块外都是对角的（S-在[21，22]中引入的多分辨率矩阵分解（MMF）保留了sPCA的局部属性，同时还通过将多个稀疏旋转矩阵依次应用于C来捕获PCA的许多变体所提供的全局相互作用。我们有以下内容。定义 . 给定适当的稀疏旋转矩阵类 O ∈SO（m），深度参数L ∈ N和整数序列m=d0≥d1≥. . .≥dL≥1 ，对称矩阵 C∈Rm×m 的多分辨矩阵分解（MMF）是以下形式的分解：TL21[21]. 已经提出了随机药物学，处理大型矩阵[22]。然而，因式分解-M（C）：= Q ~ Q，其中Q =Q。. . Q Q，（1）volves搜索一个组合空间的行/列在-ℓ ℓ[m]\S−1，[m]\S−1= Im-dforsome骰子，它限制旋转的顺序很小（通常≤3）。不允许高阶旋转限制了允许块结构的丰富性，结果-在分层分解中，MMF的一个基本性质是旋转的顺序组合。在本文中，我们利用的事实，即因子分解可以参数化的一个MMF图定义在一个序列的高阶旋转。不像交替分批方法[39]，我们从一个小的，随机选择的C块开始，然后逐渐新行进入因子分解一个增量的MMF。我们表明，这种插入过程操纵的拓扑结构的MMF图，从而提供了一个有效的算法，用于构建更高的orderMMF。我们的贡献是：（A）我们提出了一个快速集合的嵌套序列[m]= S0<$S1<$。. . S L，|= d ∈ Rm且Λ ∈ Rm.|=dℓandΛ∈Rm.S−1被称为第n层的“活动集”，因为Q是[ m ] \ S −1之外的恒等式。S的嵌套意味着在某个级别应用Q后，S−1\S行/列从活动集中移除，并且不随后进行了手术这种活动集修剪在所有L层进行，导致压缩序列C= Q<$C−1（Q<$）T（C0 = C且Λ=CL）的嵌套子空间解释。事实上，[21]已经表明，对于一般的对称矩阵类，来自定义2的MMF需要Mallat风格的多分辨率分析（MRA）[28]。我们可以看到，根据Q的选择，只有C-1的几个维度被迫相互作用，因此旋转的合成被假设为提取C中结构的微妙或更柔和的概念。2953Frobt，t由于多分辨率在这里被表示为矩阵分解（见（1）），Q的S−1\S列对应于“w a v”。而d1，d2，. . .可以是一个单调递减的序列，我们把自己限制在最简单的情况下d=m−。在此设置中，层数L最多为m-k +1，并且每一层贡献一个小波。给定 S1，S2，. . . 和0，（1）的矩阵因式分解简化为确定Q个旋转和残差Λ，这通常通过最小化[39]见。如第1节所讨论的，高阶MMF（k较大）对于允许维度之间的任意交互仍然是不可避免的（详细研究见补充），我们提出的增量过程利用了k元组计算中因子化误差和其他冗余的一些有趣特性我们建议的核心是以下设置。3.1. 概述平方Frobenius范数误差设C~∈R（m+1）×（m+1）是C的一个单扩张min布勒姆C −M（C）（二）新列w=[uT，v]T，其将C操纵为：Q∈O，Λ∈RSL上述目标可以分解为L个不同层次的贡献之和（见命题ΣC=Σ.（五）1，[21]），它建议以贪婪的方式计算因子分解为C =C0<$→C1<$→C2<$→。. . ›→Λ。这种错误分解是驱动大部分intu的原因。我们算法背后的想法。在经过−1级后，C−1是压缩集，S−1是活动集。在最简单的情况下，O是所谓的k点旋转类（最多影响k个坐标的（b）在第（1）款所指的情况下，目标是计算M（C）。因为C和C的所有部分都是一行/列（见（5）），如果我们可以访问M（C），原则上应该能够修改C的基本旋转序列以构造M（C）。这避免了必须从头开始重新计算用于C的每一件事，即，在整个C上执行（4）中的贪婪分解。操纵M（C）以计算M（C）的假设来自于因式分解中所涉及的精确计算。回忆（3）和讨论导致的表达。在第1+1级，因子分解选择ial partO：=Q的旋转矩阵，和（c）s，‘best’ candidate rows/columns from随后被指定为小波并从活动集中移除。在不失一般性的情况下，让s成为t的最后一个元素。然后是控制-大多数是相互关联的，因此由此产生的对角化在有效集的其余部分上引起最小可能的非对角误差为此做出贡献的组件水平误差与弗罗贝纽斯范数误差平方（2）的比例为误差由内积（C）TC驱动对于一些：，i ：，j(see补充）列i和j。从某种意义上说，这种最大的相关性行/列被拾取，并添加一个新条目到E（C−1; O;t，s）= 2k−1 [OC−1OT]2ℓ：，i 可能不会改变这些相关性的范围前-i=1t，tk我（三）在各个层面上，我们认为，+2[OBBTOT]k，k，其中B=C−1，argmaxCTC：，jargmaxCTC：，j.（六）t，S−1\ti、j：，ii、j：，i并且，在B的定义中，t被视为一个集合。然后，因子化通过以贪婪的方式最小化该量来工作，即，Q，t，s← argminE（C−1; O;t，s）因此，即使在引入w之后，从C的因式分解计算的k为了更好地形式化这一思想，并在提出我们的算法的过程中，我们参数化了M（C）O，T，SS <$S <$−1\s<$;C<$= Q<$C<$−1（Q<$）T。3. 增量MMF（四）用旋转序列和小波表示。3.2. M（C）的图结构如果可以访问k-元组的序列t1，. . .，tL参与旋转和相应的小波-我们现在使用（3）和（4）来激励我们的算法。求解（2）相当于估计L个不同的k元组骰子（s1，. . . ，sL），则该因式分解直接计算，即，不再有贪婪的搜索。召回t1，. . . ，tL顺序地。在每一级，根据定义，s∈t∈t，S（见（4））。与最好的k元组显然是组合的，使得前动作MMF计算（即，显式最小化（2））非常昂贵，即使对于k=3或4（这已经独立C uuTvC2954最后，对于给定的O和L，M（C）可以使用深度L的MMF图G（C）表示。该图的每一层都显示了旋转中涉及的k元组t，并且29551=1S 1 S 2 S 3s4s5s1s2s3l= 0l= 1l= 2S1s2sL= 3假设提供了该“初始化”，并简短地重新访问该方面。该过程首先设置t=t和s=s，其中=1，. . . ，L. 设I是需要插入到G中的元素（索引）的集合。在开始处（第一水平），I={m+1}对应于w。设t=1{p1，. . . ，pk}。说明插入的n个wk-元组s43I的条目是{m+1}t1\pi（i = 1，. . . ，k）。这些新S54三阶磁动势5图2. 一个5 × 5矩阵的例子，以及它的三阶MMF图（颜色更好）. Q1，Q2和Q3是旋转。 s1、s5和s2分别是l = 1、2和3处的小波（标记为黑色椭圆）。箭头暗示小波不参与未来的旋转。相应的小波S =S即，G（C）：={t，s}L.用这种方式解释因式分解在符号上便于给出算法。更重要的是，这样的一个解释是核心的可视化分层去，k个候选人是现有候选人的可能替代者。t1. 一旦选择了这些k+1个候选中的最佳者，就可以从t_i中剔除现有的p_i。如果s1被敲除，那么对于未来的水平，I={s1}。这是从MMF构造中得出的，其中第二层的小波在后面的层中不被发现。Sinc esnumer1isknockkedout，它是G.另一方面，如果k−1个尺度函数中的一个被淘汰，I不会更新。这个简单的过程从λ=1到L依次重复。在L +1处，不存在对tL+1和sL+1的估计，并且因此，该过程简单地从剩余的动作集合SL中选择最佳k元组。算法1总结了该插入和敲除程序。C的维度之间的悬垂性，并将进行讨论详情见第4.3节。由5×5矩阵构造的这种3阶MMF图的示例示于算法1INSERTROW（C，w，{t，s}L）输出：{t，s}L+1图2（行/列是彩色编码的，以获得更好的视觉效果）˜0˜=1sualization）。在水平θ = 1，s1，s2和s3被对角化，同时指定旋转的s1作为小波。这个过程重复进行，以获得2和3。如不同组成的颜色编码所示，MMF逐渐梳理出高阶相关性，这些高阶相关性只能在以一个或多个尺度（此处为水平）组成行/列后才能揭示。C←C如（5）z1←m+1对于k=1到L−1，{t，s，z+1，Q}←CHECKINSERT（C−1;t，s，z）C=QC−1（Q）T端T←GENERATETUPLES（[m+1]\<$L−1s<$$>（C<$））为了便于标记，我们将MMF图表示为公司简介L=1˜˜ℓL˜˜ℓ1000+ 1{O，t ，s}←argminO，t∈T，s∈tE（CL−1; O;t，s）C和C作为G：={t，s}1和G：={t，s<$}1. 回想一下，G将比G多一个level，因为在C中表示为m+1的rw/列w被添加（参见（5））。目标QL= I m+1LtL，tL=O，CL=QLCL−1（QL）T是在不重新计算所有k-元组的情况下估计G_n，从（4）的贪婪过程。这意味着将新的索引m+1插入到t中，并相应地修改s在3.1节的讨论之后，增量MMF认为，将这一个新元素插入图中不会导致其拓扑结构的全局变化。显然，在病理情况下，G可以任意改变，但正如前面所讨论的（见关于（6）的讨论），对于k相当大的非随机矩阵，这种情况发生的概率很小。然后，核心操作是比较新的k-元组产生的最好的一个从[m]k通过G。如果较新的k元组给出更好的错误（参见（3）），那么它将淘汰现有的k元组。元组这种建设性的插入和敲除程序是增量MMF。3.3. 插入新行/列该增量过程的基础是可以访问G（即，C上的MMF）。我们首先提出的算法算法2CHECKINSERT（A，t，s，z）输出：t，s，z，QT←GENERATETUPLES（t，z）{O，t，s}←argminO，t∈T，s∈tE（A;O;t，s）如果s∈z，则z←（zs）\send ifQ=Im+1，Qt，t=O3.4. 增量式模场滤波算法观察到算法1是用于来自（5）的设置，其中一个额外的行/列被添加到给定的MMF，并且清楚地，随着越来越多的行/列被添加，可以重复递增过程。算法3总结了这种增量因式分解为任意大和稠密矩阵。它有两年q1年q3Q2S，QS2956个组成部分：初始化在一些随机选择的小块（大小为m×m）上，295711t，t（C）C整个矩阵Ci，然后使用算法1以流的方式插入剩余的m-m个w/列（类似于来自（5）的w初始化需要在这个小块上计算批量MMF（m≥k）。BATCH MMF：请注意，在每个级别上，错误标准-（3）中的rion可以通过对来自S-1（活动集）的所有可能的k元组进行穷举搜索和随机选择（使用QR分解的性质[31]）的k阶旋转字典来显式地最小化。如果字典足够大，则穷举过程将导致最小可能的分解误差（见（2））。然而，很容易看出这是一个组合很大，总复杂度为O（nk）[22]，并且不会很好地扩展k=4左右。从算法1中注意到，在插入剩余的m-m-r_w的第二阶段中的误差准则E（·）也执行exhaust iv e搜索。算法3I增量 MMF（C）输出：M（C）C<$=C[m]，[m]，L=m-k+1{t，s}m−k+1<$BATCHMMF（C<$）f或j∈{m∈+1，. . . ，m}do{t，s}j−k+1<$INSERTROW（C<$，Cj，：，{t，s}j−k）与在整个矩阵上使用分批方案相比，对于非常大的矩阵有效地缩放。4. 实验我们研究了各种计算机视觉和医学成像场景（详见补充），以评估增量MMF分解的质量并展示其实用性。我们首先提供了因子分解的功效，在选择-ING相关功能的回归。然后，我们表明，由此产生的MMF图是一个有用的工具，可视化/解码的学习特定于任务的表示。4.1. 增量与批量MMF第一组评估将增量MMF与批处理版本进行比较（包括基于穷举搜索的版本和第3.4节中的两个近似变体）。回想一下，MMF误差是Λ的非对角范数，除了SL× SL块（参见（1）），并且误差越小，因子分解越接近精确（参见（2））。2）的情况。我们观察到，增量MMF产生的错误与批处理版本大致相同，但与单核imple相比，速度提高了420−25倍*1批量MMF的分段具体而言，在6个不同的C = C[j]，[j]端M（C）：={t，s}L其他变体：有两种方法可以避免这种彻底的搜索。由于Q的工作是对角化k行/列（见定义2），因此可以简单地选择C的相关k × k块并计算最佳O（对于给定的t ）。因此，第一种替代方案是绕过O（在（4）中）上的搜索，并且简单地使用C的特征向量通过实例和由实际数据构造的3个协方差矩阵，因子分解误差的损失为因子分解误差的4.4%，对初始化误差的分数没有很强的依赖性（见算法3）。由于空间限制，这些模拟包括在补充中。4.2. MMF评分MMF的目标（见（2））是信号，不占的k阶旋转的MMF（它当C是完全可因子分解的时，它是0因此，（C−就为了一个大T恤然而，在S-1上搜索t仍然使得这种近似合理地昂贵。相反地，M（C））i，：k是第i个中额外信息的度量k元组选择可以近似，同时保持O上的穷举搜索不变[22]。由于对角化有效地使相关维度无效，因此最佳k元组可以是最大相关的k行/列。这是通过选择一些s1<$S<$−1（从当前活动集），并通过不能由分层组合再现的行剩下的C的所有维度的这种信息价值总结（称为MMF评分）给出了重要的抽样分布，类似于统计杠杆评分[3，27]。这些采样器驱动视觉中的几个回归任务，包括手势跟踪[33]，面部对齐/跟踪[7]和医学成像[15]。更多-s2，.. . ，skΣk←argminT −1ℓ −1：，s1 ：，siC（七）作者在[27]中指出，年龄型边缘重要性采样器对于回归可能不是最佳的。另一方面，MMF分数siS−1\s1i=2：，s1：，si每一项的条件重要性或第二个启发式（与第6节中的（63.1）已经被证明是鲁棒的[22]，然而，对于大k，它可能会错过一些对因子化质量至关重要的k元组。取决于时间和手头的可用计算资源，可以使用这些替代方案来代替先前提出的用于初始化的总的来说，增量程序尺寸/特征给出其余的。这是因为MMF在协方差中对分层块结构进行编码，因此，MMF分数提供了比统计杠杆更好的重要性采样器。我们首先在一个包含80个预测因子/特征和1300个实例的大型数据集上演示这一点。图3（a，b）显示了选择“最佳”5%特征后的实例协方差矩阵块2958代表患病和非患病两类的结构在MMF评分取样中明显更明显（见图3（b）中黄色方框与其余部分）。我们详尽地比较了利用和MMF得分的医学成像回归任务的区域的兴趣（ROI）总结从正电子发射断层扫描（PET）图像。目标是使用成像ROI预测认知评分汇总。(see图3（c），并补充细节）。尽管这些特征具有高度的块结构（来自图3（c）的协方差矩阵在这里，我们使用这些体素ROI的一部分来训练线性模型，这些体素ROI根据统计杠杆（来自[3]）和来自MMF分数的相对杠杆进行采样。请注意，与LASSO不同，特征采样器对响应是不可知的（类似于最佳实验设计的设置[12]）。图3的第二行显示了所得线性模型的调整后的R2，图3（h，i）显示了相应的F统计量。x轴对应于使用杠杆（黑线）和MMF分数（红线）选择的ROI的分数。如图所示，红色与在黑色曲线中，MMF拾取的体素ROI在调整后的R2（数据的可解释方差）和F统计量（总体显著性）方面都更好。更重要的是，由MMF分数拾取的前几个ROI比来自杠杆分数的ROI信息更多（图3（d-i）中x轴的左端）。图3（j，k）显示了调整后的-R2的AUC随MMF变化顺序的增加（x轴）.显然，MMF分数的性能增益很大。为清楚起见，省略了这些图中的误差线（详情见补充资料和其他图/比较）。这些结果表明，MMF评分可以用于许多回归任务中，其中预测因子的数量随着样本量的增加而增加。4.3. MMF图特征简洁地表示对象/场景的存在的能力至少部分地由跨多个对象类/类别的所学习的表示的关系支配。除了特定于对象的信息之外，这种交叉协变量上下文依赖性已被证明可以提高对象跟踪和识别[45]以及医疗应用[20]（对抗学习的激励方面[26]）的性能。可视化梯度直方图（HoG）特征就是这样一个有趣的结果，它演示了正确学习的表示导致误报的情况[41]，例如，鸭子图像的HoG特征类似于汽车HoG。[37，14]已经通过可视化图像分类和检测模型解决了深度表示的类似方面，并且最近有兴趣设计用于可视化网络在预测时感知的工具测试标签[44]。如[1]所示，深度网络（即使具有良好的检测能力）希望看到的上下文图像甚至可能不对应于真实世界的场景。从这些作品中得到的证据激发了一个简单的问题--通过深层表征学习到的语义关系与人类所看到的语义关系相关联吗？例如，这样的模型是否可以推断出猫与狗的关系比与熊的关系更近;或者面包和黄油/奶油搭配起来更好，而不是说，莎莎酱。当然，解决这些问题相当于学习隐藏表示类协方差中的层次和类别关系。使用经典技术可能不容易揭示有趣的，与人类相关的趋势，正如最近[32]所示。至少有几个原因，但最重要的是，隐藏表示的协方差（通常）具有简约的结构，具有多个块的组成（图1中左侧的两个图像来自AlexNet和VGG-S）。如第1节所述，以及随后在第3.2节使用图2所述，MMF图是分析这种简约结构的自然对象。4.3.1解读深海将MMF直接应用于隐藏表示的协方差，揭示了关于深度网络“感知”的有趣层次结构。为了精确地浏览这些组合，考虑来自VGG-S网络[9]的最后一个隐藏层（ FC7 ，输入 softmax ）表示，对应于 12 个不同的ImageNet类，如图4（a）所示。图4（b，c）显示了在该类协方差矩阵上学习的5面包和配菜的语义。5阶MMF表示五个类别-皮塔饼、limpa、chapati、酸观察到这是四种不同的基于面粉的主菜，以及与训练数据中的查帕蒂图像共享最强上下文的副酸辣酱（类似于[1]中的健美和哑铃图像然后，MMF在第2级选择沙拉、莎莎酱和炒代表请注意，这些实际上是提供/供应面包的侧面。尽管VGG-S没有经过训练来预测这些关系，但根据MMF的说法，这些表示本身就是在学习它们他们看到了人类对这些类的推断。有调味品吗？甜点有哪些选择？让我们移动到图4（b，c）中的第三层人造黄油是一种以奶酪为基础的调味品。酥饼是由草莓（出现在第4级）和面包（来自前一级的成分）制成的甜点型膳食。这就是全部课程。最后一个级别对应于番茄酱，这是一个离群值，与10个类别中的其余类别2959无块（LevSc）2块（MMFSc）(a) LevScore抽样(b) MMFScore采样(c) 回归设置0.50.40.30.20.1121086420Lev Mdl 1（k=20）MMFMdl 1（k=20）0 0.2 0.4 0.60.8#使用的(d) R2与投资回报率Lev Mdl 1（k=20）MMFMdl 1（k=20）0.40.350.30.250.20.150.10.050 0.2 0.4 0.60.8#使用的(e) R2与投资回报率64200.50.40.30.20.103.132.92.82.72.62.5Lev Mdl3（k=20）MMFMdl3（k=20）0 0.2 0.4 0.60.8#使用的(f) R2与投资回报率0.60.40.208765Lev Mdl4（k=10）MMFMdl4（k=10）0 0.2 0.4 0.6 0.8#使用的(g) R2与投资回报率0.2 0.40.6#使用的(h) F与投资回报率0.2 0.40.6#使用的(i) F与投资回报率2.40 5 10 1520MMF订单(j) R2AUC增加0 5 10 15 20MMF订单(k) R2AUC增加图3. 评估MMF评分与利用分数（a，b）使用最佳5%特征可视化实例协方差矩阵中的明显（如果有的话）块，（c）回归设置（参见协方差结构），（d-g）调整后的R2，和（h，i）线性模型的F统计量，（j，k）R2 中的增益。Mdl1-Mdl 4是在不同数据集上构建的线性模型（见补充）。 m=0。1m（来自算法3）。涉及所选面包和配菜的菜肴不包括辣酱或番茄酱。虽然shortcake是由草莓组成的，图4（b，c）中对这种层次结构的一个有趣的总结是4.3.2我们在读茶叶吗？我们有理由问这种描述是否有意义，因为上面的语义是主观的。我们在下面提供解释。首先，网络没有经过训练来学习类别的层次结构因此，这些关系完全是深度网络学习上下文信息的能力的副产品，以及MMF通过揭示协方差矩阵中的结构来建模这些成分的能力Supplement通过从其他几十个ImageNet类中可视化这种层次结构提供了进一步的证据。其次，人们可能会问，组合物是否对阶数k敏感/稳定，阶数k图4（d）使用4阶MMF，并且所得到的层次结构是类似的图4（b）。具体来说，不同的面包和配菜出现得较早，最明显的类别（草莓和番茄酱）出现在较高的层次。类似的模式被视为其他选择的k（见补充）。此外，如果图4（b-d）中的类层次结构是非伪的，则VGG-S的不同（更高）层上的MMF应该暗示类似的趋势。图4（e）示出了来自第10层表示的组合物（第10层表示的组合物）。来自VGG-S的第三卷积层的输出图4（a）中的类。最强的成分，即从1到2的8个类，已经在VGG-S的中途被挑选出来，提供了进一步的证据，由MMF暗示的组成结构是数据驱动的。我们将在第4.3.3节中进一步讨论这一点。最后，我们比较了MMF的类组成的层次聚类从凝聚聚类的表示。图4（b-d）中的关系在相应的树状图中并不明显（见附录，[32]）总的来说，图4（除了可视化深层表示，这种MMF淀粉样蛋白PET图像p特征特征协方差pROILev Mdl2（k=10）MMFMdl2（k=10）Lev Mdl4（k=10）MMFMdl4（k=10）Mdl1MdlMdl 3Mdl 4调整后的R平方F统计量调整后的R平方F统计量调整后的R平方Diff. R平方下的AUC调整后的R平方Diff. R平方下的AUC2960(a) 12类（b）5阶（FC7层代表）（c）5阶（FC7层代表）草莓人造黄油番茄酱番茄酱草莓人造黄油酥饼酥饼萨尔萨炒萨尔萨沙拉沙拉炒酸辣酱ChapatiChapati= 5酸辣酱皮塔皮塔= 4= 3林帕林帕= 2班诺克班诺克=1沙拉人造黄油皮塔班诺克酥饼Chapati番茄酱萨尔萨酸辣酱草莓= 4= 3林帕= 2炒=1(d) 4阶（FC7层代表）(e) 5阶（conv3层代表）(f) 5阶（像素代表）图4.由MMF推断的VGG-S [9]表示的层次和组成。（a）12个类，（b，c）从第5级开始的层次结构阶MMF，（d）来自4阶MMF的结构，以及（e，f）来自3阶MMF的组合物。层（VGG-S）和输入。 m=0。1m（来自算法3）。在迁移和多域学习中，图是从未标记表示中理解类别/场景的重要探索工具[2]。这是因为，通过将插入新的未标记的实例之前的MMF图与插入之后的MMF图进行比较，可以推断新的实例是否包含不能被表达为现有类别的组合的非平凡信息4.3.3MMF图的流程：一个探索性工具图4（f）示出了来自输入（像素级）数据上的5这些特征是非信息性的，并且显然，其RGB值相关的类在图4（f）中处于l=0但最重要的是，比较图4（b，e），我们看到l=1和2具有相同的组成。我们可以为网络的所有层构建如图4（b，e，f）所示的可视化。使用类组成的这种轨迹，人们可以询问是否需要向网络添加新层（这是深度网络中模型选择的一个重要方面[19]）。这是由组成的饱和度驱动的-如果最后几个级别的层次结构相似，则网络已经学习了数据中的信息。另一方面，最后一级MMF的变化意味着添加另一个网络层可能是有益的。图4（b，e）中l=1，2处的饱和（参见剩余层的MMF的补充）就是一个这样的示例。如果这8个类别是优先级，则VGG-S’第三卷积层的预测这样的结构可以在其他层和架构上进行测试（参见AlexNet，VGG-S和其他网络的MMF补充）。5. 结论本文提出了一种通过矩阵分解揭示对称矩阵多尺度结构的算法。我们证明了它是一个有效的重要性采样器，可以相对利用特征。我们还展示了因子分解如何揭示深层网络中编码的分类关系的语义，并提出了促进适应/修改其架构的想法。致谢：的作者是支持由NIH AG 021155、EB022883、AG 040396、NSF CAREER 1252725、NSF AI117924和1320344/1320755。2961引用[1] 猜想主义：深入研究神经网络。 2015. 6[2] S. 本-戴维布利泽，K。克拉默，A。库莱萨河Pereira和J.W.沃恩从不同领域学习的理论。Machine learning，79（1-2）：151-175，2010. 8[3] C. Becludis，P.Drineas和M.W. 马洪尼无监督特征选择的k-均值聚类问题。神经信息处理系统的进展，第153-161页，2009年。五、六[4] J. Bruna 和 S. 马拉特不变散射卷积网络。 IEEETransactionsonPatternAnalysisandMachineIntelligence，35（8）：1872-1886，2013。1[5] E. Candes和D. L. Donoho Curvelets：一个令人惊讶的有效的非自适应表示对象的边缘。技术报告，DTIC文件，2000年。1[6] E. J. C和E和B。Recht. 通过凸优化的精确矩阵完成计算物理学，9（6）：717-772，2009。1[7] X. Cao，Y. Wei，F. Wen和J. Sun.用外显形状回归法进行人脸对齐. International Journal of Computer Vision，107（2）：177-190，2014. 5[8] S. Chandrasekaran，M. Gu和W.里昂层次半可分表示的快速自适应求解器。Cal-colo，42（3-4）：171-185，2005. 1[9] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。arXiv预印本arXiv：1405.3531，2014。一、六、八[10] A. M. Cheriyadat和R.拉德克用于运动分割的部分轨迹数据的非负矩阵2009年IEEE第12届国际计算机视觉会议，第865-872页。IEEE，2009年。1[11] R. R. Coifman和M.马焦尼扩散小波应用与计算谐波分析，21（1）：53 1[12] P. F. de Aguiar ， B. Bourguignon， M. Khots ，D. 马萨特，以及R.比卢D-最优设计化学计量学与智能实验室系统，30（2）：199-210，1995. 6[13] F. De la Torre和M. J.布莱克。计算机视觉的鲁棒主成分分析计算机视觉，2001年。ICCV 2001年。诉讼第八届IEEE国际会议，第1卷，第362-369页。IEEE，2001年。1[14] A. Dosovitskiy和T.布洛克斯使用卷积网络反转视觉表示。arXiv预印本arXiv：1506.02753，2015年。6[15] K. J. Friston，A.P. Holmes，K.J. Worsley，J. -P. 波林角D. Frith和R. S. Frackowiak功能成像中的统计参数图：一般的线性方法。人脑图谱，2（4）：189-210，1994。5[16] M. Gavish和R. R. Coifman通过相干矩阵组织对矩阵进行采样、去噪和压缩。应用和计算谐波分析，33（3）：354 1[17] W. Hwa Kim，H. J. Kim，N.金，美国神经科学家Adluru和V.辛格.使用调和分析的潜在变量图形模型选择：人类连接体计划（human connectome project，HCP）在IEEE计算机视觉和模式识别会议的Proceedings中，第2443-2451页1[18] A. Hy várinen. 独立成分分析：最新进展。腓Trans.R.河Soc.A，371（1984）：20110534，2013中所述。1[19] V. K.伊塔普湾N.拉维和V辛格.关于深度学习中的架构选择：从网络结构到梯度收敛和参数估计。arXiv预印本arXiv：1702.08670，2017年。8[20] V. K. Ithapu，V. Singh，O. C. Okonkwo等人使用深度学习算法的基于成像的富集标准用于轻度认知障碍的有效临床试验。Alzheimer6[21] R. Kondor，N. Teneva和V.加格多分辨率矩阵分解第31届机器学习国际会议（ICML-14）集，第1620-1628页，2014年二、三[22] R. Kondor，N. Teneva和P. K.穆德拉卡塔平行mmf：矩阵计算的多分辨率方法。 arXiv 预印本 arXiv ：1507.04396，2015年。二、五[23] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。1[24] G. Kutyniok等人Shearlets：多变量数据的多尺度分析。Springer Science Business Media，2012. 1[25] A. B.李湾Nadler和L.沃瑟曼。稀疏无序数据的自适应多尺度基。应用统计年鉴，第435-471页，2008年。1[26] D. Lowd 和 C. 温顺对抗性学习。在第十一届 ACMSIGKDD国际会议上，数据挖掘中的知识发现，第641ACM，2005年。6[27] P.马，M. W. Mahoney和B. Yu.算法杠杆的统计视角Journal of Machine Learning Research，16：861-911，2015. 5[28] S. G.马拉特多分辨率信号分解的理论：小波表示。IEEE模式分析与机器智能学报，11（7）：674 2[29] B. S. Manjunath和W.- Y. MA.用于图像数据浏览和检索的纹理特征。IEEE Transactions on Pattern Analysis andMachine Intelligence，18（8）：837 1[30] Y.迈耶小波算法与应用。Wavelet-算法与应用工业与应用数学翻译学会，142页，1，1993. 1[31] F.梅扎德里如何从经典紧群生成随机矩阵。arXiv预印本math-ph/0609050，2006年。5[32] J. C.彼得森，J. T. Abbott和T. L.格里菲斯调整深度网络特征以捕获心理表征

下载后可阅读完整内容，剩余1页未读，立即下载