深度图像表示学习中的图正则化深度神经网络（GR-DNN）摘要

157 浏览量更新于2023-10-16 收藏 997KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1203一种用于无监督图像表示学习的杨世杰1，2，李亮2，王淑慧2，张伟刚1，3，黄清明1，2，1中国科学院大学，北京，1000492中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001903哈尔滨工业大学计算机科学与技术学院，威海，264209，shijie.yang@www.example.comvipl.ict.ac.cn @liang.li vipl.ict.ac.cn，wangshuhui@ict.ac.cnwgzhang@hit.edu.cn，qmhuang@ucas.ac.cn摘要深度自动编码器（DAE）在高级表示学习中显示出其有前途的从流形学习的角度出发，我们提出了一种图正则化深度神经网络（GR-DNN），赋予传统DAE保持局部几何结构的能力。一个深层结构的正则化制定多层的看法，以捕捉这种结构。学习鲁棒的和有区别的嵌入空间，以同时保持局部流形切空间内的高级语义和几何结构。理论分析表明，所提出的图正则化子与图拉普拉斯正则化子在优化目标上有着密切的联系。通过引入基于锚点的二分图，我们也减轻了网络复杂性的增长，这保证了大规模数据的良好可扩展性。在四个数据集上的实验表明，所提出的GR-DNN与最先进的方法的可比结果。1. 介绍通过深度自动编码器（DAE）的无监督表示学习在计算机视觉中显示出其有前途的能力。基本上，欠完备编码器将输入数据压缩成低维代码，并且类似的逆解码器从代码重构输入。DAEs配备有多层非线性变换，可以模拟人脑的感知，从低级输入信号中提取高级语义抽象[19，24，9]。为了捕获高级语义并避免学习微不足道的次优函数，正则化DAE在实现某些特定的适当1类1类k类2类2级k级(a)(b)（c）第（1）款图1：学习的嵌入子空间的玩具示例：（a）传统DAE，（b）局部不变性学习器，（c）我们的GR-DNN。不同的形状表示标签，不同的颜色表示相邻关系。关系，并保存输入信息X。如下将正则化项Φ添加到重建成本Cost=Δ（X，X∞） +γΦ。（一）正则化包括代码的稀疏性[6]，对噪声输入的鲁棒性[24]和输入信号的不敏感性[19]。这些策略惩罚了代码对输入信号的小扰动的敏感性，这对DAE的成功做出了至关重要的贡献。同时，一系列成功的流形学习方法受益于局部不变性理论，例如局部线性嵌入（LLE）[20]，拉普拉斯特征映射[1]和局部保持投影（LPP）[18]。他们强调原始流形上相邻点之间的几何关系应该保持在学习的嵌入空间中，这已经广泛应用于无监督降维[4]和半监督学习[27]。比较上述DAE（图1a）与流形学习模型（图。1b），前者遵循全局重构准则，提取高层次的显著因素1204…ݔ(a) Dae(b) 拉普拉斯自动编码器(c) GR-DNN的预训练ݔ(d) GR-DNN的联合微调图2：网络结构示意图。虚线箭头表示局部相似性图的构造，而实线箭头表示确定性连接。后者强调保持局部几何结构，并根据局部流形切线上的相似性传播来推断子空间。事实上，这两种学习策略是相辅相成的。DAE被用来提取类间结构，而局部不变性学习器则更多地关注于对类内相关性的建模。如果这两个学习者结合起来，如图所示。1c，理论上可以得到更有鉴别力的表示，同时很好地保留了全局和局部结构。在最近的文献中，最广泛使用的局部不变性正则化子作为代表作，蔡等。[4]提出了图正则化非负矩阵因子分解（G-NMF），它将图拉普拉斯正则化子结合到矩阵因子分解目标中。然而，尽管在浅层模型中很受欢迎，但图拉普拉斯算子在与深层模型集成时显示出其局限性[10]。由于浅结构的性质，它必须被视为每个层的预训练的基本构建块，如图2b所示这表明应该基于最后一个隐藏层的输出来构造一个全新的图拉普拉斯因此，设计一个局部不变性正则化器用于深度模型的实际应用本文提出了一种用于无监督图像表示学习的图正则化深度神经网络（GR-DNN），其中同时学习数据流形的高级语义和局部几何结构。详细地说，一个深层结构的正则化的多层感知（MLP），利用局部不变理论的DAEs显式重建的几何相似性图。如示于图2d，GR-DNN是由以下组成的双通路网络：一个编码器和两个解码器。编码器将输入数据转换为低维代码，并且一个数据解码器重建原始输入。此外，一个广告-图解码器被引入作为局部不变正则化重建一个预先构造的局部相似图。这两个解码器共享一个瓶颈码层，GR-DNN的损失函数是来自两个解码器的重构误差的加权和。此外，我们通过引入基于锚的二分图来减轻网络结构的复杂性增长，而传统上重建相似性图的复杂性急剧增长。数据量。在四个公共数据集上的实验表明，本文提出的模型具有良好的性能，并且证明了本文提出的图正则化器可以作为一个有效的模块来增强传统的DAE。总而言之，我们的主要贡献如下：• 提出了一种图正则化深度神经网络，以有效地利用具有局部不变量的DAE无监督图像表示学习的理论，其中嵌入子空间的高级语义和局部几何结构同时学习。• 介绍了一种深度结构的图正则化器，并进行了理论分析。与传统的图Laplacian正则化器相比，计算复杂性和优越的学习性能。2. 背景表示学习试图将原始输入转换为新的特征表示，新的特征表示更健壮和紧凑，以解释数据结构。给定一个包含n个数据点X= [x1，...，xn]<$∈Rn×m，ݔ单层码图拉普拉斯算子regularizerݔ叠层深部构造代码……ݔData-DAEGraph-DAEݔ…………ݔ无源图代码……解码器…代码…ݔ编码器12052j[]IIIJIJ其中m是输入空间的维数，我们的任务是发现H=[h1，...，hn]n∈Rn×k具有较低的维数k，通过最小化以下项来保留：也就是说，k m.Ω（H）=1Σni，j=1伊什岛-hj2[S]2.1. 深度自动编码器Σn=i=1[D]−Σni，j=1胡锡进伊伊季（三）DAE试图使用由多层感知（MLP）组成的架构来提取高级语义通常，期望更深层表示更抽象的特征，即，更好地捕获高级别的数据分布。如图在图2a中，网络包含两个对称子网络。编码器将输入数据X变换为低维码矩阵H，解码器网络从码重构数据。为了学习更鲁棒的特征并避免非平滑的次优输入-特征映射，正则化DAE通过将正则化项Φ引入到等式中所示的重建成本来获得一些良好的性质。（一）. 具体来说，去噪DAE（D-DAE）[24]经过训练，可以发现可以从部分损坏的信号中恢复原始数据的显著特征。在压缩DAE（C-DAE）[19]中添加了惩罚项，该惩罚项使代码的雅可比矩阵相对于输入的Frobenius范数最小化所学习的表示更好地捕获由数据指示的局部流形方向。总之，这些技术通过鼓励代码对输入信号的小扰动不敏感来获得鲁棒性。相比之下，我们的工作旨在通过明确执行内部几何结构来增强DAE，这是基于相似性度量来执行的。2.2. 局部不变正则化器局部不变性理论[1，8，18]要求流形上具有短测地距离的点应该映射得很近。大多数现有方法采用图拉普拉斯正则化子[4，10，15]，其基于无向加权图G=（V，E）定义，其中V={x1，x2，...，xn}是节点集，E ={eij}是边集图的结构被编码成一个相似度矩阵S ∈ Rn×n，其中[S]ij≥ 0表示xi和xj的相似度. 实际上，K最近邻（K-NN）图，其中使用具有带宽参数σ的高斯核来定义相似性：=Tr （ H<$DH ） −Tr （ H<$SH ） =Tr（H<$LH），其中Tr（. 表示矩阵的迹，D是对角矩阵，其元素为[D]ii=[S] .此外，L=D−S，称为图拉普拉斯算子。通过最小化项Ω（H），我们期望如果两个数据点xi和Xj接近（即，[S]ij大），则hi和hj在新空间中被映射为作为代表作，蔡等。[4]提出了图正则化非负矩阵分解（G-NMF），它将图拉普拉斯正则化器合并到矩阵重构目标中，如等式（1）所示。（四）、Cost=λ（X，Xλ） +γΩ（H）.（四）它已被证明，学习性能可以显着提高，如果利用的几何结构。作为最相关的工作（如图。2b），拉普拉斯正则化自动编码器（LAE）[10，15]形式化了ter-encoder。m（X，X）的公式（4）使用DAE。但是，应该-结构化正则化子Ω（H）受到以下限制。当与深度模型集成时，浅层结构的正则化器必须被视为预训练每一层的基本构建块。如图2b，基于最后一个隐藏层的输出，应该构造一个全新的图拉普拉斯算子注意，构造和求解图拉普拉斯算子都需要二次计算复杂度w.r.t.数据量，传统的图形拉普拉斯正则化器对于更深的体系结构是不可缩放的3. 方法为了赋予传统DAE额外的p-保留局部几何结构的能力，我们提出了一种图正则化深度神经网络（GR-DNN）。详细地说，我们在多层感知上制定了一个深度结构正则化器，以显式地捕获局部几何结构。GR-DNN由一个编码器和两个解码器组成-.[S] IJ= exp.Σ− xi −xjσ，如果xi而xj连接如图所示。2d.编码器将输入数据项转换为低维代码，第一个数据解码器重建原始输入。灵感来自于图形自动-0，否则（二）[23]我们将介绍一个图形解码器，它通过重建来强化内部几何结构具体地说，如果根据给定的距离测量，其中一个是另一个的K最近邻，则我们连接xi和xj通常是欧几里得距离[13]。利用上面定义的相似性矩阵S，学习的表示H的局部几何结构可以计算相似度矩阵S。两个解码器通过中间瓶颈代码层连接。如等式1所示（5）损失函数是双通道重建误差的加权和学习的代码同时捕获高级全局抽象，并获得潜在的IJ1206⊤2F局部流形切线内的几何结构。推论2. H ∈ Rn×k包含k个特征向量，Cost=Δ（X，X<$ ）+γΦtraditi`onal（regularizexd）DAE+ηΔ（S，S）gra`phregularixzer（五）给出了S在Frobe- nuis范数下的最佳秩k重构。因此，我们对图为了学习几何感知表示，首先基于全局recruitc生成良好的初始代码Laplacian正则化子，其中g2表示H的二次函数：目标明确。然后，根据局部流形区域内的相似性传播S. 从流形学习的角度来看，图-minH DH= I T r（HLH）→ minrank（H）=k<$S−HH<$F（七）解码器施加力以排斥或吸引映射的点→ minrank（H）=k，g2S−g2（H）这取决于它们在几何上是否接近。从从多模态学习[17，21，25]的角度来看，原始图像数据和局部几何图形被视为两个视图或模态以相互补充。因此，与图1中的传统DAE相比2a，更多另一方面，对于通过最小化Frobenuis范数来重构S的DAE，我们得到等式：(8)其中f和g分别是非线性编码器和解码器的多个层：可以学习紧凑和有区别的表示，min<$S−g（f（S））<$2→ minS −g（H）（八）拟议的结构。f、gFH=f（S），gF将GR-DNN与正则化去噪DAE和收缩DAE进行比较，它们都可以捕获输入数据空间的局部流形结构。相应地，去噪DAE和收缩DAE通过加强学习代码的鲁棒性和不敏感性来实现这一点w.r.t.输入信号的小扰动。我们的GR-DNN通过在相似图上执行相似性传播来直接编码潜在流形结构，从而更准确地捕获几何信息。此外，与连体网络[5]相比，它们都可以实现加权度量学习。然而，在监督学习中通常采用的是连体网络，这需要强的监督信息，即输入样本对是否接近。相比之下，我们的深度图正则化器对原始数据空间的局部几何结构进行了软编码，并且通常与无监督学习的重建标准相3.0.1与图拉普拉斯正则化子的关系我们首先从优化目标的角度分析了两者之间的密切关系。然后，我们讨论了所提出的模型的优越性。定理1（[1]）. 查找的解决方案正如我们所看到的，所提出的图解码器和图拉普拉斯正则化器都旨在找到输入图相似性矩阵的最佳重构。通过使用更灵活的非线性解码器g而不是二次曲面g2，图解码器可以被视为图拉普拉斯正则化子的更广义版本，并且可以在理论保证下揭示与图Laplacian正则化子[10]相比，所提出的图正则化子具有以下优点。首先，基于MLP的图解码器对于参数化复杂的非线性函数更灵活，并且提供了一种更平滑的方式来强化局部几何结构。其次，相似度矩阵S ∈ Rn×n可视为n个规则的n维输入样本，进行标准的逐层预训练。仅局部亲和力图需要构造一次，这更适用于具有任意层数的深度模型。3.1. 实现细节3.1.1锚点图（AG）用于大规模数据与传统的基于图的方法一样，相似图不直接适用于大规模数据。在GR-DNN 中， K-NN 相似矩阵 S∈Rn×n被视为n数据样本：[第1条，sn]n，其中每个样本si∈Rnarg minH DH= I Tr（H）（6）是n维输入数据向量。这表明DAE的输入和输出层的大小线性增长，由对应于广义特征值问题Lh=λDh的最低特征值的特征向量矩阵提供。在上述定理中，约束HDH=I在嵌入空间中重新移动任意比例因子，当用作正则化时可以省略由于L=D−S，并基于Eckart-Young-Mirsky定理[7]，我们得到与[23]相同的推论早期W.R.T.数据量N。考虑到这一点，我们采用[13]中的有效近似方法，并构建基于锚点的图（AG）。关键思想是使用一小组代表性锚点{a1，a2，.，aNa}（ai ∈Rm）来近似图的结构。第一、可以通过许多策略对锚点进行采样，例如，在一个实施例中，随机选择或选择为k均值聚类中心。我们采用后者是因为它的有效性和方便性。然后，近似K-NN图1207pp pDgi=1在原始数据点之间构造S∈Rn×Na{x1，x2，...， xn}和锚点{a1，a2，.， aNa}根据等式（二）、因此，输入的大小和DAE的输出层可以固定为Na，并且图的构造变得非常有效，因为现在我们只需要考虑O（nNa）距离。3.1.2培训作为训练深度网络最流行的策略，逐层预训练[2]已被证明有助于获得局部最优解。我们模型的训练由三部分组成，即，（1）逐层预训练，（2）逐路径微调（图）。（2）（3）（4）（5）（6）（7）（8）（9）（10）（1第2d段）。对于双路径w a y，我们定义一组输入对{xi，xsi}Na，我我表1：数据集数据集尺寸：火车，测试尺寸类数线圈201440：1000，440102420YaleB5850：5000，850120010MNIST70公里：60公里，10公里78410MNIST 2120k：100k，20k784104. 实验为了验证所提出的GR-DNN的性能，我们分别进行了k均值聚类和最近邻搜索实验的基础上学习的表示。对于聚类任务，两个标准评估度量，即，准确度（ACC）[3]和归一化互信息（NMI）。对于最近邻搜索任务，给定查询样本，我们根据欧几里得距离检索前k个最近邻。的其中xd是第i个数据，是对应的行ˆ检索性能的评价使用的平均平均预构造锚图S的向量。首先，如图所示。2c，我们按层预训练常规数据DAE和图DAE，如[2]中所示。然后，我们展开并分别微调它们。最后，如图所示。在图2d中，根据等式2d执行联合微调过程。(5)以得到最优解。我们只选择数据DAE的编码器作为GR-DNN的最终编码器与多模态网络[17，21]相比在对测试数据进行编码时不需要构造图。3.2. 复杂性分析训练GR-DNN包括三个阶段，即，(1)用k-均值生成锚点，（2）构造一个A-G图S_G，（3）训练网络。时间复杂度为O（t1nNam），其中t1是迭代精度（mAP），例如，mAP@10测量前10个检索样本的mAP。在所有的评估中，聚类的数量被设置为数据集的类的真实数量。对于每种方法，所有实验重复20次，并报告最佳平均结果我们的实现是基于Theano [22]公开可用的4.1. 数据集和参数设置如表1所示，使用了四个基准数据集。(1)COIL20图像库[16]包含从不同角度观察的32×32灰度图像。(2)YaleB 数据集包含超过 10 个类别的人脸图像。(3)MNIST手写数字数据集[11]包含28×28灰度图像. (4)MNIST2：在[26]之后，我们添加50000个噪声MNIST数字，旋转角度均匀相同，从原始MNIST的[−π，π]之间提取我们采取对于运行k-means，m是原始特征维度，44n是总数据量，Na是锚点的数量。第二阶段构造图矩阵的时间复杂度为O（nNam）。在每个编码器和解码器中更新第l层这里的时间复杂度是O（nt2（slsl+1）），其中p∈{d，g}表示数据-归一化的像素强度（在[0，1]的区间中）为所有数据集的输入图像。具体来说，验证集用于观察早期停止，并且我们评估测试集上的所有性能。对于所有的自动编码器，我们采用更广泛使用的二进制交叉-熵而不是Frobenuis范数用于重建。p ppathway和graph-pathway，并且SL是第l层的大小。那么整体的复杂性是4.1.1比较方法O（t1nNam）+O（nNam）+O（nt 2n）p∈{d，g}（1）L(1) KMEANS：对原始输入的K均值聚类。(2)N-MF：非负矩阵分解[12]。（3）GNM ─n（t N m+t（1）），1a2pp∈{d，g}l复杂度为O（n），因为Na，m<$n。注意，两个模型的预训练和路径微调由于路径可以并行化，GR-DNN相对于传统DAE的额外计算成本主要在于前两个阶段。与GR-DNN相比，LAE的额外计算成本为O（（L−1）n2），其中L是网络的深度F：图正则化非负矩阵分解[4]。(4)DAE：没有任何正则化器的标准DAE。(5)D-DAE：去噪DAE [24]。(6)C-DAE：收缩DAE [19]。(7)LAE：拉普拉斯自动编码器[10]。(8)GR- DNN（DAE）：建议的模型基于标准DAE构建。（9）GR-DNN（D-DAE）：所提出的模型建立在D-DAE上（等式10）。（5））。(10)GR-DNN（C-DAE）：基于C-DAE构建的所提出的模型（等式10）（5））。12081https://github.com/ysjakking/GR-DNN1209表2：聚类和最近邻搜索结果（%）：NMI、ACC和mAPYaleB线圈20MNISTMNIST 2方法NMIACC地图NMIACC地图NMIACC地图NMIACC地图KMEANS（原始）70.6965.4770.5673.4363.7870.4649.7853.7066.2147.9246.7463.72NMF70.7266.8071.1472.6864.8172.5950.8253.7667.9748.9046.4964.24GNMF75.4367.8175.2583.5171.3375.1759.2761.0969.5252.8553.7068.92Dae85.5386.3481.2183.0571.5376.5465.6562.3674.9158.7557.3674.39D-DAE90.6687.7182.6183.7872.0477.6168.8764.1075.8259.2259.8775.71C-DAE91.3286.9481.7083.7071.5877.4968.6963.7876.1261.1258.8175.82Lae91.7188.2182.2984.1371.7180.1869.7665.2277.8264.4660.6376.47GR-DNN（DAE）92.2189.9783.3284.9571.8881.1270.6165.7678.9865.7560.8576.89GR-DNN（D-DAE）92.5589.7783.7385.7372.0282.2370.9466.0279.1565.8660.7677.43GR-DNN（C-DAE）92.5190.5683.5284.7072.1181.1870.3265.9079.2065.7361.9477.31表3：GR-DNN数据集数据通路图通路线圈20 1024−1200−500−250−20 1000−1200−500−100−20YaleB1200−1300−500−250−10 5000−5100−1000−100−10MNIST 784−1000−500−250−10 1000−1200−500−100−10MNIST 2 784−1000−500−250−10 2000−2200−1000−100−104.1.2参数设置由于GNMF、LAE和C-DAE共享Eq. (1)通过搜索{ 0}的网格来设置正则化ter-m的折衷参数。010 1，1，10，100}。给出了带宽参数为σ=mean（[S]ij/log 0. 5）为GNMF、LAE和i、jGR-DNN K的值被选择为{20，20，30，30}10.90.80.70.60.50.4MNIST原始NMFGNMFD−DAEC−DAELAEGR−DNN（D−DAE）GR−DNN（C−DAE）分别对COIL 20、YaleB、MNIST和MNIST 2进行了实验研究。具体来说，规则K-NN图是在COIL 20和YaleB上构建的，我们在MNIST和MNIST 2上构建了具有1000和2000个GR-DNN（*）在训练期间与LAE、D-DAE和C-DAE共享所有超参数设置。在贪婪逐层预训练中，每层预训练50个epoch，去噪网络的腐败率为20%。对于所有网络，SGD批量大小和学习率通过搜索{50，100，200}和{0。001，0。005，0。010 05，0。1}，分别为-5 10 50100 200 1k 2k 5k顶部编号图3：MNIST上的最高# mAP评分。MNIST210.90.8活泼地由于深层结构的自由度很大，我们经验性地为表3所示的所有数据集设计了一系列5层结构，并尽可能避免特定于数据集的调优作为[9]的工作，我们在第一个隐藏层上放置的神经元比输入多一点，然后慢慢减少，直到最后一个隐藏层。所有最后隐藏层D-DAE、C-DAE和LAE）0.70.60.50.4原始NMFGNMFD−DAEC−DAELAEGR−DNN（D−DAE）GR−DNN（C−DAE）GR-DNN的数据通路网络始终保持相同的结构。对于GR-DNN，图解码器的输出大小等于锚图的节点体积，并且其大小的影响将被进一步讨论。地图地图12105 10 50100 200 1k 2k 5k顶部编号图4：MNIST 212110.80.790.780.770.760.75性能w.r. t 10.950.90.850.80.750.7mAP@# w.r.t.码维727170696865深度4654深度0.01 0.1 0.5 1 10100（一）2 5 10 50 100200（b）第（1）款数据译码器33（c）第（1）款图形译码器图5：（a）MNIST的参数分析（b）MNIST上不同方法的mAP（c）聚类结果w.r.t.层数。4.2. K-NN搜索结果K-NN搜索实验的目的是验证所提出的GR-DNN可以保持数据流形的局部几何结构。我们在图中显示了不同最近搜索尺度的mAP得分。3和4与其他方法相比，GR-DNN（*）的mAP随检索样本数的增加而减小的速度更慢，这表明GR-DNN（*）能更好地获得局部区域内更干净的邻域。我们在表2中分别提供了四个数据集上的 mAP@100 、 @100 、 @1000 、 @1000 的统计数据。GR-DNN（*）的mAP与所有基线相比具有例如，GR-DNN（C-DAE）在YaleB、MNIST和MNIST 2上的mAP得分分别为0.8352、0.7920和0.7731，而C-DAE分别达到0.8170、0.7612和0.7582。相对改善为2。23%，4. 05%和1。97%，这表明所提出的图正则化器可以是一个有效的模块，以提高C-DAE。此外，GR-DNN（DAE）优于C-DAE、D-DAE和LAE。优越的性能表明，深度图正则化器提供了更有效的正则化影响和更紧凑的方式来加强局部结构比现有的正则化器。4.3. 聚类结果聚类实验表明，GR-DNN不仅可以保持局部几何结构，而且可以更好地提取全局高层语义。表2表明，GR-DNN（*）的性能在NMI和ACC方面都有全面的改善。将GR-DNN（*）与DAE、D-DAE和C-DAE进行比较，平均NMI和ACC均得到改善，并且在YaleB、MNIST和MNIST 2上具有一定的余量例如，GR-DNN（D-DAE）实现了相对3. 在MNIST上，N-MI比D-DAE改善01%，以及2. MNIST 2上的NMI比LAE改善17%。它揭示了更好地在深度图正则化器的帮助下捕获语义结构，并且保留的局部几何结构产生了更好的聚类质量和更多区分的嵌入空间。将GR-DNN（DAE）与D-DAE和C-DAE进行比较，我们发现显式执行亲和性传播可以更好地捕获几何结构，而不是隐式地强制执行代码的不敏感性。GR-DNN（DAE）优于LAE的性能表明，所提出的深度图正则化器在捕获复杂几何结构方面比浅结构拉普拉斯正则化器具有更大的优点。4.4. 关于锚图的锚图（Anchor graph，AG）是一种构造正则K-最近邻（ K-Nearest Neighbor ， K-NN ）图的近似方法。在构造AG时，参数K和锚点数目Na对其“局部性”性质有影响我们将mAP的改进公式化为：mAP@#（GR-DNN）−mAP@#（D-DAE）以评估此影响。首先，如图所示。6a，我们调查不同的当 Na= 1k 时， K-NN 图的 Ks 。随着 K 的增加， K（ mAP@10 ）和 K （ mAP@100 ）逐渐降低， K（mAP@2k）和K（mAP@5k）则显著增加。这表明，小K值更注重局部结构，而大K值更注重全局结构。然而，这两种影响之间存在权衡然后，我们研究不同的Na s，同时固定K= 30，如图所示。6b.相反，随着Na的增加，局部结构被捕获的越多，全局结构的强制性逐渐丧失。此外，过小和过大的Na 值都表明GR-DNN的性能相对较差。Na的过小值过分强调全局结构，而过大值则导致AG高度稀疏，模糊信息丢失过多。D−DAEC−DAELAEGR−DNN（D−DAE）GR−DNND−DAE（@10）D−DAE（@100）D−DAE（@1k）LAE（@10）LAE（@100）LAE（@1k）GR−DNN（D−DAE）（@10）GR−DNN（D−DAE）（@100）mAP@1kmAP@#NMI（%）12120123456789（mAP@ #）w.r.t. K，Na=1k0.070.060.050.040.030.020.010（mAP@ #）w.r.t. Na、K=300.070.060.050.040.030.020.01-0.01K=10 30200500 1k0Na=100 5001k5k10k图7：左右面板显示了二维(a)（b）第（1）款图6：（a）相对mAP改善，相对于K. (b)相对mAP改善w.r.t. 不，不。4.5. 关于图的正则化子深度的讨论本文就数据深度和图路径对学习效果的影响进行了探讨为此目的，我们根据经验调整每个路径的层数，搜索网格为{3，4，5，6}，相应的性能如图所示。5c.第二个问题。我们...服务层越多，性能越好。图解码器的深度比数据解码器的深度对性能的这重新确认了图正则化子的正则化作用4.6. 参数分析对于GR-DNN要调整的参数，我们分析了最关键的η和由于空间限制而导致的代码维度。从图在图5a中，我们看到，η的过小和过大值都显示GR-DNN的性能相对较差。这与所提出的模型中η的影响一致。过小的η值消除了局部不变性准则的影响，而过大的η值则过分强调了局部相关性而忽略了数据的个体性。因此，η可以在[0. （5）实践中。图5 b显示GR-DNN始终优于其他方法。d-不同的代码尺寸。与稳定的mAP@10和mAP@100不同，随着代码维度的增加，mAP@1k显著降低。这表明大的代码大小引入更多的噪声，并且附加的代码倾向于对较少区分的视觉信息（例如，重构背景像素），这降低了聚类性能。4.7. 可视化我们通过将它们投影到2D空间中来定性地研究学习的嵌入。图中给出了由此产生的可视化7.第一次会议。相比之下，所提出的图正则化器施加力来排斥或吸引映射点，这取决于它们是否在几何上接近D-DAE和GR-DNN（D-DAE）使用784-1000-500-250-2编码器报告对MNIST测试数据生成的代码。图8：上图、中图和下图分别显示了原始样本、通过D-DAE和GR-DNN（D-DAE）重建的样本。在局部区域内，并且因此可以实现有区别的嵌入结果。不同方法的重建样本的可视化如图所示。8.我们的方法实现了更清晰和准确的重建。5. 结论在这项工作中，我们提出了一个图正则化深度神经网络（GR-DNN），赋予DAE保持局部几何结构的能力。一个强大的和紧凑的嵌入空间学习，同时保持高层次的语义和几何结构与局部流形。理论分析表明，所提出的图正则化子与图拉普拉斯正则化子在优化目标上有着密切的该模型实现了线性计算复杂度和实验研究表明，有前途的学习性能。在未来的工作中，我们将专注于定制模型，学习紧凑的哈希码检索任务，并将其扩展到多视图场景。确认这项工作得到了中国国家自然科学基金的部分资助：61402431、61332016、61620106009、61672497、61650202、U1636214和61572488，部分由前沿科学重点研究计划，CAS：QYZDJ-SSW-SYS 013。单位（mAP@#1213引用[1] M. Belkin和P.新木用于维数缩减和数据表示的拉普拉斯特征映射。神经计算，15（6）：1373[2] Y. Bengio，P. Lamblin，D. Popovici，H. Larochelle等人贪婪的深度网络分层训练。神经信息处理系统进展，19：153，2007。[3] D. Cai，X.他和J·汉。使用局部保持索引的文档聚类。IEEE TKDE，17（12）：1624[4] D. Cai，X. He、J.Han和T. S.煌用于数据表示的图正则化非负矩阵分解IEEE Transactions on Pattern Analysisand Machine Intelligence，33（8）：1548[5] S.乔普拉河Hadsell和Y.勒昆有区别地学习相似性度量，并应用于人脸验证。在IEEE计算机协会计算机视觉和模式识别会议上，第539-546卷。1，2005年。[6] J. Deng，Z. Zhang，E. Marchi和B.舒勒基于稀疏自动编码器的语音情感识别特征迁移学习。在情感计算和智能交互中，第511-516页[7] C. Eckart和G.年轻一个矩阵与另一个低秩矩阵的近似Psychometrika，1（3）：211[8] R. Hadsell，S.Chopra和Y.乐存。通过学习不变映射来降低维数。在 IEEE Computer Society Conference onComputer Vision and Pattern Recognition ，第 2 卷，第1735-1742页[9] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络降低数据的维数。Science，313（5786）：504[10] K.贾湖，加-地孙习Gao，Z. Song和B. E.石Laplacian自动编码器：非线性数据流形的显式学习. 神经计算，160：250[11] Y.勒昆角Cortes和C. J·伯吉斯mnist手写数字数据库，1998。[12] D. D. Lee和H. S.胜非负矩阵分解算法。神经信息处理系统的进展，第556-562页，2001年[13] Y. Li，F. Nie，H. Huang和J.煌基于二分图的大规模多视点谱聚类。在AAAI人工智能会议上，2015年。[14] Z. Li，Y.杨杰，刘杰，X. Zhou和H.陆使用非负谱分析的无监督特征选择在2012年国际人工智能会议上[15] Y.廖，Y. Wang和Y.刘某使用图正则化自动编码器的图像表示学习。arXiv预印本arXiv：1312.0786，2013年。[16] S. A. Nene，S. K. Nayar，H. Murase等人Columbia对象图像库（线圈-20）。技术报告，技术报告CUCS-005-96，1996年。[17] J. Ngiam，A.科斯拉，M。金，J.南，H。Lee和A.Y. Ng.多模态深度学习。第28届国际机器学习会议（ICML-11）论文集，第689-696页，2011年[18] X.新木局部保持投影。神经信息处理系统，第16卷，第153页。MIT，2004.[19] S. Rifai，P. Vincent，X. Muller，X. Glorot和Y.本吉奥。收缩式自动编码器：特征提取过程中的显式不变性。第28届国际机器学习会议（ICML-11），第833- 840页，2011年[20] S. T. Roweis和L.K. 索尔局部线性嵌入的非线性降维Science，290（5500）：2323[21] C. Silberer和M.拉帕塔使用自动编码器学习接地意义表示。在ACL的Proceedings，第721-732页[22] Theano Theano ：一个用于快速计算数学表达式的Python框架。arXiv电子印刷品，ab- s/1605.02688，2016年5月。[23] F.田湾，澳-地高角，加-地Cui、黄毛叶蝉E.陈和T.- Y.刘某学习图聚类的深度表示。在AAAI人工智能会议论文集，第1293[24] P. Vincent，H. Larochelle，Y. Bengio和P A.曼扎戈尔用去噪自动编码器提取和合成鲁棒特征第25届国际机器学习会议集，第1096-1103页。ACM，2008年。[25] D. Wang，P.Cui，M.Ou和W.竹使用正交单元的深度多模态国际人工智能联合，2015年。[26] W.王河，巴西-地阿罗拉角Livescu和J.比尔梅斯深度多视图表示学习。机器学习国际会议论文集，ICML，2015年。[27] J. Weston，F.Ratle，H.Mobahi和R.科洛伯特通过半监督嵌入进行深度神经网络：贸易的技巧，第639-655页。Springer，2012.[28] X. Zhu和Z.Ghahramani 使用标签传播从标记和未标记数据中学习技术报告，Citeseer，2002年。

下载后可阅读完整内容，剩余1页未读，立即下载