自动编码器网络：多视图数据的无监督表示学习方法

54 浏览量更新于2023-10-19 收藏 880KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2577AE2-Nets：自动编码器网络张长青1人，刘叶青1人，付华珠2人1天津大学智能与计算学院2Inception Institute of Artificial Intelligence，阿布扎比，阿联酋张长青; yeqing}@ tju.edu.cn; hzfu@ieee.org摘要学习用多个视图表示的数据（例如，多种类型的描述符或模态）是机器学习和计算机视觉中快速发展的方向。虽然取得了有效性，大多数现有的算法通常集中在分类或聚类任务。因此，在本文中，我们专注于无监督表示学习，并提出了一种新的框架称为自动编码器网络中的自动编码器（AE2-Nets），它通过嵌套的自动编码器框架将来自异构源的信息集成到一个完整的表示中所提出的方法具有以下优点：（1）我们的模型在统一的框架中联合执行视图特定表示学习（与内部自动编码器网络）和多视图信息编码（与外部自动编码器网络）;（2）由于潜在表示到单个视图的退化过程，我们的模型灵活地平衡了多个视图之间的互补性和一致性。该模型采用交替方向法（ADM）进行求解，并与现有算法进行了比较.1. 介绍真实世界的数据通常用多个模态或多个类型的描述符来描述，这些描述符被认为是多个视图。基本上，由于传感器或特征提取器的多样性，这些不同的视图通常是高度异构的。例如，图像可以用颜色（例如，颜色直方图）和纹理描述器（例如，，SIFT [18]，GIST [21]，HOG [7]）。在社交网络中，通常存在描述不同主体之间关系的链接图和特定于主体的属性[31，28]。在医学图像分析[10]中，受试者可能与不同类型的医学图像相关联，这些医学图像用于捕获解剖结构张长青和刘叶青对这项工作做出了同样的结构.因此，已经提出了大量的方法来联合利用多种类型的特征[9]或多种形式的数据[26，20]。大多数现有的多视图学习算法专注于分类[13，4]或聚类[5，16，32]。基本上，将不同的视图集成到一个全面的表示中对于下游任务是至关重要的，因为统一的表示可以很容易地被现成的算法利用尽管这很重要，但由于不同视图下的复杂相关性，联合探索学习公共表示的代表性方法是典型相关性分析（CCA）[14]，其搜索两个投影以将两个视图映射到低维公共子空间，其中两个视图之间的线性相关性最大化。然后，学习的表示可以用于后续任务（例如，分类或聚类）。为了解决线性情况之外的更复杂的相关性，核化CCA（KCCA）[1]引入了核技术。此外，深度典型相关分析（DC-CA）[2]提出使用深度神经网络学习高度非线性映射，以搜索可以最大化两个视图之间相关性的公共空间。在基于CCA的方法中，偏最小二乘（PLS）回归[25]将样本从一个视图回归到另一个视图，灵活的多视图降维算法（MDcR）[33]最大化核空间中不同视图之间的相关性虽然在多视图学习方面取得了很好的效果首先，以前的算法通常在不同视图之间存在足够的相关性的基本假设下将不同视图投影到公共空间上。然而，在实践中，相关性（一致性）和独立性（互补性）是共存的，并且自动平衡它们是具有挑战性的。相应地，现有的算法要么最大化一致性的约束[2，16]，要么最大化互补性的独立性[5]。其次，现有算法通常将每个视图投影到低维空间上，然后2578将所有这些组合起来用于后续任务，而不是学习一个共同的低维表示，这使得它成为表示学习的两步方式。因此，本文提出了自编码器网络中的自编码器（AE2-Nets），它能够自动地将异构视图中的内在信息编码成一种压缩的表示，并自适应地平衡不同视图之间的互补性和一致性.该模型的主要优点在于采用了一种新颖的嵌套自编码器网络进行由内AE网络编码的特定于视图的表示负责重构原始输入，而由外AE网络编码的多视图表示可以重构每个单个视图的内AE网络编码表示。本文的主要贡献概括如下：• 在Autoencoder中，我们提出了一种新的无监督多视图表示学习框架-Autoencoder网络（AE2-Nets），它可以灵活地将多个异构视图集成到一个完整的表示中。• 这种新型的嵌套自编码器网络可以联合实现特定于视图的表示学习和多视图学习表示学习-内部自动编码器网络有效地从每个单个视图中提取信息，而外部自动编码器网络对降级过程进行建模，以将来自每个单个视图的固有信息编码为公共的完整表示。• 大量的实验结果验证了所提出的AE2-Net在不同基准数据集上的有效性，分类和聚类任务。本文的其余部分组织如下。相关算法，包括多视图学习和多视图表示学习，在第节中简要回顾2. 我们提出的方法的细节在第3节中介绍。在第4节中，我们给出了实验结果，证明了我们的模型在各种真实世界数据集上的有效性。结论见第5节。2. 相关工作基于多模态或多类型特征数据的学习旨在通过联合利用不同的视图来实现学习任务，以对于监督学习，多模态度量学习[34，35]通常联合学习不同模态的多个度量。分层多模态度量学习（HM3L）[35]将每个模态的度量分解为两个矩阵的乘积：一个是特定模式，另一个是所有模式共享的。除了线性情况，Fisher-HSIC多视图度量学习（FISH-MML）[34]通过Fisher判别分析加强了类可分性sis（FDA），并通过使用希尔伯特-施密特独立准则（HSIC）来最大化多个视图之间在核空间中的在概率框架下，该方法[30]通过多翼和声（MWH）学习从多个模态学习潜在表示和距离度量。也有一些方法[22，23]从多个分类器中聚合决策，其中每个分类器基于一个单一的模态进行学习。在特定的假设下，理论结果[11，6]支持多视图集成在后续任务中的优势。对于聚类，基于谱聚类，基于co-regularized [16]和co-training[15]的算法强制不同视图的聚类假设是一致的。最近，多视图子空间聚类方法[5，12]以自表示的方式将不同的数据点与原始视图相关，并同时约束不同视图的这些子空间表示以利用互补信息。有一些多视图方法专注于其他主题，例如。，降维[33]。无监督多视图表示学习是一个相当具有挑战性的问题，因为没有类信息指导学习过程。主流的方法是基于CCA的，它搜索投影以最大化两个视图的相关性由于C-CA的核扩展具有处理非线性相关性的能力，因此被广泛应用于融合多视图特征或降维。深度CCA [2]旨在学习两个深度神经网络（DNN），以最大化两个视图之间的典型相关性。在深度学习框架下，基于自动编码器的模型[20]学习最佳重构输入的紧凑表示。与CCA不同，基于HSIC，提出了一种灵活的多视图维度协同约简方法[33]，该方法独立地探索每个视图内的相关性，并通过核匹配联合地最大化不同视图之间的依赖性受深度学习的启发，半非负矩阵分解被扩展为以逐层方式从多视图数据中获得分层语义所有视图的学习表示在最终层中强制相同。3. 自动编码器网络中的自动编码器在本节中，我们提出了用于学习具有多视图样本集合X={X（1），.，X（V）}，其中X（v）∈Rdv×n是第v个视图的特征矩阵，V，n和dv是数字视图的数目、样本的数目和第v个视图的特征空间的维数。3.1. 该方法AE 2 -Nets的关键目标（如图所示）1）是恢复一个完整的潜在空间，可以很好地揭示联合国，2579我AEAE我1 2NM1 2N外部AE：多视图编码内部AE：视图特定编码特定任务目标H...图像(a) 异质输入（b）AE网络（c）退化网络（d）潜在表征（e）任务图1：自动编码器网络（AE2-Nets）中的自动编码器概述。关键组件是嵌套的自动编码器网络，其由用于视图特定编码的内部AE网络（示出为具有绿色箭头的圆圈）和用于多视图编码的外部AE网络（示出为具有红色箭头的圆圈）组成。视图特定的编码，自动提取功能，从每个视图，而多视图编码确保完整的潜在表示可以映射回每个视图的退化过程。因此，来自多个视图的固有信息被编码到学习的潜在完整表示中。学习到的潜在表征可以用于后续任务，并且特定于任务的目标也可以灵活地并入我们的框架中（以灰色虚线显示）。跨多个视图的数据底层结构亲-{W（m，v），b（m，v）}M为所有图层设置的参数阿埃m=1姿势模型联合学习每个模型单个视图和完整的多视图表示，其可以被映射以重建每个单个视图。然后，利用内AE网络自动提取每个视图的内在信息，而外AE网络中涉及的退化过程确保了内在信息的完整性。其中M+1是内部AE的层数网络即由M层非线性变换组成。具体地，前M/2个隐藏层将输入编码为新的表示，并且最后M/2个层解码表示以重构输入。让z（0，v）=x（v）∈Rdv表示输入特征向量，则我我来自每个视图的sic信息被编码到潜在表示.请注意，由于常见的完整表示和相关的非线性网络，第m层的输出是z（m，v）=a（W（m，v）z（m−1，v）+b（m，v）），解决了不同视图之间的相关性对于内部网络，使用AE网络的原因是：（1）由于没有监督信息指导，爱爱m=1， 2，···，M，中文（简体）在学习过程中，我们使用AE网络代替其中z（m，v）∈Rd（m，v）而d（m，v）是一般的神经网络（例如，，以作分类），确保固有信息得到保存;（2）对于传统的多视图表示学习模型，学习过程通常基于预先提取的特征，由于涉及高维和可能的噪声，这是有风险的。引入的编码网络可以提取内在信息，将其编码到潜在的多视图表示中，而不是原始的高维/噪声特征;（3）AE的变体（例如，图像卷积自动编码器），我们的模型具有直接基于原始数据执行表示学习的潜力。为了简单起见，第v个视图的内部AE网络表示为f（X（v）; Θ（v）），其中Θ（v）=第m层的节点用于第v视图。W（m，v）∈Rd（m，v）×d（m−1，v）和b（m，v）∈Rd（m，v）表示与第m层r相关的权重和偏置。 a（·）是非线性激活函数。然后，考虑到矩阵X（v）=[x（v），x（v），· · ·，x（v）]∈Rdv×n，对于第v个视图，相应的重构表示表示为Z（M，v）=[z（M，v），z（M，v），· ··，z（M，v）]，（2）其中z（M ，v）是第v个视图中第i个2016年10月26日，《中国日报》（（五）我们应尽量减少以下情况：ae ae2图258022W我布雷布AE2b= b−µM1Σ2eters{W（m，v），b（m，v）施工损失minV <$X（v）−Z（M，v）<$.（三）所有这些变量的凸性。因此，我们通过采用交替方向最小化（ADM）[17]策略来优化我们的目标函数采用ADM策略-¨ ¨{Θ（v）}V 2Fgy，优化在以下三个步骤中循环AEv=1v =1在获得低维视图特定表示Z（M，v）之后，我们专注于将它们编码成一个完整的公共表示H∈Rk×n，其中k是完整空间的维数，以保持内在的不变性。从不同的角度形成。为此，外部AE网络中涉及的退化网络实现了这样一个假设，即每个单一视图都可以从综合（或完整）公共表示重建。更新视图特定的自动编码器网络，更新退化网络，并通过固定其他变量块来更新潜在表示H。每个步骤的优化如下：• 更新视图特定AE网络。要更新第v个视图的视图特定AE网络，我们应该最小化-最小化以下损失函数L（v）（{Θ（v）}V）=怨恨全连接神经网络（FC-阿埃1 Σn . ¨v=1¨2¨ （M，v）¨2Σ（六）NN）被用来将降解过程建模为2（L，v）<$示于图第1段（c）分段。具体地说，我们将H映射到具有退化网络的视图特定表示Z（M，v2¨ii=1i“+ λ”zi− gi“。g（H;Θ（v）），其中Θ（v）={W（l，v），b（l，v）}LL+1应用链式法则计算E-dgdgl=1Q. (6) w.r.t. W（m，v）和b（m，v），我们有是降级网络的层数Ac-因此，我们有G（0，v）=H作为degra的输入。阿埃（v）（l，v）（l，v）（l，v）∂Lae（m，v）（m，v）（m−1，v）Tdation网络和G=[g1，···，gn]，其中=（+λΛ）（zi），g（l，v）=a（W（l）g（l−1，v）+b（l，v））的情况。那么，（m，v）AE（七）dg中文（简体）退化网络定义为阿比亚=λ（m，v）+λΛ（m，v），ΣV ¨¨2（m，v）AE1min<$Z（M，v）−G（L，v）<$.（四）¨2¨{Θ（v）}V 2F在哪里（m，v）被定义为DGv=1v =1在我们的模型中，我们共同学习每个视图的新表示（使用内部AE网络），并寻求完整的LA。（m，v）=.−（x（v）−z（m，v））<$a′（y（m，v）），m=M，帐篷表示（与外部AE网络）在一个统一的我我我（m，v）框架，然后我们的AE2-Nets的目标被引入为（W（m+1，v））T<$（m+1，v）<$a′（y且Λ（m，v）由下式给出：），否则，（八）1伏 . ¨ ¨2min<$X（v）−Z（M，v）<$Λ（m，v）={Θ（v），Θ（v）}V¨ ¨，H2F阿埃公司v=1v=1<$（W（m+1，v））TΛ（m+1，v）<$a′（y（m，v） M¨（M，v）2¨（L，v）<$阿比亚（m，v）（L，v）i），m≤′（m，v）2-1，+λ¨Z-GéF 、（五）n（zi2-gi）C1a（yi20，m ≥M+1。），m=2，其中，λ >0是平衡视图内重建和交叉视图重建（从la-每个视图的帐篷表示）。对于所有视图，（九）其中a′（·）是作用函数a（·）的derivativ e，表示逐元素乘法，并且y（m，v）=G（L，v）s是从公共潜表示导出的。（m，v）（m−1，v）我（m，v）H.该模型自动学习视图特定的表示和非线性编码成多视图完整的表示。值得注意的是Waezi+ Bae。然后我们可以更新参数-ae ae}m=1，梯度下降为（v）2伏（m，v）（m，v）∂Lae虽然拟议的AE网络是一个无人监督的代表，基于感知学习模型，很容易扩展AE 2-Nets以满足特定任务（例如：分类或聚类）。更多-Wae=Wae−µ（m，v）（m，v）W（v）AE（m，v），AE我2ΣL我2581、（十）以上，我们的模型适用于数据超过两种观点。阿依阿（m，v）AE3.2. 优化在我们的问题中有多个变量块，并且我们的AE2-Nets的目标函数不是联合的。其中μ >0是学习率，通常设置为一个小的正值，例如、0. 001。•更新降级网络。与更新策略的特定于视图的AE网络，我们可以得到布雷布2582v=12DG2¨我（l，v）i iii dg idg∂L阿埃公司（l，v）（l，v）Eq.的梯度(4) w.r.t. Wdg和bdg用于v th观为算法1：AE2-Nets的优化算法输入：多视图数据X={X（v）}V，（v）dg=<$（l，v）（g（l−1，v））T，（v）DG（11）潜在表示H的维数k。随机初始化{Θ（v），Θ（v）}V和H。（l，v）iDG（l，v）DG阿埃公司v=1而不收敛其中，n（l，v）定义为：对于每个V视图，.−（z（M，v）−g（l，v））<$a′（q（l，v）），l=L=（W（l+1，v））T<$（l+1，v）<$a′（q（l，v）），否则更新视图特定AE网络与Eq （10）;端dgi（十二）对于每个V视图，其中q（l，v）=W（l，v）g（l−1，v）+b（l，v）。因此，我们可以使用以下规则更新权重和偏差（v）W（l，v）=W（l，v）− µdg 、更新退化参数网络与Eq （13）;端用Eq.（14）;端dgdg（l，v）DG（十三）输出：潜在表示H。中文（简体）b（l，v）=b（l，v）− µdg。dgdg（l，v）DG4. 实验•更新潜在表示H。要更新完整我们用类似的方法来描述H，datingW（1，v）.也就是说，我们应该优化Eq。（四）w.r.t. H.因此，我们可以将梯度计算为在实验中，我们在真实世界的多视图数据集上将所提出的AE2- Nets与最先进的多视图表示学习方法进行了比较，并对聚类和分类结果进行了Lh=α（v）（g（L，v）−z（M，v））a′（q（l，v））<$W（l，v）具有常用评估指标的任务。伊什岛与Lv=1ΣV=我α（v）¨z我（M，v）2我l=1¨2-g（L，v）<$，DG4.1.实验设置数据集。我们在以下方面Hv=1 2ii（十四）datasets：handbook1包含2000张图像，从0到9共10个类别。两种不同类型的描述符，其中α（v）是控制第v个视图的置信度的权衡因子。在实践中，当没有关于每个视图的重要性的先验时，我们可以设置α（1）=···=α（V）为了澄清，我们总结了算法1中的优化3.3. 与CCA/矩阵分解的连接CCA可以被解释为生成模型[29，3]。对于潜在表示h，观测值x（1）=P（1）h+（1）和x（2）=P（2）h+（2），其中P（1）和P（2）是线性映射，（1）和（2）是独立的高斯噪声。对于我们的AE2-Nets，底层模型是f（x（v ）;Θ（v ））=g（h;Θ（v ））+ε（v ），其中f（·）将每个视图的原始特征编码为紧凑表示，并且g（·）d e将完整表示分级为每个单个视图。 ε（v）是第v个视图的误差。通过固定这些特征不是通过自动编码器网络学习用线性投影代替g（h;Θ（v）），我们的模-即、pix（2 x 3窗口中的240像素平均值）和fac（216轮廓相关性）被用作两个视图。 Caltech 101 - 72包含来自Caltech 101的图像子集。共有7个类别，1474张图片：人脸、摩托车、美元钞票、加菲猫、史努比、停车标志和温莎椅。使用HOG和GIST描述符。ORL3包含40个不同主题的10个不同图像。COIL- 204包含20个对象类别的1440个图像每个图像被归一化为32×32，每个像素具有256个灰度级。对于ORL和COIL-20，灰度和使用Gabor描述符加州理工-加州大学圣地亚哥分校鸟类（CUB）5包含11788个与文本描述相关的鸟类图像-[24]从200个不同的类别。我们使用GoogLeNet提取基于图像的1024维特征，以及基于文本的300维特征。比较方法。我们将所提出的AE2- Nets与以下方法进行了比较：(1) Concate：这个方法只是简单地连接不同的-DGel将退化为：min{P（v），H}ΣVv=1 Σni=1 ||x(v)−1https://archive.ics.uci.edu/ml/datasets/Multiple+Features2http://www.vision.caltech.edu/ImageDatasets/Caltech101/P（v）hi||二、这类似于CCA的生成模型，W布雷布W布雷布LV2583也相当于学习一种常见的表示法在矩阵分解框架下。3https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html4http://www.cs.columbia.edu/CAVE/software/softlib/5http://www.vision.caltech.edu/visipedia/CUB-200.html2584表1：集群任务的性能比较。数据集方法ACCNMIF评分RIConcate76.04 ±2.2875.70 ±1.4470.96 ±2.0593.93 ±0.42[14]66.43 ±7.6269.62 ±6.0662.05 ±7.7091.83 ±1.79DCCA [2]66.26 ±0.1666.01 ±0.4559.05 ±0.3991.39 ±0.06手写[27]第二十七话69.17 ±1.0266.96 ±0.9160.50 ±1.1091.77 ±0.21MDcR [33]76.72 ±2.7776.68 ±0.9371.93 ±2.2294.11 ±0.48DMF-MVC [36]71.86 ±4.2573.09 ±3.2366.66 ±4.6992.85 ±1.13我们81.52 ±1.6271.39 ±1.5068.57 ±1.8693.68 ±0.38Concate47.23 ±0.2257.19 ±0.6152.15 ±0.2873.45 ±0.16[14]45.37 ±0.0950.53 ±0.0352.15 ±0.1973.27 ±0.09DCCA [2]56.71±10.5057.61 ±6.7862.32±12.7576.34 ±6.86加州理工学院101[27]第二十七话62.11 ±2.7864.38 ±4.1165.43 ±4.2479.31 ±2.06MDcR [33]46.51 ±0.6756.43 ±0.5651.55 ±0.5673.27 ±0.30DMF-MVC [36]55.75 ±5.6745.52 ±2.2855.67 ±5.5073.43 ±2.33我们66.46 ±4.5560.60 ±1.9373.42 ±4.9183.14 ±2.33Concate61.10 ±1.5179.28 ±0.7047.03 ±2.2197.10 ±0.25[14]56.98 ±2.0676.03 ±0.7945.13 ±1.8397.32 ±0.09DCCA [2]59.68 ±2.0477.84 ±0.8347.72 ±2.0597.42 ±0.13ORL[27]第二十七话59.40 ±2.2077.52 ±0.8646.71 ±2.2297.39 ±0.14MDcR [33]61.70 ±2.1979.45 ±1.2048.48 ±2.5997.28 ±0.22DMF-MVC [36]65.38 ±2.8682.87 ±1.2652.01 ±3.4397.29 ±0.30我们68.85 ±2.1185.73 ±0.7859.93 ±1.3197.94 ±0.11Concate67.13 ±4.0979.94 ±1.6964.81 ±4.0596.24 ±0.60[14]58.68 ±1.3470.64 ±0.4753.13 ±0.9095.18 ±0.10DCCA [2]63.73 ±0.7876.02 ±0.5058.76 ±0.5395.60 ±0.06线圈20[27]第二十七话62.72 ±1.4076.32 ±0.6657.56 ±1.1595.27 ±0.30MDcR [33]64.25 ±2.9879.44 ±1.3763.60 ±2.5796.11 ±0.29DMF-MVC [36]53.92 ±5.8972.36 ±2.1146.39 ±4.9792.56 ±1.46我们73.42 ±1.9082.55 ±1.0369.38 ±1.9296.86 ±0.22Concate73.80 ±0.1171.49 ±0.2461.07 ±0.1891.98 ±0.04[14]45.82 ±1.5846.59 ±0.9839.93 ±1.2787.44 ±0.31DCCA [2]54.50 ±0.2952.53 ±0.1945.84 ±0.3188.61 ±0.06幼崽[27]第二十七话66.70 ±1.5265.76 ±1.3658.22 ±1.1891.27 ±0.24MDcR [33]73.68 ±3.3274.49 ±0.7565.72 ±1.3792.75 ±0.44DMF-MVC [36]37.50 ±2.4537.82 ±2.0428.95 ±1.5485.52 ±0.26我们77.75 ±1.6378.61 ±1.6270.96 ±2.6393.92 ±0.58从多个视图输入要素类型。(2) CCA：典型相关分析（CCA）[14]通过寻找最大相关的变量的线性组合将多种类型的特征映射到一个公共空间，然后将这些投影的低维特征组合在一起。(3) 深度典型相关分析（DCCA）[2]使用深度神经网络扩展CCA，并结合-指定多个视图的投影低维要素(4) DCCAE：深度正则相关自动编码器（DCCAE）[27]由两个自动编码器组成，并最大化学习的表示之间的正则相关性，然后将这些投影的低维特征组合在一起。(5) MDcR：多视图相关性共约简（MD-cR）[33]应用核匹配来正则化多个视图之间的依赖性，并将每个视图投影到低维空间。然后将这些投影的低维特征连接在一起。(6) DMF-MVC：深度半NMF for MVC（DMF-MVC）[36] 通过半非负矩阵利用深层结构通过对多视图数据的特征分解，寻求一种具有一致性知识的通用特征表示方法。评估指标。为了综合比较AE 2- Nets与其他算法，我们采用了四种不同的度量标准来评价聚类质量，即：、准确度、归一化互信息（NMI）、F-得分和Rand指数（RI），其中不同的度量有利于不同的聚类属性2585表2：分类任务的性能比较。数据集方法男80%/女 20%G70%/P 30%G50%/P 50%G20%/P 80%Concate89.60 ±1.4088.97 ±0.7388.87 ±0.4485.68 ±0.53[14]93.78 ±0.8293.47 ±0.9393.28 ±0.6691.12 ±0.74DCCA [2]95.18 ±0.5594.62 ±0.6494.35 ±0.4692.79 ±0.51手写[27]第二十七话95.78 ±0.4695.10 ±0.6494.79 ±0.5892.63 ±0.54MDcR [33]92.33 ±0.7391.55 ±0.3991.41 ±0.6888.11 ±0.61DMF-MVC [36]94.68 ±0.7193.72 ±0.6093.33 ±0.4688.23 ±0.57我们96.93 ±0.7196.55 ±0.6695.88 ±0.7193.38 ±0.49Concate87.88 ±0.6787.47 ±0.5687.17 ±0.4987.10 ±0.45[14]91.10 ±0.9690.07 ±1.0389.82 ±0.4989.08 ±0.71DCCA [2]92.12 ±0.5891.46 ±0.7091.30 ±0.4890.73 ±0.38加州理工学院101[27]第二十七话91.58 ±1.0290.91 ±0.7590.54 ±0.4489.44 ±0.43MDcR [33]90.14 ±0.7489.45 ±0.7688.95 ±0.4188.46 ±0.35DMF-MVC [36]85.51 ±1.0584.67 ±0.8281.88 ±0.7374.19 ±0.99我们93.77 ±1.3592.98 ±1.3792.49 ±0.7291.36 ±0.69Concate79.13 ±2.3674.58 ±1.3268.00 ±2.2348.28 ±2.27[14]77.13 ±3.9673.83 ±4.8967.95 ±2.7749.00 ±1.84DCCA [2]83.25 ±2.7178.92 ±1.9371.15 ±1.8651.69 ±1.75ORL[27]第二十七话81.62 ±2.9580.00 ±1.4772.80 ±2.0451.25 ±1.90MDcR [33]92.00 ±1.5890.83 ±2.0883.35 ±1.0857.38 ±2.08DMF-MVC [36]93.13 ±1.2191.75 ±1.6485.45 ±1.8556.44 ±2.50我们97.88 ±1.1996.00 ±2.1892.20 ±1.1870.16 ±2.54Concate78.50 ±2.3076.42 ±2.3367.05 ±2.3348.69 ±2.08[14]90.50 ±1.4688.64 ±0.9586.86 ±0.7678.94 ±0.87DCCA [2]90.96 ±1.2490.48 ±1.5688.65 ±0.8483.35 ±0.60线圈20[27]第二十七话92.54 ±0.7091.88 ±1.4490.35 ±0.5884.11 ±1.10MDcR [33]91.11 ±0.8090.29 ±1.0587.63 ±1.1279.46 ±1.39DMF-MVC [36]95.25 ±1.0694.76 ±0.7792.07 ±0.6182.96 ±1.03我们96.11 ±1.1095.55 ±0.8793.25 ±0.7388.85 ±0.72Concate82.50 ±3.0481.50 ±3.1380.80 ±1.4178.33 ±0.99[14]63.92 ±3.1461.39 ±2.5659.07 ±2.3253.06 ±2.12DCCA [2]65.67 ±2.8564.83 ±1.8362.37 ±1.5858.44 ±2.92幼崽[27]第二十七话77.00 ±2.9474.56 ±2.7472.60 ±2.5267.35 ±3.84MDcR [33]83.08 ±3.4382.44 ±3.0881.53 ±1.6778.58 ±1.65DMF-MVC [36]60.08 ±2.7958.56 ±2.8455.30 ±1.9049.60 ±1.38我们85.83 ±2.9484.00 ±1.4182.67 ±1.4180.17 ±1.83对于评估聚类的准确度有不同的定义，我们实验中使用的准确度定义如下：给定一个样本xi，其聚类标签和类标签（地面实况）分别由ri和si表示，则我们有nδ（s，map（r））ACC=i=1i i，（15）n其中，当x=y时，δ（x，y）=1，否则δ（x，y）=0。map（ri）是一个置换映射函数，它将聚类标记映射为类标记，最佳映射可以通过Kuhn-Munkres算法得到。我们采用标准的分类精度和进行实验，不同分区的画廊和探针集。对于这些指标中的每一个，值越高表示聚类性能越好。在获得基于多视图的学习表示对于聚类，我们采用k-means算法，而对于分类，使用k-最近邻（kNN）算法。使用k-means和kNN的原因在于这两种算法都很简单，并且可以基于Eu-clidean距离来反映表示的质量。对于所有比较的方法，我们调整所有参数以获得最佳性能。在我们的模型中，对于内部AE网络和退化网络采用了以tanh（·）为激活函数的全连接层，其中它们的层数根据经验设定为5和3。我们使用2-范数作为所有网络上参数的正则化2586(1) 视图1(2) 视图2(a) 手写(b) 加州理工学院101(3) 我们t训练集和测试集的比例，表示为G训练比/P测试比，其中G和P分别表示“图库集”和“探测集”。表2显示了每个G列车比率/P试验比率的比较结果。根据表2，从我们的AE2-网获得的准确性比在不同分区上的比较更有希望。据观察，基于CCA的方法并不总是优于CCAConcate。一个可能的原因是过分强调相关性（一致性）可能会损害不同观点之间的互补性优异的性能进一步验证了AE2-Nets的优势。为了进一步研究改进，我们可视化每个单一视图的原始特征和我们使用t-SNE学习的完整表示[19]。如图2、学习的潜势更好地反映了聚类结构表示.参数调整和收敛。hyperparam-图2：每个单一视图的原始特征的可视化和t-SNE的潜在表示[19]。参数λ对于控制多个视图的融合是必不可少的作为示于图3（a）中，我们给出了手写数据集上的参数调整，并展示了我们的算法在不同超参数λ值下的聚类性能。0.750.700.650.600.550 0.2 0.4 0.6 0.81（一）1.00.80.60.40.20.00 20 40 60 80 1迭代0（b）第（1）款对于每个值，我们重复5次，并根据NMI绘制平均值和标准差。据观察，当λ在很宽的范围内。为了证明我们的优化算法的收敛性，我们进行了收敛性实验，如图所示。3（b）款。通常，目标值在迭代开始时快速下降，并且我们的优化算法在实际中在这些数据集上的100次迭代内收敛。图3：参数调整（a）和收敛曲线（b）。s，并且权重衰减根据经验被设置为0。0001我们从下式中选择潜在表示H的维数：{50，100，150，200，250，300}，并从{ 0}调整权衡参数λ。1，0。图2，· · ·，1. 0}。为了简单起见，我们在所有数据集上设置α1=· ··=αV=α=1由于涉及随机性，我们运行所有算法30次，并报告平均性能和标准差的差异。ferent metrics.对于聚类，不同方法的详细结果如表1所示。显然，我们的算法在ACC方面基本上优于所有其他方法由于CCA只寻求线性预测，因此通常表现得相当不好。DCCA和DCCAE由于非线性的影响，其性能明显优于此外，尽管DCCAE和MDcR分别在Caltech 101和handwrit-ten上表现良好，但在其他数据集上并不乐观。为了分类，我们将数据分为两类-5. 结论本文提出了一种异构数据的无监督表示学习模型与将不同视图映射到公共空间的前向多视图表示学习模型不同，所提出的模型AE2-Nets联合学习每个视图的表示，并使用新颖的嵌套自动编码器框架将它们编码成完整的潜在表示通过这种方式，我们的方法可以灵活地编码来自每个视图的内在信息。AE2-Nets在真实世界数据集上的实验结果优于现有的对于未来的发展方向，我们将考虑扩展当前的AE2-Nets，以实现端到端的表示学习。例如，我们可以为图像或图形设计卷积AE神经网络[8]，用于内部AE网络自动提取真实世界异构数据的特征。确认本工作得到了国家自然科学基金（ 61602337 ，61732011，61702358）的部分资助。通讯作者：张长青。(1)视图1(2)视图2(3)我们NMI目标函数值2587引用[1] S. 赤穗典型相关分析的核方法。 arXiv 预印本cs/0609071，2006年。[2] G.安德鲁河Arora，J. Bilmes，and K. Livescu深度典型相关分析。ICML，第1247-1255页，2013年。[3] F. R. Bach和M.I. 约旦. 典型相关分析的概率解释2005年[4] M. M. Bronstein，A. M.布朗斯坦，F. Michel和N.帕拉吉奥。通过使用相似性敏感散列的跨模态度量学习的数据融合在CVPR，第3594[5] X.曹氏C. Zhang，H. Fu，S. Liu和H.张某多样性诱导的多视点子空间聚类。在CVPR，第586-594页[6] K. Chaudhuri、S. M. Kakade，K. Livescu和K. Sridharan基于典型相关分析的多视图聚类。在ICML，第129-136页[7] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，第1卷，第886[8] M. Defferrard，X.布列松和P。范德海恩斯具有快速局部谱滤波的图上卷积神经网络。在NIPS，第3844-3852页[9] P. Dhillon，D.P. Foster和L.H. 昂加尔基于cca的词嵌入多视角NIPS，第199-207页，2011年[10] J. S. Duncan和N.阿亚奇医学图像分析：二十年来的进展和今后的挑战。IEEE Transactions on Pattern Analysisand Machine Intelligence，22（1）：85[11] D. P. Foster，S.M. Kakade和T.张某通过典型相关分析的多视图技术报告。罗格斯大学，2010年。[12] H. Gao，F. Nie，X. Li和H.煌多视点子空间聚类。在ICCV，第4238-4246页[13] K. R. Gray，P.阿尔贾巴尔河A. Heckemann，A.锤子D. Rueckert，A. D. N. Initiative等基于随机森林的相似性度量用于阿尔茨海默病的多模态分类。NeuroImage，65：167[14] H. 霍特林两组变量之间的关系。Biometrika，28（3/4）：321[15] A. Kumar和H. Dau me'. 一种用于多视图谱聚类的协同训练方法ICML，第393-400页，2011年[16] A. 库马尔山口Rai和H.多姆共正则化多视图谱聚类。在NIPS，第1413-1421页[17] Z.林河，巴西-地L

下载后可阅读完整内容，剩余1页未读，立即下载