深度学习中的双向神经网络用于图像和文本的匹配

135 浏览量更新于2023-10-16 收藏 603KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用双向网连接图像和文本Aviv Eisenschtat1和Lior Wolf1，21以色列特拉维夫大学布拉瓦特尼克计算机科学学院2Facebook人工智能研究摘要连接两个数据源是许多计算机视觉问题的基本构建块。典型相关分析（CCA）通过利用线性优化器来实现这一点，以便最大化两个视图之间的相关性。最近的工作利用了非线性模型，包括深度学习技术，优化了某些特征空间中的CCA损失在本文中，我们介绍了一种新的，双向神经网络架构的任务，从两个数据源的匹配向量。我们的方法采用了两个绑定的神经网络通道，将两个视图投影到一个共同的，最大相关的空间，使用欧几里德损失。我们展示了基于相关性的损失和欧几里德损失之间的直接联系，使得欧几里德损失用于相关性最大化。为了克服常见的欧几里德回归优化问题，我们修改了我们的问题，包括批归一化和辍学众所周知的技术我们展示了一些计算机视觉匹配任务的最新结果，包括在Flickr8k，Flickr30k和COCO数据集上的MNIST图像匹配和图像1. 介绍当研究人员开始寻求对图像背后场景的理解时，计算机视觉从其图像处理的根源出现。因此，将视觉数据X与外部数据源Y联系起来是计算机视觉的定义任务。当应用机器学习工具来解决这些任务时，我们通常认为外部源Y是单变量的。更一般的情况是Y也是多维的。这种视图到视图链接的示例包括匹配视频和并发音频、匹配图像与其文本描述、匹配来自两个固定视图的图像等。经典的两个不同领域之间的匹配向量的方法是典型相关分析（CCA）。该算法已经在许多方面得到了推广：添加了[29]，引入了内核[2，30，4]，开发了两个以上来源的版本[41]等。最近，随着深度学习方法的出现，创建了深度版本并显示出希望。当前的深度CCA方法在深度神经网络架构之上优化CCA损失。在这项工作中，提出了一种替代方案，其中构建网络以将一个源X映射到另一个源Y并返回。该架构与编码器-解码器框架[11]具有相似性，采用欧几里得损失。当与诸如交叉熵损失的分类损失相比较时，欧几里德损失难以优化。因此，我们介绍了一些对我们的方法的成功至关重要的贡献。其中包括：（i）帮助支持隐藏层的训练的中途损失项;（ii）将问题链接回CCA的去相关正则化项;（iii）改性的批归一化层;（iv）尺度参数的正则化，其确保方差不会从一个层到下一个层减小;（v）捆绑丢弃方法;以及（vi）用于处理高维数据的方法。综合起来，我们能够提出一种通用的、鲁棒的方法.在一组广泛的实验中，我们提出了明显的优势，无论是经典的和最近的方法。2. 以前的工作典型相关分析（CCA）[14]是一种统计方法，用于计算两个视图到公共空间的线性投影，从而最大化它们的相关性。CCA在许多计算机视觉应用中起着至关重要的作用，包括多视图分析[1]，多模态人类行为分析[39]，动作识别[16]以及将文本与图像链接[18]。有大量的CCA变体，包括：正则化CCA [44]、非参数典型相关分析（ NCCA ） [31] 和核典型相关分析（KCCA）[2，30，4]，一种使用核技巧产生非线性、非参数投影的方法。最近，随机非线性成分分析（RCCA）[32]作为一种低秩近似方法出现。46014602关于KCCA虽然CCA仅限于线性投影，KCCA仅限于一个固定的内核。这两种方法都不能很好地随数据集的大小和表示的大小而扩展。最近提出了一些基于深度学习的方法[3，46，6，34]深度典型相关分析[3]通过两个网络管道处理输入对，并通过CCA损失比较每个管道的结果[48]和[45]扩展到图像和文本匹配的任务。第一个采用与[3]相同的模型和训练过程，而后者在相同的架构上采用不同的训练方案。与[48]和[45]不同，我们提出了一种用于匹配图像和文本的新型深度模型。其他深度CCA方法，包括我们的方法，受到一系列编码/解码无监督生成模型[12，5，28，42，43]的启发，这些模型旨在通过应用非线性编码函数E（x），使用非线性解码函数D（x）解码编码信号并最小化原始输入和解码信号之间的平方L2距离来捕获输入x的有意义表示。out- put。一些基于自动编码器的算法在输入[42，43]上包含噪声，或者使用正则化项[28]强制执行所需的属性。相关网络（CorrNet）[6]和深度正则相关自动编码器（DCCAE）[46]通过考虑两个输入视图和两个输出视图扩展了自动编码器方案。编码在两个视图之间共享（CorrNet）或编码中的差异被最小化（DCCAE）。在这两种情况下，它都是一个共同的瓶颈。我们的模型从一个视图到另一个视图（在两个方向上），而不是从每个视图到重建视图。CorrNet和DCCAE都使用CCA损失。后者的贡献明确指出，L2损失劣于CCA损失项[46]。然而，我们的网络成功地使用了L2。这加强了应用我们在这项工作中提出的方法的必要性，以便能够基于L2损失进行有效的培训。为此，我们引入了基于深度学习常见实践的创新技术，以适应当前的问题。这些技术包括：dropout、batch normalization和leaky ReLU。虽然后者是按原样应用的，但前两者需要针对我们的网络进行仔细修改。Dropout[40]是一种正则化方法，用于通过在每次训练迭代中将一组神经元归零来减少深度神经网络中的过度拟合这种随机消除减少了同一层中神经元之间的共同适应，并模拟了具有共享权重的网络集合的训练批量归一化[37]被用作一种稳定机制，通过将隐藏层的输出缩放到零范数和单位方差来训练神经网络这种缩放降低了神经元之间分布的变化，通过-图1：双向网络模型。每个通道将一个视图转换为另一个视图。提取中间表示以实现相关性最大化这有助于加快培训过程。整流线性单元（ReLU）[33]是一种非线性激活函数，它不受经典S形曲线所受的饱和现象的影响。传统的ReLU零负激活，因此，许多神经元没有产生梯度。因此，ReLU的一些变体被提出[26，9]，它们减少了负激活的影响，但并没有完全归零与[26]类似，与[9]不同的是，我们不训练泄漏参数，而是将其设置为常量值。作为我们的贡献之一，我们添加了一个正则化项，该正则化项去除了学习特征的成对协方差。最近在工作中报告了一个类似的术语[7]，作为分类系统的一部分（与向量之间的建模我们采用他们的术语，描述我们的双向术语。3. 网络模型本节包含我们提出的模型的详细描述，我们称之为双向网1。模型1代码可以在https://github.com/aviveise/www.example.com4603--∈∈◦ ◦◦◦ ◦◦2ǁ −ǁ ǁ − ǁ ǁ −ǁNi=1212K12K2H FH2k−1ǁǁj jN--利用L2损失，以便在两个向量空间之间创建双向映射。没有基于延迟的损失（例如 DeepCCA[3] 和CorrNet[6]）使该模型更简单。与其他回归问题一样，在获得有意义的解决方案方面存在固有的挑战[8]。这些挑战被所执行的回归的多变量和分层结构进一步放大。因此，我们以各种方式修改问题，每种方式都有助于整体成功。3.1. 基本架构我们提出的架构如图所示。1.一、它包含两个重建通道。两个频道都包含k个隐藏层{h，h，...，h}和{h，h，.，h}。让本文引理的证明在附录中给出给定来自视图x和y的一批样本，我们测量两个匹配层的输出之间的相关性，{h，j（x1），...，hj（xn）}，hj（yi），.，hj（yn）作为每个匹配的神经元的激活下面的Lemma扩展引理1，并表明，我们的目标是最大化的相关性的总和是有界的两个表示之间的欧几里得损失的函数。引理2. 给定两个匹配隐层，hj和hj，每个隐层有m个神经元。 ak是来自hj的神经元k的激活向量，具有标准偏差σak，bk是来自h j的k上的神经元r的激活向量，具有标准偏差σdekσ. 每种载体都是通过给一批样品将Hi（x）和H（y）定义为bk处每个通道我第i层分别给定网络输入x和y，优化模型以最小化两者之间的欧核损失。从视图x和y通过通道H和H分别相关性之和C由下式限定：H（y）和x，以及H（x）和y。两个频道共享ΣmΣmσ2+σ2i i i1C≥（akbk）权重和dropout函数，如3.5节所述每个隐藏层的激活计算如下：函数h（x）=Φ（Wx+b）从Rd1到Rd2，其中Kk=12k=11 Σmσakσbk2Σm2−1−1WRd2×d1 是权重矩阵b2rd2是偏置向量和Φ是一个非线性函数，在我们的模型中，-2nk=1ak−bkk=1σakσbkalea k yre c.线性插值单元[26]。约束层被给定为h∈（y）=ΦWTY+b1，并且利用矩阵W的转置和不约束的偏置项b1∈RD1.给定一对视图x∈Rdx和y∈Rdy，创建两个重建：x∈Rdx和y∈Rdy 通过使用两个网络H=h1h2... hk和H=hkhxk−1......这是什么？ h≠1，因为x≠H≠ （y）且y≠H（x）。损耗在x和x之间以及y和y之间测量。更多-上，欧几里德距离也直接在想要的表现。为了做到这一点，我们选择一个中间网络位置j = k/2 k。然后，我们通过考虑两个网络添加一个损失项：Hj= h1<$h2<$.H j，且 Hj=hkhx哦…… 10000+ 1. 然后添加一个损失项从上面的引理，我们可以得出结论，由最小-最小化L2损失以及最大化每个神经元激活的方差将导致相关性总和的最大化解决这个回归问题往往会消除输出表示的方差。为了克服这个限制，我们增加了两个工具。第一个是每个隐藏层之后的批量归一化层[37]（BN）批处理规范化层的设置与常见设置不同，以适应此模型。另一个工具是正则化批量归一化层引入的伽马参数。更多细节可以在下面找到。对于损失项，我们增加了正则化项。的它比较Hj（x）和Hj（y）。总损失由三项Lx=x给出x≠2，Ly=yy≠2，以及Lh=Hj（x）Hj（y）2。注意最小化欧几里得距离不同于最大化如在CCA及其变体DeepCCA [3]和RCCA [32]中所做的那样进行成对相关性。在我们的实验中，为了与以前的工作进行比较，我们使用的相关性作为成功的度量。如下面的引理所示，两个向量的相关性与它们的欧几里得距离之间存在联系，这第一个是重量衰减Rw =W. 第二个reg-为了减少交叉，增加了极化项同一层的网络激活之间的相关性。我们鼓励的属性是基于CCA的解决方案所固有的，其中强制去相关。在我们的网络解决方案中，我们添加了一个软正则化项。在训练过程中，我们考虑单个批次的N个样本{（xi，yi）}i=1，并考虑中间网络激活的集合（H（xi），H（yi））. 解相关卷积项由下式给出：连接还取决于向量的方差。1 .一、R=C−）2002年引理1. 设x∈Rn且y∈Rn表示两对代科夫2小时F1 .一、H2.ΣΣ（二）两个随机变量的n个匹配样本的列表，22460422+−diag C，零均值和σx 而σy 方差然后，阿瓜-两个n维样本x和y之间的距离等于Σ其中Ch=1Hj（xi）是协方差es-σσy2x− yNi12σy+ 2Xσx -2 nσxσy。Hj（x）和Ch的估计器=iHj（yi）Hj（yi）是N4605∩∩+1Hj（y）的协方差估计。当Ch和Ch∞的非对角系数均为零时，该正则化项被最小化。3.2. 批量归一化图层如上所示，为了最大化相关性，我们不仅需要最小化欧几里得损失，还需要增加每个神经元输出的方差这是通过引入一个定制的批量规范化层[37]来满足模型给定激活向量a=[a1，. . . ，ad]由网络的一个隐藏层为给定的一批输入，我们将a归一化以产生a′=[a′，. . . ，a′]，其中和Vi（k）为零，这意味着没有反向传播发生，或者只有一个神经元是活动的，在这种情况下，只有那一侧被更新，并且更新是简单的收缩效应，因为损失是激活的幅度。为了打破这种对称性，我们选择在非线性之后使用BN。这允许网络选择导致大多数正激活的权重，这些权重在ReLU激活单元之后保持为正。3.3. 高度泄漏的ReLU另一种防止归零有害影响的方法Leaky ReLU最初是由[26]引入的，目的是克服1个da′=ak−µk，µk和σ2是由于消除梯度而产生的困难kσkk神经元k在给定的批次上。其次是缩放，通过学习参数进行移位，以产生a"=γka“+βk。来自负激活的神经元在双向网络中-工作，这种效应被放大，我们发现泄漏的ReLU单元K KBN层通过强制执行非常重要从形式上讲，一个泄漏的ReLU是de-单位方差和通过消除权重隐藏层的输出BN层通常放置在非线性或非线性元件之前。罚款为：.yi=xiifx≥0axiifx0作为预处理阶段，[10]。这种设置带来了几个问题。首先，ReLU降低了输出的方差，这与我们的目标背道而驰。其次，在BN之后应用ReLU具有当k低于给定批次中的平均值加上项βk/γk时将每个k归零的效果。通常，βk被初始化为零，并且对于对称激活分布，一半的激活被归零。当采用双向网络时，调零效应在两个方向上都发生。为了估计这种影响的大小，让我们假设我们有一个过程，在时间i 输出两个向量ui=Hj（xi）和vi=Hj（yi），两者都在Rd中，它们是一对样本（xi，yi）在层j处的隐藏表示。用ρk表示神经元k处的激活之间的相关性。设si={k|ui（k）>µk}是ui中大于其总体平均值的值的指数组。设s={k|vi（k）>μk}是向量vi 的等式。我们观察交叉点si，这是一组活跃的神经元，遵循阈值的平均值ui和vi。如下面的引理所示，即使其中α1是泄漏系数，并且在训练和测试期间都是固定的。在我们所有的实验中，我们使用0.3的泄漏系数。该值是在第4节所述的Flickr8k实验的验证集上选择的，并用于所有实验。使用Leaky ReLU有助于减少第3.2节中讨论的影响，但不能取代在非线性之后执行BN的需要。如引理3所示，超过一半的神经元将乘以泄漏系数，而它们的匹配神经元将不乘以泄漏系数。这种不对称缩放增加了匹配神经元之间的人工距离，这反过来又增加了L2损失并降低了训练效率。3.4. 方差注入在每个隐藏层的输出上应用BN是不够的。在训练过程中，方差仍然可以消失。问题在于，由每个BN层引入的γ因子可以是任意的，并且可以在训练期间减小，从而导致变化很大。为了鼓励高变异，我们引入了一个相关性ρk比较高，交集新的正则化项的形式Rγ=j，k（1/γjk）2，设置siS_i更接近于对于随机置换的向量获得的值d/4而不是d/ 2的最大值。引理3. 假设ui和vi是从具有零均值的多元正态分布和一致性协方差矩阵中得出的，使得u i和v i之间的相关性ui<$（k）和vi（k<$）对所有k都是ρk=ρ。，则E（|斯西什什基|）=的其中γjk是层j中神经元k的缩放参数。这个正则化项足以迫使网络避免低方差的解决方案，并寻求更多的信息输出。这在第4节的消融研究中得到了实验证明。我们使用的复合损失项的形式为：sin−1ρd4 2πL=Lx +Ly +Lh +λwRw +λdecov Rdecov +λγRγ即使在相关性高达0.6的情况下，交叉将仅包括约35%的神经元。对于不在这个交集中的神经元k，两边ui（k）其中λw、λdecov和λγ是正则化系数。虽然看起来三个正则化权衡超参数会使选择参数值变得困难，.4606×−−MM√Cult，the converse逆is true真：在我们所有不同的实验组中，λγ=λw，λdecov要么设置为1 / 2的很高的值，要么对于小数据集设置为1/20（见第4节）。此外，通过添加这些项，网络对λw的选择不那么敏感，并允许我们以更高的学习率进行学习。3.5. 并列脱落Dropout[40]是正则化方法的一种形式，它模拟了具有共享权重的多个网络的训练。通过将一批n个样本的由d个神经元组成的隐藏层的输出与大小为d n的随机矩阵B逐元素相乘来丢弃零神经元。B的每一个元素都独立于一个参数为p的伯努利分布。由于dropout消除了随机神经元，因此它防止了神经元的共同适应，这是相关性分析的理想特性然而，在我们提出的模型中使用dropout是有害的。这是因为双向网络旨在增强并行层hj和hj之间的相关性。在隐藏层中独立地消除神经元会造成人为的损失，即使是完美的匹配。设p为层j的dropout参数，假设在两个方向上应用相同的参数。在概率（1p）2中，一对匹配的神经元在两侧都是活跃的在概率p2中，配对的神经元在两侧都是沉默在概率2p（1p）中，只有一个神经元是活跃的，导致对另一个神经元的收缩效应。在这里，激活的收缩也可能是有害的，因为它可能导致恒定的表征状态。对于p = 0的退出概率。5，一半的梯度将源于一场比赛，这是沉默的一方，和有害的影响是清楚地看到在第4节。为了克服这个问题，我们引入了一个绑定的dropout层，其中，相同的随机矩阵Bj被应用于匹配的隐藏层对：hj和hj，j=1. K. 这种共享消除了由传统的丢弃，同时保持随机过程的益处，并有助于避免过拟合。使用绑定dropout层改变了激活的分布。为了在测试时匹配分布，我们在训练时加入了一个比例因子。假设单个神经元的激活是零中心的。如下所述，大多数BN后激活几乎完全居中。在这种情况下，神经元激活的方差只是激活的平方在火车上-ing，只有激活的比率1-p对方差有贡献。因此，我们将激活除以1-p。3.6. 训练高维输入下面显示的一些实验包含高维度数据。高维输入直接增加参数的数量会导致过拟合以及训练时间和存储器使用的增加为了减少参数的数量，我们引入了一种新的层类型我们称之为局部致密层。这种尺寸为n的层由m个不同的致密层h′1，...，每一个都是n大小的。大小为dx的输入x被分成大小为dx的m个不同部分并且每个部分xi连接到致密层之一中嗨。所有内部隐藏层的输出被级联，从而产生局部致密层的输出。对于输出，我们添加一个大小为n的常规偏置项b。与传统的致密层相比，使用该层将参数的数量减少了m倍在下面的实验中，当处理高维输入时，我们使用具有两个内部稠密层的4. 实验我们首先对文献中最常用的两个数据集进行了详细分析，以检查最近的CCA变体：MNIST半匹配和X射线微束语音数据（XRMB）。然后，我们提供了额外的实验图像到句子匹配的问题，显示最先进的结果在Flickr8k，Flickr30k和COCO数据集。4.1. 与已发表结果的比较我们遵循传统的方法来评估CCA变体的性能，并计算发现的前c个共享（规范）表示变量的重复次数之和。用于此比较的数据集是 MNIST 和 XRMB 。在MNIST和XRMB实验中，我们设置λdecov=λW=λγ=0。05.对于训练，我们使用随机梯度下降，学习率为0.0001，每20个epoch减半。使用0.9的动量和0.5的捆绑丢弃概率。MNIST半匹配MNIST手写数字数据集[19]包含60，000张用于训练的手写数字图像和10，000张用于测试的图像。每幅图像被垂直切割成两半，每半有392个特征目标是最大化前c=50个典型变量的相关性。使用的模型由三层组成，尺寸分别为392、50和392，标记为392-50-392。中间层作为输出。X射线微束语音数据XRMB[47]数据集包含同时的声学和发音记录。发音数据被表示为112维向量。声学数据是相同帧的MFCC[24]，在每个时间点产生273维矢量。对于基准测试，30，000个随机样本用于训练，10，000个用于交叉验证，10，000个用于测试。在c=112个顶级相关典型变量中测量相关性。MNIST实验的相同训练配置用于XRMB4607数据集。对于XRMB，我们使用560-280-112-680-1365的隐藏层配置测试了我们的模型选项卡.除了我们提出的方法外，1包含了MNIST和XRMB数据集上六个CCA变体的相关性比较。可以看出，我们的方法（在MNIST数据集上，其中文学结果更接近最大值50，我们的方法能够恢复剩余相关性的一半。方法MNISTXRMB正则化CCA[44]28.016.9DCCA[3]39.792.9RCCA[32]44.5104.5DCCAE[46]25.3441.47CorrNet[6]48.0795.01[31]第三十一话NA107.92WayNet49.15110.18表1：XRMB和MNIST数据集上各种方法之间的比较。报告的值是两个视图的学习表示之间的相关性遵循文献，在这些基准中，MNIST采用50D共享表示空间，XRMB采用112D共享表示空间。4.2. 图像注释和搜索接下来我们在句子-图像匹配任务上评估所提出的模型。在这个任务中，每个数据集包含一组图像和每个图像的五个匹配句子。对于每个数据集，我们在两个任务上测试我们的模型，搜索给定查询句子的图像和匹配给定图像的句子。我们在三个数据集上衡量我们的表现，Flickr 8 k[13]， Flickr 30 k[49]和COCO[22]，每个数据集都包含-分别为8,000、30,000和123,000张图像图像由VGG网络的表示层[38]表示为大小为4096的向量。句子使用[18]的公开代码表示。在可用的文本编码中，我们采用了Fisher矢量编码（GMM）和[18]中介绍的HGLMM分布的Fisher矢量的级联。因此，每个句子都表示为36，000 D矢量。从图像到更大的句子表示，我们训练的网络包含两个大小为2000和3000的传统隐藏层，以及一个额外的16000个神经元的局部密集层，对于 Flickr30k 和 COCO 数据集， m=2 对于Flickr8k，由于数据集相对较小，我们使用了4000个神经元的密集层。相关性被用作图像和句子之间的相似性度量。为此，我们使用来自每个通道的中间网络输出，得到大小为3000的表示向量。Flickr8k数据集提供了训练、验证和测试分割。对于Flickr30K和COCO，没有拆分我们用同样的方法，也用同样的方法，用同样的方法。λdeconv被设置为1/2的值，这几乎消除了中间层处的所有非对角协方差。其他参数的设置与MNIST和XRMB实验相同。选项卡. 2将我们的结果与图像-句子匹配任务的最新方法进行比较。我们还报告了RCCA方法计算的结果[32]。各种深度CCA方法的开放实现似乎不足以扩展此基准。我们提出的方法几乎在所有分数上都实现了最佳性能，特别是在图像注释任务中，我们对三个数据集进行了大幅改进，特别是在考虑最高结果（r@1）时。4.3. 消融分析我们进行了消融分析，旨在隔离各种建筑新奇的建议的影响。实验在 Flickr8k 、 Flickr30k 、 MNIST 和XRMB数据集上进行。每个实验使用基线配置，只有一个交替。批量归一化对于该实验，我们对BN层使用不同的设置。配置设置包括：（1）没有BN，（2）使用常规BN（在ReLU之前），而没有正则化γ，（3）使用ReLU后BN，而没有正则化γ，（4）在ReLU之前使用BN，λγ=0。05，以及（5）我们提出的方法：BN仅在λγ = 0的ReLU之后应用。05.选项卡. 3报告各种配置在验证集上所有特征的相关性和平均方差方面作为Tab。3表明，批量归一化对网络的结果有着深远的未经批量归一化的结果以较低的学习率进行训练，使用较高的学习率防止训练收敛。我们还可以看到，使用1/γ正则化项显著增加了隐藏表示的方差，这反过来又稳定了训练过程并提高了相关性。第3.2节中研究的效果在消融研究中清晰可见，将BN层定位在泄漏ReLU之后可防止不平衡表示，如方差差异所示，这显著增加了两种表示的相关性。选项卡. 4包含Flickr8k数据集上相同实验的r@1结果在Tab。3我们建议的配置达到了基本召回率。我们训练了上面描述的相同的基础配置。我们还测试了我们提出的方法，使用传统的辍学和没有辍学。在所有实验中，脱落概率p设定为0.5。可以看出，当使用传统的dropout而不是所提出的绑定dropout层时，性能下降。绑定dropout层的好处在大型数据集Flickr8k和Flickr30k上最为显著，因为这些数据集可能会出现第二节中讨论的收缩效应4608模型Flickr8kFlickr30kCoco搜索注释搜索注释搜索注释r@1r@5r@1r@5r@1r@5r@1r@5r@1r@5r@1r@5NIC[35]19.0NA20.0NA17.0NA17.0NANANANANASC-NLM[17]12.537.018.040.916.842.023.050.7NANANANAm-RNN[27]11.531.014.537.222.850.735.463.829.042.241.073.0m-CNN[25]20.347.624.853.726.256.333.664.132.668.642.873.1DCCA[48]12.731.217.940.312.631.016.739.3NANANANA[第15话]NANANANA15.237.722.248.227.460.238.469.9RNN-FV[20]23.253.331.661.227.455.935.962.530.265.040.975.0VQA-A[23]17.242.824.352.224.952.633.962.537.070.950.580.1NLBD[45]NANANANA29.760.140.368.939.675.250.179.7[第18话]21.350.131.059.323.552.835.062.125.159.839.467.9RCCA[32]18.731.111.719.222.734.228.348.2NANANANA2WayNet29.349.743.463.236.055.649.867.539.763.355.875.2表2：Flickr8k，Flickr30k和COCO图像到句子匹配基准的召回率。在图像搜索中，我们显示了所有测试图像中最高检索的正确匹配百分比（r@1表示搜索）。在图像标注中，给定查询图像，提取五个匹配句子中的一个被认为是成功的。前五名的召回率（r@5）表示成功匹配存在于前五个结果中的任何一个中的情况针对正则化CCA、RCCA和我们的双向网络报告的实验句子被表示为[18]的GMM-FV和HGLMM-FV表示的级联。.图像如[18]中所示。场景Flickr8kFlickr30kMNISTXRMBCorrVar x瓦尔伊CorrVar x瓦尔伊CorrVar x瓦尔伊CorrVar x瓦尔伊建议方法17580.650.6421350.410.4349.151.321.27110.181.081.06无BN14821 .一、901 .一、7115621.381.4013.140025.5800在ReLU之前，λγ=013130.660.4413850.370.2848.400.180.18107.550的情况。150的情况。15ReLU之后，λγ=015981.341.2516550.730.7448.980.380.37109.420.400.39在ReLU之前，λγ>014230.330.2113221.800.9648.760.730.72108.790.500.50无脱落10910.340.3314460.570.5249.001.331.33109.690.790.79传统辍学15570.170.1716580.120.1448.771.901.9093.240.240.16表3：Flickr8k、Flickr30k、MNIST和XRMB数据集上的消融研究，测试各种批次归一化（BN）、方差正则化和丢弃选项。我们测量两个视图X和Y的方差（平均所有维度的方差）以及获得的相关性。建议的方法是仅在λ γ = 0的ReLU之后应用BN。05.第05章被绑起来了所有BN变体均采用概率为0.5的捆绑脱落。所有dropout变体应用BN类似于建议的方法。场景搜索r@1注释r@1建议方法29.343.4无BN21.125.6在ReLU之前，λγ=026.939.6ReLU之后，λγ=027.940.9无脱落25.6436.6传统辍学29.0442.1表4：Flickr8k上与Tab.3.第三章。问题3.5是清晰可见的并且表现为基于常规丢弃的模型的输出4609相比之下，当使用捆绑丢弃时，方差更高。Leaky ReLU我们还测试了其他参数对模型性能的贡献。其中一个主要的好处是使用Leaky ReLU非线性。使用传统的ReLU导致Flickr8k的相关性损失约为33%（1192个总相关性）。损失术语我们测试的另一个方面是各种损失术语对相关性和召回率的影响。去除Lh项导致相关性降低31%这解决了引理2，引理2将输出的相关性和Lh损失项联系起来当Lh损失增加输出去除它们两者可增加56%（2752）。当产生的相关性是-4610在没有两个反射损失的情况下，两个视图之间的距离更高，每个表示的维度高度相关，导致图像搜索降低87%，图像注释性能降低91%，如通过recall@1：从29.3的完整方法的性能和43.4对于图像搜索和图像注释的任务，4.0分别为3.9。正则化Rγ的影响见表1。3. 去除Rdecov会导致所有测量值的减少。图像搜索结果r@1和r@5分别下降了14%和10%，图像注释结果r@1和r@5分别下降了10%和8%。此外，相关性降低了4%。局部密集层为了测试所提出的局部密集层的效果，我们在Flickr30k上训练了我们的模型，使用了相同大小的常规密集层（16000个神经元）和一半大小的常规密集层。当使用传统的16000个神经元密集层时，图像标注r@1（r@5）结果下降7%（3%），图像搜索下降1%（1%使用一半大小的密集层会导致图像注释率r@1（ r@5 ）下降 13% （ 9% ），图像搜索召回率 r@1（r@5）下降11%（8%参数灵敏度：图2（a）显示了不同泄漏系数值对MNIST和XRMB数据验证集上测量的相关性的影响集.结果是通过使用范围在0和0.7之间的泄漏系数可以看出，存在提供比传统零泄漏ReLU更好的性能的大范围值。图2（b）示出了控制BN层的学习方差的正则化权重λγ在我们的实验中使用的值似乎是有益的，并位于一个相对较宽的高性能平台。5. 结论在本文中，我们提出了一种方法连接成对的样本从两个来源。该方法显着优于所有的文献方法，在高度适用和良好的研究领域的相关性分析，包括经典的方法，其现代的变体，和最近的深相关方法。我们的独特之处在于，我们采用了一个捆绑的2路架构，重建，与大多数方法不同，我们采用了欧几里得损失。为了促进有效的训练，我们引入了一系列的贡献，旨在保持学习表征的方差。这些修改中的每一个都提供了解释其作用的分析，它们一起携手合作，以提供高度准确的完整架构。我们的方法是通用的，可以在任何计算机视觉领域，其中两个数据模态使用。此外，我们的贡献也可以帮助训练单变量回归问题。在文献中，铕亏损经常与其他亏损相结合[36，50]，99九十八598九十七59700。10.20304050607α（一）99九十八598九十七597九十六。59600的情况。1 0的情况。2 0的情况。3 0的情况。4 0的情况。50的情况。6 0的情况。7 0的情况。8 0的情况。9 1λ（b）第（1）款图2：（a）泄漏参数对MNIST和XRMB基准的影响，使用相关性总和除以维度（百分比）在验证集上测量。红色实线表示MNIST结果;黑色虚线表示XRMB结果。（b）显示系数λγ影响的类似图。或者用另一种损失来代替[21]，以减轻训练回归问题的挑战。我们的变化注入方法可以很容易地纳入任何现有的网络。作为未来的工作，我们想继续探索使用绑定的双向网络匹配来自不同领域的意见。在几乎所有经过训练的网络中，解决方案中批量归一化层的偏差往往具有非常低的值。这些偏见可能会被完全消除。此外，在许多编码器/解码器方案中，在训练期间逐渐添加层。我们的框架可以采用这样的方案，在网络中间一个接一个地添加隐藏层。XRMBMNISTXRMBMNIST相关性%相关性%4611致谢这项研究得到了英特尔计算智能合作研究所（ICRI-CI）的支持4612引用[1] 哈尔·道姆三世雅各布斯·阿布舍克·夏尔马，库马尔·阿布舍克.广义多视图分析：一个有区别的潜在空间。 IEEE 计算机视觉与模式识别会议（CVPR），2012年。[2] 赤穗正太郎典型相关分析的核方法。arXiv预印本cs/0609071，2006年。[3] Galen Andrew ， Raman Arora ， Karen Livescu ，and Jeff Bilmes.深度典型相关分析。国际机器学习会议（ICML），2013年。[4] 弗朗西斯·巴赫和迈克尔·乔丹。核独立分量分析.JournalofMachineLearningResearch（JMLR），3（Jul）：1[5] Yoshua Bengio、Pascal Lamblin、Dan Popovici和Hugo Larochelle。贪婪的深度网络分层训练。神经信息处理系统（NIPS），2007年。[6] 作者： Sarath Kazar ， Mitesh M. Khapra ， HugoLarochelle，and Balaraman Ravindran.相关神经网络。Neural Computation，28（2）：257[7] 放大图片作者： Michael Cogswell ， FarukAhmed ， Ross B. Girshick ， Larry Zitnick ， andDhruv Batra.通过解相关表示减少深度网络中的过拟合。arXiv预印本arXiv：1511.06068，2015年。[8] 李飞飞和安德烈·卡帕西。斯坦福大学的cs231n课堂笔记。 http://cs231n.github.io/neural-networks-2/，2015年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun.深入研究整流器：在imagenet分类上超越人类水平的性能。2015年国际计算机视觉会议（ICCV）。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun.深度剩余网络中的身份映射。arXiv预印本arXiv：1603.05027，2016。[11] Geoffrey E Hinton和Ruslan R Salakhutdinov.用神经网络对数据进行降维。Science，313（5786）：504[12] 杰弗里·E Hinton和Richard S.泽梅尔自动编码器、最小描述长度和亥姆霍兹自由能。神经信息处理系统（NIPS），1994年。[13] Micah Hodosh，Peter Young，Julia Hockenmaier.将图像描述成帧作为排名任务：数据、模型和评估指标。 JournalofArtificialIntelligenceResearch，47：853[14] 哈罗德 · 霍特林两组变量之间的关系。Biometrika，28（3/4）：321[15] Andrej Karpathy和Fei-Fei Li。用于生成图像描述的深度在 IEEE 计算机视觉和模式识别会议（CVPR），2015年。[16] 金泰均和罗伯托·西波拉用于动作分类和检测的视频音量张量典型相关分析。 Transactions onPatternAnalysisandMachineIntelligence（TPAMI），31（8）：1415[17] Ryan Kiros，Ruslan Salakhutdinov，and Richard SZemel.统一视觉语义嵌入与多模

下载后可阅读完整内容，剩余1页未读，立即下载