可解释结构演化LSTM网络方法及其在数据表示学习中的应用

4 浏览量更新于2023-10-16 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1可解释结构演化LSTM梁晓丹1，2梁琳2，5沈晓辉4冯佳诗3闫水成3孙耀威。邢11卡内基梅隆大学2中山大学3新加坡国立大学4Adobe Research5商汤科技集团有限公司xiaodan1@cs.cmu.edu，linliang@ieee.org，xshen@adobe.com，elefjia@nus.edu.sg，eleyans@nus.edu.sg，epxing@cs.cmu.edu摘要本文开发了一个通用框架，用于通过分层图结构上的长短期记忆（LSTM）递归神经网络来学习可解释的数据表示。我们建议在LSTM网络优化过程中，以渐进和随机的方式从数据中进一步学习中间可解释的多级图结构，而不是在预先固定的结构上学习LSTM模型。因此，我们将这种模型称为结构演化LSTM。特别地，从每个节点是小数据元素的初始元素级图形表示开始，结构演进LSTM通过沿着堆叠的LSTM层随机合并具有高兼容性的图形节点来逐渐演进多级图形表示。在每个LSTM层中，我们根据两个连接节点对应的LSTM门输出来估计它们的兼容性，这用于生成合并概率。相应地生成候选图结构，其中节点被分组为具有其合并概率的团。然后，我们用Metropolis-Hasting算法产生新的图结构，该算法通过具有接受概率的随机抽样来消除陷入局部最优的风险。一旦一个图结构被接受，一个更高级别的图，然后构造通过分区集团作为其节点。在演化过程中，表示在更高的层次上变得更加抽象，其中冗余信息被过滤掉，从而允许更有效地传播长距离数据依赖关系。我们评估了结构演化LSTM在语义对象解析应用中的有效性，并在标准基准测试中展示了其相对于最先进LSTM模型的优势1. 介绍最近，人们对开发各种长短期记忆（LSTM）的兴趣激增。本文作者为梁琳。本工作得到了国家自然科学基金项目（批准号：）的资助. 61622214。神经网络用于对顺序和多维数据内的复杂依赖性进行建模，这是由于它们在诸如语音识别[10]、图像生成[29]、图像到字幕生成[33]和多维图像处理[15]的广泛应用中的优势。尽管取得了显着的成功，但现有的LSTM模型，如链结构的LSTM模型[10] [33]，树结构的LSTM模型[37，26]和图结构的LSTM [18]只能处理具有内部信息传播路径的预先固定结构的数据因此，它们在处理包含复杂多水平相关的数据例如，人类社会网络的结构本质上是分层的，其中每个个体是几个社区的成员，范围从小（例如，家庭、朋友）到大的（例如，如学校和企业）。对于另一示例，图像中的语义对象解析可以受益于对不同级别中的区域之间的上下文依赖性进行建模，其中小区域上的较低级别图表示可以保留局部和精细对象边界，而较大连贯区域上的较高级别图捕获更多语义交互。因此，为了很好地抽象这些数据的多层次表示，需要将数据结构演化与LSTM参数学习相结合。在这项工作中，我们寻求一个通用的和可解释的框架，用于在动态学习的多级数据结构上通过LSTM网络表示数据，其中分层的内在表示是同时从数据中学习的，同时通过LSTM单元对长期依赖性进行编码。由于许多重要的问题都可以从图数据中学习（树结构可以被视为一个特定的图），我们的结构进化直接研究了初始任意图结构上的层次表示学习。然而，由于动态层次图的任意节点数、无序的节点布局和多样的概率图边，学习动态层次图比方便的层次卷积神经网络更具挑战性。为了学习数据的中间可解释图结构并减轻过拟合问题，10101011图1. 说明了所提出的结构演化LSTM模型的结构演化过程。从初始图G（0）开始，结构进化LSTM学习用随机和自底向上的节点合并过程来进化分层图结构，然后遵循随机节点更新方案在这些生成的多级图拓扑上传播信息我们设计随机算法来对图结构进行采样（即，图节点的分组），并以自下而上的方式逐步构建多级图表示。因此，我们将我们的模型命名为结构演化LSTM。与现有的具有预先固定的链[10] [33]，树[37，26]或图拓扑[18]的LSTM结构相比，结构演化LSTM具有使用动态演化的分层图拓扑来捕获嵌入在数据中的多级固有相关性来建模远程交互的能力如示于图1，结构演化LSTM通过随机和自底向上的节点合并过程逐渐演化多级图表示，从初始图开始，其中每个节点表示一个数据元素，每两个相邻节点通过边链接。为了能够学习可解释的分层表示，我们建议在每一步由全局优势奖励引导逐步合并不同的图节点。因此，由合并的图节点和更新的图边缘组成的新的图由随机策略生成，该随机策略不仅确保从先前的图到新的图的较少开销的图转换，而且还确保区分能力。具体地，对于两个连接的节点，它们的合并概率是从LSTM单元中的自适应遗忘门输出估计的，指示两个节点倾向于合并成团的可能性（即，在更高级别图处的节点）。然后通过设计Metropolis-Hasting算法生成图结构[2，28]。具体地说，该算法通过对一些图节点的合并概率进行采样来随机合并它们，并产生新的图结构（即，一组划分的集团）。根据定义为接受概率的全局奖励，进一步检查和确定该结构在这种随机采样范例下，接受概率涉及两项：i）状态转移概率（即，合并概率的乘积）; ii）后验概率，其表示所述后验概率的相容性。生成具有特定任务观察的图形结构。直观地说，这种全局奖励因此鼓励结构进化步骤，其最好不导致巨大的图移位（即，只有非常少的边是合并的），并且还可以帮助提高目标特定的性能。一旦一个新的图结构级别被进化，LSTM层将按照随机更新方案沿着生成的图拓扑广播信息，以便在所有节点上实现全局推理。反过来，更新后的LSTM门输出会导致图节点的合并概率，用于后续的图结构演化。我们的模型不是受到每个LSTM单元中所有相邻节点的同等影响，而是在更新某个节点的隐藏状态时学习每个相邻节点的这种自适应方案在两个图节点之间传达语义上有意义的交互方面具有优势。然后，通过端到端方式的反向传播来更新网络参数我们利用结构演化LSTM模型来处理基本的语义对象解析任务，并通过实验表明，结构演化LSTM在三个对象上优于其他最先进的LSTM结构解析数据集。2. 相关作品长短期记忆（LSTM）递归网络首先被引入以解决顺序预测任务[11，25，33，14，8，16]，然后扩展到多维图像处理任务[4，27]，如图像生成[29，27]，人物检测[24]，场景标记[3]和对象解析[19]。它可以通过训练适当的门控权重来保持长期记忆，并在实践中证明了对一系列问题的有效性[4，3]。对于图像处理，在每个LSTM单元中，每个像素的预测被设计成受固定因子分解（例如，2或8个相邻像素[15][9][19]或对角邻域[29][27]）。最近，Tree-LSTM [26]引入了树结构拓扑结构，用于1012我我IJJ我J0.30.30.20.80.10.20.30.30.30.40.70.40.70.10.40.90.30.10.50.20.50.30.20.70.2图2.说明将较低级别的图演化为较高级别的图的随机结构演化步骤给定所有节点的合并概率，我们的结构进化步骤需要多次尝试来进化一个新的图，直到新的图被接受概率评估。通过随机合并具有高预测合并概率的两个节点来生成新的图，从而产生新的边通过考虑图的转移代价和新图带来的优势鉴别能力来计算接受概率预测句子的语义表示。Graph LSTM [18]已经被提出来在基本预定义的图拓扑上传播信息，以捕获不同的自然视觉相关性（例如，局部边界和均匀区域）。然而，不同模态中的复杂模式通常嵌入层次结构，代表节点之间不同程度的相关性。不同于在复杂的LSTM中使用预定义的数据结构[15，9，19，18，27]，所提出的结构进化LSTM的目标是通过从初始图结构进化来自动学习复杂的图表示。通过这种方式，可以学习内在的多级语义抽象，然后用于通过LSTM单元来增强多尺度推理。结构演化LSTM（Dynamic Evolving）段）和边缘。每个节点v0∈V（0），{i∈1，···，N0}由从具有D维的底层CNN模型学习的深度特征f（0）基于LSTM门输出和前一个第t层LSTM中的图G（t），结构进化LSTM然后学习更高的水平图结构G（t+1）=，用于第（t+1）层中的信息传播。学习新的图结构并更新LSTM参数-因此，交替地执行多个参数，并且以端到端的方式训练网络参数。3.1. 基本LSTM单元给定动态构造的图结构G（t），第t个结构演进LSTM层确定包括隐藏状态ht的每个节点的状态vt，并且多层次图）优于最相关的图itiLSTM [18]（一个预先固定的单层图）在两个方面：1)结构进化LSTM学习更强大的表示，因为它逐步利用堆叠LSTM层的分层信息; 2）在其后期层，结构演化LSTM捕获了每个节点的存储器状态Mi和两个节点的边概率Pt，用于演化新的图结构。每个节点的状态受其先前状态和连通图节点的状态的影响，以便将信息传播到所有节点。因此，LSTM单元的输入由节点vt的输入状态ft组成，其先前的隐藏状态期望的输出受益于更高级别的图拓扑结构。这些优势带来了显著的改善-状态h （t−1）我我以及存储器状态M我（t−1）我而隐藏的，在几个语义解析数据集上的注释，与[18]进行了比较。我们的工作旨在开发一种新的和通用的基于图进化的学习方法，以学习更强大的Graph LSTM或其他RNN模型。设计新的Graph-LSTM单元不在本文的范围内。我们使用Graph-LSTM作为运行示例，这绝不意味着我们的方法仅限于Graph LSTM。3. 结构演化LSTM图1展示了所提出的结构演进LSTM网络架构。假设初始化的图数据表示为G（0）=∈E可以方便地学习和使用，G结构演化LSTM 结构演化LSTM由五个门组成：输入门G u、for-get门Gf、adaptive_ve_forget门Gf、存储器门G c、输出门G o和边缘门P。1是指示器功能。We指示循环边缘门权重参数。Wu、Wf、Wc、Wo是针对输入fea指定的递归门权重矩阵生成新的高级图结构G（t+1），第（t+1）层，详见第3.2节。在训练期间，通过近似于用于特定任务的最终图结构（诸如用于图像解析的最终语义区域的连接）来监督图边缘的合并概率。反向传播用于训练所有权重度量。3.2. 可解释结构的演变而U u，U f，U c，U o是每个节点。Uun，Uf n，Ucn，Uon是权重参数给定图结构G（吨）=V<（t），E（吨）>所有为相邻节点的状态指定。结构演化LSTM单元通过使用当前节点的输入状态及其隐藏状态来为不同的相邻节点指定不同的遗忘门，定义为g<$f，j∈N（t）（i）. 这导致了不同的影响，估计概率{pij}，i，j>∈E（t ），则高层次图结构G（t+1）可由随机演化通过对图中节点的归并，并以一个接受概率进行检验，如图1所示二、具体地，通过以合并概率合并一些图节点来构造新的图节点G（t+1）因为没有威慑力-更新的存储器状态mt+1上的相邻节点，以及隐藏状态ht+1。合并概率p我Ij每个从初始图到最小图的过渡路径最后一个问题是，枚举所有可能的G（t+1）是困难的。图节点对∈ E（t）是通过用权重矩阵We对用于得到的gatef的适配iv e加权来计算的。直觉上，自适应遗忘门是用来识别不同节点对的区别相关性，例如，一些节点具有比其它节点更强的相关性。因此，合并概率为每一对估计自适应for-get门的图进化。新的隐藏状态、隐式状态和边缘门（即，图G（t）中的每个连接的节点对的合并概率可以计算如下：用于在大搜索空间内进行评估。因此，我们使用一个随机机制，而不是一个确定性的找到一个好的图形转换。这样的随机搜索方案在减轻陷入坏的局部最优的风险方面也是有效的。为了找到两个图G（t）和G（t+1）之间的更好的图转换，从图G（t）到图G（t+1）的转换的接受率由Metropolis-Hastings方法定义[2，28]：α（G（t）→G（t+1））= min（1，gu=δ（W uft+U uht−1+U unh<$t−1+bu），（t+1）→G（t）（t+1）（三）我我我q（G）P（G|I; W, U)g<$f=δ（W fft+Ufnht−1+bf），q（G（t）→G（t+1））P（G（t）|I;W，U））。i jijgf=δ（Wfft+Ufht−1+bf），我我我其中q（G（t+1）→G（t））和q（G（t）→G（t+1））de-go=δ（W oft+U oht−1+U onh<$t−1+bo），我我我gc=tanh（W cft+U cht−1+U cnh<$t−1+bc），（1（q=1）g<$fmt+1（q=0）g<$ fmt−1）注意图状态转移概率，一图到另一个，和 P（G（t+1）|I;W，U）和P（G（t）|I; W，U）表示后验概率，m=j∈NG（i）jijjij j（t+1）（吨）i，t|N(t) (i)|图结构G和G分别表示。典型地，GP（G（t）|假设I; W，U）遵循吉布斯分布+gfmt−1+gugc，1（t）我我我Zexp（−L（F（I，G，W，U），Y）），其中Z是部分-ht= tanh（gomt）（吨）Σ1014IJIJ我我我函数F（I，G，W，U）是网络预测，t=δ（W ef）。（二）Y是任务特定的目标，L（·）是对应的损失函数例如，Y可以是分割p1015IJIJp.IJ我图3.分割网络架构概述，该架构采用结构进化LSTM层进行图像域中的语义对象解析。基于基本卷积特征图，五个结构演进LSTM层被堆叠以在随机生成的多层图结构上传播信息（即， G（0），G（1），G（2），G（3），G（4）），其中G（0）被构造为超像素邻域图. 卷积层被附加在所有LSTM层上以产生多尺度预测，然后将其组合以生成最终结果。是图像解析任务的pixel-方向交叉项损失该模型更有可能接受新的图结构G（t+1），其可以带来更显著的性能改进，P（G（t+1）|I;W，U）P（G（t）|I;W，U）。图状态转移概率比率计算如下：预测损失和所有层的预测合并概率的损失。为了确保一个良好的学习结构，我们采用全局优势奖励来指导节点合并操作，以从前一个图进化出新的图。全局优势奖励不仅确保了从先前图到新图的较少开销的图转换和优势区分能力，q（G（t+1）→G（t））∝QQi，j>∈E（t+1）（1−（1−pt））新的图表带来的问题。在测试期间，学习结构的质量因此可以由学习结构q（G（t）→G（t+1））∈E（t） Y=（1−（1−pt））tij（四）合理的边缘概率4. 实验∈E（t）\E（t+1）因此，通过将G（t）中消除的边缘的所有合并概率相乘来计算状态转移概率。这意味着图G（t）中合并概率{pt}越大的图节点越容易被合并到图G（t+1）中.在测试过程中，接受率仅由方程中的图状态转移概率确定4.第一章启用完成图形结构探索在每个步骤中的指定时间表内，我们可以经验地设置采样试验的上限，比如在我们的实验中为50。在第（t +1）个结构演化LSTM层中，沿着新的图拓扑G（t+1）=< V（t+1），E（t+1）>在具有随机节点更新序列的所有节点上执行信息传播。输入状态对于每个节点vt+1∈Vt+1，f t+1通过平均产生所提出的结构进化LSTM旨在提供一个原则性框架来动态学习高层数据结构，这适用于各种任务（例如，自然语言理解和图像内容理解）。然而，在所有这些应用程序中，语义对象解析任务需要通过考虑不同像素，超像素或部分之间的复杂相互作用来产生逐像素标记，这是一个完美的匹配，可以更好地评估我们的结构进化LSTM的结构生成我们动态演化的层次图结构可以有效地捕捉多层次和不同的上下文依赖关系。因此，我们评估了所提出的结构演化LSTM模型在语义对象解析任务上的有效性（即，将所述图像中的对象分割成其语义;我我G（t）中所有对应的合并节点的那些。类似地，vt+1的隐藏和存储器状态被平均并用于进一步更新。结构演进LSTM单元的权重矩阵被所有具有生成的分层图表示的堆叠层共享，这有助于提高网络参数在感知多级语义抽象方面的能力训练结构进化LSTM的最终损失包括最终任务相关的tic部分），其中利用多级图形表示对于图像内容来说是非常自然的，并且对于最终的解析结果是有用的4.1. 语义对象解析任务我们将对象解析任务作为我们的应用程序 sce-nario，其目的是为每个图像生成逐像素的语义部分分割，如图所示3 .第三章。该ini-1016我表1.在PASCAL-Person-Part数据集[7]上使用几种最先进的方法以及结构演化LSTM模型的其他变体比较语义对象解析性能，包括使用不同的LSTM结构，提取的多尺度超像素映射和具有不同阈值的确定性策略。方法头躯干u形臂l形臂u形腿l形腿包装平均值DeepLab-LargeFOV [5]78.09 54.02 37.2936.85 33.73 29.61 92.85 51.78DeepLab-LargeFOV-CRF[5]80.13 55.56 36.4338.72 35.50 30.82 93.52 52.95HAZN [32]注意事项[6]80.79 59.11- -43.05-42.76-38.99-34.46 93.59- -五十六点三十九分Grid LSTM [15]81.85 58.85 43.1046.87 40.07 34.59 85.97 55.90行LSTM [29]82.60 60.13 44.2947.22 40.83 35.51 87.07 56.80Diagonal BiLSTM [29]82.67 60.64 45.0247.59 41.95 37.32 88.16 57.62LSTM [19]82.72 60.99 45.4047.76 42.33 37.96 88.63 57.97图LSTM [18]82.69 62.68 46.8847.71 45.66 40.93 94.59 60.16Graph LSTM（多尺度超像素映射）[18]83.93 64.67 48.7949.44 46.57 41.38 92.36 61.02结构演化LSTM（确定性0.5）82.93 62.59 46.9148.06 44.73 40.39 91.77 59.63结构演化LSTM（确定性0.7）66.1649.9048.24 48.29 44.13 94.53结构演化LSTM（确定性0.9）83.52 64.17 48.39 49.02 46.26 42.20 93.36 60.99结构演化LSTM82.8967.1551.4248.72 51.72 45.91 97.18在使用SLIC [1]通过图像过分割获得的超像素上构造图G（0），如下[18]。每个超像素指示一个图形节点，并且每个图形边缘连接两个空间相邻的超像素节点。输入图像首先通过卷积层的堆栈以生成卷积特征映射。通过对属于同一超像素节点Vi的所有像素的卷积特征求平均来计算每个图节点Vi的输入特征f。。然后堆叠五个结构进化的LSTM层，通过自下而上的过程将一些节点随机分组为具有连贯语义含义的大节点来为了确保第一个LSTM层的输入状态数与后续层的输入状态数兼容，所有LSTM层中的隐藏状态和记忆状态的维度都设置为与LSTM堆栈之前的最后一个卷积层的特征维度相同。后一个预测层与几个1×1卷积滤波器产生所有标签的置信图。在火车上-ing，我们使用在所有超像素上定义的groundtruth语义边缘图具体地，仅当两个图节点属于相同的语义标签时，才将它们的地面实况合并概率设置为1。L2范数损失用于反向传播。在所有预测层上采用交叉熵损失来产生最终的解析结果。4.2. 数据集和实施详细信息数据集：我们在三个具有挑战性的图像解析数据集。PASCAL人体部位数据集[7]集中于PASCALVOC 2010图像上的人体部位分割。其语义标签包括头部、躯干、上/下臂、上/下腿和一个背景类。1，716张图像用于训练，1，817张用于测试。Horse-Cow解析数据集是[30]中介绍的部分分割基准。它包括294个训练图像和227个测试图像，每个像素被标记为头部，腿部，尾部或身体。第三个任务，人工解析的目标是用18个标签预测每个像素：脸、太阳镜、帽子、围巾、头发、上衣、左臂、右臂、腰带、裤子、左腿、右腿、裙子、左脚鞋、右脚鞋、包、连衣裙、空。最初，ATR数据集中包含7，700张图像[17]，其中6，000张用于训练，1，000张用于测试，700张用于验证。 10，000张图片进一步收集通过[20]来覆盖具有更具挑战性的姿势和服装变化的图像。评价指标：在PASCAL-Person-Part数据集和Horse-Cow解析数据集上采用标准的交集（IOU）标准和逐像素精度进行评估，如下[7]。我们使用与[17，20]中相同的评估指标来评估人类解析数据集，包括准确度，平均精度，平均召回率和平均F-1得分。网络架构：为了与[5，32，6]进行公平比较，我们的网络基于公开可用的模型 DeepLab-CRF-LargeFOV”[ 5 ] ，用于 PASCAL-Person- Part 和 Horse-Cow解析数据集，该数据集将VGG-16 net [ 23 ]稍微修改为FCN [ 22 ]。Co-CNN训练：SLIC过分割方法[1] gen-每幅图像平均生成1,000个超像素的1017表2.使用不同数量的结构演化LSTM层的性能比较设置1层2层3层4层结构演化LSTM（完整版）平均IoU58.1960.2362.5963.1863.57表3.使用不同层次的图结构进行预测的性能比较设置1级2级3级4级5级结构演化LSTM（完整版）平均IoU57.1961.2960.1359.8759.2363.57表4.在Horse-Cow对象解析数据集上比较五种最先进方法的对象解析性能[30]。马方法Bkg头体腿尾Fg IOU Pix.AccSPS [30] 79.14 38.85 - 68.63 - 81.45HC [12] 85.71 57.30 77.8851.9337.10 78.84 61.98八十七点一八联合国[31] 87.34 60.02 77.5258.3551.88 80.70 65.02八十八点四九我们的92.5174.8987.5571.9357.4588.7676.87 93.45牛方法Bkg头体腿尾Fg IOU Pix.AccSPS [30] 78.00 40.55 61.65 36.32 - 71.98 - 78.97[12] 2016年12月 55.18 72.7542.0311.04 77.04 52.5784.43美国[31] 58.04 76.0451.1215.00 82.63 57.18八十七LSTM [19]89.71 68.43 82.4753.9319.41 85.41 62.79九十点四十三表5. 在ATR数据集上进行评价时，与最先进方法的性能比较[17]。在[20]之后，我们还将[20]中的额外10，000张图像作为额外的训练图像，表示为“我们的（更多数据）”。在ATR数据集上进行评估时，将人类解析性能与七种最先进的方法进行比较。方法Acc.F.G.平均值前平均值召回平均值F-1评分84.3855.5937.5451.0541.8088.9662.1852.7549.43美国有线电视新闻网[21]73.9864.5665.17[17]2011年12月71.0471.6960.25美国有线电视新闻网（CNN）[20]95.2380.9081.5574.4276.95美国有线电视新闻网（CNN）九十六点零二分83.5784.9577.6680.14[19]2016年10月28日84.7984.6479.4380.97LG-LSTM（更多）[19] 96.8587.35 85.94 82.79 84.12CRFasRNN（更多）[36] 96.3485.10 84.00 80.70GraphLSTM97.6091.4284.7483.28GraphLSTM（更多） 97.9993.0688.8187.8088.20HAZN [32] 90.66 75.1083.30 57.17 28.46 - 66.94图LSTM [18] 91.54 73.88 85.9263.6735.22 88.42 70.05九十二点四十三我们的97.7191.7689.3786.84我们的（更多） 98.3095.1290.0891.9790.85我们的92.8877.7587.9167.6042.8690.7173.8093.57新添加的层在预训练模型上的学习速率被初始化为0.001，并且其他先前学习的层的学习速率被初始化为0.0001。结构演化LSTM单元中使用的所有权重矩阵都是从[-0.1，0.1]的均匀分布随机初始化的。我们只为所有模型使用五个LSTM层，因为使用更多的LSTM层只会观察到轻微的改进，这也会消耗更多的计算资源。所有卷积层的权重都使用标准差为0.001的高斯分布进行初始化。我们使用随机梯度下降训练所有模型，批量大小为1张图像，动量为0.9，权重为0.0005。我们在DeepLab-CRF-LargeFOV上微调网络，并基于Co-CNN从头开始训练网络大约60个时期。结构演化LSTM是通过扩展Caffe框架来实现的[13]。所有网络都在单个NVIDIA GeForce GTX TITAN X GPU上进行训练，具有12 GB内存。在测试阶段，提取超像素需要0.5s，而我们的方法总共需要1.3s。4.3. 结果和比较与最先进方法的比较。我们分别在表1、表4和表5中报告了与PASCAL-Person-part数据集、Horse-Cow解析数据集和ATR数据集上结构演化LSTM结构在大多数度量方面都大大优于这些基线，特别是对于小的语义部分。结构进化LSTM实现的这种卓越性能证明了通过在生成的图结构上传播信息来捕获多尺度上下文的有效性与现有LSTM结构的比较。表1给出了不同LSTM结构之间的性能比较，包括 Row LSTM [29] ，Diagonal BiLSTM [29]，LG-LSTM [19]，Grid LSTM[15]和GraphLSTM [18]，使用相同的网络架构和LSTM层数。特别地，Row LSTM、Diagonal BiLSTM、LG-LSTM、GridLSTM和LG-LSTM针对所有图像使用固定的局部因式分解拓扑，而Graph LSTM在固定的超像素图上传播信息。可以看出，利用不同LSTM层的多级图表示比预定义LSTM结构的平均IoU提高了3.41%关于使用随机策略的讨论请注意，结构演化LSTM随机数合并了一些图节点，并采用接受率来确定是否应该接受新的图结构。另一种方法是通过硬阈值确定性地合并一些图节点，即只有当两个节点的合并概率大于固定阈值T时，才合并两个节点。在我们的实验中，三个阈值（即，0.5，0.7，0.9）进行了测试LSTM [19]89.6466.89 84.2060.8842.06 82.5068.7390.92HAZN [32]90.8770.73 84.4563.5951.16-72.16-Yamaguchi等[35]第三十五届图LSTM [18]91.7372.89 86.3469.0453.76 87.5174.7592.76[34]第三十四话1018结构演化LSTM图4. 比较我们的结构演化LSTM和Graph LSTM在ATR数据集上的解析结果，以及相应生成的多级图结构的可视化。更好地查看放大彩色pdf。表1中使用较小的阈值（例如，0.5)更可能通过合并更多的节点来获得更积极的图转换，而更大的阈值将阻止图改变其结构。结果表明，在确定性策略中使用0.7的阈值获得了最佳性能，但仍不如所提出的随机策略。此外，我们还发现，使用结构演化LSTM进行前馈预测10次后，性能差异很小，验证了结构演化LSTM的鲁棒性。与使用所有预定义图形结构的比较。捕获多尺度上下文的可选策略是利用预先计算的多尺度超像素图作为中间图结构，在表1中报告为“Graph LSTM（多尺度超像素图）LSTM层中的五个预定义的图结构可以由五个超像素映射构建，其中1000，800，600，256 400、200超像素。这些超像素数与我们学习的所有训练图像的图结构“结构进化LSTM”的优越性表明，利用自适应图结构使结构与高级语义表示更加一致，而不仅仅依赖于自关于不同层次图预测的讨论。表2中报告了使用不同数量的结构演化LSTM层的性能。它表明，利用更多层次的图结构使网络参数学习不同层次的语义抽象，从而获得更好的解析结果，而之前的LSTM模型[18]报告说，使用两个以上的LSTM层不会实现性能增益。请注意，解析预测由每个LSTM层和这些预测被逐元素求和以生成最终结果。表3中报告了使用每种图结构的单独解析性能。高级图结构可能错误地合并自下而上的图节点，这因此可能导致性能下降。然而，组合来自所有结构演化LSTM层的所有预测可以大大提高预测，这得益于结合多尺度语义上下文。可视化。ATR数据集上的解析结果与结构演化LSTM层所开发的图结构的定性比较在图中可视化。4.第一章结构进化LSTM输出更合理的结果，以混淆标签（例如，裙子和连衣裙）。5. 结论我们提出了一种新的可解释结构-进化图LSTM，它以端到端的方式同时学习数据和LSTM网络参数的多级图表示。我们的工作显着改善了网络学习的方式，允许底层的多层图结构，随着参数学习的发展此外，我们还提出了一种随机演化图结构的原则性方法，这并不简单，可能会对基于图的RNN在多个领域的应用产生潜在影响。我们已经证明了它的有效性的对象解析任务的图像。在未来，结构演化LSTM可以扩展到实现可逆图转换（例如，分裂一些合并的节点）。我们还将评估其在其他模式，如社交网络的任务方面的1019引用[1] R. Achanta、A.Shaji，K.史密斯，A.Lucchi，P.Fua，和S. 很好切片超级像素。技术报告，2010年。6[2] A. Barbu和S.竹基于swendsen-wang割的图划分。计算机视觉，2003年。诉讼第九届IEEE国际会议，第320-327页，2003年。二、四[3] W. Byeon ， T. M. Breuel ， F. Raue 和 M. 利维基使用LSTM递归神经网络进行场景标记。在CVPR，第3547-3555页2[4] W. Byeon，M. Liwicki和T. M.布鲁尔基于二维lstm网络的纹理分类。InICPR，pages 1144 2[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L. 尤尔。基于深度卷积网络和全连接CRF的语义图像分割2015年，国际会议。6[6] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。CVPR，2016年。6[7] X. 陈河，巴西-地Mottaghi，X.Liu，S.菲德勒河Urtasun等人尽你所能：使用整体模型和身体部位检测和表示对象。在CVPR中，第19796[8] Z. Deng、A.瓦赫达特湾Hu和G.森结构推理机：用于分析群体活动识别关系的递归神经网络。在IEEE计算机视觉和模式识别会议集，第4772-4781页，2016年。2[9] A.格雷夫斯S. Fernandez和J.施密特胡博多维递归神经网络。在ICANN，2007年。二、三[10] A.格雷夫斯，A. R. Mohamed和G.辛顿使用深度递归神经网络进行语音识别。ICASSP，第6645-6649页，2013年。一、二[11] A. Graves和J.施密特胡博基于多维递归神经网络的脱机手写体识别。NIPS，第545-552页，2009年。2[12] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。见CVPR，第447-456页。7[13] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。ACM Multimedia，2014年。7[14] R. Jo'zef o wicz，W. 扎伦巴和我是的。递归网络结构的实证研究。在ICML，第2342-2350页，2015中。2[15] N.卡尔希布伦纳岛Danihelka和A. Graves.网格长短期记忆。arXiv预印本arXiv：1507.01526，2015。一二三六七[16] X. Liang，Z.Hu，H.Zhang C.，中国古猿科Gan和E.P. 邢用于可视段落生成的循环主题转换gan。arXiv预印本arXiv：1703.07022，2017。2[17] X. Liang，S. Liu，X.沈军，杨立. Liu，J. Dong，L. Lin和S.燕. 使用主动模板回归的深度人工解析。TPAMI，2015。六、七[18] X. Liang，X. Shen，J. Feng，L. Lin和S.燕.语义对象解析图。ECCV，2016。一二三六七八[19] X. Liang，X. Shen，D. Xiang，J. Feng，L. Lin和S.燕.具有局部-全局长短期记忆的语义对象分析。CVPR，2016年。二三六七[20] X. Liang，C.Xu，X.Shen，J.Yang，S.刘，J.唐湖，澳-地琳一S.燕. 使用上下文化卷积神经网络的人类解析。在ICCV，2015年。六、七[21] S. Liu，X.梁湖，加-地Liu，X.Shen，J.杨角，澳-地许湖，加-地林X. Cao和S.燕. 匹配-CNN遇到KNN：准参数化人类解析。CVPR，2015。7[22] J.朗，E. Shelhamer和T.达雷尔。用于语义分割的全卷积网络。arXiv预印本arXiv：1411.4038，2014。6[23] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。

下载后可阅读完整内容，剩余1页未读，立即下载