非局部递归神经记忆：捕获并利用非相邻时间步之间的高阶交互特征的监督序列建模方法的优势

2 浏览量更新于2023-10-13 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43216311非本地业务存储器存储器………….... . .. . . 这是什么？……GT用于有监督序列建模的付灿淼1，2，*，裴文杰2，*，曹琼2，张朝鹏1，赵勇1，†，沈晓勇2和戴宇荣2，†1北京大学幼儿教育学院2腾讯fcm@pku.edu.cn，wenjiecoder@outlook.com，www.example.com，freyaqcao@tencent.com，cpz@pku.edu.cn，yongzhao@pku.edu.cn，goodshenxy@gmail.com，yuwingtai@tencent.com摘要监督序列建模的典型方法是建立在递归神经网络上，以捕获时间依赖性。这些方法的一个潜在的局限性是，它们只对序列中相邻时间步之间的信息交互进行显式建模，因此没有充分利用非相邻时间步之间的高阶交互由于信息稀释和梯度消失，一阶相互作用不能长期保持，这极大地限制了对长范围时间依赖性建模的能力为了解决这一限制，我们提出了非局部递归神经记忆（NRNM）的监督序列建模，它执行非局部操作，以学习全阶的滑动时间块内的相互作用和模型的全局块之间的相互作用在门控递归的方式。因此，我们的模型能够捕获的长期依赖关系。此外，我们的模型可以提取包含在高阶相互作用中的潜在高层特征。我们在两个不同的任务上展示了我们的NRNM的优点：动作识别和情感分析。1. 介绍有监督序列建模的目的是通过有监督学习建立模型，从各种序列数据（如视频数据或文本数据）中提取有效特征它具有广泛的应用，从计算机视觉[26，35]到自然语言处理[8，42]。监督序列建模的关键挑战是捕获长范围的时间依赖性，这些依赖性用于进一步学习整个序列的高级特征。大多数用于监督序列建模的最先进方法都是建立在递归神经网络（RNN）[32]上的，其有效性已得到验证[33，52]。vanila-RNN的一个关键限制是沿时间域的梯度消失问题，这导致无法对长期依赖性进行建模。*两位作者的贡献相等。†通讯作者。行动：扔图1. 给定一个动作识别的视频样本，我们提出的模型（NRNM）在每个内存块内执行非本地操作，以学习不同时间步长的隐藏状态之间的高阶相互作用。同时，采用门控递归方式对存储块之间的全局交互进行建模。所学习的存储器状态进而被利用来细化未来时间步长中的隐藏状态因此，可以捕获远程该模型基于最后一个时间步中的隐藏状态（hT）来预测动作。cies。然后，GRU [4]和LSTM [11]等门控递归网络大大减轻了这种限制，这些网络采用可学习门来选择性地保留记忆或隐藏状态中的信息。进一步提出了用于序列建模的基于记忆的方法[34，39，45]，以解决递归网络的有限记忆问题。然而，这些方法的一个潜在的缺点是，它们只显式地模拟序列中相邻时间步长之间的信息交互，因此不相邻的时间步长之间的高阶交互没有被充分利用。该缺点引起两个负面后果：1）不能提取包含在不相邻时间步长之间的相互作用中的高级特征;2)它极大地限制了长范围时间依赖性的建模，因为由于信息稀释和梯度消失以及循环操作，一阶相互作用信息不能长期保持受非局部方法[3，44]的启发，该方法旨在探索所有特征部分对之间的潜在相互作用，我们建议执行非局部操作来建模43216312序列中不相邻时间步之间的高阶相互作用捕获的高阶交互不仅能够帮助提取潜在的高级特征，这些特征很难通过专注于一阶交互的典型序列建模方法来学习，而且还有助于建模长范围的时间依赖性，因为非局部操作加强了潜在特征传播，从而大大减轻了消失梯度问题。由于探索一个长序列的所有时间步骤之间的全序相互作用是计算昂贵的，也没有必要由于信息冗余，我们模型的全序相互作用的时间块（序列的一段）内的非本地操作和滑动块递归更新提取的信息。更具体地说，我们提出了非局部递归神经记忆（NRNM）来执行分块非局部操作，以学习每个子块内的全阶相互作用，并捕获局部但高分辨率的时间依赖性。同时，通过在滑动存储单元时以门控递归方式更新存储器状态来捕获相邻块因此，可以保持长期依赖性。图1通过动作识别的示例说明了我们的方法。与典型的监督序列建模方法，特别是具有记忆机制的递归网络相比，我们的NRNM受益于以下优点：它能够建模1）序列段（存储块）内的所有时间步之间的局部全阶相互作用和2）存储块之间的全局相互作用因此，它可以捕获更长的时间依赖关系。建议的NRNM是能够学习潜在的高层次的功能，包含在非相邻的时间步长之间的高阶相互作用，这可能是由传统的方法错过NRNM单元可以无缝地集成到任何现有的具有递归结构的序列模型中，以增强序列建模的能力。集成模型可以以端到端的方式进行训练。2. 相关工作图形序列模型。用于层序建模的常规图形模型可以大致分为两类：生成模型和判别模型。生成模型的一个著名例子是隐马尔可夫模型（HMM）[30]，其对潜在k-范数特征链中的序列数据进行判别图形模型对以输入数据为条件的所有类别标签的分布进行建模。条件随机场（CRF）[19]是一种通过对观测值和标签之间的线性映射进行建模进行序列预测的判别模型。为了解决线性映射的局限性，许多非线性映射提出了CRF变体[25，27，28，41]。与递归网络相比，图模型的缺点在于难以优化和时间建模能力有限。我们的模型是基于递归网络设计的。循环网络。递归神经网络[32]通过考虑当前和先前的信息来学习每个时间步的隐藏表示。贝尼-得益于它的优势，如容易训练和节奏-通过对语音建模，它已经成功地应用于手写识别[2]和语音识别[33]等。然而，vanila-RNN的关键限制是训练过程中的梯度消失问题[10]，因此无法对长距离时间依赖性进行建模。这种限制可以通过门控递归网络来缓解，例如长短时记忆（LSTM）[11]和门递归单元（GRU）[4]，它们通过可学习的门来选择性地保留信息然而，这些模型的一个潜在的限制我们的模型提出了规避这种拉回来，采用非本地操作，以模拟全阶相互作用，在块明智的方式。同时，块之间的因此，我们的模型是能够模拟长距离的时间依赖性和提取高层次的功能，包含在高阶的相互作用。基于记忆的递归网络。存储器网络首先被提出来纠正递归网络的有限存储器的缺点[39，45]，然后将其扩展用于各种任务，特别是在自然语言处理中。这些模型中的大多数在基础模型上构建外部存储单元以增加其存储器[9，34，39，45]。特别是，注意机制[1]被用来过滤来自记忆的信息流[8，18，39，47]。这些基于记忆的递归网络和我们的模型之间的主要区别在于，这些模型专注于增加记忆容量以记忆更多的参考信息，而我们的模型旨在模拟序列中不同时间步长之间的高阶相互作用，这是现有的基于记忆的网络所不关心的。3. 非局部递归神经记忆我们的非局部递归神经记忆（NRNM）被设计成一个记忆模块，以非局部的方式捕捉长范围的时间依赖。它可以无缝集成到任何具有递归结构的前向序列模型中，以增强序列建模。如图2所示，我们在LSTM主干上构建我们的NRNM作为实例化。我们将首先详细说明我们的NRNM的细胞结构，然后描述NRNM和LSTM骨干如何协同执行序列建模。···43216313−∈˜−˜˜attm）--存储器MMtMt+win推拉窗块大小（k）输出…...... y t-s... y t-1 y y t+1 .yt+s......这是什么？………LSTM…………ht+1………………….c c t t - - 1 1 c t c t+1 .c t+s... ... c t -1……输入………. xt-s …Xtxt+1……内存流stride（s）stride（s）LSTM流图2.我们方法的架构我们提出的NRNM是建立在LSTM主干上的，以学习每个内存块内不同时间步长的LSTM隐藏状态之间的高阶交互同时，内存块之间的全局交互建模在一个门控递归的方式。学习的记忆状态反过来又用于在未来的时间步长中细化LSTM隐藏状态3.1. NRNM单元基于基本序列模型（标准LSTM主干），提出的非局部递归神经存储器（NRNM）旨在沿时间维保持一个存储单元，不仅可以提取输入序列过去时间步中包含的底层信息，还可以捕获时间依赖性，两者都在长时间范围内运行。为此，NRNM单元对沿着时域滑动的序列的片段（称为非本地存储器块）执行非本地操作，如图2所示。这种分块设计类似于DenseNet [12]，它在块中执行密集连接（非局部操作的一种形式所获得的存储器嵌入被进一步利用以细化用于最终计算的隐藏嵌入。其中f是由NRNM单元执行的非线性变换函数。在这里，我们将输入特征x并入基础LSTM主干的隐藏表示h中，因为我们的目标是探索隐藏表示与当前块中的输入特征之间的潜在交互（即，区间[t k+1，t]）。接下来，我们详细说明图3中呈现的NRNM单元的变换函数f。为了提取当前块中值得保留在内存中的信息，我们应用了用多头注意力实现的自注意机制[42]来建模源信息之间的潜在全序交互：原始输入要素和隐藏的当前块中的LSTM表示：C= Concat（[ht−k+1，. . . ，ht]，[xt−k+1，. . . ，Xt]），Q，K，V =（Wq，Wk，Wv）C，预测. 内存状态会在以下情况下循环更新：滑动内存块，这与基本LSTM主干的更新一致。W=softmax（QK/√，M att = W att V。（二）考虑一个输入序列x1，…T= x1，. . . ，xT，其中，xtRD表示在第t个时间步长处的观测。LSTM主干在时间步t学习的输入序列的隐藏表示为表示为HT。NRNM学习块（一段时间步长）的内存嵌入Mt，k覆盖时间间隔[t k+1，t]，通过细化包含在该时间间隔中的基础信息。具体来说，我们考虑NRNM单元的两种类型的源信息：1）在此时间间隔[ht-k+1，.. . . ，ht]的LSTM骨干;2)原始输入特征[xt-k+1，. . .，xt]。因此在时间步t的存储器嵌入M*t被公式化为：M~t=f（[ht-k+1，. . . ，ht]，[xt−k+1，. . . ，xt]），（1）这里，Q、K、V分别是由来自源信息C的参数Wq、Wk、Wv变换的Watt是通过点积注意方案计算的导出注意权重，其由存储器隐藏大小m缩放。然后，将所获得的注意力嵌入Matt馈送到两个跳过连接层和一个全连接层中以实现存储器嵌入Mt.这种设计的物理解释是，源信息由2k个信息单元组成：k个LSTM隐藏状态和k个输入特征。得到的记忆嵌入Mt的每个信息单元是连续的。通过关注这2k个源信息单元中的每一个来构造，而存储器嵌入M~t的大小可以是43216314⨀⨀双tanh存储器栅tanh普雷特⨀关注模块…输入添加规范添加规范…hiddens��˜t吉夫伊萨克Katt完全连接自我关注−˜˜˜˜Gt-1xtGt-1kGt-1xtgic~tGFXtM⨀ct⨀ct-1Gm细胞⨀GoXtXtGtGt图3. NRNM细胞的结构。通过参数化变换定制。因此，源信息单元之间的全阶潜在相互作用以非局部方式被探索。这种非局部操作的另一个好处是，它加强了潜在特征传播，从而消除了递归网络总是遇到的消失梯度问题。由于LSTM隐状态已经通过递归结构包含了历史信息，因此在实际应用中，我们使用了一种步进方案来选择隐状态作为NRNM单元的源信息，以避免潜在的信息冗余，提高建模效率。例如，我们在时间间隔中每s个时间步长选取隐藏状态[t-k+1，t]表示源信息，给定步幅=s。存储器状态的门控重复更新。M~tonlycon-图4. LSTM单元通过合并内存状态来更新。我们通过NRNM单元在每个时间块内执行非局部操作，以局部捕获不同时间步长之间的全阶交互，并提取高质量的存储状态。因此，可以捕获局部但高分辨率的时间信息。当记忆块窗口沿时域滑动时，记忆状态以门控递归方式平滑更新它的目的是捕捉全局的时间依赖性的记忆块之间的低分辨率考虑到潜在的信息冗余和计算效率。3.2. 序列建模我们的NRNM可以无缝集成到LSTM主干中，以增强序列建模的能力。具体来说，我们将获得的内存状态纳入LSTM单元状态的周期性更新中，以帮助改进其质量，如图4所示：vm=flatten（Mt−win）获取当前时间块（[t，k+1]）内的信息1，t]）。对相邻的Ct= gf ⊙Ct−1 +giC+gmBZVM（五）、内存块，我们也更新门控的内存状态递归方式，类似于LSTM的递归方案具体地，当前存储器块的最终存储器状态Mt通过下式获得：Mt=Gi⊙tanh（Mt）+Gf⊙Mt−win，（3）其中win是控制存储器状态更新频率的NRNM单元的滑动窗口大小。 Gi和Gf分别为输入门和遗忘门，其中Ct-1、Ct和Ct分别是先前的LSTM单元状态、当前单元状态和候选单元状态。 vm是从存储器状态Mt−win展平的向量。gf和gi是LSTM单元的例程遗忘门和输入门，用于平衡当前时间之间的信息流步骤和前一步骤。所有Ct、gf和gi都以类似的非线性方式建模为输入特征x t和先前隐藏状态ht−1的函数。例如，输入门g被建模为：存储器信息从当前时间步长Mt以及先前的存储器状态Mt-win。它们的模型为gi=S形（Wi· Xt+Ui· ht−1 +bi）。（六）测量电流输入特性之间的兼容性和以前的记忆状态：Gi= sigmoid（Wim·[xt−k+1，. . . ，xt，Mt−win]+Bim），在等式5中，我们丰富了LSTM单元的建模通过经由存储器门gm合并我们NRNM单元状态Mt来实现状态Ct。存储器门被构造为MA-Gf=S形（Wfm· [xt−k+1 ，的。. .，xt，Mt−win]+ Bfm），ConcatConcat··K43216315··控制来自存储器状态 Mt，这是通过测量相关性（compati-（四）其中，W_im和W_fm是变换矩阵，而Bim和Bfm是偏差项。建立长期依赖关系模型。我们的目标是通过双管齐下的策略来捕获序列中潜在的长期依赖关系：当前输入特征和存储器状态之间的关系：gm=sigmoid（Wmxt+ Um flatten（Mt−win）+bm），（七）其中Wm和Um是变换矩阵，bm是偏置项。43216316----1、…不LΣ=−logP（y|Xn nyn新构建的单元状态Ct进一步用于导出为最终预测准备的整个序列模型的隐藏状态htht= go⊙tanh（Ct），（8）其中g0是输出门，其以与等式6中的输入门类似的方式建模。3.3. 端到端参数学习基于LSTM主干的该块内的隐藏状态来学习当前块的NRNM的存储器状态，而所获得的存储器状态又被用来在未来的因此，我们的NRNM和LSTM主干无缝集成，并交替完善。学习的隐藏表示htt=1，.，对于长度为T的序列，等式8中的T可以用于任何序列预测任务，诸如逐步预测（如语言建模）或序列分类（如动作分类）。在随后的实验中，我们在两个具有不同模态的序列分类任务中验证了我们的模型：动作识别和情感分析。下面，我们提出了损失函数来训练我们的模型进行序列分类，但它是直接取代损失函数，以适应我们的模型逐步预测的任务。该数据集包括60个行动类别。使用Microsoft Kinect提供 3D骨架在我们的实验中，我们选择仅使用3D骨架关节信息而不是基于RGB信息的Kinetics [15]的NTU数据集用于动作识别，因为单帧RGB信息已经为动作识别提供了很多含义，并且削弱了时间依赖性的重要性[29]。丢弃RGB-D信息强制我们的模型依赖于关节的时间信息来识别动作[35]中提供了两个标准评估指标：交叉主题（CS）和交叉视图（CV）。CS评估将40个受试者平均分成分别由40，320和16，560个样本组成的训练集和测试集。在CV评估中，相机1的样本用于测试，并且来自相机2和3的样本用于训练。我们报告这两个指标的性能评估。4.2. 执行我们的NRNM构建在3层LSTM主干上。在这项工作中提到的所有递归网络（ vanila-RNN ， GRU ，LSTM）的隐藏单元的数量通过从选项集128，256，512中选择最佳配置来调整验证集。在实践中，我们采用了四头注意方案内存状态的大小设置为给定训练集D={xnn，yn}n=1，…Ncon-与输入隐藏状态的组合大小相同，即，二-得到长度为Tn的N个序列及其相关标签yn。我们以端到端的方式联合学习我们的NRNM和LSTM主干，方法是最小化训练数据的条件负对数似然与参数：Nmension是[块大小（k）/步幅（s），dim（ht）]。继Tu et al.[40]，Zoneout [17]用于网络正则化。dropout值设置为0.5以防止po-可能的过拟合Adam [16]用于梯度下降优化，初始学习率为0.001。n n1、…不n=1n）、（9）4.3. 关于NRNM的我们首先进行实验，研究我们提出的其中，K中的预测标签y，n的概率classes由上一个时间步中的隐藏状态计算exp（WhTn+ b）NRNM系统。块大小k的影响。我们首先在NTU数据集上进行实验，以研究NRNM作为块大小的函数的性能具体而言，我们评估我们的P（y |x1,..., Tn）= ΣK.（十）i=1exp（WihTn+bi）这里，W和b是线性变换和偏置项的参数4. 动作识别为了评估我们提出的NRNM模型的性能，我们首先考虑动作识别的任务，其中视频中帧之间的时间依赖性是最有区别的线索。4.1. 数据集和评价方案我们在NTU数据集[35]上评估了我们的方法，NTU数据集是目前最大的动作识别数据集。它是一个基于RGB+ D的数据集，包含56，880个视频序列和从40个不同主题收集的400万帧方法使用越来越多的块大小：四六八10和12，同时固定其他超参数。图5（a）显示，准确性最初随着块大小的增加而增加，这是合理的，因为更大的块大小允许NRNM在内存中包含更多时间步长的信息，从而使NRNM能够捕获更长的时间依赖性。随着块大小在块大小为8的饱和状态之后进一步我们发现，对长序列块的非局部操作会导致训练数据的过拟合和信息冗余。NRNM的集成位置对LSTM主干的影响。接下来，我们研究将NRNM集成到3层LSTM主干的不同层中43216317(a)(b)（c）第（1）款图5.通过探索（a）块大小k，（b）NRNM在LSTM主干上的集成位置和（c）滑动窗口大小win的影响，对NTU数据集进行NRNM的消融研究。基线（标准LSTM）的性能供参考。图6.在跨主题（CS）和跨视图（CV）指标中，我们的模型与其他基本循环模型在NTU数据集上的分类准确度（%图5（b）显示了结果，从中我们可以得出以下结论：1）在LSTM的任何层集成NRNM，使标准LSTM表现更好; 2）仅在一层上集成一次NRNM比在多个层上应用NRNM性能更好，这将导致信息冗余和过拟合; 3）在中间层集成NRNM实现了最佳性能，这可能是因为LSTM的第二层隐藏状态比第一层和第三层隐藏状态学习的低级和高级特征更适合NRNM提取信息。影响滑动窗口大小赢。然后，我们调查的影响滑动窗口的大小，这是用来控制更新频率的记忆状态。从理论上讲，滑动窗口太小意味着两个相邻的内存块之间的重叠，从而往往导致信息冗余。另一方面，太大的滑动窗口大小导致两个相邻存储器块之间的大的未访问时间间隔，并且将潜在地错过间隔中的信息。在这组实验中，我们将块大小设置为8个时间步长，并考虑不同的滑动窗口大小。图5（c）报告了当滑动窗口在4到8左右时模型表现良好，而在其他值时性能下降，这验证了我们的分析。与LSTM基线的比较。为了研究我们的NRNM的有效性，我们将我们的模型与包括vanila-RNN，GRU，LSTM在内的基本递归模型进行了和高阶RNN在NTU数据集上的两种评价方法：跨主题（CS）和跨视图（CV）。图6示出了1）所有具有记忆或门控结构的RNN都比vanila-RNN和高阶RNN表现得好很多，这表明了记忆和门控结构在控制信息流方面的优势; 2）高阶RNN的性能优于vanila-RNN，这意味着非局部运算的必要性，因为高阶连接可以被认为是局部区域中的简单非局部运算。这也与已有的结论一致[37，50]; 3）我们的NRNM显著优于LSTM，这表明我们的模型优于标准LSTM。4.4. 与最新技术水平的比较在这组实验中，我们将我们的模型与NTU数据集上跨主题（CS）和跨视图（CV）度量的动作识别方法进行了比较。应该注意的是，我们不与采用额外信息或先验知识的方法进行比较，例如身体各部位的关节连接或人体结构建模[36，48]。表1报告了实验结果。我们的模型在CS和CV两个指标上都取得了最好的性能，这表明我们的模型优于其他递归网络，特别是那些具有记忆或门控结构的网络。虽然我们的模型大大优于标准LSTM模型，但基于LSTM的方法[38，52]通过引入额外的注意力机制来提高LSTM的性能。模型复杂性分析。为了比较我们的模型和其他循环基线之间的模型复杂度并研究我们的模型的性能增益是否通过增强的模型复杂度来提高，我们评估了表2中具有不同模型复杂度（配置）的循环基线的性能在优化配置下，该模型的性能明显优于其他基准，这表明该模型的性能优势不是由额外参数增加的容量引起的。43216318…………施特哈施特哈塞吉塞吉……吉吉吉吉预计行动：走向彼此双普雷特图7.一个例子的可视化与标记的行动“走向对方”。我们的模型能够正确识别它，而LSTM将其错误分类为两个人之间的相对距离的时间变化是识别动作的关键。我们的模型可以成功捕获它，而LSTM失败。两个存储器状态块和等式2中的注意力权重Watt被可视化。CS CVHBRNN-L[7]59.164.0Part-aware LSTM[35]62.970.3Trust Gate ST-LSTM[21]69.277.7双流RNN[43]71.379.5Ensemble TS-LSTM[20]74.681.3VA-LSTM[51]79.487.6STA-LSTM[38]73.481.2EleAtt-LSTM[52]78.485.0[52]第五十二话79.887.1LSTM（基线）70.384.0NRNM（我们的）80.889.2表1.在跨学科（CS）和跨视图（CV）指标中，通过不同方法对NTU的分类准确率（%）CV（%）#参数3-LSTM（256）83.91.5M3-LSTM（512）84.05.6M5-LSTM（512）83.19.8M3-EleAtt-LSTM（256）85.51.8M6-EleAtt-LSTM（256）82.73.8M4-EleAtt-LSTM（512）83.48.9M3-EleAtt-GRU（100）87.10.3M3-EleAtt-GRU（256）85.41.4M5-EleAtt-GRU（256）85.02.5MNRNM（我们的）89.23.6M表2.在不同的交叉视图（CV）模型复杂度下，不同方法对NTU的分类准确率（%）。这里，3-LSTM（256）表示配备有包括256个隐藏单元的3个隐藏层的LSTM。请注意，所有结果都来自我们的实现。4.5. 定性分析为了定性地说明所提出的NRNM的优点，图7给出了一个具体的视频示例，其动作标签为在场景中两个人之间的相对距离。因此，捕获长期依赖关系对于识别它至关重要。标准的LSTM将其错误地分类为图7可视化了两个记忆状态块，每个记忆状态块都是由NRNM单元通过合并多个帧的信息来学习的，这些帧包括LSTM主干的输入特征xi和隐藏状态hi为了获得更多关于NRNM的非局部操作的见解，我们将注意力权重Watt可视化在等式2中，以表明通过关注源信息的所有单元（xi和hi）来计算存储器状态的每个单元。5. 情感分析接下来，我们对情绪分析任务进行实验-分析来评估我们的模型的文本情态。具体来说，我们的目标是将在线电影评论识别为正面或负面，这是一个序列分类问题。5.1. 数据集和评价方案我们使用IMDB Review数据集[22]，这是情感分析的明星基准。它包含50，000个标记的评论，其中25，000个样本用于训练，其余用于测试。评论的平均长度为241字，最大长度为2526字[5]。请注意，IMDB数据集还提供了另外50，000个未标记的评论，这些评论被几种定制的半监督学习方法使用[5，6，14，24，31]。由于我们只使用标记数据进行监督训练，因此我们将我们的方法与使用相同训练数据集的基于监督学习的方法进行比较。torchtext1用于数据预处理。遵循Dai等人的培训策略[5]，我们预训练了一个用于提取单词嵌入的语言模型。这个例子，它是相当具有挑战性的认识，交流-43216319因为它只能通过时间变化来推断1https://github.com/pytorch/text43216320我在找有价值的东西。我能想到的最好的是，特吕弗想拍一部像恋爱经历一样乏味、痛苦、幼稚、烦人、不合逻辑和无脑的电影。如果这是他的目标，那么他成功了，但他的练习的解决方案真的是一个拖累观看。有一个场景，尖叫着一个恶搞：贝尔蒙多将德纳芙的面部特征比作风景中的特征。我一直在想“冰川”，“浮冰”，“两个孤独的渔民穿着军队多余的衣服在明尼苏达州结冰的湖面上。“唯一的另一个兴趣点是Buffoon的气候决定论理论的复活。热带地区被呈现为天堂，随着天气变冷，情况会逐渐变得更糟，地狱是加尔文主义的法国瑞士。那还挺有趣的attattattatt…情绪：负吉吉吉吉图8.用groundtruth标签“negative”的电影评论示例的可视化。我们的模型能够在LSTM失败的情况下正确分类。最后一句（绿色）看起来很积极，但往往会误导模型。第一句话是消极情绪的重要线索，这很难被LSTM捕获，因为它很容易被最后一个时间步中的隐藏状态h T遗忘。5.2. 与LSTM基线的我们首先进行了一组实验，将我们的模型与基本的递归网络进行比较，包括vanila-RNN，GRU，LSTM和高阶RNN。图9显示，我们的模型显著优于所有其他基线，这揭示了我们的NRNM的显着优势。此外，虽然LSTM和 GRU的性能比 vanila-RNN 好得多，但与vanila-RNN相比，高阶RNN也大幅它再次证明了高阶连接的好处，高阶连接是在局部区域中非局部操作简单形式。图9.我们的模型与其他基本递归模型在IMDB数据集上的分类准确率（%）的比较。5.3. 与最新技术接下来，我们将我们的NRNM与最先进的方法进行比较，包括LSTM[46]，oh-CNN [13]和oh-2LSTMp[14]，它们通过定制的CNN或LSTM而不是使用现有的预训练单词嵌入词汇来学习单词嵌入，DSL[46]和MLDL[46]在语言建模和情感分析之间执行双重学习。GLoMo[49]是一个trans-fer学习框架，BCN+Char+CoVe[23]训练机器翻译模型对单词嵌入进行编码，以提高情感分析的性能。表3表明，我们的模型在所有方法中实现了最佳性能。值得一提的是，我们的模型甚至比GLoMo[49]和BCN+Char+CoVe[23]表现得更好，后者采用额外的数据进行迁移学习或训练单个机器。翻译模型表3.分类准确率（%）在IMDB数据集上按不同方法.5.4. 定性分析图8示出了来自IMDB数据集的情感分析的示例。电影评论的这个示例是相当具有挑战性的，因为评论的最后一句似乎是肯定的，这易于误导模型，特别是当我们使用最后一个时间步长hT的隐藏状态进行预测时。我们的模型能够在LSTM失败时正确地将其分类为我们还可视化了两个NRNM状态块中的非局部操作的注意力权重（Watt等式2），以显示用于计算NRNM状态的源信息的每个信息单元的出席情况。第一记忆块对应于作为负面情绪的重要线索的第一句，而第二记忆块对应于最后一句。6. 结论在这项工作中，我们提出了非局部递归神经记忆（NRNM）的监督序列建模。我们在每个内存块内执行非本地操作，以模拟非相邻时间步长之间的全阶交互，并以门控递归方式模拟内存块之间的全局交互因此，捕获了长范围时间依赖性。我们的方法实现了动作识别和情感分析任务的最先进的性能方法精度LSTM [46]89.9MLDL [46]92.6GLoMo [49]89.2OH-2LSTMp [14]91.9DSL [46]90.8[13]第十三话91.6BCN+Char+CoVe [23]92.1LSTM（基线）89.8NRNM（我们的）93.143216321引用[1] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器2015年，国际会议。[2] R. Bertolami，H. Bunke，S.费尔南德斯A.格雷夫斯山Li-wicki，J.施密特胡博一种改进的无约束手写体识别的新型联结系统。IEEE T-PAMI，31（5），2009年。[3] A.布阿德斯湾Coll和J. - M.莫瑞尔一种非局部图像去噪算法。在CVPR，2005年。[4] K. 乔湾，巴西-地 VanMerr ieenboer，C. Gulcehre，D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。[5] A. M. Dai和Q.诉乐半监督序列学习。InNeurIPS，2015.[6] A. B.迪昂角Wang，J. Gao，and J.佩斯利Topicrnn：Arecurrentneuralnetworkwithlong-rangesemanticdependency.在ICLR，2017。[7] Y.杜，W. Wang和L.王.基于骨架的动作识别的层次递归神经网络。CVPR，2015。[8] E. Grave，A. Joulin和N.乌斯尼埃用连续缓存改进神经语言模型。ICLR，2017年。[9] A. Graves，G.韦恩和我丹妮赫卡神经图灵机。arXiv预印本arXiv：1410.5401，2014。[10] S. Hochreiter，Y. Bengio，P. Frasconi，J. Schmidhuber等人，递归网络中的梯度流：学习长期依赖的困难，2001年。[11] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735[12] G. Huang，Z.柳湖，加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR，2017年。[13] R. Johnson和T.张某使用卷积神经网络对文本分类的有效使用词序arXiv预印本arXiv：1412.1058，2014。[14] R. Johnson和T.张某基于lstm区域嵌入的监督和半监督文本分类。InICML，2016.[15] W. Kay，J.卡雷拉湾西蒙尼扬湾Zhang C.，中国古猿科希利尔S.Vi- jayanarasimhan，F.Viola，T.格林，T.后退，P。Natsev等人，The kinetics human action videodataset。arXiv预印本arXiv：1705.06950，2017。[16] D. P. Kingma和 J. BA. Adam ：随机最佳化的方法。ICLR，2015年。[17] D. Krue ger，T.Maharaj，J.Krama'r，M.Pezeshki，N.巴拉斯N. R. Ke，A. Goyal，Y. Bengio，A. Courville和C.伙计Zoneout：通过随机保留隐藏的激活来正则化rnns。ICLR，2017年。[18] A.库马尔河，澳-地Irsoy，P. Ondruska，M. Iyyer，J.Bradbury，I. 古拉贾尼河谷忠河，巴西-地Paulus和R.索彻问我任何事情：用于自然语言处理的动态记忆网络。InICML，2016.[19] J. Lafferty，A.McCallum和F.C. 佩雷拉. 条件随机场：用于分割和标记序列数据的概率模型2001年43216322[20] I. Lee，D.Kim，S.Kang和S.李你使用时间滑动lstm网络进行基于骨架的动作识别的集成深度InICCV，2017.[21] J. Liu，A. Shahroudy，D. Xu和G.王.具有信任门的时空lstm用于三维人体动作识别。在ECCV，2016年。[22] A. L. 马斯河E. Daly，P.T. Pham，D.Huang，黄背天蛾A.Y. Ng和C.波茨学习用于情感分析的词向量。在计算语言学协会第49届年会的会议记录中：人类语言技术-第1卷。计算语言学协会，2011年。[23] B. McCann，J. Bradbury，C. Xiong，和R.索彻在翻译中学习：语境化的词向量。NeurIPS，2017。[24] T. Miyato，A. M.戴和我古德费罗半监督文本分类的对抗训练方法。ICLR，2017年。[25] L- P. Mogloba，A. Quattoni和T.达雷尔。用于连续手势识别的潜在动态判别模型CVPR，2007。[26] W. Pei，T.Baltrusaitis，D.M. 税，L.-P. 莫伦西用于鲁棒序列分类的瞬时注意力门控模型。在CVPR，2017年。[27] W. Pei，H. Dibeklio g. M. Tax和L. 在马滕河畔。使用隐藏单元逻辑模型的多变量时间序列分类。IEEETransactions on Neural Networks and Learning Systems，29（4）：920[28] J. 彭湖，澳-地Bo和J.徐条件神经场。NIPS，2009年。[29] Z. Qiu和et al.利用伪三维残差网络学习时空表示。InICCV，2017.[30] L. R.瑞比纳隐马尔可夫模型及其在语音识别中的应用Proceedings of the IEEE，77（2）：257[31] A.拉德福德河乔泽福维奇和我。Sutskever学习生成评论和发现情绪。 arXiv 预印本 arXiv ： 1704.01444 ，2017。[32] D. E. Rumelhart，G. E.欣顿河J. Williams等人通过反向传播误差学习表示。认知建模，5（3）：1，1988年。[33] H. Sak，A.高级和F.波费用于大规模声学建模的长短期在2014年国际语音通信协会第十五届年会上[34] A. 桑托罗河Faulkner，D.Raposo，J.Rae，M.赫扎诺夫斯基T.韦伯D.维尔斯特拉岛维尼亚尔斯河Pascanu和T.我靠。关系递归神经网络。NeurIPS，2018。[35] A. Shahroudy，J.刘德铭T. Ng和G.王. Ntu rgb+ d：用于3d人类活动分析的大规模数据集。在CVPR，2016年。[36] C. Si，Y. Jing，W.王湖，加-地Wang和T. Tan.结合空间推理和时间堆栈学习的基于骨架的动作识别在ECCV，2018。[37] R. Soltani和H. 蒋高阶递归神经网络。arXiv预印本arXiv：1605.00064，2016。43216323[38] S.宋角，澳-地Lan，J. Xing，W. Zeng和J.刘某基于时空注意力的lstm网络三维动作识别与检测。IEEE TIP，27（7）：3459[39] S. Sukhbaatar，J.韦斯顿河Fergus等人端到端的数据库网络。InNeurIPS，2015.[40] J. Tu，H.Liu，F.孟，M.Liu，和R.丁基于lstm自编码器网络的时空数据增强用于基于骨架的人体动作识别。在ICIP，2018。[41] L. Van Der Maaten，M. Welling和L.索尔隐藏单位条件随机场。在2011年第十四届人工智能和统计国际会议论文集[42] A. 瓦斯瓦尼北沙泽尔，北Parmar，J.乌斯科赖特湖琼斯A. N.戈麦斯。凯泽和我。波洛苏欣注意力是你所需要的。NeurIPS，2017。[43] H. Wang和L.王.使用双流递归神经网络建模动作的时间动态和空间配置。在CVPR，2017年。[44] X. 王河，巴西-

下载后可阅读完整内容，剩余1页未读，立即下载