In this paper, we propose a new deep RNN architectureincluding two principle techniques, namely, Context BridgeModule (CBM) and Overlap Coherence Training Scheme.In CBM, we design two computing units taking charge ofrepresentation flow and temporal flow respectively, forcingthese two flows relatively independent of each other withthe aim of making them focus on representation and tempo-ral information separately to ease the training process. Afterthese two units, a merge unit is utilized to synthesize them.By adjusting the synthesizing method, we can balance thedominant degree of each direction to better adapt to the re-quirements of different tasks. Furthermore, to make repre-sentation flow less influenced by temporal flow in the be-ginning of training, we design the Temporal Dropout (TD)4230用于视觉序列应用的深度RNN框架0庞波 � 查凯文 � 曹翰文 施晨 陆策武 †0上海交通大学0{ pangbo, kevin zha, mbd chw, shichen, lucewu } @sjtu.edu.cn0摘要0高效地提取时间和表示特征在理解视觉序列信息中起着关键作用。为了解决这个问题,我们提出了一个新的递归神经网络框架,可以有效地堆叠深度。我们的深度RNN框架主要有两个新设计:一个是称为上下文桥接模块(CBM)的新的RNN模块,它将信息沿着序列(时间方向)和深度(空间表示方向)分割,使得在构建深度时更容易进行平衡这两个方向的训练;另一个是重叠一致性训练方案,考虑到计算资源的限制,降低了长视觉序列任务的训练复杂度。我们提供实证证据表明,我们的深度RNN框架易于优化,并且在几个视觉序列问题上可以从增加的深度中获得准确性。在这些任务中,我们使用15层的深度RNN框架进行评估,与传统的RNN网络相比,它的层数增加了7倍,但仍然容易训练。我们的深度框架在Kinetics、UCF-101和HMDB-51的视频分类任务上相对于浅层RNN模型实现了超过11%的相对改进。对于辅助注释,将Polygon-RNN的浅层RNN部分替换为我们的15层深度CBM后,性能提高了14.7%。对于视频未来预测,我们的深度RNN在PSNR和SSIM上将最先进的浅层模型的性能提高了2.4%。本文附带发布了代码和训练模型:https://github.com/BoPang1996/Deep-RNN-Framework。01. 引言0近年来,随着深度神经网络(DNN)的出现,由于其对高维数据具有优越的表示能力,大量的视觉任务取得了巨大的进展[25, 53, 40, 36,12]。在空间表示之上,时间特征在处理视频等序列输入时也是有价值和关键的,为此设计了递归神经网络(RNN)。综上所述,我们打算构建一个深度RNN架构,结合RNN和DNN的优点,从视觉序列输入中提取更强大的时间和表示特征。0� 相等贡献。†通讯作者。陆策武是上海交通大学计算机科学与工程系、人工智能研究所的成员。0在本文中,我们提出了一个新的深度RNN架构,包括两个主要技术,即上下文桥接模块(CBM)和重叠一致性训练方案。在CBM中,我们设计了两个负责表示流和时间流的计算单元,使得这两个流相对独立于彼此,以便它们分别专注于表示和时间信息,以便于训练过程。在这两个单元之后,我们使用合并单元来合成它们。通过调整合成方法,我们可以平衡每个方向的主导程度,以更好地适应不同任务的要求。此外,为了使表示流在训练开始时受时间流的影响较小,我们设计了时间丢失(TD)0构建更深的RNN的一种直接方法是简单地堆叠多个RNN层。然而,这种方法遇到了两个问题。首先,在这种深度RNN结构中,存在两种信息流——表示流和时间流,分别沿着结构(空间)深度和时间深度,然而,这两种流经常相互交织在一起,使得模型很难同时适应它们。许多特定的RNN结构,如LSTM [16]和GRU[6],主要设计用于捕捉长序列中的时间信息,然而,没有一种适应性能够有效地利用这两种流。因此,简单地堆叠这些RNN模块会导致更高的训练误差和更重的训练消耗。其次,计算资源的限制极大地影响了这种方法的可行性。与深度CNN [33, 27,28]不同,深度RNN需要展开与序列长度相同的次数,导致内存和计算复杂度随着深度的增加而显著扩展,特别是对于视觉序列输入。4240为了阻止时间信息在层之间的反向传播,我们提出了一种概率性地中断反向传播的方法。此外,我们提出的重叠一致性训练方案旨在减少深度RNN的训练成本。由于巨大的训练消耗主要是由于长序列,我们引入了这个训练方案,将长度为l的长序列随机采样为长度为n的多个重叠短片段,并利用重叠作为相邻片段之间的通信桥梁,以平滑片段之间的信息传播。通过这种方式,我们将原始的l阶马尔可夫过程简化为几个n阶(n