跨数据集动作识别中的双域LSTM

154 浏览量更新于2023-10-19 收藏 1005KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1DDLSTM：用于跨数据集动作识别的双域LSTM托比·佩雷特和迪玛·达曼英国布里斯托尔大学计算机科学系<名字>.& lt;lastname>@bristol.ac.uk摘要卷积网络中的域对齐旨在学习特定于层的特征对齐程度，这有利于源数据集和目标数据集的联合学习。虽然在卷积网络中越来越流行，但以前没有尝试在递归网络中实现域对齐。与空间特征类似，源域和目标域都可能表现出可以联合学习和对齐的时间在本文中，我们介绍了双域LSTM（Dual-DomainLSTM），这是一种能够同时从两个域学习时间依赖性的架构。它对输入到隐藏和隐藏到隐藏的权重进行交叉污染批量归一化，并学习单层和多层LSTM架构的交叉污染参数。我们使用三个数据集对DDLSTM进行帧级动作识别评估，每次取一对，并报告准确率平均提高所提出的DDLSTM架构优于标准的、微调的和批量归一化的LSTM。1. 介绍在线动作识别对主动和监控应用有直接影响，一旦观察到新的帧，就可以对动作进行分类它只依赖于先前观察到的帧，而不依赖于来自未来观察的知识这与离线动作识别形成对比，离线动作识别在分类之前观察整个动作。在野外部署在线动作识别系统的一个障碍是，它们需要大量的训练数据来实现高性能，因此一个悬而未决的问题是如何充分利用多个数据集来实现更高的识别精度。即使数据集使用不同的类标签，也可能存在这种跨数据集的时间依赖性。在本文中，我们专注于厨房活动的相关任务。在一个数据集中，可以标记为：“拾取刀”→“切洋葱”→“把洋葱放进锅里”，而第二个数据集将具有诸如以下的标签：“拿刀”→“切土豆”→“放在烤盘上”虽然这两套标签不同，我们调查如何可以为两个数据集学习联合递归模型，并且我们证明这种联合训练优于独立学习的模型。在在线识别中，通常使用递归模型，特别是长短期记忆递归网络（LSTM）[9，8，27]。最近的研究表明，当使用CNN特征进行基于帧的动作分类时，LSTM可以受益于多个数据源[32]。然而，LSTM并没有被明确设计为处理来自多个域的信息。我们的目标是通过将CNN域自适应[2]的最新进展与批量归一化LSTM训练[4]相结合来解决这一限制，并引入双域LSTM（DDLSTM）。我们证明了DDLSTM确实有可能从两个相关的数据集中联合学习，并且在某种程度上超越了基于帧的在线动作识别的标准LSTM（无论是联合训练，还是预训练和微调）。重要的是，我们的形式主义允许在LSTM的时间内以可微的方式学习交叉污染参数在每个实验中，我们在数据集对上评估DDLSTM，这三个数据集经常用于基于厨房的活动：50沙拉[40]，早餐[21]和MPII烹饪2 [36]。我们还证明了联合训练与相关领域的较大数据集（例如，EPIC[6]）以利用缺失的时间知识。本文的其余部分组织如下。第2节总结了相关的领域自适应和 LSTM 文献。第 3 节介绍了拟议的DDLSTM。第4节概述了我们用于评估的数据集第5节包括比较分析，其中我们显示帧级识别准确率平均提高最后，结论在第6节。2. 背景从多个领域学习的作品传统上使用测量，例如最大平均差异（MMD）[13，28]，以确定领域之间特征空间的差异，并应用变换使它们更接近[1，33]。最近，损失78527853将这些差异考虑在内的函数已经与分类损失结合使用，在CNN中以端到端的方式合并域[14，5，42]，使得能够在无监督域上进行预测。最近的进展已经采取了在网络中引入额外层的方法，以便对齐深特征空间和浅特征空间。我们特别感兴趣的是Carlucci等人的工作。[2]的文件。他们的自动域对齐层基于扩展批量归一化（由Ioffe和Szegedy [18]引入，以提高模型准确性并减少训练迭代次数），以处理来自源和目标域的输入这是通过计算批次内源样本和目标样本的单独批次统计数据来实现的这些层被插入到分类网络中（在AlexNet [20]中的完全连接层之后，并替换InceptionBN中的标准批归一化层），为源样本配备了这种方法与多任务的跨网络拼接相关，但根本不同[29]。在[29]中，两个执行不同任务的网络（例如，检测对字幕）。在[2]中，一个任务（例如，分类）是在两组不一定相关的输入特征上执行的。到目前为止所涉及的工作都是使用在单个图像上训练的卷积网络进行分类。例如，一个常用的基准测试是Of-ESTA +Caltech数据集[11]，其中尝试在办公室中使用DSLR拍摄的图像和从Amazon拍摄的产品图像之间进行适配在视频级分类中利用多个数据集的最常见技术是在一个数据集上进行训练，并在另一个数据集上进行微调[3]。还尝试使用标签之间的语义相似性[44]，并将相同内容的不同摄像机角度视为不同域[31]。我们对在线动作识别特别感兴趣，其中单数据集方法倾向于使用CNN特征和LSTM进行帧级预测[30，43]。将域自适应组件扩展到递归神经网络（RNN）中有可能提供许多好处。在RNN内应用域自适应将允许直接使用非常适合其各自域的不同特征此外，当RNN与原始传感器输出一起使用时，域适应可以发生的唯一地方是在RNN内。LSTM是一个明显的候选修改来多域感知，因为他们的能力，记住信息的一段很长的时间，使他们特别适合于应用程序，如基于帧的交流，识别（我们在这里重点介绍）和语言建模等等。Greff等人[12]评估了8种不同的LSTM细胞类型，发现它们之间有很小的差异。许多工作都试图将批处理规范化纳入LSTM框架[24，4]。在[4]中，递归批量归一化由两组权重的归一化组成;输入到隐藏权重归一化可以被认为是标准批处理归一化，并且这与隐藏到隐藏归一化结合使用。他们发现，由于初始激活与多个时间步后收敛的值不同，因此对每个时间步执行单独的归一化可以获得我们在第3节中重新讨论了批量归一化LSTM（BNLSTM）。3. 双域LSTM在本节中，我们提出了DDLSTM，能够操作任意顺序数据，我们在在线动作识别的背景下进行评估。它能够从两个域联合学习时间依赖性：每个域的独立时间依赖性以及常见的跨域时间依赖性。图1a显示了在一个数据集上训练的标准LSTM。图1b 示出了在两个数据集上联合训练的标准 LSTM（即，每批包含来自两者的实例这适用于两个数据集中的标签不一定匹配的情况。如果标签匹配，则可以使用单个共享输出向量。然而，当每个域具有其自己的标签集合时，预测可以被定义为级联标签向量，其中输出向量的第一部分对应于第一数据集的标签的预测虽然该架构学习从两个输入域到共享或不同的输出标签的映射，但是该模型可能独立地学习每个域，因为架构中没有结合对齐来自两个域的输入的努力在介绍用于从两个域对齐和联合学习的DDLSTM之前，我们回顾了[4]中用于单域批量归一化的BNLSTM图图1c显示了在单个数据集上训练的BNLSTM。我们选择基于BNLSTM架构的DDLSTM有两个主要原因。首先，BNLSTM在语言建模和简单顺序MNIST等应用中表现出优于标准LSTM的结果[4]。第二，并且可能更重要的是，它结合了批量归一化，这使得它适合于适应于与全畴配向层的畴混合方面（经由批量归一化）一起工作。其公式在[4]中是7854批量预测D1批量预测（串联）批量预测D10 1 0htct−1ctBNLSTM批量预测（串联）D1D20 0 0 0 1 0htct−1ctDDLSTMht−1htht −1htxtxtD1D1D2批量特征(a) 标准LSTM在一个数据集上训练。批量特征(b) LSTM在两个数据集上联合训练，带有连接的标签。批量特征(c) BNLSTM在一个数据集上训练。BN在特征输入和隐藏到隐藏输入和输出上。批量特征(d) 带有协调标签的DDLSTM 特征和隐到隐输入上的双域BN。图1：与其他LSTM架构和训练过程相比，建议的DDLSTM（d）：（a）单域LSTM，（b）联合训练的LSTM，（c）单域批量归一化的LSTM。给出为：˜ft两个数据集，利用LSTM在学习短期和长期依赖性方面的能力我们要做的是-连接标签向量。如果D1有L1标签，而D2t吉尔托=BN（Whht−1;γh，βh）n+BN（Wxxt;γx，βx）+b（一）具有L2个标签，则提供给LSTM将是L1+L2维的。对应于D1的标签占据条目0到L1−1，并且对应于D 1的标签占据条目0到L1 − 1。ct =σ.ft ct−1+σ.˜itΣ 坦桑尼亚（2）到D2占用条目L1到L1+ L2− 1。另一个，更多的cru-cial，修改是用样品构建每一批从D1和D2，所以BNLSTM可以联合训练ht=σ（αt）αtanh（ BN（ct;γc，βc））（3）等式1包含前栅极层（ForgateLayer，GATE）、输入栅极层（Input Gate，GATE）、输出栅极层（Output Gate，GATE）和用于生成栅极候选以稍后改变单元状态的层（GATE）。在这里，可以考虑Wxxt项的归一化作为输入到隐藏的标准化（因为它在内部运行置于当前时间步长，xt）。Whht−1项的归一化可以被认为是隐藏到隐藏的归一化，因为它在前一个时间步（ht−1）对细胞的输出进行操作等式2给出了新的单元状态Ct。请注意，它是如何未归一化的，这允许梯度流过时间步长。公式3给出了单元输出，其中，ct被归一化以匹配双稳态项。批次归一化函数[4]为：h−E^[ h]两者批次中的前 n1 个样本来自 D1 ，而其余的（n2=N−n1）来自D2。标准的BNLSTM不适用于对偶域，因为这两个域可能具有不同的均值和方差。为了解决这个问题，可以对来自每个区域的样品进行单独的批次归一化。这将是足够的，但将再次忽略任何共享（跨域）的时间依赖性。我们的目标是了解域之间的交叉污染，当计算批量统计数据时，如下所示。对于每个域Di，我们的目标是学习相应的交叉污染因子αi，用于确定来自其他域的样本的贡献将被包括在均值和方差计算中每个αi为有约束，使得ni≤αi N≤N。更高的αiindi-导致更多的交叉污染发生，反之亦然。BN（h; γ，β）= β + γπ.V^ar[h]+（四）请注意，这种交叉污染是准确方差计算其中，β和γ是偏移和比例，实际上固定为0和0.1。上面的BNLSTM假设观测来自单个域（图1）。第1c段）。我们接下来建议将其扩展为处理来自两个域D1和D2的样本。图1d介绍了本文提出的DDLSTM其被设计为联合学习时间依赖性，htct−1CtLSTMht−1htXtD1D1D2 0 0 0 0 1 00 0 0 0 1 0htct−1ctLSTMt−1tXtD1D20 0 00 0 00 1 00 1 00 1 00 1 00 1 00 0 00 0 00 0 00 1 00 1 00 1 00 1 00 1 00 1 00 1 07855可以使用D1和D2的平均值的加权平均值贡献函数τi则决定了贡献值。对于每个域，批次中的第j个样本的位置给定参数αi.每个领域都有自己的贡献，tion函数（请记住，来自D1的样本首先出现在每批中），定义为：7856τ2τ1Σ0D1D2N−11 −α2Nα1N批量预测（串联）D1 0 1 0 0 0 00 1 0 0 0 0D2 0 0 0 0 1 00 0 0 0 1 0htct−1ctDDLSTM测试样本预测0 1 0 00ht测试样本预测0 0 0 01 0ht批量索引批量功能0的情况。00的情况。5.1.0贡献ht−1htct−1ctDDLSTMct−1ctDDLSTM图2：等式5（红色）和等式6（黄色）中给出的贡献函数的图示。山姆的贡献ht−1不D1XtD2D1htt−1tXtD2给出了D1和D2对D1的批统计量的应用由τ1决定，它由变量α1决定。同样，α2批量特征(a) 联合训练测试样本特征(b) D1试验测试样本特征(c) D2测试控制τ2，它给出了来自两个数据集的样本对D2的批量静态的贡献。1−tanh（j−α1N）图3：DDLSTM联合训练和测试每个数据集轮流。在测试期间，指定样本来自哪个数据集的标志被传递到DDBN层，以便使用正确的批处理统计数据。τ1（α1，j）=21 +tanh（j−α2N）（五）α参数可以用于每一个，我们发现，一个sin-τ2（α2，j）=（六）2一组参数可能会提供更好的性能，因为在隐藏到图2中给出了该过程的图示。这可以用于重新定义批量归一化函数，该批量归一化函数从具有双域批量归一化函数DDBN的一个域（等式4隐藏和输入到隐藏阶段，并且需要学习更少的参数。鉴于这些发现，我们可以定义DDLSTM，用蓝色突出显示拟议的差异，如下所示：^˜fth−DDE[h，α1，α2]˜it=DDBN（Whht−1;γh，βh，α1，α2）DDBN（h; γ，β，α1，α2）=β+γα。--˜o+DDBN（W）x ;γ，β，α，α）+bDDVar[h，α1，α2]+Δ（七）而不是使用标准的期望和方差计算-不格利特x t x x 1 2（十）因此，DDBN依赖于等式5和6中给出的贡献函数来给出a的期望和方差。从每个Di在特定时间步长处加权w为：其中ct和ht如先前在等式2和3中定义。DDBN也在Equa中代替BN功能进行了试验第3，并发现是不太有效的（关于训练期间的结果和稳定性）。我们hypothesiseDDEi（w）=Nj=1ΣNwjτi（αi，j）τ（α，j）（八）这是因为在相同的数据上有效地执行DDBN两次几乎没有意义，并且它将符合j=1i iΣN. wj−E（w）<$2τ（α，j）融合最终类别概率的计算。图4将建议的DDLSTM扩展到两层，并突出显示在单元格中不同形式的批处理或非批处理的位置DDVari（w）=j=1 ΣN我我我τ（α，j）（九）发生了恶性肿瘤注意，参数α是共享的j=1i i其中wj表示对应于该批中的第j个样本的w值使用tanh对α值进行操作的主要优点，而不是像[2]中那样只选择样本，是它允许整个过程是可微的，并且α值可以作为LSTM反向传播的一部分来学习-通过时间过程。在训练期间，从批次估计DDEi和DDVari当测试一个看不见的样本时，会传递一个标志，指示样本属于哪个数据集，数据集图3显示了这个训练和测试过程。注意图在图1d中，应用两个DDBN函数：输入到隐藏和隐藏到隐藏。而另一套X7857在时间步之间，与LSTM单元的其余部分一起但是对于每个时间步单独地运行双域批量规格化。虽然样本数量从D1（n1）和D2（n2）在每个批次中可以变化，在我们的经验中，我们设n1=n2=N/2。如果n1或n2为零(i.e.训练数据仅从一个域中提取），则DDLSTM简化为BNLSTM [4]。多层DDLSTM可以受益于从较低层到较高层的交叉污染的逐渐增加。这是基于这样的假设，即与特定于域的较低层相比，更高层表示中将存在更多的共享这在CNN中被证明是这样的[2]，其中交叉污染随着网络从深到浅而增加。在第5节中，我们测试了多达10层的DDLSTM架构，并显示3层提供了最佳性能。7858h0不了c0t−1了c0不X+H1H1t−2t−11H1tanht−21不ct−11CtXXα1，α1，α1，σσtanhσ121212H1H1H1DDBNBN0ht−20t−20t−10不ht−10ht了c0ht−1t−1了c0ht不了c0α0，12DDBNt−2α0，12α0，12α0，12Xth0t−2h0t−1h0不xt−2xt −1xtD1D2图4：多层DDLSTM架构（左）和DDLSTM单元（右）。请注意，αs与其他LSTM参数一起在相同级别的时间步之间但是，双域批量归一化（使用α值确定交叉污染量）是针对每个时间步单独计算的。(a) 早餐（b）50沙拉（c）MPII烹饪2图5：每个数据集的可视化比较结果颜色表示DDLSTM中使用的第二个数据集。例如，（a）显示了使用50份沙拉（蓝色）或MPII烹饪（红色）训练的早餐结果4. 数据集在这项工作中，我们使用了三个最大的烹饪相关活动数据集，这些活动都是基于厨房中的活动。这是早餐[21]，50沙拉[40]和MPII烹饪2 [36]数据集。很少有标签交叉，因为它们是在不同的环境中捕获的，具有不同的观点，参与者和配方。然而，我们假设在共同的任务中的时间依赖性可以在共享的训练过程中被杠杆化。图6中给出了一些可视化示例以及一些实验的定性结果。对于本文中的所有数据集，使用了4个所有拆分都使用leave-person-out，即没有参与者出现在来自同一分割的训练集和测试集两者中。请注意，UCF [39]，HMDB [23]和Kinetics [3]等数据集不适合这里，因为它们每个视频序列只包含一个动作类。对于在线动作分类，其中每个帧一被看到就被分类，每个视频需要多个动作以确保鲁棒的评估。符合这个条件的数据集-Teries包括THUMOS [17]和ActivityNet [15]，但它们缺乏早餐，50沙拉和MPII烹饪的任务相关性，如我们在第5.4节中所示。早餐[21]：早餐数据集包含由52名参与者执行的433个序列，包含18个不同厨房中50个类（包括背景类）的所有的序列都是10个早餐例程之一，如在本文的实验中，使用了最低级别的动作标签。例子包括50 Salads [40]：50 Salads数据集包含25个参与者的50个视频。有52个最低级别的动作类（包括我们添加的背景类），总共有2967个标记动作。示例动作包括“切番茄准备”、“切番茄核”和“切番茄柱”。在其他两个数据集中找不到这些准备和后标签。MPII Cooking 2 Salads：MPII Cooking 2数据集包含来自一个厨房中30名参与者的275个序列。它由88个类别的14105个行动组成（在-7859图6：50个沙拉（左）和MPII烹饪2（右）的1000帧截面GT显示了地面实况，LSTM表示标准的LSTM微调，DDLST是联合训练的（Breakast和50沙拉左; MPII和50沙拉右）。D1D2培训LSTM类型D1平均值D2平均值50份沙拉MPII烹饪2单个没有一41.138.350份沙拉MPII烹饪2联合LSTM41.639.050份沙拉MPII烹饪2联合BNLSTM32.422.650份沙拉MPII烹饪2D1和D2LSTM04.438.750份沙拉MPII烹饪2D2、D1LSTM43.000.050份沙拉MPII烹饪2联合DDLSTM47.141.5早餐50份沙拉单个没有一24.541.1早餐50份沙拉联合LSTM24.740.5早餐50份沙拉联合BNLSTM18.437.0早餐50份沙拉D1和D2LSTM00.042.5早餐50份沙拉D2、D1LSTM25.408.5早餐50份沙拉联合DDLSTM29.146.3早餐MPII烹饪2单个没有一24.538.3早餐MPII烹饪2联合LSTM26.338.8早餐MPII烹饪2联合BNLSTM22.530.9早餐MPII烹饪2D1和D2LSTM00.039.1早餐MPII烹饪2D2、D1LSTM25.301.0早餐MPII烹饪2联合DDLSTM30.540.1表1：三个样本配对的平均结果（拆分）是从CNN中提取的帧级特征。对于每个分割（来自每个数据集），Inception V2 [41]（使用HMDB 51权重[23]初始化）使用训练分割进行训练，以单独对帧进行分类。然后，该模型用于提取测试图像的特征。来自网络最后一层的激活（即，logit）被提取用作特征。单个数据集的基线见表1。已经表明，直接预测下一个动作边界在基于帧的分类问题上提供了更好的性能[26]。遵循本工作中的预测方法，我们首先训练LSTM架构（1层深，历史大小200帧），其中序列的损失是下一个动作边界处的高斯与每个帧的当前边界预测这个边界预测和原始的有限元分析-数据集。将双域LSTM与BNLSTM和标准LSTM进行比较，使用不同的训练方法（联合训练，D1上的预训练和D2上的微调，反之亦然）。无：没有任何时间建模的帧级分类。包括我们添加的背景类示例动作包括5. 实验在本节中，我们将详细介绍基于框架的特征提取，并与其他LSTM架构进行比较分析。在所有的实验中，基于帧的分类精度报告。实施详情：对于每个LSTM类型，每个单元格使用128个隐藏单元。我们使用批量大小为128，数据集之间的分割为50/50，因此每批包含来自被评估的两个数据集中的每一个的64个序列。0.01的学习率用于50，000次迭代，所有α值初始化为0.75。试验了0.5和1之间的其他值，但差异不大。5.1. 基于在线框架的结果我们对在线动作识别特别感兴趣，即在不洞察未来帧的情况下识别当前和过去观察的动作的能力。每个测试过的LSTM架构然后将结果作为输入馈送到各种LSTM架构（3层深，历史200帧），使用softmax loss训练。连接标签向量，如图1所示。1，用于所有实验。我们在第4节介绍的三个数据集上评估了基于框架的动作识别。比较了以下LSTM架构和训练原型• LSTM在两个数据集上联合训练。• LSTM在一个上进行了预训练，在另一个上进行了微调• BNLSTM [4]在两个数据集上联合训练。• DDLSTM在两个数据集上联合训练。表1给出了这些实验的结果，对所有四个分割取平均值。这些平均值的相应可视化可以在图中看到。五、它表明，在所有数据集对上，BN-STM都优于联合训练和微调的与每个数据集对的次佳性能方法相比，其中次佳方法是每个情况下的不同方法，50份沙拉和MPII烹饪2增加了5.1%和2.5%，早餐和50份沙拉增加了 3.7% 和 3.8% ，早餐和 MPII 烹饪 2 增加了 4.2% 和1.0%。预计MPII Cook- ing 2作为最大的数据集，将比两个较小的数据集从交叉数据集训练中受益较少。定性结果如图所示。6，在每种情况下将DDLSTM与第二好的LSTM架构进行比较。786011.00.90.80.70.620.510 10000200003000040000 500001.00.90.80.70.620.520 10000200003000040000 50000图7：训练过程中α进程的示例右图显示了α完全交叉污染然而，也观察到其他行为，例如α0、α1和α2。一个可能的解释2 2 2表2：所有数据集分割的平均准确度，比较具有不同深度1-10的DDLSTM架构* 由于内存限制，深度10使用了100的历史记录。5.2. 讨论表2给出了DDLSTM体系结构的级别数（或深度）如何影响性能的评估。一般来说，有一个边际的改善，因为水平的数量增加到3与下降后，病房，虽然我们观察到一个情况下，有一个轻微的下降（MPII烹饪2时，训练早餐）。图7显示了控制双域交叉污染的α值在训练期间如何变化的示例。在[2]中，自动域对齐层被证明对高级层比低级层使用更多的交叉污染我们有时候会看到肛门-如α0、α1和α2。在这里，α0= 0。5是DDLSTM已经被送入了高水平的FEA-因此，就这些特征所代表的内容而言，从这也可能是在增加DDLSTM网络深度时出现小幅而非大幅改善的原因（表2）。我们在前面注意到，该方法对α值的初始化具有鲁棒性。图7还显示了不同的初始化如何在训练后收敛到相似的α值。我们注意到，考虑到批次包含随机样品排序，多次运行的α值不太可能5.3. 与已发表结果的比较很少有作品尝试在这些数据集上进行在线帧级准确性，大多数作品专注于离线分类[16，37，25，19，38]。为了与这些进行比较，我们还评估了具有前瞻性的DDLSTM，即。允许它在对当前帧进行分类时看到未来训练历史大小的一半。在表3中，我们报告了早餐的结果，显示我们的方法优于在线操作的已发布结果-请注意，[7]仅提供数据集中单个分割的结果。我们使用“离线单通道”方法可以访问未来的帧，但仅作为单通道，例如，双向LSTM“在线”方法一看到每个帧就对其进行分类，而不访问未来的帧，例如，单向LSTM我们并不期望我们的单通道结果优于多通道离线评估，但提供这些结果以供完成。在表4中，我们使用[25]中公开可用的功能比较了50个沙拉的离线结果。1 1 1 1表明没有交叉污染，而α2β1表明这些课程使用中级课程（17个课程加上一个背景课程α2α221α2，12α2，12α2，12α11α12α1，12α1，12α1，12α01α02α0，12α0，12α0，12ααD1D2LSTM层D1平均值D2平均值50份沙拉MPII烹饪2145.741.350份沙拉MPII烹饪2246.641.050份沙拉MPII烹饪2347.141.550份沙拉MPII烹饪2446.140.650份沙拉MPII烹饪2541.040.350份沙拉MPII烹饪2十 *39.738.0早餐50份沙拉128.445.0早餐50份沙拉229.045.2早餐50份沙拉329.146.3早餐50份沙拉428.644.3早餐50份沙拉529.046.0早餐50份沙拉十 *25.540.7早餐MPII烹饪2129.240.8早餐MPII烹饪2229.940.1早餐MPII烹饪2330.540.1早餐MPII烹饪2430.538.8早餐MPII烹饪2530.338.4早餐MPII烹饪2十 *28.135.67861D1D2培训LSTM类型D1访问D2访问ActivityNetActivityNet50份沙拉50份沙拉Pt/ft联合LSTMDDLSTM44.444.342.142.2ThumosThumos50份沙拉50份沙拉Pt/ft联合LSTMDDLSTM65.966.142.042.3史诗史诗50份沙拉50份沙拉Pt/ft联合LSTMDDLSTM31.533.144.948.9表3：早餐数据集的比较分析，使用我们的特征以及来自[22]的特征（w/f）。DDLSTM使用来自50 salads [25]的公共特征（在表4中使用）作为其第二域。方法模式精度Bi-LSTM（1层）[25]离线单程55.7ED-TCN [25]离线单程64.7[25]第二十五话离线单程60.9LSTM w/f [25]在线57.6[25]第二十五话在线59.1表4：对50个沙拉数据集的比较分析，使用具有[25]中特征（w/f）的中级类。DDLSTM使用Breakfast [22]中的公共功能作为其第二个域（如表3所示）。类），这比我们在表1中报告的要容易得多，在表1中我们使用了所有52个最低级别的类。我们的在线结果和预测结果只比其他离线评估的我们没有找到任何已发布的50 salads mid-level在线性能的结果，或任何其他使用公开功能的结果5.4. 相关领域适应的效果为了研究DDLSTM的改进有多少来自于利用相关的时间信息，我们评估了50个沙拉（分割为0）是否同样受益于具有不同水平的主相关性的三个大规模数据集。我们在 THUMOS [17] （来自 [10] 的功能），ActivityNet [15]（来自[15]的功能）和EPIC Kitchen [6]（ImageNet ResNet 50功能）上进行测试。其中，只有EPIC提出了一个相关的THUMOS和ActivityNet捕获与厨房领域无关的动作，并且每个序列包含很少的动作。我们在表5中报告了结果。结果表明，只有通过微调，相关数据集EPIC提供最好的性能。我们没有观察到使用DDLSTM与THUMOS或ActivityNet联合训练的好处然而，我们观察到与EPIC Kitterfly联合培训时，EPIC（1.6%）和50沙拉（4%）都有明显的改善。我们的结论是：1）DDLSTM特别适合于相关领域，2）对于较小的数据集，由于这些数据集利用了缺失的项目，因此预计准确性会有更高的提高。表5：从更大的数据集中学习50个沙拉（分割为0）时的分类精度。Pt/ft是指在D2上进行预训练并在D1上进行微调时的D1结果，反之亦然。图中显示，具有相关域（EPIC）的大型数据集在预训练中表现更好，并且使用DDLSTM显示出更大的改进。从更大的数据集中获取知识。6. 结论和未来工作本文介绍了双域LSTM（DDLSTM），它能够同时从两个域给定由来自两个域的样本组成的批次这将为每个域计算单独的批处理统计数据，但学习一个参数，该参数确定域之间的交叉污染程度应以完全可识别的方式包含在内。所学习的参数跨时间步共享，但批量归一化计算在每个时间步分别对数据执行。我们评估了在线动作识别的DDLSTM架构，使用三个烹饪数据集，每个视频和逐帧标签具有多个动作。DDLSTM被发现优于标准LSTM（联合训练，预训练和微调）和它所建立的批量标准化LSTM（在所有数据集上平均为3.5%）。本文提出了一些机会（A-D），为今后的调查。A）同时从两个以上的相关数据集/域学习。这将需要修改贡献函数（公式5和6），并增加α的数量，d（d−1）l，其中d和l是数据集的数量，LSTM层。 B）自动调整的化妆品每一批都可以提供性能改进，其方式类似于α值倾向于交叉污染的方式。C）使用注意机制[34]来确定一个批次中的哪些物品对交叉污染最有用。D）将基于帧的域自适应方法引入特征提取器和LSTM。鸣谢：研究由EPSRC LO-CATE（EP/N 033779/1）支持，并使用公开可用的数据。方法模式精度[22日]脱机多遍56.3[35]第三十五届脱机多遍43.0[22]第二十二话离线单程26.4DDLSTM（前瞻）离线单程32.6[35]第三十五届在线27.2[7]（仅在1/4分割时进行评估）在线32.6[32个]在线28.5[22]第二十二话在线23.8DDLSTM在线29.17862引用[1] P. P. Busto和J.胆打开Set Domain Adapta- tion。2017年计算机视觉国际会议。1[2] F. M. 卡鲁奇湖波尔齐湾Caputo、E.Ricci和S.R. 布尔奥。自动拨号：自动域对齐层。2017年计算机视觉国际会议。一、二、四、七[3] J. Carreira和A.齐瑟曼。什么是行动识别？新模型和动力学数据集。在计算机视觉和模式识别，2017。二、五[4] T. Cooijmans ， N. 巴拉斯角 Laurent ， C. Gu？ lc？hehre 和 A. 考维尔循环批量标准化。 InarXiv ，1603.09025，2016. 一二三四六[5] G. Csurka，F. Baradel，和B.奇德洛夫斯基用于无监督域自适应的基于差异的网络：比较研究。2017年计算机视觉国际会议。2[6]D. Damen，H.道蒂，G。M. Farinella，S. 菲德勒A. Furnari、E. Kazakos，D. Moltisanti，J. Munro，T. Perrett，W. Price和M.雷缩放自我中心视觉：epic-kitchens数据集。2018年欧洲计算机视觉会议。1、8[7] R. De Geest和T. Tuytelaars使用LSTM建模时间结构以进行在线动作检测。在计算机视觉应用冬季会议，2018年。七、八[8] 多纳休湖A.亨德里克斯M. Rohrbach，S. Venu-gopalan，S.瓜达拉马湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。Transactions on Pattern Analysis and MachineIntelligence，39（4）：677-691，2017。1[9] Y. 杜，W.Wang和L.王. 用于基于骨架的动作识别的层次在计算机视觉和模式识别，2015年。1[10] J.高，Z. Yang和R.奈瓦提亚用于时间动作检测的级联边界回归。2017年英国机器视觉会议。8[11] B.贡，Y. Shi，F. Sha和K.格劳曼用于无监督域自适应的测地线流核在计算机视觉和模式识别，2012年。2[12] K.格雷夫河K. Srivastava，J.库特尼克湾R. Ste-unebrink和J.施密特胡博LSTM：A Search SpaceOdyssey 。 Transactions on Neural Networks andLearning Systems，28（10）：2222-2232，2017。2[13] A. Gretton，K. M. Borgwardt，M. J. RaschB. Schoül k opf和A. J. 斯莫拉两样本问题的核方法神经信息处理系统的进展，2006年。1[14] P. Haeusser，T. Frerix，A. Mordvintsev和D.克雷默斯。关联域适配。在2017年国际计算机视觉会议上。2[15] F. C.海尔布隆河谷埃斯科西亚湾Ghanem和J. C.尼布尔斯ActivityNet：一个用于人类活动理解的大规模视频基准。在计算机视觉和模式识别，2015年。五、八[16] D. A.黄湖，澳-地Fei-Fei和J. C.尼布尔斯弱监督动作标记的连接主义时间建模。2016年欧洲计算机视觉会议。7[17] H. 伊德里斯A。 R. Zamir，Y. G. Jiang，中国茶条A. 戈尔班，I.拉普捷夫河Sukthankar和M. Shah. THU-MOS挑战赛在野外视频中的动作识别。计算机视觉和图像理解，155：1-23，2017。五、八[18] S. Ioffe和C.赛格迪批量归一化：通过减少内部协变量偏移来加速深度网络训练。在2015年国际机器学习会议上。2[19] S. 娇。整体求粗，部分求细：一个层次化的动作识别框架。图像处理国际会议，第2630-2634页，2018年。7[20] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络进行图像分类。神经信息处理系统的进展，2012年。2[21] H. Kuehne，A. Arslan和T. Serre. 行动的语言：恢复目标导向的人类活动的句法和语义。在计算机视觉和模式识别，2014年。一、五[22] H. Kuehne，J. Gall，and T. Serre.用于视频分割和识别的端到端生成框架。2016年冬季计算机视觉。8[23] H. Kuehne，T.塞尔Jhuang、E.Garrote，T.Poggio和T.Serre. HMDB：一个用于人体运动识别的大型视频数据库2011年国际计算机视觉会议。五、六[24] C. 洛朗湾佩雷拉山口Brakel，Y. zhang和Y.本吉奥。批量归一化递归神经网络。在国际声学会议上，语音和信号处理，2016年。2[25] C. Lea，M.D. F. Ren，中国茶条A.Reiter和G.D. 海格用于动作段的7863和检测。在计算机视觉和模式识别，2017。七、八[26] Y. Li，C.Lan，J. Xing，W.Zeng C.，中国茶苔属元以及J. Liu.基于联合分类回归递归神经网络的在线人体动作检测。2016年欧洲计算机视觉会议。6[27] J. Liu，G.王湖，加-地Y. Duan，K. Abdiyeva和A.C.科特使用全局上下文感知注意力LSTM网络进行基于以太网的人类动作识别Transactions onImage Processing，27（4）：15861[28] M. Long，J. Wang，G. Ding，J. Sun，and P. S.Yu.使用联合分布自适应转移特征学习。在计算机视觉和模式识别，2013年。1[29] I. Misra、A.什里瓦斯塔瓦A. Gupta，和M。赫伯特多任务学习的十字绣网络。在计算机视觉和模式识别，2016年。2[30] J.Y.--H.Ng，M。Hausknecht，S.Vijayanarasimhan，O. 维尼亚尔斯河Monga和G.托德里奇除了简短的片段：深度网络视频分类。在计算机视觉和模式识别，2015年。2[31] W. Nie、黑腹拟步行虫A.刘，J.Yu，Y.苏湖，加-地Chaisorn，Y.Wang和M. S. 坎坎哈利基于跨域学习的多视角动作识

下载后可阅读完整内容，剩余1页未读，立即下载