视频中的异步稀疏人机交互建模研究

3 浏览量更新于2024-01-22 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16041学习视频中的异步和稀疏人机交互Romero Morais，Vuong Le，Svetha Venkatesh，澳大利亚迪肯大学Truyen Tran应用人工智能研究所{ralmeidabaratad，vuong.le，svetha.venkatesh，truyen.tran}@ deakin.edu.au图1：一个人机交互活动的例子，一个人服用一些药物并与两个对象交互。人类（圆形）和物体（三角形）实体在整个视频中具有独立的生命（上三行）。虽然视频是在规则的时间（较低的行）捕获的，但人类活动和对象启示的动态相对于彼此（彩色段）稀疏且异步地它们也相互影响（蓝色弯曲箭头）。这些人-物交互的特征是这项工作的主要建模目标。摘要人类活动可以从视频中学习。通过有效的建模，不仅可以发现动作标签，但也的时间结构例如子活动的进度。从原始视频信号中自动识别这种结构是一种新的能力，它保证了真实的建模和成功的识别人-物体交互。为了实现这一目标，我们引入了异步稀疏交互图网络（ASSIGN），一个循环图网络，能够自动检测与视频场景中的实体相关联的交互事件的结构。ASSIGN开创了视频实体自主行为的学习，包括它们的动态结构以及它们与共存邻居的交互。在我们的模型中，实体它们的相互作用在时间上是稀疏的，因此更忠实于真实的潜在性质，在推理和学习中更鲁棒。ASSIGN在人-物交互识别方面进行了测试ASSIGN在发现时间结构方面的固有能力也消除了对外部分割的依赖，而这在以前是这项任务的强制性要求。1. 介绍人类活动与周围环境和其中的物体密切相关。视频中观察到的这种能力反映在人机交互（HOI）识别任务中，其中通过分析实体之间的交互关系（图1），从视频中分割和识别人类子活动（如饮酒）和对象启示（如可饮用这些关系自然地形成时空图，其中实体（人或物体）及其动态交互在整个活动中演变。虽然可以从视频中检测和跟踪实体，但是构建能够自动发现活动的时间结构并且原生地反映这些交互的复杂和错综复杂的性质的图模型是具有挑战性的。目前可用的方法应用条件随机场[14，17，18]和图神经网络[6，30]来建模时空实体交互图。这些模型假定了视频的时间结构的知识，并且限于将活动和示能表示标签分配给片段的任务。而不是这种级联的方法，我们利用这样一个事实，即事件的结构和内容是紧密耦合的，可以相互支持，以达到最佳的解决方案，16042联合发现方案。这样的方案还允许打破视频中的实体总是活动的并且连续地交互的常见假设。实际上，与定期捕获的视频帧不同，实体之间的交互在时间上稀疏地发生。这表明交互图中的时间关系可以被修剪成更简洁和有效的图结构。实体的异步生命的真实建模允许它们独立地行动，并且仅在需要时更新它们的状态。有鉴于此，我们引入了异步稀疏交互图网络（ASSIGN），这是一个用于稀疏和异步人-对象交互的联合ASSIGN的原则是，每个实体在视频中都有独立的生命，每个实体都以自己的节奏和时间与共存的邻居进行行为和互动使用灵活的两层动态图网络联合发现事件的时间结构和标签，该动态图网络可以进行推断并进行端到端的训练，而不依赖于事件的外部时间分割。我们证明了分割和标记能力的ASSIGN上的两个主要的人-物体交互数据集，其中ASSIGN达到卓越的定量性能和更现实的定性结果时，与相关的方法。总之，本文做出了三大贡献：构建了第一个联合学习人-物交互活动时间结构和内容标签的端到端图模型在社交活动的背景下有效地对稀疏和异步的实体生活进行建模;以及允许有效的关系推理，可以跳过不必要的操作，从而提高对各种事件结构的健壮性。2. 相关工作2.1. 视频中的人机交互传统的视频HOI建模方法都是基于马尔可夫随机场（MRF）的变化Kop- pula等[17]使用MRF对具有完全连接的空间和时间边缘的视频中的实体进行建模。它还开始使用子活动片段作为时间单位的趋势。Koppulaet al. [17]扩展到ATCRF模型[18]，该模型预测未来的子活动/启示并从框架级节点收集特征。ATCRF进一步发展为GP-LCRF [14]，以降低帧级人类表示的维度。ATCRF的另一个扩展是递归CRF [33]，其中CRF被置于具有有效置信度计算的贝叶斯过滤下随着近期随着时空关系模块的进步，类似MRF的模型被推进到具有递归神经网络（RNN）和图神经网络（GNN）的更有效的实现中。Jain等人[12]提出分解HOI中的动态关系，并用RNN的混合模型对这些因素进行建模。Qi等人[30]提出了图形解析神经网络（GPNN），它允许自适应地推断空间图形拓扑。Ghosh等人[6]扩展的GNN与堆叠的沙漏网络[27]用于标签预测。MRF和GNN系列模型在预测HOI标签方面是可靠的，但它们本身不能执行时间分割，并且需要在推断之前或推断期间另一方面，ASSIGN直接从帧级特征中学习分割和标记这种联合能力也是通过从自然语言处理中借用的活动语法（即随机语法[28]和Earley树解析器[29]）来约束HOI的几项努力的目标。这些约束提高了通过外显调节语法学习实体之间的关系的能力，但同时限制了它们在该过程中的灵活性。与基于语法的方法相比，ASSIGN的监管较少，但对噪声不太敏感，并且对问题的大小更具可扩展性我们认为ASSIGN是一种补充方法，也可以进一步与语法集成。所有以前的作品之间共享的是假设实体是同步的，并不断更新其状态。这种过度简化是不自然的，并且是诸如过度分割的实际问题的来源。在这项工作中，我们直接挑战这一假设，通过建模的独立行为和稀疏的实体之间的相互作用。2.2. 动作分割动作分割是另一种工作方式，它与我们的目标相同，即找到视频中活动的时间结构。值得注意的工作包括半马尔可夫模型[35]，空间词袋上的多类SVM [9]和分段RNN [16]。最近，CNN方法主导了动作分割文献[20，21，22]。例如，Farha和Gall [5]提出了一种多级CNN（MS-TCN），使用截断MSE损失来处理过度分割。transParser [34]从具有局部和全局损失的子动作标签中学习时间分割，而无需监督。与活动单独建模的工作不同，我们探索了人与对象之间的交互，并考虑了整个视频中人类子活动与对象启示之间的关系。2.3. 稀疏和异步事件建模事件的稀疏性和连续性一直是信号处理界的建模目标尼尔···16043不图2：异步稀疏交互图网络（ASSIGN）架构包含两层时空图网络。在每一层，图形节点表示人类（圆形）或对象（三角形）实体。空间边缘用消息传递（蓝色曲线箭头）建模，时间边缘用递归网络（水平线）建模ASSIGN的帧级在每个时间步长更新每个实体，并在每个步长（向上箭头）决定相应的段级实体是否改变状态（实心菱形）或跳过更新（空心菱形）-详情见第1.2节。三点三稀疏的变化信号导致了第二节中分配细节的分段级别三点四段标签由第二层在更新操作符处生成等人[26]扩展了长短期记忆（LSTM）单元[10]公式，其中包含一个“时间”门，它引入了“打开”和“关闭”循环，以允许状态更新的稀疏性。类似地，Campos et al.[2]通过学习由一个正则化的二进制决策，将稀疏性引入RNN更新视频中任意数量的人和物体。该问题定义在一个包含N个实体（人和物体）的T帧视频上，通过检测和跟踪这些实体来提取它们的特征。第e个实体由时间序列表示，跳过冗余状态更新的预算损失相比帧级特征序列Xe={xe}一起在这些工作中，我们跳过状态更新，不仅降低了计算复杂度，而且还匹配人类活动的语义。此外，ASSIGN在充分利用密集输入信号进行稀疏活动决策方面更为先进。在处理自然稀疏信号时，Sekikawa et al.具有类标签CE。在人机交互中，这个标签包含人或对象的值。HOI识别问题被定义为使用输入{Xe，ce}e=1. N，以生成每个实体y的时间分割。 F.或第三个实体，分割是形式Se=Se，Se，. . . ，s e，其中第k个-12n e[32]一种用于实时异步事件的EventNet来自基于事件的摄像机的流。EventNet过程BER段由其开始时间和结束时间表示（这是下一段的开始时间）se=te，te。KKk +1事件通过一个双模块架构由输入定时事件和输出预测。异步数据来自O U。tput还包括片段标签的预测y e=y e，. . . ，ye实际上是子活动la-1Ne基于事件的摄像机也由扩展版本处理子流形稀疏卷积（SSC）[7]的版本[24]，通过跟踪每层的规则手册，扩展了SSC的空间稀疏建模，并在整个卷积映射中进行局部更新。这一系列工作与我们的公式之间的关键区别在于，我们从密集信号中探索稀疏信息，而不是假设信号已经稀疏。3. 方法3.1. 问题公式化我们感兴趣的是学习视频中人-物交互（HOI）以前的作品考虑了一个人[18，30]或两个人的手与多个物体相互作用的特殊情况[4]。我们以一种通用的方式来处理这个问题，人类的bels和物体的affordance标签。对于人实体，段标签是子活动的名称，而对于对象实体，段标签这些标签是相互关联的;例如，人类的子活动饮酒通常与一杯可饮用的启示重叠但是，它们不需要完全对齐。一个物体在所有不涉及它的人类活动建模这些稀疏和异步的关系是这项工作的目标。3.2. 异步稀疏交互图网络我们的目标是学习的时间分割和标签的稀疏事件与异步实体的视频。为此，我们设计了一个两层异步递归图网络，称为异步稀疏交互图网络（ASSIGN）。ASSIGN是专业的t =1.不16044不我- -不he不Σex，ht，fx，hx，ht，fx，h--国家，他是两个RNN的级联输出he= →−het，f，←h−e .t，ft，ft，f图3：具有BiRNN单元（矩形）和段边界检测器（菱形）的帧级节点（仅对人类节点e1进行了详细描述）探测器认为电流空间边在同一时刻连接不同的实体，反映了相邻实体之间的动态关系。它是通过实体之间的成对消息来实现的，并且我们区分两种类型的空间消息：（1）来自相同类的实体的类内消息和（2）来自不同类的实体的类间消息这种区别很重要，因为关系的性质不同。例如，两个人类实体之间的协作必须与对象对人类的影响不同地建模。在时间t到实体e的计算公式为：循环状态和来自相邻节点的消息（蓝色弯曲箭头）由注意力机制（箭头的粗细）加权然后，它为每个实体做出决定minter→e=属性e ett，f- 是的Σ、K Ktt，fΣΣΣckc e.（二）取决于帧t是否是段的最后一帧。如果它是一个正信号（ue=1），概括的上下文h1在这里， Att是计算a的注意力运算符。邻居贡献的加权平均值tt，f被发送到段级节点，以预测完成的部分，并开始一个新的。的实体。在ASSIGN中，它由一个变体实现缩放点积注意力[36]，键和值在用两个时空图对视频中的每个实体进行建模时，一个在帧级，一个在段级（图1）。2）的情况。帧级图形节点处理视频帧并在每个时间步更新其状态，而段级图形节点处理视频帧并在每个时间步更新其状态。Att（q，{vi}i=1.n）=卢恩i=1softmax. q Tv布吕德第一章（三）层图节点稀疏地更新-仅当帧层伙伴发信号通知这样做时每个实体在考虑其邻居的情况下异步地决定其其中q是查询向量，vi是键/值向量的集合尺寸为n和，d是特征尺寸。实际上，该操作将隐藏状态3.3. 实体寿命的∗t，f和实体的输入x，并将它们用作ASSIGN的主要任务是学习视频中每个实体的时间分割。这就转化为在每个时间步做出二元决策，关键字/值和查询在权衡的相关性，交互的相邻节点（图中的蓝色箭头）3）。类似地，类内消息是在来自同一个类的实体集合上计算的当前段结束并且新段开始或不开始。子活动或启示的段变化取决于所讨论的实体的内部状态及其关系mintra→e=Atte ett，f- 是的Σ、K Ktt，fΣΣ Σk/=e，ck=ce .（四）与它的邻居。例如，一个人靠近一个杯子，使它成为一个可饮用的物体。这种洞察力在ASSIGN的帧级层的设计中得到了实现（图1）。3）。ASSIGN的帧级图层将X，c ee=1. N，并建立一个时空图。空间边表示实体之间的交互，边在整个时间内连接同一实体的实例，并表示这种实体的内部进展我们这些空间边缘类似于图形注意力网络[37]，除了它们随时间动态演变。最后，我们收集当前的时间递归状态与空间关系消息一起进行分割决策。这是由段边界检测器（图3中的菱形）完成的。它包含一个MLPγ和使用Gumbel-Softmax（GSM）算子的可微离散值估计器[13，23]：将时间边缘实现为双向RNN（BiRNN）并在第t处生成第e个实体的隐藏状态.ue=GSMγ. Σxe，he，m帧内，m帧间ΣΣΣ .（五）帧t t t，ft，ft，ft，f.HΣ.Σ.Σ16045t+1，ft−1，fxe，，e→−ftt−1，fΣt+1，f二进制输出u_e=1表示t是第e个实体的当前段的最后一帧，其他情况下u_t=0.这个分段信号控制着其中→−he←h-e前向和后向RNN段级节点，我们将在下面描述。= BiRNN、（1）←−16046不不t，sh，不不不t，s不L不ttt，sz→−h3.4. 标记已学习的片段ASSIGN的分段层管理分段的时空动态，分段的边界由帧层通过分段信号ue这是一个更好的反映世界，在那里，在休息实体（如。远离人类的对象）可以避免不必要的状态更新和过度分段预测。它还可以防止RNN的短期记忆快速衰减此外，在细分市场一级运作，和帧级状态Ht，f.此层也被建模为具有用于时间边缘的BiRNN的时空图，空间连接的注意力消息传递，类似于帧层。该图层的关键特性是其操作不像帧层那样密集和规则。每个实体可以根据所提供的信号u e来更新或复制其状态。这种自适应操作构成了ASSIGN的异步和稀疏行为。在每个时间步t，如果ue=1，节点从上下文收集信息，并使用其递归算子更新其状态这包括段级类间消息从原始信号（帧）中提取的动态过程（活动），因此它对变化的视频采样率更具鲁棒性。ASSIGN复杂的体系结构需要一个定制的培训过程，我们将在下一节中描述。3.5. 模型训练ASSIGN是一个有效的多任务学习框架，其中分割和标记任务以端到端的方式一起训练。因此，它是由两个任务的两个损失的集合来训练的。对于分割，我们最小化地面实况分割的平滑版本和等式中边界检测器的软输出之间的二进制5.minter→e=属性e.t−1，skt−1，sΣck/=ce 、（六）L分段=1吨Σ 1000NN公元前.ΣΣ你好，你好、（十一）和类内消息Tt=1t te=1mintra→e.e.keet，s=属性ht−1，s，ht−1，sk e，ck=ce 、（7）其中u_t是二进制阈值化之前u_t的实值并且u_e是平滑的版本（其中高斯滤波器为σ=其中，Att在Eq.3、这些信息是被...计算类似于方程中的帧级对应物2和4. 主要区别在于它们是稀疏计算的，4）对二值脉冲进行地面实况分割。对于标记，我们最小化预测的子活动和示能表示标签：只有在需要的时候。我们将这些段级消息与帧级状态h e以及消息m_inter_e和m_intra_e，L标签=1吨ΣΣ中国NLL（yn，yn）.（十二）t，ft，ft，fTt=1Nn=1先前由帧层计算，以形成段级特征ze：尽管标签是按段预测的，但这种损失是埃雷inter→e内部→einter→e内→内每帧计算，以便长片段贡献更多zt=ht，f，mt，f，mt，f ，mt，s，mt，s.（八）而不是短的。总损失是两项损失该输入被馈送到段级BiRNN单元（BiRNN）更新其状态：L=L标签+λL分段，（13）he= BiRNNs .e ett−1，set+1，sΣ.（九）其中λ是可调参数。虽然ASSIGN操作的稀疏性然后，使用更新的状态来识别完成的段训练中的障碍，其中来自段层中的标记丢失的信息梯度很少到达帧层. 为了克服这个问题，我们使用两阶段训练y=Softmax.Σσ（he）、（十）procedure.在阶段1中，我们关闭Seg，并在任何地方设置ue：= 1，以便帧层接收恒定的流其中σ是MLP，Softmax是在适当的标签集上计算的，无论是人类子活动还是对象示能表示。在ue=0的另一种情况下，节点跳过BiRNN更新并保持其当前状态。这种上下文中的跳过不仅在状态更新中创建稀疏性，也在互动中。向内的消息被跳过，而向外的消息到其他更新的邻居仍然可以发生。H1，←h−16047的指示信号。在第2阶段，我们打开完整模型，并继续在第2阶段学习的参数上进行训练。1. 我们在实验中观察到，这种两阶段训练导致更快的收敛和改进的最终结果。3.6. 实现细节对于实体特征，我们使用2048维ROI池特征，这些特征是从Faster R-CNN16048[31]模块在Visual Genome数据集上预训练[1][19]。我们使用ADAM优化器优化模型参数[15]，学习率为10−3。所有递归网络都是用门控递归单元（GRU）构建的[3]。视频被重新采样为统一的10 FPS帧速率在馈送到帧级网络之前。对于模型选择，我们使用10%的训练数据作为验证数据，并选择具有最低验证损失的模型。4. 实验4.1. 数据集我们在CAD-120 [17]和Bimanual Actions [4]数据集上评估ASSIGN。CAD-120是用于HOI识别的最流行的数据集。它包含120个RGB-D视频，其中4个受试者执行10个不同的活动，每个活动重复3次。每个视频描述一个人与1-5个对象交互总共有10个人类子活动和12个对象示能表示，每个实体都按帧进行注释。我们还对双手动作进行了实验，这是第一个HOI活动数据集，其特征是主体使用双手与物体（例如，左手拿钉子，右手打钉子）。它有540个RGB-D视频，6个受试者进行9个不同的任务，每个任务重复10次。每只手的动作都被标注为14个可能动作之一。对于这两个数据集，我们只使用RGB通道来提取帧特征。4.2. 实验设置我们评估ASSIGN的两个任务：联合分割和标签识别，标签识别与已知的分割。第一个任务要求模型为视频中的每个实体分割时间线并标记这些片段。第二个任务是第一个任务的特殊情况，其中地面实况分割是已知的，模型只需要标记所提供的片段。为了评估ASSIGN如何推广到看不见的主题，我们在两个数据集上进行了leave-one-subject交叉验证。以前的作品侧重于识别的标签，通常报告帧级的F1分数。然而，这些度量对于涉及分段的任务不是最佳的，因为方法可能严重过度分段或分段不足视频并且仍然获得合理的帧级分数。为了修正这一点，我们使用F1@k度量[20]来表示k = 0的常用值。10，0。25，0。50块如果预测片段与地面实况片段的IoU至少为k，则F1@k度量认为预测片段正确。错误的预测和错过的地面实况片段分别被计为假阳性和假阴性。对于联合分割和标记问题，F1@k是优于基于帧的度量的选择，并且广泛用于先前的分割工作[5，20，25]。注意，对于对于已知分割任务的标签识别，对于任何k，F1@k都是常数，并减少到片段级微观和宏观F1分数。我们报告这些指标，与文献中的其他报告结果4.3. 定量结果4.3.1联合分割和标签识别在这个主要的实验中，我们比较了ASSIGN与相关的最先进的方法和两个基于BiRNN的基线在CAD-120数据集上的联合分割和对于此任务，输入必须是原始视频特征，没有预生产分割的痕迹。两个以前的作品完全符合这项任务：ATCRF[18]rCRF [33]。其他主要的相关工作使用的预生产的分割信息，无论是显式或隐式的方式。随机语法[28]在训练中使用了测试部分的分割统计数据。Earley树解析器[29]将预先生成的片段级特征作为帧级特征进行重复，因此隐式地确认了真正的片段边界。关于这些用途的更具体细节载于补充材料。基线是BiRNN GRU的两种变体：独立BiRNN独立地对每个实体进行建模（即，没有空间消息），并且关系BiRNN增加了实体之间的密集空间交互。更多细节见补充材料。我们在表1中给出了F1@k的结果，在补充资料中给出了帧级F1ASSIGN在针对人类子活动和对象启示的F1@k度量的每个配置中均优于最先进的方法和基线这些结果展示了联合分割和标记的优势。其他方法采用单独的分割和标记步骤，并通过对许多不同的分割选项进行投票来生成其最终结果。这种策略的缺点是，当选民不同意时，会增加过度分割，并且如果他们犯了同样的错误，则无法纠正。BiRNN基线进行帧预测，缺乏关系建模，因此它们不能充分利用人与对象的交互。尽管更简单，但独立BiRNN在对象启示方面优于关系BiRNN。这可以通过对象启示的罕见变化来解释，这些变化被关系BiRNN中人类节点的密集消息所相比之下，ASSIGN允许稀疏消息传递并有效地克服了这些问题。4.3.2仅标签识别为了检验预测标签的唯一能力，并与更多以前的工作所做的任务相匹配，我们设置16049表1：没有预分割的联合分割和标签识别任务CAD-120数据集上的性能模型子活动对象功能显示70.2± 5.5 64.1± 5.3 48.9± 6.8 84.6±2.1 81.5 ± 2.779.2± 2.5 75.2± 3.5 62.5± 5.5 82.3±2.3 78.5 ± 2.7表2：具有地面实况分割的仅标签识别任务CAD-120数据集上的性能。未报告的结果标记为“-"。“子活动F1（%）对象Aff.F1（%）数据集，其中包含一个人的手与许多对象交互的活动我们将ASSIGN与BiRNN基线进行比较（第二节）。4.3.1）和Dreher et al. [4]，这是唯一的以前的工作提出了这种多人设置。模型Micro Macro Micro Macro表3比较了这些方法在GPNN*[30] 76.6 72.7 74.6 54.1S-RNN [12] 82.4 - 91.1-KGS [17] 86.0 80.4 91.8 81.5Lat. 线性-CRF [11] 87.0 86.0--ATCRF [18] 89.3 86.4 93.9 85.7STGCN [6]-87.2--分配89.9 87.8 95.9 91.9表3：具有多个人类实体的联合分割和标签识别任务双手操作数据集上的性能模型子活动F 1@0. 10F 1@0. 25F 1@0. 50Dreher等人[4]40.6 ± 7.234.8 ± 7.122.2 ±5.7印第安纳BiRNN 74.8± 7.0 72.0±7.0 61.8 ± 7.3Rel. BiRNN 77.7± 3.9 75.0±4.2 64.8 ± 5.3分配84.0 ±2.081.2± 2.068.5 ± 3.3进行一个更简单的实验，其中向所有方法提供真正的分割这跳过了ASSIGN的分割功能，并将其与所有以前的作品在其共同的实验协议中进行了公平的比较。表2显示了CAD-120数据集上的微观和宏观F1对于这两个指标以及子活动和对象启示，ASSIGN优于所有其他方法.这进一步证明了我们对具有异步和稀疏交互的实体的建模是一种更正确的标记片段的方法，与分割质量无关。4.3.3多个人类实体ASSIGN的通用公式使其易于应用于广泛的场景。因此，我们在多个人共同完成任务的情况下尝试ASSIGN。这个实验是在双手动作上完成的联合分割和标记任务。Dreher等人[4]具有最弱的性能，这可以归因于他们过于简单的图形网络，其忽略了手之间的交互并且没有考虑长期的时间上下文。BiRNN基线改进了Dreher等人的结果。[4]通过考虑较长的时间背景，但在达到不建模人与人之间交互的高准确性方面不足。ASSIGN通过引入交叉手空间交互和异步长期时间背景，对这些方法进行了重大改进。我们更高的性能也归因于与基线的基于帧的决策相比的段级标签决策通过定量实验表明，考虑实体时间生命的结构-内容联合探索是ASSIGN具有优异识别性能的关键特征接下来，我们将研究ASSIGN的定性结果和内部操作4.4. 定性分析我们比较了 ASSIGN 和相关方法在 CAD-120 和Bimanual Actions数据集上的输出。图4显示了CAD-120中的一个示例，其中ATCRF过度分割人类子活动。此外，由于片段在实体之间是同步的，因此这些错误会传播到对象并损害启示识别的准确性另一方面，ASSIGN通过支持稀疏和异步处理，成功地克服了过分割和错误传播图5显示了Bimanual数据集上的烹饪任务示例。Dreher等人 [4]考虑到有限的时间背景，并创建许多短片段。关系BiRNN在短段上有所改进，但无法处理长段（例如，右手的长搅拌动作）。ASSIGN具有更先进的建模能力，能够可靠地处理短期和长期的交互。F 1@0. 10F 1@0. 25F 1@0. 50F 1@0. 10F 1@0. 25 F 1@0. 50rCRF [33][18]第十八话Rel. BiRNN65.6±3.272.0±2.861.5±4.168.9±3.647.1±4.353.5±4.372.1±2.579.9±3.169.1±3.377.0±4.157.0±3.571.4±4.963.3±4.968.9±4.9分配88.0 ±1.884.8 ±3.073.8 ±5.892.0 ±1.190.2 ±1.882.4 ±3.516050图4：ASSIGN和ATCRF方法的分割和标记结果与服用药物活动的CAD-120数据集上的地面实况相比在本例中，ATCRF对人的长opening（）子活动进行了过度分段。由于对象在ATCRF中与人同步，这些过度分割产生了多米诺骨牌效应，导致瓶子时间轴的不连贯结构。相比之下，ASSIGN允许人和对象的异步状态变化，并避免了这种类型的错误。图注：子活动--达、开、动、吃、喝、放、空;示能-可达的，可移动的，静止的，可移动的，可饮用的，可放置的。图5：烹饪任务的Biman- ual数据集上的分割和标记结果。在这个例子中，德雷尔等人[4]由于其模型的有限时间上下文，创建了许多虚假的短片段。关系BiRNN基线在短子活动上有所改善，但无法处理较长的事件，例如长stir（）动作，因为循环记忆很快就会忘记。另一方面，ASSIGN通过适当地跳过冗余更新来很好地处理长操作。图例：闲置、接近、提起、搅拌、保持、后退、倾倒和放置。在图6中，我们分析了在两个ASSIGN级别上对象相对于人的注意力分数在框架级别，人类会更加关注特定对象，以便在子活动之间进行转换时做出清晰的决策。在段级别，注意力更加均匀，这是合理的，因为更新是稀疏的在每个稀疏决策点，人类需要考虑多个相邻对象来识别其子活动的标签4.5. 消融研究为了理解ASSIGN各个组件的作用，我们切除了几个关键模块，并在CAD-120数据集上评估了这些变体（表4）。首先，空间消息传递在实体建模中具有关键作用表4：CAD-120数据集上的消融研究。模型子活动对象功能显示图6：在两个层上从对象到人的消息的注意力分数。对相关对象的敏锐和强烈的关注被用于在帧级收集关键信息。在进行全面考虑的部分一级，注意力更加一致交互作用（第1行）。其次，我们通过添加分割损失来连接标记和分割任务，这也是获得良好联合结果的必要条件（第2 行）。在这种联合训练方案之上，ASSIGN通过使用异步和稀疏交互约束而变得特殊这一创新显著提高了对各种活动结构的鲁棒性（第3行与第5行）。最后，预训练的策略与密集模型（见节）。3.5）有利于学习过程并支持模型达到最高性能（第4行与第5行）。5. 结论我们设计了ASSIGN，这是一个双层图网络，可以在预测活动内容的同时探索活动结构。ASSIGN模型的人机交互比以前的方法更正确，允许的代理实体有异步的生活。ASSIGN中的相互作用是稀疏的，因此对不同的片段长度和活动进展更鲁棒。这些优点导致在多个数据集更高的性能此外，这种性能在更大的场景变化中始终比任何其他方法都强。对ASSIGN操作的深入分析表明，强大的性能来自于处理过度分割或欠分割错误的新能力，而这些错误正是错误模型所遭受的。从时间序列中提取结构的通用能力表明，ASSIGN可以很容易地适用于其他领域和应用程序。F 1@0.10F 1@0.50F 1@0.10F 1@0.501 w/o消息传递74.555.089.074.42 w/o seg. 损失84.369.989.278.63 w/密集更新85.570.390.679.84 w/o预培训87.671.691.178.95全ASSIGN模型88.073.892.082.416051引用[1] Peter Anderson ， Xiaodong He ， Chris Buehler ，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下的图像字幕和视觉问题回答的关注。2018年IEEE/CVF计算机视觉和模式识别会议，第6077-6086页，2018年6月。3.6[2] V'ıctorCampos ， BrendanJou ， XavierGiro'-iNieto ， Jordi Torres ， and Shih-Fu Chang.SkipRNN：学习在递归神经网络中跳过状态更新。在第六届学习代表国际会议上，ICLR 2018，2018年2月。二、三[3] Kyunghyun Cho ， Bart van Merrienboer ， CaglarGul- cehre，Dzmitry Bahdanau，Fethi Bougares，Holger Schwenk，and Yoonne Bengio.使用RNN编码器-解码器学习短语表示，在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，第1724-1734页。ACL，2014年。3.6[4] ChristianRGDreher、 Mirk oW aéchter和 TamimAs-四人。使用图网络从双人演示中IEEE Roboticsand Automation Letters，5（1）：187-194，2020年1月至2020年1月。3.1、4.1、3、4.3.3、4.4、5[5] Yazan Abu Farha和Jurgen Gall。MS-TCN：用于动作分割的多级时间卷积网络。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第3570-3579页。IEEE，2019年6月。2.2、4.2[6] 帕拉比·戈什，姚毅，拉里·戴维斯，阿贾伊·迪·瓦卡兰. 用于动作分割的堆叠时空图在IEEE Winter计算机视觉应用会议上，第576-585页，2020年。1、2.1、2[7] 本杰明·格雷厄姆，马丁·恩格尔克，劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。2018年IEEE/CVF计算机视觉和模式识别会议，第9224-9232页，2018年6月。二、三[8] Abhinav Gupta，Aniruddha Kembhavi，and LarryS Davis.观察人与物体的交互：使用空间和功能兼容性进行识别。 IEEE transactions on patternanalysis and machine intelligence ， 31 （ 10 ）：1775-1789，2009年10月。1[9] Minh Hoai，Zhen-Zhong Lan，and Fernando De laTorre.视频中人体动作的联合分割与分类。CVPR2011，第3265- 3272页，2011年6月。2.2[10] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。Neural computation，9（8）：17351997年11月二、三[11] 胡宁航， Gwenn Englebienne ， Zhongyu Lou 和BenJAK roüse。学习活动识别的潜在结构在2014年IEEE机器人与自动化国际会议（ICRA），第1048-1053页，2014年5月。2[12] AsheshJain ， AmirRoshanZamir ， SilvioSavarese，and Ashutosh Saxena.Structural-RNN：时空图上的深度学习。2016年IEEE计算机视觉和模式识别会议（ CVPR ），第 5308-5317 页。IEEE，2016年6月。2.1、2[13] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用Gumbel-Softmax进行分类重新参数化。在第五届国际学习表征会议上，ICLR 2017，November 2016. 第3.3节[14] 云江和阿舒托什·萨克塞纳。使用高斯过程潜在CRF为活动预期建模高维人类。机器人：科学与系统X机器人：科学与系统基金会，2014年7月。1、2.1[15] 迪德里克·P·金马和吉米·巴。Adam：随机最佳化的方法。在第三届学习表征国际会议上，ICLR2015，December 2014。3.6[16] Lingpeng Kong，Chris Dyer，and Noah A Smith.分段递归神经网络。在第四届学习表征国际会议（ICLR 2016）上，November 2015. 2.2[17] Hema Swetha Koppula，Rudhir Gupta和AshutoshSaxena。从RGB-D视频中学习人类活动和对象affor- dances。The International journal of roboticsresearch，32（8）：9511、2.1、4.1、2[18] Hema Swetha Koppula和Ashutosh Saxena。使用对象启示进行反应性机器人响应的反人类活动。IEEE模式分析和机器智能汇刊，38（1）：142016年1月。1、2.1、3.1、4.3.1、1、2[19] Ranjay Krishna，Yuke Zhu，Oliver Groth，JustinJohn- son，Kenji Hata，Joshua Kravitz，StephanieChen ， Yannis Kalantidis ， Li-Jia Li ， David AShamma，Michael S Bernstein，and Li Fei-Fei.视觉基因组：使用众包的密集图像注释连接语言和视觉。国际计算机视觉，123（1）：32-73，2017年5月。3.616052[20] 科林·李，迈克尔·D·弗林，雷内·维达尔，奥斯汀·赖特和格雷戈里·D·哈格。用于动作分割和检测的时间卷积网络2017年IEEE计算机视觉和模式识别会议（CVPR），第1003-1012页，2017年7月。2.2、4.2[21] 科林·李，奥斯汀·赖特，雷内·维达尔和格雷戈里·D·哈格。用于细粒度动作分割的分段时空CNN 。计算机视觉 Springer International Publ-lishing，2016.2.2[22] 彭蕾和托多罗维奇。用于视频中动作分割的时间2018年IEEE/CVF计算机视觉和模式识别会议，第6742-6751页，2018年6月。2.2[23] Chris J Maddison，Andriy Mnih ，and Yee WhyeTeh.具体分布：离散随机变量的连续松弛。在第五届学习表征国际会议（ICLR 2017）上，2016年11月。第3.3节[24] 尼科·梅西科默，丹尼尔·格里克，安东尼奥·洛奎西奥，大卫·斯卡拉穆扎.基于事件的异步稀疏卷积网络。计算机视觉施普林格国际出版社，2020年。二、三[25] Romero Morais、Vuong Le、Truyen Tran和SvethaVenkatesh。学习抽象和预测人类行为。2020年英国机器视觉会议论文集。英国机器视觉协会，2020年9月。第4.2节[26] Daniel Neil，Michael Pfeiffer，and Shih-C

下载后可阅读完整内容，剩余1页未读，立即下载