"D3TW：判别可微动态时间规整解决弱监督动作对齐和分割"

需积分: 0 54 浏览量更新于2023-12-20 收藏 1.6MB DOCX 举报

本文介绍了一种判别可微动态时间规整（D3TW）方法，用于解决视频中的弱监督动作对齐和分割问题。在这种情况下，训练过程中只有动作顺序的信息可用，对齐和分割的准确标签是不可用的。通过提出D3TW模型，本文显著提高了弱监督动作对齐和分割任务的性能。该模型通过判别建模和端到端训练，创新地解决了序列对齐问题，并能够绕过以前工作中通常遇到的问题。研究结果表明，D3TW模型在两个具有挑战性的数据集中的三个评估指标上优于当前最先进的模型。在本文中，我们从弱监督动作对齐和分割的定义开始，并讨论了弱监督动作对齐以及我们解决基于对齐的动态时间规整（DTW）的方法。在这种情况下，训练数据中只有动作的顺序信息可用，而准确的对齐和分割标签是不可用的。针对这一问题，我们提出了判别可微动态时间规整（D3TW）模型，这是第一个使用弱排序监督的判别模型。D3TW模型的关键技术挑战在于排序监督的损失函数通常使用动态规划制定，因此是不可微的。为了解决这一挑战，我们通过在动态规划中不断放宽最小算子来将对齐损失扩展为可微分。通过判别建模和端到端训练，D3TW模型显著提高了弱监督动作对齐和分割任务的性能。此外，我们在论文中介绍了实验结果，证明了我们的模型在两个具有挑战性的数据集中的三个评估指标上优于当前最先进的模型。在这些实验中，D3TW模型能够绕过以前工作中通常遇到的问题，并表现出更好的性能。通过使用弱监督的训练数据，我们的模型能够解决视频中的动作对齐和分割问题，并在动作理解任务中取得了显著的进展。在研究过程中，我们证明了D3TW模型的有效性和创新性，为解决视频动作理解问题提供了一个重要的工具和方法。总的来说，本文提出了一种判别可微动态时间规整（D3TW）模型，用于解决视频中的弱监督动作对齐和分割问题。该模型通过判别建模和端到端训练，创新地解决了序列对齐问题，并能够绕过以前工作中通常遇到的问题。实验结果表明，D3TW模型在两个具有挑战性的数据集中的评估指标上优于当前最先进的模型，为解决视频动作理解问题提供了一个重要的工具和方法。我们相信，D3TW模型将在未来的视频动作理解研究中发挥重要作用，为实际应用提供有力支持。

Figure2 (a) 在训练期间，只给出成绩单

𝓵

。输入视频首先通过 GRU 转发，以生成每

帧每个动作的后验概率

𝒑

(

𝒌

∣

𝑿

)

。 D3TW 是一个具有完全可微损失函数的判别模型，它允

许我们通过反向传播学习

𝒑

(

𝒌

∣

𝑿

)

，并将我们的方法与以前的工作区分开来。 (b) 对于对

齐，在测试时，我们的 D3TW 损失可以直接用于将给定的成绩单

𝓵

与视频序列对齐。 (c)

对于分段，在测试时没有给出成绩单。我们通过将视频与一组候选转录本对齐来减少分割

到对齐，并输出最佳候选作为分割结果。

形式上，给定视频帧的输入序列

𝑋

[

𝑥

,⋯,

𝑥

𝑇

]

∈

ℝ

𝑑

𝑇

，动作对齐的目标是预测逐帧

动作标签的输出对齐序列

𝑎

[

𝑎

,⋯,

𝑎

𝑇

]

∈

𝒜

𝑇

，在

𝑎

𝑖

遵循转录中的动作顺序的约束条件

下

𝓁

,⋯,

𝓁

𝐿

∈

𝒜

𝐿

。这里，

𝒜

是一组可能的动作。换句话说，我们想学习一个

模型

𝑓

(

𝑋

𝓁

)

𝑎

。弱监督的关键挑战是我们只有输入

(

𝑋

𝓁

)

作为训练

𝑓

(

⋅

)

的监督，

剩余16页未读，继续阅读

马李灵珊

粉丝: 40
资源: 297

"D3TW：判别可微动态时间规整解决弱监督动作对齐和分割"

Dynamic Time Warping

d2-net_weakly-supervised_action_localization_via_discriminative_embeddings_a

论文Latent Embedding Feedback and Discriminative Features for Zero-Shot Classification是如何对骨干网络进行微调后重新提取视觉特征的？有哪些具体实验步骤和方法？体现在伪代码上又是怎么样的？

semantic instance segmentation with a discriminative loss function

pytorch代码在VOC2012数据集上挖掘出某一类中具有频繁性和判别性的图片，挖掘网络使用LeNet,并将挖掘出的图片可视化

discriminative learning

learning deep features for discriminative localization

编写Python代码实现一种基于模式挖掘的算法，要求挖掘出Cifar10数据集某一类中具有频繁性又有判别性的图片。

以下哪种方法属于判别式模型(discriminative model)（ ） A 隐马模型(HMM) B 朴素贝叶斯 C LDA D 支持向量机

最新资源

以下哪种方法属于判别式模型(discriminative model)（） A 隐马模型(HMM) B 朴素贝叶斯 C LDA D 支持向量机