层次动作搜索的双曲曲线模型

87 浏览量更新于2023-10-23 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43211141寻找夸张Teng Long1分，Pascal Mettes2分，Heng Tao Shen1分，Cees Snoek2分电子科技大学1、阿姆斯特丹大学2摘要在本文中，我们介绍了层次动作搜索。从观察到的层次结构大多被忽略的行动文献，我们检索不仅indi-vidual行动，但也相关和相关的行动，给定一个动作名称或视频的例子作为输入。我们提出一个双曲动作网络，以动作层次和视频共享的双曲空间为中心。我们的判别双曲嵌入项目的共享空间上的行动，同时共同优化行动对之间的上下义关系和所有行动之间的大幅度分离。投影的动作作为双曲线原型，我们与投影的视频表示相匹配结果是一个学习空间，其中视频被定位在由不同子树形成的蕴涵锥中。为了在这个空间中执行搜索，我们从查询开始，并逐渐扩大其蕴涵锥，以检索分层相关的动作视频。在三个具有新的层次注释的动作数据集上的实验表明，我们的方法对按名称和视频示例进行层次动作搜索是有效的，不管查询的动作是否在训练过程中被看到。我们的实现可在https：//github.com/Tenglon/hyperbolic_action图1：行动搜索的双曲线。我们提出了一种在共享双曲空间中通过匹配动作和视频来搜索视频中的动作的方法通过这种方式，我们可以通过它们的名称或视频示例来搜索动作，同时遵守动作的层次结构。take可以是任意坏的，因为每个动作都被认为是同样不同的。为了克服这样的限制，我们增加了层次关系的行动搜索。我们的灵感来自于最近的进展双曲嵌入层次[16，29]。夸张为树层次结构提供了一个自然的空间，因为圆盘面积和圆的长度随着半径呈指数增长。1. 介绍本文试图通过名称或示例视频来搜索动作。在文献中的一个典型的方法是框架的检索作为一个识别问题。深度网络经过训练，将视频与动作类的独热向量进行匹配[6，18，37]，可用于使用类得分对视频进行排名。其他人通过直接将视频与嵌入的动作名称进行匹配[20，24，27，40]或通过与查询视频进行匹配[31，41]来研究动作搜索。虽然有效的搜索个人的行动，共同的所有这些工作是，行动之间的层次关系被忽略。隐含搜索是针对单个操作而不是相关操作组进行优化的因此，搜索错误-在阿姆斯特丹大学期间完成的工作。†通讯作者。空间[10，29]。像庞加莱圆盘这样的双曲空间实际上可以以任意低的失真嵌入树层次[10]。我们试图获得一个由动作层次和视频共享的双曲空间，这样我们就可以执行层次搜索，参见图1。我们扩展双曲嵌入与一个大的利润率分离项目行动歧视性的夸张。我们使用的双曲线原型和介绍，引人注意的投影视频表示的匹配投影的行动一旦训练好，我们将展示如何通过不断扩大共享空间中查询的蕴涵锥来检索操作我们在这项工作中有三点贡献。首先，我们introduce歧视性双曲嵌入位置的行动层次上的夸张适合搜索。其次，在共享双曲空间中，我们提出了一个投影动作和视频之间的匹配函数亲-体育武休闲房子举行动作层次EatDrink艺术太极卡波耶拉舞空手道个人护理Kickbox武43211142CCC一个一个|H|}联系我们H{|一||· · · | 一|A|{∈|||||}A{· · ·|一|}我们以视频中的动作位置为原型，缩小了视频与其对应动作原型之间的双曲线距离。第三，我们演示了如何在学习的双曲空间中通过名称和视频示例执行分层动作搜索实验上，我们发现，我们的双曲线方法的结果在层次连贯的行动搜索，优于非层次的方法，从视频文献和图像文献的层次方法。2. 相关工作2.1. 动作检索在动作搜索中，通常有两种方式来提供查询，要么通过动作名称，要么通过视频示例。对于通过动作名称进行查询，一个常见的方向是将名称与检测到的对象进行匹配[23，34，20，24]。动作名称和对象检测之间的匹配通常使用词嵌入或通过将动作与对象层次结构进行匹配来执行。最近，通过动作名称的查询也被研究用于搜索视频时刻[3，27]或视频剪辑[26，40]。这样的设置提供了从文本查询检索视频然而，调查的重点是个人行动;不可能搜索相关动作的组，而搜索中的错误可能是任意坏的，因为忽略了与其它动作的层次关系。对于按视频查询的示例，核心焦点在于利用来自输入视频的最近邻搜索在视频集合中高效地搜索。Ciptadi等人[9]提出了用于视频检索的基于运动的直方图表示。Douze等人[12]利用循环时间编码和乘积量化对运动进行建模，以实现快速视频搜索。一些作品还研究了视频示例查询的哈希技术[31，35，41]。这些工作中的共同点是，搜索的语义我们专注于视频中的分层动作搜索，在那里我们检索单个动作以及相关的相关动作。2.2. 分层图像搜索在视觉文献中，已经研究了用于图像识别[7，32]和图像检索[11]的类层次结构。除了监督识别之外，一些工作还显示了层次结构识别看不见的图像类别的潜力[1，2]。然而，在这些工作中，层次结构要么被扁平化为二进制表示[1]，用作标准损失的结构化成本[7]，要么层次结构范围限于来自相同父类的类[32]。在这里，我们寻求保持完整的行动高可靠性时，搜索动作视频。最近，Liet al. [22]提出通过首先生成三级层次来执行层次图像识别类，然后对所有三个级别进行softmax优化。这样的设置执行分级识别，但是该设置限于固定的分级。我们的方法适用于任何深度的层次结构和不同深度的树。Barz和Denzler [4]将类的层次关系嵌入到超球面上进行层次检索。虽然这样的设置提高了检索，忽略层次结构，我们在这项工作中的实验表明，夸张的层次动作搜索的问题提供了一个更合适的空间。许多作品已经研究了识别和搜索使用的原型与成对的语义类相似性。例如，Metteset al.[25]使用基于类之间的统一分离和词嵌入相似性定位的超球形原型。类似的方法已经在欧几里得空间[8，21]或学习流形[15]中提出。在这项工作中，我们也把类作为原型，但这样做是在一个超曲空间，在那里我们可以将层次关系之间的所有行动。3. 双曲作用网络对于层次动作搜索问题，我们给出了一组动作类=1，2，和它们的类属上位词类=+1，+2，+在一个层次中连接层次结构形成了一个树，所有上位词（父）和下位词（子）类。我们的目标是搜索动作，同时在对视频进行排名时遵守层次结构。为此，我们提出了一个双曲动作网络，它将动作和视频投射到一个共享空间Hn中，这是一个曲率为c的n维双曲空间，见图2。在本文中，我们特别使用Poincare盘Dn=xRncx1作为共享空间，与[29，36]一致<我们首先详细介绍如何在共享双曲空间上以区别的方式定位动作层次。其次，我们展示了如何将视频映射到同一个空间，以及如何执行动作层次结构和视频之间的匹配。第三，我们提出了分层行动搜索使用训练的网络。3.1. 双曲作用嵌入在我们的模型中的第一步是嵌入到共享空间Dn。其主要思想是将双曲空间投影到双曲空间上，并使用双曲空间中的作用的位置作为类原型。对于更小的y，我们学习P=p1，p2，得双曲余切值.|一|+|H|代表. 当前的工作重点是保护上位词-双曲嵌入中的下义关系[36，29，16]，我们使用双曲空间中的动作位置进行下游搜索任务。因此，我们提出了一个区分双曲嵌入层次，平衡层次关系和类之间的大间距分离。43231143··CC不CXCC}√不双曲视频嵌入动作层次判别双曲嵌入双曲线匹配指数映射视频表示动作视频图2：双曲作用网络概述。通过判别嵌入将层次中的动作映射到共享双曲空间上，得到动作原型。动作视频通过将它们馈送到3D ConvNet，然后是指数映射来投影在同一空间上。我们提出了一个匹配函数，以调整双曲线动作原型与投影的视频表示，使分层动作搜索。设P={（u，v）|u= h（v）}，其中h（v）是v的超词，表示正的超词对，N=树因此，在[16]之后，我们进一步用以下损失更新P{（u′，v′）|u′h（v′）为负对。我们建议，′ ′损失函数，以获得一个判别超，曲线嵌入：L2=h（u）=h（v）E（u，v）+h（u′）/=h（v′）max（0，γ−E（u，v）），（六）L1（P，N，P）=LH（P，N）+ λ·LS（P）.（一）损失函数由两部分组成。第一部分是类似于[29]的上下义关系损失：其中E（u，v）测量u和v之间的角度。等式（6）的第一项鼓励u和v在它们共享上位词（（h（u）=h（v））时指向相似的方向如果u′和v′不共享一个上位词（h（u ′）/ = h（v ′）），则第二项将u ′和v ′有角度地推开可变Σ。e−dc（u，v）γ表示将u′、v′推到至少γ的裕度因子LH（ P，N）=（u，v）∈P日志Σ（u，v′）∈Ne−dc（u，v′）.（二）距离对于等式（6）的全部细节，我们参考[16]。我们首先使用等式（1）中的损失优化我们的共享双曲空间。然后，我们使用第二部分将所有非上位词类分开：LS（P）=1T（P<$P<$T−I）1，（3）其中，P<$表示P <$的矢量2-正规化，其中P<$={p1，p2，···，p|一|}非上位词操作的原型。在上述损失公式中，dc（，）表示双曲线距离：等式（6）。由于P驻留在双曲空间中，我们使用黎曼梯度下降来优化这两种损失[5]：Pt+1=Pt−ηt <$RL（Pt），（7）其中，R是黎曼梯度，ηt是学习率。3.2. 匹配动作和视频双曲线视频嵌入。二要2dc（a，b）：=10carctanh.Σc−bc、（四）将视频与共享双曲空间中的动作进行匹配。让v∈RW×H×T×3表示由T帧组成的视频。我们首先将v馈送到3D ConvNetv=（v;θ）∈RD，式中，λc表示Dn中的莫比乌斯加成[38]，即：使用网络获得D.Σ1 + 2ca，b +cb2a+.Σ1−c参数θ 这个函数在欧几里得空间中，可以因此不直接与双曲作用相匹配a/cb：=1 + 2 ca，b+ c2a2b2。原型因此，我们通过指数映射将视频表示投影到双曲空间[17]：建议的损失公式扩展了标准的双曲线.. √λcǁvǁΣvΣ具有区分损失的嵌入，边缘分离主要原因是，在搜索中，expx（v）=xc丹哲2阿夫茨沃（五）43231144C、（8）我们的目标是对我们正在搜索的行为进行区分大的边缘分离可以实现这一目标。虽然我们的判别双曲嵌入的结果在树形区域的DN，有没有蕴涵的保证，即。一种偏序关系，要求每个子树的区域完全被它们的父树覆盖其中x表示将切空间xDn连接到Dn的切点。不同的x值导致不同的正切空间xDn。为了消除歧义，我们总是设置x=0。指数映射允许我们将Eu-clidean视频表示投影到可区分网络中的夸张上，我们将使用该网络进行最终匹配。43241145Ci=1一∈∈XC∀∈∈双曲线原型匹配。在我们的模型中，目标是训练3D ConvNet训练器，以最好地将视频与双曲线动作原型P匹配。不同于softmax交叉熵的one-hot向量，事实上的标准，在行动识别网络，我们的优化是监督P ∈ Dn。我们给出一个N个样本的训练集，{（v i，y i）}N、其中viRW×H×T×3表示第i个视频样本，yi表示操作标签。我们通过以下方式优化网络最小化负对数似然：J（θ）= − log p θ（y = k|v）。（九）在本文中，我们建议将似然本身定义为共享双曲空间中动作和视频嵌入之间的负双曲距离上的softmax：exp（−dc（e（v;θ），φc（k）图3：分层动作搜索。对于动作查询，我们从双曲空间中的投影开始搜索，并在所有方向上扩展查询的蕴涵锥。在扩大蕴涵视锥后，我们首先从兄弟动作视锥中吸收视频，然后是表亲视锥。只有在这之后，我们才能从其他视锥中检索动作。p θ（y=k|v）=Σ与、（10）k′exp（−dc（εe（v;θ），φc（k′）从查询到测试集中的每个候选项，ε e（v; θ）= exp c（ε（v; θ））。（十一）所提出的损失使视频的表示接近于超曲空间中动作原型的双曲位置。与[25]的精神相似，我们在投射到共享空间后保持动作原型固定。3.3. 分层动作搜索双曲动作网络在共享双曲空间上以分层方式对齐视频和动作标签。反过来，这使得能够分层搜索可见和不可见的动作，以及它们的分层兄弟。这种可能性背后的直觉如图3所示。通过双曲空间的设计，一个作用类的兄弟类落在同一个蕴涵锥下。我们提出了两种方法来执行分层动作搜索作为其蕴涵锥的函数。这两种方法分别是按动作名称搜索和按视频示例搜索。对于查询qDn，我们计算到候选样本xi的距离为：dq（xi）= 1 −cos（q，xi）。（十二）搜索是通过计算上述距离函数到测试集中的所有视频来执行的通过网络的设计，搜索从q开始，搜索区域在所有方向上成角度地增长这个增长区域可以解释为围绕q扩展的圆锥。尽管等式（12）简单，但是使用共-搜索的正弦距离直接与双曲空间中的动作层次结构因为动作树形成蕴涵锥，所以双曲空间中从动作到它的兄弟（具有相同父的动作）的角度小于从动作到不相关动作的角度。因此，我们只需要计算余弦距离在距离上获得遵守分层的搜索行动关系。我们调查两个搜索设置。按操作名称搜索。在第一个搜索设置中，我们从层次结构中的动作a开始执行分层搜索。我们的设置允许搜索可见和不可见的动作，其中对于可见的动作，在双曲线对齐期间使用了标记为动作a的视频，而在后者中则没有。令S表示在一个候选集合中的一组视频我们在双曲作用嵌入φc（a）和双曲视频嵌入φe（s;θ）sS之间执行最近邻搜索。 S中的所有视频都根据它们的余弦距离进行排名。以视频为例。给定我们的一般设置，也可以通过提供查询视频q来分层搜索动作。我们在S中执行最近邻搜索，类似于按动作名称进行的分层搜索。4. 实验装置4.1. 层次检索数据集为了实现分层动作搜索，我们修改了三个著名的动作数据集：Activity-Net 1.3 [13]、动力学[6]和时刻[28]。我们包括行动层次结构和行动分裂看不见的行动搜索实验。对于层次结构的修订，我们遵循ActivityNet [13]的协议并使用ActivityNet分类法1。可见/不可见的划分遵循[19]的设置，统计数据见表1。所有修改的层次结构和可见/不可见的分区都可以在我们的实现中使用。Hierarchical-ActivityNet. 在ActivityNet [13]中，每个未修剪的视频由一个或多个动作片段组成。1 美国劳工部美国时间使用调查。电子邮件www.bls.gov/news.release/pdf/atus.pdf摔跤体育搜索相扑目标浓度同胞锥表亲锥相扑43241146∼∼∼∼ ∼∼C∼∼∼C表1：基于现有数据集的分层行动搜索数据集。Hierarchical-ActivityNet和Hierarchical-Kinetics中的操作位于其各自层次结构的第三层，而Hierarchical-Moments在所有级别都有操作源视频数量每个级别的动作可见/不可见分割培训验证1234看到看不见[13]第十三话15,2907,569638200-16040[39]第三十九话：77,1174,897533200---[28]第二十八话800,57533,899452241912730039我们根据提供的节奏注释将视频修剪成剪辑。修剪从200个类中产生23K修剪视频，15K用于训练，8K用于验证。我们在验证集上报告我们的结果。ActivityNet带有一个动作层次结构，我们对其进行了轻微的修改，以使树更加平衡，并删除了一些冗余的上位词。层次注释是在动作级而不是视频级执行的，这使得注释负担轻。对于看不见的动作的搜索实验，我们使用160个可见的动作进行训练，40个看不见的动作进行评估。分级动力学。迷你动力学[39]包含来自200个班级的83K视频， 78K用于培训，5K用于用于验证。官方的等级制度有两层，重-卢恩数值坍缩共产生33个父节点。我们进一步添加了一个包含六个祖父节点的层次层，以及类似于 Hierarchical-ActivityNet的父层次结构的轻微修改。我们不对此数据集执行零射击学习实验，以避免与Kinetics上3DConvNet的预训练潜在重叠[6]。分层矩Moments-in-time [28] contains来自339类的100万个剪辑。80万培训费和34K用于验证。Moments-in-time没有层次结构，但类名是Verb-Net的子集[33]。我们使用VerbNet为这个数据集提供一个动作层次结构对于这个数据集，我们使用300个可见动作和39个不可见动作进行评估。4.2. 实现细节动作嵌入是在Nvidia GTX 1080 TI上使用黎曼亚当 [5] 训练的，学习率为 10−4 视频嵌入网络是ResNeXt-C3 D [18]在Kinetics [6]上预训练的。我们通过平均池化16帧的组来获得视频表示。我们使用geoopt2进行黎曼优化，使用PyTorch [30]进行实现。4.3. 评估指标我们将数据拆分如下：对于按视频查询的搜索，每个查询的池集是排除2https://github.com/geoopt/geoopt图4：双曲线曲率对Hierarchical-ActivityNet的层次动作搜索性能的影响。我们报告兄弟姐妹和mAP，以及标准的mAP。当c= 0时，空间坍缩为欧几里得空间，这会影响分数。对于大曲率，由于数值不稳定性，结果下降。我们推荐一个00，我们有一个夸张，而对于c= 0，我们恢复了欧几里得43241147∞≤≤∞表2：双曲维数对层次动作搜索准确性的影响。我们的方法在低维空间中获得了高分，优于使用相同基础网络的标准softmax交叉熵优化。当扩大共享双曲空间时，得到了进一步的改进。低高维度5102050100200地图ResNeXt-C3D-----0.728本文0.6710.7600.7740.7850.7870.789同胞mAPResNeXt-C3D-----0.889本文0.7120.9240.9470.9490.9500.948抗肿瘤蛋白-mAPResNeXt-C3D-----0.945本文0.7830.9550.9690.9710.9710.970表3：超曲线嵌入中的区分损失对分层活动网络的影响。忽略区分（λ= 0）会伤害mAP ，而忽略层次（λ=）会伤害兄弟mAP和分支mAP。对两种损失进行同等加权的效果最好。分层活动网络地图S-mAPC-MAPλ=00.7770.9500.971λ = 0。10.7790.9490.969λ= 10.7890.9480.970λ= 100.7930.9400.966λ=∞ 0.801 0.891 0.936空间我们在图4中通过视频演示了c的不同选择对查询的影响。我们报告了sibling-mAP和siblingin-mAP以及标准mAP。我们观察到欧几里德空间获得了次优结果，例如c=0时的较低分数。对于0

下载后可阅读完整内容，剩余1页未读，立即下载