零样本事件检测的统一嵌入和度量学习

107 浏览量更新于2023-10-16 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1零样本事件检测的统一嵌入和度量学习Noureldien Hussein，Efstratios Gavves，Arnold W.M.阿姆斯特丹大学Smeulders QUVA实验室{nhussein，egavves，a.w.m.smeulders}@ uva.nl摘要无约束视频中的事件检测被认为是具有两种模态的基于内容的视频检索：文本和视觉。给定一个描述新事件的文本，目标是相应地对相关视频进行排名。这个任务是零样本的，没有视频的例子是给新的事件。相关的工作训练一个银行的概念检测器外部数据源。这些检测器预测测试视频的置信度分数，并相应地进行排名和检索。相比之下，我们学习一个联合空间，其中嵌入了视觉和文本表示。空间将新事件投射为预定义事件的概率。此外，它还学会测量事件与相关视频之间的距离。我们的模型是在公开可用的EventNet上进行端到端训练的。当应用于TRECVID多媒体事件检测数据集时，它的性能远远优于最先进的技术。1. 介绍TRECVID多媒体事件检测（MED）[1，2]是事件视频的检索任务，具有现实的声誉它有两种口味：few-exemplar和zero-exemplar，后者意味着模型不知道视频示例。虽然期望几个例子似乎是合理的，但实际上这意味着用户必须已经有了任何可能的查询的索引，这使得它非常有限。在本文中，我们专注于零样本事件视频搜索。在没有任何视频样本的情况下检索从未见过的事件的视频，例如“renovating home”，提出了若干挑战。一个挑战是如何弥合视觉和文本语义之间的差距[3，4，5]。一种方法[3，6，7，8，9，10]是学习外部数据源上的概念检测器的字典。然后，使用这些检测器预测测试视频的分数。然后对测试视频进行相应的排名和检索。天生的弱点-图1.我们提出的零样本事件检测的问题，从预定义的事件库学习。给定事件“移除干墙”或“安装墙壁时间”的视频示例该方法的优点在于测试视频的呈现被简化为来自概念词典的有限词汇。另一个挑战是如何克服训练和测试事件之间的域差异。虽然语义查询生成（SQG）[3，8，9，11]通过从事件查询中提取关键字来缓解这一挑战，但它并没有解决这些关键字与事件本身的相关性例如，关键字“人”与事件“汽车修理”不相关，我们对零样本事件的入口是，它们通常与其他可能看到的事件具有很强的语义相关性[12，13]。例如，“装修房屋”这一新奇事件与“贴墙砖”、“拆除干墙”甚至“油漆门”有关。因此，新事件可以被投射到先前事件的存储库中，对于这些存储库，可以预先获得各种形式的知识源，例如EventNet中的视频[14]或WikiHow中的文章[15]。这些来源不仅提供了大量但仍然有限的事件集合的视频示例，而且还提供了事件的文本描述与其相应视频的关联。一篇文章可以用文字描述事件：它是关于什么的，10961097∎∎细节和语义。我们注意到，这样的事件的视觉-文本存储库可以作为知识源，通过它我们可以解释新的事件查询。对于零样本事件检测（ZED），我们提出了一个具有以下新颖性的神经模型：1. 我们制定了一个统一的嵌入多模态（例如。视觉的和文本的），其使得能够实现用于事件之间的最大区分的对比度量。2. 文本嵌入将新事件的表示作为预定义事件的概率，这样它就跨越了更大的可接受表达式空间。3. 我们利用一个单一的数据源，包括对事件的文章和相关的视频。单个源可以实现从多模态个体对的端到端学习。我们的经验表明，我们的新颖性导致性能的改善。我们在TRECVID多媒体事件检测（MED）2013 [1]和2014 [2]上评估了该模型。我们的研究结果表明，国家的最先进的显着改善2. 相关工作使用投影的测试视频yt和测试查询表示y之间的距离度量来进行检索。[16，17]投影网络视频v的视觉特征x转换成视频的文本标题的术语向量表示yt.然而，在训练期间，模型利用测试事件的文本查询来学习更好的术语向量表示。因此，这限制了新事件查询的推广。文本嵌入和视觉检索。如图2（b）所示，使用预先训练或学习的语言模型fT将给定的文本查询t投影到xt∈ X中。[18] 利用免费提供的每周标记的网络视频。然后它传播标签来测试来自最近邻居的视频。方法[7，8，9，10，3]具有类似的方法。给定文本查询t，语义查询生成（SQG）提取N个与测试查询最相关的概念{ c i，i ∈N}然后，预先训练的概念检测器预测测试视频v的概率得分{s i，i∈N}。聚合这些概率导致最终视频分数sv，对哪些视频进行排序和检索。[9]学习加权平均。这个家庭的缺点是，（一）视频布雷夫特文本空间文本查询视频作为几个概念的概率得分是在-表示.存在于视频中但在概念字典中缺失的任何概念因此未被表示。（b）第（1）款视频吉夫阿勒特视觉空间文本查询视觉文本嵌入和语义检索。如图2（c）所示，训练视觉f-V和文本f-T模型，以将视觉x和文本y特征投影到语义空间语义空间Z.在测试过程中，排名分数是距离（c）第（1）款吉夫茨∎∎∎∎∎∎∎在投影zv，zt在语义空间Z.视频视觉特征提取视觉特征嵌入∎∎余弦相似度文本特征嵌入文本查询文本特征提取[19] 将视频概念投射到一个高维度的词汇空间另外，它将基于概念的特征投影到空间中，这克服了查询和视频概念之间的词典不匹配。[20]将低级和中级视觉特征的融合嵌入到分布式语义流形中[21，22]。在单独的步骤中，它将基于文本的概念嵌入到流形中。第三个家庭，见图2（c），优于其他家庭，图2.三个家庭的零样本事件的方法，保护：（a）、（b）和（c）。它们建立在先验学习的特征表示之上（即，初始表示），例如用于视频v的CNN特征x或用于事件文本查询的word2vec特征yt.在后处理步骤中，测量嵌入特征之间的距离θ相比之下，我们的模型属于一个新的家族，如图（d）所示，因为它使用单个数据源学习统一的嵌入和如图2（a）、（b）和（c）所示，我们确定了三种ZED方法视觉嵌入和文本检索。如图2（a）所示，给定表示为x∈ X的视频vi和表示为y∈ Y的相关文本t。然后，训练视觉模型fV 以将x 投影为yv∈ Y，使得（yv，y）之间的距离最小化。在测试时间，视频排名和见图2（a）、（b）。然而，[19，20]的一个缺点是分别嵌入视觉和文本特征zv，zt。这导致了另一个缺点，必须在后处理步骤（例如，余弦相似性）。统一嵌入和度量学习检索我们的方法属于一个新的家族，见图2（d），它通过以下方式克服了[19，20]的缺点它在单个数据源上进行训练，从而能够将多个模态的特征统一嵌入到度量空间中。因此，嵌入特征之间的距离由模型使用学习的度量空间来测量。辅助方法独立于以前的工作，以下技术已被用于改善结果：v视频（d数据语料库不v相似性分数文本查询度量空间不1098我i j ijJ图3. 模型概述。使用M个事件类别和N个视频的数据集Dz每个事件都有一个文本文章和一些视频。视频x对于属于具有文章t的事件的文本标题k，我们分别提取特征x、yk、yt在顶部，网络fT学习将标题特征yk分类到M个事件类别中的一个在中间，我们借用网络fT来嵌入事件文章然后在底部，网络fVv学习嵌入视频功能. x作为zZ，则距离为-Tweenzv，zt在学习的度量中，空间Z.自定步重新排序[23]、伪相关反馈[24]、事件查询手动干预[25]、特征的早期融合（动作[26，27，28，29，30]或声学[31，32，33]）或概念分数的晚期融合[17]。所有这些贡献都可以应用于我们的方法。视觉表示。ConvNets [34，35，36，37]提供帧级表示。为了将它们驯服为视频级对应物，文献用途：i-帧级滤波[38] ii-向量编码[39，40] iii-学习池化和重新计数[10，41] iv-平均池化[16，17]。此外，低-可以使用水平动作[28，29]、中间水平动作[26，27]或声学[31，32，33]特征。文本表示。代表文本、文献用途：i-顺序模型[42] ii-连续词空间表示[22，43]iii-主题模型[44，45] iv-词典空间表示[17]。3. 方法3.1. 概述我们的目标是零样本检索事件视频的相关性，一个新的文本描述的事件。更具体地说，对于零样本视频数据集Dz={v z}，i = 1，. . . ，L和考虑到任何未来，tex-我们从数据集Dz={v i，k i，l j，t j}，i=1，. . . ，N，j =1，. . . ，M由事件分类组织，我们既不期望也不要求事件与任何未来事件查询重叠。数据集由M个事件组成。每个事件都与事件的文本、文章描述相关联，分析它的不同方面，例如：（i）主体和客体的典型外观（ii）它的程序（iii）完成与之相关的任务的步骤。数据集总共包含N个视频，其中v i表示数据集中的第i个视频，其中元数据为k i，例如，视频的标题。视频与事件标签li和它所属的事件的文章描述ti相关联。由于多个视频属于同一事件，因此它们共享该事件的文章描述我们模型的最终目标是零样本搜索事件视频。也就是说，由用户提供未知的文本查询，我们希望检索那些相关的视频。我们在训练过程中说明了我们提出的模型，图3. 该模型由两个部分组成，一个是视觉嵌入fV（·），一个是视觉嵌入fT（·）。我们的最终目标是视频的排名，v iv jv k相对于它们与查询描述的相关性，或者成对项v iv j、v jv k和v iv k。让我们假设一对视频vi，vj和查询描述。iztiont，其中视频v比v与查询t更相关。在实际事件描述测试中，我们想学习一个模型f（·），根据与tz的相关性对视频vz进行排名，即：我们的目标是一个模型，学会把视频在正确的相对序，即（v，t）<$（v，t）。这等效I jt z：v z<$v z→ f（v z，t z）> f（v z，tz）.（一）到一个学习视觉-文本嵌入的模型，dtv dtv，其中dtv是视觉-文本之间的距离i j i3.2. 模型由于我们专注于零样本设置，因此我们不能期望任何与测试查询直接相关的训练数据。因此，我们不能直接优化我们的模型的参数W，W在方程。（三）、在没有任何争议的情况下，（vi，t）的嵌入，dtv对于（vj，t）是相同的。由于我们想比较对（vi，t），（vj，t）之间的距离，我们将模型的学习设定为一个约束的最小化[46]第四十六话：1N22T V Lcon=hi·di+（1−hi）max（1−di，0），（2）rect数据，我们求助于外部知识数据库。更特别地，我们建议将未来新查询描述投射为已知查询描述的凸组合2Ni=1文本嵌入yk逻辑损失KLSIzℒL视频标题yzΣLSIℒ全损活动文章CNNzℒ对比损失视频标题视频视频视觉嵌入活动文章第001章：一个人第500章：一个人距离1099di=fT（ti;WT）−fV（vi;WV）2002年，（3）在外部数据库中，我们可以测量它们与数据库视频的相关性。其中fT（ti;WT）是查询描述ti到统一度量空间Z的投影，由下式参数化：1100我不WT，fV（Vi;WV）是视频Vi到由W V参数化的相同空间Z上的投影，并且h i是目标变量，当第i个视频与查询描述t i相关时，hi等于1，否则为0。当然，为了优化EQ。（2），我们首先需要定义方程中的投影fT（·;WT）和fV（·;WV）。（三）、文本嵌入。我们模型的文本嵌入组件fT（·;WT）如图3所示（顶部）。这个组件专门用于学习文本的投影输入-然而，在详细描述我们的模型fT之前，我们注意到文本嵌入不仅可以用于事件文章描述，还可以用于可能与数据集相关联的任何其他文本信息视频，如文本元数据。虽然我们预计视频标题不像相关文章那样具有描述性，但它们仍然可以提供一些有区别的信息-该组件专用于学习从视觉输入（即我们的零样本数据集Dz中的视频）到统一度量空间Z的投影。目标是投影属于语义相似事件的视频;将它们投影到空间中的相似区域。我们使用具有双曲正切非线性的浅层（两层）多层感知器对视觉嵌入fV（vi;WV）进行建模，适用于视频vi的任何视觉特征。端到端培训。在每个训练前向传递中，模型被给予三个数据输入，事件描述ti，相关视频vi和视频标题ki。从等式（3）我们观察到视觉嵌入fV（vi;WV）是一个新的嵌入。老化以最小化其与文本嵌入fT（ti;WT）的输出的距离。最后，所提出的模型的所有模块是可微的。因此，我们训练我们的通过最小化以下目标，如前所述[16，17]，可以与到事件类别。argminWV，WT卢，（五）我们将文本嵌入建模为浅（两层），ers）多层感知器（MLP）。对于第一层，我们采用ReLU非线性。第二层具有双重目的。首先，它将事件的文章描述投影到统一空间Z上。这种投影是特定于类别的，即属于同一类别的不同视频事件将共享投影。其次，它可以将任何视频特定的文本元数据投影到统一的空间中。因此，我们建议嵌入标题元数据ki，其唯一地与视频相关联，而不是事件类别。为此，我们为第二层选择softmax非线性，然后是附加的逻辑损失项，以惩罚标题mi相对于视频LU=Lcon+ Llog.对于三元组输入（vi，ti，ki），我们依赖于外部表示，因为我们的最终目标是零样本搜索。严格地说，视觉输入vi表示为CNN [35]特征向量，而文本输入ti，ki表示为LSI [45]或Doc2Vec [43]特征向量。然而，考虑到这些外部表示依赖于神经网络架构，如果需要的话，它们还可以进一步微调。我们选择冻结 CNN 和Doc2Vec模块来加速训练。最后，在本文中，我们提到统一嵌入的主模型，如模型U。推理。在训练之后，我们固定参数（WV，WT）。ΣNLlog=ΣM−y jlog f j（k i; WT）. （四）在测试时，我们根据等式在f（·）上设置函数i。（1）be等价于来自Eq的距离函数。（？？）.因此在ITi=1j =1总的来说，文本嵌入fj是用一个双重的测试时间，我们分别计算测试视频v和新事件描述t的嵌入（zv，zt）之间在学习的度量空间Z损失在心里。第一个损失期，见eq.（2）（3）注意最终的网络学习事件相关的文本投影。第二个损失期，见eq.（4）注意最终网络不过度拟合特定事件文章描述。后者至关重要，因为事件文章Dz中的描述将不会与未来的事件查询重叠，因为我们处于零样本检索设置中因此，将文本嵌入训练为仅对于这些事件描述是最佳的将可能导致严重的过度拟合。我们的目标和希望是，最终的文本嵌入模型fT将捕获事件感知和视频区分的文本特征。视觉嵌入。我们模型的视觉嵌入组件fV（·;WV）如图3所示（底部）。4. 实验4.1. 数据集在深入研究我们实验的细节之前，我们首先描述我们使用的外部知识来源。训练数据集。我们利用来自公开数据集的视频和文章。EvenNet [14]是一个从YouTube上收集的90000个事件视频，根据事件本体以分层的形式分类为500个事件。每个活动类别包含约180个视频。每个视频都有一个文本标题，几个标签和相关事件1101我们利用了EventNet中的所有事件都是从WikiHow[15]中获取的这一事实-WikiHow是一个包含各种人类活动的How-To文章的例如：“如何喂狗”或“如何插花”。因此，我们抓取WikiHow来获取与EventNet中所有事件相关的文章测试数据集。由于任务是零样本的，测试集与训练集不同。虽然EventNet用作培训，但以下内容用作测试： TRECVID MED- 13 [1] 和 MED-14 [1]。详细地说，它们是事件的视频数据集。27K视频有两4.3. 文本嵌入8910141624263839EventNet活动(a) LSI特性8910141624263839EventNet活动(b) 嵌入特征MED-13和MED-14版本，每个版本20起事件由于10个事件重叠，因此总共有30个不同的事件。每个事件都附有简短的文字说明（标题和定义）。4.2. 实现细节视频功能。为了表示视频v，我们每一秒均匀地采样一帧。然后，使用 ResNet [35] ，我们为采样帧提取pool5CNN特征然后，我们对帧级特征进行平均池化以得到视频级特征xv。我们从不同的CNN模型中实验不同的特征：ResNet（prob，fc1000），VGG [37]（ fc6 ， fc7 ）， GoogLeNet [47] （ pool5 ，fc1024）和Places365 [48]（fc6，fc7，fc8），除了我们发现 ResNet pool5是最好的。我们只使用ResNetpool5，我们图4. 我们的文本嵌入（b）将MED映射到EventNet事件比LSI特征更好。矩阵中的每个点显示MED和EventNet事件之间的相似性。在这里，我们定性地证明了文本嵌入fT（·）的好处。图4显示了MED和EventNet事件之间的相似性矩阵每个点表示MED事件与EventNet事件的相似性。它显示我们的嵌入（右）在将MED映射到EventNet事件方面优于LSI（左）。例如，LSI错误地将“9：getting avehicle unstuck”映射此外，我们的嵌入映射比LSI具有更高的置信度，如“16：做作业或学习”。文本特征。我们选择主题建模[44，45]，因为它非常适合长（有时是嘈杂的）文本文章。我们在维基百科语料库[49]上训练LSI主题模型[45]。我们尝试不同的潜在主题，从300个到6000，预计我们发现2500是最好的。此外，我们还实验了其他文本表示，如LDA[44]，SkipThoughts [50]和Doc2Vec [43]。要从事件文章k或视频标题t中提取特征，首先我们进行预处理2224262830323436384022242628303234363840药物事件(a) LSI特性2224262830323436384022242628303234363840药物事件(b) 嵌入特征使用标准MLP步骤的文本：标记化、词形化和词干化。然后，对于k，t，我们分别提取2500维LSI特征yk，yt。相同的步骤适用于MED文本查询。型号详细信息。我们的视觉和文本嵌入fV（·），fT（·）是在上述视觉和文本特征（x v，yk，yt）之上学习的。fT（·）是一个1-hiddenlayerMLP classifier，其中ReLU用于hidden，softmax用于out。输入层、隐藏层和输出层分别有2500-2500-500个神经元类似地，fV（·）是1-隐藏层MLP回归器，其中ReLU用于隐藏、对比度损失，并且2048-2048-500个神经元分别用于输入、隐藏和输出层。我们的代码公开1以支持进一步的研究。1github.com/noureldien/unified_embedding图5.对于MED-14的20个事件，我们的文本嵌入（右）比LSI特征表示（左）更具鉴别力。矩阵中的每一个点都显示了一个事件与其他事件的相似图5显示了MED事件的相似性矩阵，其中每个点表示任何MED事件与所有其他事件的相关程度。我们的文本嵌入（右）比LSI特征表示（左）更具区分性。例如，LSI表示示出了事件“34：固定乐器”和“40：调音乐器”，而我们的嵌入式区分他们。接下来，我们定量地证明了虚拟嵌入fT（·）的好处。与主模型相比，参见第3节，我们研究基线模型V，其中我们放弃了视觉嵌入fT（·），只考虑视觉嵌入fV（·）。我们在大规模集成电路上投影一个视频药物事件34药物事件124207256387456460465药物事件59861702092133453533614561102E 6E 7E 8E9E10E11E12E13E14E15E21E22E23E24E25E26E27E28E29E3020 10 0 10 20 30E21E22E23E24E25E26E27E28E29E30E31E32E33E34E35E36E37E38E39E4020100102030E21E22E23E24E25E26E27E28E29E30E31E32E33E34E35E36E37E38E39E4020100102030MSE2con2VN2N4030202010100010102020303040(a) MED-13，视觉嵌入（模型V）。(b) MED-13，单独包埋（型号S）。(c) MED-13，统一包埋（U型）。3030302020201010100001010102020203030(d) MED-14，视觉嵌入（模型V）。(e) MED-14分离包埋（S型）。(f) MED-14，统一包埋（U型）。图6.我们使用统一的嵌入模型U和基线模型V，模型S可视化视频嵌入的结果。每个子图显示了嵌入视频的表示的判别性。每个点表示投影的视频，而每个五边形表示投影的事件描述。我们使用t-SNE来可视化结果。相关事件t的表示y。因此，这一基线属于第一类方法，见图2（a）。是投影作为一个浅（2层）MLP训练分类数据输入到500个事件类别，使用逻辑损失，使用均方误差（MSE）损失进行优化LV得双曲正弦值.与EQ相同。（四）、当量六、第5节报告了这一基线的结果，表1.1ΣN我们做了另一个实验来证明本-学习度量空间。与第3节中提出的模型相比，我们研究基线模型N，其中我们丢弃度量学习层。因此，这mse=Ni=1阿吉岛-fV （vi;WV）2.（六）基线学习视觉嵌入是具有双曲正切非线性的浅（2层）多层感知器还有，此外，我们训练了另一个基线模型C，它与前面提到的V类似，只是不使用MSE损失我们替换对比损失Lc，参见等式（2）具有均方误差损失Lmse，即VMSE参见eq.（6）采用对比损失信用证，具体如下：MSE=1ΣNN沃尔夫T（ti;WT）−fV（vi;WV）2.（八）LC=1ΣNh·d2+（1−h）max（1−d，0）2，i=1孔伊i=1d i= y i− fV（v i; WV）<$2。我（七）在检索期间，该基线嵌入测试视频vi，并且新文本查询ti作为特征zv，zt到公共空间上4.4. 统一嵌入与度量学习在这个实验中，我们证明了统一嵌入的好处与第3节中提出的模型相比，我们研究了基线模型S，其中2010E 6E 7E 8第九季第十集第十0E12E1310E14E15E21E22E23E2420E25E2630E27E28E29E304030 20 10 0 10 20 30E 6E 7E 8E9E10E11E12E13E14E15E21E22E23E24E25E26E27E28E29E3020 10 0 10 20 30E21E22E23E24E25E26E27E28E29E30E31E32E33E34E35E36E37E38E39E403020100102030LLL1103该基线不学习联合嵌入。相反，它分别学习视觉fV（·）和外部fT（·）投影。我们将这些模型Z分别使用视觉和视觉嵌入fT（·），fV（·），活泼地然而，在后处理步骤中，检索得分对于视频vi，si是（zv，zt）之间的余弦距离。同样，所有测试视频都被评分、排名和检索。表1报告了上述基准模型S和模型N的结果。比较不同的嵌入。在此前的前-1104实验中，我们研究了几个基线的统一嵌入（模型U），即视觉只有嵌入（模型V），单独的视觉文本嵌入（模型S）和非度量视觉文本嵌入（模型N）。在定性的方式，我们比较这样的嵌入的结果。如图6所示，我们使用这些基线将MED-13和MED-14数据集的事件视频嵌入相应的空间。与此同时，我们还提出了文本的K = 2002224262830323436384022 24 26 28 30 32 34 36 3840药物事件K = 10002224262830323436384022 24 26 28 30 32 34 36 3840药物事件K = 40002224262830323436384022 24 26 28 30 32 34 36 38 40药物事件在同一个空间中描述事件。然后，我们使用t-SNE [51]在2D流形上可视化结果。如图所示，统一嵌入（参见子图 6 （ e ）、 6 （ f ））比其他基线（参见子图 6（a）、6（b）、6（c）和6（d））学习更多的判别表示。相同的观察结果适用于MED-13和MED-14数据集。4.5. 减少EventNet在定量和定性分析的基础上，我们得出结论，EventNet是噪声。不仅视频是不受约束的，而且一些视频样本与其事件类别无关。EvenNet数据集[14]由500类CNN分类器组成。它实现了前1和前5的准确率分别为30.67%和53.27%。由于EventNet中的事件被构造为本体层次结构，因此总共有19个高级类别。该分类器在这些高级类别上分别实现了38.91%和57.67%的前1和前5准确率基于这些观察，我们修剪EventNet以重新移动嘈杂的视频。为此，我们首先将每个视频表示为ResNetpool5特征的平均池化。然后，我们按照传统的5倍交叉验证进行5轮。对于每一轮，我们将数据集分为5个子，集合，4个子集Vt用于训练，最后一个Vp用于修剪。然后我们训练一个2层MLP进行分类。在训练之后，我们向前传递Vp的视频并且排除错误分类的视频。修剪背后的直觉是，我们宁愿使用更少的视频样本来学习显著事件概念，而不是使用更多的样本来学习噪声概念。修剪将视频的总数量减少了26%，从90.2k减少到66.7k。这个修剪后的数据集就是我们在实验中使用的所有数据。4.6. LSI中的潜在主题在维基百科语料库上训练LSI主题模型时，一个关键参数是模型构建的潜在主题数K我们观察到性能的改善与K的增加成正比。主要原因是K值越大，LSI特征的鉴别力越强。图7证实了我们的理解。5. 结果评价指标。由于我们本质上是在处理信息检索任务，因此我们依赖于每个事件的平均精度（AP）和每个事件的平均精度（mAP）。图7. MED-14的LSI特征之间的相似性矩阵事件LSI模型中的潜在主题数越多，特征维数越高，特征的鉴别能力越强。数据集。我们遵循相关文献中的标准评价方法[1，2，52]。与模型基线进行比较。在表1中，我们报告了我们的模型基线的mAP评分，之前在实验中讨论过，参见第4节。该表清楚地显示了每种新颖性对所提出方法的边际贡献。基线损失度量 fV（·）fT（·）MED13 MED14模型VLVMSELCconLlogLNMSE（六）✗✓✗11.9010.76模型C（七）✓✓✗13.2912.31modelS（四）✗✓ ✓15.6013.49模型N（八）✗✓ ✓15.9214.36模拟联合 LU（五）✓✓ ✓17.8616.67表1. 统一嵌入与其他基线的比较。统一嵌入模型U在MED-13和MED-14数据集上获得了最佳结果。对比相关工作。我们报告的性能，我们的方法，统一嵌入模型U上TRECVID MED-13和MED-14数据集。当来-与相关工作相比，我们的方法在最先进的基础上有了相当大的改进，如表2和图8所示。方法MED13 MED14[第18话]ToM '1512.90 05.90迪厅[7]ICAI '1509.60组成[8]AAAI '1612.64 13.37分类器[9]CVPR '1613.4614.32[17]第十七话PAMI '1615.90 05.20[17]第十七话PAMI '1620.0008.00模型（ModelU）17.8616.67表2. 我们的模型和相关作品的性能比较。我们报告了MED-药物事件110513和MED-14数据集的平均精密度（mAP%）。需要指出的是，VideoStory†只使用对象特征表示，因此它与我们的方法相当110680706050403020100E006E007E008E009E010E011E012E013E014E015E021E022产品编号：E023E024E025E026E027E028E029E03020151050所有事件(a) MED-13数据集(b) MED-14数据集图8. 事件检测精度：MED-13和MED-14数据集的每事件平均精度（AP%）和每数据集平均精度（mAP%）。我们将结果与TagBook [18]，Discovary [7]，Composition [8]，Classifiers [9]和VideoStory [17]进行比较然而，VideoStory使用运动特征表示和专家文本查询（即，使用[ 17 ]中的术语重要性矩阵H）。为了排除使用不同数据集和功能的边际效应，我们训练VideoStory并报告结果见表3。显然，训练集中的CNN特征和视频样本可以提高模型的准确性，但是当在相同的数据集上训练并使用相同的特征时，我们的方法可以提高VideoStory。其他作品（分类器[9]，合成[8]）使用图像和动作概念分类器。尽管如此，我们的方法仅使用以对象为中心的CNN特征表示来改进它们。方法训练集CNN Feat. MED14VideoStory [17]第十七话08.00VideoStory [53]第五十三话11.84VideoStory 美国[14]14.52VideoStory 美国[14]15.80本文[第14话]ResNet16.67表3. 当在相同的数据集上训练并使用相同的特征表示时，我们的方法比VideoStory有所改进。6. 结论在本文中，我们提出了一种新的方法来检测无约束的网络视频中的事件，在零样本的方式。我们提出了一个统一的嵌入，其中几个跨模态被联合投影，而不是从跨模态数据集学习单独的嵌入。这就实现了端到端的学习。在此基础上，我们利用了零样本作为检索任务的事实，学习度量空间。这使得能够使用该空间来测量嵌入式模态之间的相似性我们试验了这些新奇的东西，并展示了它们如何有助于提高性能。我们通过在MED-13和MED-14数据集上对最新技术水平进行了相当大的改进来补充这一点。然而，问题仍然存在，我们如何区分这两个MED事件“34：修复音乐缺陷”和“40：调音乐器”。我们认为，视频中人类行为的时间建模对于实现这种细粒度的事件识别是绝对必要的。在未来的研究中，我们希望专注于视频中的人与对象交互以及如何在时间上对其进行建模。确认我们感谢Dennis Koelma，Masoud Mazloom和CeesSnoek2为这项工作提供了他们的见解和技术支持。引用[1] 保罗·奥弗，乔治·阿瓦德，乔恩·菲斯克斯，格雷格·桑德斯，还有芭芭拉·肖.Trecvid 2013在TRECVID研讨会上，2013年。一、二、五、七[2] 保罗·奥弗、乔恩·菲斯克斯、格雷格·桑德斯、大卫·乔伊、马蒂亚尔·米歇尔、乔治·阿瓦德、艾伦·斯米顿、韦塞尔·克拉伊杰和乔治·格斯·库埃诺。2014年回顾在TRECVID研讨会，2014年。一、二、七2{kolema，m.mazloom，cgmsnoek}@uva.nl标签簿DiscovaryVideoStory本文908070605040302010020标签簿组合分类器VideoStory本文151050E021E022产品编号：E023E024E025E026E027E028E029E030E031型号：E032E033E034E035E036E037E038E039E040所有事件平均精度%平均精度%平均精密度%平均精密度%1107[3] Lu Jiang ， Shouou-I Yu ， Deyu Meng ， TerukoMitamura，and Alexander G Hauptmann.弥合最终的语义鸿沟：互联网视频语义搜索引擎。InICMR，2015.一、二[4] Amirhossein Habibian，Thomas Mensink，and Cees GMSnoek.零镜头视频事件检测的复合概念发现。InICMR，2014. 1[5] Amirhossein Habibian，Thomas Mensink，and Cees GMSnoek.发现跨媒体检索的语义词汇表。InICMR，2015. 1[6] Masoud Mazloom、Efstrastios Gavves和Cees G. M.斯诺克Conceptlet：用于对视频事件进行分类的选择性语义。在IEEE TMM，2014年。1[7] Xiaojun Chang ， Yi Yang ， Alexander G Hauptmann ，Eric P Xing，and Yao-Liang Yu.大规模零触发事件检测的语义概念发现。InIJCAI，2015. 一、二、七、八[8] Xiaojun Chang ， Yi Yang ， Guodong Long ， ChengqiZhang，and Alexander G Hauptmann.零示例事件检测的动态概念合成。在arXiv，2016。一、二、七、八[9] Xiaojun Chang，Yao-Liang Yu ，Yi Yang，and Eric PXing.它们并不同样可靠：使用区分概念分类器的语义事件搜索。在IEEE CVPR，2016年。一、二、七、八[10] 卢一杰无监督证据定位的零示例多媒体事件检测和ACM MM，2016。一、二、三[11] Lu Jiang，Shouou-I Yu，Deyu Meng，Yi Yang，TerukoMi-tamura，and Alexander G Hauptmann.在1亿个互联网视频中进行快速准确的基于内容的语义搜索。在ACMMM，2015年。1[12] ThomasMensink ， EfstratiosGavves ， andCeesSnoek.Costa：零炮分类的共现统计在IEEE CVPR，2014年。1[13] E. Gavves，T. E. J. Mensink，T.托马西角G. M. Snoek和T Tuytelaars。主动迁移学习与零次先验：重用过去的数据集用于未来的任务。InIEEE ICCV，2015.1[14] Guangnan Ye，Yitong Li，Hongliang Xu，Dong Liu，and Shih-Fu Chang. Eventnet：一个用于视频中复杂事件检测的大规模结构化概念库。在ACM MM，2015年。一、四、七、八[15] 维基百科。http://wikihow.com网站。一、五[16] Amirhossein Habibian，Thomas Mensink，and Cees GMSnoek. Videostory：一种新的多媒体嵌入，用于事件的少示例识别和翻译。在ACM MM，2014中。二、三、四[17] Amirhossein Habibian，Thomas Mensink，and Cees GMSnoek.视频故事嵌入在例子稀缺时识别事件。在IEEETPAMI，2016年。二三四七八[18] Masoud Mazloom ， Xirong Li ， and Cees Snoek.Tagbook：一种语义视频表示，无需监督事件检测。在IEEE TMM，2015年。二七八[19] Shuang Wu ， Sravanthi Bondugula ， Florian Luisier ，Xiaodan Zhuang，and Pradeep Natarajan.使用弱监督概念的多模态融合的零炮事件检测。在IEEE CVPR，2014年。2[20] Mohamed Elhoseiny，Jingen Liu，Hui Cheng，HarpreetSawhney，and Ahmed Elgammal.基于视频多模态分布语义嵌入的零镜头事件检测。InarXiv，2015. 2[21] Tomas Mikolov，Quoc V Le，and Ilya Sutskever.利用语言之间的相似性进行机器翻译。载于arXiv，2013年。2[22] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen

下载后可阅读完整内容，剩余1页未读，立即下载