没有合适的资源?快使用搜索试试~ 我知道了~
11258更少就是更多:从视频持续时间学习高光检测Bo Xiong1,Yannis Kalantidis2,Deepti Ghadiyaram2,KristenGrauman3 -1德克萨斯大学奥斯汀分校,2Facebook AI,3Facebook AIResearchbxiong@cs.utexas.edu,{yannisk,deeptigp,grauman}@ fb.com摘要高光检测具有显著地简化视频浏览的潜力我们提出了一个可扩展的无监督的解决方案,利用视频持续时间作为一个隐含的监督信号。我们的关键见解是,来自较短的用户生成视频的视频片段比来自较长视频的视频片段更有可能成为亮点,因为用户在捕捉较短视频时往往对内容更具选择性利用这一洞察力,我们引入了一个新的排名框架,该框架更喜欢来自较短视频的片段我们用它来训练一个带有10M标签的Instagram视频的亮点检测器。在两个具有挑战性的公共视频亮点检测基准的实验中,我们的方法大大提高了最先进的无监督亮点检测。1. 介绍“我没时间写一封短信,所以我写了一封长信。”–Mark随着便携式计算设备(如智能手机、可穿戴设备)的日益普及和社交媒体平台的推广,互联网用户可以无缝地记录和共享大量视频。根据思科[1]的预测,到2021年,视频流量将占所有消费者互联网流量的82%,每秒钟将有100万分钟的视频内容通过网络。然而,索引、组织、甚至浏览如此海量的视频数据仍然是非常具有挑战性的。作为一种缓解视频过载的尝试,视频精彩片段检测已经引起了研究界越来越多的关注。高光检测的目标是以短视频剪辑的形式检索一个时刻,该时刻在未经编辑的视频中捕获用户从UT奥斯汀(grauman@cs.utexas.edu)休假冲浪的短片冲浪的长视频图1:来自三个较短的用户生成视频剪辑(顶行)和一个较长的用户生成视频(第二行)的视频帧。虽然所有的记录都捕捉到相同的事件(冲浪),但来自较短的用户生成视频的视频片段红色曲线的高度表示随着时间的推移高光分数我们利用这种自然现象作为一个免费的潜在的监督信号,在大规模的网络视频。视频.精心选择的精彩部分可以加速浏览许多视频(因为用户快速预览最重要的内容),增强社交视频共享(因为鼓励朋友进一步观看),并促进视频推荐(因为系统可以以更集中的方式关联未经编辑的视频)。高光检测器通常是特定于域的[33,40,39,28,26,20],这意味着它们是针对某类视频或关键字/标签(如滑雪,冲浪等)定制的。这解释了构成突出显示的定义通常取决于域的事实,例如,吠叫的狗可能在狗表演视频中是感兴趣的,但在冲浪视频中不是。现有的方法主要遵循两种策略之一。第一种策略将高光检测作为监督学习任务[9,33,40]。给定未经编辑的视频以及针对其亮点的手动注释,排名器被训练为对亮点片段进行比其他片段更高的评分-11259在视频中[9,33,40]。虽然由此产生的检测器具有良好的鉴别能力的优势,该方法遭受沉重的,不可扩展的监督要求。第二种策略将突出显示学习视为弱监督识别任务。给定特定领域的视频,系统发现在训练样本中通常出现的内容,并学习检测这些片段作为相同领域的新视频中的亮点虽然这种方法在监督方面更具可扩展性,但缺乏区分力。简而言之,样本之间的重复并不重要。例如,虽然所有的狗展视频可能包含显示观众在座位上等待的时刻,但这并不能使其成为亮点。我们引入了一个新的框架,特定于域的突出检测,解决这两个缺点。我们的关键见解是,用户生成的视频(例如上传到Instagram或YouTube的视频)携带与高光检测相关的潜在监督信号:他们的持续时间。我们假设较短的用户上传的视频往往有一个关键的焦点,因为用户对内容的选择性更强,而较长的视频可能不会每秒钟都那么清晰或引人入胜。按照吐温上面引用的精神因此,持续时间是关于视频内容的值的信息性的(尽管是隐含的)训练信号见图1。我们利用持续时间作为一种新的“弱”监督形式与现有的监督方法不同,我们的训练数据要求是可扩展的,仅依赖于来自Web的标记视频样本与现有的弱监督方法不同,我们的方法可以进行区分训练,以将高光与非高光时间段隔离开来。给定一个类别(域名)名称,我们首先查询Insta-gram以挖掘包含给定类别名称作为主题标签的公共视频。我们总共使用了1000万Instagram视频。由于标签Instagram视频非常嘈杂,而且即使是较长的视频也会包含一些亮点,因此我们提出了一种新的排名模型,该模型对训练数据中的标签噪声具有鲁棒性。特别是,我们的模型引入了一个潜在变量来指示每个训练对是有效的还是有噪声的。我们用神经网络对潜在变量进行建模在两个具有挑战性的公共基准数据集(TVSum [31]和YouTube Highlights [33])上,我们证明了我们的方法改进了特定领域无监督高光检测的最新技术水平。1总的来说,我们做出了以下贡献:1在整个过程中,我们使用术语“无监督”来表示该方法无法访问任何手动创建的摘要进行训练。我们使用术语特定于域意味着有一个域/类别的兴趣指定的关键字(S),如• 我们提出了一种新的方法来无监督的视频亮点检测,利用用户生成的视频持续时间作为一个隐式的训练信号。• 我们提出了一种新的视频剪辑深度排名框架,该框架对噪声标记的训练数据具有鲁棒性。• 我们在一个比现有数据大一到两个数量级的大规模数据集上进行训练,并表明规模(加上我们模型的可扩展性)对成功至关重要。• 在两个具有挑战性的公共基准上,我们的方法大大改进了非监督高光检测的现有技术,例如,将现有的最佳方法提高了22%。2. 相关工作视频精彩部分检测许多现有方法集中于体育视频的精彩部分检测[30,37,34,35]。最近,监督视频亮点检测已经被提出用于互联网视频[33]和第一人称视频[40]。这些方法都需要人工注释为每个特定的域添加高亮显示、源视频高亮显示对。Video 2GIF方法[9]从GIF-视频对中学习,这也是手动创建的。所有的监督高光检测方法都需要人工编辑/标记的排名对。相比之下,我们的方法不使用手动标记的高光。我们的工作提供了一种利用互联网上免费视频的新方法无监督视频精彩部分检测方法不需要视频注释来训练。它们可以进一步分为域不可知或域特定的方法。虽然像运动强度[24]这样的领域不可知方法在任何视频上统一操作,但特定领域的方法在同一主题的视频集合上训练。他们利用视觉同现[5],类别感知重建损失[44,39]或类别内的协作稀疏选择[27]等概念另一种方法是首先训练视频类别分类器,然后基于分类器分数[28]或来自分类器的时空梯度[26]检测高光。与特定领域的方法一样,我们的方法也为主题领域量身定制了亮点;我们使用Web上的关键字搜索自动收集每个主题的相关培训视频。与任何现有的方法不同,我们利用视频持续时间作为一个弱的监督信号。视频摘要鉴于精彩部分检测(我们的目标)旨在对各个视频段的精彩部分进行评分,视频摘要旨在提供整个视频的完整概要,通常以结构化输出的形式,例如,故事情节图[15,36]、所选关键帧序列[17]或剪辑[7,43]。视频11260摘要通常被形式化为结构化子集选择问题,不仅考虑重要性,而且考虑多样性[6,21]和一致性[21]。监督求和方法专注于学习视觉有趣性/重要性得分[17,7],对象的子模块混合[8,38]或时间依赖性[42,43]。非监督摘要方法通常集中在低级别的视觉线索,以定位重要的部分。最近的非监督和半监督方法使用循环自动编码器来强制摘要序列应该能够生成类似于原始视频的序列[39,23,43]。许多依赖于Web图像先验[13,31,14,15]或语义Web视频先验[3]。虽然我们也利用网络数据,但我们关于持续时间的想法是新颖的。学习噪音标签:我们的工作也与从噪声数据中学习有关,这是机器学习中一个广泛感兴趣的话题[25,19]。比例SVM [41]处理用于训练SVM的噪声数据,其中每组的一部分标签预计是不正确的,并应用于活动识别[16]。各种方法探索如何用噪声数据训练神经网络[32,29,18]。最近关于基于注意力的多实例学习(MIL)的工作受此启发,我们提出了一种新的基于注意力的损失,以可靠地从噪声训练数据中识别有效样本,但与[12]不同的是,1)我们在排名约束空间中定义了“袋”,2)我们的注意力在损失空间中定义,而不是在特征空间中,3)我们的模型在实例级别预测分数,而不是“袋”级别,以及4)我们的注意力机制扩展了多个头,以考虑预期标签噪声水平的先验。3. 方法我们探索了使用未标记视频训练的特定领域的亮点检测。我们首先描述我们如何自动地收集用于本地的大规模主题标签视频数据(第二节)。第3.1节)。然后,我们提出了我们的新框架,用于学习突出部分,并将持续时间作为训练信号(第二节)。3.2)。结果将显示我们的方法在标准公共基准中找到亮点的影响(第二节)。4).3.1. 大规模Instagram培训视频首先,我们描述我们的数据收集过程。我们选择Instagram作为我们收集视频的来源,因为它包含大量与标签相关的公共视频此外,由于Instagram用户倾向于通过移动设备频繁上传以进行社交分享,因此存在自然多样的时长和质量--一些短而吸引眼球的视频,另一些则不那么集中。Instagram视频的持续时间可以从不到一秒到一分钟不等。图2:1000万Instagram培训视频的持续时间。我们的目标是建立特定领域的突出检测器。给定一个类别名称,我们查询Instagram以挖掘在其标签中包含给定类别名称的视频。对于大多数类别,这将返回至 少 200 , 000 个 视 频 。 由 于 我 们 在 公 共 TVSum 和YouTube Highlights基准中验证了我们检测亮点的方法[31,33](参见第二节)。4)所查询的主题标签的完整列表是狗、体操、跑酷、滑冰、滑雪、冲浪、更换车辆轮胎、使车辆脱离困境、梳理动物、制作三明治、游行、快闪族聚集、养蜂、尝试自行车特技和狗表演。因此,这些数据跨越了一系列经常被捕获的领域,用于在社交媒体上分享或在线浏览操作指南。我们总共获得了超过1000万的培训视频。图2显示了它们的持续时间分布,从不到一秒到一分钟不等。我们看到有一个很好的各种长度,有两种模式围绕短(10秒)和后处理标签,注入单词相似度模型-ELS或链接到相关关键字可以进一步改善特定领域数据的质量[22]。然而,我们的实验表明,即使是我们的直接标签挖掘也足以收集与我们最终测试的公共视频数据集相关的数据。下面我们将介绍一种方法来处理Instagram标签以及长/短视频假设中的固有噪声。3.2. 学习视频时长中的亮点接下来,我们介绍我们的排名模型,该模型利用大规模带标签的视频数据及其持续时间来训练视频亮点检测器。回想一下,视频精彩部分是较长视频内的短视频片段,其将捕获用户的注意力和兴趣。我们的目标是学习函数f(x),该函数在给定其特征x(将在下面指定)的情况下表示时间视频片段的精彩部分分数。然后,给定一个新的视频,可以基于每个片段的预测的精彩部分分数来对它的精彩部分进行优先级排序(排名)11261Ij监督回归解决方案将尝试从具有手动注释的高光分数的视频数据集中学习f(x)。然而,校准从多个人类注释者收集的突出得分本身是具有挑战性的。相反,可以通过从人类标记/编辑的视频-高光对中学习,将高光检测形式化为排名问题[9,33,40]:手动注释的突出部分中的片段应该比原始长视频中的其他片段得分更高。然而,这样的配对数据收集起来困难且昂贵,特别是对于大规模的长且不受约束的视频。为了规避繁重的监督所带来的收集- ING视频亮点对,我们提出了一个框架来学习亮点检测直接从一个大的收集unlabeled视频。如上所述,我们假设用户倾向于对他们上传的较短视频中的内容更具选择性,而他们的较长视频可能是好的和不太有趣的内容的混合。因此,我们使用视频的持续时间作为监督信号。特别是在真正的高光区域内部和外部的那些-我们的约束跨越来自不同的短视频和长视频的片段。从噪声对中学习:到目前为止,该公式假定不存在噪声,并且D s和D L仅包含:分别从高光和非高光中提取片段。然而,从未经编辑的视频中学习时并非如此:来自长视频的一些视频片段也可以是精彩部分,并且一些短片段不需要是精彩部分。此外,有些视频与标签无关因此,只有我们在P中的对的子集具有有效的排名约束(si,sj),即,其中si对应于高光,si对应于非高光。理想情况下,排名模型只会从有效的排名约束中学习,而忽略其他约束。为了在不需要任何注释工作的情况下实现这一点,我们引入了二进制潜在变量wij,n(si,sj)∈P来指示排名约束是否有效。我们将学习目标改写如下:Σ我们建议学习对视频片段进行排名的评分函数短视频中的视频片段高于L(D)=wijmax(0,1−f(xi)+f(xj))(si,sj)∈P长视频由于较长的视频也可能包含高光时刻,我们设计了排名模型,以有效地ΣS.T.(s,s)∈Pwij =p|P|,wij ∈[0,1],(二)处理嘈杂的排名数据。训练数据和丢失:令D表示共享标签的视频集合(例如,狗展)。我们首先将D划分为三个不重叠的子集D={DS,DL,DR},其中DS包含较短的视频,DL包含较长的视频,并且DR包含其余的视频例如,较短的视频可以小于15秒,而较长的视频可以大于45秒(参见图1)。第4节)。每个视频,无论是长的还是短的,都被分成均匀长度的时间段。2让si指代来自数据集的唯一视频片段,并且让v(si)表示视频片段si来自的视频。从片段si提取的视觉特征是xi。由于我们的目标是将来自较短视频的视频片段排名高于来自较长视频的视频片段,因此我们构造训练对(si,sj),使得v(si)∈Ds,v(sj)∈DL. 我们将训练对的集合表示为P.由于我们的数据集很大,我们在所有可能的样本配对,确保每个视频片段在训练集中至少包含学习目标由以下排名损失组成:Σ且wij=h(xi,xj)其中h是神经网络,|P|是排序约束的总数,并且p是有效的排序约束的预期比例。本着按比例损失学习的精神[41],分配给秩约束的总权重的上限表示标签中预期的噪声水平的先验例如,训练p = 0。8告诉系统,大约80%的对是先验预期有效的。二进制潜在变量wij的求和防止了将0分配给所有潜在变量的平凡解决方案。我们不是使用交替最小化来优化二进制潜在选择变量,而是使用实值选择变量,并且函数h(xi,xi)直接预测那些潜在变量wij。 优点有三方面. 首先,我们可以同时优化排名函数f和所选择的训练对。其次,潜在变量wij以输入特征为条件,因此它可以学习排名约束作为函数是否有效L(D)=(si,sj)∈Pmax(0,1−f(xi)+f(xj)),(1)具体的视觉输入。第三,通过放松wij,一个从0到1的连续变量,我们在训练过程中捕获了关于配对有效性的不确定性。也就是说每次长视频段得分更高。函数f是一个深度卷积网络,详细描述如下。请注意,尽管监督的亮点排名方法[9,33,40]对来自相同视频比较的片段使用排名约束,[2]我们简单地将它们均匀地分成2秒的片段,尽管也可以采用自动时间分割[28,31]。最后,我们对潜在变量wij 进 行 参 数 化,它为训练样本提供了学习的权重,并改进了我们的目标,以便在执行噪声水平先验p的同时对批次进行训练。 我们将训练数据分成几组,每组正好包含n对。然后,我们要求一个组内的实例的潜在变量wij和为1。特别地,设P1,. . . ,Pm是一个随机分裂的集合11262n来自XI的特征短片来自xj的特征长视频f(x)f(xf(xi)f(xj)wijXReLUFC(512,128)ReLUFCFC(128,h(xi,xj)xixj函数,如Eq.(三)、网络架构详情见图3。视频片段特征表示:为了生成片段s i的特征x i,我们使用3D卷积网络[10],其中ResNet-34 [11]主干在Kinetics [4]上进行了预训练。我们使用的功能后,池的最后卷积层因此,每个视频片段由512个维度的特征表示。实施详情:我们使用PyTorch实现了我们的模型,并使用带有动量的随机梯度优化了30个epoch。我们使用2048的批量大小,并将基本学习率设置为0.005。我们用一个重量-Cay为0.00005,动量为0.9。使用单个Quadro GP100GPU,一分钟长的视频的总特征提取时间为0.50秒。在提取视频特征之后,对于总持续时间为1600小时的20,000个视频剪辑的数据集,训练模型的总训练时间为1小时在测试时,需要0.0003 s才能检测到新的图3:我们的方法的网络架构细节批量大小为b。我们将训练对的每n个实例每个批次具有t个这样的组(b=nt)。将P分成m个组,其中每个组恰好包含n对,则最终损失变为:一分钟长的视频后,特征提取。4. 结果我们验证了我们的方法的亮点检测和比较以前的方法,特别是集中在那些无监督和特定领域的阵列。ΣmΣL(D)=g=1(si,sj)∈Pgw<$ijmax(0,1−f(xi)+f(xj))4.1. 实验装置数据集和指标:在Instagram视频上训练我们的模型之后,我们在两个具有挑战性的公共环境中对其进行评估。Σ ΣS.T.w=σ(h(x,x))=1,视频亮点检测数据集:YouTube Highlights [33]IJ(si,sj)∈Pgw<$ij∈[0,1],Gij(si,sj)∈Pg(三)”[31]《明史》:YouTube Highlights [33]包含六个特定领域的类别:冲浪、滑冰、滑雪、体操、跑酷和狗。每个域由大约100个视频组成,总累积时间为1430分钟。其中σg表示在集合Pg.注意,现在组大小n与softmax一起用于支持标签噪声先验p,其中p=1,同时允许选择函数h的可微损失。直观地说,较小的n值将加快训练速度,但代价是错误地提升一些无效对,而较大的n值将对有效对更具选择性,但代价是训练速度较慢。在实验中,我们将所有结果和数据集的n当f从训练数据中学习时,函数h帮助f关注一致的训练对。从有效对比无效对多的先验开始,它学习分别为违反(sat-isfy)排名约束的训练对分配低(高)权重请看Supp。对于关于n的消融研究,以及显示h如何逐渐将更多权重集中在有效对上的结果。网络结构:我们用神经网络对f(x)和h(xi,x j)进行建模。我们对f(x)使用一个3隐层全连接模型.函数h(xi,xj)由3个全连接层组成,后面是n路softmaxTVSum [31]是使用10个查询从YouTube收集的,总共包括50个视频,这些视频来自不同的领域,包括更换汽车轮胎、梳理动物、制作三明治、游行、快闪聚会等。由于TVSum [31]中的地面实况注释提供帧级重要性分数,因此我们首先对帧级重要性分数进行平均以获得镜头级分数,然后选择每个视频的前50%镜头(片段)作为人工创建的摘要,遵循[27,26]。最后,我们的方法选择的亮点与20个人类创造的摘要进行 了 比 较 。 我 们 报 告 了 两 个 数 据 集 的 平 均 精 度(mAP)。基线:我们与文献中报道的9种最先进的方法进行比较。在这里,我们根据它们是否需要镜头级注释(监督)或不需要(无监督)来组织它们。回想一下,我们的方法不是超级的-ved和特定于域,因为我们不使用注释,并使用基于标签的查询组成训练视频池。(个).σ(个)..t.σ.t.(个).xixjσ一批中的所有对(xi,xjf(x)FC(128,1)ReLUFC(512,128)ReLUFC(512,损失h(xi,xj)11263• 无监督基线:我们与下面的比较-11264使用无监督方法:[28][29”[3]。我们还实现了一个基线,在那里我们用我们带标签的Insta-gram视频训练分类器(CLA)。分类器使用与我们的方法相同的网络结构(除了最后一层被K路分类取代)和视频特征。然后,我们使用的分类器得分突出检测。CLA可以被视为KVS的深度网络变体[28]。我们还实现了k-means和spec-表1:在YouTube上突出显示检测结果(mAP)tral聚类基线,但发现它们不如更先进的聚类方法[5]报告如下。• 监 督 基 线 : 我 们 比 较 了 潜 在 SVM 方 法 [33] 和Video2GIF方法[9],前者使用人类编辑的视频突出显示对进行训练,后者是一种使用人类编辑的视频GIF对进行训练的领域不可知方法。虽然这些方法需要注释--而我们的方法不需要--但它们还是很有趣的,因为它们也使用了排序公式。我们为我们的方法的两个变体提供了结果:我们的-A:我们的方法以领域不可知的方式使用Instagram数据进行训练,其中我们从所有查询的标签中汇集训练视频。我们使用一个单一的模型进行所有实验;Ours-S:我们的方法使用特定领域的Instagram数据进行训练,其中我们为每个查询的标签训练单独的突出显示检测器。对于这两种变体,我们的方法的训练数据池完全自动生成,并且不使用突出显示注释。如果训练视频的持续时间在8和15s之间,则训练视频处于DS中,并且如果训练视频的持续时间在45和60s之间,则训练视频处于DL我们会删除所有其他视频。只要我们保持两个截止阈值的较大差距,性能是稳定的。 我们的网络通常在20个epoch后收敛,测试性能稳定(±0.5%)当我们使用随机初始化多次训练时。参见补充4.2. 高光检测结果YouTube Highlights 数 据 集 上 的 结 果 : 表 1 显 示 了YouTube Highlights上的结果[33]。所有基线结果均与作者的原始论文中报道的结果我们的do- main特定方法(Ours-S)执行得最好-值得注意的是,它甚至比基于监督与无监督RRAE方法[39]相比,我们在mAP中的平均增益为18.1%。我们的方法受益于区别性训练,以将亮点与非亮点视频片段分离。我们的方法也优于在与我们相同的数据集上训练的CLA方法,这表明我们的优势不仅仅是由于训练数据。CLA可以识别最有区别的视频片段,这些片段可能并不总是精彩部分。平均而言,我们的方法优于LSVM方法[33],后者是用特定领域的手动注释数据训练的。虽然监督方法善于识别高质量的训练数据,但它们也受到要点[33]。我们的方法优于所有基线,包括基于监督排名的方法[33,9]。大规模保护这些数据的实际困难。相反,我们的方法利用大规模标记的Web视频的规模,没有手动突出的例子。我们的方法使用特定于领域的数据(Ours-S)进行训练,其性能优于以领域不可知的方式(Ours-A)进行训练这是意料之中的,因为亮点通常取决于感兴趣的领域。尽管如此,我们的领域不可知变体优于领域不可知的Video2GIF [9],再次揭示了大规模弱监督视频对突出学习的好处图4、补。视频显示示例亮点。尽管没有明确的监督,我们的方法是能够检测值得突出的时刻,为一系列的视频类型。TVSum数据集上的结果:表2列出了TVSum的结果[31]。3.重点比较了非监督高亮方法和特定领域高亮方法。TVSum是一个非常具有挑战性的数据集,包含各种视频。我们的方法优于所有的基线由一个大的利润率。特别是,我们比下一个最好的方法SG [23]高出10.1个点,相对增益为22%。SG学习最小化原始视频与其摘要之间的距离。这些结果加强了区别性地选择值得突出显示的片段与那些仅仅具有代表性的 例如,当一个特写镜头无聊的狗可能在狗展视频的特征空间中更具代表性,而奔跑的狗更可能是亮点。我们使用特定领域数据(Ours-S)训练的方法再次优于我们以领域不可知方式(Ours-A)训练的方法。Instagram vs. YouTube培训:出于好奇,现有的大规模网络视频集合是否可以作为我们方法的训练数据,我们还在YouTube8M视频上训练了我们的模型[2]。在YouTube8M每个域的6,000到26,000个视频上进行训练,我们发现结果不如使用Instagram数据获得的结果(参见Supp.以取得详细数据)。我们将其归因于两个因素:1)YouTube-8 M是明确策划的3CVS [27]、DeSumNet [26]和VESD [3]的结果来自原始论文。所有其他(MBF [5]、KVS [28]和SG [23])如[3]中所报告RRAE(unsup)[39]的gif(sup)[9]第一章LSVM(sup)[33个]CLA(unsup)我们的-A(unsup)Ours-S(unsup)狗0.490.3080.600.5020.5190.579体操运动员0.350.3350.410.2170.4350.417跑酷0.500.5400.610.3090.6500.670滑冰0.250.5540.620.5050.4840.578滑雪0.220.3280.360.3790.4100.48611265医疗保险[5]KVS [28]CVS [27][23][26]第二十六话VESD [3]CLA我们的-AOurs-S车辆轮胎0.2950.3530.3280.423--0.2940.4490.559车辆未卡住0.3570.4410.4130.472--0.2460.4950.429梳理动物0.3250.4020.3790.475--0.5900.4540.612做三明治0.4120.4170.3980.489--0.4330.5370.540跑酷0.3180.3820.3540.456--0.5050.6020.604游行0.3340.4030.3810.473--0.4910.5300.475快闪族0.3650.3970.3650.464--0.4300.3840.432养蜂0.3130.3420.3260.417--0.5170.6380.663自行车技巧0.3650.4190.4020.483--0.5780.6720.691狗展0.3570.3940.3780.466--0.3820.4810.626平均0.3450.3980.3720.4620.4240.4230.4470.5240.563表2:TVSum上的高光检测结果(前5名mAP评分)[31]。列出的所有方法都是无监督的。我们的方法优于所有的基线由一个大的利润率。带“-”的字符低f(x)高图4:YouTube Highlights数据集的高光检测结果示例[33]。我们的方法从低(左)到高(右)排列,并为每个视频段呈现一个帧请看Supp。视频为例。具有相当均匀长度的“更长”(120-500秒)剪辑[2],这严重地静音了我们的关键持续时间信号,以及2)在Instagram上分享视频的用户可能会教学视频、剪辑影片等)这也可能削弱持续时间信号。4.3. 消融研究接下来,我们介绍消融研究。所有的方法都是用特定领域的数据训练的。我们将我们的完整方法(Ours-S)与两个变体进行比较:1)Ranking-D,其将所有排名约束视为有效的,并且在没有潜在变量的情况下训练排名函数。这类似于现有的监督高光检测方法[9,40]。2)Ranking-EM,引入二进制潜在变量,并以与EM交替的方式优化排名函数和二进制潜在选择变量,类似于[33]。注意,与我们的方法不同,这里的二进制潜在变量是离散的,它不依赖于输入。表3显示了结果。我们的完整方法优于其他变体。特别是,我们的mAP在排名D上的平均增益分别为13.9%和16.3%。这支持了我们的假设,即通过对训练对(si,sj)进行采样获得的排名约束,使得v(si)∈Ds和v(sj)∈DL确实是有噪声的。通过对噪声进行建模并引入潜在选择变量,我们提出的方法显著提高了性能。我们的方法也显着优于形式排名EM,它也模型的训练样本中的噪声。与Ranking-EM相比,我们的方法直接从输入预测潜在的选择变量。此外,我们受益于潜在选择变量的联合优化和放松,这说明了不确定性。图6示出了作为训练集大小的函数的高光检测准确度。我们只报告了YouTube Highlights的这种消融,因为与某些TVSum类别共享标签的视频最多为24,000。随着我们增加每个域中的视频数量,准确性也会提高。冲浪滑冰跑酷11266SI17.520.57h(si,sj)1.46-8.26SJSI17.382.87h(si,sj)1.41-5.58SJSI图5:YouTube Highlights中视频片段对的预测潜在值(softmax之前)。潜在值越高,表示有效对的可能性越高。如果si(顶行)是突出显示并且sj(底行)是非突出显示,则预测潜在值为高。参见补充为了更多数据集D级排名-EMOurs-SYouTube0.4250.4580.564TVSum0.4000.4440.563表3:消融研究中的准确度(mAP)性能与训练数据大小0.600.580.560.540.520.500.480.46103 104 105 106每个域图6:准确度与YouTube上的训练集大小[33]。性能显著提高(6. 5%,我们的S和3。7%(对于我们的A),当每个域的训练数据从1000增加到10000时,然后开始平稳。4.4. 理解从持续时间最后,我们研究了我们模型的每个组件从视频持续时间中学到了什么。首先,我们测试我们的模型是否可以区分来自较短视频的片段和来自较长视频的片段。这基本上是对主要训练目标的验证,而没有额外的高光准确性层。我们训练我们的模型,并保留20%的新视频用于测试。每个测试对由来自以下的随机采样的视频片段组成:一个新颖的较短视频和一个来自新颖的较长视频。我们使用f(x)对每个片段进行评分,并报告成功排名的对的百分比年龄。如果没有提出潜在的重量预测,我们的模型达到了58。2%的成功率。由于它高于机会(50%),这验证了我们的假设,即两个视频源的分布是不同的。然而,相对较低的这也表明训练数据非常嘈杂。在我们用h(x i,x j)对测试视频对进行加权之后,我们实现了87。2%的成功率准确性显著提高,因为我们的潜在值预测函数h(x i,x j)识别了有区别的对。其次,我们检查了从YouTube Highlights数据集构建的视频片段对及其预测的潜在值(在softmax之前)。参见图5。潜在值越高,表示有效对的可能性越高来自顶行的视频段(si)被认为比来自第二行的视频段(sj当si对应于高光片段并且sj对应于非高光片段时,预测潜在值为高(每个块中的最后一列相反,当si对应于非高光段并且sj对应于高光段(每个块中的第一列)时,预测的潜伏值极低请注意,如果我们将每个块中的所有示例分组到softmax中,则除了最后一个之外的所有训练示例在损失中的权重都可以忽略不计这证明了学习的h(xi,xj)确实可以识别有效的训练对,并且对于处理训练中的噪声是必不可少的5. 结论我们介绍了一种可扩展的无监督的解决方案,exploits视频持续时间作为一个隐式的监督信号的视频亮点检测。通过对两个具有挑战性的公共视频亮点检测基准的实验,我们的方法大大提高了最先进的无监督亮点检测。所提出的框架有潜力建立更智能的系统,视频预览,视频共享和建议。它还可以使诸如自动字幕之类的应用程序受益,以便视觉受损或更准确地检测违反策略的内容。未来的工作将探索如何将多个预先训练的特定于领域的亮点检测器组合起来用于新领域中的测试视频由于所提出的方法对标签噪声具有鲁棒性,并且仅需要弱标记的注释(如主题标签),因此它有可能扩展到前所未有的领域数量,可能利用预定义或学习的分类法来重用模型的部分。Ours-S我们的地图11267引用[1] https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html#_Toc484813989.[2] Sami Abu-El-Haija,Nisarg Kothari,Joonseok Lee,PaulNatsev , George Toderici , Balakrishnan Varadarajan ,and Sudheendra Vijayanarasimhan. Youtube-8 m:一个大规模视频分类基准。arXiv预印本arXiv:1609.08675,2016。[3] Sijia Cai , Wangmeng Zuo , Larry S Davis , and LeiZhang.基于变分编解码器和网络先验的弱监督视频摘要。在ECCV,2018。[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。[5] 朱文生,宋耶鲁,亚历杭德罗·海姆斯。视频共同总结:基于视觉共现的视频摘要。CVPR,2015。[6] 龚伯庆、赵伟伦、克里斯汀·格劳曼和费莎。用于监督视频摘要的多样顺序子集选择在NIPS,2014。[7] MichaelGygli、HelmutGrabner、HaykoRiemenschneider和Luc Van Gool。从用户视频创建摘要2014年,在ECCV[8] Michael Gygli Helmut Grabner和Luc Van Gool通过学习对象的子模块混合来进行视频摘要。CVPR,2015。[9] Michael Gygli , Yale Song , and Liangliang Cao.Video2gif:从视频自动生成动画GIF在CVPR,2016年。[10] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗?在CVPR,2018年。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[12] Maximilian Ilse,Jakub M Tomczak,and Max Welling.基于注意力的深度多实例学习。在ICML,2018。[13] Aditya Khosla,Raffay Hamid,Chih-Jen Lin,and NeelSun-daresan.使用网络图像先验的大规模视频摘要。CVPR,2013。[14] G. 金湖,澳-地Sigal和E.邢对大规模的网络图片和视频集合进行联合摘要,CVPR,2014。[15] Gunhee Kim和Eric P Xing。从网络社区照片重建故事情节图用于图像推荐。CVPR,2014。[16] 赖冠亭,余晓松,陈明贤,张世福。通过推断时间实例标签的视频事件检测CVPR,2014。[17] Yong Jae Lee,Joydeep Ghosh,and Kristen Grauman.覆盖重要的人和物体,用于以自我为中心的视频摘要。CVPR,2012。[18] Yuncheng Li ,Jianchao Yang ,Yale Song, LiangliangCao,Jiebo Luo,and Li-Jia Li.用蒸馏从噪声标签中学习。InICCV,2017.[19] T. Liu和D.涛. 通过重要性重新加权的噪声标签分类PAMI,2016.[20] W. Liu,T.梅,Y. Zhang C.,中国古猿科Che和J.Luo。多任务深度视觉语义嵌入视频缩略图选择。CVPR,2015。[21] 郑璐和克里斯汀·格劳曼。故事驱动的摘要,以自我为中心的视频。CVPR,2013。[22] D.马哈詹河Girshick,V. Ramanathan,K.他,M。帕鲁里Y. Li,长穗条锈菌A. Bharambe和L.范德马滕。探索弱监督预训练的局限性。在ECCV,2018。[23] Behrooz Mahasseni、Michael Lam和Sinisa Todorovic。对抗性lstm网络的无监督视频摘要。在CVPR,2017年。[24] EnginMendi ,He'lioBClemente , andCoskunBayrak. 基于运动分析的体育视频摘要。计算机电子工程,2013年。[25] N.纳塔拉詹岛Dhillon,P. Ravi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功