视频摘要：基于对比损失的无监督方法的研究

136 浏览量更新于2023-10-16 收藏 975KB PDF 举报

2010年

Bootstrap

身份认证购VIP最低享 7 折!

30元优惠券

2010Bootstrap选择的帧...损失/奖励摘要器细化模块对比度损失是无监督视频摘要的自然标准庞宗尚大坂大学pangzs@is.ids.osaka-u.ac.jp大坂大学n-yuta@ids.osaka-u.ac.jp大坂大学nagahara@ids.osaka-u.ac.jpMayu OtaniCyberAgent，Inc.otani-mayu@cyberagent.co.jp摘要视频摘要旨在选择视频中最具信息性的帧子集，以促进高效的视频浏览。无监督方法通常依赖于学习训练目标，如多样性和代表性。然而，这样的方法需要引导在线生成的摘要来计算重要分数回归的目标。我们认为这样的流水线效率低下，并寻求直接量化的帧级重要性的对比损失的帮助下，在表示学习文献。利用对比损失，我们提出了三个具有理想关键帧的指标：局部相异性、全局一致性和唯一性。在图像分类器上预先训练的特征输入视频骨干输入视频骨干以前的工作：预训练我们的：预先训练的特征LDGCUQ细化特征：对比细化步骤LD：局部差异GC：全球一致性UQ：唯一性任务，度量已经可以产生高质量的重要性分数，证明了比过去的大量训练的方法有竞争力或更好的性能。我们表明，通过使用轻量级的对比学习投影模块来细化预训练的特征，可以进一步提高帧级重要性分数，并且该模型还可以利用大量的随机视频和generalize来测试具有良好性能的视频。1. 介绍最近，深度神经网络大大促进了高效视频摘要工具的发展。张等人提出的监督工作流程和评估协议。[56]已经成为大多数后续基于深度学习的监督方法的基石。无监督方法通过利用启发式训练目标（如多样性和代表性）来避免使用注释摘要[35，42，33，41，62，21，22]。多样性目标旨在加强关键帧候选之间的差异性，代表性目标保证生成的摘要能够很好地图1：我们的方法和以前的工作之间的比较。反映了原始视频中的主要信息。过去的无监督方法集中于在训练过程中对动态生成的摘要进行引导，以评估其多样性和代表性，然后利用由此产生的损失项来训练模型。然而，无论如何，这些算法的基础是摘要中更基本的元素，即，相框产生一个像样的摘要的前提是选择正确的框架。引导质量差的在线摘要似乎不那么简单，如果不是多余的话。在这里，我们提出了一个问题：我们如何直接量化每个帧对最终摘要质量的贡献？为了回答这个问题，我们首先为关键帧候选者定义两个理想的属性：局部不相似性和全局一致性。受多样性目标的启发，如果一个帧在特征空间中与其语义上接近的相邻帧过度相似，则该帧将-特征对比损失2011与它的邻居一起，缺乏局部相异性，其中局部性基于余弦相似性在特征空间中定义[63]。这种帧中的信息十分单调，因为它们在视频中出现多次，但很少表现出任何变化。因此，如果这些帧被认为是关键帧，则我们有向最终摘要引入冗余的风险。另一方面，仅仅基于相异性来选择帧可能错误地将噪声帧与非常少的语义上有意义的近邻结合，因此不指示视频主题。受代表性目标的启发，我们认为与视频中大多数帧一致的帧与中心视频主题相关，即，它们是全球一致的。最后，我们希望选择具有期望的局部相异性和全局一致性水平的帧，以便所得到的摘要可以具有良好平衡的多样性和代表性。有趣的是，上述两个度量可以通过利用图像表示学习的对比损失来容易地计算，即，[52]第52话失去的东西对齐损失计算图像和语义相关样本之间的距离，图像的增强版本。通过一组语义相关的样本，Zhuanget al.[63]将这些样本的聚合对准损失可以容易地测量这样的邻域中的每个帧的局部相异性。均匀性损失旨在使整体特征的接近度规则化，并且对于紧密分布的特征将是高的。因此，它可以方便地用来衡量帧间的语义一致性。这两个损失可以进一步用于执行对比细化的功能，我们将证明这也是比以前的方法更有效。尽管如此，具有与视频中的许多其他帧相关的复杂内容的背景帧也可以是局部不相似的和全局一致的。例如，街道场景可能会出现在整个车祸视频中。由于移动的对象，这样的帧仍然可以相对不同。然而，平均而言，它们可能与大多数帧一致。幸运的是，我们可以通过利用这样一个假设来排除它们，即这些背景帧往往出现在许多不同的视频中，因此对于它们相关联的视频来说并不是唯一的，关于车祸、游行、城市旅游等的视频中的街景。基于这一假设，我们训练了一个unconscious过滤器来过滤掉模糊的背景帧，这可以很容易地并入到上述对比度损失。我们illustrate我们提出的方法与图中以前的工作进行比较。1.一、捐款. 与以前的工作引导在线生成的摘要不同，我们提出了三个度量，局部相异性，全局一致性和唯一性，以直接量化基于理论的帧级重要性[52]第52话被逼无奈这比以前的方法更有效。具体来说，我们可以在SumMe [14]和TVSum [44]上获得有竞争力的F1得分和更好的相关系数[39]，前两个指标仅使用ImageNet [25]预先训练的特征计算，而无需任何进一步的训练。此外，通过对比细化特征以及训练所提出的唯一性过滤器，我们可以进一步提高性能，仅从Youtube8M数据集[1]中2. 相关工作在深度学习出现之前，视频摘要是通过手工制作的功能和大量的优化方案来处理的[44，15，30，60，14] 。 Zhang 等人 [56] 应用涉及双向递归神经网络（RNN）的深度架构还有一些方法可以利用注意机制[11，4，20，19，33，13，32，29]或完全卷积网络[42，34]。通过联合使用RNN和卷积神经网络（CNN）[55，8，10]或使用图卷积网络[24，40]来探索时空信息也提供了不错的性能。还有一种尝试是利用文本来帮助视频总结[36]。无监督方法主要利用两个特性：多样性和代表性。Zhou等[62]随后的工作[6，28]试图最大限度地提高所产生摘要的多样性和代表性。一些工作[35，40，42，41]应用了排斥正则化子[61]以规则化所生成的摘要中的中级帧特征之间的相似性，从而保证它们的多样性。Mahasseni等人[35]和随后的工作[21，17，33]使用基于重建的VAE-GAN结构来生成代表性摘要，而Rochan等人.[41]利用重建不成对摘要。虽然也受到多样性和代表性的启发，但我们的方法不同于上述所有非监督方法。具体地说，我们直接量化了每个帧对最终摘要的贡献，这是通过在表征学习文献[52]中杠杆化对比损失函数来实现的，这使我们能够在没有任何训练的情况下实现与这些方法相比具有竞争力或更好的性能。此外，我们执行对比细化的功能，以产生更好的重要性分数，这避免了自举在线生成的摘要，比以前的工作更有效。据我们所知，我们是第一个利用对比学习进行视频摘要的公司。2012n=1·eD∈·2.23. 预赛由于对比学习对我们的方法至关重要，因此我们介绍了专注于实例识别的方法[54]。3.1. 通过InfoNCE损失进行作为无监督图像表示学习的一个组成部分，对比学习[7]多年来一直吸引着研究者形式上，给定a集合D={In}N个图像，对比表示学习的目的是学习具有可学习θ的编码器fθ，使得所得到的特征fθ（In）可以容易地被下游视觉任务利用。理论上建立的[38]具有良好经验行为的损失函数[50]是所谓的InfoNCE损失[38]：图2：三个指标的概念性说明：LInfoNCE=I∈D-logΣefθ（I）·fθ（I′）/τfθ（I）fθ（J）/τ，J∈D′（I）（一）语义空间中的cal相异度、全局一致性和唯一性。这些图像来自SumMe [14]和TVSum [44]数据集。相同颜色的点其中I′是I X的正样本，通常通过数据扩充获得，并且′（I）包括I′以及所有负样本，例如，任何其他图像。算符““是内积，τ是温度参数。因此，损失的目的是拉近一个实例的特征与其增强视图，而排斥它从其他实例，从而执行实例歧视。3.2. 通过对齐和一致性进行对比学习当归一化到单位超球面上时，倾向于提供有希望的下游性能的对比学习特征具有两个有趣的特性。也就是说，语义相关的特征通常紧密地位于球体上，而不管它们各自的细节如何，并且尽可能地保留整体特征Wang等人[52]将这两个属性定义为对齐和均匀性。对齐度量计算正对之间的距离[52]：表示来自同一视频的特征。为了简洁的演示，我们只显示了“视频2”和“视频3”的一帧，其中p数据通常由经验数据分布近似，β通常设置为2，如[52]所建议的。该度量鼓励单位超球面上的整体特征此外，Eq. (3)近似于Eq.的分母的对数。(1)当负样本的数量达到无穷大时[52]。如[52]中所证明的，联合最小化方程。（2）和（3）可以实现特征的更好对准和均匀性，即，它们是局部聚集的和全局一致的[50]。在本文中，我们使用Eq。(2)计算语义上接近的视频帧特征之间的距离/相异性，以根据局部相异性来测量帧重要性。然后，我们使用Eq的拟议变体。(3)为了测量特定帧和相关视频的全部信息之间的接近度，align（θ，α）=E（I，I′）P位置[<$fθ（I）−fθ（I′）<$α]，（2）评估它们的语义一致性。此外，利用这两个损失，我们学习了一个非线性投影的前，其中α >0，并且ppos是正对的分布（即，原始图像及其增强）。均匀性被定义为总体特征之间的平均成对高斯势：训练的特征，使得投影的特征更局部对准并且全局一致。4. 该方法不像以前的工作，引导不准确的可以-L均匀（θ，β）=log EI.I.D可编程数据[e−β<$fθ（I）−fθ（J）<$2]，（3）didate动态生成的摘要，我们采取更直接的角度来量化帧的重要性局部不相似非唯一全球一致全局不一致视频1视频2视频3本地冗余LI，J2013t=1N∥ ∥t=12L2NLLNL[63，50]。因此，只有既具有适度局部--t t2|N t|z∈Nt12直接，因为我们认为处理无限多个帧集合是非常低效的为了量化帧的重要性，我们定义了三个指标：局部相异性，全局一致性和唯一性。我们在图中提供了一个概念性的二、4.1. 局部相异性受多样性目标的启发，我们认为即使与其语义最近邻相比，也可能导致多样性摘要的帧是那些传达形式上，给定一个视频 V ，我们首先使用ImageNet [25]预训练的主干提取深度特征，例如，GoogleNet [45]，表示为F，使得F（V）=xtT，其中xt表示V中第t帧的深度特征，T是V中的帧总数。每个特征都是L2归一化的，使得xt2= 1。为了定义V中帧的局部相异性，我们首先使用余弦相似性，以针对每个帧xt检索顶部K=aT邻居的集合t，其中a是超参数，并且K被舍入到最接近的整数。x t的局部不相似性度量是等式2的经验近似。（2）定义为和[35，62]中的基于K-中心点的目标，但仅使用单个帧而不是帧的集合进行重构，并且避免训练自动编码器[35]或策略网络[62]。4.3.第一千一百零六章对比精炼等式(4)和（5）是使用在图像分类任务上预先训练的深度特征来计算的，其可能不一定很好地具有如3.2节中所讨论的局部对准和全局均匀性。Hamilton等人[16]对比细化自监督视觉Transformer特征[3]，用于无监督语义分割。他们冻结特征提取器以提高效率，只训练轻量级投影仪。受这项工作的启发，我们还避免了对重型特征提取器进行微调，在我们的案例中是一个深度CNN，而是只训练一个附加到它的轻量级模块。形式上，给定来自视频的冻结骨干的特征 F（V），我们将它们馈送到可学习模块以获得zt=Gθ（xt），其中zt是L2归一化的1。近-仍然使用预先训练的特征{x t } T来确定每个帧的Nt中的最近邻，其已经被示出为局部对准损失：1Lalign（xt）=Σ∥xt -x=2，（4）是一个很好的代理语义相似性[48，16]。似-更大的[53，63]，我们还观察到直接使用最近邻重新学习的可学习特征时的|N t|x∈Nt其测量Xt与其语义邻居之间的距离/相异性。align（xt）越大，xt与它的邻居。因此，如果帧与语义空间中甚至其最近的邻居具有一定距离，则帧在其本地邻域中，可能传达不同但仍然语义上内聚信息，trieval，所以我们坚持使用冻结的功能。对于可学习的特征，对齐（局部离散性）和一致性（全局一致性）损失变为2Lalign（z;θ）=1 中国（6）关键帧候选人。L对齐（xt）可以直接使用L均匀（zt;θ）= logθe−2作为x经过适当的调整。T−1z zt，不4.2.全球一致性z∈Gθ（F（V））（七）如果Xt在视频中具有非常少的语义邻居，则Xt可以包含语义上不相关的帧。因此，仅使用Eq。（4）作为框架重要性分数是不充分的。受基于重建的代表性目标[35]的启发，我们定义了另一个称为全局一致性的度量，以通过基于等式的修改的均匀性损失来量化帧与视频要点的一致性（三）：2因此，联合损失函数为L（zt;θ）=Lalign（zt;θ）+λ1Luniform（zt;θ），（8）其中λ1是平衡两个损失项的超参数在对比细化期间，具有语义上有意义的最近邻并且与视频要点一致的帧将具有相互抵抗的对齐和均匀。具体来说，当t之外的大量帧也与锚zt共享类似的语义结构时，这些帧的功能如下L均匀（x）= loge−2X Xt，“hard很容易被最小化tT−1对齐x∈F（V）uniform（xt）测量xt与其余帧之间的接近度，具有与12014L重建的相似性。1为了符号简单，我们省略了L2-正规化运算符。[2]我们稍微滥用了符号来表示G θ变换前后的损失。2015-LLL-Ll=1S{ }| S |⌊⌋S∈B SkL|S|相异性和全局一致性将对这两种损失具有平衡的相比之下，其他帧与细化之前的帧相比往往具有极值4.4. 唯一过滤器上面定义的两个度量忽略了以下事实：局部不相似帧和全局一致帧可以是具有复杂内容的背景帧，其可能与视频中的大多数帧有关。例如，动态城市视图可以在城市中记录的视频中无处不在。有趣的是，我们可以通过直接利用它们的一个共同属性来过滤这些帧：它们往往出现在许多不同的视频中，这些视频可能不一定具有共同的主题，并且可能具有或不具有类似的内容。这是因为局部对齐损失不断加强语义相似特征的接近度。计算Eq. (9)需要随机视频，转换Eq并不简单。(9)训练后的重要分数。为了解决这个问题，我们简单地训练一个模型Hθε最后一层是sigmoid以模拟1 <$unique（zt;θ），其中<$unique（zt;θ）是t上缩放到[0，1]的唯一（z t ; θ）。表示yt=1sg（<$uniqu e（zt;θ））和rt=Hθ（sg（zt）），其中将模型训练为L滤波器（zt; θt）= −y tlog r t+（1 − y t）log（1 −r t）。（十）4.5. 完整的损失和重要性评分对于所有组件，视频中每帧的损失为：文本，关于车祸，城市旅游，L（z;θ，θθ）=L（z;θ）+λL（z;θ）和城市游行等，或者是人们走动的场景t对齐不1均匀不（十一）可以出现在很多不同背景的视频因此，这样的帧对于其相关联的视频不是唯一的。在弱监督动作定位文献[37，31，26]中利用了类似的推理，其中使用单个类来捕获所有背景帧。然而，我们的目标是以无监督的方式精确定位背景帧。此外，我们不使用单个原型来检测所有背景，因为它太受限制[27]。相反，我们将每个帧视为潜在的背景原型，以在随机视频中寻找高度激活的帧，这也决定了帧本身的后向性。为了设计一个过滤器，用于消除这样的帧，我们引入了一个额外的损失方程。(8)可以接入交叉视频样本为了计算效率，我们将视频Vk中的帧特征与Tk帧聚合成具有相等长度m的片段。每个分段中的可学习特征z被平均池化和L2归一化以获得分段特征K=SL|SK|与K=Tk/m。意思是-确保帧与来自随机采样的一批视频B（现在表示为片段特征），包括Sk，我们再次利用等式(3)定义zt∈Vk的唯一性损失为：1+λ2Lunique（zt;θ）+λ3Lfilter（zt;θ），其中我们将λ2和λ3都固定为0。1，仅调谐λ1。将局部相异性、全局一致性和唯一性分数缩放到t上的[0，1]，帧级重要性分数被简单地定义为：pt=L<$align（zt;θ）L<$uniform（zt;θ）H<$θ（zt）+θ，（12）这意味着只有当所有三个项都具有非平凡量值时，重要性分数才高。这是为了避免重要性分数中的零值，这有助于稳定用于生成最终总和的背包算法。由于分数是从三个独立的度量组合而成的，因此它们往往不具有RNN [56]或注意力网络[11]给出的分数所因此，我们简单地对每个视频中的分数进行高斯平滑，以在分数的时间平滑性方面与以前的工作保持一致5. 实验5.1. 数据集和设置数据集。继以前的工作之后，我们评估我们Lunique（zt;θ）=logλAeS∈B/ Sks∈St2，（9）两个基准测试的方法：TVSum [44]和SumMe [14]。TVSum包含50个YouTube视频，每个视频由20个注释者以每两个视频的重要性分数的形式进行注释其中A =f是归一化因子。较大的unique值意味着zt与来自随机收集的视频的片段具有非平凡的相似性，表明它很可能是一个背景帧。当与Eq.（8），Eq.（9）对于独特的帧将容易最小化，对于独特的帧，大多数S是语义上不相关的，并且可以安全地排斥。对于语义相似的背景帧，情况并非如此2016第二个长镜头。SumMe包含25个视频，每个视频有15-18个参考二进制摘要。我们遵循[56]使用OVP（50个视频）和YouTube（39个视频）[9]来增强TVSum和SumMe。此外，为了测试我们的无监督方法是否可以利用更大量的视频，我们从Youtube8M数据集中随机选择了大约10，000个视频[1]，其中有3，862个视频类，内容非常多样化。2017N对齐而L对齐对齐&L*评价设置。再次遵循以前的工作，我们使用五重交叉验证来评估模型性能，其中数据集（ TVSum 或SumMe）随机分为五个部分。报告的结果平均分为五个部分。在规范设置（C）[56]中，仅在两个评估数据集的原始分割上进行训练。在增强设置（A）[56]中，我们用三个其他数据集（例如，当TVSum用于评估时，SumMe、YouTube和OVP在传输设置（T）[56]中，TVSum（或SumMe）中的所有视频都用于测试，其他三个数据集用于训练。此外，我们还引入了一个额外的传输设置，其中仅在收集的Youtube8M视频上进行训练，并在TVSum或SumMe上进行评估此设置旨在测试我们的模型是否可以从大量数据中受益5.2. 评估指标在[42]之后，我们限制每个视频具有相等的长度，对于较长的视频使用随机子采样，对于较短的视频使用最近邻插值与[42]类似，当使用不同长度时，我们没有观察到太大差异，并且我们将长度固定为200帧，这对于训练非常有效。我们调整两个超参数：比值a决定最近邻集t的大小，系数λ1控制对准和均匀性损失之间的平衡。将通过补充材料第3节中的消融研究证明其各自的效果5.4.定量结果在本节中，我们将我们的结果与以前的工作进行比较，并对我们方法的不同组成部分进行烧蚀研究。仅使用预先训练的数据计算重要性分数F1评分。将A表示为地面实况如表1和表2所示，¯均匀二-summary和B作为帧集合中相应生成的摘要，我们可以计算精度并重新调用如下：精度= |A ∩ B|，召回= |A ∩ B|、（十三）使用GoogleNet [45]预训练特征直接计算的特征在τ，ρ和F1得分方面已经超过了大多数方法特别是相关系数τ和ρ甚至超过监督方法，（0.1345，0.1776）与dp-pLSTM|一||B|关于TVSum虽然DR-DSN2000的性能稍好一些，我们可以用它来计算F1分数，F1= 2 ×精确度×召回率。（14）精确度+召回率我们遵循[56]来处理多个地面实况总结并将重要性分数转换为总结。秩相关系数。最近，Otaniet al. [39]证明F1分数不可靠，即使是随机生成的摘要也会很高。他们建议使用秩相关系数，即Kendall对于每个视频，我们首先计算预测的重要性分数和每个注释者的分数之间的系数值，然后对该视频的注释者总数取平均值。通过对所有视频进行平均来获得最终结果。5.3.实现细节我们遵循之前的工作，使用GoogleNet [45]预训练的特征进行标准实验。对于Youtube 8 M视频的实验，我们使用数据集[1]提供的量化Inception- V3 [46]特征。两种就TVSum的τ和ρ而言，它必须在自举2000个历元的在线生成的和之后达到性能，而我们的结果是使用与DR-DSN也使用的相同的预训练特征通过简单计算需要更多的培训视频进行对比细化。对于表1和表2中的结果，训练视频的最大数量仅为 159 ，来自SumMe增强设置。对于规范设置，TVSum的训练集大小为40个视频，SumMe的训练集大小为20个。在没有经历许多视频的情况下，模型往往会过度拟合每个特定的视频，并且不能很好地概括。这类似于对比表示学习中的观察结果，即更大量的数据（来自更大的数据集或从数据增强中获得）有助于模型泛化[5，3]。因此，表1和表2中的对比细化结果很难优于使用预训练特征计算的结果。在TVSum。在给定足够的训练视频的情况下，该模型可以更好地推广到测试视频。这可以通过TVSum的结果见表3。经过对比细化后，是从特征在ImageNet上预先训练[25]。τ和ρ的值分别为（0.0595，0.0779）和（0.0911，0.1196）。我们可以附加到特征主干的细化模块是一个alsoobserv eimprover ementovererL¯均匀带来轻量级的Transformer编码器[49]，以及唯一性过滤器。更多体系结构和培训详情请参见补充资料第1对比细化在SumMe。SumMe中的参考摘要是二进制分数，2018∗L*L*&L*LL对齐LLLLL表1：以τ和ρ表示的烧蚀结果以及它们与以前在正则集上的工作的比较。由于以前的工作没有提供其他两种设置的τ和ρ，我们在第2.1节中提供了它们的结果。 2在补充。DR-DSN60表示DR-DSN表2：F1方面的消融结果及其与先前无监督方法的比较。粗体的结果是最好的。有关注释的解释和结果分析的文本，请参见表1训练60个历元，DR-DSN2000也是如此。我们从预先训练的特征直接计算具有上标的分数。结果由（λ1，a）=（0. 5，0。①的人。粗体分数代表监督方法和人类评估中最好的，蓝色分数是无监督方法中最好的。有关结果的分析，请参阅正文。TVSum SumMeτ ρ τ ρ人类基线[43]0.17550.20190.1796零点一八六三VASNet [11，43] 0.16900.22210.02240.0255对齐监督dppLSTM [56，39] 0.02980.0385-0.0256-0.0311对齐均匀L<$alignH<$θ无监督（以前）SUM-FCNunsup[42， 43]0.01070.01420.0080 0.0096SUM-GAN [35，43]-0.0535-0.0701-0.0095-0.0122CSNet+GL+RPE [22] 0.070 0.091--L<$alignL<$uniformH<$θ五十九点五五十九点九五十九点七46.845.543.9无监督（我们的，w.o. 培训）¯对齐¯对齐¯均匀0.10550.13890.09600.11730.13450.17760.0819零点零零一无监督（我们的，W。培训）L<$align0.10020.13210.09420.1151L<$alignL<$uniform0.12310.16250.0689零点八四二L'unif or m的效果。L？uniformmeasureshowwconsistentL<$alignH<$θ0.13880.18270.0585零点七一五L<$alignL<$uniformH<$θ0.16090.21180.03580.0437摘要长度被限制在视频长度的15%以内。因此，参考文献摘要的大部分分数为零。对比细化仍然可以增加这些区域的分数这最终降低了与参考摘要的平均相关性，如表3所示。然而，假设预测分数被细化为对于具有非零参考分数的区域具有足够高的置信度;在这种情况下，它们倾向于被用于计算F1分数的背包算法捕获。因此，我们认为具有高F1和高相关性的分数具有高质量，因为前者倾向于忽略预测和注释分数之间的整体相关性[39]，而后者关注其整体排名相关性，但不太关心预测置信度。这一分析可以解释为什么对比的结果-为吕梁而战提高了F1分数，但降低了一个帧与整个视频的上下文相关，从而帮助去除具有不同内容但几乎不相关的帧。视频主题。在表1和表3中清楚地表明，合并均匀有助于提高TVSum的帧重要性的质量。我们在补充材料的第7节中彻底讨论了为什么制服会损害SumMe的性能。唯一性滤波器H<$θ的效果。如表1和表2所示，虽然H<$θ对于TVsum视频很好，但它几乎没有为SumMe视频带来任何好处因此用于TVSum的唯一性滤波器的良好性能可以简单地源于以下事实：TVSum中的背景帧不够有挑战性，通过仅使用几个视频训练的唯一性过滤器检测。因此，我们假设需要在更多的视频上训练H<$θ，以便过滤出更具挑战性的返回。基础帧，以便它可以推广到更广泛的视频。表3中的校准H<$θ检验结果证实了这一点，该结果表明F1评分良好，且相关性良好TvSum和SumMe的系数当引入L<$uniform时，可以进一步提高TVSumper-cycle相关性我们分析了制服的负面影响，SumMe稍后。对齐的效果。从表1、表2和表3中可以看出，单独使用'align已经可以很好地量化帧重要性。这表示对齐成功选择具有不同语义信息的帧，这对于所需的摘要确实是必不可少的此外，我们认为，不同的框架是一个体面的总结的基础，因此，可以使用L′align进行进一步消融。额定值与Youtube 8 M上的DR-DSN比较[62]。如表1所示，DR-DSN是唯一一种在τ和ρ方面与我们具有竞争力的无监督方法，并且已经发布了官方实现。因此，我们还在我们收集的 Youtube 8 M 视频上训练了 DR-DSN，以将其与我们的方法进行比较。如表3所示，DR-DSN很难推广到评估视频。我们还比较了DR-DSN与我们的方法，TVSumSumMeC一不C一不DR-DSN60[ 62]57.658.457.841.442.842.4[42]第四十二话52.7--41.5-39.5[35]第三十五话51.759.5-39.143.4-[41]第四十一话55.6-55.747.5-41.6CSNet [21]58.85959.251.352.145.1CSNet+GL+RPE [22]59.1--50.2--[40]第四十话59.361.257.649.852.147吕氏吕吕56.458.456.458.454.656.843.547.243.546.0739.441.7[40]第40话[43]第43话0.1380.2301-0.0108-0.0137拉齐54.655.15346.847.141.5DR-DSN60[ 62， 39] 0.0169DR-DSN2000[ 62， 43] 0.15160.02270.1980.0433-0.01590.0501-0.0218L<$alignL<$uniform58.853.859.95657.454.346.745.248.44541.145.32019LLLLLLLLL锚语义邻居0.6910.4920.0170.0730.4980.859锚语义邻居0.3640.7090.0880.0860.7170.687表3：Youtube8M数据集的迁移评估设置，其中仅在col上进行训练5.5.定性结果我们展示了局部相异度（L′）的作用选择Youtube 8M视频，然后在TVSum上进行评估全局一致性（对齐和SumMe。还提供了DR-DSN [62]的结果以供比较。TVSum SumMe对齐对齐均匀uniform ），以及图中的uniquenessfilterH′θ生成的唯一性得分。3.第三章。我们将两人一组的效果形象化并进行讨论，整齐划一，alig n&H 我们提供了一个如何改进的示例在补充资料第8节中&调整统一。在上面-一半的图。3，绿色条选择具有高局部相似性但低全局一致性的帧，其结果是具有完全不同的外观且几乎不一致的标题帧L<$align56.20.0911零点一一九六四十六点六0.0960L<$alignL<$uniform57.3零点一一三○零点一四九○四十点九0.0153 0.0190会泄露任何关于视频的有价值信息而黑色条选择与L<$alignH<$θ58.10.12300.1612四十八点七0.07800.0964视频（采访），它有语义邻居，几乎L<$alignL<$uniformH<$θ五十九点四0.15630.2048四十三点二0.04490.0553图3：TVSum和SumMe中两个视频示例的定性分析。左列包含重要性分数，其中“GT”代表地面实况。的绿色条选择具有高对齐但低对齐的锚帧<$uniform或H<$θ m，红色条选择两个指标的非试验幅度，黑色条选择低幅度<$alignbuthigh<$uniformorH<$θ. 我们展示了五个样本，虚线内的前10个语义最近邻居框中的每个选定的锚定帧。模型大小在补充资料的第4更多的实验。我们对具有挑战性的Youtube8M视频进行超参数调整。我们还使用不同种类的预训练特征评估了所提出的度量。此外，我们观察到TVSum的F1分数可能会随重要性分数的大小而变化。上述结果见附录第3-6节。相同的外观，并且不太可能包含不同的语义。红色条选择具有中等局部不相似性和全局一致性的帧。该帧与它的语义邻居一起传达不同的信息，不管周围有没有人而且，它还与整个视频语境高度相关：在一家汽车公司的面试。对于图的下半部分3，绿色条选择具有与其相邻帧明显不同的信息的帧，例如，大海在画面中所占的比例各不相同。然而，这样的帧可以出现在具有水场景的任何视频中，使得其对于所属视频不是唯一的。因此，其独特性得分较低。黑色条选择一个帧，其中一个对象专门属于该视频的中心，但它周围的局部语义邻域红色条选择具有高局部相异性和高唯一性的帧，其结果是与视频的要点相关的帧：圣马丁登陆。6. 结论我们首次尝试直接量化帧级重要性，而无需基于[52]提出的对比度损失自举在线生成的无监督视频摘要摘要。通过预先训练的深度特征，我们提出的指标已经产生了高质量的重要性分数，与许多以前经过大量训练的方法相比。我们可以通过利用足够数量的随机视频来进一步改进对比细化的指标。我们还提出了一种新的唯一性滤波器，并通过大量的实验验证了它的有效性。继续探索无监督视频摘要和表示学习的结合将是有趣的。7. 确认这项工作得到了JST CREST Grant No. JPMJCR20D3和JST FOREST Grant No. JP-MJFR216O。LFτρFτρDR-DSN [62]51.60.05940.078839.8-0.0142-0.0176吕氏吕氏&吕氏55.956.70.05950.06800.07790.089945.542.90.10000.05310.12370.06492020引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。[2] 威廉·拜尔。标准概率与统计：表格和公式。一九九一年[3] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。在CVPR，2021年。[4] 路易斯·勒布朗·卡萨斯和尤金妮亚·科布伦。使用LSTM和深度注意力模型进行视频汇总。在MMM，2019年。[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。[6] 陈一燕，李涛，王雪婷，矢正崎俊彦.基于神经强化学习的弱监督视频摘要。在ACM MM亚洲。2019.[7] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在CVPR，2005年。[8] 朱伟达，刘玉欣。用于视频摘要的时空建模和标签分布学习。在MMSP，2019年。[9] Sandra Eliza Fontes De Avila ， Ana Paula BrandaoLopes，AntoniodaLuzJr，andArnaldodeAlbuquerqueArau'jo. VSUMM：一种用于生成静态视频摘要的机制和一种新颖的评估方法。Pattern RecognitionLetters，32（1）：56[10] Mohamed Elfeki和Ali Borji。视频摘要通过行动排名。在WACV，2019年。[11] Jiri Fajtl ， Hajar Sadeghi Sokeh ， Vasileios Argyriou ，Dorothy Monekosso，and Paolo Remagnino.关注视频。在ACCV，2018年。[12] 李同峰，李紫茵，邝章辉，张伟。提取视频摘要与记忆增强神经网络。在ACM MM，2018年。[13] 傅祖瑞，戴绍恒，陈焕宗。用于视频摘要的主动和对抗学习。在WACV，2019年。[14] MichaelGygli、HelmutGrabner、HaykoRiemenschneider和Luc Van Gool。从用户视频创建摘要2014年，在ECCV[15] Michael Gygli Helmut Grabner和Luc Van Gool通过学习对象的子模块混合来进行视频摘要。CVPR，2015。[16] Mark Hamilton，Zhoutong Zhang，Bharath Hariharan，Noah Snavely，and William T Freeman.通过提取特征对应的无监督语义分割。 arXiv 预印本 arXiv ：2203.08414，2022。[17] Xufeng He ， Yang Hua ， Tao Song ， Zongpu Zhang ，Zhenggui Xue，Ruhui Ma，Neil Robertson，and HaibingGuan.无监督视频摘要与注意的条件生成对抗网络。在ACM MM，2019年。[18] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Phil Bachman 、 AdamTrischler和Yoshua Bengio。通过相互信息估计和最大化来学习深度表示。arXiv预印本arXiv：1808.06670，2018。[19] 仲吉，方角，庞烟薇，凌少。深度注意力和语义保持视频摘要。Neu- rocomputing，405：200[20] Zhong Ji，Kailin Xiong，Yanwei Pang，and Xuelong Li.使用基于注意力的编码器-解码器网络的视频摘要IEEETransactionsonCircuitsandSystemsforVideoTechnology，2019。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

视频摘要：基于对比损失的无监督方法的研究

基于跳扩散模型的上证50ETF实证文献

请生成“建筑热负荷预测算法研究”的国内外研究。

python代码实现文本摘要的核心算法

遥感阴影测树高的文献

写一遍发明专利，题目为：基于毫米波雷达与热成像技术结合的人体跌倒检测方法

基于注意力机制的模型有那些应用

找几篇关于传统轴承监测诊断的案例、优缺点分析的近5年的文献

paddlenlp中都支持哪些中文文本生成的模型

推荐一个基于时域有限元法的电磁场计算和仿真技术研究电磁波在介质中的衍射的课题

帮我写一篇3000字论文；题目：多边主义：世界发展的破局之策；知网论文形式

基于FMCW雷达的人体跌倒检测方法研究

写一篇专利：一种基于HUD的家庭设备互联的方法及系统

基于深度学习的网络应用加密流量识别方法研究

写一份简单的研究报告

计算PET脑nii图像分割白质的Dice系数的文章

一篇论文包括的内容有什么

基于有限状态机的IP软核数字版权保护方法研究

最新资源