基于多对排序网络的个性化视频摘要方法及应用

72 浏览量更新于2023-10-13 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1718基于多对排序网络的个性化视频摘要Yassir Saquil1 Da Chen*2Yuan He2 Chuan Li3Yong-Liang Yang11巴斯大学2阿里巴巴集团3Lambda Labs摘要在本文中，我们研究了视频摘要在监督设置。由于视频摘要受制于终端用户的偏好，因此唯一模型的设计在这项工作中，我们提出了一个模型，提供个性化的视频摘要条件的总结过程与预定义的分类用户标签，贝尔被称为偏好。底层方法基于多个成对排序器（称为多排序器），其中排序器被联合训练以提供给定视频的局部摘要以及全局摘要。为了证明我们的方法的相关性和应用程序的对比与经典的全球摘要，我们进行多个基准数据集的实验，特别是通过用户研究和比较与国家的最先进的方法在全球视频摘要任务。1. 介绍视频摘要是视频理解的一个重要分支。其目的是为最终用户提供仅捕获相关内容的原始视频的综合。各种应用可以受益于视频求和，具体地包括语义视频编辑和内容过滤。此外，通过排除不必要的内容，摘要还可以用作预处理步骤，从而减少视频的长度和处理时间，用于下游任务，例如动作识别。视频摘要通常与精彩部分检测交织在一起，这可以被公式化为基于为每个视频帧或片段分配重要性分数的学习模型相比之下，视频摘要寻求的概要，不仅包含视频的亮点，但也满足其他标准，如多样性，代表性，视觉和语义连贯性的摘要。此外，讲故事的能力和对环境的适应能力也经常被考虑。一种物质-*通讯作者图1.给定来自TVSum数据集的测试视频9及其帧级重要性分数（灰色），我们用4个偏好（青色、品红色、黄色、黑色）训练的多排名器方法可以根据偏好的子集和类似于经典摘要方法的全局摘要来生成局部/个性化摘要在该研究领域中的不同主题中已经完成了初步的工作，特别是在高光检测和视频摘要中。这些工作中的许多是基于新颖的特定关键洞察或启发式，其考虑了一个或多个概括标准[38，13，12，73，57，51]以及特定的模型设置，例如监督[15，67，11，39]，弱监督[19，25，37，42]和[15，67，11，39]。无监督[62，33，73，23]学习。在实践中，视频中有意义的内容是一个主观问题，取决于最终用户的观点，这是本研究主题的主要挑战之一[48，53]。然而，文献中很少有文献对探索定制生成摘要的可能性感兴趣[10，41，46，54]。由于对什么构成全球摘要没有共识，建议生成独特摘要的模型对于一般用户来说是限制性的，因为他们的观点和意见是多样相反，设计可以提供一组汇总供用户选择的模型可能满足特定的用户偏好。例如，在包含许多比赛动作（投篮、运球、扣篮、1719叠层等），唯一的全局概要可以包括这些动作中的然而，每个用户具有特定的动作偏好，并且我们相信考虑这样的偏好将实现更灵活的个性化摘要。为了这些目的，我们提出了一种新的排名，ING为基础的视频摘要模型，这是由多个子排名模型，训练使用成对的视频段的重要性分数之间的比较，以提供本地摘要相对于每个预定义的偏好，通过排名重要的段高于不重要的。此外，子排名模型被联合训练，使得它们的预测排名分数的最大值确保类似于以下的唯一全局总结：使用成对比较训练的标准排序模型。因此，我们的模型能够根据给定视频片段的每个偏好来预测全局排名得分和一组局部排名得分，从而能够通过选择用于本地摘要生成的一个偏好、用于个性化摘要生成的一些偏好或用于全局摘要生成的所有偏好来实现与模型交互的可能性，如图1所示。我们通过在基准数据集上的定量和定性实验证明了我们的方法的相关性和总之，我们的贡献是两方面的：1）我们表明，基于成对排序的模型可以在监督视频摘要的任务中实现最先进的结果2)我们提出了一个多对排名模型，赋予了一个训练计划，用于生成一个全球性的摘要，以及本地和个性化的摘要，相对于预定义的偏好，最终用户可以进行交互。2. 相关工作视频高光检测在早期的体育视频高光检测工作中，基于音频特征分类[44]、视觉特征分类[52]或它们两者[59，55]呈现不同的模型。最近的作品制定它作为一个成对的排名问题，在不同的训练设置。在监督设置中，[51]提出了一种具有潜在变量的成对排名器，该潜在变量考虑了数据中的噪声和变化，同时假设特定于领域的编辑视频更有可能包含亮点。[63]提出了基于具有视频时移和略读应用的双流网络结构的深度成对排序模型。[21]进一步整合了注意力模型，以获得更好的亮点预测。[15]专注于使用具有自适应Huber损失的排名模型生成动画GIF。与标准视频不同，[64]通过提出合适的排名模型来解决360°视频的亮点检测。在其他设置中呈现的作品较少，[19]集中在弱监督设置中，仅提供视频事件标签。”[62]这是一个不确定的问题。仅使用编辑的视频的检查方法。基于短视频比长视频更关注亮点的见解，[57]引入了一种成对排名器，该排名器对短视频的片段评分高于长视频。视频摘要虽然亮点检测侧重于在视频中找到相关内容，但视频摘要对生成的概要形式施加了更多限制，对于以自我为中心的视频摘要，[60]提出了一种使用凝视跟踪信息的模型，而[29]提出了一种由预测的重要人物和物体驱动的方法。[58，27，32]专注于生成摘要的故事情节表示。对于一般的视频，很少有作品引入非学习方法。[34]提出了使用光流的基于运动的模型。[35]使用了一个图形表示，专注于内容覆盖率和视觉质量。[72]提出了一种准实时摘要的在线方法。[38]使用从类似视频中提取的知识进行协作总结。[8]通过视频镜头在其他视频中的视觉共现来定义视频镜头的重要性。基于学习的视频摘要方法可以根据其训练设置进行分类。在监督设置中，经典方法首先对视频进行分段，然后使用一组特征[14]、目标混合物[13]或经训练的分类器[43，40]来估计每个分段的视觉兴趣度。其他作品使用递归神经网络（RNN）对帧之间的相互依赖性进行建模，以获得更好的摘要。[67]提出了一个LSTM模型，而[70，71]提出了一个执行分割和总结的分层RNN。为了降低计算成本，[11]提出了一种自注意网络。还引入了其他公式，如顺序子集选择[12]、图形建模[39]和子集结构转移[66]。在弱监督设置中，大多数方法使用网络先验信息来增强摘要任务[6，37，49，25，26，30，42]，而在无监督学习设置中，许多提出的方法从预先存在的视频线索中学习[33，65，73，22，18，68，23]。我们建议读者参考[3]，以深入讨论这些设置个性化内容摘要许多作品已经研究了定制视频摘要的可能性。早期的作品依赖于元数据和用户配置文件。[20]通过根据特定用户从元数据中提取特征来训练重要性分类器。[1]提出在用户简档和多媒体特征之间映射。[4]建立用户配置文件并将其与演示媒体（例如，视频元数据、图像），用于体育视频的个性化摘要。最近的工作更侧重于使用文本查询。[61]提出了基于使用具有隐含约束的自然语言问题的用户交互来生成简短摘要[31]提出了多任务嵌入网络1720∼≻≺(1)（二）我联系我们我我我2我我我我我我1+e−xii图2.标准排名器和多排名器训练管道和推理，例如FC（2048，1），具有2048个输入特征维度的全连接层和BCE，二进制交叉熵损失。灰色表示视频帧级GT重要性分数，并且前15%的预测排名分数在直方图中被着色以表示摘要。其将标题、描述、查询形式的信息[47]提出了一种存储器网络，其将用户查询处理到不同的视频帧上。[69]提出了一种查询条件生成模型，其中生成器学习用户查询和视频内容的联合表示。[46，54，56]提出了生成与输入文本查询不同的、有代表性的和相关的摘要的方法。在另一个频谱中，[10，41]引入了基于用户历史的个性化方法。[10]提出了一种以用户历史为条件的排名模型，该用户历史由先前选择的用户亮点表示。[41]经过训练的高光检测和历史编码器网络，学习将高排名分数与重要视频片段相关联的排名函数R，并通过选择排名靠前的片段来构建在这项工作中，我们将摘要任务模拟为分类问题，并使用[5，50]中提出的CNN特征训练成对排名器R该方法包括学习根据它们的GT（地面实况）重要性排序s（1）对一对视频片段特征s（1）和s（2）进行s（2），s（1）s（2）或s（1）s（2）。形式上，给定由具有特征的n个片段组成的视频，并且其GT重要性得分为S为{（s1，l1），. . .，（s n，l n）}，我们构造一个数据集比较{（s（1），s（2），yi）}N的大小，并定义秩-交互以提供帧级高光得分我我损失如下：i=1用户输入和以前的突出显示历史。 [9]建议（一）（二）（一）（二）一种主动摘要方法，在创建摘要时以交互方式收集我们的工作可以被认为是一个个性化的总结，marization使用预定的偏好。这些优选是表示由数据定义的语义含义的基于片段的标记。在测试时，用户可以通过选择要包括在自定义摘要中的偏好来与经训练的模型LR（si ，si ，y i）= −y ilog[σ（R（si ）−R（si））]−（1−yi）log[1−σ（R（s）−R（s））]），（1）使得σ（x）=1是S形函数，（s（1），s（2））是分段特征对，并且y是0，0。5， 1是表示重要性排序的比较标签，并定义了如：yi=[1（1）> 1（2）]+1[1（1）= 1（2）]，其中[. ]为艾弗森括号且（s（1），l（1）），（s（2），l（2））∈S.3. 方法在本节中，我们首先概述全局监督摘要的成对排序模型，然后展示如何将其纳入本地和个性化摘要的多对排序模型的设计中。3.1. 全局求和的两两排序模型在文献[57，15，63]中对用于视频摘要的基于排名的模型进行了充分研究，其中一般目标3.2. 个性化文摘通过训练成对排序模型R，我们能够生成唯一的摘要。然而，由于摘要任务的主观性质，全局模型的应用是有限的，并且个性化模型由于其选项范围而非常理想，例如根据附加提示和与终端用户的交互来提供摘要。对于这些目标，条件模型是一个合适的选择，例如，[10，41]提出了一个关于用户历史的条件模型，以提供自定义的总和。1721P{· · ·}j=1- -{}L联系我们(1)（二）--我我我我- -{}∈{}×--P∈\{}1我我我–∈J我我玛丽.相比之下，我们选择在这项工作中使用补充分类标签的模型，我们别名作为首选项。分类标签或偏好可以表示取决于目标数据集和可用标签的许多线索，诸如动作识别标签或简单的k均值聚类预测标签。给定一组偏好=1P，我们引入了一个名为Multi-ranker的多排名模型，它由一组联合训练的子排名RjP组成因此局部概要符合偏好，而全局概要聚集子排名器分数。例如，给定视频作为具有其GT重要性分数和偏好S =（s 1，l 1，p 1）的η个片段的特征的集合。. .，（sn，l n，p n），我们构造成对比较数据集（s（1 ），s（2），yi，z ij）（i，j），其中（i，j）1。. . N1 .一、. . P，并定义局部排名损失Rj尊重到与子排名器Rj相关联的偏好j，如下：• 全局汇总类似于最先进的监督汇总方法，其中分段si的全局预测排名得分为maxj∈PRj（si）• 针对特定首选项的本地摘要其中，分段si的本地预测排名分数是Rj（si）• 针对特定偏好子集s2P的个性化汇总，其中，细分si的自定义预测排名得分为maxj∈PsRj（si）我们注意到，单独训练全局排名器R和局部子排名器Rj以执行局部和全局汇总任务的可能性表明，我们的多排名器模型的优势在于其训练方案，该训练方案在局部子排名器之间相互关联以创建个性化的并最终创建全局汇总。在这种情况下，独立模型提供|P|+1个总结，而多排名模型生成2个|P|-1个总结感谢位置-（一）（二）（一）（二）选择不同偏好组合的能力。LRj（si ，si ，z ij）= −z ijlog[σ（R j（si ）−Rj（si））]最后，与[10，41]不同，要求用户-(1)（二）−（1−zij）log[1−σ（Rj（si）−Rj（si））]），（2）其中σ（x） =1 是sigmoid函数，（s（1），s（2））是tory，在测试时，Multi-ranker仅需要来自用户的输入视频和偏好选择，这要归功于prefer-1+e−x我们选择的ience模型。然而，我们的方法需要一对分段特征和z ij0，0。五、一是当地- 比较标签，其表示关于偏好j的重要性排序，并且确保只有当li为高并且pi=j时片段si才具有高重要性，其可以被公式化如下：zij=[（[p（1）=j]l（1））>（[p（2）=j]l（2））]+[（[p（1）=j] l（1））=（[p（2）= j] l（2））]。（三）2我另外，为了确保子排名器{Rj}得分的最大聚合等效于全局成对排名器R，我们将全局排名损失LRmax定义为类似于如下：和偏好一样多的子排名。我们认为这不是一个计算问题，因为每个排名都由一个单层网络表示4. 实验在本节中，我们首先描述实验设置。然后，我们提供定量的结果，比较我们的方法与国家的最先进的方法在监督视频摘要任务。我们提供了超参数调整的消融研究，并证明了局部和个性化总结的相关性。最后，我们用可视化和用户研究定性地评估我们的结果（一）（二）（一）（二）LRmax（si ，si ，y i）= −y ilog[σ（maxR j（si ）− maxR j（si ））]4.1. 数据集准备j∈P（1 y i）log[1 σ（maxR j（s）max Rj（s）]）。（四）j∈P最后，将全局和局部损失放在一起，我们获得多秩损失LRmulti如下：TVSum [49]数据集是50个YouTube视频的集合，分为10个类别。每个视频被分成一组2秒长的镜头。20个用户被要求对每个镜头与来自同一视频的其他镜头相比的重要性进行评级，以便构建20个参考摘要。GT总结（一）（二）（一）（二）LRmulti（si ，si ，y i，z ij）=λLRmax（si ，si ，yi）+（1−λ）LR（s（1），s（2），zij），（5）其中（s（1），s（2））是一对分段特征，zij，yi0，0。5、 1是局部和全局比较标签，并且λ是在多排名器模型的局部和全局汇总之间平衡的超参数。通过利用图2所示的多排名模型及其训练方案，我们可以执行以下三个主要任务：1722对于每个视频，定义为对应的20个参考摘要的平均值。SumMe [14]数据集由包含各种事件的25个视频组成。对于每个视频，关联15至18个基于参考间隔的关键镜头摘要。通过将关键镜头中包含的帧标记为得分1，将关键镜头中不包含的帧标记为得分0，将这些摘要转换为帧级参考摘要然后，与每个视频相关联的GT概要被定义为15至18个参考概要的平均值。1723P{· · ·}- -表1.每种方法和数据集的Kendall τ系数的平均值和标准差多排名器P表示具有P偏好=1 P和DR-DSNep表示ep历元的训练模型。性能最佳的模型将突出显示，符号我们注意到FineGym只有4个固定偏好和1个参考摘要。与视频摘要数据集TVSum和SumMe不同，FineGym[45] 是一个细粒度的动作识别数据集，为 156 个YouTube健身房视频提供动作级别的时间注释。由于视频持续时间较长，我们仅使用了50个采样视频用于实验目的，并在补充材料中列出了其ID。在这种情况下，我们没有参考摘要，而是通过用分数1标记包含在动作关键镜头中的帧并且用分数0标记不包含在关键镜头中的帧来为每个视频定义一个参考摘要和GT摘要4.2. 评估指标在最先进的视频摘要方法中的常见评估度量是在预测摘要和参考摘要之间计算的F1分数，其中摘要管道由重要性分数估计、视频分割和关键镜头选择组成。在最近的工作中，[36]表明随机生成的摘要比最先进的方法获得了类似或更好的结果，这意味着重要性分数估计部分对测量分数没有重大影响。相反地，[36]提出了比较参考和预处理的重要性分数排序口述摘要这些度量是秩相关系数，确切地说是Kendall在这项工作中，我们专注于使用Kendall4.3. 实现细节在FineGym数据集中，我们只使用动作标签定义了4个分类偏好（跳马、自由体操、平衡木、不均匀杠）。没有注释的片段被分配给额外的背景偏好，由于其应用不可靠，因此在实验中不使用该背景偏好韦恩斯在TVSum和SumMe数据集中，没有段标签可定义为首选项。相反，我们选择在5000个随机采样的片段特征上分别用2、 4、 8个聚类来训练k均值模型，其中聚类的数量表示偏好的数量，并且每个视频片段都标有预测的偏好。我们使用3D ResNet生成了分割特征si[16]使用ResNet-50 [17]在Kinetics数据集上预训练的主干[7]。特征是在最后一个conv层的池化的平坦化之后提取的2048个我们注意到，每个特征表示16个帧的片段si，使得其偏好pi如前一段中所述被定义，并且其对应的重要性分数li是导致片段级GT重要性分数的16个帧GT重要性分数的平均值我们使用一个全连接层（FC）对排名器R和每个子排名器R进行建模，并使用Adam优化器训练标准排名器和多排名器方法[28]。我们将学习率设置为0。0002，并且根据消融研究4.5.2，在每个实验中指定超参数λ、小批量B、成对比较的数量N和训练时期。4.4. 实验方案我们的模型使用段级GT摘要进行训练在模型在片段级特征上训练的情况下，预测的帧重要性分数等于包含该帧的片段的预测的重要性分数。给定视频此外，使用留一法[36]定义视频的人类基线相关系数，其是每个可能的参考摘要对之间的系数的平均值。我们注意到方法TVSumSumMeFineGym人类基线VASNet [11]dppLSTM [67]DR-DSN60 [73]DR-DSN2000 [73]CSNet+ GL+ RPE [23]SumGraph [39]0.1755 ±0.02270.1690 ±0.01890.0298 ±0.02840.0169 ±0.05080.1516 ±0.03730.0700 ±0.00000.0940 ±0.00000.1796 ±0.01070.0224 ±0.0289-0.0256 ±0.02140.0433±0.0386-0.0159 ±0.0305---0.3739 ±0.0295-0.0267 ±0.00750.1457 ±0.1108楠--标准排名多排名8多排名4多排名20.1758±0.02430.1750 ±0.02960.1736 ±0.02660.1630 ±0.02090.0108 ±0.0407-0.0097 ±0.0405-0.0006 ±0.04540.0172 ±0.01980.3792 ±0.0335-0.3928±-0.02911724−−- -图3.每个设置和数据集的平均Kendall std，std]，withstd表示Kendall图4.每个设置和数据集的平均Kendall std，std]，with分别给出了Kendall τ系数的标准差和全局、局部表示全局和局部求和系数。该FineGym数据集具有一个参考摘要，因此未定义人类基线。与[11]标准设置类似，我们为每个单独的数据集生成5个随机的非测试/测试拆分我们将所有视频的80%设置在非测试集中，20%设置在测试集中，并将一组视频的相关系数定义为每个视频的相关系数的平均值。4.5. 定量结果4.5.1与最先进方法的基线：我们使用[11]中描述的特征嵌入在TVSum和SumMe上训练dppLSTM [67]，VASNet [11]，DR-DSN[73对于FineGym，我们使用子节4.3中描述的特征处理来训练这些模型。在Multi-ranker的情况下Ri和标准排序器R，我们设置N=2000，B= 128，λ=2000。0的情况。5，并根据消融研究4.5.2 结果，而人类基线的定义见第4.4小节。此外，我们报告CSNet+ GL+ RPE[23]和SumGraph [39]关于TVSum的原始结果，自没有公开可用的实现。我们注意到，除非另有说明，所有这些模型都是使用默认超参数在相同的集合根据实验方案4.4，我们使用每个基准中的每个分割的测试集将我们的多排名器与全局求和任务上的这些基线进行我们在表1中报告了平均值和标准差Kendall在TVSum数据集上，我们注意到Standard ranker实现了与人类基线相当的结果，而Multi-ranker和VASNet略低于人类基线。dppLSTM和DR-DSN很难推广到测试集，但是当我们训练DR-DSN更多的epoch时，它的表现与其他方法相当与TVSum类似，在Fine-Gym数据集上，标准排名器和VASNet表现良好，多排名器略高于标准排名器。dppLSTM努力推广到测试集，而DR-DSN显示出不稳定的预测，并且最终随着更多的训练时期，它通过预测所有片段的相同分数而出现分歧。关于SumMe数据集，我们不能忽视的事实是，所有实验方法都未能在测试集上推广。到目前为止，依赖于秩相关系数评估的先前工作[36，23，39]仅显示了TVSum的结果。[23]提到SumMe参考摘要中的二进制重要性分数不是评估度量的适当形式。我们不同意这一主张，同时在FineGym数据集上提供性能，并在其参考摘要中提供二进制重要性分数作为证据。使用该参考总结表进行评估将导致许多成对关系，这些关系需要通过秩相关性测量来考虑。幸运的是，Kendall另一方面，我们观察到SumMe视频广泛地依赖于上下文，而FineGym视频具有相同的上下文，并且我们的方法和基线未能推广1725联系我们- -P{}∈--PPP {}使用两个不同的视频特征提取器（更多细节在补充材料中）。这些观察使我们质疑SumMe视频的训练片段特征的泛化能力。4.5.2消融研究我们进行消融研究，以调整我们的模型的超参数，并研究其对性能的影响。由于穷举网格搜索是耗时的，因此我们使用以下两步过程：我们首先通过训练标准排名器R来调整小批量大小B和成对比较的数量N，然后通过以下方式调整超参数λ：训练多排名者{Ri}。我们设置B32， 128，N2000， 5000，并遵循实验方案4.4，在每个分割的非测试集上使用4倍交叉验证来训练标准排名R表2.对于设置）。因此，我们为50个时期训练了20个模型，并在图3中报告了验证集上的Kendall τ系数的平均值和标准差根据图中的曲线在第3步中，我们得出以下结论：早期时期足以获得最佳排序器，并且进一步的训练导致训练集上的过拟合。该模型在最优时期对超参数B和N不敏感，因为系数差异不显著。超参数λ的目的是平衡局部和局部。Multi-ranker的全局汇总。为了量化这种权衡，报告与预测的全局概要相关的相关系数是不够的。我们相对于偏好j定义视频的本地参考概要，使得如果相关联的段si满足pi≠j。因此，所得到的视频局部相关系数是关于每个局部参考概要和每个偏好的预测局部概要和参考局部概要之间的相关系数此外，局部人类基线相关系数是每个偏好的每个可能的局部参考概要对之间的系数的平均值我们设定=1 .一、. . 4、B= 128 ，N=2000，λ0的情况。25，0。5，0。75，并遵循实验方案4.4，在每个分割的非测试集上使用4倍交叉验证来训练多排名器 Ri 。我们在图 4 中报告了验证集的局部和全局Kendallτ系数的平均值和标准差我们注意到λ的变化对全局摘要性能没有影响，而当λ更强调全局摘要时，平均局部相关系数趋于此外，还研究了偏好数量对全局摘要的影响，并在补充材料中显示。4.5.3个性化摘要该实验为此目的，我们相对于偏好集s定义视频的个性化参考摘要，使得如果相关联的片段si满足pigs，则帧重要性分数被设置为0。因此，所得到的视频个性化相关系数是预测的个性化总和与每个个性化参考摘要之间的相关系数的平均值尽管标准排名器在GT摘要上进行了培训以生成全局摘要，但使用个性化参考对其进行测试摘要为多排名设置下限基线我们设置N= 2000，B= 128，λ = 0。5， = 1。. . 4和训练多等级者和标准等级者1个纪元。福尔-根据实验协议4.4，我们使用FineGym数据集中每个分割的测试集在个性化摘要任务上测试这些模型。我们在表2中报告了测试集上的个性化Kendallτ系数的平均值和标准差正如从多秩模型所预期的，我们注意到生成的总和越一般，多秩相关系数越类似于标准秩。此外，生成的汇总越本地化，标准等级相关系数和多等级相关系数之间的差异越大。4.6. 定性结果4.6.1可视化在本小节中，我们将介绍FineGym数据集中的全局和局部视频摘要示例，更多示例见补充材料。在图5中，我们示出了FineGym中视频的分段级GT重要性分数，并突出显示了相对于自由体操的排名最高的15%的全局和局部预测分段。预置集多秩标准等级{1}下一页0.1086 ±0.01640.0254 ±0.0122{2}0.3568 ±0.03760.2727 ±0.0241{3}0.3985 ±0.00970.2978 ±0.0133{4}0.3007 ±0.02830.1504 ±0.0840{1，2}0.3928 ±0.02910.3792 ±0.0335{1，3}0.3747 ±0.02450.2829 ±0.0325{1，4}0.2359 ±0.02860.1200 ±0.0582{2，3}0.4093 ±0.01350.3925 ±0.0183[2，4]0.3707 ±0.02180.2781 ±0.0387[001pdf1st-31files]0.3966 ±0.01170.2996 ±0.0201{1，2，3}0.3928 ±0.02910.3792 ±0.0335[2019 -04 - 21]0.3928 ±0.02910.3792 ±0.03351726图5.段级GT重要性评分（灰色）、多等级整体总结（蓝色）、自由体操的多等级局部总结FineGym数据集中ID为“0LtLS9wROrk”的测试视频的首选项（洋红色）在局部和全局求和任务中使用多排名器的偏好。在每个图示的概要中，我们可视化来自突出显示的预测帧的6个采样帧。4.6.2用户研究为了量化我们的多排名器方法的感知质量以及每个多排名器任务（即局部、个性化和全局汇总）的用户角度的影响，我们基于40个受试者进行了用户研究，这些受试者被要求提供他们对4个主要比较场景的意见。我们专注于FineGym视频及其预定义的4个首选项，并要求受试者观看每个场景运行原始视频和两个相关摘要，同时选择本地摘要的首选项或个性化摘要的首选项，然后提交他对场景问题的答案。第一个场景是多排名和VASNet [11]摘要之间的主观比较，而其余场景是从用户角度出发的可用性和满意度方面的本地、个性化和全局摘要之间的比较。每个场景的相应问题定义如下：（1）多排名汇总的质量是否优于、等于或劣于VASNet [11]汇总？(2)本地摘要是否比全局摘要更具体？（3）个性化汇总是否比全局汇总提供更好的用户控制以获得满意的结果？（4）个性化汇总是否比本地汇总提供更好的用户控制以获得满意的结果？表3显示了用户研究结果。简而言之，近一半的参与者发现多排名和VAS-Net [11]总结具有相似的质量，这与定量比较是一致的。大多数参与者发现，本地摘要比全局摘要更具有内容特异性，并且个性化摘要比本地和全局摘要具有更好的用户控制和满意度这些结果是一个有希望的迹象，表3.每个场景的用户研究结果（Scen.）其中（SD，MD，MA，SA）分别代表（强烈不同意，轻度数字表示每个情景问题的回答百分比。用户交互式摘要比唯一的全局摘要更吸引人和令人5. 讨论和结论我们介绍了多排名，多对排名模型的个性化视频摘要使用预定义的偏好。我们提出了一个训练方案，允许-ING模型完成本地，个性化，或全球总结任务。我们的实验表明，所提出的方法不仅可以生成高质量的全球摘要，是国家的最先进的，但也符合一组偏好的个性化摘要我们认为，需要一个适当的基准，如体育摘要数据集，以探索视频摘要任务中可能的应用范围在这项工作中，我们只专注于用户偏好的摘要标准的适应性和进一步的标准，如多样性和一致性，可以探索作为未来的工作。6. 确认这项工作是由欧盟的Hori- zon 2020研究和创新计划根据玛丽Skłodowska-Curie赠款协议编号665992，CDE资助的。- 英国我们感谢阿里巴巴集团对用户研究的SDMD类似马SAScen 1百分之七点一四14.29%46.43%21.43%10.71%Scen 20.00%的百分比5.49%5.49%24.18%64.84%1727引用[1] 作者声明：John R. Kender，Nevenka Dimitrova，andJohn Zimmerman.个性化多媒体摘要框架。载于MIR，2005年。2[2] 艾伦 · 阿格斯蒂有序分类数据的分析。 John WileySons，2010. 6[3] 埃夫兰皮奥斯 Apostolidis ， Eleni Adamantidou ，Alexandros I. Metsai ， Vasileios Mezaris ， and IoannisPatras.使用深度神经网络的视频摘要：一项调查。CoRR，2021年。2[4] Noboru Babaguchi，Kouzou Ohara，and Takehiro Ogura.从观看者的浏览操作学习个人偏好及其在棒球视频检索和摘要中的应用。IEEE Trans. Multim. ，2007年。2[5] Christopher J. C. Burges、Tal Shaked、Erin Renshaw、Ari Lazier、Matt Deeds、Nicole Hamilton和Gregory N.Hul- lender.学习使用梯度下降排序。ICML，2005年。3[6] 蔡思佳，左旺猛，Larry S.戴维斯和张磊。基于变分编解码器和网络先验的弱监督视频摘要。在ECCV，2018。2[7] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在CVPR，2017年。5[8] 朱文生，宋耶鲁，亚历杭德罗·海姆斯。视频共同总结：基于视觉共现的视频摘要。CVPR，2015。2[9] Ana Garcia del Molino、Xavier Boix、Joo-Hwee Lim和Ah-Hwee Tan。活动视频摘要：通过与用户的在线交互定制摘要。InAAAI，2017. 3[10] Ana Garcia del Molino和Michael Gygli。PHD-GIF：用于自动创建GIF的个性化高亮检测。ACM Multimedia，2018年。一、三、四[11] Jiri Fajtl ， Hajar Sadeghi Sokeh ， Vasileios Argyriou ，Dorothy Monekosso，and Paolo Remagnino.关注视频。在ACCV，2018年。一、二、五、六、八[12] 龚伯庆、赵伟伦、克里斯汀·格劳曼和费莎。用于监督视频摘要的多样顺序子集选择NeurIPS，2014。一、二[13] Michael Gygli Helmut Grabner和Luc Van Gool通过学习对象的子模块混合来进行视频摘要。CVPR，2015。一、二[14] MichaelGygli、HelmutGrabner、HaykoRiemenschneider和Luc Van Gool。从用户视频创建摘要2014年，在ECCV。二、四[15] MichaelGygli，YaleSong，andLiangliangCao.Video2GIF：从视频自动生成动画GIF。在CVPR，2016年。一、二、三[16] 原贤章片冈广胜佐藤丰时空3D CNN可以追溯2D CNN和imagenet的历史吗？在CVPR，2018年。5[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。5[18] Xufeng He ， Yang Hua ， Tao Song ， Zongpu Zhang ，Zhen-gui Xue，Ruhui Ma，Neil Martin Robertson，andHaibing Guan.无监督视频摘要与注意的条件生成对抗网络。在ACM Mul-timedia，2019年。2[19] 洪发庭，黄轩腾，李伟红，郑伟士。MINI-Net：用于视频亮点检测的多实例排名网络。在ECCV，2020年。一、二[20] Alejandro Jaimes、Tomio Echigo、Masayoshi Teraguchi和Fumiko Satoh。从详细的MPEG-7元数据中学习个性化视频亮点。载于ICIP，2002年。2[21] 焦一凡，杨晓山，张天柱，黄树成，徐长生。通过深度排名建模的视频亮点检测。在PSIVT，2017年。2[22] Yunjae Jung，Donghyeon Cho，Dahun Kim，SanghyunWoo和In So Kweon。非监督视频摘要的判别特征学习。在AAAI，2019年。2[23] Yunjae Jung，Donghyeon Cho，Sanghyun Woo，and InSo Kweon.用于无监督视频摘要的全局和局部相对位置嵌入。在ECCV，2020年。一、二、五、六[24] 莫里斯·G·肯德尔排序问题中关系的处理。Biometrika，33（3）：239-251，1945. 5[25] Aditya Khosla，Raff ay Hamid，Chih-Jen Lin，and NeelSun-daresan.使用网络图像先验的大规模视频摘要。CVPR，2013。一、二[26] Gunhee Kim、Leonid Sigal和Eric P.邢对大规模网络图像和视频集合进行联合汇总，以重建故事情节。CVPR，2014。2[27] Gunhee Kim和Eric P.邢从网络社区照片重建故事情节图用于图像推荐。CVPR，2014。2[28] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。5[29] Yong Jae Lee，Joydeep Ghosh，and Kristen Grauman.覆盖重要的人和物体，用于以自我为中心的视频摘要。CVPR，2012。2[30] 李祖通和杨磊。弱监督深度强化学习用于具有语义意义奖励的视频摘要。在WACV，2021年。2[31] 刘武，梅涛，张永东，车樱桃，罗杰波。多任务深度视觉语义嵌入视频缩略图选择。CVPR，2015。2[32] 郑璐和克里斯汀·格劳曼。故事驱动的摘要，以自我为中心的视频。CVPR，2013。2[33] Behrooz Mahasseni、Michael Lam和Sinisa Todorovic。使用对抗性 LSTM 网络进行无监督视频摘要。在CVPR，2017年。一、二[34] 恩金·门迪，他是B。Clemente和CoskunBayrak。基于运动分析的体育视频摘要计算机。电气工程师，2013年。2[35] Ngo Chong-Wah，Ma Yu-Fei，and HongJiang Zhang.基于图建模的视频自动摘要。载于ICCV，2003年。2[36] Mayu Otani， Yuta Nakashima ， Esa Rahtu， and JanneHeikkil a¨. 重新思考视频摘要的评估。在CVPR，2019年。五、六1728[37] Rameswar Panda，Abir Das，Ziyan Wu，Jan Ernst，andAmit K.罗伊·乔杜里网络视频的弱监督摘要。InICCV，2017. 一、二[38] Rameswar Panda和Amit K.罗伊·乔杜里主题相关视频的协作摘要。在CVPR，

下载后可阅读完整内容，剩余1页未读，立即下载