个性化视频亮点检测中多样性偏好的影响

130 浏览量更新于2023-10-14 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7980整体偏好用户？PR-Net：用于个性化视频亮点检测的偏好推理陈润楠*1、2、周鹏浩2、王文哲3、陈能伦1、彭派2、孙兴†2、王文平†11香港大学2腾讯优图实验室3浙江大学摘要个性化的视频精彩片段检测旨在根据用户的偏好将长视频缩短为有趣的时刻，这最近引起了社区的关注。目前的方法将用户的历史作为整体信息来预测用户的偏好，但忽略了用户兴趣的固有多样性，导致模糊的在本文中，我们提出了一个简单而有效的偏好推理框架（PR-Net），明确考虑到不同的利益，帧级的亮点预测。具体地，产生针对每个输入查询帧的不同的用户特定偏好，呈现为历史突出显示与对应查询帧的相似性加权和。接下来，由用户特定偏好和可学习的通用偏好形成不同的综合偏好，以用于更全面的高光测量。最后，每个查询帧的突出和非突出的程度被计算为语义相似度，其综合和非突出的偏好，分别。此外，为了减少由于不完整的注释而引起的歧义，提出了一种新的双向对比损失，以确保一个紧凑和可微的度量空间。以这种方式，我们的方法显着优于国家的最先进的方法，平均准确度精度的12%的相对改善。1. 介绍短视频已经成为人们在日常生活中获取知识、分享经验不可或缺的媒介。然而，一个未经编辑的视频花费几分钟或几个小时的时间，让一个人通过浏览整个视频来收集有意义的时刻如何自动识别特定用户最感兴趣的时刻，最近*在腾讯优图实验室实习期间完成的工作†通讯作者利息2利息3利息1旅行游泳宠物图1.考虑用户兴趣的多样性例如，如果用户对旅行、游泳和宠物感兴趣，则语义上类似于用户的兴趣之一的那些查询帧可以被标记为突出帧。另一方面，从历史中预测整体用户的偏好将导致模糊的偏好表示和不满意的引起了研究界的注意。与通用的精彩部分检测方法[41，13，40]不同，我们专注于个性化视频精彩部分检测，其中用户据我们所知，只有两种方法被提出来解决这个问题。Molino和Gygli [7]直接将历史特征连接到输入视频特征中，以通过使用排名模型来执行片段级预测Rochan等人[28]引入了时间自适应实例归一化层，其对帧级高光预测的历史进行虽然他们取得了可喜的成果首先，他们是--查询7981将用户的历史记录作为整体信息，以基于在其历史记录中仅存在一个偏好的假设来预测用户的偏好。然而，这在某种程度上违背了现实世界中的常识，因为用户的兴趣本质上是多种多样的。假设用户更喜欢旅行、游泳、养宠物等等。它是不适合提取一个整体的偏好，以代表这种不同的利益（图。①的人。其次，由于视频中存在许多重复或相似的镜头，而只有少数正样本被标记，因此一些未标记的样本实际上是正的。然而，目前的方法将所有未标记的样品视为阴性样品，导致错误的标记分配[5]。在本文中，我们提出了一个偏好推理框架（PR-Net）的帧级个性化视频亮点检测，它克服了上述限制。直观地，如果视频帧在语义上类似于用户的历史突出显示之一，则其可以被认为是有趣的时刻。基于这一观察，我们首先在- tend的查询帧的历史帧，以获得注意力的权重，然后形成用户特定的偏好嵌入的注意力加权和的历史帧嵌入。考虑通用偏好也是判断突出程度的重要参考，特别是当用户我们设置了一个可学习的通用偏好嵌入，它结合了用户特定的偏好嵌入，以生成全面的偏好嵌入，以实现更全面的高光检测。最后，为了保证一个更紧凑和可微的度量空间，非高亮偏好被用来考虑非高亮程度为每个查询帧。我们首先推断的程度，突出和非突出的每个查询框架的语义相似度的基础上，其综合偏好嵌入和非突出偏好嵌入，分别。然后利用一种新的对比度损失函数对视频帧的两个相似度进行约束。请注意，我们仅将那些最不突出的帧训练为负样本，以减轻错误的标签分配问题。我们在PHD-GIF [7]数据集上进行实验结果表明，我们的方法显着优于国家的最先进的方法，与平均准确度精度的12%的相对改善。我们的框架的贡献如下。• 我们提出了一种新的偏好推理框架命名为PR-Net的个性化视频亮点检测。• 我们提出了一种新的双向对比度损失，以训练一个更紧凑和可微的度量空间，用于帧级内容理解。• 我们的方法在大规模数据集上显着优于最先进的方法。2. 相关工作个性化视频精彩部分检测旨在基于用户感兴趣的先前突出显示的视频片段来检测该任务接近于视频摘要，以找到代表整个视频的所有关键事件。我们的方法也涉及到个性化推荐，如果治疗的项目推荐的视频帧。2.1. 视频精彩部分检测已经提出了许多现有方法[16、13、33、41、42]来解决通用视频精彩部分检测。它们典型地学习排名模型以在没有用户偏好的情况下测量视频片段的突出部分的程度。只有两种方法从历史预测用户Molino和Gygli [7]应用镜头检测算法[10]对一组视频片段进行采样。然后，直接将历史特征和视频片段特征结合成一个融合特征用于精彩部分预测。然而，镜头边界检测器的使用使得它们的流水线计算复杂且昂贵。Rochan等人[28]采用时间自适应实例规范化，其在生成高光时显式地考虑用户的历史。这两种方法在比较我们的方法时有相同的缺点。他们把用户的历史作为整体信息来预测用户的偏好，但忽略了用户兴趣的内在多样性。此外，它们将所有未标记的视频帧训练为非高光样本，导致错误的标签分配，因为一些未标记的帧与高光样本在语义上相似。2.2. 视频摘要视频摘要是从视频中选取一组关键事件来语义地表示整个视频，而精彩片段检测的目的是发现视频中最有趣的时刻。早期方法[18、19、21、23、24、25、26、32、47、45、29]基于手工制作的启发法从视频中选择一些关键帧以满足多样性和代表性属性，这不够准确和鲁棒。一些基于学习的方法[8，11，12，29，43，44，46，14]直接从表现出优异性能的人类注释的训练数据中学习然而，这些都是通用的方法，不涉及用户的偏好。并且，为每个新用户训练特定模型是不现实的。还有一些个性化的视频摘要方法。它们使用元数据[1，15，34]或用户文本查询[36，31，22]来考虑用户而我们采用了一种更方便的方法，利用视觉特征，从用户7982--MMME∈RE∈R12不12不图2. 我们的框架的说明首先，由编码器M（左）产生输入视频中的每个帧第二，一个堆叠的自我注意模块需要两个阶段的注意。它首先处理历史嵌入以形成用户特定偏好嵌入pu}，每个输入视频帧一个。第二阶段参加用户特定偏好嵌入Pu和通用偏好嵌入g，以形成综合偏好嵌入Pc={Pc，Pc，…对于输入视频帧中的每一个（中间），最后，提出了一种双向对比损失来约束高光li和非高光bi的度，其分别是每个输入帧嵌入与其综合偏好嵌入Pc和非高光偏好嵌入u之间的相似性（右）。2.3. 个性化推荐个性化推荐系统广泛用于各种领域，包括电影[27，6]、音乐[20，6]和电子商务[38，39，37，2，9]。几种方法专注于将知识图（KG）纳入推荐系统以进行耦合推荐[27，39，37，2]。Xian等人。[38]利用强化学习和策略引导的图搜索算法来对推荐的推理路径进行采样。Gao等人[6]通过向量自回归模型描述了用户Gu等人[9]通过用于电子商务推荐的金字塔递归神经网络对用户在本文中，我们探讨了一个堆叠的注意力模型偏好推理的视频亮点检测。3. 方法给定具有T帧的视频V，我们的目标是在用户历史的指导下预测每个帧的高亮和非高亮的程度。这里，历史H=h1，h2，…h n提供用户感兴趣的n个视频段。需要注意的是，不同视频的帧号不同，不同用户的历史视频片段的数量也不同。我们的框架如图所示。二、首先，每帧其次，通过一个堆叠的自注意模块，每个输入视频帧最后，利用每个输入帧嵌入分别反映高光和非高光程度的综合偏好嵌入和非高光偏好嵌入受到新提出的双向对比度损失的在下文中，我们将介绍详细信息，并对我们的框架提供更多见解。3.1. 框架级上下文语义表示为了减轻计算负担，遵循先前的工作[28]，我们利用在Sports 1M数据集[17]上预训练的特征提取器来提取C3D [35]（conv5）层特征作为输入视频和用户历史中每个帧的局部特征表示。然而，C3D特征是固定的，并且在训练过程期间仅对局部外观和运动特征进行编码。每个帧的上下文语义对于估计兴趣度也是重要的。例如，完整的动作或事件比背景和镜头边界更有趣。因此，我们设计了一个编码器以捕获每个帧的短程和长程特征。编码器受到U-net [30]的启发，网络结构如图所示。3.第三章。输入是具有表示为C3D特征V的T帧的视频。d×T，输出S d×T是视频中每个帧的上下文语义。这里d表示特征尺寸。S= M（V）。（一）3.2. 注意引导偏好推理考虑用户偏好的多样性不幸的是，当前的高光检测方法[7，28]直接从用户的历史中学习M语义表示��×��× 1偏好��×通用重复x T偏好推理��×对比学习��×M1×��,��= 1,2,��1×��Mn×��×2×��，��历史亮点��×Md×1非高亮输入视频偏好..................平均合并合并7983M我12我Σ~p=hu我IJ∗IJ我IJpc=i1+2，⑷1212输入Max-pooling上采样3*1conv，bn，ReLU逐元素加法图3. 编码器的体系结构。的尺寸所有卷积层都是d，与帧特征相同。用户兴趣的内在多样性我们在下文中提供偏好推理模块需要两个输入：输入视频的上下文语义嵌入S ={s1，s2，…的上下文语义嵌入图4.双向对比学习的例证历史嵌入是帧的平均特征，表示为黄色、绿色和红色圆圈。特定于用户的首选项是历史嵌入的加权和（由蓝色虚线表示）。注意力权重是查询框架和历史嵌入之间的相似性综合偏好是特定于用户的偏好和通用偏好的加权和（由黑色虚线表示）。如3.3节所述，我们约束上述符号的关系（由实线表示）。用户历史H~=M（H）={~h1，~h2，…，~hn}，其中h，j，j = 1，2，…n是通过对视频片段中的帧的特征求平均来表示用户历史。其中通用偏好嵌入G是可学习的并且对于所有帧是共享的权重项qc和qc为考虑到视频帧si可能是有趣的，如果上下文语义类似于用户的历史之一因此，我们检索用户计算公式如下：λsi·pu1个2个λsi·g突出显示以获得用户特定的首选项嵌入pu为这个帧。qc= exp（我si），qc=exp（si）的。（五）我们得到了T个综合偏好嵌入ncuij=1（2）第二个条件：p i，i = 1，2，… T，每个输入帧一个。第i帧的高光度li表示为综合偏好嵌入pc和其中是乘法运算，au称重并如下获得：是注意力其上下文语义嵌入si.注意，我们省略了归一化项以减少计算负担。exp（λqu）j=1usi·~hj国际新闻报我J（三）l i=s i·p c.（六）aij=Σn，q=，exp（λq）s~h其中·是点积运算。λ是逆TEM。如果我们预测这一帧是有趣的，我们可以检查一下注意力权重qc和qc，以了解一般偏好和softmax函数[4]的温度并设置为9 empiri-12凯莉用户特定的偏好影响预测。而且注意权重au反映历史的重要性高-其次，考虑类偏好也是估计突显度的重要参考，特别是灯光为IJ第i帧预测。当用户的历史记录丢失时因此，我们采取特定于用户的偏好嵌入pu和通用偏好嵌入p u3.3. 双向对比学习偏好嵌入我g形成综合优选-为了确保嵌入的紧凑性和可微用于更全面的高光检测的事件嵌入空间中，我们引入了一个可学习的非高亮偏好嵌入u来度量非高亮bi的程度pu*qcg*qc第i帧。iqc+qcqc+qcbi=si·u。（历史视频输入视频类属偏好用户特定首选项非高亮首选项综合首选项未标记的框架突出显示的框架伪标记非高亮帧...~我我们显示了一个可行的解释的结果。如果第i个u7984七）7985~~我i=1我y∈Ωx∈y∈Ωx∈（八）我们从两个方面来约束正框架和负框架之间的关系。一方面，我们以综合偏好嵌入为锚点，拉进正的框架嵌入，推掉负的框架嵌入。另一方面，我们将非高亮嵌入设置为锚点，拉入负帧嵌入，同时推开那些正帧嵌入（图2）。4）.损失函数的公式如下：L=Σlog（~ly+~by）+Σlog（~lx+~bx）-（Σ~ly+Σ~bx），其中，Ω是具有正标签的帧的集合是具有b i的前K个最高值的未标记帧的集合。根据经验，K设置为Ω大小的五倍。li和bi分别是所有帧之间的高亮和非高亮的相关度，计算如下。图5. 在同一视频中的语义相似的帧的可视化。黄色框中的帧是地面实况突出显示的帧，而其他帧是未标记的帧。我们使用黄线的宽度来表示地面实况和未标记帧之间的相似性这三个视频分别是游泳、足球和歌曲，说明一个视频包含的相似帧是一个exp（li）exp（bi）这是数据集中的一个普遍现象~li=ΣTexp（l），~bi=ΣT.（九）exp（b）3.4. 实现细节为了采用多GPU训练，我们将视频切割成固定长度的片段（256帧），并且仅训练包含高光帧的那些片段，并且批次大小被设置为32（32个用户）。我们将整个视频作为输入进行测试，批量大小设置为1。整个框架基于PyTorch 1.50构建。训练时间约为7小时，在8个NVIDIA Tesla V100 GPU上进行150个epoch。它由adam优化器使用默认配置进行优化。我们从头开始训练模型，除了C3D特征提取器。4. 实验在本节中，在大规模视频精彩部分检测数据集上进行的实验表明，我们的方法显著优于当前最先进的方法。我们还讨论了它的优点和局限性。最后，我们进行消融实验，以突出每个模块的贡献，并提出他们的见解。4.1. 实验配置数据集PHD-GIF [7]提供了一个大规模的数据集，其中包含用于视频精彩部分检测的用户历史信息。发布的数据集包括11，972个用于培训的用户，1000个用于验证的用户和850个用于测试的用户注意，在这三个子集中的用户之间不存在重叠对于训练，每个用户最多具有二十个带注释的视频，其中一个或多个片段被标记为每个视频中的突出部分。总之，在119，938个视频中有222，015个注释。该数据集具有一些显著的属性。首先，注释涵盖了各种主题，如卡通，宠物，音乐视频和美丽的场景。此外，用户对一个或多个主题具有一致的兴趣，这为个性化视频精彩部分检测提供了可靠的指导。其次，只有一小部分帧被标记为数据集中的高光。阳性与未标记的比例约为1：50。最后，我们观察到视频中有许多相似的镜头，但其中只有一个被注释为高光（图5）。当将未标记的帧训练为负样本时，不完整的注释可能导致歧义。数据集中仅提供视频的YouTube视频ID，由于一些视频链接不再可用，我们只下载了95，111个视频，总时长为10，212小时。根据Rochan et al.[28]，我们通过预训练模型从所有视频中提取帧级C3D特征。在8个NVIDIA Tesla V100 GPU上，最终我们对9478名用户进行了培训，对750名用户进行了验证，对675名用户进行了测试。由于数据处理是繁琐，耗时和计算昂贵的，我们愿意发布整个数据集的C3D功能的社区，为未来的工作。评估指标采用平均精度（mAP）来衡量我们的方法的性能，这也是以前的作品中常用的[41，28]。遵循Rochan et al.[28]我们在计算mAP时单独处理视频。i=17986图6. 我们的方法的不同配置的定性评价我们在四个视频上展示了我们的方法的例子，只有通用偏好（PR-NetG），只有用户特定的偏好（PR-NetU）和我们的完整方法（PR-Netfull此外，我们还展示了用户的历史记录（多个GIF）和来自每个视频的三个模型的精彩预测的一些采样帧。这些可视化指示特定于用户的偏好很好地从历史捕获用户基线我们的方法与数据集上的其他最先进的方法进行了比较，包括FCSN [29]，Video 2GIF [13]，PHD-GIF[7]和A-VHD [28]。FCSN是最先进的视频摘要方法，其是用于比较的通用视频精彩部分检测。Video2GIF是一种用于视频精彩部分检测的最先进模型。根据Rochan et al.[28]，我们使用公开的预训练模型进行比较。PHD-GIF是一种最先进的个性化视频亮点检测方法。我们将帧聚合到每个视频中的五秒镜头中，以报告性能进行公平比较。A-VHD也是用于个性化视频精彩部分检测的最先进的方法。4.2. 结果和讨论我们定量地比较我们的方法与其他国家的最先进的方法。此外，其可解释性、优点和局限性在下文中呈现。结果表明，我们的方法显著优于当前最先进的方法（表 1 ）。与两种通用的视频精彩片段检测方法（Video2GIF和FCSN）相比，在不使用表1. 与 PHD-GIF 数据集上的最新方法进行比较。 Video2GIF、FCSN*和A-VHD*的性能报告见[28]。而其他人则在我们的数据集上进行评估。PR-Net是我们的完整方法。方法mAP（%）视频2GIF [13]14.75[29]第二十九话15.22A-VHD* [28]16.73[29]第二十九话15.15PHD-GIF [7]16.25A-VHD [28]16.68PR-Net18.66的用户的历史，我们的方法有效地利用用户的偏好，指导突出检测，并实现更准确的结果。mAP分别相对提高28.24%和23.17%。PHD-GIF直接将平均历史特征连接到输入视频特征中以执行片段级预测。A-VHD从用户的历史中预测自适应实例归一化的仿射参数地面实况地面实况PR-Net完整PR-NetUPR-Net完整PR-NetUPR-NetGPR-NetG用户历史用户历史地面实况地面实况PR-Net完整PR-NetUPR-Net完整PR-NetUPR-NetGPR-NetG用户历史用户历史7987查询帧历史1历史2历史3注意权重历史：0.325：0.212：0.254通用和用户：0.318：0.682历史：0.417：0.188：0.331通用和用户：0.245：0.755历史：0.338：0.257：0.228通用和用户：0.519：0.481历史：0.245：0.268：0.268通用和用户：0.724：0.276图7.注意力可视化检测结果。我们选择了四种情况下，不同的情况下，提出了三种类型的注意力权重（历史嵌入，用户特定的偏好嵌入和通用偏好嵌入）。每一行代表一个案例。请注意，我们只显示每个案例的前三个历史亮点，其余历史没有前三个有意义。在情况1（第一行）中，所有历史突出显示在语义上与查询帧相关。案例2呈现了一个高度主观的场景，其中语义在历史和查询框架中是雄心勃勃的。案例3和案例4表明用户的兴趣是多样的。然而，在情况4中不存在与查询帧的相关历史。用于指导个性化视频精彩部分检测。然而，这两种方法的局限性在于，用户偏好由整体历史突出显示确定，仅在用户的历史中实现一个兴趣因此，当用户的兴趣不同时，它们可能不是合适的解决方案而在我们的方法中，我们克服了限制，推理的最相关的历史亮点的每一个输入帧，结果在更准确的检测结果，与12%的相对提高。个性化视频高光检测是主观的，并且高度依赖于用户的偏好。直观地，如果查询视频帧在语义上类似于用户的精彩部分历史中的一个，则可以将其视为精彩部分我们的方法利用的注意力机制，找到最相关的亮点历史的查询视频帧。通过对大量案例的检验，我们发现学习的注意力权重几乎反映了查询和历史帧之间的语义相似性，这为解释检测结果提供了一种潜在的方法。如图7，我们用四个病例的前三个最相关的历史亮点来可视化结果。在查询帧的情况1中，它正在用机枪射击敌人通过观察关注权重，我们发现关注权重最高的历史是最语义化的cally类似于查询帧，用手枪射击敌人。对于历史2和3，在没有敌人的情况下射击，注意力权重低于历史1。案例2是高度主观的，并且语义是模糊的。看起来所有的历史突出显示都与查询帧相关。然而，我们可以观察到最相关的历史与查询帧共享相同的背景。在情况3中，用户似乎用户更喜欢电影、游泳和宠物。我们可以看到，注意力权重反映了语义相似性。此外，与情况1和情况2相比，提高了通用权重，因为查询帧与历史精彩部分不是高度相关的。从我们的观点来看，病例4中没有相关的历史亮点。在这种情况下，通用偏好显著地影响查询帧的突出显示的程度局限性和未来的工作我们的方法的检测结果有时是混乱的，这是很难告诉它是有趣的或不。我们认为用户注释的主观性是主要原因，因为模型直接从训练数据中学习。通过多个特征提取器进一步增强语义表示可能是解决该问题的有希望的方式。我们把它放在未来的工作中。7988MM表2.消融研究实验。PR-Net（*）代表基于我们的方法的不同修改。（消融实验部分）。 PR-Netfull是我们的full方法。消融靶点方法mAP（%）表示PR-Net残差16.69PR-Net排名16.85下降（从18.66%下降到16.69%）。结果表明，上下文语义表征对高光检测至关重要.双向对比损失的影响与PR-Net排名相比，PR-NetCE和PR-Net三联体分别为损失策略注意策略PR-NetCE17.09PR-Net三重17.26PR-NetG16.78PR-NetU17.57PR-净平均值16.87我们设计的双向对比度损失算法有效地利用了排序损失、交叉熵损失和三重损失，为视频精彩片段检测提供了更合理的度量空间约束，从而获得了更好的性能。PR-Net平均值U+G17.21历史规模PR-Neth016.78PR-Neth517.48- PR-Net18.664.3. 消融实验我们进行了广泛的实验，以突出我们的框架中的不同模块的有效性。PR-Net残差：用残差块替换编码器，其中参数的数量大于。残差块被应用于每个帧的C3D特征。PR-Net排名、PR-NetCE和PR-Net三元组：我们分别用排名损失（PR-Net排名）和交叉熵损失（PR-NetCE）替换双向对比损失，因为它们也用于其他高光检测方法[41，28]。请注意，对于PR-Net排名的实现，我们放弃了非高光偏好，只测量每个帧的高光程度。我们还介绍了使用三重态损失时的性能[3]（PR-Net三联体）。PR-Net G和PR-Net meanU：为了评估用户特定偏好的影响，研究了PR-Net的两个变体：直接移除用户特定偏好（PR-Net G），使用平均历史嵌入来替换用户特定偏好（PR-Net meanU）。PR-NetU 和PR-Net平均值U+G：评价在一般偏好的基础上，我们探索PR-Net的两个变体：没有通用偏好（ PR-Net U），在PR-Net meanU变体（PR-NetmeanU +G）上添加通用偏好。PR-Net h0和PR-Net h5：两个实验是一致的-用来评估历史的影响不涉及历史信息（PR-Net h0），并且用五个PR-Net h 5限制历史大小。为了验证上下文语义表示如何影响性能，我们只考虑每个帧的短程特征（PR-Net残差）。与我们的完全方法（PR-Netfull）相比，性能显著提高一般偏好的影响我们从我们的方法中去除了一般偏好嵌入，并且仅利用用户特定的偏好来测量突出程度（PR-Net U和PR-Net meanU）。请注意，它们的性能已经超过了最先进的方法。然而，由于它们不考虑通用偏好，特别是当相关历史缺失时，性能比具有通用偏好的性能差（ PR-NetmeanU+G 和 PR-Netfull）。如果没有用户特定的偏好（PR-NetG），则其变为通用高光检测模型。如图6、使用用户特定偏好的检测结果明显比不使用用户特定偏好的检测结果更接近历史。实验结果表明，帧级用户特定的偏好是至关重要的，以提高性能和提升mAP从16.78%到18.66%。与采用平均历史嵌入作为用户特定偏好（整体偏好）的PR-NetmeanU从理论上讲，更多的历史亮点作为参考，对我们的方法的性能是有利的。因此，我们还显示了性能时，严格的最大尺寸的历史为零（PR-Net h 0）和五（PR-Net h 5），分别，其中的性能是满足我们的期望。5. 结论在本文中，我们探索了一种新的范式，结合用户的历史，个性化的视频突出检测。与从整体历史信息预测用户偏好的现有方法不同，我们的注意力引导的偏好推理考虑到用户兴趣的多样性在大规模数据集上进行的实验表明，我们的方法比最先进的方法更准确。7989引用[1] N.巴巴古奇湾Ohara和T.小仓从观看者的浏览操作学习个人偏好IEEE Transactions on Multimedia，9（5）：1016-1025，2007. 二个[2] Y. Cao，X. Wang，X.他，Z。胡，T。S.蔡统一知识图谱学习和推荐：更好地理解用户偏好。在万维网会议上，第151-161页，2019年。三个[3] D. 郑，Y.贡，S.Zhou，J.Wang和N.郑基于改进三重损失函数的多通道部件cnn的人员再识别。在Proceedingsof the iEEE conference on computer vision and patternrecognition，第1335八个[4] J. Chorowski，D.Bahdanau，D.Serdyuk，K.Cho和Y.本吉欧。基于注意力的语音识别模型。在Proceedings ofthe 28th International Conference on Neural InformationProcessing Systems-Volume 1，pages 577 四个[5] B. 弗雷奈和M. 你好。存在标签噪声时的分类：调查。IEEE Transactions on Neural Networks and LearningSystems，25（5）：845-869，2013。二个[6] L. Gao，J. Wu，C. Zhou和Y.胡协同动态稀疏主题回归与用户配置文件演变项目推荐。在AAAI人工智能会议论文集，第31卷，2017年。三个[7] A. Garcia del Molino和M.吉格利个性化高光检测，用于自动创建gif。在第26届ACM国际多媒体会议的论文集，第600-608页，2018年。一二三五六[8] B.龚，W.- L. Chao，K. Grauman和F.煞监督视频摘要的多样顺序子集选择。神经信息处理系统进展，27：2069-2077，2014。二个[9] Y. 古，Z.Ding，S.Wang和D.尹电子商务推荐系统之阶层式使用者在第13届网络搜索和数据挖掘国际会议的论文集中，第223-231页，2020年。三个[10] M.吉格利使用全卷积神经网络快速检测镜头边界。2018年基于内容的多媒体索引国际会议，第1-4页。IEEE，2018年。二个[11] M. 吉格利H.Grabner，H.Riemenschneider和L.范古尔从用户视频创建摘要。在欧洲计算机视觉会议上，第505-520页。Springer，2014. 二个[12] M.吉格利H. Grabner和L.范古尔通过学习目标的子模块混合的视频求和。在IEEE计算机视觉和模式识别会议论文集，第3090-3098页，2015年。二个[13] M. Gygli，Y. Song和L.曹Video2gif：从视频自动生成动画GIF。在IEEE计算机视觉和模式识别会议论文集，第1001-1009页，2016年。一、二、六[14] F.- T. 洪，X.黄伟H. Li和W.-S. 郑Mini-net：用于视频亮点检测的多实例排名网络欧洲计算机视觉会议，第345-360页。Springer，2020年。二个[15] A. Jaimes，T. Echigo，M. Teraguchi和F.佐藤从详细的mpeg-7 Meta数据中学习个性化视频集锦。在诉讼中。图像处理国际会议，第1卷，第I-I页。IEEE，2002年。二个[16] Y.角，X。Yang，T. Zhang，S. Huang和C.徐通过深度排名建模的视频亮点检测。在关于图像和视频技术的环太平洋研讨会中，第28- 2939. Springer，2017. 二个[17] A. Karpathy，G.Toderici、S.Shetty，T.良河Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。在Proceedings of the IEEE conference on Computer Visionand Pattern Recognition，第1725三个[18] A.科斯拉河哈米德角J. Lin和N. Sundaresan。使用网络图像先验的大规模视频摘要。在IEEE计算机视觉和模式识别会议的论文集，第2698-2705页，2013年。二个[19] G. Kim和E. P. Xing。从网络社区照片重建故事情节图用于图像推荐。IEEE计算机视觉和模式识别会议论文集，第3882-3889页，2014年。二个[20] H.- G. Kim，G. Y. Kim和J.Y. Kim.音乐推荐系统使用人类活动识别从加速器数据。 IEEE Transactions onConsumer Electron-ics，65（3）：349-358，2019。三个[21] Y. J. Lee、J. Ghosh和K.格劳曼发现重要的人物和对象，以自我为中心的视频摘要。2012年IEEE计算机视觉和模式识别会议，第1346-1353页。IEEE，2012。二个[22] W. Liu，T.梅，Y. Zhang C.，中国古猿科Che和J.Luo。多任务深度视觉语义嵌入视频缩略图选择。在IEEE计算机视觉和模式识别会议论文集，第3707-3715页，2015年。二个[23] Z. Lu和K.格劳曼故事驱动的摘要，用于以自我为中心的视频。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第2714- 2721页二个[24] B. Mahasseni，M. Lam和S.托多洛维奇对抗性lstm网络的无监督视频摘要在IEEE计算机视觉和模式识别会议的论文集，第202-211页二个[25] C.- W. Ngo，Y. F.妈妈和H张杰。基于图建模的视频自动摘要。在 Proceedings Ninth IEEE InternationalConference on Computer Vision 中，第 104-109 页。IEEE，2003年。二个[26] R. Panda和A. K.罗伊·乔杜里主题相关视频的协作总结。在IEEE计算机视觉和模式识别会议论文集，第7083-7092页，2017年。二个[27] F. Pecune，S.穆拉利河谷蔡氏Matsuyama和J.卡塞尔会话式电影推荐系统的社会解释模型。在第七届国际人机交互会议论文集，第135- 143页三个[28] M. Rochan，M. K. K.雷迪湖Ye和Y。王. 通过从用户历史学习的自适应视频精彩部分检测。欧洲计算机视觉会议，第261-278页。Springer，2020年。一二三五六八7990[29] M. 罗尚湖Ye和Y。王. 使用全卷积序列网络的视频摘要在欧洲计算机视觉会议论文集，第347-363页二、六[30] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。三个[31] A. 沙尔吉湾龚，M。Shah. 以查询为中心的提取视频摘要。欧洲计算机视觉会议，第3-19页施普林格，2016年。二个[32] Y. Song，J. Vallmitjana，A. Stent和A.詹姆Tvsum：使用标题总结网络视频。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 5179-5187，2015中。二个[33] M. Sun，A. Farhadi和S.塞茨通过分析编辑的视频对特定领域的精彩片段进行排名。在欧洲计算机视觉会议上，第787-802页。Springer，2014. 二个[34] Y.高桥，N. Nitta和N.巴巴口用于体育视频内容的用户和设备适配。在2007年IEEE国际多媒体会议和博览会上，第1051- 1054页IEEE，2007年。二个[35] D. 特兰湖布尔代夫河费格斯湖Torresani和M.帕鲁里用三维卷积网络学习时空特征。在IEEE计算机视觉国际会议集，第4489-4497页，2015年。三个[36] D. Ulyanov，A.Vedaldi和V.Lempitsky 改进的纹理网络：最大化前馈风格化和纹理合成的质量和多样性。在IEEE计算机视觉和模式识别会议论文集，第6924-6932页二个[37] X. Wang，中国山杨D. Wang，C. Xu，X.他，Y. Cao和T.- S.蔡基于知识图的可解释推理。在AAAI人工智能会议论文集，第33卷，第5329-5336页，2019年。三个[38] Y. 西安Z.Fu，S.Muthukrishnan，G.De Melo和Y.张某可解释推荐的强化知识图推理。在第42届国际ACM SIGIR信息检索研究与开发会议论文集，第285-294页，2019年。三个[39] Y. 西安Z.Fu，H.Zhao，Y.Ge、X.陈角，澳-地Huang，S.耿Z. Qin，G. De Melo，S. Muthukrishnan等人咖啡馆：用于可解释推荐的粗到细神经符号推理。第29届ACM信息知识管理国际会议论文集，第1645-1654页，2020年。三个[40] B. Xiong，Y. Kalantidis，D. Ghadiyaram和K.格劳曼少即是多：从视频持续时间学习高光检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第1258-1267页一个[41] T. Yao，T. Mei和Y.瑞用于第一人称视频摘要的具有成对深度排名的高光检测。在IEEE计算机视觉和模式识别会议论文集，第982-990页，2016年。一、二、五、八[42] Y. Yu，S. Lee，J. Na，J. Kang和G. Kim.一种用于360 °图像的时空亮点检测视频.在AAAI人工智能会议论文集，第32卷，2018年。二个[43] K.张文-- L. Chao，F. Sha和K.格劳曼汇总传输：用于视频求和的基于示例的子集选择。在IEEE计算机视觉和模式识别会议论文集，第1059-1067页二个[44] K. 张文--L. Chao，F.Sha和K.格劳曼具有长短期记忆的视频在欧洲计算机视觉会议上，第766-782页。施普林格，2016年。2[45] K. Zhang，K. Grauman和F.煞用于视频摘要的回顾性编码器。在欧洲计算机视觉会议论文集，第383-399页，2018年。二个[46] B. Zhao，X. Li和X.陆用于视频摘要的分层递归神经网络第25届ACM国际多媒体会议论文集，第863- 871页，2017年二个[47] K. Zhou，Y.乔和T.翔具有多样性代表性奖励的无监督视频摘要的深度强化学习。在AAAI人工智能会议，第32卷，2018年。二个

下载后可阅读完整内容，剩余1页未读，立即下载