大规模真实数据集上多模态深度学习预测细粒度视频吸引力

44 浏览量更新于2023-10-15 收藏 15.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1https://goo.gl/DrrKcn.Track: The BIG Web WWW 2018, April 23-27, 2018, Lyon, France6710利用大规模真实数据集上的多模态深度学习进行细粒度视频吸引力预测0陈新鹏†�，陈静远��，马林‡�，姚健†，刘伟‡�，罗杰波§，张通‡0† 武汉大学，‡ 腾讯AI实验室，� 新加坡国立大学，§ 罗切斯特大学0摘要0如今，数十亿个视频在线上准备观看和分享。在大量的视频中，一些热门视频受到在线用户的广泛关注，而大多数视频吸引力较小。此外，在每个视频中，不同的片段可能吸引不同数量的观看次数。这种现象导致了一个具有挑战性但重要的问题，即细粒度视频吸引力预测，该问题仅依靠视频内容在细粒度级别上预测视频吸引力，本文中特指几秒钟长度的视频片段。然而，这个具有挑战性问题的一个主要障碍是目前没有合适的基准数据集。为此，我们构建了第一个细粒度视频吸引力数据集（FVAD），该数据集是从世界上最受欢迎的视频网站之一收集的。总共，构建的FVAD包括1,019个涵盖不同类别和各种视频内容的戏剧剧集，共计780.6小时。除了大量的视频外，还包括数亿次用户在观看视频期间的行为，例如“观看次数”，“快进”，“快退”等，“观看次数”反映了视频的吸引力，而其他互动则捕捉了观众和视频之间的互动。首先，我们证明了视频吸引力和不同互动之间存在不同的关系。其次，FVAD为我们研究细粒度视频吸引力预测问题提供了机会。我们设计了不同的顺序模型，仅依靠视频内容进行视频吸引力预测。这些顺序模型利用了视频内容的视觉和音频组成部分在不同级别上的多模态关系。实验结果表明了我们提出的不同视觉和音频表示的顺序模型的有效性，融合两种模态的必要性以及不同级别的顺序预测模型的互补行为。0CCS概念0• 计算方法学→场景理解；0�陈新鹏和陈静远在腾讯AI实验室担任研究实习生期间完成的工作。�通讯作者：forest.linma@gmail.com; wliu@ee.columbia.edu。0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4 / 18/04。https://doi.org/10.1145/3184558.31865840关键词0视频吸引力，细粒度，多模态融合，长短期记忆（LSTM）0ACM参考格式：陈新鹏†�，陈静远��，马林‡�，姚健†，刘伟‡�，罗杰波§，张通‡†武汉大学，‡腾讯AI实验室，�新加坡国立大学，§罗切斯特大学。2018年。利用大规模真实数据集上的多模态深度学习进行细粒度视频吸引力预测。在WWW'18Companion：2018年网络会议伴侣，2018年4月23日至27日，法国里昂。ACM，美国纽约，8页。https://doi.org/10.1145/3184558.318658401 引言0如今，数字视频在互联网上蓬勃发展。据称，到2020年，来自在线视频的流量将占据所有消费者互联网流量的80％以上。与此同时，由于移动设备的进步，每天都有数百万个新视频流入网络。有趣的是，在大量的视频中，只有很少一部分能够吸引大量观众，而大多数视频则受到很少的关注。即使在同一个视频中，不同的片段对观众的吸引力也存在很大的差异。根据在大量用户上收集的统计数据，如果视频或片段的观看次数较高，则被认为具有吸引力。观看次数越多，相应的视频或片段就越有吸引力。观看次数直接反映了普通观众的偏好，因此在本文的范围内，被视为视频吸引力的唯一指标。以热门电视剧的一个剧集为例，如图1（a）所示，橙色线表示从最受欢迎的视频网站上爬取的短视频片段的观看次数（吸引力）。可以看出，不同的视频片段的吸引力差异很大，其中最大的观看次数是最小值的两倍多。提前预测视频片段的吸引力可以使许多应用受益，例如在线营销[3]和视频推荐[4]。对于在线营销，准确预测视频片段的吸引力可以促进广告活动的最佳规划，从而最大化收入。对于视频推荐系统，所提出的方法提供了根据其吸引力评分推荐视频片段的机会。然而，预测视频吸引力是一项非常具有挑战性的任务。首先，视频的吸引力可能受到许多外部因素的影响，例如视频发布的时间400050006000700080002:009:3017:0024:3032:0039:30Video AttractivenessGround-truthPrediction+……AudioVisual…6720图1：细粒度视频吸引力预测的定义。显示了细粒度视频片段的观看次数（视频吸引力），其中橙色线表示基于数亿活跃用户的真实观看次数。可以观察到视频吸引力随时间变化而显著变化。主要原因是不同视频片段的内容差异很大，具有不同的视觉信息（例如，宁静的风景与激烈的战斗）和不同的音频信息（例如，柔和的背景音乐与有意义的对话）。这些视觉和音频内容共同影响着视频的吸引力。请注意，基于我们在第4节中提出的模型使用的视觉和音频数据，紫色线可以很好地跟踪真实视频吸引力的趋势。0在线视频的吸引力还与视频中的广告强度等因素有关。对于同一类别的视频，视频传递得越及时，获得的观看次数就越多。其次，视频吸引力也与内容敏感相关，如图1所示。因此，为了可靠地预测视频吸引力，需要分析视觉和音频内容。已有的一些研究[13, 26, 27,38]探索了视频的趣味性或流行度。[13,38]旨在比较两个视频的趣味性，而[26]则依赖于早期流行度测量所提供的历史信息。一个问题是现有模型只适用于视频级别的吸引力预测，而细粒度的片段级别吸引力预测仍然是一个没有得到关注的问题。另一个具有挑战性的问题是缺乏大规模的真实世界数据。最近发布的视频数据集主要关注视频内容理解，如分类和字幕，具体包括Sports-1M [15]，YouTube-8M [1]，ActivityNet [9]，UCF-101[30]，FCVID [14]和TGIF[19]。这些数据集不包含与视频吸引力相关的任何标签。为了构建可靠的视频吸引力预测系统，需要准确标记的数据集。然而，现有的视频趣味性预测数据集[13,28]是通过众包进行注释的。这些注释只反映了少数观众的主观意见。因此，它不能表明视频序列或片段的真实吸引力。0为了解决细粒度视频吸引力预测问题，我们构建了细粒度视频吸引力数据集（FVAD），这是一个新的大规模视频基准，用于视频吸引力预测。我们从最受欢迎的视频网站收集了热门视频，该网站拥有数以千万计的注册用户。到目前为止，FVAD总共包含1,019个视频剧集，总时长为780.6小时，涵盖了不同的类别和各种各样的视频内容。此外，还包括与每个视频相关的用户参与度。除了观看次数（吸引力），还有其他9种与视频序列相关的参与指标，用于记录观众和视频之间的互动，如图3所示。我们总结我们的贡献如下：0•我们构建了用于处理细粒度视频吸引力预测任务的最大实际数据集FVAD。提供了视频序列及其相关的“标签”，以观看次数的形式，以及观众与视频的互动。检查和研究了视频吸引力与互动之间的关系。•提出了几种用于利用视觉和音频组件之间关系进行细粒度视频吸引力预测的顺序模型。实验结果证明了我们提出的模型的有效性以及同时考虑视觉和音频模态的必要性。02 相关工作 2.1视频数据集0视频数据集在推动视频理解的计算机视觉算法方面发挥了关键作用。一些标记良好的小规模数据集，如XM2VTS [23]，KTH[18]，Hollywood-2 [22]，Weizmann [2]，UCF101[30]，THUMOS'15 [12]，HMDB [17]和ActivityNet[9]，为人脸识别[21]，人体动作识别[11]和活动理解提供了基准。还有其他专注于视觉内容识别、视频字幕等的视频数据集，如FCVID[14]和TGIF[19]。为了充分利用视频内容理解，最近构建了超大规模的视频数据集。Sports-1M[15]是一个包含100万个视频的体育视频分类数据集。YFCC'14[35]是一个包含约80万个视频的大型多媒体数据集。最近的YouTube-8M[1]是迄今为止最大的用于多标签视频分类的数据集，包含约800万个视频。然而，获取大量标记良好的数据是非常昂贵和耗时的。因此，这些数据集在标签自动生成时不可避免地引入了标签噪声。最重要的是，所有这些数据集都专注于理解视频内容，而没有涉及视频吸引力任务。MediaEval[28]是目前唯一已知的与我们的工作密切相关的公开数据集。它用于预测电影预告片中有趣的帧。然而，MediaEval是一个小型数据集，仅包含52个用于训练的预告片和26个用于测试的预告片。此外，MediaEval中的有趣帧是由少数受试者标记的，这与大规模多样化观众的真实情况不一致。0Track: The BIG Web WWW 2018, April 23-27, 2018, Lyon, France010203040506070800123456786730剧集0视频吸引力0剧集0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧0戏剧 420log10(视频吸引力)0图2：我们构建的FVAD中42种戏剧的统计数据。蓝色柱表示每个电视剧系列的视频数量，橙色柱表示以log10为底的视频吸引力（观看次数）。02.2 视频吸引力预测0预测视频趣味性或流行度的一系列工作与我们提出的视频吸引力预测相关。在[20]中，使用Flickr图像来衡量视频帧的趣味性。由于Flickr图像通常是精心构图并选择分享的，因此与许多视频帧相比，它们被认为更有趣。如果视频帧与大量Flickr图像（使用图像局部特征）匹配，则被认为是有趣的。在[38]中，使用核技巧提取和组合静态和时间特征，使用排序SVM预测相对分数，确定哪个视频比另一个更有趣。在[13]中，基于Flickr和YouTube的有趣度排名收集了两个数据集，并且视频的有趣度预测方式与[38]相同。在[26]中，使用早期流行度测量给出的历史信息用于视频流行度预测。根据其内容类型、扩散网络和对推广的敏感性，提出了Hawkes强度过程来解释每个视频的复杂流行历史[27]。与[13、20、38]不同，视频内容并未明确用于视频流行度预测[26,27]。我们的工作与以往的工作有根本的不同。首先，我们爬取了一个最受欢迎的视频网站上的大规模真实用户行为数据，构建了所提出的FVAD。其次，我们旨在预测细粒度的实际视频吸引力（观看次数），而不是视频级别的趣味性[13,20,38]和流行度[26,27]。第三，我们开发了不同的顺序多模型，共同学习视觉和音频组件之间的关系，用于视频吸引力预测。据我们所知，目前没有现有的工作来处理和研究细粒度的视频吸引力预测问题。03 FVAD构建0本节详细介绍了FVAD数据集的构建，包括视频收集策略、视频吸引力和互动以及它们之间关系的分析。03.1 视频收集0为了构建一个包含具有不同吸引力程度的视频片段的代表性数据集，视频内容应涵盖不同的类别并呈现广泛的多样性。我们从网站上手动选择了一组热门电视连续剧。对于每一集和每一集中的片段，随着故事的发展，吸引力程度明显上下波动。如图1所示，视频内容，包括视觉和音频组件，显著影响视频吸引力，呈现出不同的观看次数。对于我们的FVAD数据集，我们收集了1019集，总时长为780.6小时。图2中的蓝色柱状图显示了每个电视连续剧的集数。FVAD中所有剧集的平均时长为45分钟。此外，所有剧集都以640×480的高质量分辨率下载。03.2 视频吸引力0在本文中，我们关注细粒度的视频吸引力。因此，我们需要收集细粒度视频片段的吸引力指标。如前所述，每个视频片段的吸引力程度由总观看次数量化。如[31]所示，视觉媒体往往在一段时间内接收观看次数。为了归一化这种效果，我们将观看次数除以给定剧集的上传日期到收集日期（2017年11月30日）的持续时间。图2中的橙色柱状图说明了通过对每个季度的所有剧集的观看次数求和来表示电视连续剧的总吸引力。为了更好地可视化，吸引力值以对数10为底的形式显示。可以观察到不同电视连续剧之间的视频吸引力差异显著。即使对于同一电视连续剧，不同季度的吸引力也不同。03.3 视频互动0除了视频观看次数，我们还收集了与每个视频片段相关的9个用户参与指标，即退出、快进开始、快进结束、快退开始、快退结束、快进跳过、快退跳过、弹幕和弹幕点赞。前7个参与指标是自然的0会议：The BIG Web WWW 2018，2018年4月23日至27日，法国里昂02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness ExitTimeVideo Attractiveness0.00.51.01.52.02.53.03.5Exit02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness Start of Fast-ForwardTimeVideo Attractiveness01530456075Start of Fast-Forward02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness End of Fast-ForwardTimeVideo Attractiveness15304560End of Fast-Forward02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness Start of Fast-RewindTimeVideo Attractiveness05101520253035Start of Fast-Rewind02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness End of Fast-RewindTimeVideo Attractiveness05101520253035End of Fast-Rewind02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness Bullet ScreensTimeVideo Attractiveness0153045607590Bullet Screens02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness Bullet Screen LikesTimeVideo Attractiveness050100150200Bullet Screens Likes02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness Fast-Forward SkipsTimeVideo Attractiveness150300450600750Fast-Forward Skips02:0008:4015:2022:0028:4035:2042:0040050060070080090010001100 Video Attractiveness Fast-Rewind SkipsTimeVideo Attractiveness0.000.050.100.150.200.250.30Fast-Rewind Skips……Track: The BIG Web WWW 2018, April 23-27, 2018, Lyon, France6740图3：观众在观看视频序列时的其他9种参与方式。每种参与方式都附带了观看次数。可以观察到观看次数与这9种观众参与方式呈现不同的相关性。从左上到右下：1）退出：退出节目的观众人数，2）快进开始（FF）：开始快进的观众人数，3）快进结束：停止快进的观众人数，4）快退开始（FR）：开始快退的观众人数，5）快退结束：停止快退的观众人数，6）弹幕：观众发送的弹幕数量，7）弹幕点赞：观众的弹幕点赞数量，8）快进跳过：快进期间的跳过次数，9）快退跳过：快退期间的跳过次数。0弹幕弹幕点赞0图4：弹幕的一个简单示例。不同的用户可能会在他们感兴趣的帧上直接表达实时意见。0用户在观看过程中的行为，而最后两个互动，即弹幕和弹幕点赞，涉及观众和视频之间的深度互动。弹幕，也称为实时评论，最早在[37]中引入，允许用户实时地在感兴趣的帧上直接表达意见。直观地，对帧进行评论的用户行为可以被视为反映帧级偏好的隐式反馈，而被评论的帧的图像特征和发布的评论中的文本特征可以进一步帮助从不同角度建模细粒度的偏好。图4显示了一个弹幕的简单示例。可以看到，不同的用户可能会在他们感兴趣的帧上直接表达实时意见。每个弹幕后面的数字0图4中的弹幕表示观众对相应弹幕的点赞总数。弹幕中的评论词更能准确地表达观众的偏好和意见。然而，在本文中，我们只收集弹幕的数量以及它们关联的点赞数。图3展示了9个不同的参与指标以及一个剧集的视频吸引力。可以注意到，这些不同参与度的分布是不同的。每个指标都衡量用户参与行为的一个方面。这些参与特征直观地与视频吸引力指标（观看次数）相关。例如，高快进跳过值总是对应低吸引力，而高快退开始值对应高吸引力。03.4 视频吸引力与参与度之间的关系0为了定量评估上述相关性，使用了三种系数，包括皮尔逊相关系数（PCC）、余弦相似度（CS）和斯皮尔曼秩相关系数（SRCC），来衡量每个参与指标与吸引力之间的关联强度和方向。相关性如表1所示。表明不同的参与指标与吸引力呈现不同的相关性，其中一些呈现正相关，而其他一些呈现负相关。不足为奇的是，快进开始和快进跳过呈现最大的相关性。6750表1：视频吸引力与不同参与指标之间的相关性，以皮尔逊相关系数（PCC）、余弦相似度（CS）和斯皮尔曼秩相关系数（SRCC）表示。0指标名称 PCC CS SRCC0退出 -0.149 -0.148 -0.2100快进开始 -0.117 -0.117 -0.2000快进结束 -0.537 -0.536 -0.5220快退开始 0.327 0.327 0.3680快退结束 0.227 0.227 0.2560弹幕 -0.139 -0.139 -0.1910弹幕点赞 0.027 0.027 -0.0200快进跳过 -0.351 -0.350 -0.3150快退跳过 0.022 0.022 0.0130正相关和负相关。然而，弹幕指标与视频观看次数呈负相关。一个可能的原因是实际评论的帧应该是用户开始输入弹幕时的帧，而不是弹幕发布时的帧。因此，主要原因是弹幕数据没有很好地对齐。另一个可能的原因是大多数弹幕都是关于剧情的抱怨，因此不能代表视频的吸引力。值得注意的是，弹幕点赞和快进跳过与视频观看次数的相关性较小。一个可能的原因是每个指标的值相对较小，因此无法反映统计规律。04使用深度学习在大型数据集上进行视频吸引力预测0视频吸引力预测是一项非常具有挑战性的任务，可能涉及许多外部因素。例如，社交影响是一个重要的外部因素，对观看次数产生很大影响。在西方世界，像《生活大爆炸》这样的剧集拥有大量的粉丝，具有很高的吸引力。然而，对于中国观众来说，《生活大爆炸》比一些真人秀节目如《歌手》的吸引力要低。在构建的FVAD中，由于用户个人资料数据不可用，我们无法追踪用户的文化背景或考虑其他社交相关因素。另一个重要的外部因素是相应电视剧的导演和主演名单。具体而言，强大的演员阵容总是提升整个剧集的基本吸引力。例如，一些像《后宫∙甄嬛传》这样拥有许多知名明星的剧集吸引了数十亿的观看次数。除了不同的外部因素，视频内容在视频吸引力预测任务中起着最重要的作用。在本文中，我们旨在发现视频内容与视频吸引力之间的关系。更进一步，我们希望仅基于视频内容对视频吸引力进行预测。因此，我们首先需要消除外部因素的影响。我们使用一种简单的方法，即标准化，对吸引力以及其他9个参与指标进行标准化。通过这种标准化，我们可以获得视频的相对吸引力，被认为是由视频决定的。0仅限内容，特别是视觉和音频组件。接下来，我们将使用归一化的视频吸引力来进行视频吸引力预测。04.1 视频表示0为了全面了解视频内容，我们提取了视觉和音频表示。视觉表示。最近发展起来的卷积神经网络（CNNs），如VGG [29]，Inception-X[10, 32-34]和ResNet[8]，通常用于生成图像的全局表示。依靠这些CNNs，我们使用FFmpeg解码每个视频，每秒选择1帧，将每个视觉帧输入到CNN模型中，并获取分类层之前的隐藏状态作为视觉特征。具体而言，为了利用不同种类的CNN模型的能力，我们尝试了各种CNNs，包括VGG-16，VGG-19，ResNet-152，Inception-X和最近开发的模型NasNet[39]。音频表示。对于声学模态，许多与音频相关的任务广泛使用梅尔频率倒谱系数（MFCC）[5] [7,36]。在本文中，MFCC特征也用于音频表示。具体而言，对于给定的音频文件，采样窗口的长度设置为25毫秒，同时连续窗口之间的步长设置为10毫秒。这样，每秒将有100个MFCC特征。为了减少特征维度，我们每秒取MFCC特征的平均值。由于音频文件中有两个通道，我们首先提取每个通道的MFCC特征，然后将它们连接在一起。因此，给定音频信号的MFCC特征的维度为T×26，其中T是音频信号的长度。除了MFCC特征，我们还使用NSynth[6]对音频信号进行编码。NSynth是一种最近开发的WaveNet风格[25]的自动编码器模型。具体而言，我们将每5秒的音频片段作为输入输入到NSynth中，并将编码器的输出作为音频表示。04.2 提出的多模态深度学习模型0我们提出的视频吸引力预测的多模态深度学习模型包括三层，即上下文门控层，多模态融合层和序列预测层。上下文门控层。为了进一步丰富视觉和音频特征的代表性属性，使用上下文门控，已经证明对视频表示学习有益[24]。上下文门控的公式为：0ˆ X = σ ( W X + b0其中X是输入特征向量，可以是视觉或音频表示。σ是逐元素的sigmoid激活函数。⊙表示逐元素的乘法。ˆX是门控表示。可以观察到上下文门控起到了哨兵的作用，可以自适应地决定输入特征的哪一部分是有用的。此外，通过乘法，原始表示X和变换表示σ(Wx +b)被非线性地融合在一起，从而增强和丰富它们的代表性能力。0Track: The BIG Web WWW 2018, 2018年4月23日至27日，法国里昂VisualrepresentationAudiorepresentationVisualrepresentationAudiorepresentationVisualrepresentationAudiorepresentation……GatingGatingGatingGatingGatingGatinght = LSTM xt,ht 1 .(1)itftottσσσtanhc⊙−1 + it ⊙ дt,ht ⊙ t nh(ct ),y′ = Wo ht ,(2)LMSE =6760嵌入融合嵌入 + +0LSTM ... ...0融合0LSTM ... ...0融合0LSTM0LSTM0(a) 低层融合网络 (b) 中层融合网络 (c) 高层融合网络0LSTM0序列预测0多模态融合0上下文门控0图5：我们视频吸引力预测框架的概述。首先对视觉和音频表示应用上下文门控来丰富它们的相应表示。基于门控表示，不同层次上执行不同的多模态融合策略，以利用视觉和音频组件之间的关系。最后，LSTM作为预测层进行吸引力预测。0多模态融合层。视频内容包含视觉和音频信息，二者互补，可用于视频表示学习[1]。因此，本文提出了几种多模态融合模型，以利用门控视觉和音频特征之间的关系，得到最终的视频表示。如图5所示，提出了三个不同的多模态融合层，分别在不同的层次上产生最终的吸引力预测的视频表示。低层融合。图5(a)示出了低层融合层。具体而言，我们在上述上下文门控层之后直接连接视觉和音频特征，并使用单个嵌入层将它们投影到一个公共空间中。因此，低层融合策略允许在低层次上融合视觉和音频特征。然而，视觉和音频模态的贡献并不相等。通常，视觉组件将提供比音频更多的语义信息。简单地将它们连接在一起可能会使音频信息被视觉部分隐藏。中层融合。为了解决信息隐藏问题，我们提出了一个中层融合层，从两种模态中学习综合表示。其结构如图5(b)所示。具体而言，我们使用非线性操作将门控视觉和音频特征转换为三个独立的嵌入：视觉嵌入、音频嵌入和联合嵌入。联合嵌入捕捉视觉和音频模态之间的共同语义意义，而视觉和音频嵌入则捕捉相应的独立语义意义。高层融合。此外，为了充分利用每个时间步骤上表示之间的时间关系，我们提出了一种更有效的融合方法，称为高层融合层。如图5(c)所示，我们采用两个独立的长短期记忆（LSTM）网络将视觉和音频数据的特征编码为更高阶的表示，然后将它们融合在一起作为视频表示，用于吸引力预测。通过使用两个不同但相互依赖的LSTM来学习每个单独模态内的复杂行为，可以广泛发现视觉和音频组件所携带的语义意义，这有望有益于最终的视频吸引力预测。0顺序预测层。在考虑到视觉和音频组件的多模态嵌入后，我们使用顺序预测网络来估计视频的吸引力。具体而言，我们将多模态融合层的输出 x t 作为 t时刻的输入，用于另一个LSTM进行预测。我们将预测过程表示如下：0LSTM的转换过程表示如下：0未知0=未知0T × x t ht − 10，0其中 i t 、 f t 、 o t 、 c t 、 h t 和 σ分别表示输入门、遗忘门、输出门、记忆单元、隐藏状态和sigmoid函数。T 是一个线性变换矩阵。 ⊙表示逐元素乘法运算符。隐藏状态 h t 用于通过线性变换层 W o预测一个值 y ′ 作为视频吸引力的细粒度级别。04.3 训练0均方误差（MSE）是序列预测任务中广泛使用的目标函数，可以表示如下：0i = 1 ( y ′ i − y i ) 2 . (3)0y ′ i 是我们模型预测的吸引力值。y i是真实的吸引力（观看次数）。T是视频片段的长度。然后我们可以使用梯度下降方法以端到端的方式训练整个模型。05 实验0在本节中，我们首先介绍实验设置，包括数据处理、评估指标、基线模型，以及我们的0Track: The BIG Web WWW 2018, April 23-27, 2018, Lyon, France2A season of TV series can be seen as a category in this scenario.Track: The BIG Web WWW 2018, April 23-27, 2018, Lyon, France6770表2：我们提出的多模态深度学习模型与不同的视觉和音频表示以及它们的组合的性能比较。每个指标条目的最佳性能（除了LSTM-EGG）以粗体显示。0模型名称 SRCC ( ρ ) MAE RMSE RMSLE0LSTM-EGG 0.795 0.381 0.499 0.0390LSTM-AUD-MFCC [5] 0.210 0.600 0.775 0.0760LSTM-AUD-NSynth [6, 25] 0.213 0.606 0.802 0.0820LSTM-VIS-VGG-16 [29] 0.323 0.572 0.726 0.0690LSTM-VIS-VGG-19 [29] 0.322 0.569 0.725 0.0670LSTM-VIS-ResNet-152 [8] 0.241 0.602 0.773 0.0750LSTM-VIS-NasNet-large [39] 0.359 0.570 0.724 0.0690LSTM-VIS-Inception-V1 [33] 0.336 0.570 0.719 0.0660LSTM-VIS-Inception-V2 [10] 0.337 0.569 0.724 0.0670LSTM-VIS-Inception-V3 [34] 0.335 0.571 0.725 0.0680LSTM-VIS-Inception-V4 [32] 0.365 0.567 0.713 0.0670低级融合（Inception-V4+MFCC）0.313 0.580 0.740 0.0700低级融合（Inception-V4+NSynth）0.243 0.601 0.793 0.0790中级融合（Inception-V4+MFCC）0.330 0.575 0.731 0.0690中级融合（Inception-V4+NSynth）0.318 0.573 0.733 0.0700高级融合（Inception-V4+MFCC）0.387 0.562 0.708 0.0660高级融合（Inception-V4+NSynth）0.371 0.551 0.698 0.0630高、中、低级融合（Inception-V4+MFCC）0.401 0.554 0.699 0.0650高、中、低级融合（Inception-V4+NSynth）0.393 0.544 0.690 0.0620实现细节。之后，我们将说明和讨论实验结果。05.1 实验设置0数据处理。为了保持训练样本的多样性，对于每个类别的episodes，我们使用70%用于训练，20%用于测试，10%用于验证。需要注意的是，FVAD中视频的平均持续时间为45分钟，由于LSTM的容量限制，LSTM很难对这样长的视频序列进行建模。因此，我们将训练集中的每个视频划分为一系列长度为5分钟的非重叠视频片段。然而，在我们的模型的测试阶段，我们将整个视频作为一个整体输入到预测模型中，而不进行任何分割。评估指标。为了评估细粒度视频吸引力预测的性能，我们采用了平均绝对误差（MAE）、均方根误差（RMSE）和均方根对数误差（RMSLE）作为评估指标。此外，与[16]中一样，我们采用Spearman等级相关系数（SRCC）来评估我们的模型预测的视频吸引力与真实值之间的相关性。根据定义，较大的SRCC值和较小的MAE、RMSE和RMSLE值表示更准确的预测，表明性能更好。基线模型。我们的基线模型的框架与图5（a）中所示的模型类似。唯一的区别是基线模型只接受一种类型的特征作为输入。更具体地说，对于任何类型的表示X，我们首先将X转换为512维的嵌入向量。然后将嵌入向量输入到序列预测层中估计视频的吸引力。在我们的实验中，LSTM-EGG代表使用9个参与指标预测吸引力的模型。LSTM-AUD-�和LSTM-VIS-�是基线模型。02 A season of TV series can be seen as a category in thisscenario.05.2 结果与讨论0实验结果如表2所示。使用不同的视频和音频表示以及它们的变体组合来进行视觉吸引力预测。回顾第3节中我们验证了视频吸引力与其他用户参与指标之间确实存在相关性。为了研究所有参与指标的综合效果，我们展示了LSTM-EGG的性能。我们观察到LSTM-EGG获得了最佳结果，这表明用户的参与行为作为一个整体与视频吸引力（观看次数）之间存在强烈的相关性。这也验证了从参与领域开发的特征具有很强的区分性，尽管它们的维度较低。然而，这些特征在实际应用中是不可用的。这也是为什么我们转而使用内容特征，特别是视觉和音频内容，进行视频吸引力预测的主要原因。通过LSTM-AUD-�，LSTM-VIS-�和不同的融合方法之间的比较，观察到视觉特征比音频特征更有用于视频吸引力预测。此外，通过结合更多的模态，可以获得更好的性能。这意味着视觉和音频模态之间存在互补关系而不是相互冲突关系。为了进一步检验音频和视觉特征的区分性质，我们进行了只使用音频和视觉表示作为输入的实验。实现细节。在本文中，LSTM的隐藏单元大小均设置为512。我们使用adam优化器以固定的学习率5×10-4进行模型训练。批量大小设置为16。当验证集上的(3×SRCC-MAE-RMSE-RMSLE)的值达到最大值时，训练过程通过提前停止策略终止。6780使用所提出的模型对不同类型的特征进行了研究。一般趋势是，视觉或音频特征越强大，性能越好。具体而言，以NasNet和Inception-X形式的视觉特征比VGG更强大。高级融合明显比低级融合方法表现更好。关于低级融合，从不同来源提取的特征可能不会落入相同的公共空间。简单地连接所有特征实际上会引入一定量的噪声和模糊性。此外，低级融合可能导致维度灾难，因为最终的特征向量将具有非常高的维度。高级融合方法引入了两个单独的LSTM来很好地捕捉视觉和音频内容的语义含义，从而更全面地理解视频内容。此外，所有级别融合的集成结果实现了最佳性能，这表明集成不同级别的融合模型可以全面利用视频内容进行吸引力预测。06 结论0在本文中，我们构建了迄今为止最大的基准数据集FVAD，用于解决新兴的细粒度视频吸引力预测问题。该数据集是从一个真实的视频网站收集而来的。基于FVAD，我们首先研究了视频吸引力与九种用户参与行为之间的相关性。此外，我们从视觉和音频两个角度提取了一组丰富的吸引力导向特征来描述视频。此外，我们提出了三种多模态深度学习模型，仅依靠视频内容来预测细粒度片段级吸引力。我们探索了不同级别的多模态融合策略，以建模视觉和音频模态之间的交互作用。实验结果表明了所提出模型的有效性以及融合视觉和音频模态的必要性。0参考文献0[1] Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, Apostol (Paul) Natsev, GeorgeToderici, Balakrishnan Varadarajan, and Sudheendra Vijayanarasimhan. 2016.YouTube-8M: A Large-Scale Video Classification Benchmark. In arXiv:1609.08675 .[2] Moshe Blank, Lena Gorelick, Eli Shechtman, Michal Irani, and Ronen Basri. 2005.Actions as Space-Time Shapes. In ICCV . [3] Jingyuan Chen, Xuemeng Song,Liqiang Nie, Xiang Wang, Hanwang Zhang, and Tat-Seng Chua. 2016. Micro TellsMacro: Predicting the Popularity of Micro-Videos via a Transductive Model. In ACMMultimedia . [4] Jingyuan Chen, Hanwang Zhang, Xiangnan He, Liqiang Nie, WeiLiu, and Tat-Seng Chua. 2017. Attentive Collaborative Filtering: MultimediaR

下载后可阅读完整内容，剩余1页未读，立即下载