没有合适的资源?快使用搜索试试~ 我知道了~
1一个从视频中检测个人广告的深度神经框架Zongyi LiuFGBS,Amazon.com2121 7th Ave,西雅图,WA,美国joeliu@amazon.com摘要从视频中检测商业广告非常重要。例如,广告插播频率和持续时间是衡量流媒体服务提供商(如AmazonFreevee)用户体验的两个指标。可以通过拦截网络流量然后解析服务提供商的数据和日志来入侵地进行检测,或者通过捕获内容提供商流式传输的视频然后使用计算机视觉技术进行分析来非入侵地进行检测。在本文中,我们提出了一个非侵入性的框架,不仅能够检测广告节,但也分割出个别广告。我们表明,我们的算法是可扩展的,因为它使用轻量级的音频数据来进行全局分割,以及从流行的流媒体服务(如Freevee和Prime Video(PV)直播体育)中捕获的域交叉(电影,电视和直播体育)。1. 介绍随着流媒体服务的快速增长,量化内容提供商例如,广告插入的频率如何,广告是否在正确的位置播放,或者广告与当前流媒体内容的相关性如何?为了计算这些指标,我们首先需要有一个算法来可靠地分割出单个广告。分割可以是侵入式的或非侵入式的。侵入式方法拦截网络流量,然后构建数据和日志解析器。这种方法的难点在于构建一个健壮的解析器,因为数据和日志通常由服务提供商加密非侵入式方法是首先捕获视频,然后使用计算机视觉技术对其进行分析。在本文中,我们将重点介绍非侵入式方法。一般来说,基于计算机视觉的广告检测算法可以分为两组:第一组是基于引用的,我们使用广告库来搜索是否有回放中的任何匹配第二组是基于非参考的,我们基于非引用的方法通常更具挑战性,因为一些广告,如电影预告片,与内容非常相似。但它在视频质量分析(VQA)领域也有更多的应用,因为对于Freevee这样的流媒体服务提供商来说,其广告图库集不仅难以获得,而且随着时间的推移会频繁更新。基于计算机视觉的广告检测的一些早期工作包括2005年Hua et. al [31]提出了一种算法,首先从视频中提 取 基 于 上 下 文 的 特 征 , 然 后 应 用 支 持 向 量 机(SVM);在2006年M. Covel et. al [9]提出了一种方法,该方法使用声学和视觉线索来检测重复信号,然后分割出广告部分。最近,C。Xu和X. Du[8]介绍了一种使用模板匹配从视频流中搜索广告徽标的方法。然而,该方法需要感兴趣的广告徽标的集合N. Liu et. al[19]提出了一种算法,该算法结合了视觉模态、纹理模态和音频模态的手工特征,然后采用Tri-Adaboost分类器将广告与内容分离。尽管近年来深度学习在计算机视觉领域发展迅速,但我们只能找到一种使用DNN的文献算法:S. Minaee et. al [22]提出了一种Ad-Net,首先使用开源视频镜头算法[1],然后应用预先训练的DNN对分割的视频剪辑进行分类。在本文中,我们提出了一个新的非参考广告检测框架。本文的主要贡献包括:(1)针对全局分割,提出了一种基于音频数据的非参考DNN模型与视频数据相比,音频数据具有更高的时间分辨率:其采样率通常在16KHZ以上,其中视频信号采样率通常低于60帧每秒(fps)。此外,音频数据与视频数据相比重量轻得多。例如,20分钟的音频播放与16千赫只有19。2密耳35783579欧氏距离特色(512)特色(512)狮子的数据点,但RGB视频具有相同的时间量在60fps采样将有大约7465万个数据点。另一方面,该领域中的其他算法要么使用来自视频通道的手工特征来执行分割,要么使用音频输入但基于参考([9])。(ii)提出了一种用于广告分类的时间注意力模型,并将时间池算法与RNN算法进行了比较,其他算法大多采用手工特征。根据我们的研究,使用DNN模型进行分类的唯一文献工作是[22]中提出的Ad-Net。然而,该算法只是没有研究RNN方法。表1.本文中使用的首字母缩写词缩写意义CP变更点:Content to/from Ad TAP时间平均池化模型LSTM长短期记忆模型V iTVision Transformer音频流输入音频流D> TCP?没有SS不是CPSS是CP图1.我们算法的流程图。这里列出的示例图像可在网上公开获得。本文其余部分的组织结构如下:节中2,3和4,我们详细 描述了算 法,在第 二节。 5 我们使 用PV和Freevee目录提供的数据评估我们的算法,并在Sec. 6、总结全文并讨论今后的发展方向。为了提高可读性,我们在表中列出了缩写词。1.一、2. 基于音频的非参考回放分段我们的分割算法如图所示。二、它从音频数据中搜索无声的短片段图2. 给出了基于音频流的回放分段算法的流程图,该算法首先找到无声段(SS),然后分类它是否是变点(CP)。基于我们的观察,在内容和广告之间或者在各个广告之间。这里,无声段被定义为时间段[t1,t2],使得其内的音频信号的最大音量在我们的算法中,最小持续时间设置为10毫秒,音量阈值设置为4,之后我们将wav数据规范化为int16类型,然后取绝对值。为了清除噪声,我们对输入音频数据应用[300HZ,6000HZ]然后,我们检查检测到的片段是否是CP。在这里,我们首先提取音频剪辑wav1和wav2,SS1SS2SS3SS4CP1CP2CP3++输入视频流++广告内容广告. 分类器内容广告后处理变点分类器静默段检测SS对数梅尔频谱图对数梅尔频谱图ResNet-343580××−}在无声部分之前和之后。wav1和wav2都有一个win持续时间。赢值选择对于下游分类器是重要的,因为如果它太小,我们没有足够的信息;但是如果它太大,则它可能包含其它时间的场景变化,这将混淆分类器。我们将在第二节中研究赢值。5. 接下来,我们计算wav1和wav2的对数梅尔谱图[10,20]。接下来,我们提取512维特征向量。然后,我们计算特征向量之间的欧几里德距离,并且如果其值高于预定义的阈值TCP,则将静默段标记为CP。在这里,我们选择了由牛津大学机器人实验室的 SpeakerID框架提出的修改后的ResNet-34作为主干。在微调之后,我们从Log MelSpectrogram计算特征向量。简而言之,该模型从7× 7卷积层开始,然后是3 × 3最大池化层,然后是四个残差网络块。然后,它执行时间自注意池化[3]和具有输出维度512的全连接层。有关本网的详情在它里面,然后随机选择一个来创建一个非CP(阳性)对。如果没有找到段,那么我们随机选择一个时间戳来创建一个正对。CP(负)对可以通过对来自不同回放的音频片段进行采样来获得。由于从内容到广告以及单个广告之间可能发生转换,因此我们在训练阶段包括广告和内容剪辑对于损失函数,我们研究了等式中定义的三重态损失[28]。1.如在等式中定义的对比损失[5,13]。2. 结果表明,在SEC。5表明三重态丢失具有较好的性能。注意,对于大小为NB的训练批次,我们具有NB个非CP对和(NB1)2个CP对。 因此,我们还在训练阶段执行了[23]中所述的硬数据挖掘,以实现更好的性能。迁移学习用于初始化模型权重,我们选择了在VoxCeleb2数据集[7]上训练的模型,该数据集包含来自6,112个不同人的一百万个话语。L(A,P,N)=max(L(P)−L(N)+α,0)工作,请参考A。Nagrani et. al的论文[23,7,24]。对于被分类为非CP的每个静默段,L(P)= ||f(A)− f(P)||2L(N)= ||f(A)− f(N)||2(一)我们使用视频信号执行附加检查,防止分割不足。具体来说,我们对它附近的帧运行[2]中提供的开源场景检测算法。如果在片段内检测到场景变化帧,则我们将其重新标记为CP。由于我们只在检测到的无声片段附近的帧上运行视频检测器,因此额外的计算成本很低。经过计算, 我们的算法会输出一个三重损失函数,其中A是锚输入,P是其非CP对(来自同一视频),N是其CP对(来自不同视频),α是CP和非CP对之间的裕度,通常设置为1,f是特征提取器(ResNet-34网络)。L(X1,X2)=L(1)+L(2)(1)(1)(1)(||f(X1)− f(X2)||2(二)受保护的CP列表: [CP1,CP2,CP3,...,CP n]。 这些CP122将输入回放分割成n+1个片段:{SG0=[0,t11],SG1=[t12,t21],SG2=[t22,t31],...,SGn=[tn2,tend]。这里ti1、ti2是CPi的开始时间和结束时间,tend是回放的结束时间。我们还添加了一个简短的片段清理步骤:对于每个短段,我们检查其时间相邻的相邻段。如果一个或多个段也很短,我们将它们合并,然后重复此过程。否则,我们将丢弃短片段。在我们的算法中,我们根据经验选择了8秒作为短片段的截止时间。这种修剪过程有助于减少小片段,这又改善了下游广告分类步骤,因为(i)第二节中的广告3需要4.3秒的输入剪辑,以及(ii)我们通常对具有several- eral输入剪辑的片段具有更好的预测,然后在最后聚合结果。另一方面,它为小于8秒的短广告创建了细分不足问题。我们将在后处理步骤中解决此问题,如第2节所述。4.第一章为了训练CP分类器,我们选择了Siamese网络架构,以便我们可以轻松地添加新的训练,无需改变网络结构即可观看视频。给定训练音频片段i,我们首先找到所有无声片段,L(2)= Y 2 max(0,α − ||f(X1)− f(X2)||)的方式对比损失函数,其中X1和X2是CP分类器的输入对,alpha是CP和非CP对之间的裕度,通常设置为1,f是特征提取器(ResNet-34网络)。如果X1和X2是非CP对(来自相同回放),则Y=0,并且如果它们是CP对(来自不同回放),则Y=13. 基于时间注意网络的广告分类上 述 分 割 算 法 已 经 将 输 入 流 分 割 成 段 [SG0 ,SG2,...,SG n]。对于每个细分市场,我们需要将其标记为广告或内容。在我们的算法中,我们采用了一个非参考分类器,由一个特征提取模型和一个基于时间注意力的分类模型。3.1. 特征提取模型我们使用F。 Xiao et. al的视听慢快网络[32],其融合视频和音频输入以提取特征向量,如图1所示。3场演出。简而言之,3581×××3.2. 时间注意模型现在我们有三个特征向量,分别来自慢速、快速和音频通道。为了运行分类器,我们需要将它们融合到一个特征向量中。在原始的AvSlow- Fast网络中,作者使用3D卷积来对快速和音频通路张量进行节奏下采样,然后将它们与慢速通路张量连接起来。除了这种方法,我们还研究了融合到快速通道:我们使用3D扩张卷积来对慢通道张量进行时间上采样,然后将三个通道张量合并。特色音频图3. 我们使用视听慢快网络[32]来提取特征向量。这里,NFS、NFF和NFA分别是通道的数量,NTS、NTF和NTA分别是在慢、快和音频通路中使用的时间分辨率的数量;NX、NY为ResNet块处理后的视频图像尺寸;NM是音频帧的梅尔频谱的数量。注意,NTA等于NTF,因为音频通路模块在时间上对数据进行下采样。表2.时间维度(NTS、NTF和NTA)和用于音频视频慢快网络的慢、快和音频路径中的数量通道(NFS、NFF和NFA)以提取特征。新界南NTF新台币一名NFSNFFNFA43225620482561024网络使用两个通道来处理视频流:(i)具有较低采样率但具有更多通道的慢路径,以及(ii)具有较高采样率但具有较少通道的快路径。它还创建了一个音频路径,使用2D对数梅尔频谱图[21],具有比快速视频路径更高的时间分辨率然后,每个路径由骨干网络ResNet-50处理。在该步骤期间,音频通路输出被融合到快通路输出中,快通路输出又被融合到慢通路输出中。此外,音频数据也被时间下采样,直到其具有与快速路径数据相同的NTA等于NTF。最后,它对每个路径的张量执行XY平均池化,使得三个输出特征向量具有唯一的空间维度11。与原始AVSlowFast网络[32]相比,我们将快速路径采样率从2增加到4,从而使输入剪辑长度加倍到4。3秒这是基于我们的观察,即当剪辑太短时,不到3秒,即使是人也很难准确标记。同样,我们还将音频帧数从128增加到256。图4. 我们的算法研究了三种时间注意网络。左边是时间平均池模型,中间是LSTM模型,右边是视觉Transformer(ViT)模型。注意,NF是来自慢、快和音频通路的级联特征,NT是时间分辨率,如果我们融合到慢通路张量中,则其可以是NF S,如果我们融合到快通路张量中,则其可以是NTF。在跨通路特征融合之后,我们执行分类步骤。在这里,我们采用了在活动识别领域表现出良好性能的时间注意力网络[12,33,18,17]。具体而言,我们研究 了 三 种 模 型 : 第 一 层 是 简 单 的 时 间 平 均 池 化(TAP)层,其后是全连接层。第二个使用双向长短期记忆(LSTM)模型[15]来学习时间权重,然后它获取T0的特征并将其发送到一组完全连接的层。第三种是D. [11]第十一届全国人大常委会委员长会议。在这里,我们采用了混合架构,该架构采用CNN框架生成的尺寸为768的扁平补丁嵌入序列,将位置嵌入添加到其 中 , 然 后 预 先 添 加 可 学 习 的 嵌 入 , 其 状 态 在Transformer编码器的输出端作为类表示。在我们的算法中,我们首先应用11卷积以获得大小为768的嵌入的时间序列,然后运行VIT模型,该模型产生具有768个通道的张量,然后将其发送到全连接层以进行二进制分类。所有这三个时间注意力模型的输出向量大小都为21,用于计算损失函数在训练阶段,或者由Softmax层在[NFS,NTS,1,1]功能慢[NFF,NTF,NY,NX][NFF、NTF、1、1]电源具有快速的[NFA、NTA、1、NM]平均池[1,1,1,平均池[1、1、NY、NX]平均池[1,1,[NFS、NTS、NY、NX]特征向量:[NF,NT]平均池化[NF,1]重塑[NF]完全连接[二]《中国日报》双向LSTM…完全连接1完全连接2完全连接3完全连接4【一千个】[256]第二百五[二]《中国日报》置换[NT、NF]1x1 Conv[NT,768]0* 1 2. . .NTTransformer编码器[768]完全连接[二]《中国日报》3582ceNB我我ΣΣ推理阶段,用于生成二进制类的概率:广告与内容。图4显示了这三个模型的架构。3.3. 损失函数对于损失函数,我们选择了流行的交叉熵损失,如等式中定义的。第三章:1个NB CL=−(y(c)log(x(c))(3)i=1c=1四五秒。因此,为了解决这个问题,我们使用了更激进的阈值:(i)2毫秒而不是10毫秒用于无声段检测,以及(ii)4秒而不是8秒作为短视频段截止,以查看广告段是否可以进一步分成列表子段。然而,该过程可能过度校正,特别是对于在对话期间存在停顿的仅发声场景。为了防止这种情况,我们采用了音频神经网络:PANN [16],进入我们的系统。PANN模型在大规模AudioSet数据集上进行训练,将音频片段分类为527种类型的声音。我们运行其中NB是训练批量大小,C是类在我们的网络中,值为2时,xi(c)和yi(c)分别是类别c的模型预测概率和真实概率。3.4. 视频段级分类上述AD模型将视频剪辑分类为4。三秒长。为了标记一个完整的片段,我们将其裁剪成一个包含4个片段的列表。3秒的剪辑,2秒的跳跃大小。然后,我们对每个片段运行AD分类器,以计算标记为Ad的片段 为了提出二进制判决,我们应用了与Canny边缘检测器类似的技术[4]:首先,我们设置双阈值:Tad(高)和Tad(低),以基于它们的比值将片段标记为强Ad、弱Ad或非Ad。然后,我们通过滞后跟踪广告在我们的实现中,我们将两个阈值设置为0。3333和0。1所示。请注意,高尔夫球比赛或电影等流媒体事件可能需要数小时。不像在Sec.2,仅使用音频数据,AD分类器需要处理视频和音频数据两者,使得处理长视频段是昂贵的。另一方面,我们观察到,一个单一的广告通常持续不到60秒。因此,我们通过创建一个规则来优化我们的算法:如果视频片段长于特定的时间窗口,那么我们跳过AD分类器,直接将其标记为内容。这里窗口根据经验设置为85秒。4. 后处理算法除了两个DNN模型来执行分割和分类之外,我们还构建了一个后处理算法,该算法由两个步骤组成,以进一步提高性能。第一步是根据分割校正的广告段在分段步骤中,如第2、视频片段可能由于两个原因而被欠分段:(i)我们将无声段检测的最小持续时间设置为10毫秒,其中实际上,两个广告之间的过渡时间可以比这更短,以及(ii)我们将小于8秒的视频段与其时间相邻的相邻视频段合并。然而,有一些简短的广告,PANN对每个广告片段进行建模,并将输出分为两类:连续类包括乐器声、火声、水声等,非连续类包括人的声音、鸟的声音、爬行动物的声音等。一般来说,连续范畴音不太可能出现假阳性的无声音段。另一方面,我们需要小心混合的声音,例如,人声配上背景音乐这种声音通常没有假阳性,因此它们应该被归类为连续的。然而,当前景声音较大时,PANN模型将输出较高的因此,在我们的算法中,我们首先使用Librosa [25]中实现的语音音乐分离算法[26]来削弱人声信号。结果,声乐/音乐混合音频被分类为连续的,但是仅声乐音频仍然被分类为非连续的。我们将上述基于PANNs模型的分类方法应用到每个视频片段中。然后对于每个相邻的对,如果它们都是不连续的,我们合并它们。接下来,我们运行CP分类器,以使用激进阈值进一步验证剩余的新创建的静音段。第二步是分段校正下的内容分段:对于长视频片段(在我们的算法中超过85秒),我们使用与第2节所述类似的算法来检查其中是否有广告。2. 如果它可以被分割成多个片段,而不是使用基于音频的CP分类器来验证每个片段,我们仅在头部和尾部子片段上运行基于音频加视频的AD如果任一子片段被分类为广告类型,则我们将其从视频片段中切出并创建新的广告类型片段。这两个步骤的目的是为了减少由预定义的阈值和CP分类器的错误造成的分割错误正如在SEC结束时提到的那样。2,我们在这里执行这些步骤,因为较长的视频片段有助于提高AD分类器的准确性。此外,在开始时使用保守的分割将有助于保留长片段。由于我们在长视频片段上跳过了AD分类器,因此可以缩短整体处理时间。3583−××××表3. CP和AD分类器的训练、测试和验证集中的视频子回放的数量。这些子回放是从短视频回放(第1部分)创建的,每个回放1到5分钟。广告数量内容计数火车56095367测试10381154验证104011545. 实验和性能5.1. 数据集描述由于我们无法在文献中找到用于广告检测的数据集,因此我们创建了自己的数据集用于性能评估。它由两部分组成:(i)播放短片,每段1至5分钟。它们是从Freevee目录、PV目录等中收集的。这些回放被进一步分解为10 - 30秒的子回放,以在训练和测试过程中获得更好的场景覆盖。(ii)长视频播放,每段20到120分钟。它们由Freevee和PV目录提供,其中包括32部不同标题的电影和16场现场体育流媒体赛事。5.2. 培训过程描述我们使用短视频数据集(第1部分)来训练模型。具体来说,我们选择了70%的子回放作为训练数据,15%作为验证数据。 为了在类别之间具有平衡的数据点,我们进行了下采样,使得Ad和含量的样本之间的比率在0.9至1.1内。我们使用相同的数据集分别训练CP分类器和AD分类器。在训练过程中,我们对196个epoch进行了验证,并选择了具有最佳验证性能的epoch。我们的分类器采用迁移学习。具体来说,我们初始化了图1所示的CP分类器 2使用[6]中提供的预训练模型,图2中所示的特征提取模型。3使用预训练的AvS-lowFast网络模型[32]。对于图中所示的时间注意力模型。4,我们执行初始化为- low:时间平均池模型和LSTM模型使用由KM He等人提出的均匀分布函数来初始化。al [14];使用从Ross Wightman的库下载的jxvit base resnet50 384预训练模型初始化ViT模型[30]。5.3. 单个分类器性能评估我们使用短视频数据集剩余的15%的子回放来评估我们的模型的性能(第1部分)。与训练过程类似,我们还执行了数据下采样,以获得平衡的数据集。具体来说,我们有1038个内容剪辑和1154个广告剪辑,来自121个独特的回放。为了评估CP分类器,我们依次从每个回放中选择一个子回放,从其中随机采样一对时间相邻的视频片段,然后计算它们的特征向量。通过对所有的测试回放进行迭代,得到了121对特征向量.然后我们计算121121的距离矩阵,其中对角线121值是非CP距离,其余非对角线值是CP距离。由于一个回放可能具有多达38个子回放,因此我们重复该过程38次以覆盖这些子回放 , 然 后 关 联 所 有 距 离 。 因 此 , 我 们 总 共 得 到12112138= 556358个距离,其中12138= 4598个是非CP类型。图5.CP分类器在556358个距离的测试数据集上的性能研究左图是使用不同的赢和输函数Ltr和Lct值训练的模型的曲线下面积(AUC),右图是ROC曲线,最大值为0。2使用三联体损失和2秒的窗口大小训练的模型的假阳性率图5列出了LCCP的性能。左侧子图列出了如等式10中定义的win、Ltr的参数值方面的影响1和Lct,如等式1中所定义。2. 我们可以看到,Ltr总体上比Lct具有更好的性能。我们还看到,当win设置为2秒时,CP这证实了我们在SEC中提出的假设二、 右侧子图绘制了使用L tr且win设置为2秒时的ROC曲线。 我们可以看到在10%的假阳性率下实现了90%的为了评估AD分类器,我们采用了与F. Xiao et. al的工作[32]。简单地说,给定一个测试视频片段,我们进行了5次时间均匀采样。 对于每个样本,我们进行3次空间采样:左边中间和右边 所以在我们总共从一个视频剪辑中创建了15个子剪辑然后,我们对它们中的每一个运行AD分类器,并在表中报告性能。4.第一章 我们可以看到,对于这些广告,只有或con-在只输出短视频的情况下,TAP模型获得了最好的广告召回率和内容精准率,而LSTM模型在慢路径输出上获得了最好的广告精准率和内容召回率。总体而言,相似且更均衡3584RTSG(SGj)=表4. AD分类器在精确率(PR)方面的性能。和召回率(RC.)共测试了17310个广告视频剪辑和17310个内容视频剪辑。在这里,我们比较了三种时间模型在慢融合路径和快融合路径上的输出,并且以百分比报告数字。Alg.融合途径PR.AdRC.AdPR.内容RC.内容抽头慢91.997.597.391.4LSTM慢94.996.496.494.9LSTM快速93.496.996.893.2V iT慢94.796.896.894.6V iT快速94.896.896.894.6性能数字由RNN模型报告。5.4. 端到端算法性能评估我们还对48个长回放(我们的数据库的第2部分)进行了端到端测试。对于每次播放,我们运行我们的算法来计算广告片段,然后将它们与手动标记的片段进行比较。为了简单起见,我们定义,如果视频片段i的RT如等式1中定义,则视频片段i映射视频片段j。4大于0。五、这个简单的多数规则允许每个计算片段映射到0或1个手动片段,反之亦然。然后,我们使用五个指标量化性能,如图所示。6定义。表5. 使用由16场高尔夫比赛和32部不同标题的电影组成的长视频数据集(20分钟至120分钟)的广告检测算法的端到端算法性能。这些回放具有621个广告片段,其持续时间范围从4秒到60秒。性能数字以百分比表示,其中过度、不足和未命中度量用地面实况广告片段(621)以及正确和错误位置的数量进行归一化。用计算的广告的数量来规范度量。(Col. (3)第三章。Alg.融合途径计算广告正确奥弗塞格翁德塞格小姐错误位置抽头慢63596.20.60.50.32.4LSTM慢62797.10.60.50.31.1LSTM快速62897.00.60.50.61.6V iT慢63296.70.60.50.31.9V iT快速62796.80.60.51.01.8体育和电影流,以及多个流服务提供商,如Freevee。此外,我们还注意到,对于不包含任何广告的回放,我们的算法不会产生任何误报。从桌子。5我们可以看到,基于RNN的模型其中SG是Interrsect(SGi,SGj)i持续时间(SGi)和SGj是两个视频段。(四)LSTM和V iT的整体性能优于TAP模型。这是意料之中的,因为RNN模型可以学习比简单的时间平均更好的时间权重。另一方面,LSTM模型在缓慢的计算手动正确过分割分割不足假阳性小姐路径输出实现最佳性能:九十七4%的正确率和1. 1%的假阳性率。这有点令人惊讶,因为我们期待V iT脱颖而 出 , 因 为 许 多 其 他 研 究 工 作 [11 , 29] 表 明Transformer是比LSTM更好的RNN模型。我们推测这是图6.定义的五个指标用于衡量端到端算法,Rithm性能。这里,从视频片段i到视频片段j的箭头意味着i映射到j。表. 5列出了我们的算法在由16场高尔夫比赛和32部不同标题的电影组成的48个长视频数据集(第2部分)上的端到端性能。地面实况数据是手动创建的,其中我们在该数据集中识别出621个广告片段,每个持续时间范围从4秒到60秒。在此,利用真实广告片段的数量(621)以及正确和错误位置来对过段、欠段和未命中度量进行归一化。用计算的广告的数量来归一化度量。(Col. 3桌子5)我们可以看到,所有算法都达到了96%+的正确率,小于1%的过分割率、欠分割率和错过率,以及小于2的假阳性率。百分之五结果表明,我们的模型能够体面地工作,这是由于我们的训练数据集相对较小。我们对LSTM模型在慢路径输出上进行了进一步的研究,报告了最佳性能。图7显示了错误率和损失值随训练时间的变化我们可以看到,两者都在90个epoch后收敛,并在190个epoch时达到最佳值我们还计算了该框架中每个单独组件的识别率,并将结果列于表中。6.我们可以看到,基于音频的分割模块本身能够实现非常下降的性能。5.5. 计算速度评估我们 还研究 了算法 的计算 速度。我 们在Ubuntu18.04机器上测试了该算法,该机器具有一个NVIDIAGeForce Titan X Pascal GPU , 12G 内 存 和 一 个 Intel(R)Xeon(R)CPU@2.30 GHz。我们3585∼∼∼∼∼∼−−图7.验证数据集上的错误率百分比和LST M模型在慢通路输出上的训练时期内的损失值变化。表6. 仅使用基于音频的分割算法的广告分割精度与.完整的算法 这些数字是在长视频数据集上计算的,该数据集具有从16场高尔夫比赛和32部不同标题的电影捕获的48个回放,并且我们在慢路径输出上选择了反映最佳性能的LST M模型。度量音频段只完整算法GT广告621621计算广告610627正确584609奥弗塞格34翁德塞格133小姐82错误位置77使用 了 20分钟 长的MP4 测试 文件 ,音频 采样 率为48KHz,视频采样率为60fps。对于分段,I/O时间为9。8秒加载完整的音频数据,CPU时间为4。7秒后搜索无声段对于CP分类器,I/O时间为0。9秒加载一对两秒长的音频片段,GPU时间为0。013秒。 对于AD分类器,加载4.3秒长的AV剪辑的I/O时间为12秒,GPU时间为0。04.我们可以看到,AD分类器是最昂贵的组件。幸运的是,我们没有在很长的剪辑上运行它,因此它大大节省了处理时间。如前所述,我们的工作的一个关键贡献是基于音频的非参考分割模块,如在第12节中所述。2. 我们比较了它的运行速度与两个国家的最先进的场景变化检测算法的分割只有模块第一种是由A. Rao et. [27] 2020年。它是一种基于DNN的多模型算法,可以从视频和音频通道中提取语义特征。第二个是开源的pydetect li-[2]。它是一种传统的基于CV的算法,使用来自视频数据的颜色。测试了三个示例视频:其中两个来自我们的评估数据集,另一个来自多模型算法论文[27]。表.7列出了结果,我们可以看到我们的分割模块比传统的基于CV的算法快6 - 10倍,比基于DNN的多模型算法快8 - 12表7. 基于DNN的多模态(MM)分割算法[27]、使用颜色的传统基于CV的场景检测算法[2]和我们的算法的分割模块高尔夫游戏和电影测试视频从我们的评估数据集中采样,演示测试视频在多模型分割算法网站[27]中提供。Alg.高尔夫游戏(20分钟)电影(60分钟)演示(8分钟)[27]第二十七话379113642颜色[2]28383930我们258756. 结论和未来研究在本文中,我们提出了一种非参考算法来检测单个广告从捕获的视频播放。它由三个部分组成:分割步骤、广告分类步骤和后处理步骤。我们仅使用广告或仅使用1-5分钟长的短视频的内容来 我们还使用从流行的流媒体服务提供商(例如Freevee、PV等)长时间捕获的48个回放来测试al-出租m端到端。回放跨越多个领域,包括电影,电视和直播体育。实验结果表明,该算法取得了良好的性能,97。4%的准确度。我们还研究了LSTM模型在慢通路输出上报告的假阳性和缺失片段,并在图中列出了示例图像。1和2在补充文件中。我们可以看到,假阳性错误来自开头和学分部分,而错过错误来自与内容非常相似的广告片段如今,广告研究如情感分析、相关性研究等,主要使用的内容和广告剪辑从供应商那里他们已经被细分。有了这个框架,我们可以通过分析从流媒体服务提供商捕获的视频,从最终用户的角度研究这些指标。就未来的研究而言,一个方向是将两个DNN模型合并为一个,这样我们就可以使整个系统端到端可训练。此外,我们正在建立一个大型广告检测数据集,包括NBA和NFL直播内容,其中包含更复杂的广告场景,并将在不久的将来向社区发布。140.180.16120.14100.1280.10.0860.0640.0420.0200102030405060708090100 110120130 140150160 170170 180 190 196训练时期损耗值错误率错误率损耗值3586引用[1] https://mklab.iti.gr/results/video-shot-and-scene-segmentation/.[2] https://pyscenedetect.readthedocs.io/en/latest/.[3] Weicheng Cai,Jinkun Chen,Ming Li.在探索端到端扬声器 和语 言识 别系 统中 的编码 层和 损失 函数 ,042018。[4] 约翰·坎尼。边缘检测的计算方法。IEEE模式分析与机器智能学报,PAMI-8(6):679[5] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地,与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议(CVPR'05),第1卷,第539-546页,第1卷。1,2005年。[6] Joon Son Chung、Jaesung Huh、Seongkyu Mun、MinjaeLee 、 Hee Soo Heo 、 Soyeon Choe 、 Chiheon Ham 、Sunghwan Jung、Bong-Jin Lee和Icksang Han。为说话人识别的度量学习辩护。InInterspeech,2020.[7] J. S. Chung,A.Nagrani和A.齐瑟曼。Voxceleb2:深度说话人识别。在INTERSPEECH,2018年。[8] 徐聪和杜秀华一种实时自适应视频广告标识检测算法在Proceedings2013InternationalConferenceonMechatronicSciences,ElectricEngineeringandComputer(MEC)中,第1467[9] M. Covell,S. Baluja和M.芬克 使用声音和视觉线索检测视频流中的广告。Computer,39(12):135[10] S. Davis和P.默梅尔斯坦连续口语句子中单音节词识别的 参 数 表 示 比 较 IEEE Transactions on Acoustics ,Speech,and Signal Processing,28(4):357[11] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。[12] W.杜,Y. Wang和Y.乔用于视频中动作识别的递归时空注意力网络。IEEE Transactions on Image Processing,27(3):1347[13] R. Hadsell,S.Chopra和Y.乐存。通过学习不变映射来降低维数。在2006年IEEE计算机协会计算机视觉和模式识别会议(CVPR[14] K.他,X。Zhang,S. Ren和J. Sun.深入研究整流器:在imagenet分类上超越人类水平的性能2015年[15] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation,9(8):1735[16] Quqiang Kong,Yin Cao,Turab Iqbal,Yuxuan Wang,Wenwu Wang,and Mark D.普兰伯利Panns:用于音频模式识别的大规模预训练音频神经网络。IEEE/ACMTransactionsonAudio , Speech , andLanguageProcessing,28:2880[17] D. Li,T.尧湖,澳-地Duan,T. Mei和Y.瑞统一时空注意力网络在视频动作识别中的应用IEEE Transactions onMultimedia,21(2):416[18] J. Li,X. Liu,W. Zhang,M. Zhang,J. Song,and N.Sebe 动 作 识 别 与 检 测 的 时 空 注 意 网 络 。 IEEETransactions on Multimedia,22(11):2990[19] N. Liu,Y.Zhao,Z.Zhu和H.陆利用视觉-听觉-文字特性进行电视广告区块自动侦测与分割。IEEE Transactionson Multimedia,13(5):961[20] P. Mermelstein。言语识别的距离测量,心理和工具。Pattern Recognition and Artificial Intelligence,第374-388页[21] 徐敏,段凌玉,蔡剑飞,贾良田,徐长生,田柒。基于HMM的音频关键词生成。在多媒体信息处理的进展-PCM 2004年,第五届环太平洋多媒体会议,第566-574页,11月。2004年[22] Shervin Minaee , Imed Bouazizi , Prakash Kolan , andHos-sein Najafzadeh. Ad-net:用于视频广告检测的视听卷积神经网络。CoRR,abs/1806.08612,2018。[23] Arsha Nagrani、Joon Son Chung、Weidi Xie和AndrewZisserman。Voxceleb:野外大规模说话人验证计算机科学与语言,2019。[24] A. Nagrani,J. S. Chung和A.齐瑟曼。Voxc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功