长视频流的无监督多模态时间分割

41 浏览量更新于2023-10-16 收藏 1014KB PDF 举报

多模态特征

无监督方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5188LiveSeg：长视频流的无监督多模态时间分割邱洁琳1，2，Franck Dernoncourt1，Trung Bui1，王兆文1，赵丁2，靳海林11AdobeResearch，2卡内基梅隆大学{jielinq，dingzhao} @ andrew.cmu.edu， {dernonco，zhawang，bui，hljin} @ adobe.com摘要直播视频已成为在线学习的重要组成部分，经验丰富的专家在课程中教授设计，数字营销，创意绘画和其他技能，使其成为宝贵的然而，直播教程视频通常长达几个小时，录制好后直接上传到互联网上，这使得其他人很难快速跟上一个out-line将是一个有益的解决方案，它需要视频根据主题进行时间分割。在这项工作中，我们引入了一个大型的Livestream视频数据集Mul- tiLive，并制定了长Livestream视频（TSLLV）任务的时间分割。我们提出了LiveSeg，一个无监督的实时流视频时间分割解决方案，它利用了来自不同领域的多模态特征。我们的方法达到了16。与最先进的方法相比，F1评分性能提高了8%1. 介绍视频时间分割已经变得越来越重要，因为它是许多现实世界应用的基础，即，视频场景检测、镜头边界检测等。视频时间分割是视频预处理的一个重要步骤，准确的时间分割结果可以帮助许多其他任务。视频时间分割方法存在于两个方向：单一模式和多模式方法。单模态方法仅使用视频的视觉模态来以监督的方式学习场景变化或过渡，而多模态方法利用可用的文本元数据并以无监督的方式学习联合语义表示。每天都有相当数量的长视频上传到互联网上，但要快速理解长视频的主要内容是具有挑战性的然而，我们只能通过阅读视频图1. 视觉特征上的时间成对余弦距离的比较：（顶部）直播视频，（底部）TVSum视频（蓝绿：距离&;红色：段边界）。访问视频，这是耗时的，不准确的，并且非常容易错过有价值的信息。有利的解决方案是基于主题将长视频分段成小段，使得用户更容易导航内容。现有的视频时域分割工作大多集中在短视频上.一些工作探索了从长视频中提取的电影剪辑，但很容易通过场景变化进行时间分割Jadon等人提出了一种基于SumMe数据集的摘要方法[26]，这些数据集是具有清晰视觉变化的1-6分钟短视频[31]。当涉及到长的直播视频时，由于直播视频的超长长度和新特性，因此，关键问题是找到一种实用的方法来暂时分割的Livestream视频片段。分割结果的质量会显著影响后续任务。因此，在这里，我们提出了一个新的任务，TSLLV，时间分割的长直播视频，这还没有探索。与其他长视频不同的是，电影、实时流视频通常包含由于视觉上的突然变化而引起的更多噪声视觉信息，以及由于随机聊天、会话语言和断续的句子而引起的更多噪声语言信息，这意味着内容既不清晰也没有良好的组织，使得非常难以检测分段边界。第3节介绍了直播视频和其他视频的视觉噪音以及直播转录本的示例。5189总而言之，在时间上分割直播视频的主要困难是：(1) 视觉背景在相当长的一段时间内保持相似，即使主题已经改变，这使得边界的定义变得模糊不清。对于我们从Behance1收集的MultiLive数据集，主持人通常会教绘画或绘画，其中主要背景是电路板，并且在视频的大部分部分内容中保持相似。与电影相比，电影图1显示了实时视频和TVSum视频之间的视觉特征的时间成对余弦距离（同一视频的第i帧和第i+ 1帧之间的距离）的示例比较[64]，其显示了实时视频(2) 视觉变化既不一致也不清晰。如图1、视觉站点中存在由于主机改变文件夹或放大/缩小而导致的突然变化，使得视觉信息极其嘈杂。(3) 对于这种直播视频，没有足够的标记数据，手动标记它们具有挑战性，耗时且昂贵。因为它需要人工注释者观看整个视频，理解主题，然后在时间上对其进行分割，这比标记图像要复杂得多。我们的贡献如下：• 我们引入了 MultiLive ，这是一个新的大型Livestream视频数据集，其中1,000个视频被手动分割和注释，为评估提供了人类的见解和参考。• 根据新引入的MultiLive数据集，我们制定了一个新的长实时流视频（TSLLV）任务的时间分割。• 我们提出了LiveSeg，一种无监督的实时流时间分割方法，通过探索多模态视觉和语言信息作为TSLLV的解决方案。我们从这两种模式中提取特征，探索域之间的关系和依赖关系，并生成准确的分割结果。LiveSeg获得了16分。与SOTA法相比，F1成绩提高8%2. 相关工作视频时间分割时间分割旨在根据视频的内容或主题生成小片段，当视频较短或场景变化易于检测时，这很容易实现在电影片段中。之前的作品主要集中在短视频上1https://www.behance.net/liwww.example.com或具有清晰场景变化的视频，这便于手动标记大量视频作为监督学习的训练集[36，61，84，48，22，62，2]。动作、镜头和场景分割视频中的时间动作分割已被广泛探索[74，83，38，23，37，59，76]。然而，这些视频镜头边界检测任务也非常相关，并且已经在许多以前的作品中进行了探索[28，66，29，3]，其中镜头由视觉变化定义。然而，在直播视频中，片段不仅仅由视觉信息定义，语言中包含的主题也有助于每个片段的定义。视频场景检测是最相关的任务。然而，以前的方法仅使用视觉信息来检测场景变化[52，56，57，11，81]，因此这些方法也不能直接用于直播视频。无监督方法最近，无监督方法也被探索用于视频时间分割。[34]提出将多个特征源与块和步幅融合合并以分割视频，但使用的数据集仍然是短视频[26，64]。[20]使用Livestream视频作为素材。然而，他们使用内部软件使用作为分割参考，这对于大多数视频不可用，使得他们的方法受到高度限制。因为对于大多数视频，我们只能访问视觉和音频/语言元数据。总结虽然以前的模型已经显示出合理的结果，他们仍然遭受一些缺点。大多数工作针对场景变化清晰的短视频，而不是长视频，并且只使用视觉信息，而忽略其他领域，如语言。由于MultiLive数据集中Livestream视频的特点，单纯依赖视觉特征的方法无法获得准确的结果，因此需要采用多模态方法来融合视觉和语言信息。3. MultiLive数据集我们从Be- hance2引入了一个大型的Livestream视频数据集，其中包含用于展示和发现创意工作的Livestream视频。该数据集包括视频ID、标题、视频元数据、从音频信号中提取的转录元数据（由MicrosoftASR [77]）、偏移量（时间戳）、每个句子的持续时间等。整个数据集包含11，285个直播视频，总时长为15，038.4小时，平均每个视频的时长为1.3小时。全文共8，001，901个句子，平均每个句子都有一个句子。2https://www.behance.net/liwww.example.com5190每个视频的年龄记录长度为709句。(An附录中列出了示例成绩单。）数据集的详细统计数据见表1和表2。从表1和表2中可以看出，大多数视频的时长都在3小时以内，大多数视频此外，我们在图2中显示了视频长度分布和转录本长度分布的直方图。表1.Livestream视频持续时间的分布视频持续时间Number百分比0-1小时4,82742.774%1-2小时2,94526.097%2-3小时2,52322.357%3-4小时7056.247%4-5小时2101.861%5-6小时700.620%6-7小时110.097%表2.转录本长度的分布转录物长度Number百分比0-5005,51248.844%500-1,0002,29920.372%1,000-1,5001,89016.748%1,500-2,0009898.746%2,000-2,5003653.234%2,500-3,0001181.046%3,000-3,500840.744%3,500-4,000350.310%4,000-4,500120.106%4,500-5,00030.027%图2. MultiLive视频长度分布和转录长度分布的直方图（y轴：视频数量）。此外，为了评估的目的，我们提供了1,000个视频的人类注释，其中分割边界由人类注释者手动注释以进行评估。人类注释者被要求观看和理解整个视频，并基于他们对视频内容的理解将每个视频分割成几个片段。目前 1,000 个视频的注释包括来自 AmazonMechanical Turk 3的10名注释者（已将注释者分成小组，每组观看部分视频，然后一起讨论分割结果，以确保所有注释者都同意注释的质量。3https://www.mturk.com/他们被要求更加注意话题的变化，w.r.t.直播间里的主播一开始聊别的话题。表3.MultiLive与现有数据集的比较统计MultiLive[26]第二十六话[64]第六十四话OVP[6]标记的视频1,000255050Ave.长度（min）78分钟2.4分钟4.2分钟I·5minsAve.场景编号8.85.152.28.8Ave. 单反(min/场景）8.860.470.080.17Ave. SD0.070.220.190.35在时间分割或视频摘要任务中有几个广泛使用的视频数据集[26，64，6]，表3显示了我们的数据集与其他数据集的比较。其他人的标记视频数量不到50个，而我们为1，000个视频提供人工注释。我们数据集中视频的平均长度比其他视频长得多，而片段的数量与其他视频的数量级相同，甚至更小。其效果是，Livestream数据集的平均SLR（场景长度比）要大得多，其中平均SLR（场景长度比）可以被认为是表示视频中每个场景的平均长度的度量，通过（平均长度/平均长度）计算场景编号）。因此，比率越大，每个片段中包含的内容越多，导致更难找到片段边界。图3.（a）直播视频的视觉特征;（b）TVSum视频的视觉特征，其中不同的颜色表示一个视频内的不同片段。为了更准确地理解直播视频的视觉信息，我们比较了从一个示例直播视频和一个示例TVSum视频中提取的视觉特征[64]。我们从原始视频序列中提取视频帧，使用ResNet50模型[30]（在ImageNet上预先训练）提取每个视频帧的视觉特征，并采用t-SNE[69]来可视化视觉特征。图3（a）示出了实时流视频的视觉特征分布，具有相同标记“o”的不同颜色表示不同片段，总共十个片段。我们可以发现，属于不同段的特征点混合在一起，因此很难分离。至于TVSum的视频结果在图。3（b），不同5191∗SSS颜色或不同的标记这证明了我们的说法，即直播视频包含更多的噪声视觉信息，使得通过trans-mapping方法进行时间分割变得更加困难。表4.比较不同类型的视频。统计ASR WERUSR电影语料库[70，71]0.010.126电影对话语料库[1]0.010.139MultiLive0.050.458表4还显示了我们的Livestream数据与电影数据集的比较[70，71，1]，这些数据集是从IMDB和TMDB收集的，以强调Livestream视频和电影之间的差异。表4显示了直播视频我们进一步使用层次聚类，以分组的框架的基础上的视觉特征和生成的树状图。如图4、如果只使用视觉特征，则时间戳上相距较远的视频帧仍然可以被聚类到同一组。它支持这样的主张，即仅使用视觉信息不足以生成准确的时间分割结果，因为视觉域缺乏足够的信息。因此，应该探索其他领域的功能，以提供更多的信息。图4. 通过视觉特征的分层聚类得到的一个直播视频的树状图结果，其中底层以下的数字表示属于相应子树的图像的数量为了显示有代表性的比较，我们计算了帧级平均距离（ave. SD）在我们的MultiLive数据集和SumMe、TVSum和OVP数据集的分段之间。结果示于表3中。在每个视频段边界上的两个相邻帧（第i段的最后一帧和第（i+ 1）段的第一帧）上计算距离，并且平均结果可以显示平均视觉差异比较。如表3所示，我们可以发现Ave。MultiLive数据集的SD远小于平均值。其他数据集的SD，这可能是一个代表性的指标，证明直播视频4. LiveSeg：无监督的多模态实时视频分割TSLLV任务（长直播视频的时间分割）旨在基于主题准确地和时间地分割直播视频。由于没有分段标签，并且手动标记大量长视频非常耗时，因此我们采用无监督方法对Livestream视频进行时间分割。整个框架如图所示五、给定一个直播视频，我们的目标是在时间上将视频分割成[S1，S2，...，S k]，其中k是分段的数量。唯一可用的材料是录像（视觉输入）和文字记录（语言输入）。每个待分割的视频的片段的数量不是预先给定的。4.1. LiveSeg框架LiveSeg模型从视觉领域和语言领域获取输入。对于视觉特征，我们对视频帧[f1，f2，...，其中n是时间戳（每秒一帧以降低计算复杂度）。然后我们使用在ImageNet [58]上预训练的ResNet-50 [30]来提取视觉特征（指纹）V1= [V11，V12，.，V1n]，其中视觉指纹表示视频内容。对于语言特征，由于抄本与视频帧在时间上不完全对齐，我们首先将抄本句子分配给相应的视频帧。如果在几个句子或几个帧之间存在重叠，则我们以相应的方式复制它们，并为时间轴中的每个采样帧制定帧-转录本对。由于帧是通过一秒的时间窗口采样的，因此转录本也与每个时间窗口对齐如果一个转录句子Ti对于给定的窗口没有结束，意味着语言与两个附加时间窗口重叠，那么我们将把这个句子Ti分配给时间窗口t和时间窗口t+ 1。然后，我们使用BERT[16]提取句子嵌入，以获得句子级表示 L1=[L11 ，L12，...， L1n]。在我们的公式中使用的嵌入模型是由于记录的模糊性，即，示例如附录所示，在生成语言嵌入之前删除冗余和噪声词（冗余和噪声词是指由于直播主播的说话错误而连续出现三次以上的词之前的工作[41，9，32]利用视觉和语言特征的对齐，启发我们假设应该存在关系和依赖关系5192W图5.LiveSeg框架用于无监督多模态Livestream视频时间分割。视觉和语言特征之间的联系[10，40，72，12，35]发现最优传输在序列到序列学习中显示出巨大的力量。此外，[9，80]发现Gromov Wasserstein距离在测量对应域中的距离时表现出更好的性能。典型相关分析是一种探索不同模态之间相关性的众所周知的方法，由于其识别跨域关系的能力，已在许多先前的工作中进行了研究[4，79，78，25]。[67，44]表明贝叶斯非参数模型在时间分割任务上表现良好，特别是在非监督设置下，这是我们的TSLV任务的良好候选者。因此，我们采用深度典型相关分析[4]来编码分层特征变换的依赖性。该网络通过变换f（V1）将原始视觉特征V1变换为高级视觉特征V2，并通过变换g（L1）将原始语言特征 L1 变换为高级语言特征 L2 。然后，我们计算Wasserstein距离（WD）的高层次的时间视觉特征V2和语言特征 L2 。我们还同时计算了两种不同模式的Gromov Wasser-stein距离（GWD）和典型相关分析（CCA）- tamp，然后使用贝叶斯非参数模型[33]在时间上分割直播视频各部分的详细内容关于WD、GWD和CCA的更多详细信息也可以在附录中找到。Wasserstein距离Wasserstein距离（WD）在最优传输（OT）中引入，这是配准问题的一种自然发散类型，因为它考虑了空间的底层几何形状，并已用于多模态数据匹配和对齐任务[9，80，39，15，27，50]。在欧几里德设置中，OT引入了WD（µ，ν），它测量了在测量值µ和ν之间“置换”点所需的最小努力，其中µ和ν是在经验分布中观察到的值。在我们设置，我们计算视觉特征和语言特征的时间成对Wasserstein距离，考虑每个特征向量表示每个帧或脚本嵌入。视觉特征和语言特征的时间成对工作量编码了同一领域内的时间差异性和一致性。Gromov Wasserstein距离经典OT需要定义跨域的成本函数，当域处于不同维度时，可以尝试实现该成本函数[53]。Gromov Wasserstein距离（GWD）[46]通过比较样本之间的距离而不是直接比较样本本身来扩展OT在我们的框架中，跨领域的计算GWD是捕捉视觉和语言领域之间的关系和依赖关系。CCA和DCCA典型相关分析（CCA）是一种探索两个多变量集之间关系的方法，可以学习两个向量的线性变换，以最大化它们之间的相关性，用于许多多模态问题[4，51，42，7，24，43]。在我们的问题中，我们应用CCA来捕获视觉特征V2l和语言特征L2l的跨域关系。在非线性特征变换的框架中，采用DCCA方法来获得V2和L2使用基于梯度的优化来训练参数以优化该量，方法是将相关性作为反向传播的负损失来更新非线性变换模型[4]。更多详情可在附录中找到。4.1.1贝叶斯非参数模型我们使用分层狄利克雷过程隐半马尔可夫模型（HDP-HSMM）来生成用于建模的视频片段[33，21]，其可以从顺序和时间序列数据推断任意大的状态复杂度5193−···i，j=1|Σ|·| |∼∼S--SSS在附录中介绍了HMM、HSMM及其缺点的更多讨论HDP-HSMM的过程如图所示。六、在该模型中，z i表示段的类别，β表示无限维多项分布，其由GEM分布生成并由 γ 参数化 [47] 。 GEM 表示共同作者Griffiths，Engen和McCloskey，具有所谓的破棒过程（SBP）[60]。概率πi表示转移概率，它由狄利克雷过程生成，并由β[68]参数化：β|γ GEM（γ），π i|α，β <$DP（α，β），i = 1，2，···，∞（1）其中γ和α是狄利克雷过程（DP）的浓度参数。概率分布是通过称为分层狄利克雷过程（HDP）的两阶段DP构建的[68，44]。第i段的类zi由第（i1）段的类和转移概率πi确定。[45，85]，δθ是狄拉克函数。该模型可以写成：θizs−1，s=1，2，···，S（4）Dsg（ωzs），s=1，2，···，S，ωi（5）xt1：tDs+1=zs ，yt1：tDs+1<$F （ θxt ）（6）其中π i是隐藏状态序列zs的分布参数，意味着HDP为HSMM提供了无穷多个状态，Ds是具有分布参数ω的状态序列的长度分布，yts是具有分布参数θ i的观测序列[49]。对于HDP-HSMM模型的参数推断，应用弱极限Gibbs采样算法[33]。弱极限近似将无限维隐藏状态转换为有限维形式，以便隐藏状态链可以根据观测数据进行更新[49]。假设基本分布H（）与观测序列分布F（）为共轭分布，隐态分布g（）为泊松分布，隐态分布与观测序列分布相互独立。我们首先对权重系数β和状态序列分布参数πi进行采样：图6. HDP-HSMM的图形模型在HSMM中，从状态i到j的状态转移概率可以定义为π i，j=p（xt+1=j|x t=i），则转移矩阵可以表示为π={π i，j}| χ|得双曲余切值.β |γ-Dir（γ/S，· · ·，γ/S）（7）π i|α ，β <$Dir （αβ1，··· ，αβ s）j = 1 ，···S（8）然后根据观测数据对观测分布参数θ i和状态持续时间分布参数ω i进行采样。假设观测数据服从多元高斯分布，模型参数θ i=（u i，θi）服从正态-逆态-威沙特分布：NIW（u，u |v0，0，µ0，S0）N（µ |µ0，S0）IW（|v0，v0）X表示隐藏状态的数量。给定特定隐藏状态的观测yt的分布表示为p（yt xt，θi），其中θi表示状态i的发射参数。那么HSMM可以描述为：X s|xs−1 <$π xs−1，d s<$g（ω s），y t|x s，d s<$F（θ xs，d s）其中F（）是一个指数分布族，ds的概率质量函数为p（dtxt=i），g（ωs）表示在持续时间ds上的状态特定分布，ωs表示持续时间分布的先验参数。在HDP中，设Θ是一个可测空间，其上有一个概率测度H，γ是一个正实数，称为浓度参数。DP（γ，H）定义为G的随机概率测度在Θ上的分布。对于Θ的任何有限可测划分，向量分布为有限维狄利克雷分布：KG0<$DP（γ，H），G0=βk δθk，θk<$H，β<$GEM（γ）（3）k=1其中θk为H的分布，βGEM（γ）表示权系数的破棒构造过程。（九）其中φ=u0，S0，v0，0是先验参数，μ0和S0是先验均值和协方差矩阵，v0和0是NIW分布的自由度和尺度。状态持续时间分布是泊松分布，参数ω i服从Beta分布：ωBeta（η0，σ0）。然后我们根据观测数据更新参数[33，19]。4.1.2最终分割边界贝叶斯非参数模型的原始输出包含短段和长段，但短段可能不包含全面的信息，这将是无用的最终结果。所以我们使用了一种基于启发式的方法来将小的部分分组到大的部分中。该方法是直接的，其中参数ls定义了生成的片段的最小长度，如果存在短于ls的片段，则我们计算该小片段与两个相邻片段的视觉和文本相似度，并将该小片段分组为（二）5194−相似度更高的那个由于这些小片段大多是由于直播主播突然放大/缩小或随机聊天与主题无关的东西，这对分割结果影响不大一大块中的一小部分），我们只是使用这个简单的方法来使结果看起来更干净。该方法引入了一个参数ls，定义为生成线段的最小长度，用于将生成的小线段分层分组到较大的线段中，以消除小线段的影响。4.2. 基线方法我们选择了几种强大且具有代表性的基线方法进行比较，其中包括：• 层次聚类分析（HCA）HCA旨在找到由相似性矩阵[17，14]表示的具有不同相似度的离散组，其产生树状图作为中间结果。直播视频设置的距离定义为：d=αbdt+（1αb）df，其中dt是时间戳距离，df是特征内容距离，α b是平衡参数。当对应特征的时间距离较大时，表示内容的特征点被进一步分离。• Soucek等.提出了用于镜头转换检测的TransNet V2模型[65]，该模型也可以生成分割结果，并且比以前的方法[66]表现出更好的性能。• HecateSong等人提出了Hecate模型，用于从视频中生成缩略图、动画GIF和视频摘要[63]，其中镜头边界检测是其中一个步骤。该步骤将用于与其他基线方法以及我们的方法进行比较。• 最优序贯迭代法（OSG）Rotman et al.提出了基于最优顺序分组的视频场景检测算法[56，57]，其中包括找到特征向量之间的成对距离，并通过优化基于距离的成本函数将镜头分割为不相交的组。• LSSRao et al. 提出了局部到全局场景分割框架（LGSS）[52]，该框架使用ResNet 50，Faster-RCNN [55]，TSN [73]和NaverNet [13]提取的多个特征。时间分割步骤基于PySceneDetect [8]。5. 实验和结果5.1. MultiLive数据集上的时间分割对于 Livestream 视频，原始视觉特征维度为 2 ，048，原始语言特征维度为384，由Huggingface4中的预训练BERT模型提取。4https://huggingface.co/对于DCCA执行的分层转换，网络架构和参数见附录。在我们的实验中，我们将ls设置为1分钟。为了进行公平的比较，我们还将第4.1.2节中的后处理步骤应用于所有基线。由于实时流视频的特性，视频帧和抄本与片段不完全对齐此外，由于人类偏好，不同的人对同一视频的分割不同，这也需要考虑。我们使用第4.2节中的基线方法和MultiLive数据集上的LiveSeg方法我们在1,000个带注释的视频上评估了不同方法的性能。基线方法、我们的方法和人类注释对一个Livestream视频的比较结果如图所示。7.第一次会议。我们可以看到，场景转换检测方法将生成不准确的片段，因为对于Livestream视频，视觉变化是嘈杂的。然而，如果简单地提高聚类阈值，会遗漏许多重要的边界。与现有的方法相比，我们的结果是更准确的，可以与人类的注释。图7. 从上到下，通过不同方法比较边界候选：（1）HCA[14]，（2）TransNet V2 [66]，（3）Hecate[63]，（4）OSG[57]，（5）LGSS[52]，（6）我们的（LiveSeg），以及(7)人类注释。表5.分割结果的比较方法主干模态精密度召回F1得分HCA[14]HCA视觉0.4820.4870.484[66]第六十六话ResNet-18视觉0.5360.5250.530赫卡泰[63]OSG[57]LGSS[52]集群DPBi-LSTM目视检查视觉0.5390.5740.5870.5330.5570.5810.5360.5650.584LiveSeg-VisualLiveSeg-LanguageLiveSegLiveSeg视觉语言0.5910.5890.6660.5680.6260.578LiveSeg-Multimodal LiveSeg Multimodal0.673 0.697 0.685为了定量分析，引入了容许区间ωt。在该区间的每个位置判断分割的正确性：如果算法在区间中声明边界而区间中不存在参考边界，则声明错误警报，如果算法在区间中不声明边界而区间中存在参考边界，则声明未命中[18]。在我们的实验中，我们将ωt设置为1分钟，并采用精确度、召回率和F1分数指标来比较我们的结果与人类注释的性能。如表5所示，我们的细分结果优于其他基线结果。此外，考虑到模态，多模态分割优于单一模态结果，表明5195在视觉域和语言域之间学习的关系可以真正有益于时间分割。5.2. 消融研究多个参数可能会对分割性能产生影响，例如容许区间ωt和贝叶斯非参数模型中的参数。我们对具有多模态特征的不同参数的影响进行了几次消融实验，结果如表6和图8所示。由于页数限制，附录中显示了更详细的结果。图8. 不同参数下的分割性能（红色：精密度;蓝色：回忆;绿色：F1-评分）。表6.不同间隔ωt的性能比较。ωt精度召回F1得分0.5分钟0.6080.6720.6271.0 min0.6730.6970.6851.5分钟0.6050.6660.6212·omin0.6000.6590.6152.5分钟0.5980.6530.6103.0分钟0.595 0.647 0.605我们还提供了不同组件的消融研究，因为仅使用WD与LiveSeg-Visual和LiveSeg-Language相同，所以我们提供了GWD和CCA的其他消融研究结果在表7中，我们可以发现，将所有这些组件组合在一起（LiveSeg-Multimodal）可以获得比仅使用其中一个组件更好的性能。表7.不同组件的消融研究精度召回F1得分GWD0.6220.6730.646CCA0.6030.6540.615WD（实时视频）0.5910.6660.605WD（LiveSeg-Language）0.5890.5680.6065.3. 与其他数据集的此外，我们在著名的视频摘要基准数据集SumMe上将我们的方法与最先进的无监督视频摘要方法[5]进行了[26][27][28][29][29] 我们使用了相同的基于关键片段的方法进行评估[82]，其中机器生成的和用户定义的地面实况摘要之间的相似性通过使用F分数。对于给定的视频和机器生成的摘要，该协议将后者与该视频的所有可用用户摘要进行匹配，并计算一组F分数。本实验的更多细节见附录。表8显示了我们的方法与SUM-GAN[5]的F1得分比较，我们的方法在SumMe数据集上仍然可以显示出稍好的结果，在TVSum数据集上显示出竞争性结果，这清楚地证明了我们方法的有效性。表8. 在传统视频摘要数据集上与SOTA无监督基线进行比较。F1得分LiveSeg[5]第五章SumMe51.350.8TVSum60.960.66. 局限性和未来工作当前方法针对长的Livestream视频，其显示出比现有方法更好的性能，因为视觉输入和语言输入的当前设置都是高噪声的然而，在场景变化明显的短视频上，它可能不如监督方法更好地工作，在这种情况下，当大规模标记的训练样本可用时，监督方法可以表现得更好。然而，所收集的训练样本高度限制了这些方法的可生成性和鲁棒性。由于标注大规模长视频耗时且昂贵，因此当前标注结果可以被认为是平均结果，这保证了总体质量，同时可能不会保留个体标注者可能具有不同偏好的性质，这可以用作用户学习材料。在未来的工作中，我们将分别由不同的注释器对相同的视频执行注释，以进行评估和验证，这可以提供人类上限和未来的见解。7. 结论在本文中，我们提出了LiveSeg，一个无监督的多模态框架，专注于时间分割的长实时流视频（TSLLV）的任务，这是以前没有我们收集了一个名为MultiLive的大型 Livestream 视频数据集，并提供了 1,000 个Livestream视频的人工注释以供评估。通过对实验结果的定量分析和人工评价，证明了该模型能够生成高质量的时间段，为实时视频理解任务奠定了基础，并可以扩展到许多实际应用中。确认我们衷心感谢朱家诚、李波和丹尼尔·弗里德的启发和指导。5196引用[1] 电影对话语料库：从原始电影脚本中收集的虚构对话的元数据丰富。[2] 萨蒂亚纳拉亚南Aakur和Sudeep Sarkar。一个用于自我监督事件分割的感知预测框架。2019 IEEE/CVF计算机视觉和模式识别会议，第1197-1206页[3] 萨迪克·H阿卜杜勒侯赛因Rahman bin Ramli，M. IqbalSaripan，Basheera M. Mahmmod，Syed Abdul RahmanAl- Haddad，and Wissam A.贾西姆镜头边界检测的方法和挑战：审查. 熵，2018年第20期。[4] 加伦安德鲁河杰夫·阿罗拉比尔梅斯和凯伦·利维斯库深度典型相关分析。2013年，《国际反洗钱法》[5] 埃夫兰皮奥斯Apostolaic，E.亚历山德罗斯？阿达曼蒂杜梅采，瓦西略斯·梅扎里斯和我。帕特雷Ac-sum-gan：用于无监督视频摘要的连接演员-评论家和生成对抗网络。IEEE Transactions on Circuits and Systems forVideo Technology，31：3278[6] SandraAvila，AnaPaulaBrand aPilloLopes，AntoniodaLuz和ArnaldodeAl buquerqueAra u'jo。Vsumm：一种用于生成静态视频摘要的机制和一种新颖的评估方法。模式识别。Lett. ，32：56[7] 包兰清，邱洁琳，唐昊，郑伟龙，卢宝良。从脑电及眼动讯号探讨五种情绪分类的性别差异2019年第41届IEEE医学和生物学学会（EMBC）工程国际年会，第6746- 6749页[8] 布兰登·卡斯特拉诺智能场景切割检测和视频分割工具。https://bcastell.com/projects/PySceneDetect/，2021.[9] 陈立群，甘哲，程宇，李林杰，劳伦斯·卡林，刘晶晶。用于跨域对齐的最佳传输图。 ArXiv ，abs/2006.14744，2020。[10] Liqun Chen ， Yizhe Zhang ， Ruiyi Zhang ， ChenyangTao ， Zhe Gan ， Haichao Zhang ， Bai Li ， DinghanShen，Changyou Chen，and Lawrence Carin.通过最优传输改进ArXiv，abs/1901.06283，2019。[11] 陈世兴，聂晓涵， David D.Fan ， Dongqing Zhang ，Vanguo Bhat，and Raffay Hamid.镜头对比自监督学习场景边界检测。2021 IEEE/CVF计算机视觉和模式识别会议（CVPR），第9791-9800页[12] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter ：通用图像 - 文本表示学习。在ECCV，2020年。[13] 郑俊善Naver在activitynet挑战赛2019-任务B主动扬声器检测（ava）。ArXiv，abs/1906.10555，2019。[14] 诉 Cohen-Addad 、 Varun Kanade 、 Frederik Mallmann-Trenn和C.马修层次聚类：目标函数和算法。在SODA，2018年。[15] 皮纳尔·德迈奇，丽贝卡·桑托雷拉约翰·桑斯泰德，威廉·斯塔福德·诺布尔，和里坦巴拉·辛格。格罗莫夫-Wasserstein优化运输，以对齐单细胞多组学数据。bioRxiv，2020.[16] J. Devlin，Ming-Wei Chang，Kenton Lee，and KristinaToutanova. Bert：用于语言理解的深度双向变换器的预训练。在NAACL-HLT，2019年。[17] B. Everitt和A.斯克朗达尔比较剑桥统计词典。S. everitt -9780521766999 - cam-bridge大学出版社。2010年。[18] 乔纳森·G乔治·菲斯库作者：John S. Garo- folo，和AlvinF.马丁Nist 欧洲语，1999年。[19] 艾米莉湾狐狸.复杂动力学现象的贝叶斯非参数学习。2009年[20] C. 艾莉·弗雷泽，乔伊·金，希戎·申，乔尔·勃兰特和米拉·唐切娃。创意直播流的时间分割。2020年CHI计算机系统人为因素会议论文集，2020年。[21] 丹尼尔·弗里德、让-巴蒂斯特·阿莱拉克、菲尔·布伦索姆、克里斯·戴尔、斯蒂芬·克拉克和艾达·内马特扎德。学习从观察和叙述中分割动作。在ACL，2020年。[22] 安东尼·弗纳里，巴蒂亚诺·巴蒂亚托，乔瓦尼·玛丽亚·法里内拉。个人位置为基础的时间分割自我为中心的视频生活日志应用。视觉传达和图像表示杂志，52：1[23] 高占宁，王乐，张麒麟，牛振兴，郑楠宁，华刚.用于未裁剪视频中时间动作检测的视频印记分割。在AAAI，2019年。[24] 龚云超，柯启发，迈克尔·伊萨德，斯韦特兰娜·拉泽布尼克.一个多视图嵌入空间，用于建模互联网图像，标签及其语义。International Journal of Computer Vision，106：210[25] 郭晨峰和吴东瑞基于典型相关分析（cca）的多视图学习：概述。ArXiv，abs/1907.01693，2019。[26] MichaelGygli、HelmutGrabner、HaykoRiemenschneider和Luc Van Gool。从用户视频创建摘要2014年，在ECCV[27] William Han，Jielin Qiu，JiaCheng Zhu，Mengdi Xu，Dou-Jian Weber，Bo Li，and Ding Zhao.语言与脑电跨域比对的实证ArXiv，abs/2208.06348，2022。[28] Ahmed Hassanien，Mohamed A.艾哈迈德？埃利加里卜S. Se-leim，Mohamed Hefeeda，and Wojciech Matusik.利用时空卷积神经网络进行大规模、快速、准确的镜头边界检测。ArXiv，abs/1705.03281，2017年。[29] Eman Hato和Matheel Emadullian Abdulmunem。基于表面特征的视频镜头边界快速检测算法。2019年第

下载后可阅读完整内容，剩余1页未读，立即下载