快速无监督动作边界检测用于动作分割

16 浏览量更新于2023-10-26 收藏 12.87MB PDF 举报

相似性检测

聚类算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

��1��2��3��4��1��2��333230快速且无监督的动作边界检测用于动作分割0西北工业大学计算机科学学院，中国西安7100720摘要0为了处理每天产生的大量未修剪视频，我们提出了一种通过检测边界来实现高效的无监督动作分割方法，称为动作边界检测（ABD）。特别是，所提方法具有以下优点：无训练阶段和低延迟推断。为了检测动作边界，我们估计平滑帧之间的相似性，这些帧在动作内部具有内部一致性和动作之间的外部差异性。在这种情况下，我们成功地将边界检测任务转化为基于相似性的变点检测。然后，在局部窗口中进行非极大值抑制（NMS），选择最小点作为候选边界。此外，我们还采用聚类算法来改进初始提案。此外，我们还将ABD扩展到在线设置，实现对长时间未修剪视频的实时动作分割。通过在四个具有挑战性的数据集上评估，我们的方法达到了最先进的性能。此外，由于ABD的高效性，与现有的无监督方法相比，我们在准确性和推断时间之间取得了最佳的平衡。01. 引言0每天有数夸字节的视频上传到云端或边缘存储进行处理。高效地分析这些未修剪视频的内容是实现实际部署的重要步骤，这在从视频检索到监控分析等各种应用中都有广泛的应用[9, 27, 33,46]。由于大规模数据集的引入和深度神经网络的发展，监督动作分割取得了巨大的进展[12, 21, 26,43]。然而，构建完全监督的学习模型需要手动数据标注，这是一个缓慢、昂贵且容易出错的过程。因此，无监督动作分割变得越来越受欢迎。由于视频的时间连贯性，在从长时间未修剪的视频中分割动作时，人们会首先关注检测动作边界。0削黄瓜0切番茄0相似性0�� 与 �� +1 的相似性0切黄瓜0变点0图1.我们方法的概述。��表示第�帧的平滑特征，��表示第�个检测到的边界。我们观察到基于平滑帧特征计算的帧间相似性呈“�”形曲线。可以通过检测相似性曲线上的变点直接确定动作边界。0并将相邻时间边界之间的帧作为一个动作实例。基于这一观察，我们提出了一种有效和高效的无监督动作分割方法，通过检测动作边界来实现，称为动作边界检测（ABD）。所提方法的概述如图1所示。受到图像处理中的Canny检测器[6]和时间序列中的分割方法[18]的启发，我们提出了一种自下而上的动作分割方法。对于动作分割，理想的特征应在一个动作内保持一致，在不同动作之间不一致。然而，由于遮挡、视角变化或光照变化，一个动作内的特征可能无法像预期的那样严格保持一致。因此，我们首先对原始特征使用平滑滤波器来减弱噪声的影响。此外，与Canny检测器不同，Canny检测器是通过查找图像的强度梯度来找到边界，我们是基于相邻帧之间的相似性来确定时间动作边界提案的。然后，我们在局部窗口内采用非极大值抑制（NMS）并选择最小点作为初始候选动作边界。此外，我们引入了一种自下而上的方法，根据语义分段相似性来改进初始分割结果。已经有几种尝试通过堆叠复杂的神经网络或生成不相关的伪标签来检测动作边界[11, 17, 32,48]。直接依赖于这些方法的性能可能会受到限制。33240基于帧之间相似性的方法更可靠和可解释。我们希望我们的探索能够激发社区重新思考行动分割中特征相似性在行动内部和行动之间的基本作用。我们的方法具有以下优点：1）无需训练。在“自我监督”学习的大伞下，收集了一系列用于弱监督和无监督表示的强大模型，该模型专注于获取可用于监督训练以获得更高级语义特征的伪标签[11, 28, 30, 36,38, 40,42]。然而，不相关的标签对检测结果的贡献有限，训练和转移策略会牺牲模型的泛化能力。相反，我们直接利用原始特征而不进行任何训练，确保了我们方法的鲁棒性和可迁移性。2）快速和最先进。与弱监督和无监督行动分割方法[11,39,42]相比，所提出的方法在模型准确性和推理时间之间取得了最佳平衡。具体而言，我们的方法在四个具有挑战性的数据集上与最先进的方法相比具有竞争力的性能，并显著提高了推理速度。此外，我们的ABD方法还可以进一步扩展到在线设置，实现对未修剪视频的实时行动分割。02. 相关工作0本节回顾了与弱监督和无监督行动分割相关的工作。我们还讨论了与我们的工作相关的序列处理中的其他方法。02.1. 弱监督行动分割0弱监督方法可以分为转录和集合约束两类，其中前者知道行动的标签和顺序[5, 11, 15, 22, 23, 28, 36,42]，后者只知道行动的发生[13, 29, 31,37]。Kuehne等人[22]根据隐马尔可夫模型（HMM）和高斯混合模型（GMM）迭代生成和细化伪标签。一些方法[11, 23,36]用循环神经网络（RNN）替换了GMM，但仍然迭代地细化伪标签。Richard等人[38]提出了一种基于Viterbi损失的学习算法，可以通过直接利用转录进行在线和增量学习。Souri等人[42]最近提出了一种基于双分支神经网络的弱监督行动分割的端到端方法，并引入了一种新颖的互相一致性损失来强制两个冗余表示的一致性。对于集合约束监督，Li和Todorovic[29]提出了一种集合约束的Viterbi算法（SCV）来生成MAP预测，该算法用于0在HMM训练中，将其作为逐帧伪标签。SCT[13]将视频分割为较小的时间范围，并为每个区域预测行动标签及其长度。引入了一种锚约束的Viterbi算法（ACV）[31]来生成伪标签，其中锚点表示从给定的真实标签集中估计出的每个行动的显著部分。02.2. 无监督行动分割0无监督行动分割方法可以分为两组：第一组[24, 30, 38, 40,45]针对相同活动的一系列视频全局解决时间行动关系。第二组[1,39]通过检测边界变化实现基于单个视频的行动分割。Kukleva等人[24]提出了连续的时间嵌入，以强制相似时间阶段的帧聚类，然后结合基于Viterbi解码的帧到聚类的分配。ASAL[30]训练一个RNN来识别正面和负面的行动序列。使用HMM来建模行动长度，并使用Viterbi算法来推断MAP行动分割。LSTM+AL[1]使用LSTM微调预训练模型，使用未来帧预测作为监督来学习帧嵌入。TW-FINCH[39]引入了一种时间加权的分层聚类算法来对视频的语义一致帧进行分组。然而，构建所有成对的相关性会带来巨大的计算量。02.3. 其他0我们的方法还与变点检测算法[2, 14, 34,44]和时间序列分割方法[16, 18-20,35]相关，这些方法主要通过高计算成本的回归来分割时间序列。此外，镜头边界检测（SBD）[4,41]旨在自动检测视频中的镜头边界，与我们的方法也相关。大量的异常检测算法[8]也与我们的方法进行类似的过程。在时空维度上，动作在动作内部具有一致性，在动作之间具有外部差异性。基于这一观察结果，我们提出了一种直观而有效的方法，根据相邻帧之间的相似性来检测动作边界。03. 方法0给定具有 N 帧的视频 X = { x 1 , x 2 , . . . , x N}，动作分割的目标是将这些帧分组为 K 个聚类，其中 K是动作类别的数量。在本节中，我们首先详细介绍帧之间的相似性。然后，我们展示如何基于相似性检测时间边界。此外，还提出了一种聚类算法St =xt · xt+1xtxt+1 .(1)gt =t+k�i=t−kW(xt, xi)xit+k�i=t−kW(xt, xi),(2)̸33250相似性0时间0(a) 相邻帧之间的相似性，即 x t 和 x t +1，其中 x 表示原始特征。0相似性0时间0(b) 平滑帧之间的相似性，即 g t 和 g t+1 ，其中 g 表示平滑特征。0图2. 在50Salads[43]的rgb-19-1中帧之间的相似性。不同的颜色代表地面真实值中的不同片段。最佳观看效果为彩色。0用于改进检测到的片段。此外，我们还将我们的方法进一步扩展到在线设置中。03.1. 帧之间的相似性0如第1节所述，理想的特征应在动作内保持一致，在边界上保持不一致。与Canny检测器不同[6]，它计算灰度图像中的强度梯度以检测边界，我们直接计算相邻帧在时间维度上的余弦相似度，其公式为0为了更好地理解这个公式，我们在图2a中进行了可视化。我们发现很难检测到动作边界，因为 x t 和 x t +1之间的相似性在整个时间维度上变化很大。我们推测这是因为由遮挡、视角或光照变化引起的困难帧导致了动作内的不一致性。与Canny检测器使用高斯滤波器平滑图像并防止噪声引起的误检测类似，我们在时间维度上进行平滑滤波器以减轻动作边界检测中的噪声。我们可以使用平均或高斯滤波器，其公式为0其中 W 是大小为 (2 k + 1)的滤波器核。因此，帧之间的相似性可以由 g t 和 g t +1之间的相似性替代。如图2b所示，每个片段的相似性曲线呈“ �”的形状。因此，动作边界可以从变点中找到，即局部发生显著变化的点。此外，从另一个角度来看，平滑操作允许 gt 以多个相邻帧来表示。由于建立了相关性0通过对帧组进行缓动而不是单个帧，可以以更健壮和更平滑的方式建立相似性。03.2. 动作边界检测0直观地，动作边界很可能与变化点重合，这些变化点指示了动作的剧烈变化。然而，如图2b所示，要在这样一个粗糙的曲线中找到边界仍然不容易。具体来说，我们需要避免在动作实例内部的伪边界（蓝色矩形）和抑制靠近真实边界的模糊响应（红色圆圈）。为了解决这些边界附近的虚假响应，我们利用NMS算法来减少它们，即在相似性中选择非最小值。具体来说，我们沿着时间维度在局部窗口中进行NMS，并选择最小的点作为候选边界。局部窗口的长度L将在实验中讨论。此外，蓝色矩形图2b中的伪边界主要是由于动作内的小变化引起的。为了处理这些虚假响应，我们提出了一种自下而上的细化方法来聚类这些段。03.3. 细化0在检测到边界之后，我们获得候选动作边界B = {b1, b2, ...,bM}，其中bM =N。因此，视频被分成M个段。然而，M始终大于动作标签的数量K，这主要是由于动作中的伪边界引起的。此外，多次发生的动作也可能导致这个结果。因此，我们提出了一种自下而上的细化方法，进一步将段聚类到K个类别。首先，我们通过对每个段内的特征进行平均来初始化段特征。视频可以表示为Pi = {ˆx1, ˆx2, ...,ˆxM}，其中ˆxm是第m个段的特征。然后，我们通过计算成对距离来计算相似性矩阵。0S(i, j) = ˆxi ∙ ˆxj0||ˆxi||||ˆxj||。(3)0值得注意的是，M << N。与TW-FINCH[39]计算每对帧之间的相似性不同，计算段间相似性仅导入可忽略的计算成本。选择具有最大值的条目Sij（i ≠j），并将相应的ˆxi和ˆxj视为最相似的段，将它们合并以生成具有ˆxi和ˆxj的平均值的新段。我们重复合并过程，直到动作标签的数量减少到K。所提出算法的主要步骤如算法1所示。0讨论。与[39]不同，我们的工作不关注时间距离，而是计算语义和时间距离。对于[39]中使用的逐帧聚类，它计算了语义和时间距离。33260算法1 细化0输入: 动作标签的数量K，视频X = {x1, x2, ...,xN}和边界候选B = {b1, b2, ..., bM}。0输出: 分区PK。01: 初始化分段特征 Pi = {ˆx1, ˆx2, ..., ˆxM}，使用X和B。02: while分段Pi的类别数大于K do 3:通过公式（3）计算段特征之间的相似性矩阵。04: 检测最相似的链接 (i, j)。05: 更新Pi中的标签并合并相应的特征ˆxi，ˆxj。06: 结束循环0打破时间一致性并导致严重的过分分割错误，使用时间调制相关性来合并这些过分分割的段。然而，这种策略更关注相邻帧，并不能聚类属于同一动作类别的远程段。相比之下，我们的方法通过检测边界来分割视频，使用NMS成功避免了过分分割。在语义相似性矩阵上执行聚类算法可以有效地将相似的段分组，即使它们在时间上相距较远。03.4. 在线动作边界检测0在线动作分割对于实时视觉应用非常重要，例如摄像头监控和自动驾驶。我们方法的局部特性使其易于以在线方式自适应更新。对于离线动作分割，如先前的文献[24, 30, 39,45]，我们将动作标签的数量K作为先验知识进行改进。然而，在在线设置下，无法知道动作标签的数量是不可行的。因此，我们提出了一种在线ABD方法，可以在长时间未修剪的视频中实现实时动作分割。首先，我们仅使用前面的帧对特征进行平滑处理，即gt通过{x t-k, x t-k+1, ..., xt}进行平滑处理，并根据第3.1节中的陈述计算平滑帧之间的相似性。然后，我们基于相似性检测动作边界。与离线ABD一样，我们仍然在局部窗口内执行非极大值抑制，以抑制靠近边界的冗余响应。请注意，窗口现在以帧(t-L/2)为中心，将几帧堆叠成一组，并在线处理它们。对于动作内的伪边界，我们不再按照第3.3节中的步骤进行处理，因为动作标签的数量K是未知的。相反，我们选择一个阈值来过滤掉具有较高相似性值的边缘帧，并保留具有较小相似性值的边缘帧。由于相似性在不同的视频和数据集中可能变化很大，因此不可能0设置一个固定的阈值。为了避免与需要复杂调整的经验阈值纠缠不清，我们将其自适应地设置为时间t之前相似性的下四分位数。考虑到只有一小部分帧接近边界（这会导致相似性较低），这种设置在过滤掉弱边界方面效果很好。04. 实验0数据集。为了评估我们的方法的性能，我们在四个具有挑战性的数据集上进行了实验：Breakfast[21]，YouTube教学视频[3]，Hollywood Extended[5]和50Salads[43]。Breakfast包含1712个视频，长度从几秒钟到几分钟不等。该数据集包含48种不同的早餐制备动作，每个视频平均有6.9个动作。YouTube教学视频包含150个视频，平均长度约为2分钟。该数据集包含5个活动，包括制作咖啡、心肺复苏、跳车、更换车胎和种植植物。背景的比例约为63.5%，是这四个数据集中最大的比例。HollywoodExtended有937个视频序列，总共约有80万帧。视频包含16个不同的类别，每个视频大约有2.5个动作实例。大约有61%的背景帧。50Salads包含4.5小时的不同人制作沙拉的视频，每个视频平均有1万帧。我们评估了两个不同的动作粒度级别，分别包括19个和12个动作类别[43]。特征。为了公平比较，我们使用与[13, 24, 39,40]相同的特征，即改进的稠密轨迹（IDT）的逐帧Fisher向量[47]（Breakfast、Hollywood和50Salads）和局部光流直方图（HOF）描述符[25]（YouTube教学视频）。评估指标。由于我们的方法输出与地面真实标签没有特定对应关系的时间边界，我们需要在输出和地面真实标签之间建立一对一的映射关系。根据匹配段之间的重叠，我们使用匈牙利算法生成这个映射关系，与[1, 24, 39,40]一样。由于我们的方法不涉及段标签，我们像[1,39]一样在视频级别上进行这个映射。我们还报告F1分数和所有数据集的帧均值（MoF），这与之前的工作[24]中使用的评估指标相同。对于HollywoodExtended的评估，我们报告Jaccard指数作为交并比（IoU）的额外测量。实现细节。与大多数现有方法[24,39]评估每个活动的地面真实类别数不同，我们的方法对活动的约束较少。因此，使用参数K33270早餐0弱监督的MoF0NN-Vit. [38] 43.0 MuCon [42] 48.5 CDFL [28] 50.20无监督的匈牙利F1 MoF0CTE [24] 活动 26.4 41.8 VTE-UNET [45] 活动 — 48.1ASAL [30] 活动 37.9 52.50Equal Split [39] 视频 — 34.8 LSTM+AL [1] 视频 — 42.9TW-FINCH [39] 视频 49.8 62.7 我们的ABD 视频 52.3 64.00表1. 与早餐的最新技术比较。破折号表示“未报告”。0本文中的平均动作类别数是特定数据集的平均动作类别数。我们稍后还将讨论K的设置。04.1. 与最新技术的比较0早餐。在表1中，我们报告了与早餐的最新方法的性能比较。除了无监督方法外，我们还与几种监督和弱监督方法进行了比较，这些方法可以作为我们方法的上界。ABD优于所有无监督方法。与Equal Split[39]相比，我们的ABD在定位动作边界方面取得了显著的改进。与TW-FINCH[39]相比，我们的ABD仍然表现出更好的性能。同样，我们的方法在很大程度上优于弱监督方法。此外，为了与基于活动级别的匈牙利方法进行公平比较，我们假设动作的顺序是固定的。在这种情况下，我们在F1/MoF指标上分别达到了37.7%/51.3%，这表明我们的方法与强大的ASAL[30]相比仍然取得了有竞争力的结果。利用复杂的相关性可以提高性能，正如ASAL所反映的那样。然而，我们的方法在两个数据集上取得的竞争性能表明，检测边界在动作分割中也起着重要的作用。0YouTube指导视频。我们总结了我们的方法在YouTube指导视频上的性能，如表2所示。为了公平比较，我们从视频中删除了背景帧，就像之前的方法[24，39，40]一样。ABD在MoF上明显优于所有无监督方法，在MoF上相对于TW-FINCH [39]提高了10.5%，在F1上相对于LSTM+AL[1]提高了9.5%。0YouTube指导视频0无监督的匈牙利F1 MoF0Mallow [40] 活动 27.0 27.8 CTE † [24] 活动 28.3 39.0ASAL [30] 活动 32.1 44.90LSTM+AL [1] 视频 39.7 — Equal Split [39] 视频 27.830.2 TW-FINCH [39] 视频 48.2 56.7 我们的ABD 视频 49.267.20表2.在YouTube指导视频的无监督学习中与最新技术的比较。†CTE报告了背景比例为75%的结果。0好莱坞扩展0弱监督的IoU MoF0SCT [13] 17.7 — CDFL [28] 19.5 40.6 MuCon [42] — 41.60无监督的匈牙利IoU F1 MoF0Equal Split [39] 视频 24.6 — 39.6 TW-FINCH [39] 视频35.0 45.7 我们的ABD 视频 36.0 57.1 60.70表3. 与好莱坞扩展的最新技术比较。0由于该数据集中大多数帧都是背景，通过将大多数帧标记为背景可以实现更高的MoF。然而，这种强烈的数据偏差对我们的方法没有显著影响。在考虑背景帧的情况下，我们的方法在MoF指标上仍然达到了44.2%。性能的相对轻微下降表明我们的方法可以处理变化程度不同的背景视频。0好莱坞扩展。如表3所示，我们的方法与现有方法相比取得了显著的进展。特别是，与TW-FINCH[39]相比，我们的ABD在MoF上取得了5.7%的改进。同样，我们的方法在MoF指标上比弱监督方法Mu-Con[42]提高了19.1%。050Salads.不同方法在MoF方面的性能如表4所示。我们根据之前的方法评估性能，考虑两个动作粒度级别。eval动作粒度有12个动作类别，例如加油、切割、放置和混合调味品。我们还在mid动作粒度上评估性能，有19个动作类别，区分了切割番茄和切割奶酪等动作。实验结果表明，我们的方法取得了3328050Salads0弱监督eval mid0RNN-FC [ 36 ] — 45.5 NN-Vit. [ 38 ] — 49.4 CDFL [ 28 ]— 54.70无监督匈牙利0VTE-UNET [ 45 ] 活动 30.6 24.2 CTE [ 24 ] 活动 35.5 30.2ASAL [ 30 ] 活动 39.2 34.40Equal Split [ 39 ] 视频 47.4 33.1 LSTM+AL [ 1 ] 视频 60.6— TW-FINCH [ 39 ] 视频 71.1 66.5 我们的ABD 视频 71.471.80表4.在50Salads数据集上与最先进方法的比较。我们在该表中报告MoF。0在mid粒度上的MoF为71.8%，比最好的无监督方法TW-FINCH [ 39 ]高出5.3%，比弱监督方法CDFL [ 28]高出17.1%。ABD在eval和mid粒度上的F1分数分别为64.2%和59.2%。通常情况下，其他方法在eval粒度上（具有较少的动作类别）表现更好[ 24 , 39 , 45]，这与我们的方法不同。我们认为这是因为我们的方法主要关注动作边界的变化。例如，切割番茄、将番茄放入碗中和切割奶酪是三个连续的动作，我们的方法可以成功地基于检测到的边界分割这三个动作。然而，在eval粒度上，动作切割番茄和动作切割奶酪被认为是同一类切割动作。尽管在一定程度上可以在细化过程中实现，但是细粒度动作的固有特性使得很难将这些动作分组。像TW-FINCH [ 39]这样的聚类算法通过成对匹配来进行聚类，对于聚类这些动作具有优势。然而，对于它们来说，很难确定动作边界，因为它们关注全局相关性，这可以在mid粒度级别实验中反映出来。04.2. K和特征的影响0我们的方法输出具有K个动作类别的结果，考虑到动作的重复。因此，我们论文中使用的K的设置是（a）每个视频的平均动作类别数（例如，早餐使用5）。我们还注意到K的其他几种设置，包括（b）每个视频的平均动作数（早餐为7）；（c）一个活动的总动作类别（ASAL [ 30 ]，CTE [ 24]等）；（d）地面真值的最大数量0K (a) K (b) K (c) K (d) K (e) FV I3D0F1 52.3 48.1 51.3 51.8 54.7 52.3 54.4 MoF 64.0 61.4 63.263.5 64.2 64.0 65.40表5. K和特征对早餐的影响0一个活动的动作类别，这在[ 10]中已经讨论过；（e）每个活动视频的平均动作类别数（TW-FINCH [ 39]）。我们根据表5上的不同设置进行实验。对于基于活动的设置，我们有K (c) ≥ K (d) ≥ K(e)。当将K设置为(c)时，我们的方法仍然具有良好的性能，这是最通用的设置。这表明我们的方法对于K具有广泛的容忍区间。此外，除了FisherVectors（FV），我们还对CNN特征（即I3D [ 7]）进行了实验，结果显示在表5的最后两列中。它表明使用更强的特征提取器可以获得更好的性能。04.3. 高斯滤波器与平均滤波器的比较0特征平滑所使用的滤波器有多种选择（方程（2））。在本节中，我们比较了高斯滤波器和平均滤波器的性能。由于视频长度和动作数量在数据集之间差异很大，我们设置核大小（2 k +1）= α ∙ ( N/K)，稍后我们将讨论α。注意，K在同一数据集的所有视频中保持不变。我们将没有平滑的方法作为基准。实验结果显示在表6的前三行中。我们观察到，两种平滑滤波器中的任何一种方法都明显优于基准方法，这表明特征平滑的有效性。考虑到高斯滤波器和平均滤波器在我们的实验中具有一致的性能，我们在所有实验中使用平均平滑，因为它更高效。04.4. NMS的影响0如第3.2节所述，NMS算法用于抑制冗余边界。我们将我们的方法与不使用NMS的方法进行比较，结果列在表6中（第3行和第4行）。具体来说，我们在局部窗口内进行NMS，并选择最小的点作为候选边界。局部窗口的长度L也等于α∙（N/K）。如表6所示，应用NMS时总能取得更好的性能。例如，我们的方法在50Salads的中等粒度上应用NMS可以取得很大的改进，即F1改进高达8.4%，MoF改进高达11.4%。实验结果表明，NMS可以很好地减少冗余边界，从而减少过分割错误和F143.450.253.252.352.551.549.1MoF59.163.463.764.061.157.055.9Time0.20.050.030.020.020.030.04Table 8. The effect of α. The time is measured as the averageinference time (seconds) for one video.YTIHEMethodF1MoFF1MoFTW-FINCH [39]48.256.7—55.0Online ABD48.660.352.359.2Offline ABD49.267.257.160.7Table 9. Performance comparison of online and offline ABD ondifferent datasets.segmentation accuracy (F1 and MoF) and running time byvarying values of α on Breakfast and the results are shownin Table 8. Inferior accuracy is achieved when α is toosmall or large, arising from redundant or overly-reducedboundaries. Experimental results exhibit promising perfor-mance for a broad wide range α ∈ (0.2, 0.8), indicating thatthe proposed ABD is not sensitive to well-adjusted hyper-parameters. Moreover, fast inference speed can be achievedby keeping a balance between feature smoothing and refine-ment.4.7. Performance of Online ABDWithout knowing prior knowledge K, the online ABDmethod could segment actions based on the video stream-33290早餐 YTI HE FS（评估）FS（中期）0滤波NMS优化F1 MoF F1 MoF F1 MoF F1 MoF F1 MoF01 � � � 42.4 58.3 46.0 63.7 56.1 59.5 60.3 64.0 55.3 59.002 高斯 � � 51.6 63.5 49.1 66.6 56.7 60.2 63.4 70.8 59.8 72.403 平均 � � 52.3 64.0 49.2 67.2 57.1 60.7 64.2 71.4 59.2 71.8 4 平均 � � 41.7 57.3 42.8 60.1 55.6 56.3 53.2 55.0 50.8 60.4 5 平均 � � 49.257.8 43.2 60.8 55.4 57.4 50.7 54.7 59.1 71.206 平均 � 时间 51.8 64.2 47.8 66.4 57.0 60.5 57.4 60.1 59.6 72.20表6. 我们方法在四个数据集上的消融实验。YTI，HE和FS分别是YouTube教学视频，好莱坞扩展和50Salads的缩写。报告了MoF和F1指标。0更高的分割准确性。此外，NMS可以显著减少推理时间，因为需要进行优化的段数更少。04.5. 优化的影响0在第3.3节中，我们介绍了一种聚类算法来优化初始候选段。我们还在四个数据集上比较了我们方法在有和没有优化的情况下的性能。请参考表6中的第3行和第5行进行定量比较。此外，由于时间信息在逐帧聚类方法中起着重要作用[39]，我们还讨论了涉及此信息的情况（表6中的最后一行）。如前所述，我们的ABD基于检测边界来分割动作，并使用优化来聚类属于同一动作类别的段。观察到，当应用聚类算法时，所有数据集都可以取得性能改进，这表明此优化算法可以正确地聚类分割的段。例如，在50Salads的评估级别上，通过优化取得了显著的提升，这与我们的分析一致，即此聚类能够合并细粒度的动作。在考虑时间信息时，在早餐和50Salads（中期）上只取得了微小的改进（不超过1%），然而，在其他数据集上性能略有下降。为了更好地理解这个问题，我们总结了每个动作平均发生的次数，如表7所示。我们发现，当活动大致只在视频中发生一次时，时间信息会起到积极的作用。在这种情况下，属于同一类别的动作在时间上相距较近的情况较少。然而，当一个动作发生多次时，时间信息会产生负面影响，因为它优先考虑相邻的段。04.6. α的影响0滤波器大小（2k+1）和NMS的局部窗口长度L都设置为α∙（N/K），其中α∈（0，1）。我们进行比较0数据集BF YTI HE FS（评估）FS（中期）0数量1.3 2.1 2.0 1.6 1.10表7. 每个动作发生的平均次数。0α 0.1 0.2 0.3 0.4 0.6 0.8 15550MoF/%L10203040506045lower quartilew/o thresholdmedian40Figure 3. Online action segmentation performance in terms ofMoF with varying L on YouTube Instructional Videos.Thesethree curves represent different settings on the threshold.ing before the current timestamp in real-time. We comparethe performance of online ABD and offline ABD on Holly-wood Extended and YouTube Instructional Videos datasets.For evaluation, we use the prediction averaged over all theframes. The results are illustrated in Table 9.We observe that online ABD achieves comparable per-formance compared to offline ABD, and outperforms theoffline model TW-FINCH [39]. In addition, we also explorethe effect of different values of window size L for NMS.Note that the filter size (k + 1) is set equal to L for simi-larity. Experimental results shown in Figure 3 are in accordwith our analysis in Section 4.6, which demonstrates the ro-bustness of the proposed method since the hyper-parametervalues do not have a significant influence on online ABD.Moreover, we show three different strategies for threshold,including no threshold, median, and lower quartile. Thegaps between three curves indicate that pseudo boundarieswithin actions can be greatly reduced by setting the thresh-old as the lower quartile of the similarity before time t.4.8. Run-Time Comparison and Qualitative ResultsThe comparison of run-time between our ABD and otherapproaches is demonstrated in Table 10. All experimentsare conducted on Breakfast split 1, and the inference time isreported for a single video. Every video has around 2,000frames. The time used for feature extraction is not included.We can see that our method avoids hours of model trainingon GPUs. Compared with TW-FINCH [39] for which train-ing is either not required, our approach gets a 8× faster in-ference. Thanks to the fast inference speed and no trainingrequired, our method can be applied to practical applica-tions when plugged with an off-the-shelf feature extractor.Qualitative results by our method are illustrated in Fig-ure 4. One can observe that the offline ABD successfullypinpoints action boundaries, yielding accurate segmentationresults. Especially, as circled in the red rectangles in Fig-ure 4a, our method can accurately cluster actions when theyare temporally distant.GTABD(a) rgb-14-1 in 50Salads.GTABD(b) P12 webcam01 P12 cereals in Breakfast.33300图4.50Salads和Breakfast上离线ABD的定性结果。每一行展示了整个视频的分割结果，不同的颜色代表不同的动作。0监督方法训练（小时）推理（秒）0弱监督CDFL ‡ [ 28 ] 66.73 62.37 MuCon-full ‡ [ 42 ] 4.573.030无监督0CTE [ 24 ] — 217.94 TW-FINCH [ 39 ] � 0.16我们的ABD（离线）� 0.02我们的ABD（在线）� 0.0080表10.训练和推理时间的比较。训练时间是在Breakfast的第1次划分上进行训练的，推理时间是单个视频的平均推理时间。（ ‡ 取

下载后可阅读完整内容，剩余1页未读，立即下载