足球视频中的上下文感知损失函数

53 浏览量更新于2023-10-25 收藏 12.43MB PDF 举报

足球视频

视频理解

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1131260足球视频中的上下文感知损失函数0Anthony Cioppa*0列日大学0anthony.cioppa@uliege.be0Adrien Deli`ege*0列日大学0adrien.deliege@uliege.be0Silvio Giancola*0silvio.giancola@kaust.edu.sa0Bern0沙特阿拉伯国王科技大Droogenbroeck0列日大学Rikke Gade0奥尔堡大学Thomas B. Moeslund0奥尔堡大学0摘要0在视频理解中，动作定位是指通过单个时间戳对人为事件进行时间定位。在本文中，我们提出了一种新的损失函数，专门考虑到每个动作周围自然存在的时间上下文，而不是专注于单个标注帧的定位。我们在大规模的足球视频数据集SoccerNet上对我们的损失进行了基准测试，并在基准上取得了12.8%的改进。我们展示了我们的损失在ActivityNet上对通用活动提议和检测的泛化能力，通过定位每个活动的开始和结束。此外，我们提供了一个扩展的消融研究，并展示了足球视频中动作定位的挑战性案例。最后，我们定性地说明了我们的损失如何引导对动作的精确时间理解，并展示了这种语义知识如何用于自动生成精彩时刻。01. 引言0除了汽车、消费品和机器人应用外，体育被认为是计算机视觉中最有价值的应用之一[54]，年市场收入达到910亿美元[31]，其中仅欧洲足球市场就达到287亿美元[15]。最近的进展帮助提供了理解和分析广播比赛的自动化工具。例如，当前的计算机视觉方法可以定位场地和场线[17,24]，检测球员[12,63]，检测他们的运动[18,40]，检测他们的姿势[7,67]，检测他们的队伍[27]，追踪球的位置[50,56]和摄像机运动[39]。理解空间帧级信息对于增强体育观众的视觉体验[47]和收集球员统计信息[57]很有用，但它缺少更高级别的比赛理解。对于广播制片人来说，深入了解比赛动作非常重要。0(*)表示相等的贡献。代码可在https://github.com/cioppaanthony/context-aware-loss中获得。0图1.上下文感知损失函数。我们设计了一种新的损失函数，利用动作位置周围的时间上下文（在时间偏移为0时）。我们严厉惩罚远离动作的帧，并逐渐减少接近动作的惩罚。我们不惩罚动作之前的帧，以避免提供不确定事件发生的误导信息，但是我们严厉惩罚动作之后的帧，因为动作已经发生。0深入了解比赛动作至关重要。例如，直播制作在特定动作发生时遵循特定模式；体育直播记者对比赛动作进行评论；而精彩时刻制作人通过对比赛中最具代表性的动作进行排名来生成简短摘要。为了自动化这些制作任务，计算机视觉方法应该理解比赛中的显著动作并做出相应反应。虽然空间信息得到了广泛研究并且相当成熟，但是对于当前视频理解算法来说，时间定位动作仍然是一项具有挑战性的任务。131270在本文中，我们针对动作定位挑战，主要应用于足球视频。动作定位的任务被定义为标注有单个时间戳的人为事件的时间定位[21]。这些标注存在固有的困难：它们的稀疏性，动作的起始和结束时间的缺失，以及它们的时间间断性，即相邻帧可能被不同地标注，尽管它们可能非常相似。为了克服这些问题，我们提出了一种新的损失函数，利用了动作周围自然存在的时间上下文信息，如图1所示。为了突出其普适性和多功能性，我们展示了我们的损失如何用于ActivityNet[23]中的活动定位任务，通过定位每个活动的开始和结束。使用在[34]中引入的BMN网络，并简单地用我们增强的上下文感知定位损失函数替换他们的损失，我们在活动提议方面取得了0.15%的改进，从而直接提高了Activi-tyNet[23]上的活动检测0.38%。在大规模的足球动作定位数据集SoccerNet[21]上，我们的网络将平均mAP定位指标从49.7%提高到62.5%。0贡献。我们总结我们的贡献如下。(i)我们提出了一种新的用于时间动作分割的损失函数，进一步用于动作定位任务，该损失函数由来自地面真实动作的帧的时间偏移参数化。(ii)我们通过包含我们的新的上下文损失来改进ActivityNet[23]上最先进方法的性能，通过12.8%改进了SoccerNet[21]上的动作定位基线。(iii)我们提供了关于我们动作定位性能的详细见解，以及用于自动生成亮点的定性应用。02. 相关工作0广播足球视频理解。计算机视觉工具广泛应用于体育广播视频中，以提供足球分析[42,57]。当前的挑战在于理解高级游戏信息，以识别显著的游戏动作[13,60]，执行自动游戏摘要[49,51,61]和报告现场动作的评论[65]。早期的工作使用摄像机镜头来分割广播[16]，或者分析制作模式来识别游戏的显著时刻[46]。进一步的发展利用低级语义信息在贝叶斯框架[25,55]中自动检测显著的游戏动作。已经提出了基于机器学习的方法，将时间上手工制作的特征[5]或深度帧特征[28]聚合到循环网络[44]中。SoccerNet[21]提供了对足球比赛广播中深度帧特征提取和聚合的深入分析，用于足球动作定位。多流网络合并了额外的0光流[10,59]或兴奋度[6,51]信息以提高游戏亮点的识别。此外，注意力模型使用每帧的语义信息，如像素信息[13]或球员定位[32]，提取目标帧特征。在我们的工作中，我们利用围绕动作的时间上下文信息来处理代表这些动作的内在时间模式。0深度视频理解模型是通过大规模数据集进行训练的。早期的工作利用小型自定义视频集，但现在有几个大规模数据集可用并值得一提，特别是用于通用体育视频分类的Sports-1M[30]，用于棒球活动识别的MLB-Youtube[43]，以及用于高尔夫挥杆序列的GolfDB[41]。这些数据集都处理体育中的特定任务。在我们的工作中，我们使用SoccerNet[21]来评估我们的上下文感知损失在足球视频中的动作定位性能。0视频理解。最近的视频挑战[23]包括活动定位，即找到活动的时间边界。在目标定位之后，已经提出了两阶段方法，包括提议生成[9]和分类[8]。SSN[69]使用结构化时间金字塔对每个动作实例进行建模，TURNTAP[20]预测动作提议并回归时间边界，而GTAN[38]通过高斯核动态优化每个动作提议的时间尺度。BSN[36]、MGG[37]和BMN[34]回归活动边界的时间，在ActivityNet1.3[23]和Thu-mos'14[29]数据集上展示了最先进的性能。另外，ActionSearch[4]通过迭代地处理定位任务，学习预测下一个要访问的帧，以便定位给定的活动。然而，这种方法需要人类注释者提供时间序列注释来训练模型，这在ActivityNet之外的数据集中并不容易获得。此外，Alwassel等人[3]将动作点定义为只要它落在活动边界内就是正样本，这比SoccerNet[21]中定义的动作定位要宽松。0最近，Sigurdsson等人[52]对边界的清晰度提出了质疑，并显示人类对于Charades[53]的时间边界的平均tIoU达到72.5%，对于MultiTHUMOS[64]达到58.7%。Alwassel等人[3]证实了ActivityNet[23]上的这种差异，但也表明这并不构成该领域进展的主要障碍。与活动定位不同，SoccerNet[21]提出了一种用于足球动作理解的替代动作定位任务，利用了明确定义的足球规则，为每个动作定义了一个单一的时间锚点。在我们的工作中，我们通过引入一种新颖的上下文感知损失来改进SoccerNet[21]的动作定位基线，该损失在时间上切分了动作点附近的上下文。此外，我们将我们的损失集成到基于边界的方法[34,36]中，用于通用活动定位和检测。131280图2.动作上下文切片。我们定义了围绕每个真实动作的六个时间段，每个时间段在训练网络时在我们的上下文感知损失函数中引入了特定的行为。远离动作和远离动作时，其影响可以忽略不计，因此我们训练网络不预测动作。动作之前刚刚，我们不会影响网络，因为特定的上下文可能会导致动作发生或不发生（即攻击阶段可能导致进球）。动作之后刚刚，其上下文信息丰富且明确，因为动作刚刚发生（即进球导致庆祝）。因此，我们训练网络预测动作。最后，我们定义了过渡区域，使我们的损失函数平滑，在这些区域中，我们以柔和的方式训练网络不预测动作。对于每个类别c，时间段由特定的切片参数Kci界定，并通过我们的时间偏移编码来体现，该编码比初始的二进制定位注释包含更丰富的动作时间上下文信息。03. 方法论0我们通过为时间分割模块开发一个上下文感知损失和为动作定位模块开发一个类似YOLO的损失来解决动作定位任务，该模块输出网络的定位预测。我们首先介绍了用于分割和定位任务的注释的重新编码，然后解释了如何基于重新编码计算这些模块的损失。问题定义。我们用C表示动作定位问题的类别数。每个动作由一个被注释为动作的单帧动作帧标识。给定视频的每一帧都用具有C个分量的独热编码向量（对于动作帧）或具有C个零的向量（对于背景帧）进行注释。NF表示视频中的帧数。03.1. 编码0为了训练我们的网络，初始注释以两种不同的方式重新编码：一种是用于时间分割损失的时间偏移编码，另一种是用于动作定位损失的类似YOLO的编码。时间分割的时间偏移编码（TSE）。我们将每个动作周围的时间上下文切片成与动作之间的距离相关的段，如图2所示。这些段将远离动作、刚刚在动作之前、刚刚在动作之后、远离动作或在这些段之间的过渡区域的帧重新分组。我们在我们的时间分割模块中使用这些段，以便其分割得分反映以下思想：（1）某个类别的动作之前很远，我们无法预见其发生。因此，该类别的得分应表明没有动作发生。（2）动作之前刚刚，我们不会影响网络，因为特定的上下文可能会导致动作发生或不发生（即进攻阶段可能导致进球）。0动作之后，其发生是不确定的。因此，我们不会将得分偏向任何特定方向。（3）动作刚刚发生后，大量的视觉线索可以检测到动作的发生。其类别的得分应反映出动作的存在。（4）动作之后很久，其类别的得分应表明它不再发生。类别c的动作周围的段由四个时间上下文切片参数Kc1 < Kc2 <0 < Kc3 < Kc4界定，如图2所示。0上下文切片用于对视频的每一帧x进行时间偏移编码（TSE），其中x是长度为C的向量，包含关于x与其最近过去或未来动作的相对位置的类别信息。对于类别c的x的TSE，记为sc(x)，是x与其最近过去或未来的类别c的真实动作之间的时间偏移（即帧索引的差异），具体取决于哪个对x的影响更大。如果x刚好在过去动作之后，或者x在过去动作之后的过渡区域，但在未来动作之前很远，或者x在过去和未来动作之间的过渡区域，同时更接近过去动作，则将sc(x)设置为从过去动作的时间偏移。在其他情况下，sc(x)是从未来动作的时间偏移。0如果x既位于过去动作之后又位于未来动作之前，选择两个时间偏移量对我们的损失没有影响。此外，对于位于第一个或最后一个注释的动作之前或之后的帧，只能计算一个时间偏移量，并且因此将其设置为s c(x)。最后，如果视频中没有类别为c的动作存在，则对于所有帧，我们将s c (x) = K c1。这使得我们的损失的行为与它们都位于最近的未来动作之前一样。Lseg =1C NF131290图3.动作检测的流程。我们提出了一个网络，由帧特征提取器和时间CNN组成，每帧输出C类特征向量，一个分割模块输出每类的分割得分，一个检测模块提取每个检测预测的2 +C个值（即检测的置信度得分s，其位置t和每类的预测）。0类似于YOLO的动作检测编码。受YOLO[45]的启发，视频的每个地面真实动作产生一个由2 +C个值组成的动作向量。第一个值是动作的存在（=1）的二进制指示器。第二个值是作为动作注释的帧的位置，计算为该帧的索引除以NF。其余的C个值表示动作的独热编码。我们将包含NGT个动作的整个视频编码为维度为N GT × (2 +C)的矩阵Y，其中每一行表示视频的一个动作向量。03.2. 损失和网络设计0时间分割损失。TSE参数化了下面描述的时间分割损失。为了清晰起见，我们用p表示分割模块输出的帧x属于类别c的分割得分，用s表示x的TSE。我们详细说明了在这种设置下由p生成的损失，记为L(p,s)。首先，根据图2，我们计算L(p, s)如下：0L(p, s) =0− ln(1 − p) s ≤ K c 1 (1)0− ln(1 − K0K c 2 − K c 1 p ≤ K c 1 < s ≤ K c2 (2)0 s < 0 (3)0− ln(s)0K c 3 + K c 3 − s K c 3 p ≤ 0 ≤ s < Kc 3 (4)0− ln(1 − s − K c0K c 4 − K c 3 p ≤ s < K c 4 (5)0− ln(1 − p) s ≥ K c 4 . (6)0然后，为了帮助网络专注于改善其最差的分割得分，我们将满意度足够的得分的损失置零。在方程（4）的情况下，当s= 0时，我们称得分满意度足够时，当它超过某个最大边界τmax时。在方程（1）和（6）的情况下，我们称得分满意度足够时，当它低于某个最小边界τmin时。导致损失为零的p的值范围如下：0在大多数情况下，损失随着s和切片参数的变化而变化。通过在方程（7）和（8）中修正L(p,s)来实现这一点。图1显示了˜L(p, s)的表示。0˜L(p, s) = max(0, L(p, s) + ln(τ max)) 0 ≤ s < K c 3 (7)max(0, L(p, s) + ln(1 − τ min)) otherwise. (8)0最后，给定由x1，...，xN F组成的视频的分割损失Lseg如方程（9）所示。0NF0i = 10c = 1 ˜L(p c (x i), s c (x i)) (9)0动作检测损失。假设Npred是我们的网络为每个视频生成的固定数量的动作检测预测。这些预测被编码在与Y类似的维度为N pred × (2 +C)的ˆY中。我们利用一种迭代的一对一匹配算法将每个NGT地面真实动作与一个预测进行配对。首先，我们将Y∙的每个地面真实位置与ˆY∙中最接近的预测位置进行匹配，反之亦然（即我们将预测位置与最接近的地面真实位置进行匹配）。接下来，我们形成(地面真实，预测)位置的配对，这些位置互相匹配，我们将它们从过程中移除，并迭代直到所有地面真实动作都与一个预测配对。因此，我们构建ˆYM作为ˆY中编码的动作的重新组织版本，使得Yi,2和ˆYMi,2在所有i≤NGT时互相匹配。我们将动作检测损失L定义为方程（10）中的内容。它对匹配的预测与未匹配的预测的置信度得分之间的平方误差的加权求和，并对未匹配的预测进行正则化。0Las =0NGT0j =1 αj(Yi,j − ˆYM i,j)2 +β0Npred0i = NGT +10ˆYM i, 1 − 2(10)0完整的损失。最终损失L在方程（11）中以Lseg和Las的加权和的形式呈现。0L = Las + λsegLseg (11)0动作定位网络。网络的架构如图3所示，并在补充材料中进一步详细说明。我们利用数据集中提供的视频的帧特征表示（例如ResNet），作为图3中帧特征提取器的输出。图3中的时间CNN由一个空间两层MLP组成，后面跟着四个多尺度3D卷积（即跨时间、特征和类别）。时间CNN输出每个帧的C×f个特征，组织成C个特征向量（每个类别一个），大小为f，如下所示：̸131300在[48]中。这些特征被输入到一个分割模块中，我们在其中使用批量归一化[26]和sigmoid激活。通过将这种方式获得的C个向量与预定义向量的接近程度，得到分割模块输出的C个分割分数，如[14]所示。之前获得的C×f特征与C分数连接起来，输入到动作定位模块中，如图3所示。它由三个连续的时间最大池化和3D卷积组成，并输出维度为(Npred)×(2+C)的向量。这些向量的前两个元素经过sigmoid激活，最后的C个元素经过softmax激活。激活后的向量堆叠起来，产生动作定位任务的预测ˆY，维度为(Npred)×(2+C)。04.实验0我们在两种情况下评估我们的新的上下文感知损失函数：SoccerNet [21]的动作定位任务和ActivityNet[23]上的活动定位和检测任务。04.1.在SoccerNet上的实验0数据。SoccerNet由Giancola等人[21]注释了三类动作：进球、罚牌和换人，因此在这种情况下C=3。他们通过一个注释帧来标识每个动作：球越过球门线时的进球瞬间，裁判给球员出示红黄牌的瞬间，新球员进入场地的换人瞬间。我们使用数据集中已提供的帧特征来训练我们的网络。Giancola等人首先以2fps的速度对原始视频进行子采样，然后使用骨干网络提取特征，并通过PCA将其降维到每个子采样视频帧的512个特征。提供了三组特征，分别使用特定的骨干网络提取：I3D [11]，C3D [58]和ResNet[22]。动作定位度量。我们使用SoccerNet[21]中引入的动作定位度量来评估性能。如果动作与其最接近的真实动作的时间偏移小于给定的容差δ，则将其定义为正面动作。根据精确度-召回率曲线估计平均精确度（AP），然后在类别之间进行平均（mAP）。提出了一个平均mAP，作为在从5到60秒不同容差δ范围内的mAP上的AUC。实验设置。我们将网络训练在一批批次的块上。我们将块定义为一组连续的帧特征向量NF。我们设置NF=240，以保持较高的训练速度同时保留足够的上下文信息。这个大小对应于2分钟的原始视频片段。一批次包含从单个原始视频中提取的块。我们在每个地面真实动作周围提取一个块，以便动作在块内随机位置。然后，为了平衡批次，我们随机提取由背景帧组成的NGT /C块。当网络在一个批次上进行训练时，一个时代结束。0方法帧特征0I3D C3D ResNet0SoccerNet基准5s[21] - - 34.50SoccerNet基准60s[21] - - 40.60SoccerNet基准20s[21] - - 49.70Vats等[62] - - 57.50我们的 53.6 57.7 62.5 表1.SoccerNet上的结果。动作检测任务的测试集上的平均mAP（以%表示）。我们建立了新的最先进性能。0训练视频。在每个时期，为了数据增强目的，为每个视频重新计算新的批次。在训练之前，对每个原始视频进行时间偏移编码。每个新的训练块都使用类似YOLO的编码进行编码。网络生成的动作检测预测数量设置为N pred =5，因为我们观察到2分钟的原始视频块中不包含超过5个动作。我们在1000个时期内训练网络，初始学习率lr =10-3线性下降到10-6。我们使用Adam作为优化器，使用默认参数[33]。对于分割损失，我们在方程（7）和（8）中设置边界τ max = 0.9和τ min =0.1，遵循[48]中的做法。对于方程（10）中的动作检测损失，我们设置α j = 1（j ≠ 2），而α 2被优化（见下文）以找到适当的权重来定位预测的位置组件。类似地，β被优化以找到动作向量的损失和其余预测的正则化之间的平衡。对于方程（11）中的最终损失，我们优化λ seg以找到两个损失之间的平衡。超参数优化。对于每组特征（I3D，C3D，ResNet），我们对每个类别提取的帧特征f，网络的时间感受野r（即3D卷积的时间核维度）以及参数α2，β，λ seg进行联合贝叶斯优化[1]。接下来，我们对切片参数K c i进行网格搜索优化。对于ResNet，我们得到f = 16，r =80，α 2 = 5，β = 0.5，λ seg =1.5。对于目标（分别是进球，罚牌，换人），我们有K 1 =-40（分别是-40，-80），K 2 =-20（分别是-20，-40），K 3 =120（分别是20，20），K 4 =180（分别是40，40）。考虑到每秒2帧的帧速率，这些值可以通过将它们缩小2倍来转换为秒。值r =80对应于在3D卷积的时间维度中的中心帧两侧的20秒的时间感受野。主要结果。使用优化参数获得的性能如表1所示。如表所示，我们在SoccerNet的动作检测任务上建立了新的最先进性能，超过了以前的基准，对于所有的帧特征。051015202530354045505560657075808590Game time (in minutes)5055606570Average mAP (%)0170Action count222225293142426067675990119 114126140117170131310特征。ResNet提供了最好的性能，这也在[21]中观察到。对参数K c i的敏感性分析显示在最佳值周围具有稳健的性能，表明不需要进行大量的微调来进行上下文切片。当进行分割时，我们的时间上下文切片相比使用原始二进制注释（从57.8%到62.5%）显著提升。这一观察结果与敏感性分析一致。还可以看出，与使用原始二进制注释的分割相比，最好根本不使用分割（58.9%对57.8%），这进一步强调了上下文切片的有用性。当我们使用边界来帮助网络集中改善其最差的分割得分时，性能也有所提升（从59.0%到62.5%）。最后，表2显示，在动作检测损失之前，将网络的预测与真实值进行一对一的迭代匹配是非常有益的（从46.8%到62.5%）。这是有道理的，因为评估网络对其预测进行排序的能力是没有意义的，这是一个困难且不必要的约束。匹配的巨大影响也通过其在通过平均mAP评估的动作检测任务中的直接影响得到了证明。通过比赛时间的结果。在足球比赛中，通过比赛时间分析我们模型的性能是有意义的，因为动作在比赛中不是均匀分布的。例如，换人动作更有可能发生在比赛的下半场。我们考虑与比赛时间不重叠的时间段，每个时间段对应5分钟的比赛时间，并计算每个时间段的平均mAP。图40显示了该指标随着游戏时间的变化情况。0分割切片边缘匹配结果0（i）� 58.90（ii）� � � 57.80（iii）� � � 59.00（iv）� � � 46.80我们的 � � � � 62.5 表2.削减研究。我们通过以下方式进行削减：（i）去除分割（λseg =0），因此去除切片和边缘；（ii）去除上下文切片（K1 = -1 = K2= -K3 =-K4）；（iii）去除帮助网络集中改善其最差分割得分的边缘（τmin = 0，τmax =1）；（iv）去除匹配（在L中使用ˆYM而不是ˆY）。显然，每个部分都对整体性能有所贡献。0半场休息0图4.游戏时间的性能。将数据集中所有真实动作按照5分钟间隔进行分组，计算平均mAP的发现性能。结果显示，半场休息期间的动作更具挑战性。每个分组的动作数量。我们的性能（62.5%）。0似乎在半场的前五分钟内发生的动作比其他动作更难被发现。这可能部分地可以解释为一些这些动作发生在半场的开始，网络的时间感受野需要对块进行时间填充。因此，一些信息可能丢失，无法让网络发现这些动作。此外，当换人在休息期间发生时，它们被注释为比赛的下半场的第一帧，这使得它们几乎不可能被发现。在测试集中，这发生在28%的比赛中。我们的模型没有发现这些换人，因此降低了比赛下半场开始的几分钟的性能。然而，它们仅占所有换人的5%，将它们从评估中删除只会将我们的平均mAP提高0.7%（从62.5%提高到63.2%）。0作为动作接近程度的函数的结果。我们根据与前一个（或下一个，取决于哪个更近）真实动作的距离将真实动作进行分组，不考虑它们的类别。然后，我们计算每个分组的平均mAP。结果如图5所示。我们观察到，接近的动作更难被发现。[0-1]]1-2]]2-5]]5-10]]10-20]]20-30]]30-40]]40-50]]50-60]]60-90] ]90-120]Proximity of two actions (in seconds)010203040506070Average mAP (%)0160Action count0101624656079597616516951015202530354045505560050100150200250300Goal CountNumber of TP (ours)Number of FP (ours)Number of FN (ours)Number of TP (baseline)Number of FP (baseline)Number of FN (baseline)Total number of goals51015202530354045505560Tolerance (in seconds)0.00.20.40.60.81.0Metric valuePrecision (ours)Recall (ours)F1 (ours)Precision (baseline)Recall (baseline)F1 (baseline)131320图5.动作接近程度的性能。按照与最近真实动作的距离（以秒为单位）将真实动作分组，计算平均mAP的发现性能。结果显示，附近的动作更具挑战性。每个分组的动作数量。我们的性能（62.5%）。0当它们彼此靠近时，动作更难被发现。这可能是由于视觉线索的减少，例如当一个动作在另一个动作之后迅速发生时，重播的数量减少，因此必须进行广播。有时会出现一些混淆，因为第一个动作的重播仍然可以在第二个动作之后显示，例如一个受到制裁的犯规后面跟着一个转化的点球。这个分析还表明，即使动作之间距离较远，动作定位问题也具有挑战性，如图5中的性能最终趋于平稳。每类结果。我们以与平均mAP指标类似的方式进行每类分析。对于给定的类别，我们固定一个容差δ，围绕每个注释动作确定正面预测，并将这些结果聚合在一个混淆矩阵中。当其置信度得分超过在验证集上针对F1分数进行优化的某个阈值时，将认为动作被发现。从混淆矩阵中，我们计算该类别和该容差δ的精确度、召回率和F1分数。将δ从5秒变化到60秒，可以得到这三个指标随容差变化的曲线。图6显示了我们模型和基线[21]在进球方面的这些曲线。有关卡牌和换人的结果请参见补充材料。图6显示，我们的模型可以在离真实值20秒（δ=20秒）范围内高效地发现大多数进球。对于该容差，我们的精确度达到80%。之前的基线在40秒（δ=40秒）内趋于平稳，性能仍然较低。特别是对于进球，许多视觉线索有助于发现它们，例如多次重播、特定的摄像机视角或球员和观众的庆祝活动。04.2. 在ActivityNet上的实验0在本节中，我们在比赛视频中的动作检测任务之外的更通用任务上评估我们的上下文感知损失。我们解决了具有挑战性的ActivityNet数据集的活动提议和活动检测任务，其中我们使用数据集提供的5fps的ResNet特征。设置：我们使用当前最先进的网络，即BMN[34]，使用[2]中提供的代码。BMN配备了一个时间评估模块（TEM），其作用类似于我们的时间分割模块。我们重新0图6.每类结果（进球）。当预测的类别为进球时，如果它距离真实进球不超过δ/2秒，则为真正例（TP）并具有容差δ。基线结果来自[21]的最佳模型。我们的模型在真实进球周围10秒内（δ =20秒）发现了大多数进球。0我们通过我们的新颖的时间分割损失Lseg来替代TEM所关联的损失。切片参数对于所有类别设置相同，并通过网格搜索在验证集上优化AUC性能的约束条件K1 = 2 K2 = -2 K3 =-K4。优化结果表明，当K1 = -14时获得最佳结果。0结果。我们对我们的实验和BMN基础代码[2]进行了20次运行的平均性能报告，结果如表3所示。我们的新颖的时间分割损失改善了BMN[2]在活动提议任务（AR@100和AUC）上的性能提升0.15％和0.12％，在活动检测任务（平均-mAP）上提升了0.38％。这些增加与一些最近的增加相比较，而仅通过将TEM损失替换为我们的上下文感知分割损失来获得。因此，网络具有相同的架构和参数数量。我们推测，我们的损失Lseg通过其特殊的上下文切片，通过对注释周围的不确定性进行建模，有助于训练网络。事实上，已经在[3,52]中显示，在数据集的活动开始和结束的帧上，人类注释者之间存在很大的变异性。值得注意的是，在BMN中，TEM损失在某种程度上围绕动作帧进行调整，以减轻其相邻帧所受到的惩罚。我们的工作更进一步，通过直接设计一个上下文感知的时间分割损失。05. 足球自动生成高光时刻0图7显示了一些动作检测和时间分割结果。似乎一些比赛序列在某些类别上具有很高的分割得分，但却没有导致动作检测。0.90.80.70.60.50.40.3Threshold on the segmentation score0.10.20.30.40.50.60.70.80.91.0Precision0360Action Count3205192156232354131330方法 AR@100 AUC 平均-mAP0Lin等人[35] 73.01 64.40 29.170Gao等人[19] 73.17 65.72 -0BSN [36] 74.16 66.17 30.030BMN [34] 75.01 67.10 33.850我们的：[2] + Lseg 75.26 67.28 31.05 ± 0.07 表3.在ActivityNet验证集上的提议任务（AR@100，AUC）和检测任务（平均-mAP）的结果。对于我们的实验，我们报告了20次运行的平均值。0图7. 对“Remuntada” FCB -PSG的下半场进行动作检测和分割。展示了真实动作、时间分割曲线和检测结果。我们可以使用我们的分割方法识别未注释的有趣动作。0这些序列通常与迄今为止考虑的类别相似，例如未转化的进球机会和未经批准的犯规。图7中标识的两个动作的视频剪辑提供在补充材料中。为了量化进球机会的检测结果，我们只能计算精确度指标，因为这些动作没有被注释。我们手动检查测试集中每个视频序列，在其中分割得分超过某个阈值η但没有真实进球的情况下，我们向两位经常观看足球比赛的观察者询问他们是否会将其包含在比赛的精彩镜头中。当他们都同意将其包含在内时，该序列是真正的正例；否则是假正例。然后，根据该η计算精确度。通过逐渐降低η从0.9到0.3，我们得到如图8所示的精确度曲线。似乎有80％的分割得分大于η =0.5的序列被认为是进球机会。作为直接副产品，我们提供了一个无需明确监督的自动高光时刻生成器。我们提取0图8.目标机会的精确度，作为超过分割得分阈值的函数，用于手动检查序列。对于得分大于η =0.5的情况，达到了0.8的精确度，即检查的序列中有80%是目标机会。每个阈值检查的序列数。0每次发现进球或罚牌的时刻前15秒开始的视频剪辑，并在之后20秒结束。对于分割得分≥0.5的目标序列也是如此。我们不考虑替换，因为它们在精彩片段中很少出现。我们按时间顺序组装这些剪辑，生成精彩片段视频，附在补充材料中。评估其质量是主观的，但我们发现其内容是适当的，即使蒙太奇可以改进。事实上，只选择包含进球、进球机会或犯规的序列。这加强了分割的有用性，因为它提供了比赛进程的直接概览，包括对于精彩片段有趣的未注释动作的建议。06. 结论0我们通过为分割引入一种新的上下文感知损失和为定位引入一种类似YOLO的损失来解决SoccerNet中具有挑战性的动作定位任务。前者根据帧与最近的真实动作之间的时间偏移来处理帧。后者利用迭代匹配算法，减轻了网络对其预测进行排序的需求。为了展示其泛化能力，我们还在ActivityNet上测试了我们的上下文感知损失。仅通过包含我们的上下文感知损失而不改变网络架构，我们在ActivityNet上将最新技术提高了0.15%的AR@100，0.12%的AUC和0.38%的平均mAP。我们在SoccerNet上取得了新的最新技术，远远超过了以前的基线（从49.7%提高到62.5%的平均mAP），并在其真实动作周围的10秒内发现了大多数动作。最后，我们利用得到的分割结果来识别未注释的动作，如进球机会，并在没有特定监督的情况下生成精彩片段。致谢。本工作得到了瓦隆大区和比利时FRIA（Fonds pour la Formation à laRecherche dans l'Industrie et dansl'Agriculture）以及沙特阿拉伯阿卜杜拉国王科技大学（KAUST）赞助研究办公室（OSR）的支持，项目编号为OSR-CRG2017-3405。131340参考文献0[1] 贝叶斯优化。https://github.com/fmfn/BayesianOptimization。最后访问时间：2019年10月20日。50[2] BMN代码。https://github.com/JJBOY/BMN-Boundary-Matching-Network。最后访问时间：2019年10月30日。7, 80[3] Humam Alwassel, Fabian Caba Heilbron, Victor Escorcia,and Bernard Ghanem.诊断时间动作检测器中的错误。在欧洲计算机视觉会议（ECCV）上，2018年9月。2, 70[4] Humam Alwassel, Fabian Caba Heilbron, and BernardGhanem.动作搜索：在视频中定位目标及其在时间上的应用。在欧洲计算机视觉会议（ECCV）上，2018年9月。20[5] Moez Baccouche, Franck Mamalet, Christian Wolf,Christophe Garcia, and Atilla Baskurt.使用长短期记忆循环神经网络对足球视频进行动作分类。在国际人工神经网络会议（ICANN）上，2010年9月。20[6] Vinay Bettadapura, Caroline Pantofaru, and Irfan Essa.利用上下文线索生成篮球精彩瞬间。在ACM多媒体国际会议（ACM-MM）上，2016年10月。20[7] Lewis Bridgeman, Marco Volino, Jean-Yves Guillemaut,and Adrian Hilton.多人体育运动中的3D姿势估计和跟踪。在IEEE计算机视觉与模式识别（CVPR）研讨会上，2019年6月。10[8] Shyamal Buch, Victor Escorcia, Bernard Ghanem, LiFei-Fei, 和 Juan Carlos Niebles.单流时序动作检测的端到端方法. 在英国机器视觉会议(BMVC)上,2017年9月. 20[9] Shyamal Buch, Victor Escorcia, Chuanqi Shen, BernardGhanem, 和 Juan Carlos Niebles. SST: 单流时序动作提议.在IEEE计算机视觉与模式识别会议(CVPR)上, 2017年7月. 20[10] Zixi Cai, Helmut Neher, Kanav Vats, David A. Clausi, 和John Zelek. 通过姿势和光流进行时序曲棍球动作识别.在IEEE计算机视觉与模式识别会议(CVPR)的工作坊上, 2019年6月.20[11] Joao Carreira 和 Andrew Zisserman. Quo Vadis, 动作识别?一种新模型和Kinetics数据集.在IEEE计算机视觉与模式识别会议(CVPR)上, 2017年7月. 50[12] Anthony Cioppa, Adrien Deliege, Maxime Istasse,Christophe De Vleeschouwer, 和 Marc Van Droogenbroeck.ARTHuS: 通过在线蒸馏实现运动中的自适应实时人体分割.在IEEE计算机视觉与模式识别会议(CVPR)的工作坊上, 2019年6月.10[13] Anthony

下载后可阅读完整内容，剩余1页未读，立即下载