教机器理解棒球比赛的挑战和解决方案

162 浏览量更新于2023-10-16 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

教机器理解棒球比赛：大规模棒球视频数据库多个视频理解任务Minho Shim[0000−0002−9637−4909]、Young HwiKim [0000−0001−6863−8551]、Kyungmin Kim[0000−0002−5167−0683]、Seon Joo Kim[0000−0001−8512−216X]延世大学{minhoshim,younghwikim,kyungminkim,seonjookim}@yonsei.ac.kr抽象。教机器理解视频的一个主要障碍是缺乏训练数据，因为为长视频创建时间注释需要大量的人力。为此，我们引入了一个新的大规模棒球视频数据集，称为BBDB，这是通过使用在线提供的逐场比赛文本半自动生成的。BBDB包含4200小时的棒球比赛视频，具有400k时间注释的活动片段。与其他数据集相比，新数据集具有几个主要挑战性因素1)数据集包含大量具有不同标签的视觉上相似的片段。2)它可以用于许多视频理解任务，包括视频识别，定位，文本-视频对齐，视频亮点生成和数据不平衡问题。为了观察BBDB的潜力，我们通过在我们的新数据集上运行许多不同类型的视频理解算法来该数据库可在https：//sites.google.com/site/eccv2018bbdb/关键词：视频理解·大规模视频数据集·动作识别·时间定位1介绍正如老话所说的计算机视觉的最终目标是让机器理解这些视觉媒体，由于深度学习技术的快速发展，我们现在已经达到了一个地步，我们可以教机器很好地理解单个图像。在视觉媒体中，视频是最全面的媒体，它最能再现我们作为人类如何感知视觉世界。然而，由于额外的时间维度，使机器理解视频仍然非常具有挑战性。视频包括不同长度的事件和不同类别的类似动作之间的分离需要更好地理解运动。例如，分类表示同等贡献2MinhoShim，Young Hwi Kim，KyungminKim，Seon Joo Kim（一）二垒安打本垒打内野打击归位人抓住一垒盗垒击中流道击中棒球检出球罢工出局（b）第（1）款三垒安打接地输出飞出触摸输出击球没有命中死球挥杆和错过双杀挂牌出来顶出犯规误差基于球传球狂野的球场（c）第（1）款线路驱动输出牺牲顶出犯规犯规撞人犯规飞出Fig. 1. （左）了解棒球视频：（a）、（b）和（c）分别示出了来自全垒打、内场命中和犯规序列的一些样本。仅仅识别几个帧或一组离散的动作（如击球或跑动）是不够的，也不足以完全理解棒球比赛或任何视频。（右）基于棒球规则的语义类层次结构。在步行和游泳之间进行分类可能相对容易，因为分类可以仅依赖于视觉特征。对于这样的问题，仅一个单个图像可能足以执行分类任务。然而，在类似的活动（如步行和跑步）之间进行分离需要在视觉特征之上的良好的运动特征此外，推断事件的时间进展是视频识别中需要考虑的另一个因素。通过观察一个人的跑步，系统无法轻易地确定它最终是跳马还是跳远。本文的目的是介绍一个新的大规模视频数据库，以促进视频理解的研究。已引入了许多视频数据集[34，21，28，14，3，52，24，33，26，42，25，22，15，37，1，16，41，7]。然而，大多数前当试图了解类似动作之间的微小差异时，筛选数据库会出现不足。现有数据库中的类标签是相当不同的，例如吸尘地板、清洁厕所和清洁窗户。虽然它们提供了良好的数据来学习视频分析的良好视觉和运动特征，但我们更感兴趣的是提供具有更多相似性的数据。因此，我们提出了一个新的大规模视频数据集，称为BBDB（代表Base-ballD ataB ase）。BBDB包含4，200+小时（超过5亿帧）的棒球比赛视频，其中具有400k+时间注释的活动片段。时间边界已经通过利用在线可用的逐场播放文本以最少的人工验证进行注释，减少了标记过程所需我们将棒球比赛中的动作分为30类，包括击球，投球，单/双/三击，本垒打等（图）。①的人。使我们的数据库与以前的数据集不同的是类之间的视觉和运动相似性。击球投球和球投球在视觉上是相似的，并且即使对于人类来说也难以区分两者。除了视频识别和定位之外，我们的数据集还可以用于解决计算机视觉中其他有趣的问题类不平衡是固有的强加在我们的数据集;例如。全垒打和好球相比是很少见的不平衡类大小的学习是机器学习中一个非常重要的问题，但尚未深入研究。我们的数据集提供了解决这种不平衡问题的自然机会。面向多视频理解任务的大规模棒球视频数据库3我们还为数据集中的每个游戏收集了相应的亮点。这可以用于视频精彩部分生成研究。2相关工作数据库许多视频数据库已经被引入以增强视频理解模型的能力。用于动作识别的数据集[42，25，22，15]已被广泛使用，但这些基准提供了动作周围的时间修剪视频，限制了各种视频理解任务的实际使用。Sports-1 M[21]和YouTube-8 M[1]引入了未修剪的视频数据集，为真实的视频理解提供了更完整的数据KTH[34]， THUMOS此外，[14，3]每个视频仅包含少量动作实例;平均分别为1.1和1.41注释。MultiTHUMOS[52]是THUMOS的扩展版本，目标是提供多标记注释。虽然数据集包括诸如篮球扣篮、运球和后卫之类的细粒度类相关数据集[33，26]捕捉细粒度的人类行为存在，但这些数据集由相对较短视频组成同时，[16，41，7]为视频摘要任务提供了有用的基准。这些数据集要求注释者根据注释者的重要性标准对视频剪辑单元标记过程需要每个视频许多注释器，导致小尺寸数据集。我们的大规模视频数据集BBDB提供超过4，200小时的视频。在我们数据集中的30个活动类中，有23个类有超过1000个视频剪辑，其他7个类平均也有超过400个剪辑。此外，我们数据集中未修剪视频的平均长度为3.6小时，这使得我们的基准测试更具挑战性，因为模型必须理解更长的事件序列。每个视频都伴随着其相应的精彩视频，因此我们的数据库也可以用于视频摘要或精彩生成最后，我们的数据集是通过半自动过程收集的，只需最少的人力，因此很容易扩展数据集的大小。行动识别。在深度学习时代之前，像改进的密集轨迹[48]这样的手工运动特征被广泛用于提取外观和运动特征。学习时空表示的一种流行方法是利用3D卷积。在早期阶段，[45，20，46]将简单的3D卷积网络应用于动作识别最近，提出了更深的3D ConvNets[4，32，47，17]，通过膨胀众所周知的2D网络（例如，ResNet）转换为3D。视频表示学习的另一个分支是双流方法[39]，由两个互补网络组成，外观和运动网络。还介绍了双流的变体[12，10，11]，探索了融合两种流的各种方法。上述方法仅利用固定长度的帧，并且通过计算分段的平均分数来获得视频级表示。为了对长期时间信息进行建模，[9，29，44]在CNN之上采用了RNN4MinhoShim，Young Hwi Kim，KyungminKim，Seon Joo Kim并且已经提出了诸如TSN[50]的更复杂的方案来在训练期间观看整个视频。处理不平衡的数据集。真实数据本质上是不平衡的。我们看到人们一直在走路，但很少看到一个人后空翻。能够处理每个类的数据数量不平衡的问题是机器学习中的一个重要问题[18]，但它尚未被广泛探索经典方法包括启发式采样或调整成本函数，以反映类的频率[5，23]。也可以使用最近提出的焦点损失[27]，它根据类别是否被很好地分类来调整交叉熵损失。时间动作定位。时间动作定位是指在未经裁剪的视频中提取目标视频片段的问题。这个问题的基本方法[13，49]是通过滑动窗口划分剪辑，从剪辑中提取特征，并将其传递给分类器。各种基于深度学习的解决方案[54，53，36]也已经被引入来解决这个问题。与其他任务相比，时间动作定位任务的精度仍然较低有人指出，缺乏精确度的主要原因是缺乏数据，因为难以注释数据集[54]。文本-视频对齐。收集动作的密集注释是昂贵且耗时的。提出了几种方法来以弱监督的方式学习时间定位我们的目标是给每个帧贴上相应的动作标签，只给出动作序列，而不给出确切的时间戳。扩展CTC框架-工作[19]被提出来评估所有可能的对齐，强制与帧间视觉相似性一致。另一种方法[2]将问题表述为排序约束下的判别聚类的凸松弛。3棒球数据库我们的棒球数据库（BBDB）的目标是为更高层次的视频理解提供一个具有挑战性的基准。以前的数据集集中在字面上的人类动作，如跑步和跳跃。只有少数数据集在视频上有精细的标签;例如密集详细标签[52，37]或密集标题[24]。当一场体育比赛用一个在这些简单动作上训练过的视觉识别系统来分析时，检索到的人类动作序列将不足以全面地理解比赛。这是因为体育比赛是一系列事件，只能通过动作，顺序和语义信息的组合来解释。构建大型视频数据集是具有挑战性的，特别是当任务需要标注的时间边界时。标记视频涉及大量的人力，使得自动化这样的过程是动作检测算法的目标之一。BBDB的标签以半自动的方式收集，利用在线播放的播放广播。通过这种策略，我们可以大大减少人力劳动，并创建精确的时间注释。在不同的视频领域中，棒球有许多优于其他领域的优势。首先，棒球规则明确，统计数据丰富，异常现象较少。这就是为什么可以利用来自广播公司的逐场播放文本来生成精确的片段位置。规则在验证步骤中也是至关重要的，以分析系统是否正确地理解了事件和底层规则;例如，三振出局只能面向多视频理解任务的大规模棒球视频数据库5图二. 说明如何收集BBDB。左上滚动条是逐场播放文本的示例。 ①从文本中，按排序顺序提取每个音高的日期和时间。在视频中②使用所获得的间隙，将视频的第一间距与有序文本时间的第一间距对齐。 ③由于文本时间和视频时间是对齐的，所以所有基音时间都可以从文本时间转换到视频时间。④时间边界由每个动作的音高时间和预定长度设置。在两次打击之后。其次，每年都有数千款新游戏推出，因此数据库可以随着时间的推移以最小的成本轻松扩展最后，棒球作为最受欢迎的体育运动之一，有着大量的实际应用，对自动分析工具的需求也很高。3.1数据库集如今，可以在在线视频档案中找到棒球比赛的完整视频，并附有逐场比赛的文本。这些文字广播（图。2）包括有关每场比赛的广泛信息，如参赛球队和球员，最重要的是，每场比赛的活动和投球的时间戳。利用所提供的音高时间（其是带有日期的绝对时间），我们可以通过仅手动计算视频中的第一音高与文本广播之间的相对差来半自动地将游戏视频与然后，可以基于每个动作的基音时间和预定长度从视频中提取动作片段。为了确保使用我们的方法收集的标签是正确的，我们通过检查最后几个片段及其标签的正确性来为每个游戏引入审查过程如果间隙在整个游戏中是一致的，则最后一段将具有正确的边界。这就是为什么注释者只需要检查每个游戏中的最后几个片段。如果最后一个片段的标签（时间注释）存在不一致，则整个游戏将在我们的数据库中被丢弃，以确保数据集中不包含任何不正确的标签。为了评估半自动标记，我们将20场比赛的半自动标记数据与人工注释进行了比较。详情见第4节。平均而言，注释3小时的视频需要大约4小时，而我们的半自动方法每场比赛需要大约5分钟。这是因为在时间上注释未修剪的视频很困难;在观察到一个事件之后，注释者必须返回球队：蓝队vs红队投球时间：16分钟。04. 0119：21：09文字：第一次投球C投球时间：16分钟。04. 0119：22：57文本：第三节-球C投球时间：16分钟。04. 0119：52：31文本：第二节-命中CCCCCCC罢工本垒打归位CCCC2s 5s2sC文字视频时间TimeC文本视频时间时间5s1s 7sGroundTruth视频时间拟议分部55：25时间轴①C文本视频时间Time…55 ：18②③④CCCC逐场比赛文本中的第一个投球在视频中手动找到的第一个投球对齐不知道间隙不知道6MinhoShim，Young Hwi Kim，KyungminKim，Seon Joo Kim表1. 与其他识别，时间定位（检测）和总结视频数据集的比较。我们的BBDB具有专门用于视频分析新挑战的特性t表示仅可用于具有检测任务的数据库的时间注释实例的数量。具有大#实例/#视频比率的数据库可以用作顺序对齐数据库，因为文本-视频对齐是在没有时间边界注释的情况下训练的。从每个数据集或[24]中引用值。Dataset #instances†/#videos Avg.Len.未修剪的检测序列‡总结UCF101[42]/13k7s----HMDB51[25]/7k3s----[15]第十五话/220k4s----动力学[22]/306k10s----SumMe[16]/25240s---CTvSum[41]/50150s---CVSUMM[7]/100180s---C好莱坞2[28]/4k20sC---[21]第二十一话/1.1M300sC---[1]第一次世界大战/8.3M230sC---KTH[34]2.4k/60020sCC--[14]第十四话23.1k/21k4sCC△-MultiTHUMOS[52]39k/400270sCC△-ActivityNet[3]28k/20k180sCC△-猜谜语[37]67k/9.8k30sCCC-MPII烹饪[33]5.6k/44600sCCC-TUM早餐[26]11k/2k140sCCC-BBDB（我们的）405k/1k13，000人CCCC找到事件的起点或终点重复该过程导致标记花费比视频的持续时间更多的时间然而，我们的收集方法只需要找到一个缺口，并通过观察最后几个片段来轻松验证。3.2性能BBDB是一个具有挑战性的数据集，具有两个关键属性：1）数据集包含大量具有不同标签的视觉上相似的片段，其具有明显可区分的差异。在棒球运动中，击球和击球基本上是同一种投球动作.然而，球的最后位置、裁判的移动和屏幕上的图形是独特的提示。为了解决这个问题，系统必须不仅仅是一个动作类别分类器，通过考虑更多的时间信息和语义。2）每个类的分段实例的数量不平衡。由于数据集使用了数千场棒球比赛，因此这种不平衡是自然施加的，并且在统计上是有意义的。视频. 最初版本的BBDB包含1，172个完整的棒球比赛视频。它分为三套;包含703个视频的训练集、包含234个视频的验证集和测试集面向多视频理解任务的大规模棒球视频数据库7#视频235视频总的来说，数据集包含4，254小时的棒球。每个视频都是480p或720p，大多数是30 fps，少数是60 fps的视频。游戏时长从120分钟到350分钟不等。亮点. 除了完整的游戏视频外，我们还收集了与数据集中的每场比赛相与一般用户创建的视频的精彩部分相比，自动生成体育精彩部分更容易评估，因为体育精彩部分的高质量是由用户创建的。光对“什么是重要的”标准具有较少的模糊性尽管这些亮点仍然是由人类专家精心挑选的，但像全垒打或双杀这样的罕见事件肯定比其他事件更重要。BBDB也可以作为一个很好的亮点数据库，提供了一个挑战，创造亮点不仅通过视觉理解，但也通过理解故事情节。注释。BBDB包含超过30个棒球活动的404，964个注释片段。平均每个视频有345个活动实例带标签的类不是作为离散的人类行为编写的，而是作为棒球活动编写的，例如。好球，球，和本垒打。去-派生的注释包括标签词典。该词典有一个树结构，以帮助语义细分成组的标签（图。①的人。该结构可以用于处理每个动作类的实例数量的不成比例，以及在时间域上的两个或更多个活动之间的视觉相似性。比较。关于与其他数据集的简要比较，请参见表1。BBDB具有无与伦比数量的时间注释片段，具有长的完整游戏视频。这使得数据集不仅可用于时间定位任务在表中），而且用于文本-视频对齐。对齐任务不使用片段的时间边界，而是使用片段的顺序。因此，更高的实例数比率提供了更多的顺序信息，可用于对齐任务。此外，与其他视频摘要数据集相比，BBDB具有无法比拟的用于摘要或精彩部分生成任务的视频数量。目前，我们利用一组单词作为标签来评估数据集。这些标签可以很容易地扩展到复杂的字幕，利用丰富的信息，在播放的文本。这些文本甚至包含有关名册、局数、球员是否在一垒等信息。最终，可以使用这些字幕来建立自动4数据库评价为了验证我们半自动收集的数据集，我们对手动注释的视频进行了评估。我们在数据集中随机选择了20场棒球比赛，并手动注释了大约7，000个时间边界（7k已经可以与其他本地化数据集相媲美）。半自动和手动标签之间的比较结果如表2所示。对于IoU阈值≤0.5，半自动标签显示非常准确的结果。虽然对于超过0.5的阈值，准确度下降，但考虑到现有技术的方法在这些测量上甚至达不到30此外，高IoU阈值是对边界的细微差异在类罢工，例如，半自动标签使一段之间的一秒开始球场和一秒后捕手8MinhoShim，Young Hwi Kim，KyungminKim，Seon Joo Kim表2. 在BBDB上半自动标记相对于人工标记的精密度。IoU阈值范围为0.3至0.7。IoU阈值0.30.40.50.60.7BBDB98.897.093.575.660.1把球传给接球手。然而，人类注释者有他们自己的用于制作片段的标准，例如在开始投球后和接球手回击前之间这些边界上的微小差异不会影响我们视觉任务的最终目标，因为它们都是视觉上正确的。请注意，使用许多注释器标记数据与手动贴标相比，半自动贴标将具有更高的一致性。因此，我们得出结论，半自动标注是足够准确的，有自己的标准，使边界。5视频理解算法我们使用我们的数据集评估了几种视频理解方法。我们首先在本节中解释这些方法。5.1动作识别IDT+FV。密集轨迹[48]特征包括局部描述符，如定向梯度直方图（HOG）、光流（HOF）和运动边界直方图（MBH）。尽管计算昂贵，但这些描述符的Fisher向量[31]编码已用于视频分类，并且与其当前的词袋特征相比显示出更好的结果我们使用HOG、HOF、MBH描述符，并遵循[48]中的特征编码配置。由于存储限制和可行性，所有视频都设置为3 fps，帧的大小调整为240像素的固定高度，而宽度调整为保持纵横比。从训练集中提取的IDT即使在压缩和降低fps之后也约为17TB。然后，我们在训练集的所有注释片段的Fisher向量上训练1-vs-rest SVM分类器。分类器使用随机梯度下降（SGD）进行训练，因为训练数据超过10TB，无法放入内存。单帧。我们利用16层VGG模型[40]来了解基于单帧的视频分类和帧级检测是如何工作的。这个网络最初是在ImageNet[8]上训练的，用于图像分类，因此它提供了与其他网络的比较考虑到时间变化的系统。我们对来自30多个类的训练集片段的帧进行了微调。光流叠加。在动作识别中，动作流可以是重要的线索。该方法仅利用光流信息，以便我们可以看到运动如何影响分类性能。首先，我们从每5帧的剪辑中提取光流，并将其归一化为[0，255]，这允许将光流存储为面向多视频理解任务的大规模棒球视频数据库9一个形象然后，在10个光流帧的堆栈上训练光流网络我们使用ResNet-50模型来训练运动流网络。双流外观和动作是相辅相成的。双流方法同时利用了外观和光流，因此我们可以看到两种信息如何很好地结合在一起。用于提取空间和时间特征的网络设计与单帧和光流叠加相同用于汇总结果在两个网络中，我们对softmax输出进行平均，并获得最终结果。CNN+GRU。利用时间信息的有用工具之一是递归神经网络（RNN）。在动作识别任务中，CNN和RNN[9]的组合被广泛使用。我们使用5个CNN层来提取每帧的空间特征，并将这些特征输入到RNN层以生成时间特征。我们选择门控递归单元（GRU）[6]，因为它的效率。提取的时间特征被用作全连接层和softmax层的输入以进行分类。C3D C3D是3D ConvNet早期阶段的3D卷积网络架构。C3D由8个3 x 3 x 3内核的卷积、5个最大池化和2个全连接层组成。它的输入是16个连续帧，因此模型直接学习16帧内的时空表示。我们从头开始训练C3D，而不是从预先训练在Sport-1 M上的权重，因为所有剪辑在第一阶段都指向I3D I3D在[4]中首次引入。与以前的3D ConvNets不同，I3D不仅将2D内核膨胀到3D，而且还将ImageNet上预训练的2D权重值膨胀到3D。具体地，每个t×k×k3D内核通过预先训练的k×k权重沿着时间维度重复t次并按1/t重新缩放来初始化。我们遵循[51]中使用的3D网络架构。5.2处理类不平衡为了解决我们数据集中的类不平衡问题（图1）。5），我们用五种方法进行了实验。以下所有实验都基于5.1中的CNN+GRU模型，在数据选择、类结构和损失函数方面有所变化。天真的训练作为本实验的基线，我们保持数据集不变，并使用CNN+GRU模型进行训练。过采样。由于类之间的高度不平衡分布，我们首先随机地选择一个类，然后检索该类中的视频这允许模型以相等的机会学习每个视频类我们将此方法设置为默认设置，适用于除上述Naïve训练之外的所有动作识别实验。分层分类。我们可以分层划分30类，如图所示。1.一、与整个集合的分布相比，子集的分布相对平衡按照数据集的层次结构，我们训练了第一个3级分类器，第二个4级分类器和最后一个子集分类器。类权重调整。当类之间的分布已知时，可以对损失值施加附加权重。在[43]之后，我们尝试根据样本总数与类别样本数的比率为每个类别设置权重。焦点丢失[27]。为了防止交叉熵被严重的类别不平衡所压倒[27]，我们尝试了另一种方法，通过添加焦点损失平衡因子，以便10MinhoShim，Young Hwi Kim，KyungminKim，Seon Joo Kim网络更多地关注分类不佳的示例：ΣcFL=−i=1（1 −pi）γyilog（pi）（1）其中，c，i分别表示类别和类别索引的数量，yi∈{0，1}指定真实类别，并且pi表示类别预测概率。参数γ控制良好分类的示例被向下加权的速率5.3时间定位时间定位任务是预测事件的开始和结束点以及每个事件的对应类有各种设计的方法来定位段。一种方式是首先提出候选片段，然后对这些片段进行分类。这种方法的主要缺点是失去了时间域上的精确性另一种方法是在将具有高预测概率的相邻帧分组之前评估每个帧在这种情况下，分组可能非常具有启发性，并且维护每个帧周围的时间信息成为主要挑战。我们使用在5.1节中训练的单帧模型来评估时间局部化任务。我们还使用卷积-去卷积（CDC）滤波器进行评估[35]。大多数设置与[35]相同，但不使用来自Sports-1 M数据集[21]的预训练权重，原因与第5.1节中的C3 D相同。使用这两个模型，测试集中完整游戏视频中的每一帧都被馈送到模型中以产生类别概率。然后，我们使用滑动窗口方法[30]，窗口大小为5，6、···、15和16秒，以超过预测概率1/3秒的步幅滑动检测到的窗口基于每个窗口最大类概率，以去除任何重叠检测。所有视频在评估前均设置为3 fps，以进行同等比较。5.4文本-视频对齐在这个任务中，我们在我们的数据集上应用排序约束判别聚类（OCDC）[2]的方法。该方法采用判别聚类的思想与行动的顺序作为约束。OCDC通过联合学习每个动作的分类器来解决对齐问题判别聚类的损失函数是平方损失函数，我们使用线性分类器使目标函数二次。这允许我们使用Frank-Wolf算法对我们的问题应用凸松弛我们使用由Fisher向量编码的HOF描述符作为帧级表示。6实验结果6.1动作识别在本节中，我们使用BBDB数据集评估动作识别方法。评估测试集中的每个剪辑片段以产生预测概率，或者面向多视频理解任务的大规模棒球视频数据库11表3. 评价适用于BBDB的技术方法。l表示GRU的最大序列长度，Jac表示Jaccard测度。方法地图输入帧数动作识别（过采样）培训测试IDT + FV[48]23.61个rgb25rgb单帧[40]35.01个rgb25rgb光流叠加[39]36.910流动250流量双流[39]42.31 rgb，10流量25rgb，250流量C3D[46]40.216rgb160rgbI3D[4]44.232rgb320 rgbCNN+GRU[9]（1= 64）36.2≤64 rgb≤64 rgbCNN + GRU（1 = 128）52.8≤128 rgb≤128 rgbCNN+GRU（1= 256）62.8≤256 rgb≤256rgb处理不平衡（l= 256）CNN+GRU（Naïve）67.0CNN+GRU（过采样）62.8CNN+GRU（分层）50.4CNN+GRU+FL[27]（γ= 2）61.6CNN+GRU（权重调整）55.3逐帧标记培训测试单个帧[35]第三十9.2523.31个rgb32rgb1个rgb32rgb文本-视频对齐江淮OCDC[2]7.0在SVM分类器的情况下的置信度分数所有剪辑都用分数排序以计算平均精度（AP），然后用类别的数量对AP进行平均以表3显示了每种方法的mAP。同时利用外观和运动信息比仅使用其中之一显示出更好的性能。与双流网络相比，C3D显示出略低的性能，但I3D优于双流，这揭示了网络深度、初始化方法和时间分辨率的重要性。最大序列长度为l=256的CNN+GRU与其他方法相比显示出很大的性能改善。我们的实验结果与其他作品不同，其中已经表明基于双流或3D卷积的网络通常比CNN+GRU更好地工作。我们认为这是由于数据集性质的差异。由于我们的数据集中的类之间的视觉相似性，分类器应该采用细粒度特征，例如：球的轨迹、跑者基于CNN的模型在训练过程中采用有限数量的帧作为输入，这些帧太短，无法表达更长的序列。然而，RNN结构采用整个帧12MinhoShim，Young Hwi Kim，KyungminKim，Seon Joo Kim（一）（b）第（1）款不掩蔽第208帧具有掩蔽第48帧0.014个单位零点零一三0.0120.0110.010零点零九0.008个单位121416181 101 121141 161181 201框架编号0.014个单位0.0130.0120.0110.0100.0090.008个单位121416181101 121 141 161 181201框架编号图3.第三章。具有对应视频帧的类犯规的显著性：训练的CNN+GRU的显著性(a)无掩蔽，（b）具有屏幕上的socreboard掩蔽。第48帧和第208帧分别是具有掩蔽和不具有掩蔽的犯规剪辑的最负责任的时刻（在线图上标记为点作为输入，因此能够更好地考虑细粒度的运动信息。在相同的上下文中，具有较短序列长度1=64、128的GRU显示出较差的性能。我们还观察了类之间的关系（图1）。（六）。球和罢工类是最令人困惑的部分，即使那些类有很多训练的例子。这表明区分球和击球是具有挑战性的。还有更多的类容易混淆，但最极端的情况包括tag out，error和bunt out/hit类。在棒球比赛中，这些情况可能与导致混乱的其他情况同时发生。6.2突出性分析为了理解神经网络在识别动作时看到的是什么，我们通过显着图提供了进一步的分析[38]。与[38]中所做的在空间域中计算显着性图不同，我们将这个想法扩展到时间域，以查看网络何时何地关注识别动作。CNN+GRU的显著性结果如图所示。第3（a）段。从结果来看，很明显，网络在很大程度上依赖记分牌来做出决定。因此，网络学会了作弊，因为对击球或球事件进行分类的最简单和最准确的方法是实际查看记分牌而不是运动。为了防止网络作弊，我们训练网络时将记分板遮盖起来。图11中示出了在记分板被掩蔽的情况下的显著性结果3（b）款。在掩蔽之后，网络更多地关注运动以识别动作。当计分板被遮盖后，识别球类项目的准确率从0.908下降到0.908面向多视频理解任务的大规模棒球视频数据库1310.80.60.40.20160000140000120000100000800006000040000200000#分段简单过采样分层权重调整焦点损失见图4。用不平衡处理方法计算的类的AP（左轴）;原始、过采样、分层分类和焦点丢失。条形指示每个类的段数（右轴）。用虚线连接的点示出了每个类别的AP，并且虚线是为了说明而绘制的，以容易地在点之间寻找。在小数量类中，焦点损失比过采样取得了更好的性能，平均提高了3.9%。然而，它在3个大数量类上损失了29.2%的显着性能0.719，并且罢工事件从0.720到0.394。对于记分板未提供额外信息的事件，准确度与掩蔽相似。6.3处理类不平衡为了处理类别不平衡，图1中示出了每个类别的AP4，因为在理解和比较不平衡处理方法时，表3中的mAP过采样未能解决这种不平衡，与简单训练的网络相比，每个类的AP都变得更差在样本数量非常大和非常小的类中，如罢工和传球，差距更大我们认为这是因为类之间的严重不平衡使网络有更少的机会学习像球和罢工这样的困难类之间的视觉相似性。分层分类显示了最差的结果之间的不平衡处理approaches。分级结构的不可逆性是影响性能的主要因素。例如，如果被投球击中被分类为跑垒员或击球类别，则其失去被检测为被投球击中的任何机会。结果还表明，最高分类器不能区分最高类别的语义差异。使用焦点损失训练的网络基于默认的过采样技术，并且它在具有较少样本的大多数类中显示出改进。在样本较少的19个班中，平均提高3.9%然而，焦点损失实际上未能区分视觉上相似的类别，如球、击球和挥杆未中;在具有大量样本的3个类别上平均损失29.2%我们可以推断出聚焦因子（1−pi）γ通过减少损失来防止网络学习困难的类。我们还尝试了0.5、1、2和5的不同γ值，但它们不一致。显示出了微小的差异。类权重调整显示第二差的性能。这是预期的，因为与在训练时平衡损失的焦点损失相比，根据类别的数量设置权重是调谐损失值的更预先的方式14MinhoShim，Young Hwi Kim，KyungminKim，Seon Joo Kim中国人（134790）打（62806）中国人（62110）Swingandamiss（32664）Flyout（17700）中国（16267）一垒安打（14644）图五. 分布在BBDB的30个班级。球击犯规挥棒未中出界出局一垒安打三振出局本垒在垒触地得分二垒安打全垒打犯规出界二垒打盯人出局盗垒内野安打直线击出出局错误DeadballBunt犯规牺牲短打出局抢断被抓三垒命中短打命中球出界传球接球出界归一化混淆矩阵1.00.80.60.40.20.0表4.BBDB上的时间定位mAP。IoU阈值范围为0.3至0.7。预测标签见图6。CNN+GRU结果的混淆矩阵。球和罢工类相互混淆。出界、失误、短打/命中以及那些没有足够训练数据的都不能正常工作。6.4时间定位表4示出了时间活性定位mAP。当边界与地面实况的交集大于并集（IoU）大于阈值时，所提出的时间边界与单帧模型相比，CDC在每帧标记（表3）和时间定位任务中均显示出更好的性能6.5文本-视频对齐我们将OCDC应用于部分测试集，以显示BBDB在文本-视频对齐上的可扩展性。它仅在每个视频的实例数量很大的基准测试中有意义。由于一个简单的视频的表示太大，我们在局数结束时划分fullgames。即使使用缩短的视频，OCDC也会导致7.0通过Jaccard测量，这是Hollywood2数据集[2]的子集上的结果的相对较低的准确度，其约为45。7结论我们已经介绍了我们的非常大规模的BBDB与最少的人力劳动的注释。BBDB可以应用于视频理解任务，如动作识别，时间动作定位，文本-视频对齐，视频精彩部分生成和数据不平衡问题。BBDB在类之间具有大量的视觉和运动相似性我们计划开发新的视频理解算法使用我们的BBDB，并将其扩展到其他视频领域。鸣谢。这项工作得到了三星电子三星研究基金中心的支持，项目编号为SRFC-IT 1701 -01。百分之四百百百百真实标签球击犯规挥棒未中出界出局一垒安打三振出局本垒在垒触地得分二垒安打全垒打犯规出界二垒打盯人出局盗垒内野安打直线击出出局错误DeadballBunt犯规牺牲短打出局抢断被抓三垒命中短打命中球出界传球接球出界IoU阈值0.30.40.50.6 0.7单个帧9.96 7.86 3.44 2.48 1.62[35]第三十五话26.1 22.2 11.3 9.54面向多视频理解任务的大规模棒球视频数据库15引用1. Abu-El-Haija，S.，Kothari，N.，李，J.，Natsev，P.，Toderici，G.，Varadarajan，B. ， Vi- jayanarasimhan ， S. ： Youtube-8 m ：大规模视频分类基准。CoRRabs/1609.08675（2016）2. Bojanowski，P.，拉朱吉河巴赫，F.，拉普捷夫岛Ponce，J.，施密德角Sivic，J.：弱在排序约束下的视频中的监督动作标记。In：ECCV（2014）3. Caba Heilbron，F.，Escorcia，V.加尼姆湾Carlos Niebles，J.：Activitynet：人类活动理解的大规模视频基准。参见：CVPR（2015）4. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。在：CVPR（2017）5. Chawla，N.V.Japkowicz，N.，Kotcz，A.：社论：关于从不平衡数据集学习的特刊SIGKDD浏览器新闻6（1），16. Chung，J.Gulcehre角周，K.，Bengio，Y.：门控复发性神经元癌的实验评价在序列建模上的RAL网络在：NIPS深度学习和表示学习研讨会（2014）7. De Avila，S.E.F.，洛佩斯美国警察局da Luz Jr，A.，de Albuquerque Araújo，A.：VSUMM：一种用于生成静态视频摘要的机制和一种新颖的评估方法。Pat-ternRecognition Letters32（1），568. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：ImageNet：一个大规模的层次结构图像数据库。在：CVPR（2009）9. Donahue，J.，洛杉矶的亨德里克斯Guadarrama，S.，Rohrbach，M.，Venugopalan，S.，Darrell，T.，Saenko，K.：用于视觉识别和描述的长期递归卷积网络参见：CVPR（2015）10. Feichtenhofer，C.，Pinz，A.，Wildes，R.P.：用于视频动作识别的时空残差网络在：NIPS（2016）11. Feichtenhofer，C.，Pinz，A.，Wildes，R.P.：用于视频动作识别的时空乘子网络在：CVPR（2017）12. Feichtenhofer，C.，Pinz，A.，齐瑟曼，A.：卷积双流网络融合视频动作识别。见：CVPR（2016）13. Gaidon，A. Harchaoui，Z. Schmid，C.：用于有效动作检测的动作序列模型。在：CVPR（2011）14. Gorban，A.，Idrees，H.Jiang，Y.G.，Roshan Zamir，A.，拉普捷夫岛Shah，M.，Sukthankar ， R. ： THUMOS 挑战：具有大量类的动作识别。 http ： //www.thumos.info/（2015）15. 戈亚尔河Kahou，S.E.，Michalski，V.，Materzynska，J.，Westphal，S.，Kim，H.Haenel，V.，弗伦德岛Yianilos，P.，Mueller-Freitag，M. Hoppe，F.，图劳角巴克斯岛Memisevic，R.：学习和评估视觉常识的In：ICCV（2017）16. Gygli，M.，Grabner，H.，Riemenschneider，H.，Van Gool，L.：从用户视频创建摘要。In：ECCV（2014）17. Hara，K.，Kataoka，H.，Satoh，Y.：时空3D CNN可以追溯2D CNN和ImageNet的历史吗？来源：CVPR（2018）18. 他，H.，Garcia，E.A.从不平衡的数据中学习IEEE Trans.关于Knowl数据工

下载后可阅读完整内容，剩余1页未读，立即下载