大规模棒球视频数据集：教机器理解比赛的挑战与方法

105 浏览量更新于2024-06-20 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"BBDB（Baseball Event Dataset with Dense annotations for Big Baseball Data）是一个大规模的棒球视频数据集，由4200小时的棒球比赛视频组成，包含了400k时间注释的活动片段。这个数据集是通过利用在线提供的逐场比赛文本半自动生成的，旨在解决机器理解视频中的训练数据不足问题。BBDB的特点在于其包含大量视觉上相似但具有不同标签的片段，可应用于多种视频理解任务，如视频识别、定位、文本-视频对齐、视频亮点生成等。此外，BBDB也反映了数据不平衡的问题，这在实际应用中是一个普遍挑战。数据集的链接可以在提供的网站上找到，这对于研究者和开发者来说是一个宝贵的资源，可以测试和改进视频理解算法的性能。" 在本文中，作者指出了计算机视觉领域的最终目标——让机器理解视觉媒体，而深度学习的发展已经使得处理静态图像变得相对成熟。然而，视频的理解仍然是一个重大的挑战，因为它涉及到时间序列的分析，包括事件的连续性和运动的解析。 BBDB数据集的独特之处在于它的规模和多样性。它提供了大量的视觉相似但标签各异的场景，这对于训练模型识别细微差别和处理复杂场景至关重要。例如，数据集中区分了各种棒球比赛中的不同动作，如本垒打、二垒安打、三垒安打、内野打击等，这些都需要模型能够准确捕捉到运动员的动作和比赛的动态。此外，BBDB数据集可以支持多种视频理解任务。视频识别任务要求模型能够识别出视频中的具体事件，如击球、接球等。时间定位任务则需要模型精确地标记出事件在视频中的时间点。文本-视频对齐任务涉及将文本描述与视频内容匹配，这对自然语言处理和计算机视觉的交叉领域研究具有重要意义。视频亮点生成则关注找出视频中最有趣或关键的部分。数据不平衡问题在BBDB中也是一个关注点，这意味着某些事件可能比其他事件更频繁，这在真实世界的视频数据中很常见。解决这个问题需要开发能够处理不平衡数据的算法，以确保模型不会过度偏向于频繁出现的类别。总而言之，BBDB数据集提供了一个丰富的环境，用于研究和开发视频理解技术，尤其是针对体育赛事视频的理解。通过对这个数据集进行实验，研究者和开发者可以评估和优化他们的模型，以更好地应对视频理解的挑战，并推动相关技术的进步。

资源详情

资源推荐

4 Minho

Shim

，

Young Hwi Kim

，

Kyungmin

Kim

，

Seon Joo Kim

并且已经提出了诸如TSN[50]的更复杂的方案来在训练期间观看整个视频。

处理不平衡的数据集。真实数据本质上是不平衡的。我们看到人们一直在走

路，但很少看到一个人后空翻。能够处理每个类的数据数量不平衡的问题是机

器学习中的一个重要问题[18]，但它尚未被广泛探索经典方法包括

启发式采样或调整成本函数，以反映类的频率[5，23]。也可以使用最近提出的

焦点损失[27]，它根据类别是否被很好地分类来调整交叉熵损失。

时间动作定位。时间动作定位是指在未经裁剪的视频中提取目标视频片段的问

题。这个问题的基本方法[13，49]是通过滑动窗口划分剪辑，从剪辑中提取特

征，并将其传递给分类器。各种基于深度学习的解决方案[54，53，36]也已经

被

引入来解决这个问题。与其他任务相比，时间动作定位任务的精度仍然较低有

人指出，缺乏精确度的主要原因是缺乏数据，因为难以注释数据集[54]。

文本-视频对齐。收集动作的密集注释是昂贵且耗时的。提出了几种方法来以弱

监督的方式学习时间定位我们的目标是给每个帧贴上相应的动作标签，只给出

动作序列，而不给出确切的时间戳。扩展CTC框架-

工作[19]被提出来评估所有可能的对齐，强制与帧间视觉相似性一致。另一种

方法[2]将问题表述为排序约束下的判别聚类的凸松弛。

棒球数据库

我们的棒球数据库（BBDB）的目标是为更高层次的视频理解提供一个具有挑

战性的基准。以前的数据集集中在字面上的人类动作，如跑步和跳跃。只有少

数数据集在视频上有精细的标签;例如密集详细标签[52，37]或密集标题[24]。

当一场体育比赛用一个在这些简单动作上训练过的视觉识别系统来分析时，检

索到的人类动作序列将不足以全面地理解比赛。这是因为体育比赛是一系列事

件，只能通过动作，顺序和语义信息的组合来解释。

构建大型视频数据集是具有挑战性的，特别是当任务需要标注的时间边界

时。标记视频涉及大量的人力，使得自动化这样的过程是动作检测算法的目标

之一。BBDB的标签以半自动的方式收集，利用在线播放的播放广播。通过这

种策略，我们可以大大减少人力劳动，并创建精确的时间注释。

在不同的视频领域中，棒球有许多优于其他领域的优势。首先，棒球规则明

确，统计数据丰富，异常现象较少。这就是为什么可以利用来自广播公司的逐

场播放文本来生成精确的片段位置。规则在验证步骤中也是至关重要的，以分

析系统是否正确地理解了事件和底层规则;例如，三振出局只能

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

大规模棒球视频数据集：教机器理解比赛的挑战与方法

机器学习讲解

实例详解机器学习如何解决问题

sports sounds pro 6.0.13

sportsoundspro播音软件

react hooks实现数字记分牌效果

基于Springboot的甘肃非物质文化网站的+源代码+演示视频.zip

技术资料分享cadence技术资料（003）.zip

Av1an-1.7.0-py3-none-any.whl.zip

gergel_isopropyl_bromide.pdf

Av1an-1.12.2-py3-none-any.whl.zip

电力及公用事业行业周报：2023年上半年储能装机规模快速增长，辅助服务市场规模扩容.pdf

大数据处理框架：Spark：Scala编程基础.docx

2024科目四速记口诀.pdf

大数据处理框架：Spark：Spark基础架构与原理.docx

小北使用Python和pyecharts对我校通信学院2024大数据专业就业情况进行中国地图可视化

数据集成工具：Talend：Talend数据集成中的安全与合规性.docx

Vue第六天.xmind

最新资源