4 Minho
Shim
,
Young Hwi Kim
,
Kyungmin
Kim
,
Seon Joo Kim
并且已经提出了诸如TSN[50]的更复杂的方案来在训练期间观看整个视频。
处理不平衡的数据集。真实数据本质上是不平衡的。我们看到人们一直在走
路,但很少看到一个人后空翻。能够处理每个类的数据数量不平衡的问题是机
器学习中的一个重要问题[18],但它尚未被广泛探索经典方法包括
启发式采样或调整成本函数,以反映类的频率[5,23]。也可以使用最近提出的
焦点损失[27],它根据类别是否被很好地分类来调整交叉熵损失。
时间动作定位。时间动作定位是指在未经裁剪的视频中提取目标视频片段的问
题。这个问题的基本方法[13,49]是通过滑动窗口划分剪辑,从剪辑中提取特
征,并将其传递给分类器。各种基于深度学习的解决方案[54,53,36]也已经
被
引入来解决这个问题。与其他任务相比,时间动作定位任务的精度仍然较低 有
人指出,缺乏精确度的主要原因是缺乏数据,因为难以注释数据集[54]。
文本-视频对齐。收集动作的密集注释是昂贵且耗时的。提出了几种方法来以弱
监督的方式学习时间定位我们的目标是给每个帧贴上相应的动作标签,只给出
动作序列,而不给出确切的时间戳。扩展CTC框架-
工作[19]被提出来评估所有可能的对齐,强制与帧间视觉相似性一致。另一种
方法[2]将问题表述为排序约束下的判别聚类的凸松弛。
3
棒球数据库
我们的棒球数据库(BBDB)的目标是为更高层次的视频理解提供一个具有挑
战性的基准。以前的数据集集中在字面上的人类动作,如跑步和跳跃。只有少
数数据集在视频上有精细的标签;例如密集详细标签[52,37]或密集标题[24]。
当一场体育比赛用一个在这些简单动作上训练过的视觉识别系统来分析时,检
索到的人类动作序列将不足以全面地理解比赛。这是因为体育比赛是一系列事
件,只能通过动作,顺序和语义信息的组合来解释。
构建大型视频数据集是具有挑战性的,特别是当任务需要标注的时间边界
时。标记视频涉及大量的人力,使得自动化这样的过程是动作检测算法的目标
之一。BBDB的标签以半自动的方式收集,利用在线播放的播放广播。通过这
种策略,我们可以大大减少人力劳动,并创建精确的时间注释。
在不同的视频领域中,棒球有许多优于其他领域的优势。首先,棒球规则明
确,统计数据丰富,异常现象较少。这就是为什么可以利用来自广播公司的逐
场播放文本来生成精确的片段位置。规则在验证步骤中也是至关重要的,以分
析系统是否正确地理解了事件和底层规则;例如,三振出局只能