UCSD研究：无偏数据集校准法RESOUND提升动作识别准确度

171 浏览量更新于2024-06-20 收藏 1.14MB PDF 举报

本文主要探讨了在计算机视觉特别是行动识别领域，数据集偏见问题的重要性及其对模型性能的影响。大型数据集如ImageNet和MSCOCO在推动CNN技术进步中发挥了关键作用，然而，这些数据集可能存在表示偏差，即模型可能在非真实世界的表示上表现良好，而忽视了实际应用场景中的多样性。这种现象被称为数据集校准不良。为了应对这一问题，作者们提出了名为RE-SOUND（Representative Sample-based ON-balance Data Sampling）的程序，它旨在量化并最小化数据集的代表性偏见。RE-SOUND的两个版本，一是显式版本，通过有意识地采样现有数据集以创建新的平衡数据集；二是隐式版本，通过指导数据集的创建，如在研究中开发的Div-ing48，这个包含18,000多个潜水动作视频片段的精细分类数据集，旨在覆盖48个不同的潜水类别，减少静态表示的偏见。文章指出，传统数据集中，静态表示（如物体、场景和人物）往往倾向于占据主导地位，而在视频分类任务中，尤其是涉及时间维度的活动识别，如区分"playing music inside"和比赛中的不同运动模式，动态表示（视频的时空布局变化）是必不可少的。RE-SOUND通过考虑这些动态特性，帮助纠正了当前数据集在静态偏见上的不足。实验结果显示，RE-SOUND的有效应用显著降低了当前数据集的静态偏差，这对于提升动作识别模型的泛化能力和公平性至关重要。这表明在构建和评估数据集时，需要更深入地考虑各种表示层次，确保数据集不仅包含丰富的样本，而且在各个层次上都有均衡的代表性，从而促进计算机视觉技术的健康发展。

Yingwei Li，Yi Li，Nuno Vasconcelos

相关工作

动作识别有许多可能的偏差来源。早期的数据集（Weizmann [2]，

KTH [14]）是在受控环境中收集的，最大限度地减少了静态偏差。然

而，大多数类是可区分的短期运动水平。这些数据集对于训练深度

CNN来说也太小了。现代数据集，如UCF101 [18]，HMDB51 [10]，

ActivityNet [3]和Kinetics [8]的大小和类别数量都要大得多然而，它们

有很强的静态偏见，使静态表示表现得出奇的好。例如，具有3帧输

入的时间段网络[22]的RGB流在UCF101上达到85.1%的准确度。

数据集的偏差可能导致对不同表示的优点得出错误结论的想法并

不新鲜。它激发了在细粒度分类中的努力，其中类在窄域中定义，例

如。[21][22][23][24][25][26][28][29][ 这消除了在更一般的问题中存在

的许多偏差大规模通用对象识别数据集，如ImageNet，通过广度和深

度的混合来解释这一点，即。通过包含大量的类，但使它们的子集细

粒度。对于动作识别，偏见对不同表征的评估的影响更为微妙。一般

的规则是，表示在更高级别的时间歧视层次结构需要更细粒度的视频

识别。然而，它不足以考虑细粒度的识别问题。如魏茨曼和KTH所

示，即使静态偏差被消除，短期运动偏差也足以用于类别区分。

流行的细粒度动作识别数据集是MPII烹饪活动数据集[13]。它有一

些静态和运动偏差的控制，通过捕捉同一个厨房中的所有视频，使用

静态相机，并专注于食物准备者的手。然而，因为它集中于短期活

动，诸如因此，它不能被用来调查的重要性，在更高层次的时间歧视

层次的代表此外

，还可以将区分的内容设置为（

例如

）。

“

cut t i

n g”v s

这与现在提出的Diving48数据集不同，其中所有类都具有相

同的对象（潜水员）和类似的短期运动形式。

最近，[15]通过考虑多个数据集和算法来分析动作识别，并指出了

算法设计的未来方向。在这项工作中，我们更专注于数据集组装的过

程。这是一个新的想法，我们不知道任何数据集具有显式控制表示偏

差。虽然预计数据集作者会考虑这个问题，试图控制一些偏差，不

知道这些是什么，偏差也没有被量化。事实上，我们不知道以前有任

何尝试开发一个客观和可复制的程序来量化和最小化数据集偏差，如

RESOUND，或具有客观量化偏差的数据集，如Diving48。

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

UCSD研究：无偏数据集校准法RESOUND提升动作识别准确度

一种改进的运动目标检测方法

一种改进的自适应运动目标检测算法

数据结构算法Coursera-UCSD-HSE：UC San Diego和HSE的数据结构和算法Coursera专业化

Decorator:为整个校园的Web开发人员提供一种简便的方法来构建具有UC San Diego品牌并包含视觉识别标准的页面

OOP-Java-Course:Java Coursera课程（UC San Diego）中与OOP相关的文件

sandiego airport 高光谱数据

UC-SanDiego-BigData-Specialization

San Diego高光谱数据

Py4-DS：数据科学入门课程：UC San DiegoX

gamedev2CS:卡门·桑迪戈（Carmen Sandiego）启发游戏

最新资源