没有合适的资源?快使用搜索试试~ 我知道了~
回应:走向无代表偏见的行动识别Yingwei Li,Yi Li,Nuno VasconcelosUC San Diego{yil325,yil898,nvasconcelos}@ ucsd.edu抽象。虽然大型数据集已被证明是计算机视觉进步的关键推动因素,但它们可能存在偏见,导致错误的结论。提出了数据集的表示偏差的概念它捕捉到这样一个事实,即除了地面实况表示之外的表示可以在任何给定的数据集上实现良好的性能。在这种情况下,数据集被认为不是校准良好。数据集校准被证明是一个必要条件的标准国家的最先进的评估实践收敛到地面实况表示。一个程序,RESOUND,提出了量化和最小化的代表性偏见。它的应用问题的动作识别表明,目前的数据集偏向于静态表示(对象,场景和人)。研究了RE-SOUND的两个版本。提出了一种显式RESOUND过程,通过对现有数据集进行采样来组装新数据集。隐式RE-SOUND程序用于指导创建新的数据集Div-ing 48,该数据集包含超过18,000个竞争性潜水动作的视频剪辑,跨越48个细粒度潜水类。实验评估证实了RESOUND降低当前数据集静态偏差1介绍近年来,卷积神经网络(CNN)在图像理解问题(例如对象识别或语义分割)中取得了巨大一个关键的促成因素是引入了大规模图像数据集,如ImageNet、MS COCO等。它们有两个主要的特性。首先,它们包含足够的样本来约束现代CNN的数百万个参数。其次,它们涵盖了足够多的视觉概念,使学习的视觉表示,概括了许多任务。虽然在视频方面也进行了类似的努力,但进展较慢。一个困难是视频类别可以在不同的时间跨度上被区分。这就导致了时间歧视的表现层次。跨越单个视频帧的静态表示位于该层次结构的底部。当静态线索(诸如对象)对于不同的视频类是判别式的时,它们足以用于视频分类例如,在Acti v i t y Ne t [ 3] d if r n t的“playing mu s i c i n s i n t”组中的类存在于下一个层次是短期运动表示的层次,通常基于光流,跨越一对帧。他们足够了2Yingwei Li,Yi Li,Nuno Vasconcelos当类具有相同的静态线索,但不同的短期运动模式时。最后,层级的顶层包括视频动态的表示。这些解决了具有相同的静态元素和短期运动的视频类,但是这些元素的时间布置不同。在奥林匹克运动会的比赛中,它们被分为显然,更复杂的时间推理需要更高层次的表示。不太清楚的是如何评估不同级别的动作识别的相对重要性。当前的视频CNN倾向于使用非常简单的时间表示。例如,流行的双流CNN模型[17]用处理光流的流来增强静态CNN。已经尝试部署具有更复杂的时间表示的网络,例如RNN [24,5]和3D CNN [7,20],但现有的基准尚未产生支持这些模型的有力证据。目前尚不清楚这是模型的局限性还是基准的局限性。一个可疑的观察是,在许多现有的数据集上,静态表示实现了相当好的性能。这是因为数据集表现出至少三种类型的静态偏差。第一个是客体偏见。例如,一个钢琴探测器就足以分辨出这一类。第二个是场景bias。作为示例,当背景为“全部”并且位置判断为具有不同的时间模式时最后,经常会有一个人作为B。虽然类似于“穿着军装”的视频通常包含较长的穿着军装的群体的镜头,但“军队行进”视频通常包含较长的穿着军装的群体的应该指出的是,偏见本身并没有什么错。如果人检测器对于识别某些动作是有用的,则动作识别系统应该使用人检测器。问题是,如果在数据集组装过程中不小心,这些偏差可能会破坏动作识别系统的评估。例如,一个动作识别数据集可以通过拼凑足够多的对象检测器来解决。这将引出这样的推断:“act i on rec 〇 g i n i n i n”是完全由jec t e 〇 g i n i n i n i n构成的。“大多数视觉研究人员可能会对这种方法持怀疑态度。该问题由以下事实复杂化:偏差甚至不需要是明显的,因为现代设计可以容易地识别并且“过度适应”由于进行了一次知识性的数据收集而导致的任何偏差。最后,更糟糕的是,偏见是累积的,即。静态偏置与运动偏置和动态偏置相结合以实现人工辨别。因此,调查某一层级的表征的重要性需要消除其下所有层级的偏差。社会科学家经常面临这些问题,他们花了大量时间研究“控制论”:一个关于研究对象是否存在“控制论”的研究必须考虑诸如年龄、财富或家族史等“控制论”因素,因此选择研究对象时要避免对这些因素中的任何一个产生偏见。回响3同样,视觉研究人员只有在不偏向某些表征的情况下,才能从他们的数据集中得出结论在这项工作中,我们调查的问题,组装数据集没有这样的偏见。尽管最近在数据集收集方面做出了广泛的努力,但令人惊讶的是,这个问题很少受到关注。一个原因是,直到最近,视觉研究者还在关注更基本的偏差形式,例如数据集偏差[19],它捕捉了在一个数据集上训练的算法如何推广到同一任务的其他数据集。数据集偏倚可以用经典的偏倚和方差统计工具进行分析。它的发生是因为1)学习算法是统计估计器,2)从太少的数据估计有很高的变异性和概括性差。随着大型数据集的引入,如ImageNet [4],数据集偏差在过去几年中已经大大减少。然而,简单地收集更大的数据集并不能消除代表性偏见。虽然数据集偏差是算法的一个属性(通过大型数据集得到改善),但表示偏差是数据集的一个属性。与社会科学研究一样,只有在数据集收集过程中控制偏差才能避免这种情况。我们用一个校准良好的数据集的概念来形式化这个概念,它只支持手头的视觉任务的地面实况表示,即。对于其他表示没有显著的偏差。然后,我们表明,如果数据集经过良好的校准,则识别该区域的状态的标准Vision方法仅与地面实况表示一致这推动了数据集的表示偏差的新度量,其指导新的RepreSentatiOn无偏差数据集(RESOUND)收集框架。RESOUND是一个通用过程,适用于许多任务的数据集组装。它的显著特征是它1)显式地定义了一个表示类的集合,2)量化数据集相对于它们的偏差,以及3)使得能够制定用于组装无偏差数据集的显式优化方法。在这项工作中,这是在两个方面。首先,通过使用RESOUND来指导一个新的视频数据集Diving48的组装,旨在研究不同层次的表示层次结构对动作识别的重要性。这是一个竞技跳水的数据集,静态表示几乎没有明显的偏差。RESOUND用于量化这些偏差,表明它们比以前的动作识别数据集小得多第二,通过制定一个优化问题,以最小的表示偏差,从现有的数据集采样新的数据集。总的来说,本文做出了四个主要贡献。首先,它形式化了表征偏差的概念,并为如何测量它提供了一些理论依据。其次,它引入了一个新的数据集收集程序,RESOUND,1)迫使视觉研究人员建立视觉任务的控制(代表家庭的偏见计算),和2)客观量化的代表偏见 。 第 三 , 它 通 过 引 入 新 的 动 作 识 别 数 据 集 Diving48 来 证 明RESOUND的有效性,该数据集大大减少了以前数据集的一些偏差第四,RESOUND过程也用于对现有数据集进行采样以减少偏差。4Yingwei Li,Yi Li,Nuno Vasconcelos2相关工作动作识别有许多可能的偏差来源。早期的数据集(Weizmann [2],KTH [14])是在受控环境中收集的,最大限度地减少了静态偏差。然而,大多数类是可区分的短期运动水平。这些数据集对于训练深度CNN来说也太小了。现代数据集,如UCF101 [18],HMDB51 [10],ActivityNet [3]和Kinetics [8]的大小和类别数量都要大得多然而,它们有很强的静态偏见,使静态表示表现得出奇的好。例如,具有3帧输入的时间段网络[22]的RGB流在UCF101上达到85.1%的准确度。数据集的偏差可能导致对不同表示的优点得出错误结论的想法并不新鲜。它激发了在细粒度分类中的努力,其中类在窄域中定义,例如。[21][22][23][24][25][26][28][29][ 这消除了在更一般的问题中存在的许多偏差大规模通用对象识别数据集,如ImageNet,通过广度和深度的混合来解释这一点,即。通过包含大量的类,但使它们的子集细粒度。对于动作识别,偏见对不同表征的评估的影响更为微妙。一般的规则是,表示在更高级别的时间歧视层次结构需要更细粒度的视频识别。然而,它不足以考虑细粒度的识别问题。如魏茨曼和KTH所示,即使静态偏差被消除,短期运动偏差也足以用于类别区分。流行的细粒度动作识别数据集是MPII烹饪活动数据集[13]。它有一些静态和运动偏差的控制,通过捕捉同一个厨房中的所有视频,使用静态相机,并专注于食物准备者的手。然而,因为它集中于短期活动,诸如因此,它不能被用来调查的重要性,在更高层次的时间歧视层次的代表此外,还可以将区分的内容设置为(例如)。G. “cut t in g”v s. 这与现在提出的Diving48数据集不同,其中所有类都具有相同的对象(潜水员)和类似的短期运动形式。最近,[15]通过考虑多个数据集和算法来分析动作识别,并指出了算法设计的未来方向。在这项工作中,我们更专注于数据集组装的过程。这是一个新的想法,我们不知道任何数据集具有显式控制表示偏差。虽然预计数据集作者会考虑这个问题,试图控制一些偏差,不知道这些是什么,偏差也没有被量化。事实上,我们不知道以前有任何尝试开发一个客观和可复制的程序来量化和最小化数据集偏差,如RESOUND,或具有客观量化偏差的数据集,如Diving48。回响5n3表示偏差在本节中,我们将介绍代表性偏见的概念,并讨论如何避免它。3.1数据集偏差虽然已经为计算机视觉收集了许多数据集,但在建立它们的客观和定量表征方面进展有限。多年来,视觉研究人员对“良好的数据集性能”产生了健康的怀疑。人们早就知道,在给定数据集中表现良好的算法不一定在其他数据集中表现良好。这被称为数据集偏倚[19]。近年来,为消除这种偏见作出了重大努力,并取得了重大成功。这些进展是由众所周知的统计学原理指导的这是因为使用交叉熵损失学习的CNN是地面实况参数θ的最大似然(ML)估计量θ。在这个讨论中考虑一个更简单的问题,即在掷硬币中估计正面概率p给定数据集D ={x1,. . . ,xn}的样本,ML估计量是众所周知的样本均值1ΣpML=nXi.(一)我多年来,统计学家已经开发了许多衡量这些算法好坏的方法。最常用的是偏差和方差Bias(p<$ML)=E[p<$ML]−p( 2)V ar(pML)=E[(pML−E[pML])2]。(三)已知(1)的算法是无偏的,并且具有随着时间的增长而减小的方差,达到Va r(p(ML)=1p(1-p)。 对于许多ML算法,包括CNN学习,可以导出类似但更复杂的公式。这些结果证明了在多个数据集上进行评价的常见做法是正确的。如果算法是最优算法的无偏估计,则平均而言,它将产生最优结果。如果它也具有低方差,则当应用于任何数据集时,它都会产生接近最佳的结果因此,当在几个数据集上进行评估时,该算法可能会击败其他算法并成为最先进的算法。不是在“数据库”的共同定义[ 19],即。e. 算法在数据集A上表现良好,但在数据集B上表现不佳,这仅仅意味着算法具有大的方差。由于方差随着数据集大小n而减小,因此一直都知道,为了避免它,数据集应该“足够大”。近年来广泛的数据收集工作产生了更多的人类生物多样性的结果。G. “1,000倍放大率”,其足以控制当前CNN模型的方差。6Yingwei Li,Yi Li,Nuno Vasconcelos3.2表示偏差不幸的是,数据集偏差并不是影响视力的唯一偏差。第二种,也是更微妙的偏见是代表性偏见。为了理解这一点,我们回到抛硬币的例子。对于世界上大多数硬币,正面的概率是p = 0。5.然而,数据集研究人员可能只能访问有偏差的硬币,比如p = 0。3.通过使用(1)的算法来估计p,如果n足够大,研究人员最终会得出p = 0的结论。3.此外,使用(2)-(3),他会得出结论,不存在数据集偏差,并向世界宣布p = 0。3.请注意,这种做法并没有错,除了最后的结论是p = 0具有某种普遍性。3.相反,由于科学家使用了有偏差的数据集,他得到了有偏差的回答。重要的观察结果是,标准数据集收集实践(诸如“makenlarge”)将不会解决这个问题。所述表示具有作为表示的性质的附加的数据另一方面,表示偏差是数据集的一个属性。虽然在多个(或更大的)数据集Di上评估表示φ是检测数据集偏差的有效方式,但是表示偏差只能通过比较数据集D上的多个表示φi的性能来检测。更重要的是,这两者是不相关的,在这个意义上,表示Φ可以对数据集D无偏置,即使当D对Φ具有强偏置时。因此,标准的评估实践,主要是衡量数据集的偏见,不能保证他们的结论不受代表性偏见。这个问题在计算机视觉中很难避免,因为偏差可能非常微妙。例如,背景中的单个对象可能会泄露视频的类别当然可以组装可以通过某些对象的存在或不存在来区分的视频类的数据集这并不意味着对象识别足以用于视频分类。只是数据集偏向于基于对象的表示。为了避免这个问题,必须对数据集进行良好的校准。3.3校准数据集表征是视觉世界的某些属性的数学表征例如,光流是运动的表示一个表示φ可以用来设计许多算法γφ来完成任何感兴趣的任务,例如使用光流对视频进行分类的不同算法表示族R是共享某些属性的表示的集合。例如,静态表示族包括单个图像的视觉属性的所有表示,即不考虑运动的表示。令M(D,γ)是性能的度量,例如分类精度,算法γ在数据集D上的分类精度。表示φ的性能被定义为M(D,φ)= maxM(D,γφ)(4)γφ回响7其中,基于该表示,在所有算法中取最大值。表示偏差反映了数据集D对某个表示φ具有偏好的事实,即M(D,φ)是高的。数据集偏好φ的事实不一定是好或坏。事实上,所有数据集都被期望偏向于地面真值表示(GTR)φg,这是解决视觉问题真正需要的表示。如果该表示具有最佳性能,则称数据集D被良好校准φg=arg maxM(D,φ)(5)φ并且最大值是唯一的,即,M(D,φ)M(D,φg)φ<φg.(六)一般来说,GTR是未知的。视觉中常用的代理是最先进的(SoA)表示φsoa= arg maxM(D,φ)(7)φ∈S其中S是文献中提出的表示的有限集合 如果数据集D被很好地校准,则φ soa将随着S扩展而收敛到φ g,即因为测试了更多的代表。当D没有很好地校准时,这是不能保证的。不幸的是,通常不可能知道情况是否另一种方法是测量偏差。3.4测量表示偏差虽然在数据集上的最佳可能性能,例如分类任务的贝叶斯错误通常是不可能确定的,相反,对于最差的性能成立。对于分类,这对应于将示例随机分配到类,或“机会水平性能”。这表示为Mrnd= min M(D,φ)。(八)φ表示φ的数据集D的偏差被定义为B(D,φ)= log M(D,φ)。(九)Mrnd当偏差为零时,表示具有机会水平性能,并且数据集对于表示是无偏的。一个数据集,其中(5)成立,但(6)不成立,因为存在一个表示族R,使得M(D,φ)=M(D,φg)φ∈R,可以通过添加数据D′来很好地校准,这减少了对R中表示的偏差,即B(D∪D′,φ)B(D,φ)φ∈R,同时保证(5)仍然成立。<类似地,数据集可以被设计为最小地偏向表示族R。这包括选择数据集D*=arg min maxB(D,φ)(10)D∈T(φg)φ∈R8Yingwei Li,Yi Li,Nuno Vasconcelosγφk,r算法1:表示偏差。输入:数据集D;表示族{R1,. . . ,Rk}。输出:表示偏差{bl,. . . ,bK}。1 对于k = 1,. . . ,K do2Rk=Rk中的表示数;3对于r = 1,. . . ,R kdo4Mk,r=基于表示φk,r的算法的数量;5对于m = 1,. . . ,M k,rdo6Mφk,r :基于φk,r的第m个算法;测量M(D,γm)7端8用(4)测量M(D,φk,r9用(9)测量偏差B(D,φk,r10端11计算bk= maxrB(D,φk,r);12 端其中T(φg)是(5)成立的数据集的集合注意,约束D ∈ T(φg)有点多余,因为它必须适用于任何有效的数据集收集工作。它只是意味着数据集是对象识别数据集或动作识别数据集。组装这些数据集的研究人员已经需要确保他们分别为对象识别或动作识别的GTR分配最高分数。(10)的主要新颖性是数据集也应该最小限度地偏向表示族R的概念。3.5在类级别测量偏差定义(9)可以扩展到测量类水平偏差。考虑一个C类的数据集。不同于使用单个分类问题来测量M(D,φ),定义了C个one-vs-all二元分类器c类的偏差定义为B(D,φ)= logMc(D,φ),(11)cMrnd其中Mc是分类问题上的性能,其与所有其他类别相反为了减轻样本不平衡的影响,性能用平均精度而不是分类精度来衡量。4RESOUND数据集集合通常,不可能保证数据集最小地偏向于不包含φg的所有表示族。事实上,通常不可能列出所有这样的家庭。可能的是定义一组表示族Ri,数据集旨在对其无偏,测量每个Ri中至少一个表示的数据集的偏差,以及回响9yyKK显示偏差小于文献中先前的数据集。这被表示为REpreSentatiOn无偏数据集(RESOUND)集合。算法1总结了测量数据集偏倚所采取的有两种策略可以在实践中实现RESOUND第一种是显式优化,其中数据集D*由算法产生例如,这可以从现有数据集D开始并且添加或消除示例以便优化(10)。第二种是隐式优化,它识别相对于表示族R可能是无偏的类。例如,如果R是对象表示的族,则这需要定义在前景或背景中没有可区分对象的类接下来,我们通过将RESOUND应用于动作识别问题来说明这一点。4.1显式响应一个可能的策略是从现有的数据集D中选择K个类来组装一个偏差最小的K类数据集D*。设D有C > K个类,即一组类标签Di={di,. . .,dC},其中di表示D的第i类.目标是找到D * 的标签集,即集合D*={c1,. . .,cK},使得:1)如来自D的公式所示,即e. ci∈Dy;2)ciareuuualyexclusive,ci=/cj,i/=j;3)D*有最小偏差.然后,使用(11)的类级偏差测量导致以下优化问题。D*= arg minc1,…cK ∈DyΣKk=1Bc(D*,φ)(12)服从1≤ci≤C;ci/=cj,i/=j(13)由于这是一个组合问题,全局最优只能通过穷举搜索来实现此外,由于类ck的偏差Bc(D*,φ)依赖于D*中的其他类,因此必须计算每个类配置的偏差。对于较小的K值,该搜索的时间复杂度是可接受的。如何扩大这一过程的问题留给未来的研究。4.2隐式RESOUND:Diving48数据集在本节中,我们将描述RESOUND在创建动作识别数据集Diving48中的应用。 这项数据收集工作的目标是能够进一步研究“什么是行动记录的正确代表级别?”然而,当前的数据集显示出可能导致这一结论的偏差,即使它是不正确的。通过产生没有(或小)这样的偏差的数据集,我们期望使用它来研究短期运动与长期动态表示的重要性。由于我们对静态线索的作用不感兴趣,因此数据集应该对静态表示无偏见。但是,要全部考虑到就太难10Yingwei Li,Yi Li,Nuno Vasconcelos静态线索为了使问题易于管理,我们决定强调现有数据集中最普遍的静态偏差:对象,场景和人。为此,我们考虑了竞技跳水领域。由于各种原因,潜水是研究动作识别的一个有趣的领域首先,存在动作(潜水)类的有限集合,其由FINA [1]明确地定义和标准化。第二,潜水在细微的子组件上有所不同,这些子组件被称为元素,潜水员执行这些子组件并根据这些子组件进行评分由于[1]中定义的一些潜水很少由运动员执行(由于其难度),因此选择了48个潜水的子集作为Diving48数据集的类别。第三,也可能是最重要的,潜水场景比通常用于动作识别的其他场景产生的偏差要少得多这是因为每次比赛都有许多不同的潜水员,没有背景物体可以泄露潜水类别,所有潜水中的场景往往非常相似(背景中的板,池和观众),并且潜水员或多或少具有相同的静态视觉属性。通过这种方式,潜水领域解决了我们已经着手消除的所有偏见。这通过比较Diving48与以前数据集的偏差来验证因为网上有很多跳水视频,所以比较容易找到并下载足够数量的在大型跳水比赛中拍摄的跳台和跳板视频然而,这些事件视频通常不被分段。它们通常是长视频,包括数百个潜水实例,由不同的潜水员执行,并从不同的相机视图和不同的播放速度重播。为了简化标记过程 , 视 频 被 自 动 分 割 成 大 约 一 分 钟 长 的 片 段 , 然 后 在 AmazonMechanical Turk上进行注释,其中有两个主要任务。第一个是在潜水开始前转录出现在每个剪辑中的信息板。这包含Meta信息,如潜水类型和难度分数,用于生成数据集的地面实况。第二个是通过确定潜水的开始和结束视频帧并标记回放视图和速度来精确地分割每个潜水实例。每个分割任务被分配给3个Turker,并且使用基于IOU时间间隔的多数投票来减少标记噪声。这产生了18,404个分段潜水视频剪辑,用于创建Diving48。随机选择16,067个片段作为训练集,其余2,337个片段作为测试集。为了避免某些比赛的偏差,训练/测试分割保证了并非来自相同比赛的所有剪辑都被分配到相同的分割中。图1显示了一个前缀树,它总结了数据集中的48个潜水类每个类由从根节点到叶节点的路径定义例如,跳水32由序列“向后起跳-1.5个筋斗-半个筋斗,其中有一个自由的身体”定义。并非所有类之间的差异都需要动态的细粒度表示。例如,跳水16和跳水18只在翻筋斗的次数上不同;而跳水33和跳水34只在飞行姿势上不同。回响11图1.一、Diving48中的潜水类定义为前缀树。5实验进行了三组实验。第一个是RESOUND实验,旨在测量现有和提议的Diving48数据集的偏差。第二个是为了确认现有数据集的RESOUND采样第三部分针对动作识别中动态建模的重要性这一原始问题进行了研究。5.1数据集将Diving48的偏差与七个流行数据集的偏差进行比较,其统计数据如表1所示。KTH [14],Hollywood2 [11]是在视频动作识别的早期历史中引入的小数据集。收集资料以更受控的方式,例如固定背景HMDB51 [10]和UCF101 [18] 是 现代 数据 集 ,具 有更 大 的规 模和 更 少的 视频 约 束。ActivityNet [3],Kinetics [8]和Charades [16]是最近通过众包收集的三个数据集。所有实验均用于正式的列车/测试拆分对于每个数据集。数据集水平偏差用(9)测量,使用准确度作为性能度量。对于类水平偏差,在(11)中使用平均精度5.2RESOUND实验进行了一组RESOUND实验,以比较Diving48和现有数据集的表示偏差。在算法1中考虑了三个静态偏差,使用三个表示族R={R对象,R场景,R人}。对于每个家族,我们考虑了单个表示-CNN特征和一个起跳空翻转体飞行位置潜水等级id36TUTUCK皮克皮克12Somer2_5512Yingwei Li,Yi Li,Nuno Vasconcelos表1. 各种视频动作识别数据集的统计和偏差。数据集样本数量#类avg. #帧B(D,φobject)B(D,φ场景)B(D,φ人)Mrnd第k5996482.71.471.391.470.17好莱坞282310345.21.691.611.640.10HMDB5167665196.63.162.922.980.020UCF10113320101187.34.334.094.230.010ActivityNet281082001365.53.693.373.490.0050动力学429256400279.14.513.964.310.0025字谜99618157310.02.122.012.040.0063护士481840448159.61.481.261.440.021单算法ResNet50 [6]。这些网络的训练方式各不相同:φobject在1,000个图像Net的图像上训练[4],φs在Places365场景分类数据集的365个场景类上训练[25],φpeople在COCO属性数据集的204类人属性上训练[12]。使用这些网络,无需微调,以测量每个数据集的代表性偏差。在每视频帧的倒数第二层然后使用交叉熵损失训练线性分类器然后将其应用于从每个测试剪辑均匀绘制的25个帧,并对预测分数进行平均以获得剪辑级分数。最后,剪辑被分配到最大得分的类别根据(9),所得分类率用于计算偏差B(D,Φ所有数据集的偏倚见表1。注意,偏差是对数度量,偏差的小变化可能意味着识别准确度的非平凡差异从表中可以得出一些意见首先,所有现有的数据集都比Diving48有更大的偏差。这表明,后者更适合研究动作识别中动力学的重要性。其次,所有数据集对物体,然后是人,然后是场景都有更强的偏见有趣的是,每个数据集的三个偏差都是相似的。这表明任何数据集的偏差之间存在相互依赖性。第三,所有偏差在数据集之间都有很大差异。显然,数据集大小似乎并未减轻偏倚量:最大的数据集(动力学)也是最有偏差的。这表明,虽然是减轻数据集偏差的好策略,但简单地增加数据集大小并不能解决表示偏差的问题。另一方面,小数据集并不能保证低代表性偏差。例如,UCF101相对较小,但具有第二大平均偏差,并且是对场景表示最强烈偏差的数据集。第四,偏见似乎与班级数量呈正相关。这是很直观的。但是,请注意,这种效果取决于数据集的组装方式。例如,HMDB51有许多类似于Diving48的类事实上,Diving48的偏倚与6类KTH数据集的偏倚相当。然而,与类别数量的正相关性表明,随着数据集的增长,表示偏差将成为一个更重要的问题。当然,最近的一些数据集,例如。ActivityNet和Kinetics具有一些最大的代表性偏见。回响13人RR第k好莱坞2HMDB51UCF101对象人场景人民场景ActivityNet对象场景人民对象动力学场景人字谜对象烯护士48对象图二. 支配类偏差φc* 的分布。5.3班级主导性偏见接下来,我们使用(11)在类级别上评估偏差对于每个类c,支配偏差φc*由下式确定:r*= arg max Bc(D,φ r)。(十四)R图2总结了表1中每个数据集的主要偏倚分布。很明显,所有数据集的大多数类都主要偏向于对象表示。然而,不同的数据集具有不同的偏差属性。例如,KTH类比场景表示更偏向于人表示,而Hollywood2则相反Diving48的分布最均匀这些图可用于导出关于如何减轻不同数据集的偏差的指南例如,可以通过用其中对象不出现、具有更大的外观和/或运动多样性等的视频来增强其占主导地位的所有类别来减少对象偏差5.4显式响应我们还研究了使用(13)的显式RESOUND过程从现有的有偏数据集创建无偏数据集的可能性由于大的计算复杂度,我们到目前为止仅使用K= 3。这更多地是为了测试该方法的可行性,而不是实际的解决方案,这将需要开发专用的优化算法。为了测试显式RESOUND采样的有效性,将所得数据集的偏倚与随机采样获得的偏倚进行比较表2显示,在所有情况下,显式RESOUND产生的数据集比随机抽样产生的数据集具有显著更小的偏差。并且优化结果具有直观意义,例如。对于ActivityNet,所选择的类是{“Hanging wal l p p e r”,“Installing c a r pe t”,“P a n t i n g”},其中每个类都具有hold d ac t i on。5.5动态分类最后,我们使用Diving48来研究动态对动作识别的重要性。我们的目标不是引入新的算法,而是依靠对象场景对象对象人民peo场景人场景14Yingwei Li,Yi Li,Nuno Vasconcelosy表2.显式RESOUND(D*)抽样后的偏差。在10次运行中评价随机取样的结果(Drand),并报告为平均值土标准差。φ=φ〇bjectφ= φ场景φ=φ人数据集∗B(Dy,φ)B(Drand,φ)∗B(Dy,φ)B(Drand,φ)∗B(Dy,φ)B(Drand,φ)第k0.390.99 ± 0.090.290.80 ±0.170.440.86 ± 0.20好莱坞20.440.86 ± 0.070.280.66 ±0.130.330.68 ± 0.08HMDB510.000.82 ± 0.540.000.99 ±0.050.000.90 ± 0.13UCF1010.551.08 ± 0.020.651.02 ±0.090.461.08 ± 0.02ActivityNet0.410.89 ± 0.100.140.79±0.090.000.84 ± 0.11动力学0.411.00 ± 0.110.301.01 ±0.080.330.94 ± 0.11字谜0.000.62 ± 0.200.000.67 ±0.180.000.73 ± 0.14表3.Diving48上的识别精度。TSN(RGB)TSN(流量)TSN(RGB+Flow)C3D(L=8)C3D(L=16)C3D(L=32)C3D(L=64)16.7719.6420.2811.5116.4321.0127.60现成的动力学模型。用于该评估的现有模型包括TSN [22]和C3D [7]。对于C3D,变化的帧数L是动态建模程度的客观度量。我们设置L=8、 16、 32和64。Diving48上的动作识别性能如表3所示。首先,具有最大程度的动力学建模的最佳表现的C3D模型实现了最佳结果,验证了Diving48不仅仅是流动建模。其次,C3D结果随着L单调地改善,表明需要中等水平的动态建模来在该数据集上实现良好的性能。尽管如此,最好的整体表现(27.60%)仍然相当低。这表明需要对更复杂的动态表示进行研究。6结论在本文中,我们介绍了良好校准的数据集和表示偏差的概念,以及客观 量 化 数 据 集 的 表 示 偏 差 的 RESOUND 算 法 。 显 式 优 化 形 式 的RESOUND的实例化用于对现有数据集进行采样,以便组装具有较小偏差的新数据集。RESOUND的另一个实例用于比较新动作识别数据集Div-ing 48与文献中的静态表示偏差。这表明,现有的数据集对静态表示有太多的偏见,无法有意义地评估动态在动作识别中的作用。Diving48被证明具有更小的偏差,是此类研究的更好候选者。静态表示和3D CNN的初步分类结果表明,动态建模对于动作识别确实很重要。我们希望这项工作,以及建议的数据集,将激发兴趣的动作识别任务,没有静态偏见,以及研究模型的视频动态。我们还希望像RESOUND这样的程序在视觉中变得更加普遍,从而实现1)更科学的数据集收集方法,以及2)控制可能破坏视觉实验得出的结论的因素。回响15引用1. F'ed'erati on int e rnaational e d e nation. 公司简介finna. o rg/2. Bregonzio,M.,龚,S.,Xiang,T.:将动作识别为时空兴趣点的云。在:计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议。pp. 1948-1955年。IEEE(2009)3. Caba Heilbron,F.,Escorcia,V.加尼姆湾Carlos Niebles,J.:Activitynet:人类活动理解的大规模视频基准。IEEE计算机视觉和模式识别会议论文集。pp. 961-970(2015年)4. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。在:计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议。pp. 248-255 IEEE(2009)5. Donahue,J.,安妮·亨德里克斯Guadarrama,S.,Rohrbach,M.,Venugopalan美国,Saenko,K.达雷尔,T.:用于视觉识别和描述的长期递归卷积网络。在:IEEE计算机视觉和模式识别会议论文集。pp. 26256. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习在:IEEE计算机视觉和模式识别会议论文集。pp. 7707. Ji,S.,徐伟,杨,M.,Yu,K.:用于人类动作识别的3D卷积神经网络。IEEETransactions on pattern analysis and machine intelligence35(1),2218. 凯,W.,卡雷拉,J.,西蒙尼扬,K.,张,B.,希利尔角Vijayanarasimhan,S.,Viola,F.,Green,T.,退后T Natsev,P.,等:人体动作视频数据集。arXiv预印本arXiv:1705.06950(2017)9. Khosla,A. Jayadevaprakash,N.,Yao,B.,Li,F.F.:用于细粒度图像分类的新数据集:斯坦福的狗。在:Proc. CVPR研讨会上细粒度视觉分类(FGVC)。卷2,p.1(2011年)10. Kuehne,H.,Jhuang,H. Stiefeldam,R.,塞尔,T.:Hmdb51:一个用于人体运动识别的大型视频数据库。在:高性能计算在科学和工程12,pp.571-582 03 TheDog(2013)11. Marsza-lek,M.,拉普捷夫岛Schmid,C.:在上下文中的动作。IEEE计算机视觉模式识别会议(2009)12. Patterson,G. Hays,J.:可可属性:人、动物、物体的属性。欧洲计算机视觉会议(2016)13. Rohrbach,M.,Amin,S.,Andriluka,M.,Schiele,B.:用于烹饪活动的细粒度活动检测的数据库。计算机视觉与模式识别(CVPR),2012年IEEE会议pp. 1194-1201。IEEE(2012)14. 舒尔特角拉普捷夫岛卡普特湾:认识人类行为:本地SVM方法。In:PatternRecognition,2004. 2004年国际公民权利和政治权利委员会。第17届国际学术会议论文集。卷第3页。32比36 IEEE(2004年)15. Sigurdsson,GA,Russakovsky,O.,Gupta,A.:了解视频中的人类行为需要采取哪些行动?在:计算机视觉(ICCV),2017年IEEE国际会议上。pp. 2156-2165。IEEE(2017)16. Sigurdsson,GA,Varol,G.,王,X.,Farhadi,A.,拉普捷夫岛Gupta,A.:家庭中的好莱坞:众包数据收集,用于活动理解。在:欧洲计算机视觉会议(2016)17. 西蒙尼扬,K.,齐瑟曼,A.:双流卷积网络用于视频中的动作识别。在:神经信息处理系统的进展。pp.第56816Yingwei Li,Yi Li,Nuno Vasconcelos18. Soomro,K.,Zamir,A.R.,Shah,M.:Ucf101:来自野外视频的101个人类动作类的arXiv预印本arXiv:1212.0402(2012)19. Torralba,A.,Efros,A.A.:无偏倚地看数据集偏倚。计算机视觉与模式识别(CVPR),2011年IEEE会议。pp. 1521-1528. IEEE(2011)20. Tran,D.,Bourdev,L.费格斯河托雷萨尼湖Paluri,M.:用三维卷积网络学习时空特征。收录于:IEEE国际计算机视觉会议pp. 448921. Wah,C.,Branson,S.,Welinder,P. Perona,P.,Belongie,S.:Caltech-UCSD鸟类-200 -2011数据集。Tech. Rep. CNS-TR-2011-001,California Instituteof Technology(2011)22. Wang,L.,美国,Xiong,Y.,王志,Qiao,Y.,Lin,D.唐,X.,Van Go
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功