没有合适的资源?快使用搜索试试~ 我知道了~
3000×× ×××TransRank:基于排序变换识别的段浩东1赵南轩1,3,4R陈凯2,5林大华1,2,31香港中文大学2上海人工智能实验室3感知与互动智能中心4巴斯大学5商汤科技研究中心摘要识别应用于视频剪辑的变换类型(InstTrans)是用于自监督视频表示学习的长期建立的范例,其与最近的作品中的实例辨别方法(InstDisc)相比实现了低得多的性能。然而,基于对代表性的CNOSG-Trans和InstDisc方法的彻底比较,我们观察到CNOSG-Trans在语义相关和时间相关的下游任务上的巨大潜力。基于硬标签分类,现有的CRT-Trans方法在预训练中受到噪声监督信号的影响。为了缓解这个问题,我们开发了TransRank,一个统一的框架,用于识别排名公式中的Transformations。TransRank通过相对地、一致地优于基于分类的公式化来识别转换,从而提供准确的监督信号。同时,统一框架可以通过任意的时间或空间变换来实例化,具有良好的通用性。通过一个基于排序的公式和几个实验,我们在视频检索和动作识别方面取得了有竞争力的性能。在相同的设置下,对于动作识别(Top1 Acc),TransRank在UCF 101上超过了之前最先进的方法6.4%,在HMDB 51上超过了8.3%;在UCF 101上提高了20.4%(R@1)的视频检索。实验结果表明,该算法仍然是一种值得探索的视频自监督学习方法。代码将在https://github.com/kennymckormick/TransRank上发布。1. 介绍有效的视频表示对于各种视频理解任务至关重要,包括动作识别[8,19,43],时间定位[5,67,68]和视频检索[62,70]。为了确保质量,模型在大规模视频识别数据集上进行了预训练[8,15,43]R通讯作者。一A B还是BB C还是C图1. 测验时间!两个时间变换(正常速度1和加速2)应用于3个剪辑。 在对(A,B)、(B,C)中,分别以1、2速度播放两个剪辑。你能在(A,B)中找到哪个片段是用2速播放的吗?那对(B,C)呢?答案在下一页的脚注1已被广泛采用作为初始培训点。然而,标记如此大的视频数据集是众所周知的昂贵和耗时的,限制了标记的视频数据集的增长速度和监督视频表示的发展。考虑到无限的供应和过高的注释成本,学习视频表示与自我监督[16,41,49]引起了越来越多的关注。视频自监督学习(video self-supervised learning,简称SSL)依靠托词任务,无需人工标注就能获得良好的表示效果。然后,通过微调将学习到的表示转移到一系列下游任务大多数托词任务分为两大类:识别转换类型[3,28,29](转换)和实例歧视[9,46,57](InstDisc)。转换任务旨在对应用于视频剪辑的转换进行分类。所应用的变换可以是空间的(旋转[29],平移[36])或时间的(不同的回放速率[3,28,59])。最近,在图像领域对比学习取得成功之后[10,20,24],基于InstDisc的借口任务逐渐成为视频自监督学习的主导方法,在视频下游任务(包括识别和检索)上显著优于基于InstDisc的借口任务[32,50]。InstDisc-based方法的流行并没有直接延续这种时髦的研究方向,而是提高了3001××我 们 关 心 的 几 个 问 题 。 第 一 , 在 通 过 InstDisc 和PsychiTrans学习的表征之间基于InstDisc的表示通常更强大,还是两种表示侧重于不同的方面,有各自的优点 ? 此 外 , 是 什 么 主 要 原 因 的 性 能 低 劣 的EQUIPTRANS?这是因为该框架的普遍局限性还是缺乏良好实践的原因?为 了 回 答 这 些 问 题 , 我 们 首 先 对 CRTRANS 和InstDisc的代表方法进行了全面的比较研究。 我们发现,通过时间学习的表征(TSTtrans-T)有一些独特的属 性 , 区 别 于 通 过 InstDisc 和 空 间 学 习 的 表 征(TSTtrans-S)。通过ETTtrans-T学习的表示不包括大量的语义线索,导致在下游设置中的性能相对较差,这些设置直接评估在语义相关任务上学习的表示,如视频检索和线性评估。同时,该模型在时间建模方面表现出了令人印象深刻的能力,并且在不同的时间相关任务中表现良好。此外,当在微调设置下对动作识别进行评估时,如果采用适当的微调策略,则TMS320 Trans-T可以超越所有其他SSL方法。这些发现证明了TMS-Trans-T方法的巨大潜力,并激励我们进一步探索这一方向。由于忽略视频的内在属性,使视频传输受到噪声监控信号的影响。为此,我们开发了TransRank:一个统 一 的 框 架 , 用 于 识 别 排 名 公 式 中 的Transformations。我们的TransRank框架的核心是以相对的方式考虑视频传输任务,因为视频的内在速度不同(图1)。例如,在人类的感知中,即使是同一个动作,当由不同的人执行时,内在速度也会有很大的差异(在图1中,剪辑A中的跑步者比剪辑B中的跑步者跑得快得多)。与基于分类的公式(TransCls)相比,TransRank采用了更准确和更独特的监督信号,因此在不同的设置中始终优于Tran-sCls。此外,等级的提法无损于普遍性。TransRank可以用任意一组时间(或空间)变换来实例化。我们进一步对转换集的选择、预训练和微调期间的良好实践进行了广泛的消融研究,并对不同下游任务的学习表征进行了评估。下游任务的竞争性能,包括视频检索和动作识别,可以获得与1A、C用1速演奏,B用2速演奏。由于对(A,B)的固有速度不同,人们可能会给出对它们的错误预测。同时,很容易发现B比C弹得快。基于排名的框架和若干良好做法。总之,我们做出以下贡献:1) 我们重新审视了几种基于Bullg-Trans和InstDisc的SSL方法,展示了Bullg-Trans在视频自监督学习中的巨大潜力2) 我们开发了一个新的框架,称为TransRank,它提供了更准确的监督信号比基于硬标签分类,并可以应用于各种时间和空间的借口任务。3) 通过TransRank和一些良好的实践,我们将基于TransRank的视频SSL提升到了一个新的水平。在相同的设置下,TransRank在UCF 101和HMDB 51上的表现分别超过了6.4%和8.3%我们实现了体面的识别结果(90.7%,64.2%的UCF 101,HMDB 51)与一个简单的R(2+1)D-18骨干和视觉输入。令人鼓舞的结果证明,EST-Trans仍然值得探索。2. 相关工作自监督学习是一个长期存在的问题,在不同的方向上吸引了大量的研究工作,例如图像[6,14,18,44,45],视频[3,21,28,30,57]和跨模态[1,2,48]。在本节中,我们简要介绍了自监督视频表示学习的最主流的方法可以分为InstDisc和InstTrans。快到了。CNORTTrans旨在训练一个模型来识别应用到数据的转换。具体来说,对于视频表示学习,变换可以是空间的[29,30]或时间的[3,28,34,61,65]。SpatialInterpretTranss扩展了现有的图像借口任务(即,Jigsaw [44],旋转预测[18])来处理视频输入。对于时间序列,一个前提任务是顺序预测:来自视频的帧[34,42]或剪辑[61]被打乱,并且学习模型来预测顺序。另一个众所周知的借口任务是回放风格预测。AoT [59]首先提出预测视频中的时间箭头,这可以被视为前进或倒退的二进制分类。SpeedNet [3]和PRP[65]学习回放速率感知模型。除了不同的播放速度,RTT [28]还引入了更多的时间变换(例如,周期性的、随机的),以丰富用于TMS 320 Trans-T的变换集。尽管采用了多样化的时间变换,但这些作品都以硬标签分类的方式进行CRT-Trans,而没有考虑不同视频的内在速度。相比之下,我们的工作以相对的方式考虑转换识别任务,这在预训练中提供了清晰而独特的监督信号。InstDisc正在接近。学习模型来执行实例区分是自监督学习中的另一个范例继InstDisc方法在图像表示学习方面取得巨大成功之后[4,7,103002表1.语义相关任务的初步结果。(a) UCF 101和HMDB 51上的视频检索结果方法R@1UCF101R@5R@10R@1HMDB51R@5 R@10[29]第二十九话40.856.865.017.539.153.1[3]第三季24.439.148.212.430.943.5新加坡[12]39.053.160.617.137.348.6[24]50.1 63.8 71.9 21.8 43.9 57.0Tran n ng(MOCO Pretran)Val dat ng(MOCOPretra n)806040200100806040200训练(SpeedNet Pretra n)验证数据(SpeedNet Pretra n)Top-1UCF101SpeedNet差距MOCO GapTran n ng Epoch(b) UCF 101和HMDB 51的视频识别结果方法UCF线性101FinetuneHMD线性B51Finetune[29]第二十九话51.677.923.147.7[3]第三季31.681.918.451.6新加坡[12]35.481.227.949.5MOCO [24]63.479.435.346.224,54,66],基于InstDisc的视频表示学习在最近几天引起了广泛的关注。[57]首先提出将节奏预测和对比学习相结合用于视频表示学习。以下工作以不同的方式改进了香草对比学习:VTHCL [63]提出了分层对比学习来学习视觉节奏一致性; VideoMoCo [46]采用对抗学习作为时间数据增强; Cohort [22]提出通过共同训练两种模态来学习强表示:RGB和Flow。与此同时,另一系列的作品[9,25,27,52]旨在将对比学习和跨语言学习相结合,以学习更好的表征。最近的工作[16,49]表明,纯InstDisc方法可以在下游任务上实现比InstDisc Trans方法优越得多的性能,具有强大的骨干和大规模的训练集。基于代表InstDisc和transmartag方法的彻底比较,我们发现,表示学习的两种方法的家庭集中在不同的方面:表示学习与InstDisc一般不更强大。此外,在良好的实践中,CRTrans还可以在动作识别等语义任务上实现具有竞争力的其他办法。除了两个主要类别之外,仍然存在以不同方式利用时空信息的各种方法,例如,通过未来预测[21,55],共现[26]或时间相干[33,56,58]。此外,视频是多种形式的丰富来源。人们还可以利用来自其他模态的丰富监督信号,包括文本[1,35,40,51],音频[2,31,48]和光流[17,39]。3. InstDisc与电子邮件我们首先进行试点实验,有一个初步的理解表示学习的两个自我监督的范例:InstDisc和PinterTrans。我们从每个范例中选择两种代表性的方法:Speed-Net [3](时间),3D-RotNet [29](空间),用于Bog-Trans;MoCo [24],SimSiam [12]用于InstDisc。我们使用图2. 下游任务的训练验证准确性差距。 使用在TMS 320Trans-T上预训练的权重进行初始化(即,SpeedNet)不太容易受到过拟合的影响。表2.时间相关任务的初步结果。运动Sync-U订单-USync-HH级Avg. 秩随机猜测20.014.750.014.750.0-[29]第二十九话69.145.862.643.360.33.4[3]第三季73.346.582.946.880.61.2MOCO [24]68.043.469.540.667.53.6新加坡[12]69.648.975.145.171.41.8R3 D-18的所有方法,并在MiniKinetics [60]上培训他们200个epoch,并在第4.42节中进行强增强。在迁移阶段,我们评估了各种下游任务的学习表征,这些任务可以分为语义相关任务和时间相关任务。我们在本节中简要介绍这些下游任务,并将每个任务的详细设置留到附录中。语义相关的任务。语义相关任务是先前文献中使用的主要下游任务,侧重于理解视频剪辑的语义[22,28,57]。总共有三个主要的设置:1)。最近邻评估,其测试查询类是否存在于前k个检索中; 2)。线性评估,它基于学习的表示来训练线性分类器,以分类新的数据集。(3)第三章。微调,微调整个网络初始化学习的权重,以训练一个新的分类器。在现实世界的场景中,微调性能更重要,因为下游任务的更好性能通常通过微调获得。时间相关的任务。时间相关的任务专注于识别视频片段的时间模式,这在视频理解中至关重要[37,64,69]。我们用三个时间相关的任务来评估学习表示的时间建模能力:1)。运动类型预测(运动)[47],它将视频中的运动分为五种预定义的类型(例如,线性和振荡); 2).同步(Sync)[28],它预测两个重叠视频剪辑的时间模式(例如,剪辑A在剪辑B之前,具有1/2重叠); 3). 时间顺序预测(顺序)[28],确定两个非重叠剪辑的时间顺序。我们在附录中详细说明了三个任务。我们评估了所有语义上的四种SSL方法-2我们还执行基本的超参数搜索,以确保每个算法的合适设置,即 , 我 们 的 MoCo 实 现 超 过 了 具 有 相 同 主 干 ( R3 D-18 ) 的VideoMoco [46Top-1HMDB51SpeedNet差距MOCO GapTran n ng Epoch3003××∈联系我们----ΣT CE−××××-××× ×N它我1ΣΣIJ相关和时间相关的任务进行全面的研究。我们在所有下游任务中使用UCF 101 [50]和HMDB 51 [32]的官方split-1。表1显示了在三种语义相关任务设置下不同表示的评估结果。视频检索和线性分类的性能MoCo由于其对比预训练,在前两种设置下取得了最佳结果,而SpeedNet由于在学习的表示中缺乏语义线索而成为失败 者 。 然 而 , 一 旦 在 下 游 数 据 集 上 进 行 微 调 ,SpeedNet很快就能适应动作识别任务,在UCF 101和HMDB 51上的表现优于所有其他方法。同样值得注意的是,在SpeedNet上预训练的权重在下游识别任务中进行微调时不易受到过拟合的对于时间相关的任务(表2),SpeedNet在5个评估设置中的4个中获得了最佳结果,证明了其强大的时间建模能力。到目前为止,我们可以提出之前提出的几个问题1)对多样化下游任务的评估表明,通过CRT-Trans或Inst-Disc学习的表示具有其独特的优势:在所有评估协议中,没有一个通常更强大。(2)有好的地层(例如,区分不同视频的前进和后退可能是容易的、困难的或不可能的),从而提供更清晰的监控信号。同时,它可以用任意一组转换实例化,从而保持通用性。4.1. 学习框架TransRank识别相对的转换(例如,以2速度播放的视频比以1速度播放的相同视频快),并且支持各种时间(或空间)变换。Tran- sRank的确定性版本如图3所示,它从每个视频中采样三个片段,并对每个片段应用三种不同的变换。 一般来说,TransRank可以 可以用M个不同的时间变换T1,...,T M.在训练阶段,它对N个不同的剪辑c1,...,c N,并应用时间变换T ti,ti1,.,M确定性地或随机地与每个C i。对于每个剪辑ci,TransRank预测得分向量Si=[si1,.,表示被T j变换的片段c i的置信度分数。在得分矩阵SRN×M之上,TransRank采用了一个margin ranking loss来学习转换识别任务:在以前的CITR-Trans工程中报告的较差性能可能是由于缺乏良好的实践。的LT-MR=i、j1ti1tj(i,j)i,j,ti=tjmax(0,s)JTI-是我+m),(1)由重新实现的SpeedNet学习的表示是与 原 始 论 文 [3] 相 比 , 它 更 强 大 , 训 练 数 据 更 少(MiniKineticsvs.K400),脊椎骨更差(R3 D-18vs. S3D-G)。这种改进是由于我们采用了更好的实践,比如强大的增强或大的微调学习率。初步实验表明,的学习能力和巨大的潜力,其中m表示余量,这是一个超参数并且1titj是指示符,如果t i t j等于1,否则等于0。 直觉是,对于从应用了Tti、Ttj的相同视频采样的两个剪辑c i、c j,相对于i,得分siti应该大于sjti,反之亦然。同时,对于分类公式,使用交叉熵损失ML=−log(exp(s)/exp(s))。(二)我j=1T.然而,SpeedNet作为一个可能的实例化,仍然具有还有很大的改进空间首先,在SpeedNet中,剪辑被直接分类为正常速度或加速,而不考虑不同视频的内在速度。此外,由于只有两次时间转换,SpeedNet很可能没有充分利用EST-Trans-T的全部容量。在这项工作中,我们开发了一个统一的框架-TransRank进一步实现的潜力。Tran- sRank可以在下游任务上实现出色的迁移学习性能,为P2P Trans的潜力提供了大量4. TransRank:基于排名的排名TransRank很好地改善了上述两个缺点。通过基于排名的公式,TransRank考虑了视频的内在属性(如速度)以及区分不同trans-rank的每个视频的难度。3运动除外:只有HMDB51标注了运动类型。直观地说,通过TransRank学习的表示具有更好的时间建模能力:考虑到视频的固有速度,监督信号的噪声较小。为了更好地说明,我们进行了一个玩具实验,并在图4中显示了结果。我们分别用两种时间变换训练transRank和trans-sCl:Normal Speed(T1:1)和Sped Up(T2:2)。然后,对于每个测试片段ci,每个模型将预测两个分数si1、si2为了验证模型是否知道时间方差,在测试过程中,我们还发送了两个不可见变换0的剪辑。5和4为预测模型。其基本思想是,预测的分数应该适当地反映转换的尺度具体来说,我们将si2si1定义为快速性得分,并且它应该更大,具有更剧烈的转换。mation通过基于排名的训练,TransRank可以生成看不见的转换0。5×和4×,预测4对于MiniKinetics视频,4转换0. 五,一,二,四sam分别每1、2、4、8帧取1帧以形成剪辑3004·−·××关于我们×× −·−··−·−·×→----×-N·(N−1)我JS MR1评分矩阵x1x123TemporalAugmenteddSamplng2xTransRank357Rev8654你公司简介等级损失公司简介公司简介公司简介公司简介图3. TransRank框架 在该示例中,利用三个不同的时间变换从视频中采样三个剪辑。选项:分别应用1×、2×和rev对于每个剪辑,TransRank预测三个分数,对应于三个变换。将边际排名损失应用于3×3评分矩阵。速度评分准确。相反,新的时间转换不能由TransCls处理。4.2. 关于时态变换集的建立TransRank可以用任意一组时间转换来实例化。然而,并不是每一个变换都有助于表示学习。我们简要介绍了我们使用的时间变换,并讨论了一个“好”的变换需要拥有的特性在以前的作品[3,9,28,57]中使用的一个主要的转换家族是与速度相关的。不同的速度相关的变换在从视频中采样剪辑(l个连续帧形成剪辑) 我们考虑三种与速度相关的变换1 ,2,4,其中基本帧间隔为2:对于变换n,l帧剪辑中的帧的索引序列为p +[0,2n,2 2n,., 其中ρ是随机偏移。受AoT [59]任务的启发,我们还在TransRank中使用了另一个临时转换版本,它执行帧采样转换。rev也可以以不同的速度实例化,即rev-n:帧在一个rev-n剪辑是ρ+[(l第一章2n,(l(二)2n,...,2n,0]。我们把rev-1作为rev。值得注意的是一个原则是,模型需要分析尽可能多的帧来识别变换。如果可以通过观看一小部分帧来识别变换,则模型可能会走捷径,并且无法学习整个剪辑的良好表示。我们提供了两个这样的“坏”变换的例子palindrome(ρ+[0,2 2n,...,(12)2n,(11)2n,..., 2n]),对于识别这种转变的关键线索,可以通过观看片段的一小部分来获得。在实验中,我们发现识别这种转换是TransCls图4. TransRank与TransCls:MiniKinetics验证数据集上的快速分布。更强的变换(例如,4)应该有一个更大的快速得分。TransRank可以成功地反映这一点,而TransCls则未能实现这一点。54.3. TransRank的通用性TransRank是一个通用的框架,不局限于时间变换。我们以两个空间变换为例来说明:1)。如何应用TransRank识别空间变换?2)。哪种空间转换可以从排名公式中受益?估计纵横比。RandomResizedCrop通常用于数据增强,它从原始剪辑中裁剪随机大小和纵横比的区域,并将其重新调整为目标大小。受V3S [36]的启发,我们建议利用裁剪剪辑的原始纵横比作为视频SSL的超视信号。然而,视频可能具有不同的固有宽高比,就像它们具有不同的固有速度一样。将纵横比估计公式化对于N个剪辑c1,...,从具有原始宽高比r1,...,rN,我们估计每个剪辑的比率分数r′(r ′越小,r越小)。保证金排名损失用于确保r′的排名与r相同:2100+m)(3)L=max(0,r′− r′更容易,同时将它们添加到变换集i,j,ri99。5%,在培训前。研究结果与我们在第4.2节中的假设一致,即模型可能会走捷径,无法学习良好的表示,因为它可以通过观看一小部分帧来完成任务。培训前微调的良好实践。我们采用了几种良好的实践来进行TransRank的预训练和微调,包括强增强(时空)和大微调学习率。我们首先消除强增强效应。表4表明,空间和时间增强都有助于学习迁移的良好表征,而强空间增强的改善更有意义。此外,具有大学习率(LR)的微调对于TransRank成功完成下游识别任务至关重要。我们微调TransRank和MoCo与广泛的初始LR。图5显示,对于Tran- sRank,下游识别性能可能会在初始LR较小的情况下急剧恶化。当使用0.01作为初始LR时,UCF 101和HMDB 51的Top-1准确度分别下降4.4%和8%对于InstDisc方法MoCo,下游性能不太容易受到LR变化的影响。TransRank +空间变换。 transRank是一个通用的框架,可以进一步扩展到空间变换.我们制定了纵横比估计和旋转估计,以适应transRank框架,并与transRank-T联合训练空间任务。每个空间任务的损失权重λ为0.5。我们在表5中比较了每个空间任务的Tran- sRank和TransCls,评估表5. 在空间变换上扩展TransRank。我们用两个空间任务联合训练TransRank-T。对于这两个任务,我们的排名公式实现更好的或可比的性能比香草分类公式。方法UCF101HMDB51TransRank-T84.154.5+ 方面(Cls)84.153.5+ 方面(我们的)84.856.6+ 旋转(Cls)85.257.1+ 旋转(我们的)85.356.8表 6. 使 用 MLP 磁 头 提 高 特 征 质 量 。 通 过 用 2 层 MLP(TransRank-ST包括两个空间任务)替换fc头,可以显著改善特征质量。方法w. MLP订单同步R@1 R@5R@10TransRank-T 89.0 52.1 22.044.1 54.4TransRank-T 92.057.4 32.5 54.0 65.0粤ICP备15037770号-1TransRank-ST-83.3 58.4 51.1 70.4 78.3评估他们在动作识别上的微调表现。对于宽高比估计,TransRank以较大幅度优于Tran-sCls。由于每个视频都可能有自己的宽高比,因此使用硬标签进行分类是不合理的。因此,在TransCls上添加此任务后没有性能增益由于监督信号对于旋转估计是明确的并且不太模糊,因此两种公式都导致良好的微调性能。使 用 MLP 磁 头 提 高 特 征 质 量 。 通 过 微 调 ,TransRank在下游任务上取得了有竞争力的结果.然而,实验表明,在直接评估学习的特征的设置下,即,视频检索。我们将缺陷归因于以前的作品中的头部设计[3,28]:使用单个全连接(FC)层来预测转换的置信度。我们用2层MLP(128个隐藏通道)替换FC头表6表明,简单的修改大大提高了特征质量。在UCF 101上,TransRank-T和TransRank-ST的Top-1召回率都此外,两个与时间相关的任务Sync和Or- der的改进也是显著的。我们还在微调设置下评估了预训练的模型,但没有观察到任何显著差异(FC头与MLP头)。5.3. 与最新技术水平的我们在表7中比较了先前关于自监督视频表示学习的工作。我们报告了UCF 101和HMDB 51上RGB和RGBDiff(RGB帧的差异,获得成本低)模式的Top-1精度(平均3倍)由于先前工作中使用的骨干和预训练设置不同,我们主要使用常用的网络架构(即,,R3D-18,R(2+1)D-18)。我们采用TransRank-ST和T-Trans设置{1×,2×,rev,rev-2×}和两个空间任务(损失FntungMOCOWeghts4个七点4个四点四点七点九。17904个78.878.4UCF101HMDB513007表7. 在UCF101和HMDB51上与其他视频自监督学习方法进行了比较。带 * 的方法包括预训练中的InstDisc。带#的方法使用较重的主干.每个模态使用缩写:R→ RGB,RD→RGBDiff,F→ Flow,A→ Audio。方法骨干输入大小模态预训练数据UCF101HMDB51[3]第三季S3D-GS3DS3D-GS3DR3D-5064× 224232× 128216× 224264× 224232× 128232× 2242RrrrR + FRK400 ( 28天 ) K400( 28 天 )K400 ( 28天 ) K400(28天)K400 ( 28天)81.148.8[22]第二十二话87.954.6RSPNet*#[9]89.959.6[25]第二十五话90.860.5[22]第二十二话90.662.9[49]第四十九话92.266.7[30]第三十话R3D-18R3D-18R3D-18R3D-1816× 80216× 112225× 128216× 112216× 112216× 1122RrrrR + RDRK400 ( 28天 ) K600( 45 天 )K400 ( 28天 ) K400( 28 天 )K600 ( 45天)K600 ( 45天)65.833.7[29]第二十九话66.037.1DPC [21]68.234.5RSPNet*[9]74.341.8[29]第二十九话76.747.0[第28话]79.349.8TransRank-ST(我们的)R3D-18R3D-18R3D-18R3D-1816× 112216× 112216× 112216× 112216× 1122RRDR + RDR + RDK200(9d)K200(9d)UCF 101(1d)SthV1(4天)K200(9天)85.758.1TransRank-ST(我们的)88.961.4TransRank-ST(我们的)88.563.0TransRank-ST(我们的)89.061.6TransRank-ST(我们的)89.663.5VCOP [61](2+1)D-18( 2+1 )D-18(2+1)D-18 ( 2+1 ) D-18(2 +1)R(2+1)D-1816× 112216× 112232× 112216× 112216× 112216× 112232× 2242RrrrRRR + AUCF101(1天)K400(28天)K400(28天)K400(28天)UCF101(1天)K400(28天)72.430.9[57]第五十七话77.136.6[46]第四十六话78.749.2V3S [36]79.240.4RSPNet*[9]81.144.6[第28话]81.646.4XDC*[2]86.852.6TransRank-ST(我们的)TransRank-ST(Ours)TransRank-ST(Ours)R(2+1)D-18(2+1)D-1816× 112216× 112216× 1122研发R + RDK200(9天)K200(9d)K200(9d)87.889.790.760.163.064.2每个任务的权重λ为0.5)。我们在所有数据集上训练transRank-ST 200个epoch。行动识别。TransRank-ST在两个数据集上的所有主干上实现了竞争性性能。使用标准的R3 D-18主干,TransRank-ST在UCF 101和HMDB 51上的性能比最先进的R3 D-18方法RTT [28]高6.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功