没有合适的资源?快使用搜索试试~ 我知道了~
基于时间残差网络的动态场景识别
1基于时间残差网络的动态场景识别克里斯托夫·费希滕霍费尔格拉茨技术feichtenhofer@tugraz.at阿克塞尔·平茨格拉茨技术电子邮件:tugraz.at理查德·P·怀尔德斯约克大学,多伦多wildes@cse.yorku.ca摘要本文结合三个贡献,建立一个新的国家的最先进的动态场景识别。首先,我们提出了一种新的ConvNet架构,基于时间残差单元,在时空中完全卷积。我们的模型通过跨时间的卷积来增强空间ResNets,以便随着网络深度的增加分层添加时间残差。其次,现有的方法,以视频为基础的识别进行分类和基线的七个以前表现最好的算法被选中的动态场景进行比较评估。第三,我们介绍了一个新的和具有挑战性的动态场景的视频数据库,超过两倍的大小,以前可用的。该数据集被明确地分成两个相等大小的子集,其包含具有和不具有相机运动的视频,以允许系统地研究该变量如何与场景本身的定义动态相互作用。我们的评估验证了特定的优势和弱点的基线算法相对于各种场景类和摄像机运动参数。最后,我们的temporal ResNet提高了识别性能,并在动态场景识别以及动作识别的补充任务上建立了新的最先进的技术1. 介绍基于图像的场景识别是视觉信息处理的一个基本研究领域。人类能够以极高的准确性和速度识别场景[32]。可靠的自动化方法可以用于为涉及对象和动作识别的后续操作提供先验,例如,[25、43]。此外,场景识别可以用于浏览图像数据库,例如,[45 ]第45段。虽然场景识别中的早期[8,23,28],最近,来自视频的动态场景识别已经作为自然进展出现,例如,[5、11、34]。除了动态场景识别, 相当大的re-Christoph Feichtenhofer是格拉茨科技大学电气测量和测量信号处理研究所奥地利科学院DOC奖学金的获得者。图1:在我们的时空ConvNet架构的第三个conv块中,单个神经元的时间感受野。我们的T-ResNet在时空中是完全卷积的,并在残差单元处执行时间滤波,以便随着深度的增加分层注入时间信息。搜索已经解决了基于视频的识别中的相关任务。可以说,研究最多的是动作识别[25,27,35];尽管也考虑了各种其他基于视频的识别任务e.G. [29、30、31]。为了应对这些任务带来的挑战,已经制定了各种各样的方法。这里,值得注意的是,最近卷积网络(ConvNets)扩展到视频已经显示出特别强的结果,例如。[26、44、50]。虽然这些方法中的许多方法具有推广和应用于动态场景识别的潜力,但迄今为止,该途径一直在研究中。本文通过将最先进的视频识别技术的代表性采样应用于动态场景来解决这种情况,包括一种新颖的ConvNet。这项工作不仅扩展了我们对评估中的个别技术的理解,而且还扩展了视频中捕获的动态场景的性质。1.1. 相关研究目前,有两个标准的数据库来支持从视频场景识别的研究[5,34]。这两个数据库都捕获了一系列场景类别和类别内的自然变化(季节和昼夜变化以及观看参数)。两个数据集之间的一个显著差异是,一个包括相机运动[34],而另一个不包括[5]。不幸的是,4728时间t*conv1 conv1*Wl, t(res2a)conv1**conv1 conv1*Wl,t(res2a)conv1 conv1 conv1conv1*****Wl,tWl, t(res2a)Wl, t(res2a)Wl,t*正++*+**正++*++++*****Wl,tWl,tWl,tWl,tWl,tWl,tWl,tWl,tWl,t+++++++++**********Wl,tWl,tWl,tWl,tWl,tWl,tWl,tWl,tWl,t+++++++++**********Wl,tWl,t(res3c)Wl,t(res3c)Wl,tWl,t(res3c)Wl,t(res3c)Wl,tWl,t(res3c)Wl,t(res3c)+++++++++4729数据库提供了在有和没有摄像机运动的情况下采集的平衡场景样本,以支持如何从摄像机运动中分离场景动态的系统研究。此外,此时两个数据集的性能都处于饱和状态[12,44]。相应地,动态场景识别的研究处于停滞的危险中,除非引入与该任务相关的新的、系统构建的和具有挑战性的视频基于视频的动态场景分类已经基于线性动力系统[7]、混沌不变量[34]、时空方向的局部测量[5,10,11]、缓慢变化的空间方向[42]和时空ConvNets [44]进行了研究,时空方向和ConvNets显示出最强的近期性能[12]。动作识别是一项相关任务,其中场景上下文起着重要作用[25]。动作识别的最新技术目前由ConvNets主导,该ConvNets以端到端的方式直接在空间时间域[18,44]中学习特征,或者在两个出现和运动信息流中学习特征[9,13,27,35]。与我们最密切相关的工作是时空残差网络,ST-ResNet [9],它基于双流[35]和剩余网络[15]。ST-ResNet [9]架构在双流架构的外观和运动路径之间注入残余连接,并将空间滤波器内核转换为时空内核,以在时间上对相邻特征图进行操作。相反,我们的工作扩展了空间残差单元,时间内核是从头开始训练的,因此能够学习复杂的时间特征,因为它被初始化为接收更多的信息时间梯度。1.2. 贡献本文做出了以下贡献。首先介绍了一种新的时空ConvNet 结构T-ResNet ,它是 基于空间 网络到时空ConvNet的转换;参见图1。这种转换需要从空间图像分类到时空场景分类的特定形式的迁移学习其次,通过将新开发的T-ResNet与具有代表性的替代方法进行比较,证明了其在视频场景识别中的优势。结果表明,我们的时空训练的ConvNet大大优于替代方案,包括为动态场景手工制作的方法和直接为大规模视频分类训练的其他网络。第三,介绍了一种新的动态场景数据集。这个数据集的大小是以前在动态场景识别中常用的集合的两倍多[5,34],同时包括其他具有挑战性的场景。重要的是,对于每个场景类,在有和没有摄像机运动的情况下,都包含了相同数量的样本,以支持对场景识别.最后,我们还表明,我们的模型generalizes为其他任务,通过报告两个广泛使用的视频动作识别数据集的结果。我们的代码使用MatConvNet工具箱[46],可在https://github.com/feichtenhofer/temporal-resnet上获得,我们新颖的动态场景识别数据集可在www.example.com上获得。http://vision.eecs.yorku.ca/research/dynamic-scenes/2. 时间残差网络已经遵循各种路径将ConvNets从2D空间域(x,y)扩展到3D时空域(x,y,t),包括建立光流场[31,35],学习局部时空滤波器[18,41,44]和建模为经常性的时间序列[1,6,37]。然而,到目前为止,这些方法还没有引发比手工制作的表示(例如,IDT [48]),ConvNets带来的空间域,例如。在图像分类[20,36]。即使在大型新数据集支持3D时空滤波器的训练时,这种相对缺乏影响的情况仍然存在[18,44]。本节记录了一种新的方法,该方法通过将 空 间 ConvNet ResNet [15] 转 换 为 spatiotemporalkindred T-ResNet来进行,如图所示1.一、在执行评估中(第4)将表明,这种方法产生具有最先进性能的网络。2.1. 时空残差单位ResNet架构的主要构建块是残差单元[15]。设残差单元的输入为特征映射xl∈RH×W×T×C,其中W和H为空间维数,C为特征维数,T为时间维数。这样的地图可以被认为是沿着时间维度堆叠C维特征在具有输入Xl的层l处,残差块被定义为[15,16]xl+ l=f(xl+F(xl;Wl)),(1)其中f∈ReLU,Wl={Wl,k|1≤ k ≤ K},在单元中保存K个相应的滤波器和偏置,F表示代表卷积运算的残差函数。形式上,第l个残差单元中的K个层中的每一个执行以下滤波操作xl,k+1=Wl,kxl,k,(2)其中Wl,k|1≤ k ≤ K是排列为矩阵的卷积滤波器内核,为了简单起见,省略了批归一化层。 我们使用原始的ResNet架构[15]其中K=3,由1×1降维、3×3空间聚合和1×1降维滤波操作组成。这些选择导致剩余单位F=f(Wl,3f(Wl,2f(Wl,lxl), (3)4730Wl-1, 3(1x1)+f(xl)Wl,1(1x1)f(xl,1)Wl,2(3x3)f(xl,2)Wl,3(1x1)f(xl,3)+f(xl+1)(一)(b)第(1)款这些激活可以在聚集之前减少[40]。其次,它利用空间因子分解到非对称滤波器中,这降低了计算成本,并且还被发现可以缓解学习问题[38]。缩小残差对于稳定训练也很重要[38],其中残差在被添加到模拟层激活之前按常数因子缩小。激活也被有效地重新缩放,然后在网络的几个层上组合它们[3]。作为缩放的替代方案,[15]其中,在进行具有较高学习率的训练之前,首先通过具有非常低的学习率的训练来对网络进行预处理。图2:原始剩余单位之间的比较(a)以及我们提出的时空残差单元(B),其利用附加的时间残差块和精细缩放层来增强“瓶颈结构”。如示于图2a.我们提出的时空残差单元F_n注入TEM-经由1D时间滤波将信息分割成残余块。基于inception思想[39],我们的时间卷积块对降低输入,xl,1,具有一组时空滤波器,Wl,t,并且通过应用偏置,b∈RC,根据2.2. 时空上的全局汇集“网络中的网络”[ 24 ]架构已经表明,在以前的模型[ 20,36 ]中使用的全连接层可以在最后一个卷积层之后被全局平均池化所取代,并且这种替换已经被最近的ConvNet架构[ 15,39 ]所全局激活池背后的一般思想是,在最后一个卷积层,由于感受野的增长,单元看到输入处的所有像素; e.G.对于我们在这项工作中使用的ResNet-50架构,最后一个卷积层理论上具有在输入处覆盖483×483像素的感受野,即使输入仅为大小xl,t =Wl,txl,1+b,(4)224×224。 然而,实际上,一个单位的假设是更小[52]。其中偏置b∈RC被初始化为零,相应地,可以预期时间网络Wl,t作为3抽头时间滤波器组出现这些过滤器在不同时间捕捉相似的空间特征 因此有合理地发展一个时空网络,对于相同的特征维度随机初始化作为空间3×3滤波器,Wl,2,在输入xl,1上并行工作。 Wl,t能够对时间结构进行建模,在临时支持上共享我们在实验中发现,随着时间的推移,全局最大池,即。上一层的特征。此外,通过堆叠通过网络的层次结构的几个这样的内核x(i,j,c)=max1≤k′≤T′x(i,j,k′,c),(6)我们就能扩大暂时的感受野参见例如图1,其中突出显示了第三卷积层处的单元的时间感受野我们提出的时空残差单元F_n是N_ w_de-罚款为比时间激活的全局平均更好地工作(102%的精度增益)我们推测,这一结果是由于导数的总和操作一致backpropa- gating梯度的时间输入。因此,网络不能集中在最有区别的情况下,F=f.Wl,3.Slf(xl,t)+f(Wl,2f(xl,1))ΣΣ、(五)使用时间平均时的时间。尽管随时间推移的最大池化仅将单个时间梯度图反向传播到输入,但它可以指导学习其中,S1是以的缩放初始化的逐信道仿射缩放权重。01和零偏差。我们发现自适应缩放的时间残差,以促进推广性能最后一个单元如图所示。2b.讨论我们的设计建立在设计图像ConvNets的两个良好实践之上:首先,它建立在初始概念上,即应该在空间/时间聚合滤波器之前执行维数降低,因为相邻滤波器的输出是高度相关的,因此长期的时间特征,因为过滤器讨论我们在网络早期使用max-pooling进行了几次实验,它始终导致性能下降,准确性下降更多,池化开始越早(101- 6%)。我们还通过时间上的有效卷积实验通常情况下,ConvNet架构零垫输入Wl-1, 3(1x1)+f(xl)Wl,1(1x1)f(xl,1)W1,2(3x3)W1,t(1x1x3)+SLf(x)l,tWl,3(1x1)f(xl,3)+f4731在每个空间(例如,3×3)卷积,使得输出大小不变。一个更简洁的策略是使用有效的卷积(即,不对边界像素进行滤波)与较大尺寸的输入(例如,[38]第一次的时候,他就已经是第一次了我们研究了具有跨时间的有效过滤操作的时间架构是否在性能上有任何增益对于该实验,我们增加了输入处的帧的数量,并使用不及时填充输入的时间残差块。由于网络现在在每个时间残差块处通过两个帧分层地下采样输入,因此最终的最大池化层现在接收更少的帧(与填充设计相比,当保持GPU存储器恒定时)。在我们的实验中,这种架构变化导致的错误增加了2.4%,与填充架构等效。总之,尽可能晚地进行池化,与时间上的填充卷积结合在一起,使我们的T-ResNet在动态场景分类中具有最佳的准确性。2.3. 实现细节我们建立在Ima-geNet[15]上预训练的ResNet-50模型上,并替换最后一个(预测)层。 接下来,我们将每个conv阶段(conv2 x到conv5 x)的第一个和第三个残差单元转换为我们提出的时间残差单元。对于我们的时间残差块,我们将批量归一化[17]和ReLU的顺序从激活后切换到激活前[16]。时间滤波器的维数为W′× H′× T ′× C × C =1×1×3×C ×C,初始化随机。我们使用16帧输入,并且在空间全局平均池化层之后立即执行时间最大池化。训练过程遵循标准的ConvNet训练[15,20,36],有一些细微的差异。我们将学习率设置为10−2,并在验证误差饱和后将其降低一个数量级。我们使用批处理归一化[17]并且没有丢弃。为了加快训练速度,我们以256的batchsize分两个阶段训练网络:首先,我们以纯粹的空间方式训练网络,从不同的视频中随机采样一帧(ResNet);其次,我们将残差单元转换为时空,并 通 过 从 每 批 256/32 个 视 频 中 采 样 16 帧 堆 栈 ( T-ResNet)来重新开始训练过程。对于数据增强,我们通过随机选择第一帧的位置来获得多个帧堆栈,并对所有样本应用相同的随机裁剪我们不是裁剪一个固定大小的224×224输入块,而是通过随机抖动其宽度和高度±25%来执行多尺度和纵横比增强,并将其扩展为固定大小的224×224网络输入。我们在距离图像边界(相对于宽度和高度)最大25%的距离处随机裁剪平移的补丁。与训练空间ConvNets相比,训练时空ConvNets更容易出现过拟合。作为回应,我们海滩建筑倒塌电梯自动扶梯倒下的树木烟花森林消防喷泉高速公路闪电风暴马拉松海洋铁路奔腾河流天空云彩雪街瀑布挥舞旗帜风车农场图3:YUP++数据集的缩略图示例。使用时间帧抖动:在每次训练迭代中,我们从每个训练视频中采样16帧,通过随机采样起始帧,然后随机采样时间步长∈[5,15]来进行一个批次。我们不应用RGB颜色抖动[20]。在测试过程中,我们从视频中提取16个等距帧的样本,并通过网络传播这些帧,为每个视频生成一个预测。我们没有裁剪图像的角落,中心和它们的水平翻转,而是对原始图像及其水平翻转应用更快的完全卷积测试策略[36],并对所有位置的预测进行平均。因此,推理可以在整个视频的单个3. 动态场景数据集如第1,以前在动态场景识别上表现最好的算法在现有数据集上已经饱和[12,44]。作为回应,本节介绍了一个新的动态场景数据集,以支持在这一领域的当前和未来的研究。3.1. 规格新的动态场景数据集采样了20个场景类别,同时涵盖了广泛的条件,包括场景类别内的自然差异、季节和昼夜变化以及观看参数。每个类别的缩略图示例如图1和2所示。图3和图4;本文件的补充材料中有代表性的视频。本节其余部分提供了数据集的详细信息。新的数据集建立在早期的YUPenn数据集[5]上。该数据集被视为出发点,而不是马里兰数据集[34],因为它包括一个额外的场景类和三倍于每个类别的视频。在原始数据集上,增加了六个额外的类,总共有二十个。数据集中表示的最终类集如下:海滩、城市街道、电梯、森林火灾、喷泉、高速公路、雷暴、海洋,4732图4:YUP++中新类的变化。从上到下:建筑物倒塌,自动扶梯,倒下的树木,烟花,马拉松和挥舞的旗帜。铁路,湍急的河流,天空中的云,下雪,瀑布,风力农场,建筑物倒塌,自动扶梯,倒下的树木,火灾,马拉松,飘扬的旗帜。最后六个列出的类是除了那些在早期的YUPenn可用由于其扩展的类别数量和添加的移动摄像机视频,这个新的数据集被称为YUP++。对于数据集中的每个场景类,有60种颜色视频,没有两个样本从同一个物理场景中获取的给定类。每个类别内的视频的一半是用静态摄像机获取的,一半是用移动摄像机获取的,其中摄像机运动包括摇摄、倾斜、变焦和抖动。为每个类同时提供静态和移动相机实例,可以系统地考虑此变量在场景分类中所扮演的角色,这在之前的动态场景数据集中都不支持。除了相机运动和给定类别内的各个场景的自然变化之外,各种各样的附加采集参数是变化的,包括照明(例如,日变化)、海调、尺度和照相机视点。这些视频来自在线视频库(YouTube [51],BBCMotion Gallery [2]和Getty Images [14]) 或手 持摄 像机。所有的视频已压缩与H.264编解码器使用ffmpeg视频库。每个视频的持续时间为5秒,原始帧速率范围为每秒24到30帧。所有这些都被调整为最大宽度为480像素,同时保留了原始的纵横比。总的来说,新的动态场景数据集的大小比以前的任务数据集的大小增加了一倍多所有的视频都与早期的马里兰数据集不同。与YUPenn数据集相比,增加了六个新的场景类,所有移动摄像机视频都是新的。3.2. 实验方案为了进行动态场景识别,将数据集分为训练集和测试集。一个跑-通过为每个类别随机选择相等数量的静态摄像机视频和移动摄像机视频,使用DOM分割来生成两个集合这种随机分割协议与以前在YUPenn和Maryland数据集上使用的留一法协议相反。 如SEC中所述。4,使用具有这样的训练/测试比率的随机分割更适合于以计算上易处理的方式提供具有挑战性的基准协议。此外,随机分割协议在其他领域中是常见的实践例如HMDB 51 [21]和UCF 101 [19]上的动作识别以及MIT67 [33]上的室内场景分类。4. 实证评价为了建立动态场景识别的最新技术,对7种基于视频的识别的代表性算法进行了评估,并在第二节中介绍了T-ResNet二、三种评估算法,C3D [44],BoSE [11]和SFA [42],在以前的动态场景评估中显示了第一,第二和第四个最佳性能第三个最好的表现者,[10],是BoSE的祖先,这里不考虑。其余的算法,而不是严格评估动态场景识别,选择提供一个平衡的覆盖面当代强大的表演者基于图像的分类任务。为了了解单个图像分类的强大执行者在基于视频的场景分类上的表现如何,考虑了具有Fisher矢量编码特征的非常深的卷积网络(S-CNN)[4]。为了了解作为各种强性能动作识别算法的基础的方法如何适用于场景识别,考虑了(改进的)密集轨迹(IDT)[47]。此外,为了测试进一步的时间ConvNets(除了spatiotemporal C3 D之外),考虑了基于光流的代表(T-CNN)[35]。最后,为了判断时空T-ResNet相对于空间ResNet [15]的改进,我们报告了微调ResNet的结果补充材料中提供了如何将这些方法应用于动态场景识别的详细信息。4.1. 是否需要新的数据集?研究的第一个问题是,是否真的需要一个新的动态场景数据集来挑战现有的算法,或者是否只有现有的评估协议需要改进。为了回答这个问题,我们使用了迄 今 为 止 性 能 最 好 的 三 种 算 法 ( C3 D 、 BoSE 和SFA),以以下方式探索了之前可用的最大数据集YUP [ 5 ]:与之前的评估[ 5,11,34,42 ]中使用的留一视频(LOO)协议不同,使用固定的训练/测试分割,因为这是动作识别任务中的常见做法[19,21]。通过从每个类中随机选择训练和测试片段来生成分裂。对于任何给定的比率,采用三个分裂;最终的识别准确率被视为平均值。4733年龄跨越三。该实验针对几个训练/测试比率进行。所考虑的三种算法的结果报告在表1(左)中令人惊讶的是,性能可以保持与该数据集上的留一法结果相当[11,42,44];同样令人惊讶的是,即使非常低的训练/测试比率仍然可以得分很高。得出的结论是,简单地改变训练集和测试集的相对大小不会对识别率产生足够显著的影响,从而无法在评估中继续使用该数据集。在比较各种10/90分割的结果时,我们发现几乎没有差异,即使对于新数据集的最困难的移动相机组件YUP++移动相机也是如此;见表1,右。这一发现表明,10/90分割支持稳定的算法性能评估,即使是最具挑战性的。此外,由于随机分割之间几乎没有变化,因此在评估中仅使用单个分割是合理的,因为它提供了更少的评估开销,特别是对于涉及ConvNet训练的情况因此,在所有后续实验中,采用单一的10/90特别地,我们采用表1的拆分#1。4.2. 添加新的类可以解决问题吗?研究的下一个问题是,添加额外的类是否会导致更具挑战性的动态场景基准测试。表2(左)列出了将六个附加类BuildingCollapse、Escala- tor、FallingTrees、Fireworks、Marathon和WavingFlags包括到先前存在的YUPenn的结果。请注意,仍然所有视频都是从静态相机拍摄的,因此这个子集被称为YUP++静态相机。虽然所有算法的性能下降相比,原来的YUP,最好的表演者遭受只有微不足道的赤字。期望进一步增加挑战。4.3. 更有挑战性的数据是否有帮助?由于添加更多的类对性能的影响太有限,因此本节介绍了一种增加数据难度的方法。通过在视频的获取期间包括相机运动因此,数据集的总体大小加倍,因为每个类别包含相同数量的在有和没有相机运动的情况下捕获的视频。详情见第2节。3 .第三章。仅新视频的结果在表2(右)中报告,其中该子集被称为YUP++移动相机。 在这里可以看出,挑战已经增加,使得即使是表现最好的算法也得分为81。5%的准确度,并且算法之间存在差异,这允许进行有趣的比较,如下所述。4.4. 详细的算法比较与以前的结果一致(例如[5]),静态(表2,左)和移动(表2,右)摄像机子集以及整体(表3,左)的顶级执行者。YUP++的主要算法包括空间和时间测量,即。我们的新型T-ResNet、C3 D、IDT和BoSE。有趣的是,基于纯空间特征的算法S-CNN和ResNet也表现出合理的性能。显然,即使对于动态场景,定义特征也可以在空间基础上进行抽象。相比之下,基于运动的特征提取(T-CNN)显然会丢失太多信息。在静态、移动和整个YUP++上表现最好的算法是新提出的T-ResNet。将其与ResNet进行比较特别有趣,因为T-ResNet是用ResNet初始化的,并从空间域转换到时空域;参见第二节。二、令人惊讶的是,这种转换成功的基础上一个非常小的训练集,即。只有动态场景数据集的10%。这些结果表明,良好的初始化空间网络可以非常有效地转换,以提取区分时空信息。事实上,这种歧视超过了竞争对手时空网络C3D,以及最好的手工制作的时空表演者IDT。比较静态(表2,左)与移动(表2,右)相机子集的性能,可以看出,所有子集在存在相机运动的情况下都显示出性能的降低。显然,这些算法很难将场景内在特性与图像动态特性相结合。相机运动,这是未来研究的重点。就目前而言,T-CNN遭受的性能损失最大,这表明纯粹基于运动信息构建表示使得在存在相机运动的情况下提取场景内在动态变得特别困难。性能下降最小的是C3D,这再次表明,组合的空间和时间信息为动态场景表征提供了最强的基础,即使在存在相机运动的情况下。在这里,值得注意的是,由于以前的动态场景数据集不包含每个类别的静态和移动相机示例,因此更难得出这样的结论。没有一种算法是所有场景类别中表现最好的(表3)。特别有趣的是,将这两种基于手工特征的方法(BoSE和IDT)进行比较,因为它们提取的内容的性质是最明确定义的。基于轨迹的IDT在场景可以通过特征在时间上的运动来表征的情况下表现出色,例如,电梯的运行或树的倒下作为补充,基于时空方向的BoSE实验,其中场景可以由动态纹理表征e.G.森林大火的闪烁和瀑布的湍流。沿着类似的路线,虽然T-ResNet是比IDT更好的整体它也是4734培训/测试:LOO90/1070/3050/5030/7010/90#splitSFABoseT-CNNS-CNNIDTC3dC3D访问:98.197.696.894.894.286.0151.161.936.368.170.476.3BoSE接入:96.295.395.194.894.182.54249.360.238.872.269.477.6SFA接入:85.584.783.481.080.070.0344.860.036.572.869.378.3表1:左:在YUP [ 5 ]数据集上执行3种以前最好的动态场景识别方法。不同的训练/测试比率对分类准确率没有显著影响,除了非常积极的10/90比率使用3个视频进行训练,每个类使用27个视频进行测试右:使用10/90的训练测试比率在YUP++移动相机数据集上比较不同算法性能水平在不同的随机拆分中是一致的。类SFA Bose T-CNN S-CNN IDTC3dResNet T-ResNet 类SFA Bose T-CNN S-CNN IDTC3d ResNet T-ResNet海滩74.1 88.985.274.1100.0 92.674.196.3海滩77.8 77.818.570.466.781.596.396.3建筑倒塌74.1 92.674.196.3100.0 92.6100.0100.0建筑倒塌44.4 33.30.040.744.444.440.751.9电梯81.5 96.3100.0100.096.3 100.0100.0100.0电梯81.5 100.077.8100.0100.0 100.0100.0100.0扶梯40.7 66.722.281.551.970.481.588.9扶梯51.9 74.129.688.959.385.292.696.3落树63.0 63.029.674.196.392.688.977.8落树55.6 77.863.077.896.388.985.296.3烟花63.0 85.244.477.892.685.288.996.3烟花48.1 74.125.933.385.277.859.381.5森林火灾25.9 85.225.996.374.192.692.692.6森林火灾29.6 66.714.888.959.355.688.996.3喷泉14.8 55.622.244.474.133.377.892.6喷泉29.6 11.118.518.537.025.955.674.1公路66.7 63.055.663.085.270.481.588.9公路14.8 22.229.637.044.448.125.955.6闪电风暴33.3 59.388.977.896.381.574.192.6闪电风暴25.9 59.359.385.281.585.288.992.6马拉松48.1 85.292.696.388.9 100.096.3100.0马拉松74.1 77.892.696.3100.0 100.0100.0100.0海洋96.3 85.288.9100.0100.0 100.0100.0100.0海洋40.7 37.033.351.955.685.222.248.1铁路33.3 48.151.988.974.159.381.596.3铁路18.5 66.725.992.659.388.9100.0100.0拉辛河66.7 92.644.496.374.1 100.0100.085.2拉辛河55.6 59.366.781.577.896.85.285.2天空云85.2 100.063.096.396.3 100.096.3100.0天空云63.0 70.463.077.855.696.392.692.6下雪44.4 77.863.066.785.251.937.077.8下雪14.8 40.714.822.277.840.725.937.0街96.3 92.663.0100.096.396.3100.096.3街70.4 85.23.777.885.296.377.892.6瀑布74.1 66.725.970.433.396.359.370.4瀑布77.8 66.718.577.877.888.966.763.0WavingFlags48.1 81.555.688.9100.0 96.3100.096.3WavingFlags70.4 70.451.977.881.574.192.696.3风车农场92.6 85.281.596.3100.0 96.3100.0100.0风车农场77.8 66.718.566.763.066.774.174.1平均61.1 78.558.984.385.785.486.592.41平均51.1 61.936.368.170.476.373.581.5表2:不同算法在YUP++静态相机(左)和YUP++移动相机(右)子集上的性能基于动态捕捉场景之间的差异仍然是一个需要进一步研究的领域。表3:不同算法在整个YUP++数据集(静态和移动相机)上的性能比较。有趣的是注意到,对于基于空间的方法,S-CNN和ResNet,最具挑战性的类是那些运动特别重要的类,例如,对于每个人来说,下雪是最困难的或第二困难的更一般地,由运动最强定义的类往往是大多数算法考虑的最困难的,例如,4.5. 新数据集的影响新的YUP++数据集允许以以前不可能的方式对应用于动态场景的视觉识别方法的最新技术进行实证首先,通过增加与以前数据集进行比较的总体难度,它允许在一系列算法中进行明确的性能区分其次,它已经证明,即使是最强的现存的方法遭受不可忽略的性能递减时,在相机运动的存在下,在一个稳定的相机的情况下操作。例如,整体表现最好的T-ResNet在从静态移动到移动相机场景时的整体衰减超过10%。第三,数据集已被证明具有足够的多样性,可以支持ConvNet训练,仅占其总数的10%,例如T-ResNet从ResNet转换而来,在此基础上实现了更大的性能提升。第四,数据集提供了对不同场景特征如何影响算法性能的洞察,例如,常规与不规则的运动模式向前推进,数据集可以继续支持动态场景研究的进步。首先,算法广告-类SFA Bose T-CNN S-CNN IDTC3dResNet T-ResNet海滩92.6 83.372.275.987.083.390.774.1建筑倒塌66.7 66.737.081.587.083.383.394.4电梯85.2 98.179.6100.0100.0 98.1100.0100.0扶梯48.1 74.137.090.766.787.088.992.6落树42.6 79.653.788.998.188.992.688.9烟花51.9 83.338.966.798.181.587.096.3森林火灾29.6 77.89.392.672.279.696.3100.0喷泉18.5 44.411.138.957.435.283.375.9公路55.6 50.050.063.068.564.874.179.6闪电风暴42.6 79.677.881.594.487.090.790.7马拉松66.7 88.992.696.398.1 100.0 100.0100.0海洋64.8 70.451.983.374.196.366.785.2铁路29.6 83.353.796.388.988.9100.0100.0拉辛河55.6 81.572.287.087.0 100.088.985.2天空云83.3 94.474.190.788.998.196.396.3下雪14.8 57.433.351.990.746.333.353.7街79.6 90.744.492.696.398.1100.098.1瀑布77.8 85.213.088.966.790.757.475.9WavingFlags53.7 81.561.187.098.188.996.398.1风车农场79.6 70.450.087.092.683.394.494.4平均56.9 77.050.682.085.684.085.989.04735UCF101HMDB51现有技术92.4%[49]92.5%[13]93.4%[9]62.0%[49]65.4%[13]66.4%[9]我们ResNetT-ResNetResNetT-ResNet50层模型(ResNet-50 [15])外观百分之八十二点三85.4%48.9%百分之五十一点三流87.0%百分之八十九点一55.8%62.0%融合百分之九十一点七百分之九十三点九百分之六十一点二百分之六十七点二+ [第四十八话]94.6%70.6%表4:我们的双流Con-vNet在UCF 101和HMDB 51上的分类准确性,没有(ResNet)和有我们的时间残差(T-ResNet)架构。可以相对于精确地控制该变量的数据集来对集中于不考虑相机运动的万斯进行去相关。例如,可以研究图像稳定预处理的影响。类似地,可以支持旨在关于相机运动的不变性的特征表示的开发。 其次,从学习的角度来看,可以研究训练对稳定和测试对移动相机场景的影响(反之亦然)。第三,更普遍的是,考虑到评估算法的最佳性能在整个数据集上显示出低于90%的准确度,在移动相机子集上显示出低于82%的准确度,因此有足够的空间使用YUP++对改进算法进行进一步的基准测试。4.6. T ResNet是否可以推广到其他任务?在表4中,我们报告了我们的T-ResNet架构在流行的UCF 101 [19]和HMDB 51 [21]数据集上进行动作识别评估时与动态场景分类相反,光流是用于动作识别的特定判别输入模态[22,35,47];因此,我们将我们的时间残差单元应用于双流架构的外观和流网络[35]。我们的T-ResNet是按照Sec. 2.3为了与以前的工作进行比较,如[35]中所述,通过使用25个均匀采样的输入帧 / 光 流 堆 栈 及 其 水 平 翻 转 来 进 行 测 试 。 对 于 T-ResNet,最大池化层,Sec.2.2,在时间维度上池,网络为输入产生单个预测(而不是像[35]中那样平均25帧预测)。两个流的融合是通过对它们的预测层输出进 行 平 均 来 实 现 的 ( 而 不 是 像 [35] 中 那 样 应 用softmax)。对于HMDB51,我们在平均得分之前将时间网络得分加权三倍[35]。在表4中,我们观察到ResNet本身性能并不比VGG-16双流网络好多少(在UCF 101和HMDB 51上分别产生91.4%和58.5%[49]),但它的优点是参数少,速度快两倍左右(ResNet-50有38亿次浮点运算,19.6在VGG-16中)。一个更有趣的比较来自我们提出的T-ResNet架构,它提供了一个健康的性能,提升外观和流量。91.7%的涨幅,UCF 101组为93.9%,HMDB 51上的67.2%可以通过在输入上的长时间范围上操作的时间残差单元来解释更一般地说,T-ResNet明显优于最先进的方法[13,49],并进一步受益于IDT-FV [48]轨迹特征的SVM分数的简单添加最具竞争力的方法,ST-ResNet [9]使用通过复制随着时间的推移预训练的空间1×1内核; I.E.平均化of feature特征maps地图over time.我们推测,这种和初始化是次优的捕捉特征时间模式。然而,我们的方法使用从头开始训练的时间另一个概念上的优势,我们提出的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功