没有合适的资源?快使用搜索试试~ 我知道了~
1793面向视频的进化时空神经架构放大图片作者:AJ Piergiovanni,Anelia Angelova,AlexanderToshev,Michael S.谷歌大脑{ajpiergi,anelia,toshev,mryoo}@ google.com摘要我们提出了一种新的方法来寻找视频CNN架构,捕捉视频中丰富的时空信息。以前的工作,利用3D卷积,通过手动设计视频CNN架构,获得了有前途的结果。我们在这里开发了一种新的进化搜索算法,该算法自动探索具有不同类型和层组合的模型,以共同学习视频表示的空间和时间方面之间的相互作用。 我们通过将其应用于两个元架构来证明该算法的通用性,从而获得优于手动设计的架构的新架构:EvaNet。此外,我们提出了一个新的组件,iTGM层,它更有效地利用其参数,允许在更长的时间范围内学习时空相互作用iTGM层通常是进化算法的首选,并允许构建具有所提出的方法发现了以前未知的新的和不同的视频架构更重要的是,它们比以前的模型更准确,更快,并且在我们测试的多个数据集上的表现优于最先进的结果,包括HMDB,Kinetics和时间中的 我们将开放源代码和模型,以鼓励未来的模型开发1.1. 介绍视频理解任务(如视频对象检测和活动识别)对于计算机视觉的许多社会应用(包括机器人感知、智慧城 市 、 医 疗 分 析 等 ) 都 很 重 要 。 卷 积 神 经 网 络(CNN)在视频理解方面很受欢迎,有许多成功的现有方法,包括C3D [30]、I3D [1]、R(2+1)D [33]、S3D [38]和其他[3,9]。这些方法专注于手动设计专门用于视频的CNN架构,例如通过将已知的2D架构(如Incep-tion [28]和ResNet [5])扩展到3D [1,33]。然而,设计新的、更大的或更先进的架构是一个挑战,1代码和型号:https://sites.google.com/corp/view/evanet-video问题,特别是因为视频任务的复杂性需要更深更宽的架构和更复杂的子模块。此外,现有的网络,这主要是由基于单图像的任务,可能不足以捕捉视频数据中丰富的时空交互的启发。在这项工作中,我们提出了一个视频架构的演变方法来利用丰富的时空信息存在于视频。神经架构搜索和进化先前已被应用于文本和图像分类[29,41]。由于对3D输入进行操作的可能架构的大搜索空间,上述方法对视频的朴素扩展为了解决这些挑战,我们提出了一种新的evo- lution算法的视频架构搜索。我们介绍了一个混合元架构我们成功地将其应用于基于Inception和ResNet的Meta架构。我们专门为视频CNN架构设计了搜索空间,这些架构共同捕获视频中的各种我们鼓励在进化的早期阶段应用多个非平凡的突变,同时在后期阶段限制突变,从而探索更多样化的架构。这使我们能够发现多种不同但相似的好架构,使我们能够通过组合它们来形成更好的整体。此外,为了丰富视频输入的搜索空间,我们提出了一个新的关键元素,专门设计用于捕获时空特征的相互 作 用 。 我 们 引 入 了 一 个 膨 胀 的 时 间 高 斯 混 合(iTGM)层作为进化搜索空间的一部分。iTGM的动机是原始的1D TGM [21]。对于我们的iTGM,除了时间高斯混合值之外,我们还学习2D空间滤波器,并在时间上通过根据学习的1-D时间高斯混合模式遵循权重,2D滤波器被非均匀地这允许更有效地探索时空交互,并且使用更少的参数,同时在视频中捕获更长的时间信息。17943DConviTGM1x1x1(2+1最大-池平均池Concat图1.通过进化获得的视频架构示例。类似于盗梦空间的建筑。颜色对图层的类型进行编码,如右侧所示。数字表示每个模块中过滤器的时间大小。参见讨论文本。图2.为Kinetics数据集获得了三种不同的ResNet类架构。模块重复R次。所提出的算法导致新的架构,其中包括有趣的子模块(见图。1和2)。它发现了复杂的子结构,包括具有多个并行时空卷积/池化层的模块,这些模块其他发现包括:多个不同类型的层组合在同一模块中例如,与(2+1)D卷积和池化层联合的iTGM层;异构模块在不同层次的架构,这是在对比以前的手工制作的模型。此外,进化本身产生了一组不同的精确模型。通过集成它们,识别准确性的提高超过了其他复杂架构的集成。我们的方法发现了在我们测试的所有四个公共数据集 上 表 现 优 于 最 先 进 的 模 型 ( 即 , HMDB ,Charades,Moments in Time和Kinetics)。这是通过通用的进化算法完成的,没有每个数据的超参数调整。此外,最好的模型非常快,单个模型的运行时间约为100 ms,而集合的运行时间为250 ms,两者都比以前的模型快得多。本文的主要技术贡献是:1)我们提出了一种新的进化方法来开发时空CNN架构,专门为视频设计。我们设计搜索空间,专门探索不同的时空卷积层及其组合,并鼓励多样性。(2)引入新的空时卷积层,即膨胀TGM层,设计用于捕获长期时间信息。3)发现的模型在多个视频数据集上实现了最先进的性能,并且是视频中最快的模型之一。我们提供了新的多样化的架构,集成和组件,可用于未来的工作。据我们所知,这是第一个用于视频理解的自动神经2. 相关工作CNN用于视频理解 将视频视为时空体积的方法特别成功[1,4,30,31],直接将3D CNN应用于视频。C3D[30]学习了3x3x3 XYT过滤器,它不仅适用于动作识别,也适用于视频对象识别。I3D [1]将Inception架构扩展到3D,在包括Kinetics在内的多个活动识别视频数据集上获得了成功的结果。S3d[38]研究了除了3D层之外的1D和2D卷积层的使用 R(2+1)D [33]使用2D Conv.层,然后是1D转换。层,同时遵循ResNet结构。双流CNN设计也被广泛用于动作识别,除了原始RGB之外,它还需要光流输入[3,27]。还有一些作品专注于使用池化[19],注意力[20]和卷积[9]在连续视频 递归神经网络(例如,LSTM)111131151531911 31 31 317151 31 91 111 119 11 7319135 17 15 19 15 15 1511119 15 13 11111191517119131513921151713151519111Concat11 111131313 113711R = 333173R = 2R = 519 1111 5111111R = 511311311111 91R = 27111111111 111511R = 3915131335131111R = 5R = 41 7193111713113 11371111R = 6119 1111 31111111R = 3R = 4R = 3ConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcatConcat1795l=0M也用于顺序表示视频[19,39]。神经架构搜索。 自LeCun等人的早期卷积神经网络概念以来,神经网络架构已经取得了显著进展。[13]Krizhevsky et al.[11]:开 发更 广泛的 模块, 例如 ,Inception [28],或引入重复的模块[14],剩余连接[5,37],密集连接的网络[6,7]或多任务架构:例如,在一个实施例中,更快- RCNN和RetinaNet用于检测,以及许多其他[15,2D内核****TGMs--时间充盈TGM16、24]。最近,一些突破性的方法已经被提出用于神经网络架构的自动学习/搜索,而不是手动设计它们[23,29,41,42]。成功的架构搜索已被证明用于图像和文本[41,42],包括对象分类。Tran等人。[32]分析了不同设置下的动作识别实验,例如,输入分辨率、帧速率、帧数、网络深度,所有这些都在3D ResNet架构内。3. 用于动作识别的卷积层我们首先回顾视频的标准卷积层,然后引入新的iTGM层,以更少的参数和更低的计算成本学习更长的视频CNN类似于标准CNN,区别在于输入和所有中间特征图中的额外时间维度。更详细地,输入图和特征图都被表示为具有两个空间维度的4D张量XYTC,一个空间维度是时间维度,一个空间维度用于像素值或特征(即,信道)。几图3.iTGM层。膨胀的TGM内核的示例1D高斯这使得其可学习参数的数量与时间滤波器大小无关;利用TGM层,不必处理所有核权重,而只需处理高斯混合参数。在这项工作中,我们采用上述的想法,直接定义一个三维时空内核,命名为膨胀的时间高斯混合层(iTGM)。我们绍克其中S是“膨胀”的2D卷积,K是使用高斯混合定义的时间1D内核(见图2)(3)第三章。高斯混合核K定义如下。用µm和宽度σm表示M的中心和宽度高斯型,m ∈ {0,. . . ,M}。此外,用aim表示,i∈{0,. . . ,Cout}软注意混合权重。时间高斯核读取:已经探索了这种张量上的卷积形式3D卷积层学习标准3D卷积Kml=1 exp.(l−µm−)2Σ(一)时间与空间的关系[8]。它将维数为L×H×W×C×in的Cout核应用于大小为T×Y×的张量上,Z其中Z是归一化:ΣL2σ2克鲁姆勒=1时。 然后,aX×Cin产生一个大小为T×Y×X×Cout的张量。该层具有LHW CinCout参数,这是一个命令的幅度大于CNN,并成为禁止在上述高斯核的混合是:(aim)很多案子。此外,将2D内核扩展到3D已经被广泛应用。Kil=100J exp(aij)Kml。(二)探索[17]。 I3D扩展内核通过堆叠2D内核L次,导致最先进的性能[1]。(2+1)D卷积层将3D内核分解为2D空间内核和1D时间内核的组合[33,38]。它具有HW CinCout+LCoutCout参数,因此比3D卷积更有效。然而,它仍然取决于时间维度L,这限制了滤波器的时间大小。3.1. 3D膨胀TGM层最近引入的时间高斯混合层(TGM)[21]是一种专门的1D卷积层,旨在克服标准1D卷积层的限制与通常用于视频CNN(如R(2+1)D)的标准1D时间卷积层相比,TGM层将其滤波器表示为混合这导致K是Cout×L内核; i.例如, 具有C输出通道的时间内核。 我们将此内核应用于空间内核的输出。因此,我们得到一个L × H ×W×Cin× Cout核,仅使用HWCinCout+2M+MCout参数。在实践中,μ被限制在[0,L)中,μ=(1/2)(L−1)tanh(μ)+1。 且σ是σ iv e,σ2=e×p(σi)。此外,M是超参数,通常小于L。iTGM层的参数-上面的层与标准的3D XYT卷积完全一样。注意,该层学习的参数比3D和(2+1)D卷积都少,并且可以学习时间上更长的内核,因为参数的数量与长度L无关。充气的TGMs的例子如图所示。3 .第三章。1796视频BxTxHxWxCLx7x7步幅2干Lx3x3Max-Pool跨步1,2,2剩 余 初 始模块1Lx3x3Max-PoolStride2,2,2剩 余 初 始模块2Lx2x2Max-PoolStride2,2,2剩 余 初 始模块3Lx2x2Max-PoolStride2,2,2剩 余 初 始模块42x7x7平均池图4.我们的类似ResNet的4. 视频的神经架构进化我们专门为视频设计了我们的神经架构搜索,并提出了以下建议:• 使用• 在六种不同类型的时空卷积/池化层级联的组合中搜索,其中它们的持续时间可以在大范围内变化。• 我们专门设计了变异操作,以更有效地探索可能的架构的大空间。• 我们提出了一个进化的抽样策略,鼓励更多样化的架构在搜索的早期。神经架构进化通过迭代地修改架构池来找到性能更好的从一组随机架构开始,它在多轮中使它们变异最近的研究[22]表明,进化算法可以从较少数量的样本中找到良好的图像架构,而不是使用强化学习的模型搜索算法[41]。这使得进化更适合视频架构搜索,因为视频CNN的训练成本很高此外,它允许通过选择和组合更有效地处理具有大得多的维度的输入的各种时空层来改变架构这种演变还使得能够获得多个不同的架构,而不是我们用来构建强大的集成的单个架构。4.1. 搜索空间和基础架构我们将我们的架构发展为具有异构模块,这是由于最近的观察结果,即视频CNN架构可能需要不同层的不同大小的时间滤波器,例如,底部重与头重脚轻[38]。为了保持整个搜索空间可管理,同时不断发展的模块异构,我们使用的元架构,内部子模块被允许发展没有约束,但高层次的architec- ture有一个固定数量的总模块。我们使用了类似Inception和ResNet的元架构。Inception元架构遵循流行的Inception架构,五个层形成类似ResNet的元架构如图4所示。该Meta架构由两个固定卷积层(即,“四”是指四个方面,即四个方面。与最大池化层穿插的单元。每个剩余的Inception模块可以重复R次,并且具有剩余的连接。图5显示了一个示例模块。每个模块可以有多个并行卷积或池化层,其具体形式是通过演化选择的。我们约束的复杂性之间的连接层在一个模块中,同时使进化探索模块的时间方面。更具体地说,我们让每个模块有1-6个并行的“流”,有四种不同的流类型:(i)一个1x 1x 1转化器,(ii)一个时空转换器层后一个1x1x1层,(iii)两个时空conv.一个1x1x1之后的层,以及(iv)一个1x1x1之后的时空池化。图5显示了这四种类型。体系结构演变的重点是修改每个模块:选择层类型及其参数,选择平行层的数量,以及对于剩余的层,每个模块应该重复多少次。卷积层具有{1,3,5,7,9,11}作为可能的时间内核大小的其结果是,体系结构搜索空间的大小为O((3×6+1)5+B×N+(6+1)D×N),其中B和D是空间数目的最大值,我们在每个模块中允许时间转换和池化层,N=4或9是元架构中的模块数量。在模块之前有2或5个单独的层(通常也称为每次时空转换层为3 ×6可能的选项,每个时空池有6个选项。此外,还有添加/省略层的选项,使选择的总数为3×6 + 1和6 + 1。对于类ResNet模型,我们允许模块重复多达6次。我们将内核的空间大小固定为3×3。虽然搜索空间很大,但其思想是,搜索是不必要的并且可以通过从各种初始样本进化来找到好的局部最优(即,archi- tectures)。4.2. 进化算法算法1总结了架构搜索。在标准遗传算法设置中,我们维护一个大小为P的群体,其中群体中的每个个体都是一个特定的架构。初始架构是通过从我们的大搜索空间中随机抽样,搜索多样性和探索获得的。在每一轮进化中,该算法从整个种群中随机选择S个样本,并比较它们的识别性能。具有最高适应性的架构(即,验证精度)成为1x1x11797RR我更改图层类型突变(一)图5.具有4层流的残余Inception模块的示例结构。可以有1-6个并行流(具有4种类型)和从输入到输出的剩余连接。‘child’每当添加新的架构时,它都会使用训练集进行多次迭代训练,并使用单独的验证集(不同于实际的测试和验证集)进行评估,以衡量识别准确性。这种性能成为架构的 有S,其中1S≤P控制父选择的随机性<它避免了算法重复选择相同的父节点,它可能已经处于局部最大值。算法1进化搜索算法函数S_E随机初始化种群,P在P对于i个进化轮,S=25个个体的随机样本,父母=S中最适合的个体,孩子=父母<对于max(i=1),child= mutate( child)端评估子项并添加到总体从群体中删除最不适合的个体端对端函数突变。变异操作符修改父体系结构以生成新的子体系结构。为了探索体系结构搜索空间,我们在第4.1有效地,我们考虑以下4个突变操作子:(i)选择一个时空转换器。层,并改变其“类型”。(ii)选择一个时空转换。层或池化层,并改变其时间大小(即,L)。(iii)从父架构中选择一个模块,并添加/删除并行层流。我们将并行层流的数量限制为1-6。我们还限制每个模块具有固定数量的输出滤波器,这些滤波器在并行层之间均匀划分(iv)选择一个模块,并更改它的次数(b)第(1)款添加图层突变(c)第(1)款图6.应用于模块的示例突变,包括(a)层类型改变,(b)滤波器长度改变,以及(c)层添加。重复图6展示了应用于模块层的突变操作符的示例。多样性重要的是,我们通过应用多个随机选择的变异算子来设计我们al-出租m中的变异。为了鼓励更多样化的体系结构,我们开发了在进化的早期阶段应用许多突变算子的策略,同时减少后期阶段的突变量,这类似于控制CNN模型学习中的学习速率。如算法1中所述,我们应用max(d−i,1)变异算子的数量,其中d是我们希望在开始,r控制我们希望线性减少它们的数量的速度。一旦将子架构添加到群体中,为了将群体的大小保持为P,进化算法从池中选择要丢弃我们尝试了不同的删除标准,包括最低的健身和最古老的(即,[22]),这对我们的情况没有多大影响。合奏。我们获得了一些性能最佳的archi- tectures进化搜索完成后,由于我们的进化算法促进人口与不同的个人架构。 因此,我们能够-通过改变它们的softmax层的输出,从不同的模型中构造一个强大的系综:F(x)=Fi(x)其中x是输入视频,Fi是顶级模型。在实验中,我们发现我们的方法获得了非常多样化的,最高性能的架构。集成进一步提高了整体识别。我们将最终的集成网络命名为EvaNet(EvolvedVideoArchitecture).输出+级联Lx3x3Lx3x31x1x1Lx3x31x1x11x1x1 1x1x1Lx3x3最大池输入级联3DConvTGM3x3x37x3x31x1x11x1x11x1x11x1x13x3x3最大池输入输出级联(2+1)D TGM3x3x3 7x3x31x1x11x1x11x1x11x1x13x3x3最大池输入输出级联3DConvTGM3x3x37x3x31x1x11x1x11x1x11x1x13x3x3最大池输入输出级联更改时间大小突变3DConvTGM3x3x39x3x31x1x11x1x11x1x11x1x13x3x3最大池输入输出级联3DConvTGM3x3x37x3x31x1x11x1x11x1x11x1x13x3x3最大池输入输出级联3DConvTGM3x3x37x3x31x1x1(2+1)D5x3x31x1x11x1x11x1x13x3x3最大池1x1x1输入输出17985. 实验虽然我们的进化架构搜索适用于各种不同的视频理解任务,但在这里,我们专注于人类活动识别。视频CNN架构是使用公共数据集发展的。在进化过程中的架构的适应性是在训练数据的子集上测量的在所有的实验中,进化算法在训练和进化过程中没有访问测试集。更详细地说,我们使用以下数据集:HMDB [12]是从各种来源收集的人体运动视频数据集。它是视频分类的常用数据集,拥有51个动作类的107K视频。Kinetics [10]是一个具有挑战性的大型视频数据集,表1.HMDB拆分1与基线的比较,有和没有Kinetics预训练。所有模型均使用ImageNet权重进行初始化。HMDBHMDB(培训前)RGB流RGB+F RGB流RGB+F基线iTGM转换56.5 62.568.274.676.7 79.93D-Englance67.680.4iTGM-Ensemble69.580.6来自evolution的顶级个人模型225,946个培训和18,584个验证视频。 公司现采用国际前160.7 63.270.374.4 78.781.4目前可用的版本(Kinetics-400数据集),顶部263.4 62.571.275.8 78.480.6比原来的Kinetics少了大约25k的训练视频前360.5 63.170.575.4 78.979.7数据集(即,丢失大约10%的训练/验证/测试数据)。这EvaNet72.882.7使数据集更难训练,而不是比较,与上一版本相同。Charades [26]是一个活动识别数据集,包含10000个视频,平均持续时间为30秒我们选择猜字游戏是为了特别确认我们的建筑进化是否发现了与动力学等较短视频不同的我们使用标准的分类评估协议。Moments in Time [18]是一个用于理解视频中的动作和事件的大规模数据集(339个类,802,264个训练,33,900个验证视频)。5.1. 实验装置表2.HMDB的表现平均超过3个分裂。体系结构的演变是在较小的...放置大小和较少的迭代次数 细节可以发现在阑尾。我们进行2000轮的进化:生成、变异、训练/评估和丢弃2000个CNN架构。请注意,2000轮通常足以找到好的架构(图7)。一旦架构演进完成,形成模型被发现,它们在完整的输入上被训练。基线。我们将我们的结果与最先进的活动识别方法进行比较。我们训练(1)原始的I3D [1]与标准的3D转换。层。我们还训练了一个Inception模型:(2)三维转换。L=3层,(3)(2+1)D conv.层,以及(4)所提出的iTGM层。(1)和(2)之间的区别在于(1)在第一个3D转换中使用L=7。层,并且在所有其他3D层中L=3(手工设计),而(2)在其所有层中使用L=35.2. 结果接下来,我们报告所提出的方法的结果,并与基线和先前的工作进行比较。这不仅是在识别精度方面,而且在计算效率方面。如表7所示,我们的个体模型快4倍,集合(EvaNet)快1.6倍比ResNet-50等标准方法更快。我们的两个元架构执行类似。下面,我们报告了ResNet类架构的结果(见suppl.进一步的结果)。HMDB:表1显示了与基线架构相比,进化的CNN的准确性,其中评估是在“分裂1”上完成的。我们看到我们的个人模型以及合奏的准确性提高。我们还证实EvaNet集合优于通过组合其它体系结构获得的集合(例如,3D ResNet)。表2比较了我们的性能与以前的国家的最先进的所有三个分裂以下的标准协议。正如所见,我们的EvaNet模型具有超越最先进水平的强大性能。Kinetics:表3显示了我们的算法在Kinetics-400上的分类准确性,并与基线、其他集合和最新技术进行了比较。建筑-结构演化发现比任何先前模型更好的性能模型。此外,3个模型(EvaNet)的集成提高了性能,并优于其他集成,包括各种标准架构的集成。i3D49.5 61.966.474.8 77.180.13D转换47.4 60.565.974.3 76.879.9(2+1)D转换27.8 56.451.874.4 76.579.9双流[27]59.4双流+IDT [3]69.2R(2+1)D [33]78.7双流I3D [1]80.9波提恩[2]80.9迪克里姆合并[35]81.3DSP [34]81.5顶级模特(个人,我们的)81.33D-Englance79.9iTGM-Ensemble80.1EvaNet(Envoy,我们的)82.31799表3.在动力学性能-400十一月。2018年版。请注意,这个集合比Kinetics-400的初始版本小10%(在训练/验证集大小方面)。我们报告的数字是基于在这个最新版本上训练的模型。基线显示在顶部,然后是最先进的技术,然后是我们的方法。方法准确度3D Conv 72.6(2+1)D转换74.3表5.时间的瞬间我们表明,模型演变的动能转移到类似的数据集。方法准确度[18]第十八话ResNet-50 30.5ResNet-50 + NL [36] 30.7Arch. Ensemble(I3D,ResNet-50,ResNet-101)30.9前1名(个人,我们的)30.5iTGM Conv 74.4ResNet-50(2+1)D 72.1ResNet-101(2+1)D 72.8EvaNet(Envoy,我们的)31.8表6.测试数据集上模型的准确性,3D-Englance 74.6iTGM-Envelope 74.7多样化Entrance(3D,(2+1)D,iTGM)75.3单一数据集。方法Kinetics CharadesArch. Ensemble(I3D,ResNet-50,ResNet-101)75.4前1名(个人,我们的)76.4前2名(个人,我们的)75.5前3名(个人,我们的)75.7随机包围72.6EvaNet(Envoy,我们的)77.2表4.字谜分类结果与最新技术的对比。地图[25]第二十五话Two-Stream + LSTM [25] 17.8[25]第二十五话土耳其[40]迪克里姆[35]第三十五话非局部NN [36] 37.53D-增强(基线)35.2iTGM-Entrance(基线)35.7前1名(个人,我们的)37.3前2名(个人,我们的)36.8前3名(个人,我们的)36.6EvaNet(Envoy,我们的)38.1字谜:我们还在流行的字谜数据集上测试了我们的方法。表4与先前报告的结果进行了比较(我们使用[36]中的Kinetics预训练)。如图所示,我们的表现超越了最先进的水平,并通过EvaNet建立了一个新的水平我们的CNN仅使用RGB输入(即,在这个实验中。迁移学习的体系结构-时间:我们通过在另一个数据集上训练来评估在Kinetics上进化的模型:时间的瞬间[18]表5显示了结果,我们看到模型的性能优于先验表7.在V100 GPU上测量的时间添加了Kinetics-400的准确度数字这些数字是在224x224下的1128帧剪辑的评估时间方法准确度EI3D 72.6 337 msS3D 75.2439毫秒ResNet-50 71.9526msResNet-50+非本地73.5572msI3D iTGM(我们的)74.4 274ms 个人学习模型(我们的)75.5108毫秒EvaNet(Envelope,我们的)77.2258毫秒方法和基线。这是特别有吸引力的,因为进化是在另一个数据集上完成的,并成功地转移到一个新的数据集。集成和运行时。演化模型架构的一个关键好处是所产生的模型自然是多样的,因为它们是从非常不同的初始随机模型演化而来的。如表3所示,我们与三个不同基线的集合(3D Conv+(2+1)D + iTGM)和具有不同架构的集合(例如,I3D + ResNet-50 +ResNet-101)。EvaNet的表现优于两者,尽管基础模型各自都很强大。此外,我们的进化模型是非常有效的执行推理的视频在100毫秒(表7)。请注意,即使是一个合奏是更快,258毫秒,比以前的个人模型,这使得所提出的方法非常适合于实际使用,具有更高的精度和更快运行时。这种运行时间的增加是由于使用了并行的较浅层和iTGM层,iTGM层本身比之前的层更快(274ms vs 337 ms)。架构发现。 图1和图2显示了所找到的架构的示例。发现的有趣的子结构包括:(1)组合具有不同时间间隔的多个时空池化层的模块,以及(2)在动力学77.237.882.331.8双流I3D [1]72.6关于Charades76.538.181.831.1双码流S3 D-G [38]76.2在HMDB77.037.582.331.6ResNet-50 +非本地[36]73.5最好不要进化76.237.581.530.71800表8. 不同混合Meta结构模型的比较。动力学数据集。方法精度EvaNet Inception(Encourage,我们的)76.8EvaNet ResNet(Envoy,我们的)77.2EvaNet组合(Envelope,我们的)77.4表9.顶级模特的统计数据。iTGM层是最常见的并且具有最长的持续时间。动力学数据集。0.550.500.450.400.350.300.250.20进化搜索随机搜索0 500 1000 1500 2000严重依赖于膨胀TGM或(2+1)D转换的模块。层,而不是标准的3D转换。层。这种模块通常在建筑中的大多数位置观察到,同时非常多样化和异构。视频CNN架构可能会根据数据集的不同而演变这是预期的,我们能够明确证实这一点。该架构具有更多的层,具有更长的空时滤波器(例如,9或11)时,他们进化为哑谜,而他们只有少数时,进化为HMDB或动力学。Charades视频的平均活动持续时间约为12秒,而HMDB和Kinetics视频的平均活动持续时间为3至5秒。不同的数据集/任务需要不同的体系结构,我们提供了一种自动化体系结构设计的进化表8进一步表明,Inception-like和ResNet-like元架构都是成功的,并且它们的组合甚至更成功。5.3. 消融研究iTGM模型的有效性。在表9中,我们显示了最佳模型的层统计信息。在EvaNet架构中,iTGM层具有最长的平均长度(8.6)。此外,我们的模型具有相当大的平均368帧的时间分辨率(与99帧的I3 D/S3 D相比)。为了进一步证实iTGM层的有用性,我们进行了几个实验。在表10中,我们示出了使用具有各种时间持续时间的iTGM层的结果。由于我们可以在不改变参数数量的情况下增加时间长度,因此我们可以通过简单地采用更长的时间持续时间来提高性能。我们还比较了将所有iTGM层替换为(2+1)D层以及在没有iTGM层的情况下执行架构搜索作为选项。这两种限制都会降低性能,从而确认需要iTGM。我们还注意到,iTGM层在最佳模型中最常见(表9),进一步证实了它们的重要性。‘Stretching’ of iTGM layer图7.随机搜索与HMDB上的进化算法X轴为轮数,Y轴为精度。表10.评估iTGM层对Kinetics影响的实验。模型精度iTGM(L= 3)74.4iTGM(L= 11)74.9EvaNet用(2+1)D取代iTGM 76.6Arch Search without iTGM in space 76.8EvaNet77.2表11.将iTGM内核从Kinetics扩展到Charades。模型图iTGM基线(L= 3)33.8iTGM拉伸(L= 11)34.2动力学EvaNet 37.7EvaNet拉伸动力学(L= 11)38.1Charades EvaNet38.1一个来自Kinetics数据集的模型,“拉伸”iTGM层并将其应用于Charades,Charades的活动持续时间更长。在表11中,我们显示了在Kinetics上使用L=3的模型并在Charades上扩展到L=11的结果,这显示了类似的性能。进化与随机搜索我们比较了我们的架构演化与随机架构搜索(图7)。我们观察到,进化和随机搜索精度都随着它们探索更多的样本而提高(受益于设计的搜索空间)。然而,架构进化获得了更高的准确性和更快的速度,而最初的几轮进化,表明突变是有效的。6. 结论我们提出了一种新的进化算法,自动构建架构的层探索时空的相互作用的视频。所发现的架构是准确的,多样的,非常有效的。集成这样的模型,导致进一步的准确性增益,并产生更快,更准确的解决方案比以前的国家的最先进的模型。演化模型可以跨数据集使用,并为视频理解构建更强大的模型。层数3D(2+1)DiTGM3DAve. 时间长度(2+1)D iTGM池前1261657.27.26.0顶部267127.88.18.65.7前3261567.88.56.21801引用[1] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年。一二三六七[2] VasileiosChoutas , PhilippeWeinzaepfel , Je'roRummeRevaud和Cordelia Schmid。Potion:用于动作识别的姿势运动表示。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。6[3] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第1933- 1941页一、二、六[4] 原贤章片冈广胜佐藤丰利用三维残差网络学习时空特征用于动作识别。在ICCV行动,手势和情绪识别研讨会的会议记录中,第2卷,第4页,2017年。2[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年。第1、3条[6] 高煌,刘庄,劳伦斯·范德马腾,和Kilian Q.温伯格密集连接的卷积网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年。3[7] Simon Jegou , Michal Drozdzal , David Vazquez ,Adriana Romero,and Yoonne Bengio.一百层提拉米苏:用于语义分割的完全卷积密集网。2016. 3[8] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维国际机器学习会议(ICML),第495-502页3[9] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议(CVPR)的论文集,第1725-1732页,2014年。一、二[10] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan ,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。6[11] A Krizhevsky,I Sutskever和GE Hinton。使用深度卷积神经网络进行图像网2012. 3[12] H. Kuehne,H. Jhuang、E. Garrote,T. Poggio和T. Serre.HMDB:一个用于人体运动识别的大型视频数据库。IEEEInternationalConferenceonComputerVision(ICCV),2011年。6[13] Y.勒昆湖Bottou,Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。1998. 3[14] Min Lin,Qiang Chen,and Shuicheng Yan.网络中的网络。2013. 3[15] Tsung-Yi Lin , Priya Goyal , Ross Girshick , KaimingHe,and Piotr Dollar.用于密集对象检测的焦点损失。2017. 3[16] Wenjie Luo,BinYang,and Raquel Urtasun.快速和狂热:利用单个卷积网络进行实时端到端3d检测、跟踪和运动预测。2018. 3[17] Elman Mansimov,Nitish Srivastava和Ruslan Salakhutdi-nov.时空卷积神经网络的学习策略arXiv预印本arXiv:1503.07274,2015年。3[18] Mathew Monfort,Alex Andonian,Bolei Zhou,KandanRa- makrishnan , Sarah Adel Bargal , Tom Yan , LisaBrown,Quanfu Fan,Dan Gutfruend,Carl Vondrick,etal. Moments in time数据集:100万个视频用于事件理解。IEEE Transactions on Pattern Analysis and Ma
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功