没有合适的资源?快使用搜索试试~ 我知道了~
用于少镜头视频分类的存储器网络结构和多显着性嵌入算法
用于少镜头视频分类的朱林超和杨毅CAI,悉尼科技大学,新南威尔士州Linchao. student.uts.edu.au;Yi. uts.edu.au抽象。在本文中,我们提出了一种新的存储器网络结构,用于少镜头视频分类,并做出了以下贡献。首先,我们提出了一个复合记忆网络(CMN)结构下的键值记忆网络范式,其中每个关键记忆涉及多个组成键。这些组成密钥协同工作用于训练,这使得CMN能够在更大的空间中获得最佳视频表示。其次,我们引入了一种多显着性嵌入算法,该算法通过发现多个感兴趣的显着性来将可变长度的视频序列编码为固定大小的矩阵表示。例如,给定汽车拍卖的视频,一些人对汽车感兴趣,而另一些人对拍卖活动感兴趣。第三,我们设计了一个抽象的记忆体上的组成键。抽象存储器和组成密钥形成分层结构,这使得CMN更高效并且能够被缩放,同时还保留了多个密钥的表示能力。我们将CMN与新的几个镜头视频分类数据集上的几个最先进的基线进行比较,并展示了我们方法的有效性关键词:少镜头视频学习·视频分类·记忆增强神经网络·复合记忆网络1介绍深度学习模型已成功应用于许多任务,例如,图像分类[16,25,29,8],图像检测[22],视频分类[12,24]和机器翻译[28,36]。卷积神经网络(ConvNets)和递归神经网络(RNNs)已经成为各个领域的内置模块。然而,需要大量标记的训练数据来训练深度神经网络。为了使现有模型适应于识别在训练期间不可见的新类别,可能需要手动收集数百个新训练样本。这样的过程是相当繁琐和劳动密集的,尤其是当存在许多新类别时。越来越需要以终身的方式从几个示例中学习分类模型,这也被称为少数学习任务[23,32]。在少数识别设置中,网络需要仅从少数示例中有效地学习与传统模式2L. Zhu和Y. 杨元测试集测试第1支持集训练示例1打篮球训练示例2打鼓培训示例3焊接查询?测试实例打篮球元训练集…图1.一、少数镜头视频分类的设置。在该图中存在两个不重叠的数据集,即,元训练和元测试。元训练集用于元学习,元测试集用于评估新类别的泛化性能。该网络以情节的方式进行训练,每个情节都有一个支持集和一个查询示例。通过在许多数据样本上训练,在少数镜头设置中的模型被训练为在不同的情节中泛化。与通过微调来训练新分类器相反,我们提出了一种在Meta学习范式下的学习方法[23]。我们的目标是使系统能够学习如何利用元训练集将视频如图1所示,元训练集由模拟少量学习任务的多个片段组成在这个例子中,每个事件中每个类只有一个正样本培训阶段和测试阶段之间没有重叠的在训练阶段,系统学习最佳机制,最好地识别所有训练片段中的查询测试时,系统直接采用学习到的最优机制对测试片段中的每个查询进行分类。在本文中,我们专注于少镜头视频表示学习。视频具有比图像更复杂的结构,涉及时间信息和更多噪声,例如,摄像机运动,物体比例,视点。这是一个更具挑战性的任务比少镜头图像分类。许多视频通常包含数百个包含各种场景动态的帧。当仅提供几个示例时,可能难以理解视频中的概念因此,我们提出了一个复合记忆网络(CMN)结构的几个-镜头视频分类我们的CMN结构设计在键值存储器网络之上[35],原因有两个。第一,新信息可以被快速写入内存,从而提高了我们的模型的可用性。在其他情况下,MANN能够存储并长期记忆示例,即使该示例仅被看到一次。第二、训练第一训练第二支持集支持集训练示例1制作蛋糕训练示例1接吻培训示例2拍卖训练示例2遛狗训练示例3取消装箱训练示例3高尔夫削球Query查询??测试实例做蛋糕测试实例高尔夫削片用于少镜头视频分类的3存储在存储器模块中的信息可以被存储更长的时间。riod,可以很容易地访问。在训练过程中,每个训练片段中的信息逐渐累积到CMN中,然后将CMN用作学习的少镜头视频分类机制用于测试。值得强调的是我们的CMN模型的以下方面。首先,我们提出了一个新的概念,复合记忆网络具有更强的表示能力,通过扩展的关键记忆元素从一个一维向量到一个二维矩阵。标准的键值内存网络使用单个向量作为每个内存插槽中的键[19]。视频比图像结构更复杂因此,我们建议使用多个向量来增强视频表示,每个向量是一个组成键。组成键被堆叠到矩阵以生成CMN中的这些堆叠的组成键在训练阶段协同工作,提供更大的搜索空间,从中获得最佳的视频表示。其次,我们引入了一系列隐藏的显着性描述符作为构成键中的内存插槽的CMN。在许多情况下,用户可能对视频的不同显著部分感兴趣。例如,给定生日聚会的视频我们提出了一个多显着性嵌入算法,自动检测在任何给定的视频中的多个感兴趣的显着性我们通过集成新设计的可学习变量来扩展自注意机制[18,31多显著性嵌入算法为每个流派学习隐藏的显著性描述符,然后将其堆叠为CMN中的视频表示。第三,我们设计了一个分层的存储结构,这大大提高了效率,同时保留了CMN的强大的表示能力。第一层存储堆叠的组成键。我们在第一层之上设计了一个抽象存储器,它具有读写操作,用于检索和更新组成键。抽象存储器将堆叠的组成键压缩成向量,并且极大地提高了训练和测试效率。同时,两层之间的通信确保抽象存储器能够保留来自所有组成键的信息2相关工作少拍分类。米勒等人的早期作品。[20],Fei-Fei et al.[4]和Lake et al.[17]利用生成模型进行一次性学习。Koch [15]试图以监督的方式训练暹罗网络Santoro等人[23]是第一个成功地将记忆增强的神经工作和一次性学习联系起来的工作。他们将一集中的训练示例作为顺序输入,并训练网络来预测先前示例中的标签 Vinyals等人。[32]使用度量学习进行少量识别,并利用注意力kerneltome作为uretistane。给定一个,网络k被映射到4L. Zhu和Y. 杨作为预测。Ravi和Larochelle [21]基于长短期记忆(LSTM)[10]训练了一个元学习器,以生成分类器的更新,元学习器还学习任务公共权重初始化,其捕获跨任务的共享知识。Finn等人。[5]使用随机梯度下降作为元学习器来更新学习器的参数,该学习器仅学习权重初始化。Snell等人[26]将类似的模型应用于Vinyals [32],但他们使用欧氏距离与嵌入函数。Hariharan和Girshick [7]提出在测试时生成Xu等人[37]提出了一种键值记忆网络,通过从外部知识库中提取知识来促进少量学习,例如,嘈杂的Web图像。然而,他们的设置不是元学习范式。这些工作主要集中在图像少镜头识别,而我们的目标是学习一个少镜头的视频模型,这需要建模复杂的视频数据。视频分类视频分类方法已经从使用手工制作的特征(例如,改进的密集轨迹[33],到深度模型,例如,双流卷积神经网络(ConvNets)[24,34],3D ConvNets [30],双流3D ConvNets [3]。递归神经网络也被用于对视频序列进行建模[38,39]。已经做出了许多努力来使用大量视频数据来训练视频分类模型,然而,收集大数据集并重新训练所有新类别的分类器将是昂贵的少镜头视频分类任务在现实世界的场景中更现实,其中模型将遇到在训练期间从未见过的新类别。应对网络进行培训,以适应新的任务。记忆增强神经网络。随着注意力机制[2]、神经图灵机[6]和记忆网络[35]的成功,记忆增强神经网络获得了越来越多的关注在RNN中,在步骤之间传输的状态可以被解释为输入的内部存储器表示。最后一步的状态向量通常用作整个输入序列的最终表示固定大小的向量表示不能以有效的方式编码长序列。相反,注意力机制保留序列向量作为基于内容的寻址的上下文。RNN中的状态可以在几步内快速变化,而外部存储器可以长期保留信息。神经转向机[6]是一种类似计算机的网络,其增强了外部存储器,可以通过内容和位置进行寻址。读和写操作是完全可区分的,并且通过反向传播的权重更新被应用于每个存储器槽。存储器网络[35]和改进的端到端存储器网络[27]具有用于通过基于内容的寻址进行事实搜索和检索的大型存储器组件键值记忆网络[19]将记忆分解为键和值部分,引入结构记忆组件以灵活的方式存储问题-答案对在所有这些工作中使用软寻址,随着存储器大小的增长,这在计算上是昂贵的Kaiser等[11]最近提出了一种键值记忆模块,它对记忆进行硬更新,并使用排名损失来训练模型,用于少镜头视频分类的5θ做出准确的预测。然而,存储器仅存储用于输入的固定大小的向量,这在输入是长序列时是不合适的,例如,编码视频数据因此,我们提出了我们的复合记忆网络,其中每个插槽存储一系列向量,这些向量被堆叠为矩阵表示。3少镜头视频分类设置在少数镜头视频分类设置中,我们的目标是训练一个网络,该网络可以在新的类别上推广到新的剧集小批量中的每一集都是一个小样本分类任务,它由一个支持集和一个查询集组成支持集包含训练视频和标签,而查询集用于评估泛化性能。在n路k次问题中,每个片段的目标是将查询视频分类为n个类,每个类(k)只有少量剧集中的视频和标签从Meta集合中采样。Meta集有N个类(N > n),每个类有K个例子(K> k)。在我们的设置中,有三个Meta集,即,元训练集、元验证集和元测试集,分别具有N个训练类、N个验证类和N个测试类元训练集用于元学习,其最小化训练片段的损失。元验证集用于超参数调优。我们报告的元测试集的准确性。三个Meta集没有重叠的类别。在[23,32]之后,我们通过从Meta集中的N个类别中随机选择n个类别来构建一个对于每个类,从K个示例中选择K个视频。n个类别的标签索引在不同的片段中随机混洗,这防止模型记住输入和标签之间的关联。在标准视频分类问题中,存在具有固定类别的单个训练数据集Dsingle。给定从Dsingle采样的输入/输出对(x,y),目标是最小化所有训练示例上的估计损失,即,minE(x,y)Dsingle[L(x,y)],(1)其中θ表示模型中的可训练参数。在少镜头视频分类问题中,在多个不同的片段上进行训练。从元集T采样的情节Ti涉及情节长度l、输入Xt、输出yi和损失函数L(Xt,yi),其中t={1,2,. . . ,l}。 在元训练期间,网络被训练为在给定先前输入对{(x 1,y1),(x 2,y2),. . . ,(x t−1,y t−1)}。该方法旨在最大限度地减少存储在不同存储单元中的所有扩展操作,即:例如,minθETiT [Lt=1 Li(x t,y t)]。4复合记忆网络我们首先说明了多显著性嵌入函数,该函数为可变长度的视频序列学习固定大小的矩阵表示。然后,我们展示了复合记忆网络的详细结构,并介绍了6L. Zhu和Y. 杨----经验√输入图二、 输入嵌入模型的说明。 嵌入函数生成多显著性描述符Q,其被展平并归一化为查询向量。新的组件,即,组成键、抽象存储器以及访问和更新操作。4.1多显著性嵌入函数视频具有可变长度,并且在存储在内存中之前应编码成固定大小的矩阵。给定查询视频P = p1,p2,. . .,p m’,其中m’是视频帧的数量,并且p i是由ConvNet提取的帧级表示,视频P应该被聚合到固定大小的矩阵Q中。表示Q由m个堆叠的隐藏描述符q1,q2,. . . ,q,m,并且每个隐藏描述符的大小是hiden-size。注意,视频帧的数量m’在不同的视频中变化,但是m是固定的数字。通过引入具有m个分量{h1,h2,. . . ,h m}。每个分量h,j用于检测视频中的一个显著性对于每个输入pi,将计算软权重ai j除以hj,其测量输入与分量之间的相关性隐藏描述符qj将是P和hj之间的残差的加权和。因此,MEF函数可以由下式表示:ai =softmax(√dpi HThidden-size ),qj =∑mi=1aij(pi− hj),(2)其中softmax被定义为,softmax(e)=∑exp(ei)。我我为了计算pi和hj之间的相关性得分,我们简单地使用dot-乘积,但包括缩放因子1[31],后跟softmax函数。dhidden-size第原始序列P被映射到我们的多显著性描述符Q,即,Q =全连接`2-正规化查询向量变平`2-正规化多显著性描述子aa aaa隐显变量pm0−1HMH2H1pm0p3p2p1QmQ2年q1用于少镜头视频分类的7KV做蛋糕图三. 我们的CMN结构。视频首先通过多显著性嵌入函数映射到矩阵表示。然后将该隐藏表示向量化并归一化为查询向量,其在抽象存储器上执行最近邻搜索检索最相似的存储器槽,并且存储在值存储器中的标签将用作预测。组成键存储器包含输入的矩阵表示,而抽象存储器构建在堆叠的组成键之上。MEF(P, H).然后将Q展平并归一化为向量,这将在第4节(图2)中讨论。[18,31]引入了多跳注意力来计算输入上的多个加权和。相比之下,我们引入了一个隐藏变量H来显式地对输入和每个隐藏向量之间的关系进行建模,它可以学习视频中不同突出部分的多个描述符。4.2复合存储器结构我们的复合记忆网络是键值记忆网络的一个变体,它有键记忆()和值记忆()。视觉信息存储在键部分,而标签信息存储在值部分。我们的密钥存储器是一个分层结构,其中第一层存储组成密钥(C),第二层是抽象存储器(A)。我们还使用年龄记忆(U)跟踪每个插槽的使用情况。因此,复合存储器模块(M)可以由以下元组表示:M=((Cns×nc×cs,Ans×as),Vns,Uns),(3)其中NS是存储器大小,NC是组成密钥的数量,CS是密钥大小,AS是抽象存储器大小。在组成键存储器中,我们使用多个堆叠的组成键作为视觉表示,这些组成键具有比单个向量更强的能力。在CMN中,每个组成键由多显著性描述符表示。注意,Q是具有形状(m,隐藏大小)的矩阵,并且在组成密钥存储器的每个槽中存在nc个密钥。我们让m等于nc,因此Q中的每个描述符可以直接保存在组成密钥存储器中。多显著性描述子MEF复合记忆网络ConvNetConvNet正常化查询ConvNetConvNet扁平向量ConvNet帧级表示抽象记忆组成键值存储器8L. Zhu和Y. 杨A·AU我为了实现快速最近邻查询,我们引入了一个抽象的内存上的组成键内存。堆叠的键被压缩为向量,并缓存在抽象内存中。抽象记忆可以看作组成密钥存储器的快照。两个子存储器模块具有相同数量的插槽,但是它们表示不同级别的信息。我们将C中的堆叠矩阵 表示为C,并且每个组成键是 ci,i ∈{1,. . . ,nc}。 我们首先用2归一化来归一化每个组成键,即,ci=1.然后,我们将归一化的C’平坦化为一个向量,然后是一个全连接(FC)层,然后将其2归一化为压缩表示。我们将该过程表示为归一化函数,c′ =ci,d′ =FC(flatten(C′)),d =d′、(四)ci其中FC层仅仅是线性变换层,即,,FC(x)= wx+b。压缩表示d被存储在抽象存储器中,其将仅在组成键存储器中的值改变时被更新。抽象存储器保持到组成键存储器的一对一映射,这将加速查询过程。给定查询向量z =normalize(Q),在抽象存储器上进行最近邻搜索。我们通过NN(zi)= argmaxi z [i]来选择最接近查询z的存储器槽。k个最近的时隙(按相似性递减排序)可以由下式返回,(n1,. . . ,n,k)= NN,k(z,A),(5)其中n-1是与查询最相似的存储器槽。在推理阶段,V[n1]将是我们对查询z的预测。写作新的信息应该记录在记忆中以反映新查询z和对应的标签y的关系。存储器将不会经由反向传播来更新,反向传播可能会灾难性地修改信息,但它将使用以下规则来刷新。注意,n1是最近的内存插槽的索引,并且如果内存已经返回正确的标签,即,V[n_1]=y,我们仅更新n_1存储器插槽。A[n1]、U[n1]和C[n1]将被更新,并且保持V[n1]不变。C [n1][i] ← q i+ C [n1][i],其中i= 1,. . . NC,A [n1] ← normalize(C [n1]), U [n1]←0.(六)通过对组成键C[n-1]和多显著性描述符Q求平均来更新组成键存储器。相应地更新抽象存储器A[n1]。我们还将[n1]设置为0,这表明插槽n1刚刚被更新。用于少镜头视频分类的9我VAAA [n1] ← normalize(C [n1])C[n1] ←Q + C[n1]V[n1]Qy插入时y1...n0的V[n1]A[n0] ←normalize( C[n0]) C[n0]←QV[n0] ←y见图4。CMN更新规则的图示当V[n1]y时,将(Q,y)对存储在另一个存储槽中进行记录此信息我们选择长时间未更新的最旧内存插槽n′n′= arg max(U[i]+ri),(7)其中ri是在时隙选择期间引入随机性的随机数存储器将通过以下方式更新:C [n′][i] ← q i,其中i =1,. . . ,NC,A [n′] ← normalize(C [n′]),V [n′] ←y,U [n′] ←0.(八)在这种情况下,[n’]也用新标签y更新。我们在图中说明了该过程。4.第一章4.3培训给 定 查 询 z 和 对 应 的 地 面 真 值 标 签 y , 我 们 检 索 存 储 器 索 引(n1,. . . ,nk)通过Eq. 五、 设i_pos是V[ni_pos]=y处的最小i_e x th,并且i_neg是V[ni_ne_g]=y处的最小i_e x t h。我们将根据您的需求,为您提供更好的服务[ni-pos]Than在随后的排序损失的情况下,L(z,y,A)=max(α−z·A[ni-pos]+z·A[ni-neg],0).(九)1n0+++当y=V[n1]时更新1V[n1]…n0一CV……10L. Zhu和Y. 杨××查询与正关键字之间的相似度应该比查询与负关键字之间的相似度大余量α。当两个相似度之间的差超过裕度α时,损失将为0。在执行操作之前,清除每个事件中的存储器清除操作只是将所有内存变量初始化为0。在小批量训练期间,来自多个片段的信息被存储在全局存储器中。为了避免标签空间中的冲突,各集的标签ID应该不同。全局标签id可以通过下式计算:global-label-id= label-id+ index× k,(10)其中k是类别的数量,label-id是剧集中的混洗标签id,并且index是小批量中的剧集的索引。在推理阶段,网络的权重是固定的,除了记忆模块,它将与支持集的例子更新。5实验5.1数据集目前还没有针对少镜头视频分类的数据集,因此我们收集了第一个用于少镜头视频分类评估的数据集,我们将把它发布给未来的研究。我们使用了最近发布的Kinetics数据集[13]中的视频,该数据集由400个类别和306,245个视频组成,涵盖了广泛的活动和发展的视频。G. ,“d r i bbli n g b as k e t b al l“,“r o b ot dancing”,“shaking hands”,“playing violin”.我们从Kinetics数据集中随机选择了100个类,每个类包含100个示例。将100个类分成64个、12个和24个非重叠类,分别用作元训练集、元验证集和元测试集。5.2实现细节在一个n路k次问题中,我们随机抽样n个类,每个类有k个例子,而属于n个类之一的一个额外的未标记例子用于测试。因此,每个片段具有nk+1个示例。我们通过在所有实验中随机抽样20,000个事件来计算平均准确度。为了获得帧级特征表示,我们将每个帧转发到在ImageNet上预先训练的ResNet-50 [9]网络。我们遵循基本的图像预处理过程,其中图像首先通过将短边大小调整为256来重新缩放,并且从图像中随机裁剪224 - 224区域我们在推理阶段裁剪了中心区域。我们使用Adam [14]优化了我们的模型,并将学习率固定为1 .一、010- 4在所有实验中,将裕度α设定为0.5。我们调整了元验证集的超参数,并在元验证集的准确性开始下降时停止训练过程。该模型使用TensorFlow框架实现[1]。用于少镜头视频分类的11表1. 元测试集上的5路少镜头视频分类结果。数字以百分比报告我们的CMN实现了最先进的结果。模型单次拍摄2-拍摄 三发4-拍摄5次射击RGB(不含内存)28.736.842.646.248.6流量(不含内存)24.427.329.832.033.1LSTM(RGB)不带内存28.937.543.347.149.0最近-finetune48.255.559.161.062.6最近预训练51.160.464.867.168.9MatchingNet [32]53.364.369.271.874.6MAML [5]54.265.570.072.175.3普通CMN [11]57.367.572.574.776.0LSTM-emb57.667.972.874.876.2我们60.5 70.0 75.6 77.3 78.95.3评价我们将我们的模型与几个基线进行比较。我们报告了5路分类任务的1次拍摄、2次拍摄、在第一个基线中,我们利用所有的训练数据来预训练ResNet-50网络。在测试阶段,我们为每一集微调网络。网络使用预训练的权重初始化,直到最后一层。最后一层中的权重被随机初始化。我们用不同的输入测试性能对于对于为了在帧级特征上使用更复杂的嵌入函数对视频进行编码LSTM将RGB特征作为输入。每一集都有微调。我们将该基线表示为另一个基线是最近邻基线( “Nearest-finetune”)。我们首先将ResNet-50nt我们将每一帧作为输入图像,并将视频级标 签用作每一 帧的标签首 先用上述过程 对帧进行我 们使用ImageNet预训练模型初始化ResNet-50网络的权重。我们通过动量为0.9的随机梯度下降(SGD)来训练网络。我们将初始学习率设置为0.01。我们每10个epoch将学习率降低0.1批量为128。在推理过程中,我们将视频帧馈送到微调的ResNet-50网络,并在最终分类之前从最后一层提取激活。我们对帧级特征进行平均,并获得2,048维的视频级我们还在最近邻搜索之前应用2在next baseline(“Nearest-pretrain”)中,我们不对元训练数据集使用Res Net- 50网络,而是直接利用预先训练的权重而不进行修改。我们在“Nearest-Finetune”中以相同的过程嵌入视频,并且该应用程序可以通过浏览器来执行。12L. Zhu和Y. 杨元测试集上每个类准确度的比较最近预调最近微调MatchingNet普通CMNCMN10.90.80.70.60.50.40.30.20.10图五. 5路1杆设置的每类精度。我们展示了元测试集上的24个类的准确性。我们还展示了在该数据集上的Matchin g Netw或k[32](“M at c h i n gNe t“)的结果,其在少数镜头图像分类任务上实现了最先进的性能。我们自己实现匹配网络算法。我们首先将帧馈送到ResNet-50网络,而不进行微调。我们对帧级特征求平均以获得视频级特征。然后,我们使用[32]中提出的全条件嵌入(FCE)函数来嵌入训练示例。FCE使用双向LSTM,每个训练示例都是所有其他示例的函数。为了训练MAML [5],我们对帧级特征进行平均,并遵循[5]中的默认超参数。另一个基线是我们将嵌入模块替换为LSTM函数,同时保持其他设置不变。我们将该基线表示为我们进行这个基线,以显示我们的复合记忆网络结构的有效性结果示于表1中。我们可以从表1中看到,我们的CMN改善了所有镜头的基线。我们观察到,在元训练集上微调ResNet-50网络并不能提高少镜头视频分类的性能,但会显著损害性能。由于元训练集和元测试集之间没有我们的CMN结构在所有镜头中的表现也优于匹配网络4%以上。此外,我们的CMN结构优于通过每类仅添加一个示例,在1次拍摄设置和2次拍摄设置之间获得约10%的改进。当添加更多的实例时,相对改善降低,从3次拍摄到4次拍摄的改进仅仅是用于少镜头视频分类的13…12345KV678910KV11 1213 1415KV类名:blastin g sand d:插入:bushin g: blen d:踢踏舞:plyin gadjacent ly:fold in g paper最近的插槽K?测试查询V预测:街头表演12345678910111213141516………………………………………图六、 我们说明了推理过程。 有5个类,内存有16个插槽。根据查询结果,将使用两种不同的更新规则表2. 不同内存大小的结果。模型单次拍摄2-拍摄 三发4-拍摄5次射击Mem-6452.061.966.569.471.2Mem-12853.463.768.971.573.5Mem-51255.165.3 70.172.074.2Mem-204855.065.069.772.474.1百分之一点七。这说明单次分类仍然是一个难以解决的问题可以在未来进一步改进。每个类别的1次射击精度如图5所示。我们报告了查询标签为c的所有事件中c类的平均准确度。“投掷(spor t)“类别具有较高的准确性,而”hulahooping“和”stretch-ingarms“则具有约30%的准确性。我们在图6中的一个片段中说明了推理过程在此5路3次拍摄设置中,支持集有15个示例。每个示例被顺序地馈送到网络。本集分为三组,每组有五个带有不同标签的例子。我们这样安排这一集是为了更好地说明问题。在行1中,所有输入都插入存储器。在行2中,第7个示例被插入到存储器中的新槽中,而其他视频被混合到相同类别的现有槽中。在第3行中,插入第13个示例。对于第11个示例,最近的时隙是第15个时隙,并且对两个表示进行平均。14L. Zhu和Y. 杨表3.表4的不同数字的结果。Different way few-shot的结果多显著性描述符。视频分类模型单次拍摄2-拍摄 三发4-拍摄5次射击描述-153.763.568.370.973.3描述-555.1 65.3 70.1 72.0 74.2描述-1053.262.968.270.072.3模型 单次拍摄2-拍摄 三发 4-拍摄 5次射击5向55.065.069.772.474.16路51.761.866.469.371.27路49.559.664.367.168.98路46.056.161.064.065.85.4消融研究我们进行消融实验来解释我们的最终模型的选择。默认设置为5向少数镜头分类。我们在表2中显示了不同内存大小的我们还报告了其他几个镜头的视频分类任务的结果与不同数量的类别。我们在元验证集上报告结果,并且在评估期间仅选择10帧内存大小。不同内存大小的结果如表2所示当存储器具有少量插槽时,性能更差,因为当新数据到达时必须擦除一些信息。内存大小第512章最好的结果当内存大到足以记录所有信息时,增加内存大小不会提高性能。多显著性描述符的数量。结果示于表3中。 结果表明,多显著性描述子具有更强的表征能力,获得更好的性能比一个单一的描述。当使用太多的描述符时,性能降低,因为在网络中引入了更多的参数N向分类。在所有先前的实验中,在5向分类设置上进行评估。具有较大N的N路分类是与5路分类类似的任务,但可能更困难。可以看出,当n增加时,性能降低。6结论在本文中,我们提出了一种复合记忆网络的少镜头视频分类。该模块存储矩阵表示,可以以有效的方式轻松检索和更新我们未来的工作是利用不同的模态表征的多个存储库。谢谢。我们的工作得到了数据到决策CRC(D2D CRC)和合作研究中心 计 划 的 部 分 支 持 。 我 们 非 常 感 谢 NVIDIA 公 司 捐 赠 TITAN X(Pascal)GPU的支持。我们感谢AWS Cloud Credits for Research对本研究的支持。用于少镜头视频分类的15引用1. Abadi,M.,Barham,P.,陈杰,陈志,戴维斯,A.,迪恩J Devin,M.,Ghe-mawat , S. , Irving , G. Isard , M. , Kudlur , M. , Levenberg , J. , 蒙 加 河Moore,S.,默里D.G. Steiner,B.,Tucker,P. Vasudevan,V.,Warden,P.,Wicke,M., Yu,Y.,郑X:Tensor Classifier:一个大规模机器学习系统。在:OSDI(2016)2. Bahdanau,D.,周,K.,Bengio,Y.:通过联合学习对齐和翻译的神经机器翻译。载于:ICLR(2015)3. 卡雷拉,J.,齐瑟曼,A.:你好,动作识别?新模型和动力学数据集。在:CVPR(2017)4. Fei-Fei,L.费格斯河Perona,P.:对象类别的一次性学习TPAMI28(4),594-611(2006)5. Finn,C.,Abbeel,P.,Levine,S.:模型不可知元学习,用于快速适应深度网络。在:ICML(2017)6. 格雷夫斯,A.,韦恩G Danihelka,I.:神经图灵机。ArXiv预印本arXiv:1410.5401(2014)7. Hariharan,B.,Girshick,R.:通过收缩和幻觉特征进行低拍摄视觉识别。In:ICCV(2017)8. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。见:CVPR(2016)9. 他,K.,张,X.,Ren,S.,孙杰:深度剩余网络中的身份映射。In:ECCV(2016)10. Hochreiter,S., Schmidhuber,J.: 长短期记忆。神经计算9(8),1735-1780(1997)11. Kaiser,L-., N achum,O., R〇y,A., Ben g io,S. :Learning gtorememberberrrevents. In:ICLR(2017)12. Karpathy,A.,Toderici,G.,Shetty,S.,Leung,T.,Sukthankar河李菲菲:用卷积神经网络进行大规模视频分类在:CVPR(2014)13. 凯,W.,卡雷拉,J.,西蒙尼扬,K.,张,B.,希利尔角Vijayanarasimhan,S.,Viola,F.,Green,T.,退后T Natsev,P.,等:人体动作视频数据集。arXiv预印本arXiv:1705.06950(2017)14. Kingma,D.Ba,J.:Adam:随机最佳化的方法载于:ICLR(2015)15. Koch,G.:用于单次图像识别的Siamese神经网络。博士毕业论文,多伦多大学(2015)16. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:使用深度卷积神经网络进行ImageNet分类。在:NIPS(2012)17. 莱克湾Salakhutdinov河真恶心J Tenenbaum,J.:一次学习简单的视觉概念。In:CogSci(2011)18. 林芝,冯,M.,桑托斯,C.N.D.,Yu,M.,Xiang,B.,Zhou,B.,(1991年),中国地质大学,Bengio,Y.:一个结构化的自我关注的句子嵌入。In:ICLR(2017)19. Miller,A.,Fisch,A.,Dodge,J.,Karimi,A.H.,Bordes,A.,Weston,J.:用于直接读取文档的键值存储网络。在:EMNLP(2016)20. Miller,E.G.,Matsakis,N.E.,Viola,P.A.:通过变换上的共享密度载于:CVPR(2000年)21. Ravi,S.,Larochelle,H.:优化作为一个模型的少镜头学习。In:ICLR(2017)22. Ren,S.,他,K.,格尔希克河孙杰:更快的R-CNN:利用区域建议网络进行实时目标检测。In:NIPS(2015)16L. Zhu和Y. 杨23. Santoro,A. Bartunov,S.,Botvinick,M.,Wierstra,D.,Lillicrap,T.:使用记忆增强神经网络的元学习。In:ICML(2016)24. 西蒙尼扬,K.,齐瑟曼,A.:双流卷积网络用于视频中的在:NIPS(2014)25. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。载于:ICLR(2015)26. Snell,J.,Swersky,K.,Zemel,R.S.:用于少镜头学习的原型网络。In:NIPS(2017)27. Sukhbaatar,S.,Weston,J.,费格斯河等:端到端内存网络。In:NIPS(2015)28. 萨茨克弗岛Vinyals,O.,Le,Q.V.:用神经网络进行序列到序列学习。在:NIPS(2014)29. 塞格迪角Vanhoucke,V.,Io ffe,S.,Shlens,J.,Wojna,Z.:重新思考计算机视觉的接收架构见:CVPR(2016)30. Tran,D.,Bourdev,L.费格斯河托雷萨尼湖Paluri,M.:用三维卷积网络学习时空特征In:ICCV(2015)31. Vaswani,A.,Shazeer,N. Parmar,N. Uszkoreit,J.,琼斯湖戈麦斯,A.N.,凯泽湖Polosukhin,I.:注意力是你所需要的In:NIPS(2017)32. Vinyals,O.,布伦德尔角Lillicrap,T. Wierstra,D.,等:匹配网络进行一次性学习。在:NIPS(2016)33. 王,H.,Schmid,C.:具有改进轨迹的动作识别。In:ICCV(2013)34. Wang,L.,美国,Xiong,Y.,王志,Qiao,Y.,Lin,D.唐,X.,Van Gool,L.:时间段网络:深入行动识别的良好做法。In:ECCV(2016)35. Weston,J.,Chopra,S.,Bordes,A.:记忆网络。载于:ICLR(2015)36. 吴,Y.,Schuster ,M.,陈志,Le,Q.V.,Norouzi,M.,Macherey,W.Krikun,M.,曹玉,高Q Macherey,K.,等:Google的神经机器翻译系统:缩小人工翻译和机器翻译之间的差距。arXiv预印本arXiv:1609.08144(2016)37. 徐志,Zhu,L.,中国科学院,Yang,Y.:从机器标记的网络图像中进行少镜头对象识别。在:CVPR(2017)38. Yue-Hei Ng,J.,Hausknecht,M.,Vijayanarasimhan,S.,Vinyals,O.,蒙加河Toderici,G.:除了简短的片段:用于视频分类的深度网络。参见:CVPR(2015)39. Zhu,L.,中国科学院,徐志,Yang,Y.:用于视频中在:CVPR(2017)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功