没有合适的资源?快使用搜索试试~ 我知道了~
基于抽象记忆的少样本物体识别
111640从机器标记的网络图像进行少样本物体识别0Zhongwen Xu�Linchao Zhu�Yi YangCAI,悉尼科技大学0{zhongwen.s.xu,zhulinchao7,yee.i.yang}@gmail.com0摘要0随着卷积神经网络(ConvNets)在物体识别方面的巨大进步,我们现在可以轻松地从现成的ConvNets预测中获得足够可靠的机器标记注释。在这项工作中,我们提出了一种基于“抽象记忆”的少样本学习框架,建立在机器标记的图像注释之上。我们的方法将大规模的机器标记数据集(例如OpenImages)作为外部存储器。在外部存储器中,信息以键值对的形式存储在内存槽中,其中图像特征被视为键,标签嵌入被视为值。当通过少样本示例进行查询时,我们的模型从外部存储器中选择视觉上相似的数据,并将从相关外部数据中获得的有用信息写入另一个存储器,即抽象记忆。我们利用长短期记忆(LSTM)控制器和注意机制来确保写入抽象记忆的数据与查询示例相关。抽象记忆将外部存储器中的信息集中起来,使得少样本识别变得有效。实验中,我们首先确认我们的模型可以从ImageNet数据集的干净人工标记数据中学习进行少样本物体识别。然后,我们证明了在我们的模型下,机器标记的图像注释对于在新类别上进行物体识别非常有效且丰富。实验结果表明,我们提出的模型在机器标记注释和人工标记注释之间的准确度仅相差1%。01. 引言0卷积神经网络(ConvNets)[21,30,27,12]的架构创新在图像分类方面取得了巨大的改进。0�表示相等的贡献。0黑尖鲨0牛鲨0安魂鲨0虎鲨01-shot查询0大词汇量0返回0图1.给定一个大量的标签及其对应的图像,我们在一个不在词汇表中且只有少量正例的新类别上进行少样本学习。词汇表中的图像示例存储在我们模型的外部存储器中,而来自新类别的图像示例则查询外部存储器。我们的模型根据视觉相似性和LSTM控制器返回有用的信息。检索到的信息,即视觉特征及其对应的标签,被组合起来对这个查询图像示例进行分类。0在过去几年中,随着神经网络容量的增加,对更丰富类别的标记数据的需求也在增加。然而,手动标记一个比ImageNet大10倍的数据集是不切实际且非常昂贵的。这促使我们设计了一种新的范式,可以利用机器标记的图像注释,实现对新的物体类别的快速学习。图1说明了所提出的任务。我们在这项工作中的主要问题是:我们能否使用机器标记的网络图像注释,仅凭少量的示例快速进行新类别的物体识别?我们在神经网络中引入了一个新的记忆组件。11650先前的方法通常使用较大的数据集进行预训练,然后在相对较小的数据集上进行微调,以学习不同类别或数据集的知识。大数据集的信息被编码在神经网络的可学习权重中。与以往的方法相比,我们的模型利用基于内容的寻址机制和长短期记忆(LSTM)控制器自动决定从何处读取和写入内存。神经网络对查询图像应用软注意机制[3],以找到适当的信息从外部存储器中读取并写入另一个存储器。抽象记忆记录了特定少样本物体识别所需的有用信息,以便分类网络可以利用从抽象记忆中读取的信息来识别新类别的对象。0以前的方法只发现类别标签之间的词嵌入[16,23]之间的关系,而我们充分利用少样本类别示例与外部存储器库之间的视觉相似性,使所提出的框架对噪声标签更加鲁棒。如果外部存储器数据与其标签不一致,该样本将在视觉匹配过程中被拒绝。这个特性使得使用大规模机器注释数据集,例如OpenImages[19]成为可能。图像的机器标注注释可以通过现成的ConvNet模型(例如ResNets[12])进行预测,但尽管这些注释相当不错,但并不完美。在这种情况下,外部数据集还可以包括通过搜索引擎(例如GoogleImages)查询关键字和从社交图像分享网站(例如Flickr)爬取的图像。在实验部分,我们展示了使用机器注释数据的我们提出的方法的结果与人工标注数据之间存在微小差距≈1%。0当新的类别出现时,网络访问和查询外部存储器,检索相关信息,并写入抽象存储器。我们将存储器组织在数据结构键:值中,这是Key-Value MemoryNetworks(KV-MemNNs)[24]中首次提出的。我们注意到,我们的模型实现,包括LSTM控制器、抽象存储器和读取机制,与KV-MemNNs有很大的不同。此外,KV-MemNNs是在自然语言理解领域开发的,它们的存储器访问仅限于最近的几个句子。我们通过新的修改将键值存储概念扩展到计算机视觉应用中,以实现可扩展性。我们将图像嵌入形式化为键,0将注释标签的词嵌入作为值。抽象记忆的附加存储器从外部存储器中提取信息,并学习用于少样本学习的任务特定表示,同时保持效率。我们的贡献如下。01.我们提出了一种新颖的任务,即在机器标注的图像注释上学习少样本目标识别。我们证明,通过足够可靠的机器标注注释,可以实现与从人工标注注释学习相比仅有微小精度偏差(约1%)的出色性能;02.我们提出将一种新颖的记忆组件,即抽象记忆,纳入记忆网络[36]结构中。抽象记忆减轻了对外部记忆的基于内容的寻址的时间消耗,使模型具有可扩展性和高效性;03.我们在键值的形式中同时利用视觉嵌入和标签嵌入,使系统对不完美的标注更加鲁棒。这使得模型能够从机器标注的网络图像中学习,获得丰富的视觉表示信号,非常适合于现实世界的视觉应用。我们进行了对未见过的视觉类别的少样本学习,可以快速准确地进行预测,而无需大量迭代正例。0我们展示了我们的方法相对于Matching Networks[33],KV-MemNNs [24],Exemplar-SVMs[22]和Nearest Neighbors[5]等最先进的模型在少样本目标识别任务上的优势。02.相关工作0从网络中学习视觉特征。Chen等人[6]提出了一种永无止境的图像学习器(NEIL),用于提取常识关系并预测网络图像的实例级标签。NEIL通过从Google图像中排名靠前的图像作为正样本进行训练来引导图像分类器,并使用半监督学习方法来挖掘对象关系。Divvala等人[8]利用Google图书将视觉类别丰富到非常广泛的范围,包括动作、互动和属性。这些工作侧重于挖掘对象和类内之间的关系;然而,这些方法容易出错,因为由于引导性的特性,分类错误会在迭代过程中累积。Joulin等人[15]认为ConvNets可以通过利用带有噪声标题的1亿个Flickr图像进行弱监督学习的方式从头开始学习。我们的11660该工作利用了已经建立的最先进的人类级别的卷积神经网络来减轻种子图像可能带来的错误。我们专注于通过从网络资源中获得丰富的词汇来快速学习少样本分类的不同任务。神经网络中的外部记忆。神经图灵机(NTMs)[11]和记忆网络(MemNNs)[36]是最近提出的两种神经网络家族,它们增加了外部记忆结构。NTMs是图灵机神经网络实现的全可微尝试,它们学会从外部存储器中读取和写入。NTMs在学习简单算法(如复制输入字符串和反转输入字符串)的任务上取得了成功。MemNN是为了从事实/故事中进行推理以回答问题,建立“故事”、“问题”和“答案”之间的关系。端到端记忆网络(MemN2N)[28]消除了对MemNNs强监督的要求,并以端到端的方式训练网络。键值记忆网络(KV-MemNNs)[24]以键值的形式将结构信息纳入其中,提供了更灵活的存储知识库或文档的方式。尽管在玩具问答基准测试中表现出色,但记忆网络的应用仍然受限于自然语言理解领域。我们认识到神经网络增加外部存储器的巨大表达能力,并在这些工作的基础上构建了从机器标记图像中学习快速视觉分类的模型。一次性学习。训练神经网络通常需要每个类别数千个示例,这意味着传统的神经模型在数据效率上非常低。Fei-Fei等人[9]开创了一次性学习对象类别,并提供了一个重要的见解:利用从先前类别学到的知识,可以仅通过一个或少数几个图像来学习一个类别[9]。受到Lake等人[20]关于概念抽象的贝叶斯程序学习(BPL)和增强记忆神经结构[11,36]的启发,记忆增强神经网络(MANNs)[26]利用元学习范式来学习样本和标签的绑定,这些样本和标签来自于打乱的训练批次。匹配网络[33]采用度量学习,并通过利用注意力核和集合到集合框架[32]显著改进了MANNs。03. 提出的方法03.1. 预备知识0我们简要介绍了一些关于记忆网络变体的技术预备知识,然后讨论了我们提出的模型。记忆网络(MemNNs)[36]是一种新的家族0学习模型将神经网络与外部存储器相结合。记忆网络的主要创新是长期记忆组件M,它使神经网络能够推理和访问长期存储的信息。端到端记忆网络(MemN2N)[28]以连续形式实现记忆网络,使得端到端训练成为可行。最近提出的键值记忆网络(KV-MemNNs)[24]扩展了MemNNs[36]和MemN2N[28],在内存槽中存储结构信息。KV-MemNNs不同于MemN2N只在内存组件中具有单个向量表示,而是利用内存槽中的向量对,即键:值。将键值形式的结构存储纳入内存槽中,带来了更多的灵活性,丰富了神经网络的表达能力。键值属性使得从外部存储器中检索信息变得自然。记忆网络变体(MemNNs,MemN2N和KV-MemNNs)已经被提出用于自然语言理解,并且研究人员通常只在问答任务(如bAbI任务[35])上验证这些模型。03.2. 模型概述0在这项工作中,我们提出了一种新颖的MemoryNetworks架构来解决少样本视觉对象识别问题。它保留了键值结构,但与KV-MemNNs不同的是,我们在访问和写入内存时使用长短期记忆(LSTM)作为“控制器”。此外,我们引入了一种新颖的记忆组件,即抽象内存,以实现任务特定的特征学习并获得可扩展性。我们提出的抽象内存的独特性质使得神经网络“记住”了始终存在的外部内存,类似于LSTMs中的记忆细胞c,但更加表达能力强。抽象内存的引入使得我们能够进行随机的外部内存训练,即我们可以从一个巨大的外部内存池中采样批次。与我们的工作相比,现有的MemoryNetworks将对外部内存的访问限制在非常少的数量上,例如MemN2N将对外部内存的访问限制在最近的50个句子上。我们模型的概述如图2所示。我们提出的模型的整个过程如下所示。请注意,在本文的其余部分中,我们将key:value重新表示为(key, value)。0q,Mext =嵌入(I,{Iweb,Lweb})(1)0(zkey,zval)=读取(q,Mext),(2)Mabs←写入(q,(zkey,zval),Mabs),(3)0(ukey,uval)=读取(q,Mabs),(4)0ˆ y = CLS([ukey,uval])。 (5)( ,11670熊猫0( , )吉他0( , )狗0( , )狐狸0LSTM控制器0抽象预测0Mext Mabs0q0zkey0zval0读取0写入0读取0ukey uval0CLS0Mext值键0Mabs抽0外部内存槽0值键0ˆ y0图2.我们提出模型的示意图。最佳观看效果为彩色。0我们详细说明了该过程中的每个操作,以下所有操作都由神经网络参数化:01.嵌入是从原始输入到它们的特征表示的转换。我们将提取图像特征的网络表示为Φimg,将标签的向量表示提取为Φlabel。给定一个来自新类别的图像I,以及带有标签的一组网络图像,表示为Iweb和Lweb,其中I是图像集合,L是标签集合,输入图像I是从未见过的类别中采样的,并且查询图像的嵌入特征被称为查询q,遵循MemoryNetworks中的符号表示法。通过相同的嵌入网络Φimg和Φlabel将网络图像嵌入到外部内存Mext中;02.读取(READ)将查询q作为输入,并对外部内存Mext进行基于内容的寻址,根据与q的相似度度量找到相关信息。外部内存也称为MemoryNetworks中的支持集。读取的输出是一对以键值形式表示的向量,即(zkey,zval),如方程(2)所示;03.写入(WRITE)将查询q和键值对(zkey,zval)作为输入进行写入操作。基于内容的寻址是基于与Mabs的输入匹配,然后根据方程(3)更新相应的抽象内存槽的内容;04. 从抽象内存中读取(方程(4))是用于分类阶段的。将输入查询q与之匹配0抽象内存Mabs。获得的向量对(即(ukey,uval))被连接起来输入到分类网络中;05. CLS 操作将读出的键值对( z key , z val)连接成一个向量 z cls = [ z key , z val ] 。然后, z cls经过一个全连接(FC)层,其中: FC ( x ) = w � x + b,并且经过一个 Softmax 层。0第 3.3.4 节展示了 CLS 操作的 LSTM 变体。03.3. 模型组件03.3.1 长短期记忆0在我们的模型中,长短期记忆(LSTM)[14]在读取、写入和CLS过程中起着重要作用,并作为内存寻址的控制器。LSTM是递归神经网络(RNNs)的一种特殊形式。LSTM通过引入内部记忆单元来编码来自先前步骤的信息,解决了RNNs的梯度消失问题[4]。由于序列到序列建模[29]在机器翻译[3]、图像字幕[34, 17, 37]、视频分类[38]、视频字幕[31,25]等方面的成功,LSTM已经复苏。按照Zaremba等人[39]和Xu等人[37]的符号约定,假设 x t ∈ R D ,T D + d, 4 d : R D + d → R 4 d 表示一个仿射变换otgt σtanhht−1�(6)ct = f ⊙ ct−1 + it ⊙ gt(7)ht = o ⊙ tanh(ct),(8)ht = LSTM(xt, ht−1).(9)qt=LSTM(0, q∗t−1)(10)ei,t=q⊤t mikey(11)ai,t=Softmax(ei,t)(12)ztkey=�iai,tmikey(13)ztval=�iai,tmival(14)q∗t=[qt, ztkey].(15)11680从 R D + d 到 R 4 d ,LSTM 的实现如下:�0其中 i t , f t , c t , o t分别是输入门、遗忘门、记忆门和输出门,σ 和 tanh是逐元素的激活函数,x t 是 LSTM 在第 t 步的输入,h t 是LSTM 在第 t 步的隐藏状态。为了简化符号,我们将 LSTM循环的一个计算步骤表示为一个函数 LSTM ,定义如下:03.3.2 从内存中读取0在本节中,我们描述了从内存中读取信息的机制。给定一个具有缓冲区大小 N 1 的外部内存,M = { ( m 1 key , m 1val ) , ( m 2 key , m 2 val ) , . . . , ( m N 1 key , m N 1val ) } ,其中每个内存槽 m i 被编码为键值结构,即 ( m ikey , m i val ) ,或等价地表示为 m i key : m i val 。m ikey ∈ R d 1 ,m i val ∈ R d 2 ,其中 d 1是内存槽中图像嵌入(即 key 部分)的维度,d 2表示内存槽中标签嵌入(即 val部分)的维度。我们在后面的内容中使用元组表示法 ( m ikey , m i val )。我们在内存库上应用了来自集合到集合框架的读取机制[32]。对于每个时间步 t ,我们有:0( m i key , m i val ) , i = 1 , 2 , . . . , N 1 , 是存储在 M中的所有内存槽。当查询 q t 来时,它与内存槽 m i key 的所有key 部分进行点积运算(公式(11)),以获得查询图像 q t与内存槽 m i key 中图像之间的相似度度量 e i,t 。公式(12)的Softmax 操作生成整个内存 M 上的注意力权重 a i,t。然后,公式(13)和公式(14)利用学习到的注意力权重 a i,t进行计算。0从外部内存中读取 key 部分和 value部分,即标签嵌入。读出操作将所有的 key/value 向量 m ikey / m i val 与注意力权重 a i,t 混合,以获得读出向量 z tkey 和 z t val 。最后,将 z t key 与查询 q t连接起来,产生作为 LSTM 下一步输入的 q � t(公式(10))。上述读取过程在 T个时间步上循环遍历内存,获得 T 个读出向量对,即 { ( z 1key , z 1 val ) , ( z 2 key , z 2 val ) , . . . , ( z T key , z Tval ) } 。LSTM控制器不接受输入,但计算循环状态以控制读取操作。更多细节,请参考此读取机制的向量版本(内存槽以向量形式而不是键值对形式)[32]。经过 T 步的读取操作(可以是 Mext 或 M abs 上的操作),我们可以得到:0Z = {(z1 key, z1 val), (z2 key, z2 val), ..., (zT key, zT val)}. (16)03.3.3 抽象内存0我们在记忆网络的实现中提出了一种新颖的记忆组件,即抽象内存。抽象内存具有以下特性:01. 它为少样本目标识别任务学习任务特定的表示;02.它试图解决基于内容的寻址在大型外部存储器池上的效率问题。0抽象内存是一个可写入的内存存储器Mabs,缓冲区大小为N2。它满足N2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功