长尾视觉识别中的膨胀情节记忆和区域自我注意

93 浏览量更新于2023-10-25 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4344长尾视觉再认中区域自我注意的膨胀情景记忆Linchao Zhu1，2 and Yi Yang21百度研究2ReLER，悉尼{linchao.zhu，yi.yang}@ uts.edu.au摘要对长尾数据建模的研究越来越受到人们的关注.与人工收集的数据集不同，长尾数据在现实世界中自然存在，因此更真实。为了解决类别不平衡的问题，我们引入了一个膨胀的情节记忆（IEM）的长尾视觉识别。首先，我们的IEM增强了卷积神经网络的分类代表性特征，以快速学习尾类。在传统的少样本学习中，通常利用单个原型来表示一个类别。然而，长尾数据具有更高的类内方差。这可能是具有挑战性的学习一个...每个类别的特点记忆…一个类别的单一原型。因此，我们引入IEM为每个类别存储最具鉴别力的特征金鱼棒球手蘑菇单独地此外，记忆库的更新是独立的，这进一步降低了学习倾斜分类器的机会。其次，我们引入了一种新的区域自注意机制的多尺度空间特征映射编码。引入更多的判别特征有利于提高尾部的泛化能力这是“金鱼”吗？这是一个“球员”吗？这是“蘑菇”吗？测试图像班我们建议在多尺度上对局部特征图进行编码，同时对空间上下文信息进行聚合配备IEM和区域自注意，我们实现了最先进的性能在四个标准的长尾图像识别基准。此外，我们在一个长尾视频识别基准测试上验证了IEM的有效性，YouTube-8M。1. 介绍最近，随着深度卷积神经网络（ConvNets）的复兴，视觉识别模型[18，12]取得了重大成功。这些模型通常在大型数据集上训练，ImageNet [28]和Kinetics[16]，在各种任务中展示了令人满意的泛化能力，例如，目标检测[27]，ob-*这一工作是在朱林超访问百度研究院时完成的。易阳为通讯作者。图1：情节记忆膨胀的示意图。的视觉提示基于它们的分类信息被分开存储。对象分割[22]、视频定位[10]、视频问题回答[42]。这些数据集是人为收集的，以保持平衡，其中每个类别中的训练示例数量大致相同。然而，现实世界应用中的数据通常遵循在这种分布中，大量的例子是数据稀缺的，只有少数训练例子。具体地说，一些“头”类包含每个类别数千个示例，而“尾”类存在很少的实例。人类在识别罕见样本时表现出显著的泛化能力。他们可以通过只观察几次甚至从未见过的物体来识别例子。这种泛化能力对于将深度网络部署到现实世界的应用中至关重要。Cur-0.90.74345目前的深度识别模型在很大程度上忽略了长尾视觉现象，这使得从真实数据中提取鲁棒信息变得非常具有挑战性。因此，“尾”类的性能已经有一些尝试在建模长尾数据，以提高推广的尾部类。一个有希望的方向是从头班转移知识尾类[7，38，40]。Wang等人[38]在头类上自适应地训练元网络，然后将其应用于尾类。Liu等[21]介绍了一种动态Meta嵌入来提高尾部识别的鲁棒性。他们还介绍了评价性能的开放集数据 . 在他们的开放长尾识别（OLTR）设置中，目标是从长尾和开放式数据中学习。然而，元嵌入在训练期间不动态更新，并且每个类别对应于单个嵌入向量。单个嵌入向量可能无法表示数据分布。在本文中，我们引入了一个新的框架与膨胀的情节记忆来解决OLTR问题。首先，我们提出了一个膨胀的情节记忆（IEM），以增强具有多个记忆库的ConvNets（图1）。每个记忆都是独立的。我们利用一个可扩展的内存块为每个类别。每个记忆体银行记录的最有区别的功能，为相应的- ING类别。对于极不平衡的数据集，它可以是一个自然的设计选择，我们的动机是在[36，29]中进行小镜头分类的情景训练，其中为一个情景中的每个类别计算原型。在少数镜头制度中，每集的类别数量很少。因此，一个原型就足以代表一个类别。Liu等[21]通过利用存储所有类别的原型（“质心”）的全局存储器结构扩展了该思想。与少样本学习不同，OLTR涉及更多的训练样本和更多的类。由于更高的类内方差，学习一个类别中所有示例的单个原型更具挑战性。我们介绍的IEM能够更强大的表示学习的原型，并提供了一个强大的机制，不平衡的数据建模。其次，我们提出了我们的新的区域自注意机制（RSA）提取判别区域特征。我们的区域自我注意力考虑不同尺度的特征。利用局部区域特征，利用最具鉴别力的特征，有利于提高尾类的识别率。在空间特征编码期间利用上下文信息。RSA在特征编码期间使用自我关注机制来利用上下文关系区域自我注意，IEM记录更强的歧视性功能的所有类别。当更多的视觉线索被释放时，表现会得到提升。探索。第三，我们将全局特征和RSA编码特征保存在两个单独的库中。这样，局部特征和全局特征的更新是独立的，为网络权值训练和存储器写入提供了一种更可行的方法。我们评估IEM的长尾视频分类和长尾图像分类任务。我们在五个数据集上实现了最先进的2. 相关工作不平衡的视觉识别。数据恢复是一种对不平衡数据建模的直接方法，[8]引入了一个类校正损失，以发现尾部类的稀疏采样边界。另一个方向是将知识从头部类转移到尾部类[38，7，21]。[21]使用实例平衡采样来学习表示，并使用类平衡采样进行长尾分类。Cao等人[4]引入了一种边际损失，扩展了尾类的决策边界。[38]提出以渐进的方式将元知识最近的2D [30，41]和3D ConvNets用于视频分类[34，5，35]评估平衡数据集，例如，动力学[5]。不平衡视频分类的研究在很大程度上被忽视。YouTube-8 M [1]是一个大规模的长尾数据集。然而，NetVLAD [23]仍然是流行的方法，它没有考虑YouTube-8 M中的长尾性质。我们研究IEM的长尾视频分类。少镜头分类。在少镜头分类中，目标是推广到给定很少例子的新类别[9，36，29，33，11，26，43]。长尾分类中的尾类只包含少量的样本，并且它们的表现比头类差。通过提高尾类的泛化能力来改进长尾识别是很有希望的。[9]介绍了在特征表示和分类权重向量之间使用余弦分类器[31]建议在少数镜头分类期间为每个类别生成原型。Liu等[21]将原型学习的思想扩展到长尾视觉分类。我们的IEM利用每个类的内存，使每个类别的学习更强大的表示。记忆增强的网络.记忆增强神经网络近年来取得了显著的成就[32，15，25]。Kaiser等人[15]建议键值存储模块，用于通过元素插入来更新存储器。所有的例子都被写入一个全局内存，内存通过排名损失进行更新。相反，我们提出膨胀的情景记忆存储分类视觉线索独立。434623. 我们的方法我们设计了一个新的框架，专注于学习多尺度局部特征和全局特征的视觉线索分类。我们的目标是提高尾类识别的鲁棒性和开放类的泛化能力。由于数据的不平衡，典型的分类器是高度倾斜的头类。我们通过引入一个名为膨胀情景记忆的新模块来解决这个问题我们首先在3.1节中介绍带有查找和更新操作的IEM。IEM可以长期有效地存储特征.在第3.2节中，我们介绍了我们的区域自我注意力区域分割1x12x21x22x1学习多尺度局部表示的机制。我们在第3.3节中介绍了整个框架。3.1. 膨胀的情节记忆对于数据集中的每一个类别，都有一个相应的夸大的情景记忆。IEM快速集成了视觉表示和相应的置信度，可以快速检索用于未来的预测。IEM遵循键值形式。[25]引入了一种类似的方法，但他们将其应用于强化学习场景。我们将第l个IEM表示为Ml=（Kl，Vl），其中Kl是密钥存储器，Vl是值存储器.键存储器保存编码的特征，而值存储器存储特征属于类别1的概率。存储器K1中的每个槽对应于V1中的存储器槽。Kl包含具有可变大小的向量数组。当需要写入新项时，内存会扩展。对于每个Ml，存在存储器大小限制。它用于避免内存不足的问题。在[15]中，对每一集都重建了记忆。然而，我们的IEM并没有被清除，它在整个学习过程中一直存在。IEM中的信息可以用于推理。阅读与大多数记忆网络类似[32]，IEM中的查找操作基于软注意机制。对于每个查找，输出是值存储器中的值的加权和。权值由查找查询与关键字存储器中相关关键字之间的相似性度量生成。给定一个查询q，输出p由下式生成：Σ图2：特征图被划分为区域。特征图为3×3，最大允许区域为2 ×2。分割后生成四个区域。其中δ被加上以避免被零除。发现该相似性函数对于与给定查询不相似的尾示例是鲁棒的。我们利用kd-tree[3]在大量条目上构建索引以进行快速检索。当内存大小增长时，它可以有效地访问此外，我们为每次内存读取选择前n个相关插槽这个过程进一步加快了访问过程。写作我们介绍写操作。在[32，36]中，没有显式的写操作。我们引入写操作来实现动态内存表示更新。内存就像一个链表。当一个新的对需要写入时，我们只需将新的对附加到原始内存中。具体地，通过将键和值分别附加到存储器K1和V1的末尾，Kl= Concat（Kl，ki），Vl= Concat（Vl，vi）。（三）“Concat”是连接操作。如果密钥已经存在于存储器中，则不附加新密钥。与此同时，其相应的值被更新。我们保证内存中没有重复的关键向量。内存的大小是动态变化的。为了避免GPU内存不足，我们设置了内存的最大容量. 当内存p=is（q，ki）viis（q，ki）（一）到达时，删除最旧的键值对。最旧的键值对是访问频率最低的插槽。我们使用其中vi是值存储器V1中的第i个预测分数，并且ki是密钥存储器K1中的第i个密钥向量。相似性函数s（a，b）测量两个向量之间的距离。在[25]之后，我们利用逆平方欧几里德距离，s（a，b）=1，（2）||a− b||2+ δ一个年龄向量，用于记录每个存储时隙的访问频率，遵循[15]。该值的更新方式为，vt+1=γvn+（1−γ）vt，（4）其中vt是存储器中的原始值，vn是要写入的新值，vt+1是更新后的值，γ是加权参数。43472× ××××--×.1F图3：区域自我关注。查询、键和值是在给定特征图f的情况下生成的。全局表示由区域自注意生成。训练损失。当进行读取操作时，我们获得检索到的预测。计算损失以评估检索到的预测与地面实况标签之间的距离。我们使用均方损失（MSE），MSE（p，y）= ||p − y||第二条，第（五）项其中p是预测，y是基础事实。键存储器和值存储器都我们的区域编码函数生成区域统计信息，如均值、方差、区域形状。区域统计数据被聚集以在每个尺度上生成区域的特征。区域划分。我们首先将原始特征图划分为多尺度部分。我们引入多个内核来扫描整个特征图，以合并多尺度特征。我们将特征映射表示为f。H和W分别是特征图的高度和宽度。每个位置具有fi，j的特征，其中i={1，. . .，H}，并且j={1，. . .，W}。特征图上的最大允许区域的形状为hmax×wmax。 RSA内核是（k h，k w），其中k h={1，2，. . .，h_max}且k_w= 1，2，. - 是的- 是的，w max. 在图2中，我们说明了多尺度ker-nels，最大允许区域为2二、我们引入了四个核，1一，十二，21，22。每个核在不同的尺度上划分区域，并覆盖不同的多尺度信息。区域特征编码。我们展示了每个分区区域的编码过程（图3）。我们将一个区域表示为r，其高度为rh，宽度为rw。区域特征表示为r。我们通过用线性层变换r来获得（key，value）=（k，v）对。ki，j用于通过区域编码函数产生区域特征。区域编码函数考虑了区域的大小并结合了特征方差。聚合区域特征的最直接的方法是简单地av-把它们都计算出来。We表示求和算子3.2. 区域自我关注款项i=rh;j=rwk。i=1;j=1i、j在本节中，我们将介绍一种多级区域编码机制来提取代表性特征以用于子帧识别。由av聚合的全局特征-我们引入了一个更丰富和更强大的代表性，以en-对每个区域密钥进行编码，i=rh;j=rw存储池化是单个紧凑向量，而在池化阶段忽略局部区域信息是本-µ=1公司简介i=1;j=1ki，j、（6）有效地利用每个图像的局部特征，并利用最具鉴别力的特征，以提高识别，.i=rh;j=rw尾部类别的性能Liu等[21]提出了调制注意力，以定位来自spa的歧视性线索σ=，公司简介i=1;j=1（ki，j−µ）2，（7）主要特征其动机是区分区域信息分布在各个位置。然而，在注意过程之后，他们仍然利用单个全局向量。相反，我们提出了一个新的区域自关注（RSA）机制，从特征图中提取局部特征。在特征编码期间考虑上下文关系。当学习注意力权重时，我们在IEM中保持多个尺度的区域特征我们的IEM为所有类别提供了更强的判别特征，提高了特征级的识别能力。RSA受到[19]的启发，它是自我注意力的一种变体。RSA产生局部特征并有效地编码区域信息。在训练过程中，我们在最终分类之前的最后一个卷积块中插入RSA。p=Concat[ One-hot（rh）Wh， One-hot（rw）Ww]，（8）g=ReLU（ Concat[μ，σ，p]Wo）Wd，（9）其中μ是区域r的平均特征，σ是该区域内向量的标准差，W是可学习的权重。μ和σ是关于该区域的两个重要统计量。我们利用σ来显示区域中的方差我们将区域形状作为一个区域的特征，通过编码rh和rw与独热编码。通过嵌入矩阵嵌入独热向量。我们将高度向量和宽度向量连接起来作为区域形状表示p。当我们获得反映区域特征的µ、σ和p时，我们通过连接它平均池Q密钥编码Val编码区域分割密钥编码Val编码键编码Val编码键编码Val编码K1V1K2V2K3V3K4V44348们生成最终的区域表示，然后是线性层。4349标签0…Bank0Bank1 Bankn预测本地内存库全局内存库…Bank0Bank1 Bankn分类器i=1;j=1--×图4：将特征和置信度写入IEM。给定一个标签为0的图像，全局内存为0，本地内存为00已更新全局存储器存储全局表示，局部存储器记录区域特征。它通过ReLU激活进一步激活，并通过线性层转换。最终的区域表示g从局部区域提取有用的特征。我们将该过程表示为区域密钥编码。区域自注意过程如下所示我们通过平均池化整个特征图来获得查询合并到全局存储库和本地存储库，分别（图4）。具体地，给定具有标签y的图像x，分类器生成具有n维的logits y'。我们利用卷积网络来获得特征f。区域编码是r1，. - 是的- 是的，rc，其中c是生成区域的数目。key值对F. 每个区域r的密钥映射通过编码1高×宽i=H;j=Wfi，j，y′[y]）被附加到全局整个地区与上述地区的关键en-编码机制，存储块对于局部区域要素，在（r1，y′[y]），（r2，y′[y]），.. .，（rc，y′[y]），它们顺序地被附加到本地存储器块。Q=1高×宽i=H;j=Wi=1;j=1fi，j，（10）内存更新。内存更新的损失由两部分组成。第一种损失是交叉熵损失（CE），K=区域密钥编码（r），（11）i=rh;j=rwV=vi，j（12）i=1;j=1然后，我们遵循标准的自注意机制（SA）来获得整个特征图的全局表示，QKT其用于更新卷积网络的权重第二个损失是MSE损失。它用于计算梯度以更新所有内存块。对于具有标签y的输入x，我们不仅计算存储体y的损失，而且选择除了地面真实标签之外在logit y '中排名最高的硬n-g-iv e存储块y'。我们将检索到的预测值限制为低分数。损失的定义是，Q=0，（d）第五条，（13）P位置=READ（My），（14）其中d是输入通道大小。pneg=READ（My<$），（15）3.3. 长尾分类的IEML=CE（y，y′）+MSE（pPOS，1）+MSE（pneg，0）。（十六）在本节中，我们将解释上述模块在长尾视觉识别中的使用对于具有n个类的数据集，我们利用2n个IEM库。每个类别有两个IEM块，即，一个全局IEM和一个局部IEM。全局块存储由全局平均池化计算的全局表示。同时，局部IEM从区域自注意机制编码的特征向量中保存区域特征（第3.2节）。记忆预热。我们首先说明记忆预热阶段。最初，存储器是随机初始化的。在这个阶段，全局和局部视觉特征都被（4350READ是第2节中描述的内存读取操作第3.1节。网络通过反向传播进行端到端优化。推理。在推理阶段给定一个测试图像，我们遍历所有内存块并从所有块中检索预测分数。n个预测得分与标准分类器预测平均。4. 实验我们评估我们的模型在长尾图像分类和长尾视频分类。我们证明了4351∇××120001000080006000400020000DatadistributioninYouTube-8M方法准确度[12]第十三届全国人大常委会第十三次会议型号注册[37] 54.7[38]第三十八话[21]第二十一话我们的60.2表1：SUN-LT的比较。我们的IEM做到了最好。我们的表现优于OLTR [21] 1.5%。图5：YouTube上的数据分布-8 M。YouTube-8 M是一个具有长尾分布的我们的模型可以在图像和视频中推广。4.1. 数据集我们在长尾图像和视频识别数据集上进行定量实验。长尾图像分类我们在标准数据集上进行评估，ImageNet-LT [21]，Places-LT [21]，SUN- LT [21]用于长尾图像分类。Places-LT和ImageNet-LT是为长尾识别评估而设计的，它们是从原始的平衡数据集中采样的。数据集详情见[21]。我们遵循[21]构建ImageNet-LT数据集。在ImageNet-LT中，有1 K个类别和115.8K个图像，每个类别最多1，280个图像，最少5个图像。方法ResNet-50CB-Focal [4] 61.1LDAM [4] 64.6LDAM+DRW [4] 68.0我们的70.2表2：iNaturalist上的比较。我们实现了实质性的改进。方法GAP mAPNetVLAD基线[23]我们的87.7 56.5表3：YouTube-8 M数据集上的评估结果。我们的IEM在GAP和mAP方面都显著优于基线。我们获得了3.8%的改善mAP。精度（GAP）作为评价指标[1]，ΣP每班年龄测试集是平衡的。开集是con-由ImageNet- 2010中的其他图像类构造。我们在iNaturalist 2018上进行实验[14]，间隙=i=1p（i）b（i），（17）其是具有高级不平衡的细粒度对象识别数据集长尾视频分类我们使用YouTube-8 M [1]进行长尾视频分类。YouTube-8 M是具有长尾分布的真实数据集。它包含3，696类的各种视频每个视频可以具有多个类。平均视频长度为200秒，最大视频长度为300秒。[1]为以1 FPS采样的每个帧提供帧级音频和视觉功能。这个数据集是非常不平衡的（图5）。每个类别的最大示例数为788，288，而每个类别的最小示例数为123。头班和尾班的比例超过5000。在图5中，我们删除了具有超过10，000个训练示例的类，以更清晰地显示分布我们报告了原始验证集的准确性我们在保留的验证集上交叉验证超参数，其中我们从训练数据中随机抽取5%的视频。我们使用全球平均值其中P是顶部预测的数量，p（i）是预-在预测i处的cision，r（i）是在预测i处的召回率的变化。P设为20。我们还使用平均精度（mAP）作为度量标准。我们报告了YouTube-8 M的两个指标。我们在YouTube-8 M上进行实验，以证明我们的视频分类框架的有效性。4.2. 实现细节对于所有实验，我们将IEM中最近邻的数量设置为50对于每个IEM，我们将最大存储容量设置为50，000。更新动量γ被设置为0.99。我们使用1 10−5的小学习率来更新算法。使用Adam optimizer更新内存[17]。到训练骨干网络，我们使用随机梯度下降（SGD），动量为0.9，批量大小为256.首先将每个图像的短边调整为256，然后我们从调整后的图像中随机抽取224 224裁剪。图像随机翻转。我们训练铜管乐器消防员多人在线米鹿币蛋铁拳6指关节Echidna最终幻想XIV福特护卫（欧洲）SamuraiTranSimulatorAlodsOnline喷雾剂Battlefield：Bad哈勃太空望远镜烩饭圣·塔·亚·拉·科·埃·R：召唤…剪刀涡卷鸣人狮子王（音乐剧）主轴（工具）摇滚大厅扎染4352方法>100许多≤闭集设置100>2020<中少量整体>100许多≤开集设置100>2020<中少量F-measure[12]第十二话40.910.70.420.940.110.40.40.295失去的[24]35.830.417.930.834.829.317.40.374[20]第二十话36.429.91630.535.729.315.60.371[39]第三十九话35.830.317.630.734.729.417.20.373FSLwF [9]40.922.11528.440.821.714.50.347OLTR [21]43.235.118.535.641.933.917.40.474我们48.944.024.443.246.142.320.10.525(a) ImageNet-LT上的分类结果方法>100许多≤闭集设置100>2020<中少量整体>100许多≤开集设置100>2020<中少量F-measure[12]第十二话45.922.40.3627.245.922.40.360.366失去的[24]41.135.42435.24135.223.80.459[20]第二十话41.134.822.434.64134.822.30.453[39]第三十九话41.135.423.235.14135.323.10.457FSLwF [9]43.929.929.534.938.119.514.80.375OLTR44.73725.335.944.636.825.20.464我们46.839.228.039.748.842.428.90.486(b) Places-LT上的分类结果表4：ImageNet-LT和Places-LT的评估结果。我们在两个数据集上，以及在闭集和开集设置上都实现了更好的分类性能。该网络具有90个epoch，初始学习率为0.1.我们在epoch 30和60对学习率进行退火[21]。对于ImageNet-LT，在[21]之后，我们使用随机初始化的ResNet-10模型。我们遵循[21]中的原始学习率调度，其中初始学习率设置为0.1，每10个epoch衰减0.1。我们用30个epochs训练模型。对于Places-LT和 SUN-LT ，我们利用 ResNet-152 ，初始学习率为0.01。对于iNaturalist，我们以0.1的初始学习率训练ResNet-50总训练时期为90，学习率在时期30和60退火。对于YouTube-8 M，我们使用[23]中相同的超参数集训练NetVLAD模型。我们用256个簇训练它，隐藏层的大小是2048。在训练过程中，我们使用80的批量大小。初始学习率为0.0002。学习率以0.8的速率呈指数下降。4.3. 实验结果4.3.1长尾图像分类ImageNet-LT和Places-LT的结果如表4所示。SUN-LT和iNaturalist的结果分别见表1和表2。IEM的有效性在各种数据集上得到了验证。我们获得了实质性的改进。比如说，在ImageNet-LT上的闭集设置中，我们的表现比OLTR高出7.6%。我们获得了3.8%的改善，整体分类的地方LT闭集设置。在开放式设置中也观察到显著的改善。例如，我们在ImageNet-LT的开集上的F-测度上优于OLTR [21对于尾类（“少数”）的情况例如，在Places-LT的封闭设置上，我们获得了 3.3% 的性能增益。对于ImageNet-LT的情况，改进为5.9%。实验结果表明，具有区域自关注的IEM方法对尾类识别有很大的帮助。这表明我们的IEM可以更有效地从尾类中学习。在SUN-LT 中可以获得类似的改进（表 1 ）。除了ImageNet-LT、Places-LT和SUN-LT之外，我们还在iNaturalist上进行了实验，iNaturalist是一个更自然的长尾数据集。值得注意的是，与[4]相比，我们实现了2.2%的改进。所有这些结果清楚地表明，我们的IEM区域自注意可以减轻不平衡的数据分布的影响。学习模型在开集设置中也能更好地推广。4.3.2长尾视频分类我们还在YouTube-8 M上进行了实验，这是一个视频分类数据集。我们将IEM应用于NetVLAD4353YouTube上的比较-8 M尾类0.80.70.60.50.40.30.20.10图6：YouTube上的比较-8 M尾类。我们可以观察到尾部类的一致准确性提高。请注意，有一些尾部类的准确性很低，这表明了对长尾数据建模的困难方法ImagNet-LT地点-LTSUN-LTiNaturalist不带RSA41.731.159.369.5无本地存储器38.134.657.967.0无全局内存40.836.958.968.1我们43.239.760.270.2表5：数据集中的消融研究。我们研究了区域自注意机制（RSA）的有效性，局部IEM的有效性，以及全局IEM的有效性结果表明RSA组件和IEM设计的有效性网络请注意，为YouTube-8 M提供的功能是紧凑矢量。我们无法获得每个视频的原始空间特征图。我们不为YouTube-8 M利用本地内存结果如表3所示。值得注意的是，与NetVLAD基线相比，我们在YouTube-8M数据集上实现了4.8%的改进。它证明了我们的IEM在建模长尾分布的有效性。此外，还改进了GAP度量，这表明IEM可以提高头部和尾部类的整体泛化能力。图6显示了对尾类的改进。与基线相比，我们观察到持续的改善4.4.消融研究我们研究了IEM中的一些关键要素。主要研究了区域自注意机制的有效性、局部IEM的有效性和全局IEM的有效性。为了证明区域自注意机制的有效性，我们用一个简单的平均池函数代替区域自注意机制。对于ImageNet-LT和Places-LT，我们在闭集设置上进行消融结果示于表5中。我们观察到，本地IEM是长尾分类的成功必不可少的，其中本地功能有助于从几个例子中学习区分功能结果表明我们的RSA算法有利于多尺度区域特征的编码当它被一个简单的平均池所取代时，所有数据集的性能都会下降。请注意，全局内存也是一个重要的组成部分。当移除全局内存时， ImageNet-LT 、 Places-LT 和iNaturalist的性能下降这表明全局信息对于这些数据集的分类是重要全局表示提供了一个直观的认识，因为有些类是关于一般的场景.这些结果证明了我们的IEM和RSA的有效性。5. 结论在本文中，我们介绍了一种新的膨胀情节记忆（IEM）模块的长尾视觉识别。IEM用典型特征增强卷积神经网络研究了区域自注意（RSA）算法在区域特征编码中的有效性。我们验证了IEM和RSA在长尾图像分类和长尾视频分类上的有效性。在未来，我们将专注于设计更好的重新采样策略，以补充我们的框架。鸣谢。这项工作得到ARC DP200100938的支持。4354引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。二、六[2] RohitBabbar和BernhardScho？l k opf. 数据稀缺性、鲁棒性和极端多标签分类。机器学习，2019年。1[3] 乔恩·路易斯·本特利。用于关联搜索的多维二叉搜索树ACM通讯，1975年。3[4] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。NeurIPS，2019。二六七[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。2[6] Gilad Cohen，Guillermo Sapiro，and Raja Giryes. Dnn或k-nn：这就是一般化与记住问题。arXiv预印本arXiv：1805.06822，2018。1[7] Yin Cui，Yang Song，Chen Sun，Andrew Howard，andSerge Belongie.大规模细粒度分类和特定领域迁移学习。在CVPR，2018年。2[8] 齐东，龚少刚，朱夏天。用于不平衡深度学习的类校正硬挖掘。InICCV，2017. 2[9] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR，2018年。二、七[10] Chunhui Gu ， Chen Sun ， David A Ross ， CarlVondrick，Caroline Pantofaru，Yeqing Li，SudheendraVijayanarasimhan ， George Toderici ， Susanna Ricco ，Rahul Sukthankar，et al. Ava：时空局部原子视觉动作的视频数据集。在CVPR，2018年。1[11] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。InICCV，2017. 2[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一、六、七[13] Chen Huang，Yining Li，Chen Change Loy，and XiaoouTang.学习不平衡分类的深度表示。在CVPR，2016年。6[14] 自然主义者。自然主义者2018年竞赛数据集。https://github.com/visipedia/inat_comp/tree/master/2018，2018. 6[15] 卡鲁卡斯·凯泽，奥菲尔·纳彻姆，奥科·罗伊和萨米·本·吉奥.学会记住罕见的事件。arXiv预印本arXiv：1703.03129，2017。二、三[16] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan ，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。1[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[18] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS，2012. 1[19] 杨丽，卢卡斯·凯泽，萨米·本吉奥，思思。注意力区域。arXiv预印本arXiv：1810.10126，2018。4[20] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.7[21] Ziwei Liu ， Zhongqi Miao ， Xiaohang Zhan ， JiayunWang，Boqing Gong，and Stella X Yu.开放世界中的大规模长尾识别。在CVPR，2019年。二四六七[22] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。1[23] Antoine Miech，Ivan Laptev，and Josef Sivic.用于视频分类的具有上下文门控的可学习池。arXiv预印本arXiv：1706.06905，2017。二六七[24] Hyun Oh Song ， Yu Xiang ， Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入进行深度度量学习。在CVPR，2016年。7[25] Alexander Pritzel 、 Benigno Uria 、 Sriram Srinivasan 、Adria Puigdomenech Badia 、 Oriol Vinyals 、 DemisHassabis、Daan Wierstra和Charles Blundell。神经事件控制。ICML，2017。二、三[26] Mengye Ren，Renjie Liao，Ethan Fetaya，and Richard SZemel.使用注意力吸引器网络的增量少次学习。arXiv预印本arXiv：1810.07218，2018。2[27] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：利用区域建议网络进行实时目标检测。在NeurIPS，第91-99页，2015中。1[28] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211-252，2015年。1[29] Adam Santoro，Sergey Bartunov，Matthew Botvinick，Daan Wierstra，and Timothy Lillicrap.使用记忆增强神经网络的元学习。InICML，2016. 2[30] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。NeurIPS，2014。2[31] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少镜头学习的原型网络。NeurIPS，2017。2[32] Sainbayar Sukhbaatar，Jason Weston，Rob Fergus，et al.端到端记忆网络。InNeurIPS，2015. 二、三[33] Flood Sung，Yongxin Yang，Li Zhang，Tao Xiang，Philip HS Torr，and Timothy M Hospedales.学习比较：用于少数学习的关系网络。在CVPR，2018年。2[34] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。使用3D卷积网络学习时空特征。在ICCV，2015年。2[35] Du Tran，Heng Wang，Lorenzo Torresani，Jamie Ray，Yann LeCun，and Manohar Paluri.动作识别的时空卷积的详细研究在CVPR，2018年。2[36] 作者：George，Charles Blundell，Timothy Lillicrap，4355Daan Wierstra ， et al. 匹配网络进行一次性学习。InNeurIPS，2016. 二、三4356[37] 王玉雄和马夏尔·赫伯特。学会学习：为回归网络建模，便于小样本学习。在ECCV。施普林格，2016年。6[38] Yu-Xiong Wang

下载后可阅读完整内容，剩余1页未读，立即下载