基于变换器的多标签图像识别方法

9 浏览量更新于2023-10-13 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

163基于变换器的对偶关系图多标签图像识别赵佳伟1*柯燕2赵一凡1郭晓伟2黄飞跃2李佳1，3 <$1北京航空航天大学虚拟现实技术与系统国家重点实验室2中国上海腾讯优图实验室3中国{zhaojiaweii，zhaoyf，jiali} @ buaa.edu.cn，{kerwinyan，scorpioguo，garyhuang} @ tencent.com摘要在一个图像中的多个对象的同时识别仍然是一项具有挑战性的任务，跨越识别领域中的多个事件，诸如各种对象尺度、不一致的外观以及混乱的类间关系。近年来的研究主要采用统计标签共现和语言词嵌入的方法来增强不清晰的语义。与这些研究不同的是，本文提出了一种新的基于Transformer的二元关系学习框架，通过探索两个方面的相关性来构建互补关系，即结构关系图和语义关系图。结构关系图的目的是捕捉长距离的相关关系，从对象上下文，通过开发一个跨尺度的转换器为基础的架构。语义图动态地对具有明确的语义感知约束的图像对象的语义含义进行建模。此外，我们还将学习到的结构关系到语义图，构建一个联合关系图的鲁棒表示。通过这两个有效关系图的协作学习，我们的方法在两个流行的多标签识别基准测试（即MS-COCO和VOC 2007数据集）上实现了新的最先进水平。1. 介绍多标签图像识别的目的是为一幅自然图像中的多个对象分配多个标签。作为计算机视觉中的一项基本任务，多标签图像识别可以作为许多应用的先决条件，例如弱监督定位和分割[12，15，44]，属性识别[25，22]，场景识别[12，15，44]，图像识别[12，15，44]和图像识别[12，15，44]。理解[29]和推荐系统[39，19]。受益于深度学习技术的发展[17，30]，最近基于CNN的架构在区分多个对象方面取得了重大进展。但*在腾讯优图实验室实习期间完成的作品†李佳是通讯作者。网址：http://cvteam.net图1.提出双重关系的动机。a）结构关系提供用于识别滑雪板的长期上下文关系，而b）语义关系建立共现类的动态这两种关系共同形成了一种结构化和语义感知的图像理解。多标签图像的精确解析仍然面临着巨大的挑战，包括各种对象尺度、不一致的视觉外观以及混乱的类间关系。用于发现视觉一致性的一个直观的解决方案是用自我注意机制增强特征表示[46，34，16]。例如，Wang等人。 [34]提出用递归神经网络自动发现注意区域，为表示学习引入判别特征除了这些改进之外，Guo等人。 [16]提出了注意区域的视觉感知一致性的假设，然后通过视觉一致性损失来放大这些区域。虽然CNN的空间表示通过这些技术得到了加强，但多标签依赖性没有被明确建模，这对于理解多标签关系至关重要。为了解决这个问题，最近的想法提出基于多个类的共现来学习类间关系（例如，，如果有人出现，滑雪板应该以更高的信心连接）。先锋作品倾向于用循环神经网络（RNN）[32，2，40]来建模这种关系，而共同出现的标签可以在顺序预测中逐渐细化。受GraphConvolutional164网络（GCN）[20]，数十个作品[8，5，33，41，6，3]提出基于语义或统计共现来构建标签关系。例如，Chen等人。 [8]提出用语义词嵌入构建图模型，形成静态标签关系。然而，这种静态关系忽略了每个图像的特征，导致对具有不太频繁的共现的对象的负面优化。为了解决这个问题，一些作品[5，41，45]提出基于高级语义特征的图像特定描述符来构造动态图。然而，这种多标签关系的建模仍然显示出其局限性：1)上下文对象的空间交互在标签式关系中没有被隐式地建模，2）高级语义的特征有些不稳定，并且不反映特定的语义类，3）没有考虑远程上下文和各种对象尺度的表示为了有效地解决这些不足以及在多标签图像识别的主要挑战，我们提出了一个模型的多标签对象在一个图像中的联合结构和语义关系如图1所示，考虑到类关系模型中语义标签的共现[8]，不存在的类也将被幻觉化（即，滑雪板和滑板）。除此之外，宾语的语义不仅要根据其本身的属性来确定，还要根据语境信息来确定。在图la）中，滑雪板的外观在视觉上与滑雪板和滑板相似，并且在图la）中也示出了高共现频率。（见第1段b）。但人类可以很容易地识别它作为一个滑雪板的基础上的远程上下文信息（雪），甚至人的外观。基于这些调查，我们提出了一个联合结构和语义关系图图的协作框架。图1c），其分别描绘了位置方面和类别方面的关系为了构建结构图，我们首先尝试将Transformer架构[31]引入多标签识别。这一新尝试极大地拓宽了传统CNN的接收能力，并为对象上下文相关性绘制了位置方面的长期依赖关系（图11）。a））。在此基础上，我们进一步提出了一个跨尺度的注意模块以增强对各种对象尺度的感知能力。在语义图的构造中，我们的目标是构造动态关系，这种动态关系能够感知对象的出现和结构嵌入。与具有隐式高级嵌入的先前作品[5，41]不同，本文中的图节点是用语义感知约束显式构造的除了这种明确的类嵌入之外，我们从两个方面将学习的结构图嵌入并入语义关系构建中：相邻相关构造和特征互补。这些两种机制有效地赋予语义图结构信息的感知，生成鲁棒的图关系。通过提出的结构和语义关系的协同学习，我们提出的方法在两个最流行的基准测试上取得了最先进的结果，即。、MS-COCO [23]和PASCALVOC [13]。总之，我们的贡献有三个方面：1）提出了一种新的基于Transformer的双关系学习框架，该框架结合了Transformer的结构和语义信息，用于多标签图像识别任务。2)构建基于变换器的结构关系图以合并长期上下文信息，从而在不同尺度上构建位置方面的空间关系。3)一个语义关系图的构造与明确的类特定的约束和结构感知嵌入，建模的dy-动态类依赖。2. 相关工作多标签识别。目前多标签识别方法主要集中在两个方面，即多标签识别和多标签识别。、空间信息和共现依赖性。一些作品[35，38，34，43，46，16]致力于利用空间信息来提高识别性能。以前的先驱作品倾向于粗略地定位多个对象进行识别[35，43，14]。例如，Wei etal.[35]生成多个对象建议[48]并聚合它们的标签得分以获得最终预测。然而，在没有附加的建议注释的情况下，本地化的性能是不稳定的。为了解决这个问题，最近的研究引入了注意机制来内隐地定位注意区域并增强空间表征[46，34，16]。例如，Zhu等人。 [46]提出用自我注意机制捕获标签之间的空间关系。Wang等人。 [34]利用无建议管道来迭代地定位注意区域并捕获其上下文依赖性。其他一些作品[32，24，4，2，40]致力于使用递归神经网络（RNN）[18]构建共现依赖性。例如，Wang等人。 [32]将RNN与CNN相结合，以捕获语义标签依赖性并以预定义的顺序预测标签 Chen等人 [2]设计了一个无阶RNN，以避免在推理过程中传播预测误差。然而，这些基于RNN的方法以顺序的方式探索标签之间的有限关系，因此最近的工作引入了图卷积网络（GCN）[20]以充分利用成对关系[8，5，33，41，42，36，7，6，3]。例如，Chen等人[8]提出了一个有向图在标签的词嵌入上对标签相关性进行建模。Chen等人。 [5]构建了一个特定于语义的图，将高级特征合并到单词嵌入中，以获得更好的特定于语义的特征，并探索它们的相互作用。165G××I{···}IGC·A·Gtrans sNT×CT图2.我们提出的基于transformer的双关系图（TDRG）网络的整体架构，它由两个基本模块组成：结构关系图模块，以纳入长期的上下文信息，语义关系图模块，以模拟动态类的依赖关系。关系建模。与CNN和RNN不同，Transformer最近被提出来利用自注意机制提取内在特征 [27] 。Transformer在自然语言处理任务中取得了成功[31，10]。作为先驱工作，Vaswani等人。 [31]首先提出了香草Transformer架构，该架构基于机器翻译的自我注意机制Transformer不仅在NLP任务中取得了重大突破，而且在计算机视觉（CV）任务中也显示出巨大的潜力[11，1，47，37，21]。例如，最近，Dosovitskiy等人 [11]提出了一种用于图像识别的序列图像块上的结构感知嵌入的出现依赖性。最后，我们在第3.3节中以协作学习的方式联合结构和语义关系。给定一个输入图像，设X1，，Xs=ΦS（）是由骨干网络ΦS利用信道缩减变换编码的多尺度特征，例如，，11和3 3卷积。为了构造结构关系图节点T，我们引入s个Transformer单元反式捕获长期上下文信息，并与跨尺度注意力模块Ψi（·）建立位置方面的关系：ST=concat（G（Ψi（Xi;{X} ）∈R，任务Carion等人 [1]设计了一个完全端到端的对象DE-i=1ik=1（一）检测Transformer（DETR），它显示了令人印象深刻的性能上的对象检测。Zhu等人。[47]介绍了一种可变形的注意力模块来解决DETR的缺陷，例如，对小物体的性能差然而，Transformer作为一种有效的关系建模架构，在多标签识别任务中的研究较少。3. 方法在本节中，我们介绍了一种新颖的协作学习框架，该框架具有用于多标签识别的联合结构和语义关系图，分别在图1中描绘了位置和类别依赖性。二、第一个结构关系图旨在捕获长期上下文信息，并在3. 1节中跨不同尺度构建空间关系。在第3.2节中，提出了一个语义关系图来利用动态协作。其中NT和CT分别表示结构关系节点T为了构造语义关系图G的节点，我们利用明确的语义感知约束和结构指导对动态类依赖性进行建模：G=Gsem （（ C （ X ）， T ） ;A （ T ， C （ X ）∈RNcls×（CG+CT），哪里SEM表示语义图神经网络，（）表示语义感知约束，sem、Ncls和CG的联合关系相关矩阵表示类别的数量和语义特定向量的维度。有了这两个互补关系图，我们进一步进行协作学习的方式来得到最终的预测F：F=ψt（GMP（T））]ψg（G）∈RNcls，（3）（二）166我GE·R·YT=G（D（U（X））+X），（6）全局最大池化操作，·表示加权其中ψ{t，g}分别表示结构和语义关系图的类别分类器，GMP（·）表示两个关系图的融合操作。3.1. 结构关系图如前所述，多标签识别中的一个关键问题是捕获长期上下文信息并在不同对象之间建立结构化交互。由于基于CNN的体系结构的内在缺陷，位置相关性是在没有感知全局上下文信息的情况下局部进行的为了缓解这个问题，我们第一次尝试将Transformer引入多标签识别任务，以捕获长期的上下文信息并构建位置空间关系。再论Transformer的结构关系。在自然语言处理领域，传统的转换器[31]将语言句子作为输入，并从全局角度构建不同语义词之间与语言处理不同，图像不能直接转换成序列形式。因此，有两种流行的方法在图像上应用Transformer，将变换器嵌入CNN主干[1]和将变换器应用于图像块的顺序嵌入特征[11]。后者导致在有限数据的情况下进行网络优化的高计算负担。因此，在我们的框架中，我们采用前一种方案来捕获全局上下文信息。我们采用标准的Transformer编码器结构作为变压器单元的反建立长期的关系之间的成对位置。如图3、每个变换单元由n组多头自注意模块和前馈网络组成，前馈网络由两个线性变换层组成。多头自注意模块的详细结构如图所示3 .第三章。对于每个头部，我们首先采用相对位置编码（）下一页在通道方式变换的特征（X）上，以保持职位信息：Xe=R（X（X））+E（R（X（X）∈RHW×CT，（4）其中（）表示整形操作，其将空间维度挤压成一个维度。然后通过线性变换层分别得到编码特征的查询、键和值投影。为了建立和增强全局位置关系，我们通过查询和键计算位置相关矩阵Ap，并通过乘法用Ap图3. Transformer单元和多头自注意模块的图示。每个头通过倍增查询、键和值特征来提供结构化的自注意机制。头不同的头可以挖掘不同的结构关系，由于不同的投影。因此，采用多个头部可以捕获更全面的结构关系，以丰富表示。对于多头，我们将多头的结果连接起来，并将它们与线性变换层融合。跨尺度注意力转换器。小物体在多标签识别中往往具有较低的性能，这是由于小物体的位置信息可能在低分辨率特征中丢失，特别是对于具有挑战性的数据集，例如。、MS-COCO.为了解决这个问题，一个自然的想法是考虑更多的高分辨率特征来保留小物体的位置信息。事实上，高分辨率特征确实提高了小对象的性能，但也引入了更多的计算负担和噪声，这降低了其他对象的性能。针对这一点，我们提出了一个简单而有效的跨尺度注意力模块作为性能和计算成本之间的权衡，有效地提高了我们的结构关系图的容量。为了抑制不同尺度间的噪声，增强小目标的结构信息，提出了交叉注意特征融合策略Ψi（）。我们提取共同的位置，同时减少了模糊的位置逐位置乘法运算后，上采样不同尺度的特征为了增强位置信息，分别对提取的特征进行下采样，并利用位置加法运算进行增强。因此，第i个尺度的结构特征Ti可以通过该串行化操作形成S反式IAp=softmax（XeWQ（XeWK））的情况下，CT（五）我其中U（·）和D（·）表示上采样操作和下采样操作。H=ApXeWV，其中W{Q，K，V}是查询、键和值投影的可学习权重，H是查询、键和值投影的增强特征。第然后，我们将增强的特征输入到权重共享Transformer单元中，以分别捕获具有不同尺度的结构关系，并在等式中获得最终特征T。（1）可以通过连接每个Ti来获得。√167∈×·∈∈×3.2. 语义关系图动机和讨论。受多标签学习中的共现依赖性的启发，现有的工作通常求助于图网络来将这种关系建模到深度CNN中。先锋作品[8]在Fig.4a）倾向于从统计先验建立不同语言词嵌入的静态相关性。然而，在该标签图中，较少考虑每个图像的特性，这将导致不存在的对象的幻觉和不太常见的同现的抑制。为此，在Fig.4b），构建[5]中的语义图以将高级特征并入词嵌入。尽管对单词嵌入和数据集统计有额外的依赖性，但高级特征仅呈现用于图构造的隐式语义，并且仍然忽略了多个对象之间的详细关系。为了重新审视多标签学习的图构造，这里我们在图中提出了一个联合关系图 4c），涉及用于对象关系发现的两个有意义的线索：1）经由辅助语义感知约束引入显式语义感知高级特征; 2）结合图节点的结构关系以及相关性。前者的线索有助于构建一个明确的关系的语义类，而后者的线索提供了图形的上下文对象的空间意识。语义感知约束。与以往的研究不同的是，本文引入了类特定向量M=m（X）RNcls×H×W的显式嵌入，并通过显式分类约束进行了正则化。表示可学习的11卷积层。因此，我们进行高阶融合以形成语义感知特征VG：VG=R（M）g（R（X））∈RNcls×CG，（7）其中g（）表示从C到CG的降维操作。然而，如何保证VG对各个类的表示质量，作为影响后续建模过程的一个重要前提，研究的较少。为了解决这个问题，我们采用全局池化操作，即在M上的top-k最大池化以挤压空间维度，然后在KMP（M）RNcls上应用辅助损失以约束M，用于学习更准确的初始激活图和每个类别的更少噪声。除了语义感知向量之外，我们还将来自结构关系图的结构信息引入到公司内的长期上下文信息和位置关系：VT=R（GAP（T））∈RNcls×CT，（8）其中，V_T表示结构感知向量，并且GAP表示全局平均池化操作。图4.三种典型图结构的图解。a）拉贝尔图[8]：基于拉贝尔同现的统计先验构建图。b）语义图[5]：结合词嵌入之外的高级特征。c）我们的联合关系图：通过联合结构嵌入和语义感知约束来构建图节点，并且以可学习的方式动态地构建相关矩阵。关节关系图。图神经网络基于相关矩阵在相邻节点之间传播消息如在图4c）中，我们以可学习的方式从两个方面（即语义相关性VG和结构相关性VT）构建联合相关性矩阵AsAs=sigmoid（φc（concat（φt（VT），VG）RNcls×Ncls、（九）其中Φ{c，t}表示可学习的维度变换操作，例如、11卷积层。获得图节点V=concat（VG，VT）和相关矩阵As，我们进一步模拟联合共同联合结构和语义感知向量之间的相关性矩阵的基础上使用Kipf等人的发生依赖关系。’sG=δ（AsVWG）+V∈RNcls×（CG+CT），（10）其中G表示更新的语义关系图，WG∈R（CG+CT）×（ CG+CT ）是可学习的图权重。 δ （ · ）表示LeakyReLU[26]作用函数。3.3. 学习目标随着结构和语义关系图的获得，我们进一步联合他们的预测，以合作学习的方式进行训练（见图1）。2）的情况。我们采用Lsac168LLLi=1表1.与MS-COCO数据集上的最新方法进行比较我们的方法基于三个resolution-lution设置的性能报告。R训练和R测试表示训练和测试阶段使用的分辨率。* 表示我们实现的性能。方法（R列车，R试验）地图CPCR所有CF1 OP或OF1CPCR前3CF1 OP或OF1CNN-RNN [32]RNN-注意[34]无序RNN [2]SRN [46]解放军[40]ResNet-101 *[8]ML-GCNKSSNet [33]我们（−，−）（−，−）（−，−）(224、224）(288，288）(448、448）(448、448）(448、448）(448、448）61.2-- 七十七点一-78.683.083.784.6---81.680.482.485.184.686.0---65.468.965.572.073.273.1---71.274.273.078.077.279.0---82.781.586.085.887.886.6---69.973.370.475.476.276.4---75.877.277.480.381.581.266.079.171.685.2-85.989.2-89.955.658.754.858.8-58.664.1-64.460.467.462.167.4-69.774.6-75.069.284.074.287.4-90.590.5-91.266.463.062.262.5-62.866.5-67.067.872.067.772.9-74.176.7-77.2ADD-GCN [41]我们(448，576）(448，576）85.285.884.787.975.973.680.180.184.987.979.477.382.082.388.891.366.264.875.875.890.392.068.567.677.977.9SSGRL [5][21]第二十一话(576，576）(576，576）(576，576）83.885.186.089.986.387.068.574.374.776.879.980.491.387.787.570.876.577.979.781.782.491.990.190.762.565.765.672.776.076.293.892.191.964.171.468.076.277.678.1第3.2节中的约束语义感知特征。为了加速收敛过程，我们采用了trans和gcn分别对结构关系图和语义关系图的预测结果进行预测。此外，对最终的预测结果采用了联合的方法所有这些损失函数都是超-与典型的多标签分类熵L联合评估指标。为了定量地评估我们的方法和最先进的方法的性能，我们采用平均每类精度（CP），召回率（CR），F1（CF1），平均总精度（OP），召回率（OR），F1（OF1）和平均平均精度（mAP）作为评估指标。为了公平比较，我们还报告了前3名的结果。=−Nclsylog（pi），p，y∈RNcls，y∈ {0，1}.因此值得注意的是，精确度/召回率/F1分数可能会受到最终学习目标L_sum可以公式化为：L总和=L关节+L囊+L反式+Lgcn。（十一）通过这种协作正则化，最终的classifica- tion嵌入在Eq.（3）可以联合感知结构和语义信息进行多标签理解。4. 实验4.1. 数据集和评估指标MS-COCO基准。Microsoft COCO [23]是许多视觉任务的广泛使用的基准，例如对象检测，分割和多标签识别。它包含来自80个公共对象类别的82，081幅训练集图像和40，137幅验证集图像。平均而言，每个图像有2.9个标签。特别是它包含大量的小对象，这对多标签识别更具挑战性。在[8，41，5]之后，我们评估了所有方法在验证集上的性能。VOC 2007基准。 PASCAL VOC 2007 [13]是多标签识别的另一个流行基准。它包含来自20个常见对象类别的训练和验证集中的5，011个图像和测试集中的4，952个图像。平均每个图像有1.4个标签。在[8]之后，我们在训练集上训练我们的方法，并在测试集上进行评估我169×××−阈值，在我们的设置中设置为0.5在所有遇见的人中-rics、AP和mAP是可以提供更全面比较的最重要度量4.2. 实现细节我们采用在ImageNet [9]上预训练的ResNet-101[17]作为我们的骨干。在训练阶段中，输入图像首先被调整大小为512 512，然后随机裁剪并重新调整大小为448 448，其中随机水平翻转用于增强。在测试阶段，输入图像被调整大小为448448. 我们使用SGD优化器，动量为0.9和1 e-4的重量衰减初始学习速率为0.01对于VOC 2007和MS-COCO为0.03，其每30个历元衰减10倍在每个GPU上，VOC 2007的批大小设置为16，MS-COCO的批大小设置为32该网络收敛速度快，总共只需要50个epoch关于超参数的详细实验可以在补充材料中找到我们设置隐藏维度CT=512和CG=512。Transformer单元由3层组成，每层有4个注意头。语义图神经网络具有一层。如在Eq.（3）在结构关系图上引入权系数α，在语义关系图上引入权系数（1α）我们设置α=0。7达到最佳性能。所有实验都在两个NVIDIA Tesla V100GPU上进行。170×SM{、、个文件夹×32表2.与VOC 2007数据集上的最新方法进行比较基于分辨率的方法的性能448×448。* 表示我们实现的性能。方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马电机人植物羊沙发火车电视地图CNN-RNN [32]96.7 83.1 94.2 92.861.282.1 89.1 94.2 64.2 83.6 70.0 92.491.784.293.759.893.275.3 99.7 78.684.0RNN-注意[34]98.6 97.4 96.3 96.275.292.4 96.5 97.1 76.5 92.0 87.7 96.897.593.898.581.693.782.8 98.6 89.391.9[38]第三十八话97.9 97.0 96.6 94.673.693.9 96.5 95.5 73.7 90.3 82.8 95.497.795.998.677.688.778.0 98.3 89.090.6注意-加强[4]98.6 97.1 97.1 95.575.692.8 96.8 97.3 78.3 92.2 87.6 96.996.593.698.581.693.183.2 98.5 89.392.0ResNet-101 *[17]99.8 98.3 98.0 98.079.593.2 96.8 97.7 79.9 91.0 86.6 98.297.896.498.879.494.682.9 99.1 92.192.9SSGRL [5]99.5 97.1 97.6 97.882.694.8 96.7 98.1 78.0 97.0 85.6 97.898.396.498.184.996.579.8 98.4 92.893.4ML-GCN99.5 98.5 98.6 98.180.894.6 97.2 98.282.3 95.7 86.4 98.298.496.799.084.796.784.3 98.9 93.794.0[41]99.7 98.5 97.6 98.480.694.1 96.6 98.1 80.4 94.9 85.7 97.997.996.499.080.297.385.3 98.9 94.193.6我们99.9 98.9 98.4 98.781.995.8 97.8 98.085.2 95.6 89.5 98.898.697.199.186.297.787.2 99.1 95.395.0表3.不同组件的消融研究。R结构和R语义表示结构和语义关系图。MTrans表示Transformer单元。MCSA表示跨尺度注意模块。MGCN表示图卷积网络。RSAC表示语义感知约束。R结构M转换器MCSAR语义M GCNMSAC地图COCO VOC78.692.9✓82.994.3✓✓✓83.982.594.693.4✓✓✓✓83.584.093.894.6✓✓✓✓84.695.04.3. 与最新技术水平的与MS-COCO的比较。如Tab.所示。1，我们比较了我们的方法在MS-COCO基准与11个国家的最先进的方法。在训练和测试阶段，最常用的分辨率是448 -448。然而，值得注意的是，一些方法在训练和推理阶段在不同分辨率上评估其性能，例如。，ADD-GCN[41]和SSGRL [5]。为了进行公平的比较，我们遵循他们的分辨率设置[8，41，5]并报告了三个结果，这些结果实现了一个新的性能排行榜，具有明显的优势。2007年VOC比较在选项卡中。2，我们比较了我们的方法与8个国家的最先进的方法。为了公平比较，我们在常用的448 448分辨率上报告了每个类别的mAP和AP，仅使用ImageNet预训练。在mAP方面，我们的方法实现了最佳性能，并且比最先进的ML-GCN [8]高1.0%。4.4. 性能分析表4.MS-COCO上跨尺度注意模块的消融研究。 111表示不同尺度的特征。CAde-3264 16笔记交叉注意模块。MTrans表示Transformer单元。S1S1S1MCAM变速器32 64 16地图R结构✓TR✓电子邮件✓✓ ✓ TR✓总金额TR✓MLP MLP✓✓ ✓ MUL TR82.983.1（↑0.2）83.3（↑0.4）83.2（↑0.3）83.3（↑0.4）83.9（↑1.0）优于几种现有技术的模型，并且我们提出的模型可以基于该高基线稳定地改进性能如Tab.所示。3、我们提出的模型对最终的性能有稳定的改善，这证明了所提出的模块获得最佳分类结果的必要性。结构关系的影响。可以在Tab中找到。 3、只有采用Transformer作为结构关系才能显著提高性能。，4.3%，这证明了长期上下文信息对多标签识别任务的有效性。此外，小对象的位置信息可能在下采样之后消失，特别是对于具有挑战性的数据集，例如，、MS-COCO.我们提出的跨尺度注意力模型可以增强跨尺度特征并抑制噪声，这进一步提高了MS-COCO的性能1.0%。为了验证我们提出的跨尺度注意力模块的有效性，我们探索MS-COCO上的不同尺度4.第一章默认标度是由我们的基线ResNet-101的最后阶段生成的1考虑到更多的不同尺度，结构关系图模块的性能略有提高。与我们消融研究。为了评估我们提出的结构关系图模块和语义关系图模块的有效性，我们在Tab中使用不同的消融因子重建我们的模型。3 .第三章。我们首先使用ResNet-101，其训练协议与第一行中的基线模型相同，达到了高基线性能，例如，2007年VOC为 92.9%请注意，此基线模型提出的交叉注意模块中加入了乘法运算，性能进一步提高到一个新的水平，用求和代替乘法运算后，性能下降了0.7%，说明交叉注意模块可以进一步有效地增强不同尺度之间的位置信息。为了进一步验证Transformer单元对171CGG联系我们--图5.基线的可视化分析和我们提出的结构关系图模块。我们提供了几个标签用于演示，图像中未显示的标签以红色突出显示。与基线相比，我们的结构关系具有处理a）和b）中的小尺度对象或c）和d）中的混乱外观的能力。表5.在MS-COCO上对建议的联合关系图进行消融研究。JCM表示可学习的联合相关矩阵。SG表示结构指导。SAC表示语义感知约束。GJCMGSGCSAC地图R语义静态81.982.5（↑0.6）83.0（↑1.1）83.5（↑1.6）83.6（↑1.7）83.7（↑1.8）✓✓✓✓✓GMP✓✓间隙✓✓KMP5%交叉尺度信息，我们在Tab中的第5行用简单的MLP层替换Transformer单元4、R结构的性能表现出mAP的明显下降（0.6%），这表明Transformer单元可以有效地捕获长期的空间背景。语义关系的影响。如Tab.所示。3.使用GCN建立语义关系可以显著提高性能，例如在MS-COCO上提高了3.9%。此外，性能进一步提高了1%，我们提出的语义感知的约束，这表明GCN可以实现更好的建模结果与更多的代表性语义特定的向量。为了评估我们提出的语义关系图模块的有效性，我们在Tab中对MS-COCO进行了详细的消融。五、我们采用ML-GCN [8]中使用的静态邻接矩阵在第一行中形成基线。应用我们提出的可学习相关矩阵，提高了0.6%的性能。此外，联合语义和结构信息可以有效地提高性能0.5%的结构指导。另一个主要的探索是寻找全球性的池-通过对语义感知约束的操作，我们的最终语义关系在具有阈值5%的top-k最大池化操作的情况下实现了最佳性能。结构关系的可解释可视化。我们利用Grad-CAM [28]展示基线的可视化结果和图中提出的结构关系。5. i）受益于跨尺度注意力模块，我们的方法可以捕获更准确的定位并且有效地感知小物体，例如图5a）中的叉子和图5b）中的勺子。ii）由于基线模型不能区分具有相似外观的对象，例如，图5c）中的三重标签叉、刀、勺和图5d）中的成对标签背包、手提包、滑板、滑雪板，这些问题由我们提出的结构关系模块很好地处理，受益于由基于变换器的关系图捕获的长期上下文信息。5. 结论在本文中，我们提出了一种新的基于转换器的对偶关系图（TDRG）的多标签识别任务的框架。我们首次尝试将Transformer架构引入到多标签识别任务中，以整合长期的上下文信息并在不同尺度上建立位置关系。此外，我们的模型与语义感知的约束动态同现。有了这两个互补的关系，我们提出的方法实现了新的国家的最先进的两个多标签识别基准。致谢本工作得到了国家自然科学基金（No.61922006）。172引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。三、四[2] 陈尚福，陈奕辰，叶志宽，王玉强。用于多标签分类的具有视觉注意力的无次序rnn在AAAI人工智能会议论文集，第32卷，2018年。一、二、六[3] 陈天水、梁林、惠晓璐、陈日泉和吴鹤峰。知识引导的多标签少镜头学习 -ING 一般图像识别。 IEEETransactionsonPatternAnalysisandMachineIntelligence，2020。2[4] 陈天水，王周霞，李冠斌，林亮。用于多标签图像识别的递归注意强化学习。在AAAI人工智能会议论文集，第32卷，2018年。二、七[5] 陈天水，徐慕新，惠晓璐，吴贺峰，林亮。多标签图像识别的学习语义特定图表示。在IEEE/CVF计算机视觉国际会议论文集，第522-531页，2019年。二五六七[6] Zhaomin Chen ， Xiu-Shen Wei ， Peng Wang ， andYanwen Guo.用于多标签识别的学习图卷积网络及其应用。IEEE Transactions on Pattern Analysis and MachineIntelligence，2021。2[7] Zhao-Min Chen，Xin Jin，and Yanwen Guo.联合类别感知地图解缠和标签相关嵌入的多标签图像识别。在2019年IEEE多媒体和博览会国际会议（ICME），第622-627页。IEEE，2019。2[8] Zhao-Min Chen ， Xi-Shen Wei ， Peng Wang ， andYanwen Guo.用图卷积网络进行多标记图像识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第5177-5186页，2019年。二五六七八[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。6[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。3[11] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。三、四[12] Thibaut Durand，Taylor Mordan，Nicolas Thome，andMatthieu Cord. Wildcat：用于图像分类、逐点定位和分割的深度卷积神经网络的弱监督学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第6421[13] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。二、六[14] 高彬彬和周洪宇。学习发现用于多标签图像识别的多类别注意区域。IEEE Transactions on Image Processing，30：5920- 5932，2021。2[15] 伟峰阁、司北央、益州羽。基于弱监督学习的多标记分类、目标检测和语义分割的多证据过滤与融合。InProceedings of the IEEE Conference计算机视觉和模式识别，第1277- 1286页，2018年。1[16] 郭浩，郑康，范小川，于宏凯，王松。图像变换下多标签图像分类的视觉注意一致性在IEEE/CVF计算机视觉和模式识别会议论文集，第729-739页一、二[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一、六、七[18] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。2[19] Him

下载后可阅读完整内容，剩余1页未读，立即下载