基于颜色推理的语言引导的语音搜索表示学习方法

25 浏览量更新于2023-10-13 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1624LapsCore：基于颜色推理吴玉霜123 *严子正123 *韩晓光123†李冠斌43邹长青5崔曙光1231上交所、中大深圳2中大深圳FNii3深圳大数据4中山大学5华为HMI实验室{yushuangwu@link，zizhengyan@link，hanxiaoguang@，shuguangcui@}.cuhk.edu.cnliguanbin@mail.sysu.edu.cnaaronzou1125@gmail.com摘要语言引导的人物搜索的关键是在视觉输入和文本输入之间建立跨通道的关联。现有的方法集中于设计多模态注意机制和新颖的跨模态损失函数来隐式地学习这种关联我们提出了一种基于颜色推理的语言引导的语音搜索表示学习方法（LapsCore）。它可以显式地双向构建细粒度的跨模态关联。具体地说，设计了一对双重子任务，图像着色和文本完成。在前一个任务中，学习丰富的文本信息对灰度图像进行着色，后一个任务要求模型理解图像，并完成颜色词在图像中的空缺。这两个子任务使模型能够学习文本短语和图像区域之间的正确对齐，从而可以学习丰富的多模态表示。在多个数据集上的实验证明了该方法的有效性和优越性。1. 介绍语言引导的人员搜索由于其在智能监控中的应用前景而引起了人们的广泛关注。如图1所示，它旨在从大型图像数据库中检索最匹配自然语言描述查询的人与基于图像和基于属性的人ReID相比，语言查询比图像查询更容易获得，并且比属性提供更全面和准确的描述。在语言引导的人物搜索任务中存在两个主要挑战首先，由于跨模态间隙，难以计算视觉-文本亲和度和构造图像-文本对齐。其次，每-*同等贡献†通讯作者图像数据库文本引导的图像彩色化查询跨模态匹配红色白色图像引导文本补全黑色一个女人，穿着一件有领子的衬衫和一条裤子。一个穿着白色衣领的红色衬衫和黑色裤子的女人。图1：语言引导的人物搜索的任务是从大型图像数据库中检索与给定文本查询最匹配的人物子搜索是细粒度检索任务：（i）文字对目标人物作了非常详细的描述;（ii）人物图像在外观上具有精细的类内差异。在语言引导的个人搜索的开创性工作[20]之后，已经投入了许多努力来处理这项任务的挑战。[2，39，28，36]设计高级模型以学习更好的图像和文本表示在[20，10，24，5]中开发了张力机制以构建本地图像-文本关联。[19，33，39，28]提出了新的损失函数来缩小视觉和文本特征之间的距离。然而，所有这些方法都隐含地学习跨模态局部关联，这对模型的学习能力留下了严格的测试从大量的实验语言引导的人的搜索，我们观察到，颜色在检索中起着重要的作用。面对个人形象，人类往往会通过接受视觉色彩来提取外观信息，进而理解与这些色彩相关的服饰。因此，我们受到启发，提出了一种新的表示学习方法LapsCore，通过解决颜色推理子任务，引导模型显式地学习精细的颜色。1625粒度交叉模态关联。如图1所示，第一个子任务，文本引导的图像着色（IC），是根据其文本描述对灰色图像进行着色。在这项任务中，模型是facilitated正确探测丰富的颜色信息，从文本和对齐它们相应的图像区域。例如，在图1中，不仅单词“red”应该被提取，而且“shirt”的语义含义也需要与“red”配对，并且图像中指示“shirt”的空间区域应该被着色为红色。因此，可以构建文本到图像的局部关联。针对图像到文本的反方向，设计了图像引导的文本补全子任务。具体地，在每个描述句中，所有颜色词被移除，并且这些空缺需要通过利用成对的彩色图像来完成。以这种方式，有效的图像区域可以被显著地表示，然后与相关的文本短语相关联虽然颜色推理任务对人类来说并通过使用这两个子任务，可以在主要任务图像-文本匹配中利用更好的多模态表示。此外，我们还提出了另一个给定输入图像的特征表示，我们部分地掩蔽一些通道，并且利用字幕来恢复它们。在这个过程中，可以探测和利用包括颜色在内的一般文本信息。因此，它赋予我们的方法的鲁棒性的情况下，颜色不是字幕中的主导信息。为了解决第一子任务IC，我们将其转换为逐像素回归问题。该算法将原始图像处理成灰度图像作为输入，并使用成对字幕来恢复原始图像。TC任务可以被视为视觉问答（VQA）问题，其中问题是具有颜色词变化的句子，并且答案是候选颜色之一。在图像特征通道完成子任务中，我们首先在个人ID分类任务上预训练特征提取器，然后视觉特征图被掩蔽以用于使用字幕进行恢复。在语言引导的个人搜索数据集CUHK-PEDES上进行了广泛的实验[20]。所提出的方法被证明产生令人印象深刻的性能改进。在一般图像-文本检索数据集上的验证也证实了其有效性，包括Caltech-UCSD Birds [26]，Oxford-102 Flowers [26]，Flickr 30 k[25]和MSCOCO [21]。概括而言，我们工作的主要贡献包括：• 提出了一种新的表示学习方法LapsCore，以促进学习细粒度的跨模态关联显式。它的工作原理是解决颜色-推理子任务、图像彩色化、文本补全和图像特征通道补全。• 广泛的实验进行了具有挑战性的语言引导的人的搜索数据集，CUHK-PEDES。LapsCore被证明是有效的，带来了可观的性能增益，并达到了最先进的结果。• 所提出的方法被证明是通用的，以纳入不同的基线，并带来改进。在其他跨通道检索任务中也证实了该方法的有效性，希望能给其他研究者以启发。2. 相关工作2.1. 图文匹配早期的作品探索了各种模型和架构来处理图像-文本匹配问题。多模态卷积神经网络[23]利用卷积架构来提取图像和文本特征并建立跨模态匹配关系。设计了具有多层线性投影的[31]学习联合嵌入，并应用于[30]中的图像-文本匹配。在[22]中采用了递归残差融合块，以将视觉和文本表示收集到更具鉴别力的嵌入空间中。在[9]中采用选择性多模态LSTM来测量一对图像和句子之间的局部相似性一些有效的损失函数也被专门设计用于缩小模态间隙。在[37]中提出了跨模态投影匹配损失和分类损失，以学习图像和文本的判别联合嵌入。在[28]中，引入对抗性损失来学习模态不变特征表示。最近，除了全局地理解两种模态输入之外，一些方法关注部分对准和视觉对象关系。在[35]中，他们将视觉输入视为一系列对象，并试图自适应地控制跨模态的信息流除了序列，[32]视觉和文本输入被表示为场景图，以实现更好的跨模态匹配。另一组工作通过引入外部信息来实现准确性改进，例如，姿态信息[12]、显著性信息[11]和一致性知识[29]。我们的方法工作在一个新的面向任务的方式来明确学习细粒度的跨模态关联。颜色推理任务可以使模型有效地理解颜色，从而理解相关物体（衣服，包，鞋等），在两种模式中。2.2. 语言引导的人员搜索语言引导的人搜索也被称为基于文本的人ReID或检索。开创性的工作[20]首先介绍了这个任务。它建立了一个大规模的数据集1626：多模式SE-模块LSTM按通道关注全球池化imFEAFC年龄图U-NetLSTM一个穿红衬衫的2∈¨¨∈移动-净MLP红色分类器BAN白色黑色LSTM一个女人在[[英语泛读材料衬衫上有禁令残余学习+重复图2：左：结合文本引导的图像着色任务（IC）和图像引导的文本完成任务（TC）的跨模态匹配的概述;右上：采用LSTM和具有多模态SE块的U网的IC的流水线;右下角：使用双线性注意力网络（BAN）的TC管道。CUHK-PEDES，并提出了一个基准模型GNA-RNN。在此基础上，[19]提出了一种两阶段匹配框架，该框架考虑了身份信息并提高了性能。对模型设计做出贡献的早期工作包括[39]，其中提出了双路径CNN，以将图像和文本特征投影到相同的潜在空间中。随后的努力工作更有效的机制，以探测跨模态关联。[10]的作者设计了一个描述增强的融合注意网络，使区分词具有视觉敏感性。在[2]中使用具有自适应阈值机制的块词匹配模型来计算文本-图像亲和度。在[24]中，部署了多粒度图像-文本对齐模型来探索全局-全局、全局-局部和局部-局部关系。最近，属性信息[1，34，38]被证明有利于跨模态匹配。这些方法仔细地从字幕中挖掘出大量的属性作为属性分类的监督，从而有区别地学习图像或文本特征，并间接地进行最先进的方法NAFS [4]计算多尺度视觉区域与文本单词/短语之间的跨模态相似性。与上述方法相比，我们的方法巧妙地以面向任务的方式桥接了跨模态关联因此，多模态表征的学习是由颜色推理任务引导和加强的。此外，LapsCore建立在颜色上，这导致细粒度的表示。3. 方法在本节中，我们介绍所提出的方法Laps-Core。如图2（左部分）所示，LapsCore通过两个颜色推理子任务（文本引导的图像着色（IC）和图像引导的文本完成（TC））来生成代表性的多模态特征。3.1. 文本引导的图像彩色化IC任务的目的是利用文本描述来着色灰度图像，将原始图像处理成灰度图像。在该任务中，模型努力理解标题，并探测用于着色的有效信息。因此，可以构建文本到图像的关联整个任务可以被转换成逐像素回归问题。表示为fic的多峰回归模型采用灰度图像、I灰度和去灰度图像的对手写句子，T颜色作为输入，并输出恢复的图像。将I着色的原始彩色图像设置为目标，并使用逐像素均方误差损失Lic：Lic=fic（Igray，Tcolor）−Icolor2为了处理这个任务，我们采用了一个U-Net框架，它对灰度图像进行编码，并通过融合文本信息将其解码为彩色图像，如图2（右上角）所示。在编码阶段，我们从输入中提取多尺度视觉特征。将尺度s的特征图表示为YsRhs×ws×cs，其中h、w、c分别表示高度、宽度和通道在文本分支中，描述语句被标记化并馈送到嵌入层中。然后LSTM [7]提取文本特征X∈RN。在解码阶段，视觉特征应与文本特征融合进行彩色化。因此，我们设计了多模态SE块，其应用如[14，18]中的逐通道注意力机制，使得文本信息可以对图像特征通道起作用。多模态SE块中的操作在图2中示出（右上灰色虚线框）。首先，通过全局池化将视觉特征图Ys压缩成特征向量vsRcs与文本特征向量X连接，vs然后被馈送到两层多层感知器中，softmax层以生成注意力向量As∈Rcs。最后，As被用于将Ys更新为多模态表示。IC：IC交叉-模态匹配亲和力评分TC红色白色黑色TC：一个女人，穿着一件有领子的衬衫和一条裤子。一个穿着白色衣领的红色衬衫和黑色裤子的女人1627.Σ∈∈∈∈∈∈∈ ∈∈我.Σ我我我我我具有相同尺寸的表示Z，写为：Zs=Ys·As，其中下标i ∈ {1，2，. . . ，cs}表示信道的索引，Zs，Ys∈Rhs×ws，As是标量.U-Net的解码器由若干个反卷积层组成。首先，编码器中的最后Ys经过第一反卷积层以生成特征图WsRhs×ws。每个Ws与SE块输出Zs级联，并且通过去卷积层以生成更大的Ws’。作为最后一步，给定来自最后一个去卷积层的Ws，采用简单的上采样和卷积来预测目标。3.2. 图像引导文本补全双任务TC要求利用彩色图像来完成颜色词空缺的文本描述。对于每个句子，所有颜色词被移除以创建而这些空缺需要通过分析不同图像区域的前景颜色来填补。通过这种方式，可以桥接图像到文本的关系。这个任务可以被视为一个VQA问题。VQA模型，表示为ftc，采用彩色图像，I颜色，一个有空缺的文本句子，Tq作为输入，并输出缺失的颜色词。目标答案是从原始描述中移除的颜色词Ta典型的-采用标准交叉熵损失Ltc，公式为：Ltc=交叉熵ftc（Icolor，Tq），Ta我们参考流行的VQA模型的结构，双线性注意力网络（BAN），以解决TC任务，并且[15]建议更详细。参见图2（右下角），视觉和文本特征是由MobileNet和LSTM从输入数据中提取的。将文本要素表示为XRN ×ρ和视觉特征作为Y其中N是序列长度，ρ是LSTM输出维度，φ表示MobileNet输出的信道号，M=h×w是空间维度的乘积给定两图3：用于文本引导的图像特征通道完成的ICf它接受丢失通道的图像特征作为输入，并旨在恢复它们。其中，1Rρ是全一向量，并且投影矩阵PRK×C。通过将N设置为K[15]，X用作初始输入F0BANg是用于生成中间表示的函数，定义为fg=BANg（Fg，Y;Ag），其中fg∈RC，其第k个元素计算为：fg，k=（FTgU′）TkAg（YTV′）k，其中U′RN ×K，V′RM ×K，（XTU′）kRρ，（YTV’）kRφ，矩阵的下标k表示列的索引。给定最后一个残差块输出的联合特征表示，采用多层感知器（MLP）分类器来预测每个单词空缺的颜色类别3.3. 广义IC：功能通道完成彩色图像由3个通道“YCbCr”组成重新考虑IC任务，它旨在利用文本颜色信息来恢复两个丢失的通道。尽管该方法可以通过颜色桥接跨模态关联，但是当颜色在描述中是在MSCOCO数据集中）。因此，我们提出了一个一般化的版本的IC，表示为IC，它变成完整的模态特征X和Y，几个双线性注意图通过计算以下项之间的亲和度得分来生成F使用文本的图像特征特征贴片，公式为：Ag=softmax。（1·pTg）◦XTUVTYΣ，其中U∈RN ×K和V∈RM ×K是投影矩阵，1∈Rρ是全一向量， pg∈RK ，其中 g 表示注意图指数，Ag∈Rρ×φ，◦表示如图3所示，ResNet18 [6]在识别任务中进行预训练，以从图像中提取丰富的表示，然后我们屏蔽了一些通道的图像特征，并将被屏蔽的特征馈送到完成模型中，以完整的特征作为目标。完成模型和损失函数-在IC中，除了输入和输出之外，f中的元素与IC中的元素相同Hadamard乘积在注意力地图的帮助下，X和Y被融合成联合表示。残余学习的方法是用来增加的代表性的能力。在第g个残差块中，输出Fg+1∈RK× p被计算为：Fg+1=PTBANg（Fg，Y;Ag）·1T+Fg，相应地调整输出比例3.4. 掺入所提出的方法可以被并入流行的图像-文本匹配算法[37，33，28，4]中，作为多模态表示学习方法。交叉模态ResNet图像MLP分类器特征声道掩蔽预培训：识别目标U-Net蒙面特征文本特征1628∈×投影匹配与分类（CMPM/C）模型[37]采用了[33，28]中的通用框架，该框架分别采用LSTM和MobileNet [8]作为文本和视觉特征提取器。我们选择CMPM/C在这里作为跨模态匹配模块来实现LapsCore，它可以很容易地推广到这个框架的其他为了合并，我们删除了CMPM/C中的特征提取层，由IC和TC模块的表示层代替，如图2的左侧部分所示。CMPM/C中的匹配损耗定义为Lcmp，则总体多任务损失L被计算为：L= Lcmp+λ1 Lic+λ2Ltc，其中，λ1、λ2R+是平衡每个子任务的重要性的标量因子。将ICf并入CMPM/C的方式类似，其中多任务损失写为：L= Lcmp+λ3 Licf，其中λ3∈R+是一个平衡因子。4. 实验在本节中，我们在语言引导的人搜索任务上评估所提出的LapsCore。首先介绍了最后给出了定量和定性的结果，验证了LapsCore的优越性.最后，进行消融研究以作进一步分析。4.1. 实验装置数据集。CUHK-PEDES数据集[20]是重点任务的一个具有挑战性的数据集，它从几个人识别数据集中收集了13，003个人身份的40，206张图像每个图像由两个自然语言句子描述。训练集、验证集和测试集分别由11，003、3，078和3，074张图像以及11，003、1，000和1，000张图像组成。分别为1,000人评估指标。Recall@k（k=1，10）或R@k[13]被用作针对聚焦任务的评估度量。Recall@k表示成功检索的比例，其中至少一个地面实况包括在前k个评分图像中。在扩展实验中（第5节），AP@50[26]也被用来衡量所有测试类的平均精度，计算为在前50个得分结果中与查询共享同一个类的比率基线。如第3.4节所述，我们将Laps-Core纳入通用框架CMPM/C [37]，以验证其通用有效性。我们还部署了一个高级版本CMP adv，它用ResNet 50 [6]和BERT [3]作为特征提取器取代了 CMPM/C 中的 MobileNet 和LSTM 此外，我们还实现了最先进的（SOTA）方法NAFS [4]作为基线，以进一步证明LapsCore的优越性及其对SOTA算法的贡献能力。表1：不同方法在CUHK-PEDES数据集上的召回@k方法召回@1召回@10GNA-RNN [20]19.0553.64GLA [2]43.5876.26双路径[39]44.4075.07TIMAM [28]51.3082.40[28]第二十八话54.5184.78ViTAA [34]55.9783.52CMAAM [1]56.6884.86CMPM/C [37]49.3779.27CMP adv55.0585.09NAFS [4]61.5087.51CMPM/C + TC IC53.3383.20CMP adv + TC IC57.0085.62NAFS + TC IC63.4087.80表2：将我们的方法的召回@k准确度（%）并入CUHK-PEDES数据集上的3个基线中。CMPM/CR@1R@10CMP高级R@1R@10NAFSR@1 R@10基线49.479.355.185.161.587.5+TC51.881.956.285.362.587.6+ IC52.582.856.485.462.787.6+ ICf52.782.756.385.463.287.6+TC ICf53.082.956.885.463.387.7+TC IC53.383.257.085.663.487.84.2. 实现细节图像着色。灰度图像被调整大小为224 224作为输入。采用MobileNet [8]（在ImageNet上预先训练）编码器来提取具有不同尺度的4个特征图（w，h相等并设置为56，28，14和7）。解码器由4个去卷积层组成。在文本分支中，一层bi-LSTM中的嵌入大小和隐藏维度被设置为512。对所有时间单元的输出进行最大池化操作以生成最终的文本特征向量。文本完成。首先对所有颜色词的频率进行计数，然后选择频率超过1,000的颜色词（前14个）作为完成的颜色候选。在CUHK-PEDES训练集中，95.3%的句子包含至少一种候选颜色。对于每个训练样本，我们随机选择一个颜色词，并只创建一个用于预测的变量。在BAN模型中，在视觉分支中使用MobileNet [8]（在ImageNet上预先训练），嵌入大小为512的bi-LSTM和一个512-dim隐藏层提取文本特征。如[15]中所使用的4个一瞥，这导致足够的准确性和低复杂性。图像特征通道完成。如第3.3节所述，1629××金发女子拿着一个白色钱包，穿着蓝白相间的上衣和黑色短裤。这个男孩羽毛般的背后是一个较大的男人，男孩身材敦实，他穿着一件浅橙色的衬衫和深蓝色的裤子和运动鞋。一个女人，穿着一件蓝色的衬衫，前面有一张照片，一条黑色的裤子，一双白色的鞋子。我们的方法基线（CMPM/C）一个戴眼镜的女人拿着一个白色的瓶子在她的身体前面，而她穿着一件灰色的衬衫在蓝色的牛仔短裤上，白色的漂白补丁在黑色的鞋子上。图4：给定相同的查询，我们的方法和基线之间的前7个检索结果的比较结果按照亲和度分数的降序从左到右排列。红色框表示正确的检索。在Flickr 30 k和MSCOCO数据集上，图像特征由基于ResNet 50的Faster R-CNN [27]生成，并在COCO 2017对象检测任务上进行了预训练conv1层输出（112 11264）被用作完成目标。在每两个特征通道中，将一个设置为零以生成遮罩特征。 IC模块中的编码器在Flickr30k和MSCOCO数据集上使用ResNet50，在其他数据集上使用MobileNet。培训和测试。在联合训练之前，使用Adam [16]优化器对IC或ICf模块进行20个epoch的预训练TC和CMP模块也使用Adam分别以0.0002的学习率预训练10和20个epoch然后使用Adam联合训练所有模块40个epoch。mini-batch大小设置为64，学习率设置为到0.0002。在损失函数中，λ1和λ2分别被设置为10和1。在测试阶段，提取所有的文本和图像特征，并可以计算所有图像-文本对之间的余弦相似度。4.3. 实验结果定量结果。我们基于所有三个基线来评估我们的方法。表1中给出了与现有SOTA算法的性能比较。数值结果表明，我们的方法可以一致地带来改善不同的基线。对于通用CMPM/C [37]，所提出的方法可以在Recall@1和Recall@10中带来可观的 0.04增益了解-表2中列出了有效的结果，以分别证明IC、TC和ICf模块IC通常与ICf竞争，并且将IC和TC两者结合能够比仅使用任一者进一步改进。此外，LapsCore被证明有效地改进了SOTA方法NAFS [4]，并且实现了63.40%的Recall@1率，其超过SOTA性能约0.02。定性结果。给定相同的语言查询，基线（CMPM/C）和我们的方法（CMP+IC TC）的检索结果在图4中可视化。相比之下，我们的方法是更有效地检索匹配的人（第一行）。实验还发现LapsCore使模型对颜色的敏感性得以发挥例如，在第二行中，通过我们的方法检索的大多数得分最高的图像满足在图4的第三行中可以观察到类似的情况。此外，我们的模型可以很好地着色输入的灰度图像，即使是看不见的测试图像。相关着色可视化包括在补充材料中。更令人印象深刻的是，通过改变字幕中的颜色词来改变同一图像的着色来进行进一步的实验。如图5所示，我们的模型准确地学习了颜色的含义并与相关区域相关联，而不是简单的记忆。我们还通过计算交替颜色词时最后一层输出的距离，输出1630CMPM/C [37]+ IC-Sketch+ IC-灰度+ TC-对象+ TC-颜色召回@149.451.552.550.151.8召回@1079.382.782.881.781.9灰度蓝灰红色布朗粉红绿黄紫橙色原始一个女人拿着一个杯子在她的右手与黑色的头发，长按钮下来[[英语泛读材料衬衫，黑色长牛仔裤，黑色鞋子。一个留着黑色长发的成年人，穿着夹克牛仔裤，网球鞋和背包，正沿着街道走着。此人身穿深色[ ]短裤，搭配浅色[ ]无袖T恤背着斜挎包穿着黑色鳄鱼鞋蓝色红色青红红蓝绿色蓝色蓝绿色红绿紫色蓝色橙蓝之紫色蓝色图5：通过更改标题中的颜色词来可视化着色结果。选择前9种常见颜色（除了白色和黑色）用于可视化。最后一行中的图像使用不同的颜色组合进行着色。表3：3组消融实验的结果5.可以观察到，该模型通过颜色推理任务学习隐式地分割上身/下身衣服，这可能会启发未来的研究。为了探讨颜色推理任务设计中的一些设置的效果，我们进行了采用具有MobileNet主干的CMPM/C模型[37]作为基线，并且在CUHK-PEDES数据集[20]上进行所有以下烧蚀实验。我们为LapsCore的每个模块设计选择了一个重要的变体，IC中的着色源，TC中用于完成的空字类型，以及ICf中的特征选择和掩蔽方式。4.4. 消融研究IC中的灰色图像。除了灰度图像，草图图像作为另一种灰度图像，可以作为彩色化子任务的替代源略图图像图6：左：颜色字典和对象字典的词云。字体越大，表示词频越大;右图：从原始彩色图像生成的灰度图像和草图图像的可视化示例。进一步放弃了许多灰度信息，仅保留轮廓，如图6所示。因此，它增加了着色的难度，这可能不利于学习的有效性通过实验比较了使用草图和灰度图像作为彩色化源的差异。如表3所示，使用灰度图像可获得更高的性能。TC中的颜色词在行人外观的描述中，一些对象是非常具体地，查询中的诸如“眼镜”、“帽子”、“衣服”之类的词可以过滤掉许多不相关的图像并且充当检索关键字。基于这一观察，我们构建了一个对象词典，其中包含26个最常见的对象名词，如图6所示，覆盖了96.8%的查询句子。然而，在这方面，彩色字典对象字典+ ICf-更深51.282.7+ ICf-空间51.682.4+ ICf-Mask451.782.7+ ICf-掩模252.782.71631表4：在CUB和Flowers数据集上不同方法的Recall@1准确度（%）和AP@50比较。方法幼崽Img2TxtTxt2ImgR@1AP@50花Img2TxtTxt2ImgR@1AP@50GMM+HGLMM [17]36.535.654.852.8字CNN-RNN [26]56.848.765.659.6IATV [19]61.557.668.470.1CMPM [37]64.662.167.766.1CMPM/C [37]67.964.369.768.9CMP adv70.366.475.772.2CMPM/C + ICf67.964.673.269.2CMPM/C + TC IC68.066.075.271.4CMP adv + ICf71.167.176.572.4CMP adv + TC IC72.369.577.973.3如表3所示，使用对象字典来替换原始颜色字典导致较低的准确度。一个合理的解释是，大多数对象具有比颜色更复杂的语义，这使得跨模态联想的学习变得更加困难。IC F中的设置。在我们的基本设置中，要完成的图像特征从ResNet18的conv1层输出中选择然后将每两个特征通道中的一个消融实验在3个方面进行，选择用于完成的特征、掩蔽程度和掩蔽方式首先，更深层次的功能，ResNet18 conv2 x的输出被设置为目标，这导致Recall@1下降0.015。直觉上，更深层次的特征更抽象，因此难以完成。其次，我们在每四个通道中屏蔽一个通道以降低完成难度。此修改还导致Recall@1降低0.01，这是由于恢复难度大大增加。第三，图像特征在空间上被掩蔽，而不是在通道上被掩蔽。这样，性能也受到影响。一个潜在的原因是空间特征块之间的高度相关性使得完成任务太容易了。上述所有结果列于表3中以供比较。5. 扩展实验在本节中，我们在其他4个数据集上实现了扩展实验，以证明LapsCore在其他跨模态检索任务中的通用性。CUB和Flowers数据集。Caltech-UCSD Birds（CUB）[26]和Oxford-102 Flowers（Flowers）[26]数据集分别收集各种鸟类和花卉的图像，每个图像有10个描述，训练集与测试集没有类别。在两个数据集上的实验进一步验证了该方法的有效性。在两个基线CMPM/C和CMP adv上实施LapsCore，定量结果列于表4中。观察到，在两个数据集上并且在两个检索方向上，可以获得两个基线表5：Flickr 30 k和MSCOCO数据集上基线和我们的方法的召回@kFlickr方法Img2TxtR@1 R@5 R@1030kTxt2ImgR@1 R@5 R@10CMPM [37]37.165.876.329.156.3 67.7CMPM/C [37]40.366.976.730.458.2 68.5CMPM/C + ICf44.170.180.031.159.4 71.0方法MSCOCOR@1Img2TxtR@5R@10R@1Txt2ImgR@5R@10CMPM [37]23.951.565.418.943.856.9CMPM/C [37]24.652.366.419.144.658.4CMPM/C + ICf29.159.171.820.748.061.3改进与LapsCore的结合。彩色化输出可视化的定性结果也在补充材料中提供。Flickr30k和MSCOCO数据集。与包括单个主要类别（人，鸟或花）的所有上述数据集不同，Flickr30k [25]和MSCOCO [21]数据集中的图像包含广泛的组件，并且标题也更全面。此外，两个数据集都包含大量的一般图像和标题，其中颜色并不占主导地位（只有约1/3的句子包含频繁的颜色词）。在两个数据集上的实验旨在评估ICf模块的有效性。如表5所示，所提出的方法在两个检索方向上都带来了令人印象深刻的召回率增益。特别是在图像到文本的方向上，ICf模块在两个数据集上的Recall@1中为CMPM/C带来了超过4%的改进。6. 结论在本文中，我们提出了LapsCore，它使用两个颜色推理子任务来改进语言引导的人员搜索的表示学习。第一个目标是利用文本信息对灰度图像进行着色。在双向上，利用彩色图像来补充字幕中的颜色词空缺此外，我们提出了完整的视觉特征通道，这是适用于一般的图像-文本匹配任务的颜色是不占主导地位的字幕。定量和定性的实验结果，以及广泛的消融研究，证明了所提出的方法的优越性。鸣谢本课题部分得到广东省重点领域&研发项目的资助，项目编号：2018B030338001，由国家重点&研发计划（批准号：2018YFB1800800，深圳市杰出人才培养基金，广东省大数据计算重点实验室，香港中文大学，深圳，广东省研究项目号. 2017ZT07X152，.1632引用[1] SurbhiAggarwal，VenkateshBabuRADHAKRISHNAN，and Anirban Chakraborty.基于属性辅助匹配的基于文本的人物搜索。在IEEE计算机视觉应用冬季会议上，第2617三、五[2] 陈天狼，徐晨良，罗杰波。利用空间匹配和自适应阈值改进基于文本的人物搜索。2018年IEEE计算机视觉应用冬季会议（WACV），第1879IEEE，2018年。一、三、五[3] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。5[4] Chenyang Gao ， Guanyu Cai ， Xinyang Jiang ， FengZheng ， Jun Zhang ， Yifei Gong ， Pai Peng ， XiaoweiGuo，and Xing Sun.基于文本的人员搜索的全面表示的上下文非局部对齐。arXiv预印本arXiv：2101.03036，2021。三、四、五、六[5] Jing Ge，Guangyu Gao，and Zhen Liu.视觉文本关联与最难和半硬否定对挖掘的人搜索。arXiv预印本arXiv：1912.03083，2019。1[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。四、五[7] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。3[8] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。5[9] 炎黄、魏王、梁王。基于选择性多模态lstm的实例感知在IEEE计算机视觉和模式识别会议论文集，第2310-2318页2[10] 钟吉，李胜佳，庞彦伟。融合注意力网络与自由形式的自然语言的人搜索。Pattern Recognition Letters，116：205-211，2018。第1、3条[11] 仲吉、王浩然、韩俊公、庞彦伟。基于显著性引导的注意网络的图像-句子匹配。在IEEE计算机视觉国际会议集，第5754-5763页，2019年。2[12] 雅静、司晨阳、王俊波、王伟、王良、谭铁牛。用于基于文本的人物搜索的姿势引导多粒度arXiv预印本arXiv：1809.08440，2018。2[13] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference on computervision and pattern recognition，pages 3128-3137，2015中。5[14] Hyunsu Kim，Ho Young Jhoo，Eunhyeok Park，SungjooYoo.Tag2pix：使用带有secat和改变损失的文本标记的线条艺术着色。在IEEE/CVF Inter-国家计算机视觉会议，第9056-9065页，2019年。3[15] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络。神经信息处理系统进展，第1564-1574页，2018年。四、五[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[17] Benjamin Klein Guy Lev Gil Sadeh和Lior Wolf使用Fisher向量将神经词嵌入与深度图像表示相关联在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition，pages 44378[18] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.Manigan ：文本引导的图像处理。在IEEE/CVF计算机视觉和模式识别会议的论文集，第7880-7889页，2020年。3[19] 李爽，肖彤，李洪生，杨伟，王晓刚.具有潜在共同注意的身份感知文本视觉匹配。在IEEE计算机视觉国际会议论文集，第1890一、三、八[20] Shuang Li，Tong Xiao，Hongsheng Li，Bolei Zhou，Dayu Yue，and Xiaogang Wang.使用自然语言描述进行人员搜索。在IEEE计算机视觉和模式识别会议论文集，第1970- 1979页，2017年。一、二、五、七[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 二、八[22] Yu Liu，Yanming Guo，Erwin M Bakker，and Michael SLew.学习用于多模态匹配的递归残差融合网络。在IEEE计算机视觉国际会议集，第4107-4116页，2017年。2[23] Lin Ma，Zhengdong Lu，Lifeng Shang，and Hang Li.用于匹配图像和句子的多模态卷积神经网络。在Proceedings of the IEEE international conference oncomputer vision，pages 2623-2631，2015中。2[24] 凯牛、炎黄、欧阳万里、梁王。利用多粒度图文对齐改进基于描述的人物再识别。 arXiv 预印本 arXiv ：1906.09610，2019。第1、3条[25] Bryan A Plummer、Liwei Wang、Chris M Cervantes、JuanCCaicedo 、 JuliaHockenmaier 和 SvetlanaLazebnik。Flickr30k实体：收集区域到短语的对应关系，以获得更丰富的图像到句子模型。在IEEE计算机视觉国际会议的论文集，第2641-2649页，2015年。二、八[26] Scott Reed 、 Zeynep Akata 、 Honglak Lee 和 Bernt

下载后可阅读完整内容，剩余1页未读，立即下载