通道增强联合学习技术用于可见-红外识别

51 浏览量更新于2023-10-13 收藏 943KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13567通道增广联合学习用于可见-红外识别芒叶1，阮伟坚2，伯都1*，米可郑寿31多媒体软件国家工程研究中心、人工智能研究所、多媒体与网络通信工程湖北省武汉大学计算机科学学院2中国科学院深圳先进技术研究院3新加坡国立大学，新加坡https://github.com/mangye16/Cross-Modal-Re-ID-baseline摘要本文介绍了一种强大的通道增强的联合学习策略的可见光-红外识别问题。对于数据增强，现有的方法大多直接采用为单模态可见光图像设计的标准操作，因此没有充分考虑可见光-红外匹配中的图像特性我们的基本思想是均匀地生成与颜色无关的图像，红外摄像头原始图像IR图像RGB图像大间隙小间隙恢复RGB摄像头通过随机交换颜色通道来老化它可以R G B信道组件R G B通道增强无缝地集成到现有的增强操作中，而无需修改网络，一致地提高了对颜色变化的鲁棒性。结合随机擦除策略，它通过模拟随机遮挡进一步丰富了多样性。对于跨模态度量学习，我们设计了一种增强的通道混合学习策略，以同时处理具有平方差的模态内和跨模态变化，以获得更强的可辨别性。此外，通道增强的联合学习策略进一步发展，显式优化增强图像的输出。对两个可见-红外识别任务的深入分析表明，所提出的策略一致地提高了准确率。在没有辅助信息的情况下，它在大规模SYSU-MM 01数据集上将最先进的Rank-1/mAP提高了1. 介绍身份识别（人员重新识别[22]，面部识别[11，19]）系统最近取得了显著然而，大多数的研究工作已经支付的单模态可见域。在许多夜间监控和弱光环境中，近（远）红外摄像机被用来捕捉目标的外观* 通讯作者：伯都图1. 渠道扩张的动机。从单通道红外图像直接恢复三通道RGB图像是病态的。相反，我们建议直接优化红外图像和可见光图像的R，G和B通道之间的关系。[4，37]。这引起了重要的交叉模态可见-红外识别问题，可见红外人再识别（VI-ReID）[41]和NIR-VIS人脸识别[53]。跨模态匹配通常通过学习模态共享或不变特征来公式化。由于大的模态间隙和未知的环境因素[32，54]（例如，不同视点、遮挡、背景杂乱等），导致大的模态内和跨模态变化。为了消除颜色差异，使用生成对抗网络（GAN）的跨模态图像生成是一种流行的方法[36，56]，可以在图像级别弥合差距然而，图像生成过程通常需要额外的计算成本并且遭受不可避免的噪声[21]。另一种方法是直接采用灰度图像来执行跨模态匹配[9，42]，其中颜色信息被假设为不相关的。虽然这种方法确实消除了颜色差异，但它也丢失了颜色通道中的判别信息。本文提出了一种信道可交换的增强器，13568数据扩充跨模态度量学习 灰度通道增强联合学习 显式增强图像…我们的解决增强的通道混合学习 混合增强图像 增强平方差 通道增强 通道级擦除现有解决方案模态共享度量学习 三联体丢失+同一性丢失标准DA图2.主要贡献的说明。两个重要步骤：数据增强（DA）和跨模态度量学习。在输入图像水平上缩小间隙，同时保持有用的颜色信息。主要思想的说明如图所示。1.一、消除模态差异的一个简单的解决方案是恢复原始的三个颜色通道。然而，将单通道红外图像转换为三通道可见光图像是一个具有挑战性的问题，具有不可避免的噪声[52]。或者，我们提出直接学习可见光图像和单通道红外图像的每个R、G和B通道之间的关系。这用作可见光到红外学习过程的通道增强操作，以加强对颜色变化的鲁棒性。我们进一步提出了一个随机擦除（CRE）技术的遮挡模拟。结合信道增强技术，我们的策略在信道级进行擦除，以获得更好的多样性。此外，我们还包括灰度变换用于增强，减少颜色效果。这些增强操作极大地扩大了训练集，带来了更好的泛化能力。对于跨模态度量学习，我们首先提出了一种增强的通道混合学习方案。与广泛使用的双向三元组度量学习[7，24，49]不同，我们直接优化混合批次中的特征嵌入，其中具有相同的身份分类器和原始可见光，红外和通道增强模态的度量。具体来说，我们设计了一个加权正则化的三重损失与增强平方差的跨模态度量学习，同时处理内和跨模态的变化。我们的设计有两个主要的好处：1）它充分考虑了所有可能的三元组关系的增强图像集。2）平方差近似于大间隔度量学习原理[40]，以提高区分度。我们还开发了一个通道增强的联合学习策略，明确优化的通道增强图像的训练。其基本思想是将通道增强的可见图像作为一个附加的模态，形成一个三模态联合学习框架。它稍微增加了每个训练步骤的计算负担，但在不增加额外成本的情况下始终如一地提高了测试精度。我们的主要贡献（总结在图。2）是：• 提出了一种新的通道可交换增强算法用于可见-红外识别。它可以无缝集成到现有的增强操作，而无需修改网络结构或改变学习策略。• 我们设计一个增强通道混合学习方案，以同时处理内部和跨模态变化。通过联合学习策略，它显式优化了通道增强图像。• 我们评价对两可见红外人再-识别和面部识别，在各种设置下实现显著的准确性增益。2. 相关工作可见光-红外人员再识别（VI-ReID）是一个跨模态人员识别问题，其目的是匹配白天可见光和夜间红外图像[2，48，16，57]。 Wu等人。 [42]通过引入零填充单流网络开始了第一次尝试，他们直接利用灰度图像进行训练和测试。为了同时处理模态内和跨模态变化，[49]中提出了双向双约束框架此外，Dai等人。 [7]还提出在对抗训练框架中联合区分身份和模态。在[5]中，对身份识别为了充分利用两种模态之间的关系，[50]中设计了一种双注意聚合学习方法随着GANs的发展，双水平差异建模方法[36]生成跨模态图像，消除像素级的差异在[33]中开发了具有对齐约束的改进版本但是图像生成过程引入了不可避免的噪声。可见红外人脸识别（VI-FR）（也称为异质FR）[9，14，27，46]与VI-ReID密切相关，目标是在两种模式下匹配人脸图像。学习与模态相关的度量或具有手工特征的词典[39，18]是流行的方法。对于深度学习，大多数方法都专注于学习可共享的多模态特征[46]，跨模态匹配模型[28]或分解表示[45]。lightCNN模型[44]被用作VI-FR [53]的强大基线。最近，设计了一种姿势对齐交叉光谱幻觉（PACH）方法[9]，用于在多个阶段分解独立因素。数据增强已广泛应用于许多不同的计算机视觉任务[20，30，47，60]。它通过各种平移来扩大训练集，例如裁剪，旋转，翻转，添加噪声，混合[55]等。随机擦除[59]应用于许多细粒度识别问题，以获得更好的泛化能力。最近，针对各种应用开发了几种自动增强技术[6]然而，这些方法中的大多数被设计用于单模态可见图像/视频。13569我T{|·· ·T {T T}我我我J∈F∈FT{|·· ··我我我我（f（xi（xj），yi，yj），（1）我J我我我我3. 拟议的信道增强跨模态可见-红外匹配的学习目标是同一类图像在不同模态下的特征保持不变。我们将原始跨模态训练集表示为=v，r。特别是，v=xvi=1，2，，Nv表示具有Nv个可见图像的可见训练集，其中每个图像Xv={XR，XG，XB}由三个通道组成，即，R，G和BR=xri=1，2，，Nr表示-红外训练图像，其中每个元素Xr是红外训练图像。图像具有单个过饱和灰度通道。交叉模态可见-红外匹配旨在学习用于可见模态的特征提取网络fv和用于红外模态1的特征提取网络fr。学习目标是优化三通道RGB空间中可见光图像的提取特征f v（x R，G，B）与单通道空间中近红外图像的特征fr（x r）之间的关系，表示为可见光图像通道交换增强红外图像图3.可见-红外人员再识别中的通道可交换增强的说明同时保持可视图像的原始纹理结构。利用通道增强图像，可见光-红外匹配的学习目标变为ΣvR，G，Br rL=（fv（xv），fr（xr），yi，yj），（3）其中，yi和yj是每个训练标签的形象是用于优化关系的目标函数，其可以是同一性损失[58]、三联体损失[15]或其变体[51]。请注意，我们在本节中提出的增强策略可以无缝集成到各种基线模型中，而无需修改学习策略或网络架构。3.1. 随机信道可交换增强通道可交换增强（ ChannelexchangeableAugmentation，CA）的基本动机是三通道彩色可见光图像包含丰富的外观信息，这些颜色信息有利于可见光-红外匹配。然而，从单通道红外图像直接恢复三通道可见光图像是相当具有挑战性的。相反，我们明确地学习匹配红外图像和可见光图像的颜色通道。具体来说，我们引入了一个通道增强策略，通过挖掘每个单独的通道（R，G或B）和单通道红外图像之间的关系。其主要思想是随机选择一个通道（R、G或B）来替换其他通道，集中在一个通道上生成新的训练图像这被公式化为x~v，R=（xR，xR，xR）其中x~v表示随机信道增强的可见光图像或其原始三通道RGB图像。简单的-信道可交换增强训练的分段是直接的，并且引入了最小的计算开销。它可以与其他基本数据增强操作（随机翻转，随机缩放和随机裁剪）无缝集成。我们使用一个单一的数据加载器来执行随机通道增强，这不会增加小批量输入的大小。在一般的图像变换函数之后，增加了随机通道增强函数.它首先从[0，1，2，3]中选择一个随机整数。该值确定是保持原始RGB图像还是如等式（1）中那样执行随机（二）、该策略不引入额外的I/O通信，并且仅略微增加变换过程中的计算成本。测试方案与标准设置相同，其中我们不包含任何额外的增强，以与现有方法进行公平比较。CA在做什么？通道增强可以被理解为通过分解颜色通道来均匀生成三通道可见图像。该策略鼓励模型f学习可见图像的每个颜色通道之间的显式和单通道红外图像。证明我我我x~v，G=（xG，xG，xG）（二）学习到的对颜色变化的鲁棒性，我们视觉-将成对正相似性得分（属于x~v，B=（x B，x B，x B）。我我我增强的一些可视化结果如图所示。3.第三章。我们观察到通道增强图像与红外图像具有相似的视觉外观1这两种模态可以共享相同的特征网络，如[7，36]所示。相同的身份）和负相似性得分分布（属于不同的身份）。4.第一章我们使用AGW [51]训练两个基线模型，有或没有通道增强。这两个模型都是在可见红外人员重新识别数据集SYSU-MM 01 [42]上的相同设置下训练的。我们评估了RGB到L=13570积极负0.60.40.20.00.2正负正负.××我我RGB-红外（等级1：49.87%）变化-红外（等级1：36.81%）4 43 32 21 10 0(a) 无通道增强RGB-红外线（排名-1：54.29%）43210变化-红外（等级-1：54.12%）43210可见光图像通道级随机擦除红外图像图5. 可见-红外人脸识别中通道级随机擦除（CRE）的图示。注意，通道级擦除图像的颜色仅用于说明。如果没有信道增强，而我们在相同的设置下实现了这0.60.40.20.00.20.60.40.20.00.2进一步证明了对颜色变化的鲁棒性(b) 带通道增强功能图4.信道增强（CA）的鲁棒性。不同训练设置下测试集中的跨模态匹配的可视化x轴表示余弦相似性得分，y轴表示10000个随机选择的正/负匹配对的每个量化的相似性仓的归一化值通过通道增强，我们观察到RGB-红外和变化-红外匹配的分离比没有通道增强的分离更好红外（左图）和变化对红外（右图）的匹配结果。对于变化到红外匹配，我们随机应用灰度变换或通道增强到RGB图像，模拟颜色变化。具体地，为10000个随机选择的正/负对计算相似性分数，其中x轴表示余弦相似性分数，y轴表示每个量化的相似性箱的归一化值.我们还报告了图中不同查询设置下的秩-1匹配精度。4.第一章从这个实验中，我们得出三个有趣的结论：1）信道增强增强了正匹配对的不变性，即，“wCA”的成对正相似性得分通常比“w/oCA”的那些大得多（图12中的“红色箱”）。4）.它表明，方差也减少时，信道增强的应用。这意味着用CA训练的模型在输入颜色变化方面更稳定。2）通道增强还引入了用于所述通道的更大差异3.2. 通道级随机擦除本节提出了一种用于可见光-红外匹配的通道级随机擦除方案。随机擦除[59]已在各种视觉任务上进行了广泛评估，以提高测试任务的通用性[25]。该算法的基本思想是在给定擦除概率的情况下，在训练图像中随机选取一个矩形区域Ie，用三个通道的随机值替换其像素值简而言之，它是一种图像级随机补丁擦除。结合通道增强，我们设计了一个通道级随机擦除（CRE）策略，以丰富的训练样本的种类。具体地，假设三通道可见训练图像的大小为W H3。我们随机选择一个矩形区域的擦除区域该擦除区域的大小以特定比率为界。与通道增强一起，我们随机选择不同通道（R、G和B）的擦除区域。在针对每个改变所选择的擦除区域Se*nel中，Sel中的每个pixel被分配给特定的预定义的值α*，其中*表示对应的信道索引。根据经验，我们选择R、G的平均值和从大规模ImageNet [8]获得的B通道作为每个通道的擦除值。通常，如下定义通道级随机擦除的公式α*，（m，n）∈ S*负匹配对，即，成对的负相似性也略微降低（图11中的“蓝色箱”）4）.xv，（m，n）=exv，（m，n），其他智慧（四）主要原因是随机颜色变化对不匹配的负样本对带来较大的外观变化，从而引入较大的方差。3）所提出的通道增强极大地提高了对颜色变化。在通道增强的情况下，该模型实现了RGB-红外和变化-红外匹配的更好分离。就秩-1准确度而言，我们观察到变化与红外线的匹配非常差（图1B中的右上角）四、其中m和n表示像素的坐标位置。α*由每个通道的平均值计算。对于一幅单通道红外图像，在通道级随机擦除过程中，我们简单地将其转换为三幅复制的单通道图像。一些具有通道级增强的可见光到近红外人脸识别任务，如图所示。五、所提出的通道级随机擦除具有两个主要优点：1）它进一步丰富了积极负0.60.40.20.00.213571LLLpIJikn∥∥−IDNi=1我我dp∈Piexp（dij）dn∈Niexp（−dik）IJIJ IJikik ik−NP伊季伊克(a) §4.1中的增强通道混合学习包含来自不同模态的图像。它直接优化了关系而不考虑模态差异。具体来说，它是恒等分类损失（id）和加权正则化三重损失（wrt）的组合[51]。身份丢失id将跨两个模态的相同身份的图像视为同一类。其代表为L=−1Nlog（p（y|f（x）;θ0）），（5）(b) §4.2中的通道增强联合学习图6.中的通道增强联合学习的比较§4.2和§4.1中的通道混合学习策略。CA：通道增强，CRE：通道级随机擦除，GA：灰度增强，FP：水平翻转。其中θ0表示在不同数据增强操作下用于通道增强的可见图像和红外图像两者的共享身份分类器。 f（xi）是用于从不同模态提取图像特征的通用函数。对于两种模态，其可以不同加权正则化三元组损失旨在优化来自模态内和跨模态关系的所有正对和负对之间的相对距离。与[15]类似，采用softplus函数进行优化，其表示为L=1ΣNlog（1+exp（Σwp dp−Σwndn）），通道级，为跨模态特征表示学习提供更丰富的监督与沟道增强一起，擦除的图像极大地放大了沟道增强。wrtNi=1IJij ijikikik（六）训练样本集2)被擦除的图像还提高了对图像噪声的鲁棒性，例如，部分闭塞，IM-完美的侦查这两种增强都很容易wij=Σexp（dp）pIJ，wik=Σexp（dn）n个，ik实施并持续改进绩效。其他增强。考虑到灰度变换（GA）也可以作为将三通道RGB图像转换为单通道灰度图像的简单基线[52]，我们建议将随机灰度变换作为增强补充操作，增强对可见光-红外识别颜色变化的鲁棒性。此外，我们还评估了一个随机的水平翻转（FP）操作，以AD-Dress的视点变化的人识别。4. 跨模态度量学习本节介绍了两种跨模态度量学习策略，第4.1节中的增强通道混合学习和第4.2节中的通道增强联合学习。图1示出了一个示例。六、4.1.增强的通道混合学习基线。一般跨模态匹配模型通常应用双向三元组变体来指导跨模态特征学习[23，38，49]，优化跨模态正对和负对之间的相对距离然而，该策略不能有效地解决模态内变化。要同时处理其中（i，j，k）表示针对每个锚样本xi的每个训练批次内的三元组。注意，j和k可以来自通道混合学习策略中的相同模态或不同模态。对于锚x i，i是对应的正集合，i是负集合。dp/dn表示正/负样本对的成对距离。 d ij是两个样本之间的欧几里得距离，由dij= f（x i）表示f（x，j）2。使用softmax函数的加权策略大大增加了硬样本的贡献更大（更小）的距离为阳性（阴性）。与硬三元组挖掘[15，43]不同，我们提出的策略通过自适应地考虑它们的贡献来充分利用每个批次内的所有采样三元组。同时，它直接优化了模态内和模态间学习的正负对之间的相对距离，从而对变化具有更强的鲁棒性。增强的平方差。测量对距离差的广泛使用的技术是1范数[29，31，34]，如等式10所示。六、本文介绍了一种增强的平方差法。基本思想是优化平方差而不是1范数差，表示的L=1ΣNlog（1+exp（n[nnp−nn]）），通道混合学习策略，构建`ixCNN增强系统FCRE，GA，FP.CA，CRE，GA，FP.CACRE，GA，FP.CNN增强系统FCRE，GA，FP.CRE，GA，FP.内部和跨模态的变化，本文首先采用平方Ni=113572边际三胞胎→容易三胞胎软加平方Softplus−Σ∈ −−IJ∈ −IJikik一个平方变量。以证明ik ikIJIJ IJikik ik嗯。因此，该贡献应该是-ΣΣΣ修改网络结构。同号105 1 01利用来自原始可见光和红外模态的图像，我们提出的策略制定了一个三模态联合学习框架，如图所示。第6（b）段。与§4.1中的增强通道混合学习类似，我们使用身份丢失和增强加权正则化三重丢失的组合作为训练目标，表示为L=Lid+ Lsq。（八）图7.的增强平方差的图示softplus。我们观察到，它增加了边际三元组（Σwp dp−Σwn dn）∈[−1，0]，而减少三胞胎的影响（wndn）−ikwpd pIJ主要区别在于通道增强图像充当附加模态，但是它们与红外和可见光图像共享相同的识别分类器。这条线-egy可以强制模型专注于学习模式-IJijijiΣkikikΣ<1.一、这近似于大间隔度量学习的思想[40]，但我们的设计不需要额外的裕度参数。.µ 2， µ i> 0，我不变特征表示。作为替代方案，我们还尝试为不同的模态应用单独的分类器[10]，但它并没有带来持续的改善。同时，其他先进的跨通道匹配模型也可以[µi]=ik wndn我− µ2， µ i<0。Σ（七）p p被集成以改进特征学习过程。讨论通道增强联合学习策略上述公式取代了原来的ijwijdij−EGY充分利用信道增强图像，而不对改性后的试样进行了曲线softplus函数和增强平方版本在图7中。从几何角度来看，它有三个主要优点：• 它增加了边际硬三元组（µi[ 1，0]）在整体学习目标中的贡献。这些边缘三元组已经满足约束wpdp wn dn，但是它们的可辨别性可见光和红外输入图像，它需要大的内存。理论在培训过程中，但它保持相同的标准测试阶段的设置。另一个好处是，该策略制定了一个大的批量大小，提供更多的信息硬样本的跨模态特征学习。大量的实验验证了一致性由于在总体上的贡献仍然有限，模型缩小了。平方运算略为了更强的可辨别性而扩大差异，但不需要额外的超参数。• 它还降低了易三重峰（µi1）的影响。这些三元组已经满足了约束条件，并且差异相对较大，即，w pd p+5. 实验结果5.1. VI-ReID实验我们首先在可见-红外人员重新识别（VI-ReID）任务上评估我们提出的模型，包括两个公共数据集（SYSU-MM 01 [42]和RegDB [26]）。在[42，49]中的设置之后，rank-k匹配accu-1Σ

下载后可阅读完整内容，剩余1页未读，立即下载