概率加权紧凑特征学习：解决域自适应图像检索中的跨域差异问题

46 浏览量更新于2023-10-23 收藏 12.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

...Single-domain retrievalCross-domain retrieval95820用于域自适应检索的概率加权紧凑特征0黄福祥1，张磊1（�），杨洋2，周西川101 学习智能与视觉基础（LiVE）小组 1 重庆大学微电子与通信工程学院，中国 2中国电子科技大学0{ huangfuxiang，leizhang } @cqu.edu.cn，dlyyang@gmail.com，zxc@cqu.edu.cn0摘要0域自适应图像检索包括单域检索和跨域检索。大多数现有的图像检索方法只关注单域检索，即假设检索数据库和查询的分布相似。然而，在实际应用中，检索数据库通常采用理想的光照/姿态/背景/相机条件，而查询通常在不受控制的条件下获取，两者之间的差异非常大。在本文中，考虑到实际应用，我们专注于具有挑战性的跨域检索。为了解决这个问题，我们提出了一种有效的方法，名为概率加权紧凑特征学习（PWCF），它提供了跨域检索准确性的域间相关性指导，并学习一系列紧凑的二进制码来提高检索速度。首先，我们通过最大后验估计（MAP）推导出我们的损失函数：贝叶斯透视（BP）引导的三元组损失、BP引导的量化损失和BP引导的分类损失。其次，我们提出了一个共同的流形结构来探索跨域之间的潜在相关性。考虑到原始特征表示由于域间差异而存在偏差，流形结构很难构建。因此，我们从样本统计的角度提出了一种新的特征，称为邻居的直方图特征（H-FON）。对各种基准数据库进行了广泛的实验验证，证明我们的方法在域自适应图像检索方面优于许多最先进的图像检索方法。源代码可在https://github.com/fuxianghuang1/PWCF 上获得。01. 引言0域自适应图像检索问题，包括单域检索和跨域检索，对于许多实际应用来说是一个重要的任务。0数据库查询返回0图1.我们的动机说明。许多先进的方法在解决单域检索问题时取得了出色的性能，但在用于跨域检索时性能显著下降。在实践中，查询和数据库通常来自不同的领域，因此解决跨域检索问题是必要的。0域检索是一种图像检索问题，其中查询和数据库都来自同一领域。相反，跨域检索意味着查询和数据库可以来自不同的领域，这在实际应用中更加灵活和适用。在实践中，检索数据库通常采用理想的光照/姿态/背景/相机条件，而查询通常在不受控制的条件下获取，这导致数据库和查询之间存在很大差异。例如，移动产品图像搜索[5]旨在基于手机相机在不受限制的场景中拍摄的照片，识别产品或从在线购物领域检索类似产品。然而，如图1所示，大多数现有方法只关注单域检索，并且在处理跨域检索时性能迅速下降。很少有人提出解决跨域检索问题的解决方案。DARN[10]将属性和视觉相似性约束同时集成到检索特征学习中，以解决跨域检索问题。然而，属性通常是不足的，而且对高维特征进行排序需要大量计算，导致检索速度慢。最近，由于二进制码的低存储和高计算效率，哈希算法已经成为一种流行的方法。95830源领域图像0目标领域图像特征提取0CNN0紧凑性0Xs0Xt0基于BP的分类损失0Hs0Ht0邻居的直方图特征0基于BP的焦点三元组损失0基于HOFN的流形损失0基于BP的量化损失0图2. PWCF的示意图，包括四个部分：1）基于BP的焦点三元组损失，2）基于BP的分类损失，3）基于BP的量化损失，4）基于邻居直方图特征的流形损失。0广泛应用于许多应用程序[6, 8, 13, 15, 24, 26, 30, 33,36]。哈希的目标是将样本的高维内容特征映射到Hamming空间（二进制空间），并生成一组低维二进制编码来表示样本。因此，数据存储的成本可以大大降低，使用二进制操作（XOR）的汉明距离可以提高检索速度。0然而，大多数现有的哈希方法[14, 16, 18, 19, 21, 23, 29,34]假设检索数据库和查询的分布相似，而忽略了领域间的差异性，这使得它们难以准确地捕捉跨领域样本之间的相关性。因此，尽管大多数现有的哈希方法在单领域检索方面取得了显著的性能，但在查询和数据库来自不同领域时，它们的性能表现较差。0为了解决上述问题，我们提出了一种有效的域自适应图像检索方法，名为概率加权紧凑特征学习（PWCT），它考虑了来自不同领域样本之间的相似性/差异性关系，以学习紧凑的二进制特征表示。受到迁移学习（TL）[27]的启发，我们在不同领域之间转移知识，利用不同领域之间的知识和探索跨领域样本之间的相关性。我们的目标是使用可用的标记数据作为源领域，帮助我们学习投影矩阵并获得更具辨别力的二进制编码。与将源领域数据简单地添加到扩展训练集以在目标领域中获得更好检索的现有迁移哈希方法[37,20]不同，我们专注于探索样本之间的相关性和领域之间的数据分布差异，以在跨领域检索中实现良好的性能。为了提高跨领域检索的性能，我们从贝叶斯角度提出了我们的损失函数。具体而言，我们通过寻求最大后验估计（MAP）解来推导我们的损失函数：基于BP的焦点三元组损失、基于BP的量化损失和基于BP的分类损失，以促进样本之间的相关性。0在Hamming空间中，来自不同领域的样本可以确保二进制编码的区分度，并减少由量化引起的信息误差。此外，考虑到不同领域之间的潜在流形结构对于捕捉不同领域之间有意义的最近邻关系非常有帮助，我们提出了一个共同的流形来捕捉源领域和目标领域中固有的邻域结构，进一步确保不同领域之间的相关性在Hamming空间中得以保留。然而，以原始内容特征来衡量来自不同领域的样本之间的相似性是困难的。不同领域中相同类别的样本可能不接近，这是由于领域间的差异性所致。为了解决这个问题，我们考虑各个领域中每个样本的k个最近邻的分布特征，并从样本统计的角度提出了一种新的统计特征，称为邻居的直方图特征（HFON），以减少领域之间数据分布差异的影响。本文的主要贡献和创新总结如下：0•在本文中，我们提出了一种名为概率加权紧凑特征学习（PWCF）的有效领域自适应图像检索方法，以实现快速准确的检索。图2显示了我们PWCF的框架。据我们所知，我们是第一个提出一个新的实用的跨域自适应检索问题的方法。0•我们提出了名为BP诱导的焦点三元组损失、BP诱导的量化损失和BP诱导的分类损失的损失函数，寻求最大后验估计（MAP）解，探索来自不同域的样本之间的相似性/不相似性，确保区分性并减少信息误差。0•在我们的PWCF中，我们从统计学的角度提出了一种邻居直方图特征（HFON），以减少域差异的影响和一个(2)(4)95840基于HFON的共同流形结构，进一步保持来自不同域的样本之间的相关性。0•我们进行了大量实验，使用各种基准数据库。实验结果验证了我们的方法在跨域检索和单域检索方面优于许多最先进的图像检索方法。02.概率加权紧凑特征学习02.1.符号和定义0假设我们有nt个目标样本未标记Xt = {xti}nti=1 ∈ Rd ×nt和ns个源样本标记Xs = {xsi}nsi=1 ∈ Rd × ns。Ys ={ysi}nsi=1 ∈ Rc × ns，其中ysi ∈ Rc ×1是标签向量，其中最大项表示xs i的分配类别。我们表示X= [Xt, Xs]和n = nt +ns。我们的目标是学习一组紧凑的二进制编码Bt ={bti}nti=1 ∈ {-1, 1}r × nt和Bs = {bsi}nsi=1 ∈ {-1, 1}r ×ns来表示样本，其中bti是xti的相应二进制编码，bsi是xsi的相应二进制编码。d和r分别表示每个样本的原始内容特征维度和二进制编码的长度。在PWCF中，源域和目标域的数据都用于学习投影W ∈ Rd ×r。然后，r维特征（即二进制编码的连续实值）表示为fi =W�xi。二进制编码被量化为bi = sgn(fi) ∈ {-1, 1}r ×1。这里sgn(v)是符号函数，如果v ≥0则返回1，否则返回-1。在本文中，∥∙∥是向量的ℓ2范数，矩阵的Frobenius范数。02.2.紧凑性：贝叶斯视角0为了达到更高的准确性，我们希望探索不同样本之间的相关性。给定一个三元组(xi, xj, xk) ∈X，令sij表示xi和xj之间的成对相似性。sij =1表示它们具有相同的标签。相反，sij =0表示它们具有不同的标签。不失一般性，令p(fi, fj, fk | sij,sik)为三元组样本集xi, xj, xk的特征表示fi, fj,fk的后验概率。这里我们假设fi, fj, fk分别是样本xi, xj,xk的r维特征。在每对的条件独立性和贝叶斯公式的假设下，三元组训练集的联合后验概率密度函数可以一般地表示为：�0i,j,k ∈ X p(fi, fj, fk | sij, sik) �0i,j,k ∈ X p(sij, sik | fi, fj, fk) p(fi) p(fj) p(fk) (1)0其中 p(sij, sik | fi, fj, fk) 是似然概率，p(fi),p(fj)和p(fk)是r维特征的先验概率。我们假设似然概率密度函数为指数分布，考虑到指数分布已经显示出快速收敛到稳定状态的特点。设dij = ∥fi - fj∥2和dik = ∥fi -fk∥2。考虑到样本对的相似性，似然概率密度函数表示为：0p ( s ij , s ik | f i , f j , fk ) 0e -| d ij - d ik + m | , if s ij = 1 , s ik = 0e -| - d ij + d ik + m | , if s ij = 0 , s ik= 1 e -| d ij + d ik | , if s ij = 1 , s ik = 1e -| - d ij - d ik | , if s ij = 0 , s ik = 00= e - | ( - 1) sij d ij + ( - 1) sik d ik + α ∙ m |0其中 s ij = - s ij ，α = s ij ⊕ s ik ，⊕ 是异或操作，m是边界。这样设置的目的是使同一类别的样本更接近，不同类别的样本更远。我们的目标是从贝叶斯角度寻找方程（1）的最大后验估计（MAP）的解。为了减轻硬对的似然概率对后验概率最大化的影响，我们在似然概率中添加一个调制因子 ω ijk ，其中 ω ijk = (1 - p ( s ij , s ik | f i , f j , f k )) γ，γ ≥ 0。换句话说，调制因子减少了易对的贡献，并对那些困难对进行更多的惩罚。为了方便起见，具有大（小）距离的相同（不同）标记样本被称为困难对，具有小（大）距离的相同（不同）标记样本被称为易对。此外，考虑到量化损失和二进制编码的区分性，先验概率写为 p ( f i ) = e - θd ( b i ,f i) ∙ e - λ 1 d ( y i , C � b i ) ∙ e - λ 2 ∥ C ∥ 2 ，其中 θ ，λ 1和 λ 2 是超参数，C是一个分类器，我们将在分类损失中讨论细节。通过取自然对数，我们的目标函数可以写成：0max0i,j,k ∈ X ω ijk log p ( s ij , s ik | f i , fj , f k ) +0i ∈ X log p ( f i 0j ∈ X log p ( f j 0k ∈ X log p ( f k )(3)0在优化中，我们考虑正样本和负样本都存在的情况。为了构建三元组，我们可以将 x i 设为锚点，x j 与锚点相似，x k与锚点不相似。然后方程（3）为：0min0i,j,k ∈ X (1 - e [ d ij - d ik + m ] + )[ d ij - d ik + m ] +0+ θ0i ∈ X d ( b i , f i ) 10i ∈ X d ( y i , C � b i ) + λ 2 ∥ C ∥ 2X(1 − e[dij−dik+m]+)[dij − dik + m]+ =ωimmd(bi, fi) =d(yi, C⊤bi) =95850其中 [ x ] + 表示 max( x, 0) 运算符，它确保 p ( s ij , s ik | fi , f j , f k ) ∈ (0, 1] 并改善收敛性。显然，如果没有 max(x, 0)，指数概率在方程（2）中的概率可能大于1。因此，在方程（4）中，max( x, 0)自然地具有明确的概率解释。BP引导的焦点三元组损失。方程（3）中的第一项是标准三元组损失的变体，称为BP引导的焦点三元组损失。如果我们枚举所有的样本对，训练时间会很长。因此，我们只选择一些跨域三元组，这些三元组在促进跨域相关性方面更加有效。换句话说，我们在训练之前构建跨域三元组。具体而言，对于每个样本，如果它来自源域，我们从目标域中选择一个正样本和一个负样本。否则，如果它来自目标域，我们从源域中选择一个正样本和一个负样本。由于目标域中没有标签，我们首先使用源域数据通过KNN算法预测目标域的伪标签。我们可以得到n个跨域三元组。为了便于理解，让我们用（ x g i , x g i,p , x g i,n ），i∈ [1, n] 表示所有选定的三元组，其中 g 和 g来自不同的域。如果 g ∈ X s ，那么 g ∈ X t 。否则，如果g ∈ X t ，那么 g ∈ X s。然后，BP引导的焦点三元组损失可以写成：0T ri = 矩阵0N0|| W � x g i − W � x g i,p || 2 − || W � x g i − W � x g0+ (5) 其中 ω i 是第 i 组选择的三元组的权重，ω i = 1 − e− λ || W � x g i − W � x g i,p || 2 − || W � x g i − W � x g i,n |2 + m λ .0如图3所示，焦点三元组损失是标准三元组损失的一种变体，通过减小易对和增大难对的权重，对不同的三元组赋予不同的重要性。在训练阶段，我们选择满足最大化类内距离和最小化类间距离的难三元组，以提高训练速度。考虑到不同域中的数据分布差异，来自不同域的原始内容特征的欧氏距离可能无法衡量样本的相似性。因此，我们使用邻居直方图特征而不是原始内容特征来计算跨域样本的距离。邻居直方图特征将在下一节中详细解释。0BP引起的量化损失。方程（4）中的第二项被称为BP引起的量化损失，旨在减少二进制码与通过映射获得的低维特征表示之间的量化误差。0标准三元组焦点三元组0锚点0正样本0负样本0锚点0正样本0负样本0λ = 0.80图3.提出的BP引起的焦点三元组损失的示意图：标准三元组通过相同的力（权重）使正样本靠近锚点，负样本远离锚点。然而，在这种情况下，正样本和负样本可能无法分离，导致训练不稳定。为了解决这个问题，我们的BP引起的焦点三元组损失可以减小易对的权重并增大难对的权重，从而最小化与跨域正样本的距离并最大化与跨域负样本的距离。0量化（即二进制码的连续实值）。BP引起的量化损失可以表示为：0Q =矩0n0|| b i − W � x i || 20= || B t − W � X t || 2 + || B s − W � X s || 2(6)0BP引起的分类损失。方程（4）中的第三项被称为BP引起的分类损失。受SDH[28]的启发，我们认为好的二进制码应具有良好的区分性。我们利用标签信息训练一个分类器 C ， C � b i 表示第 i个样本的预测标签。我们希望使用二进制码尽可能真实地预测标签。在本文中，为了避免伪标签的负面影响，我们在计算分类损失时仅使用源域样本。BP引起的分类损失可以表示为：0C =矩0n0|| y i − C � b i || 20≈ || Y s − C � B s || 2 (7)0正则化 ∥ C ∥ 2，即方程（3）中的最后一项，用于避免平凡解和过拟合。02.3. 基于邻居直方图特征的流形损失0我们认为单个域中样本的最近邻关系是规则的。换句话说，如果来自不同域的两个样本相似，它们各自域中邻居的类别应该是相似的。基于这个假设，我们提出了一种名为邻居直方图特征（HFON）的统计特征，以减少域差异。具体来说，我们使用 h i ∈ R c × 13/61/62/6Class3/61/62/6Classiji3 1 2[, ]6 6 6h ��j3 1 2[ , , ]6 6 6h �ji��to represent the HFON vector of xi and c is the numberof classes.We ﬁnd k nearest neighbors of each samplein their respective domains and calculate the probability ofeach class of these nearest-neighbor samples. The ath el-=n�i=1n�j=1(8)the domain disparity, let Zij = e− ∥xi−x ∥2∥hi−hj∥2G=W(t+1) = W(t) −95860概率0概率0ij 0 || || i j h h d � � � � 图4.提出的邻居直方图特征（HFON）的示意图：我们使用不同的形状来表示不同类别的样本，源域和目标域的样本分别用实心和空心形状表示。i 和 j属于同一类别，但距离较远。为了更准确地衡量跨域样本的相似性，我们根据域中的邻居关系提出了邻居直方图特征。例如，我们在各自的域中找到 i 和 j的6个最近邻居，并计算这些最近邻样本的每个类别的概率。HFON向量由这些概率组成。然后，不同域中相似样本的HFON距离接近。0其中 a ∈ [1, c]，ni a 表示第 i 个样本的 k个最近邻居中属于类别 c的样本总数。图4显示了邻居直方图特征的详细信息。不同域之间的底层流形结构对于捕捉不同域的有意义的最近邻非常有帮助。因此，我们希望通过利用局部相似性来保持共同的流形结构。为了减小不同邻居样本之间低维特征的表示误差，流形损失可以写成：0M = 0i,j ∈ X ∥ fi − fj ∥ 2 Z ij0�� W � xi − W � xj �� 2 Z ij0= W � XLX � W0与 LPP [9] 类似，L = D − Z 是拉普拉斯矩阵，D ii = �0i Z ij。这里 Z 是一个稀疏对称的 n × n 矩阵，其中 Z ij表示连接 xi 和 xj的边的权重，如果没有这样的连接，则为0。为了减少0σ2 当 xi 和 xj0当 xi 和 xj 来自不同的域时，σ2 表示 xi 和 xj 的 HFON（与xi 和 xj相关的高频特征）的距离。总体目标函数。最后，整体目标函数为：0目标函数被重写为：0min W, C, B t, B s T ri + θ Q + λ 1 C + λ 2 ∥ C∥ 2 + λ 3 M0s.t. W � W = I, B t = sgn(W � Xt), B s = sgn(W � Xs) (9)其中约束条件 W � W = I 用于使 W成为正交投影，以保证二进制编码的区分性。02.4. 优化0在本文中，我们采用交替优化过程来迭代优化 W，C，B t和 B s。由于非凸的 sgn(∙) 函数使得方程（8）成为一个NP-hard 问题，我们将 sgn(x) 函数放松为其带符号的大小x [20]。W 步骤。给定 C，B t 和 B s，更新 W是一个具有正交性约束的典型优化问题。令 G为目标函数方程（9）对 W 的偏导数，表示为：0i ∈T + ω i ((xgi − xgi,p)(xgi − xgi,p) � − (xgi −xgi,n)(xgi − xgi,n) �) W0+ 2 θ (X t X � t W − X t B � t + X s X � s W − X s B � s)0+ 2 λ 3 XLX � W (10) 其中 T +包含所有选择的跨域三元组和 �� W � xgi − W � xgi,p �� 2 − �� W �xgi − W � xgi,n �� 2 + m ≥0。基于[35]中的正交约束优化过程，我们可以定义一个反对称矩阵[1] A = GW � − WG �。然后，我们采用类似于 CrankNicolson 的方案来更新正交矩阵 W02 A � W (t) + W (t +1) � (11)0其中τ表示步长。我们经验性地设置τ=0.1。通过求解方程(11)，我们可以得到0W(t+1)=QW(t) (12)02A)。我们根据公式(12)使用Barzilai-Borwein(BB)方法[35]迭代更新W多次。此外，请注意，在迭代优化W时，初始W设置为上一轮中更新的W。对于第一轮，W通过PCA进行初始化。C步骤。给定W、Bt和Bs，将目标函数的偏导数为零，我们推导出0C=λ1BsB�s+λ2I−1λ1BsY�s (13)0Bt步骤。给定W、C和Bs，通过放松符号函数sgn(.)获得解。0Bt=sgn(W�Xt) (14)95870Bs步骤。给定W、C和Bt，通过放松符号函数获得哈希码的近似解。0Bs=sgn(θI+λ1CC�)−1(θW�Xs+λ1CYs)0(15) 提出的算法的详细描述见算法1。0算法1 PWCF学习0输入：训练样本X=[Xt,Xs]和源标签Ys；编码长度r；最大迭代次数T；邻居数k；参数θ、λ1、λ2和λ3；输出：W、C、Bt和Bs；1：通过使用(Xs,Ys)训练的KNN获得目标域的伪标签；2：分别计算目标域和源域的HFON；3：构造跨域三元组：(xgi,xgi,p,xgi,n)，i∈[1,N]；4：通过PCA将W初始化为XX�的前r个特征向量，Bt和Bs分别为随机二进制矩阵。05：循环直到收敛或达到最大迭代次数：W步骤。通过求解方程(12)更新W；C步骤。通过求解方程(13)更新C；Bt步骤。通过求解方程(14)更新Bt；Bs步骤。通过求解方程(15)更新Bs。0计算复杂度：由于硬三元组和拉普拉斯矩阵可以预先计算，我们在算法1中的PWCF的总计算成本为O(T(n(d^2r+dr)+3d^2r+nsr^2c+ntdr+ns(r^2c^2+r^2cd)))，与样本数量成线性关系，其中n=ns+nt。在实践中，T、d、r和c都远小于n。因此，二进制编码学习是高效的。03. 实验03.1. 实验设置0数据集：我们在四组基准数据集上进行实验：0• MNIST [17]和USPS[11]是两个著名的手写数字数据集，共享0到9的十个手写数字。根据[25]，每个图像被调整为16×16。我们将MNIST作为源领域，USPS作为MNIST&USPS数据集的目标领域。0• VLCS[31]数据集汇集了来自Caltech101、LabelMe、PascalVOC2007和SUN09的照片，提供了一个包含五个常见类别（鸟、汽车、椅子、狗和人）的5路多类别基准。在我们的实验中，每个图像由一个4096维CNN特征向量[4]表示。我们使用VOC2007数据集。0在VOC2007&Caltech101数据集中，包括3376张图像作为源领域，Caltech101数据集包含1415张图像作为目标领域。0• Cross-dataset Testbed[3]是一个基于Decaf7的跨数据集图像分类数据集，包含来自3个领域的40个图像类别：Caltech256中的3847张图像，ImageNet中的4000张图像和SUN中的2626张图像。在我们的实验中，每个图像由一个4096维CNN特征向量[4]表示。Caltech256被用作源领域，ImageNet被用作Caltech256&ImageNet数据集的目标领域。0•Of�ce-Home数据集[32]包含来自4个不同领域的图像：艺术图像（即绘画、素描和/或艺术描绘）、剪贴画图像、无背景的产品图像和真实世界图像（即使用相机拍摄的常规图像）。对于每个领域，数据集包含通常在办公室和家庭环境中找到的65个对象类别的图像。在我们的实验中，每个图像都由VGG-16表示为4096维特征。分别将每个领域用作源领域和目标领域。0实现细节：我们选择了11种最先进的哈希方法，包括SH[34]，ITQ [7]，DSH [14]，LSH [2]，SGH [12]，OCH[19]，GTH [20]，ITQ+ [37]，LapITQ+ [37]，KSH[22]和SDH[28]作为基线。我们使用这些方法的对应作者的公开代码和建议的参数。对于我们的P-WCF，我们将 θ 设置为1e2， λ1 设置为1， λ 2 设置为1e3， λ 3设置为1e4。对于无监督方法，我们在训练阶段使用包括源领域和目标领域的所有训练样本。为了公平比较，我们引入了一种只使用目标领域训练ITQ模型的NoTL方法。对于有监督方法，我们使用源领域的训练样本和标签进行训练。所有方法使用相同的训练集和测试集。具体来说，对于每个数据集，我们随机选择500个目标领域图像作为测试集（查询），其余图像作为训练集。在测试阶段，使用类标签来确定返回给定查询的样本是否被视为真正的正样本。此外，使用广泛使用的准则，即平均准确率（MAP），作为性能指标。为了消除采样的随机性，我们重复每个算法10次，并报告它们的MAP均值。我们还展示了精确率和召回率曲线。为了验证我们的方法在领域自适应检索场景中的性能，我们报告了在MNIST&USPS、VOC2007&Caltech101和Caltech256&ImageNet数据库上的跨领域检索和单领域检索的检索性能，其中编码长度分别设置为16、32、48、64、96和128。对于跨领域检索，源领域和目标领域的训练样本被用于训练。MNIST&USPSVOC2007&Caltech101Caltech256&ImageNetBit163248649612816324864961281632486496128NoTL28.1330.0528.2430.3431.7631.7235.9537.8638.2838.4938.6738.9715.1019.7722.8024.3926.0727.28SH15.7113.8512.0511.7811.3811.7829.9430.2632.5133.7632.5933.0310.3711.6712.1711.8812.6712.89ITQ27.3830.9231.4432.2533.1233.4440.1339.6339.4539.9839.2739.8916.9422.0024.4426.2127.9628.89DSH21.1527.5329.7126.1326.6028.9440.9742.0343.0645.8143.7842.868.279.6011.5512.3413.5615.64LSH16.2516.9923.2320.3819.7026.9833.4033.9934.0332.8934.1234.505.366.7210.3912.7115.6017.08SGH24.8324.7825.8527.7828.2629.3535.7734.0633.6033.1132.7532.4112.4917.2320.3421.7524.4625.42OCH18.9425.7326.7326.3427.8829.2271.5072.2772.6572.7169.1768.9111.5615.3617.4920.1822.0022.90ITQ+20.2720.5316.7715.8717.7914.9035.3534.4834.3334.4234.0534.74––––––LapITQ+26.3826.3124.9124.6122.0421.3338.9538.4339.6439.3539.3338.76––––––GTH19.1024.1724.2724.3823.6429.3636.7038.9537.2337.8737.7038.3611.5614.7916.9719.5320.8822.38KSH43.7546.9150.0247.4345.2546.8174.7476.0576.7176.7076.2273.1420.3412.0726.7732.8335.2834.49SDH29.9843.0242.5746.5642.4048.1267.6065.7568.5865.0665.6667.0318.0525.7126.2326.3826.7726.29PWCF47.4751.9951.4451.7550.8953.9579.3880.4279.2479.3178.1578.8722.4630.5835.2935.2438.9240.32MNIST&USPSVOC2007&Caltech101Caltech256&ImageNetNoTL67.2269.3170.5270.7871.6471.8898.1298.1398.3698.3698.5898.8215.1220.5022.6624.2225.95427.43SH47.0749.1949.2449.6449.6949.0366.5664.4466.3968.3967.2966.1210.4411.3312.2812.2412.8513.51ITQ63.3769.9669.5370.1971.2271.5999.0399.1599.0999.1099.1499.1915.9620.5723.0724.1626.3927.63DSH45.7654.2358.0359.9261.8063.5094.5893.8895.9397.0797.9397.868.0910.2111.8312.8915.4315.15LSH47.2155.6359.8160.5460.8162.9061.1765.6979.2584.7688.8188.195.156.8710.2212.6315.3717.38SGH58.4163.6164.6965.7966.5566.8186.0686.7088.4988.6891.1891.7112.3716.7519.5420.9023.3724.93OCH53.5658.4960.4863.9666.2965.3989.3697.4798.3098.4598.7199.2110.1115.0517.4719.5820.7022.31ITQ+41.8737.9437.0037.2335.1934.8864.1559.0056.9456.1254.7452.61––––––LapITQ+54.2155.6453.6652.5851.5649.8070.5369.0867.9566.3269.4967.59––––––GTH53.2058.7862.1763.2362.9460.5990.2582.7292.9393.7394.3387.4411.7315.0217.6719.2120.8721.90KSH26.0637.1142.5741.8940.8938.0796.9891.9093.0392.5896.2795.8616.2011.2319.8825.6428.0729.58SDH50.3254.2057.2957.4860.6460.7688.4986.5488.2787.2889.1189.2413.9218.7221.2021.6422.7423.94PWCF69.3770.7070.9471.6473.5173.8999.6799.6199.7799.6699.3399.5821.9626.5628.7529.9132.9234.96NoTL25.0229.0916.9814.7327.3821.0522.38SH15.0116.8210.388.3214.5212.4112.91ITQ26.3229.1317.6015.8826.8621.9922.96SDH8.867.726.446.1510.079.118.06LSH10.7414.789.858.3712.2410.0211.00SGH24.1226.4716.1014.1422.8220.4120.68OCH20.0620.2310.9710.6119.3515.3216.09ITQ+17.94–10.61––15.1614.57LapITQ+15.94–11.72––13.5213.83GTH19.4022.8012.2712.0320.9816.4717.33KSH32.0234.4221.5618.5125.8720.0425.40SDH25.7527.9015.9716.7232.0622.7923.53PWCF34.0334.4424.2218.4234.5728.9529.1100.20.40.60.8NoTLSHITQDSHLSHSGHITQ+LapITQ+GTHOCHKSHSDHOurs00.10.20.30.40.50.6NoTLSHITQDSHLSHSGHITQ+LapITQ+GTHOCHKSHSDHOurs95880Table 1. 在MNIST&USPS、VOC2007&Caltech101和Caltech256&ImageNet数据库上，对于跨领域检索，使用不同的编码长度从16到128的MAP得分（%）。0表2.单域检索中，对MNIST&USPS、VOC2007&Caltech101和Caltech256&ImageNet数据库进行变长编码从16到128的MAP得分（%）。0位数 16 32 48 64 96 128 16 32 48 64 96 128 16 32 48 64 96 1280主要用作检索数据库。对于单域检索，使用目标域的训练样本作为检索数据库。为了进一步证明我们的通用性和跨域检索性能，我们在Of�ce-Home上进行了大量实验。为了简单起见，将艺术图片、剪贴画图片、产品图片和真实世界图片分别替换为A、C、P和R。A →C表示艺术是源域，剪贴画是目标域。03.2. 实验结果0在表1中，我们报告了MNIST&USPS，VOC2007&Caltech101和Caltech256&ImageNet上所有比较方法和我们的PWCF的MAP得分（%），用于跨域检索。显然，在大多数情况下，我们的PWCF在所有数据库上都优于比较方法。为了进一步证明我们方法的有效性，我们进行了单域检索的实验评估。结果如表2所示。我们可以看到，无论是在跨域检索还是单域检索中，我们的方法都优于比较方法。在表3中，我们报告了Of�ce-Home上所有比较方法和我们的64位PWCF的MAP得分（%）用于跨域检索。然而，我们可以看到，无论源域和目标域如何设置，我们的方法都表现出色。0表3.在Of�ce-Home数据库上，使用64位进行跨域检索的MAP得分（%）。P → R表示产品是源域，真实世界是目标域。0P → R R → P C → R R → C A → R R → A 平均00 200 400 600 800 1000 检索样本数量0召回率@64位00 200 400 600 800 1000 检索样本数量0精确率@64位0(b) 图5.在64位的情况下，对Product →Real进行跨域检索时检索样本数量的影响。1.9822.022.042.062.082.12.125.75.85.966.195890表4.在码长从16到128变化的情况下，对MNIST&USPS数据库进行跨域检索或单域检索的MAP得分(%)。0跨域单域0位数 16 32 48 64 96 128 16 32 48 64 96 1280PWCF 47.47 51.99 51.44 51.75 50.89 53.95 69.37 70.70 70.94 71.64 73.51 73.89 PWCF-T 45.13 48.76 50.02 50.5750.66 51.43 51.45 62.18 68.25 69.91 71.62 72.81 PWCF-F 44.07 45.40 47.58 50.01 5

下载后可阅读完整内容，剩余1页未读，立即下载