关联高斯过程用于跨领域视觉识别

169 浏览量更新于2023-10-15 收藏 12.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1180关联高斯过程用于跨领域视觉识别0Chengjiang Long Kitware Inc. 28 CorporateDr, Clifton Park, NY, USA 120650chengjiang.long@kitware.com0Gang Hua Microsoft Research AsiaHaidian District, Beijing, P.R. China 1000800ganghua@gmail.com0摘要0我们提出了一个概率模型，用于在图像集合和多个领域中捕捉高阶共现统计的联合视觉识别。更重要的是，我们通过相关联每个单独领域中多类别高斯过程分类器的输出来预测跨多个领域的结构化输出。我们采用一组关联张量来建模单个领域内以及跨多个领域之间的关系。这使得我们可以探索高阶关系模型，而不仅仅使用一组成对关系模型。这些张量关系基于不同类别的视觉实例在多个领域中的正负共现。这与大多数先前的模型不同，先前的模型只探索了成对关系。我们在四个具有挑战性的图像集合上进行了实验。实验结果明确证明了我们提出的模型的有效性。01. 引言0跨领域视觉识别问题最早在[33]中被明确提出，尽管许多先前的工作[29, 3, 40, 4, 36, 37, 38,7]也隐含地解决了部分这样的问题。在这样的问题中，通过联合公式同时解决不同语义领域中的多个视觉识别问题，而不是独立处理它们。这是基于不同领域之间的语义与相同的视觉实体相关联的直觉，因此它们之间存在内在的相关性，以促进所有这些视觉语义的联合推理。例如，我们可以解释来自人物、位置和事件领域的每张照片，然后利用估计的跨领域相关性来提高每个领域中的识别准确性，例如人物领域中的人脸识别。为了更好地解决跨领域视觉识别问题，我们提出了一个概率框架，即关联高斯过程分类器（CGPC），用于联合。0基于多个领域中不同实例的共现统计，我们提出了一种概率模型，用于在图像集合和多个领域中进行联合视觉识别。通过相关联每个单独领域中的高斯过程分类器的输出，并将联合视觉识别问题形式化为结构化预测问题。我们选择高斯过程是因为它（1）是一个非参数模型，可以处理线性和非线性数据，（2）具有良好的学习和模型选择框架，（3）对模型预测具有良好的解释性。0我们在每个单独的领域中探索了两种多类别高斯过程分类器（MGPC）：翻转噪声模型[23]和使用备份机制的鲁棒似然模型[15]。翻转噪声模型擅长处理决策边界周围的标签错误，而鲁棒似然模型在标签错误远离决策边界时具有鲁棒性。因此，我们得到了两个版本的MGPC，简称为SMGPC和RMGPC，其中“S”表示“标准”，“R”表示“鲁棒”。由于SMGPC和RMGPC都有各自处理不同标签噪声场景的优势，我们根据每个单独领域的具体任务确定了更好的模型。然后，我们使用一组关系张量将每个单独领域中的多类别高斯过程的输出与正负和成对和高阶跨领域共现统计信息相结合。0我们提出的CGPC模型与现有的工作[43，45，24，44，6，41，32]在几个方面有所不同。首先，它们通常直接将关系信息与输入属性集成到高斯过程先验中[6，43，45]，或者将关系编码为在成对关系中涉及的实体的潜在函数值条件下的随机变量[24，44，6，41，32]。相反，我们提出的CGPC模型将每个单独领域中的多类高斯过程的输出与基于跨领域共现统计的一组关系张量集成在一起。其次，他们的模型专注于预测关系任务，不清楚这些学习到的关系如何被应用。3. Formulation1190利用共现统计有助于识别，这是我们提出的模型的重点。我们要强调的是，与现有的大多数工作只探索正的成对共现统计不同，我们充分利用了正的和负的，以及成对和高阶共现统计，在单个领域内和不同领域之间通过一个统一的关系模型。使用负共现统计的智慧在于，了解一个领域中没有什么可能是关于当前领域和其他相关领域的视觉范围的非常有信息量的线索。这种负共现统计在图像检索中已经被探索过[18]。总结起来，我们的贡献有四个方面：（1）我们提出了关联高斯过程分类器，用于跨多个语义领域的图像集合中的联合视觉识别；（2）我们在所提出的模型中采用一组张量参数，灵活地捕捉成对和高阶共现统计；（3）我们在模型中考虑了多个领域之间的正负共现统计；（4）我们在包括SUN09数据集[5，13]在内的四个具有挑战性的图像集合上验证了我们提出的模型，这清楚地证明了我们提出的模型的有效性。02. 相关工作0相关的先前工作可以大致分为两类：共现统计和高斯过程用于统计关系学习。共现统计。作为重要的上下文线索，共现统计已经促进了各种计算机视觉任务，包括图像分割[29，17，10]，目标检测[3，40]，目标类别识别[4，36，42]，图像注释和检索[11]，图像和属性分类[37，38，13]，路径预测[46]和视频摘要[7]。然而，在对多个语义的共现进行建模时，绝大多数以前的工作，如果不是全部，只建模了成对的共现关系。有一些工作尝试建模高阶共现统计[49，26，25，27，28]，这值得进一步探索。高斯过程用于统计关系学习。高斯过程也在几个早期的工作中用于统计关系学习[2，6，41，47，48，44，1]。Boyle等人[2]将高斯过程视为与平滑核卷积的白噪声源，以处理多个和耦合的输出。Chu等人[6]开发了一个关系高斯过程模型，该模型使用无向链接来结合互惠关系信息和输入属性。Yu等人[47]提出了一种随机关系模型，作为多个高斯过程的张量相互作用引起的随机链接过程。0图1：我们提出的CGPC模型的两种不同形式的图形模型，涉及三个领域u，v和s。蓝色部分表示每个单个领域中的独立MGPC（左侧：SMGPC，右侧：RMGPC），红色部分表示跨多个领域的相关性模型R。03. 表述0我们假设有 D 个语义域 Ω = { d | d = 1 , . . . , D }。对于每个域 d ，有 N d 张图像。X d 、S d 和 Y d分别表示观察特征集、软标签随机变量集和真实标签集，对应于这 N d 个视觉实例。具体而言，对于 X d中的每个实例 x di ，其对应的随机变量 s di用于联合推断其真实标签 y di 。为了简化表示，我们表示 Xd = { x di | i = 1 , . . . , N d } ，S d = { s di | i = 1 , . . . ,N d } ，Y d = { y di | i = 1 , . . . , N d } ，X = { X d | d∈ Ω } ，S = { S d | d ∈ Ω } ，Y = { Y d | d ∈ Ω }。我们使用一组交互张量 R = { R c | c ∈ C} ，其中 c 是与R c 相关联的域的组合，C是这样的组合的集合，来表示跨域关系模型的集合。对于每个 R c ，根据p(S, Y, R|X) ∝ p(R)p(Y|R, S, Θ)�d∈Ωp(Sd|Xd), (1)p(S, Y, R|X) ∝ p(R)p(Y|R)�d∈Ωp(Yd|Sd, Θd)p(Sd|Xd),(2)3.1.1SMGPCp(Skd|Xd)Nd�i=1p(ykdi|skdi, εd),(3)p(ykdi|skdi, εd) = εdH(ykdiskdi) + (1 − εd)H(−ykdiskdi), (4)3.1.2RMGPC∝ p(Sd|Xd)p(ρd)p(zd|ρd)Nd�i=1p(ydi|sdi, zdi),(5)̸̸1200由于我们建模的域的数量，它可以方便地建模任意阶的共现关系。例如，如果关系模型耦合了两个域，那么 R c 是一个矩阵。如果关系模型建模了三个域，那么 R c0是一个三阶张量。图 1 是一个示例，展示了我们在三个域u、v 和 s 上对图像集合提出的CGPC模型。如图 1所示，CGPC模型的条件联合概率定义为0其中 Θ = { Θ d | d ∈ Ω } ，而 Θ d 是与特定域 d 相关联的超参数，用于处理MGPC 中的标签错误，即 Θ d = � d 用于 SMGPC， Θ d = { α d , β d , ρ d , z d }用于 RMGPC（详见第 3.1 节）。p ( Y | R , S , Θ ) 在关系模型 R 和随机变量 S的条件下，p ( S d | X d ) 依赖于 X d 。为了简化学习和推理，我们通过 p ( Y | R , S ,Θ ) ≈ 1 来放松条件依赖关系0Z ( R , S ) p ( Y | R ) p ( Y | S , Θ ) (其中 Z ( R , S )是归一化常数)，而 p ( Y | S , 0d ∈ Ω p ( Y d | S d , Θ d )0为了使推理变得可行，我们进行了这种松弛。尽管 p ( Y | S) 和 p ( Y | R )在条件上看起来是独立的，但是在这个近似中，联合概率的常数 Z ( R , S ) 仍然依赖于 R 和 S，因此将关系模型与分类器软分数耦合在一起。因此，这种处理是合理的，我们得到了0其中第二项 p ( Y | R ) 基于关系统计张量 R定义了先验概率，该张量编码了正负共现关系，并将来自 Ω中不同领域的输出相关联。最后两项 p ( Y d | S d , Θ d ) p( S d | X d ) 与单个领域 d 中的 MGPC的联合概率相关联，这可以根据每个单独领域中采用的具体高斯过程模型进一步分解。有关这些术语的更多细节将在后续子节中描述。值得一提的是，也可以利用其他分类器，但这不是我们本文关注的重点。为了澄清，我们强调多个领域以充分探索领域特定的特征表示以进行识别。类似地，我们的方法可以应用于不同的类别作为不同的领域，其中我们将类别特定特征视为领域特定特征表示。共享相同特征的这些类别可以聚类到同一个领域中。0这里的“耦合”意味着 Z ( R , S ) 是覆盖 p ( Y | R ) 和 p ( Y | S , Θ )的归一化常数，它不能被分解。03.1. p ( Y d | S d , Θ d ) p ( S d | X d ) 来自 MGPC0对于每个单独领域 d ，我们从其两个版本中选择一个MGPC，即 SMGPC 和RMGPC，它们的区别体现在它们对标签错误的处理上。假设领域 d 中有 l d 个类别和 S d = { S k d | k = 1 , . . . , l d }，那么整体函数值 S k d 的高斯过程先验定义为 p ( S k d |X d ) = N ( 0 , K k d ) ，其中 K k d 表示 N d × N d协方差矩阵，其 ij -th 项是使用与类别 k相关联的相应协方差函数计算的。我们继续介绍这两个MGPC。0通过将多类分类减少为二进制情况，我们可以表示 Y d = {Y k d | k = 1 , . . . , l d } ，其中 Y k d = { y k di | i = 1 , . . ., N d } 是一组二进制标签。如果实例 x i 属于类别 k ，则 yk di 为1，否则为0。然后，p ( Y d | S d , Θ d ) p ( S d | Xd ) 可以进一步分解为每个单独领域 d 中与每个类别 k相关联的 SMGPC 中的概率0p ( Y d | S d , Θ d ) p ( S d | Xd ) ∝ �0其中 Θ d 表示 ε d ，条件似然模型 p ( y k di | s k di , ε d )定义为翻转噪声模型 [ 23 ]，即0其中 H ( x ) = 1 如果 x > 0 ，否则 H ( x ) = 0。换句话说，y k di 的后验估计取决于预测的软标签 s k di的符号，概率为 ε d (0 ≤ ε d ≤ 1) ，因此 ε d可以用于模拟领域 d中的全局标签错误率，该错误率可以通过 EP-EM 算法 [ 16 ,34 , 35 ] 进行估计。0与 SMGPC 不同，每个单独领域 d 中来自 RMGPC 的 p ( Yd | S d , Θ d ) p ( S d | X d ) 定义为 p ( Y d | S d , Θ d ) p( S d | X d )0其中 ρ d 是预期为异常值的训练实例的先验分数，z d = { zd 1 , . . . , z dN d }是每个视觉实例的二进制潜变量集，用于指示是否满足 s ydi di ≥ s k ，其中 s y di di 对于任何 k � = y di 为真 ( z di= 0 ) ，否则为假 ( z di = 1 )。这里的 di 表示实例 x i属于领域 d 中的真实类别 y di 的潜在分数。p ( y di | s di ,z di ) 是处理标签噪声的备份机制，定义为0p(ydi|sdi,zdi) =0�0k≠ydiH(sydi−skdi)0�0其中Φ(Ycj|Rc)可以被定义为Φcj|Rc) =0ld0�, (9)̸̸1210注意，第一项直接取决于sydidi的准确性。特别地，当相应实例被正确分类时，它的值为1，否则为0。当观察数据中的标签错误远离决策边界时，RMGPC预计具有鲁棒性，因为在等式6中描述的似然函数仅考虑由sydidi产生的预测错误的总数，而不考虑这些错误与决策边界的距离。p(zd|ρd)被定义为一个分解的多元伯努利分布0j∈O(c) αc Φ(Ycj|Rc)0c∈C0而ρd的先验被设定为共轭beta分布，即0�0B(αd, βd), (8)0p(Y|R)∝exp03.2. p(Y|R)来建模共现0接下来，我们定义了基于张量的关系模型R的p(Y|R)，它是由一组不同的关系模型Rc组成的复杂组合关系模型，其中c是表示为d1�...�d|c|（|c|是c的基数）的共现域的组合。我们令j是与相应域c关联的共现的实例索引集合，表示为j1�...�j|c|，然后Φ(Ycj|Rc)表示关系模型Rc中测量共现标签Ycj={ydkjk|dk∈c,jk∈j}的关系潜力。将C定义为与R相关的c的集合，将O(c)定义为覆盖c上所有共现的j的集合，我们定义0p(Y|R)∝exp0� �0�0�0c∈C0j∈O(c) αcΦ(Ycj|Rc)0� �0�, (9)0其中αc是与关系模型Rc相关的参数，其值可以通过在范围[0.01,1.0]内进行5折交叉验证来确定。为了澄清，关系潜力Φ(Ycj|Rc)可以涵盖单个域内和多个域之间的关系模型。特别地，与单个域内共现的任意两个实例相关的成对关系模型可以被视为耦合两个相同域的特定跨域关系。在本文中，关系模型Rc是成对或高阶共现的。0其中Rc仅基于正共现时，Φ(Ycj|Rc)可以被定义为Φ(Ycj|Rc)=0yd1�...�yd|c| Rc(yd1,...,yd|c|)0× I(yd1=yd1j1)...I(yd|c|=yd|c|j|c|).0直观上，张量元素Rc(yd1,...,yd|c|)的值越大，表示标签组合yd1�...�yd|c|的共现频率更高，并且会鼓励ydkik被分配给任何dk∈c的ydk。因此，最大化Φ(Ycj|Rc)应该导致与关系一致的标签。然而，了解一个域中与标签无关的内容对当前域和其他相关域的视觉识别也可能是一个非常有信息量的线索。因此，除了Rc+表示基于所有正共现的关系模型之外，我们还考虑其他关系模型，即(1)基于所有负共现的Rc-（完全不等于Ycj），以及(2)基于部分正共现和部分负共现的Rc1c2+−，其中c1是标签为正（≡Yc1j）的域的一部分，c2是标签为负（≠Yc2j）的域的另一部分。注意，Yc1j�Yc2j表示Yc1j和Yc2j在跨域c中正共现。我们认为Rc-和Rc1c2+−对于估计整个数据分布中潜在真实的Rc都是有益的。因此，基于正负共现，Rc可以被定义为这些关系张量的加权和，即0Rc = wc + Rc+ + wc- Rc-0c1, c2 wc1c2+- R c1c2+-,(10)0其中权重wc+，wc-和wc1c2+-在[0,1]范围内，并且可以从观测数据或交叉验证中学习得到。我们在公式10中将Rc+和Rc-的正号设置为正是因为我们希望Rc+和Rc-能够反映潜在的真实共现关系，从而更好地建模共现的概率。这一点已经通过我们的实验观察得到了验证。为了简化，我们甚至可以将它们设置为wc+ = 1，wc- = 1 �0dk ∈ c(l dk - 1) and wc1c2+- = 1 �0dk ∈ c2(l dk0权重的设置方式是，我们更多地依赖于正共现，因为它们可能从数据中更可靠地估计出来。03.3.关系模型先验p(R)0为了避免过拟合，我们需要对关系模型R进行正则化。理想情况下，R能够捕捉到真正稳定的关系，而不仅仅是偶然共现。我们对R施加L1正则化以强制稀疏性并学习稳定的关系，以排除非稳定共现的影响。为了避免R中的某些元素变得过大，从而影响小类别中的实例被错误分类，我们还在R上进行L2正则化。这种带有L1和L2范数的正则化嵌入到R的先验概率中，即p(R) ∝ exp{-β1∥R∥1 - β2∥R∥2}，(11)。��(12)1220当类别大小不平衡时，为了避免实例被错误分类，我们还在R上进行L2正则化。这种带有L1和L2范数的正则化嵌入到R的先验概率中，即p(R) ∝ exp{-β1∥R∥1 -β2∥R∥2}，(11)。0其中β1和β2是调整权重，其值由5折交叉验证在范围[0.01,1.0]内确定。04.联合推断和学习0受[33]中的思想启发，我们推导出一种变分EM算法，目标是共同推断实例的标签并估计关系模型。通过用户提前提供的不同领域中的少量标签，表示为YL = {YdL | d ∈Ω}，以及基于MGPC的输出概率、当前关系模型R和观察到的特征X = {XdL, XdU | d ∈Ω}，我们可以得到一个下界J(R, q) = Eq{log p(YU, YL |R)}。0+ Eq0d ∈ Ω log p(YdU | YdL, Xd,Θd)0+ log p(R) + Hq(q(YU)),0其中Hq(q(YU))是q(YU)的熵，0p(YdU | YdL, Xd, Θd) = 0xdu ∈ XdUp(ydu | XdL, YdL, xdu,Θd)，0其中p(ydu | XdL, YdL, xdu,Θd)是MGPC对未标记实例xdu的输出。众所周知，当q(YU)= p(YU | YL, R,X)时，公式12成立，即对R和q进行最大化下界J(R,q)的迭代将不仅提供关系模型R的估计，还将提供YU的后验分布。EM算法可以通过以下两个迭代步骤描述：0•E步：根据提取的特征和当前关系模型ˆR(t)，推断出YU的分布，通过ˆq(t+1) ← arg max q J(ˆR(t), q)。0•M步：使用用户提供的标签和前一次迭代中推断出的隐藏标签估计和更新关系模型，即ˆR(t+1) ← arg max R J(R,ˆq(t+1))。0我们考虑使用已知标签和预测标签的所有可能组合。值得一提的是，在公式10中，Rc的每个分量都是在M步中估计的。一旦EM算法收敛，它就会输出每个实例的每个标签的后验概率的估计值。讨论：关于学习MGPC和学习J(R,Y)之间的关系，超参数在学习J(R,Y)之前进行拟合。只有R和Y是使用变分EM算法进行迭代估计的。05. 实验0我们的实验首先在三个图像集上进行，即E-Album[8]、G-Album[12]和新发布的VP数据集[21]，其中我们使用排名1的识别准确率来衡量性能。我们还将实验扩展到一个更大的数据集SUN 09 [5,13]，其中图像中同时出现多个概念，多个领域可以来自概念的随机划分。05.1. E-Album和G-Album上的实验0E-Album由21个地点的19个事件中拍摄的108张照片组成，共有145个检测到的人脸。G-Album由141个地点的117个事件中拍摄的312张照片组成，共有441个检测到的人脸。我们在人、地点和事件三个领域上进行实验。我们用概率弹性部分（PEP）表示法[30]从检测到的人脸中提取的100维特征来表示人领域。对于地点领域，我们从每张照片中提取512维的GIST特征。对于事件领域，我们使用374个属性检测概率的向量作为374维属性特征，采用[19,20]中提供的VIREO-374SVM模型。对于每个领域，我们采用RBF核函数，因为它是一个平方指数核函数，通常比线性或多项式核函数更灵活，可以模拟更多的函数。至于相似度或距离度量，我们评估L1范数的Earth-mover距离、L2范数的Earth-mover距离、L1距离、L2距离以及Joint-Bayesian分类器[31]的相似度得分。我们将这5个不同的稠密RBF核函数分别命名为EMDL1-K、EMDL2-K、L1-K、L2-K和JB-K。此外，我们还使用[33]中使用的原始核函数进行评估，称为Lin-Kernel，由[33]的作者提供。值得注意的是，Lin-Kernel是稀疏的，因为核矩阵中的非零元素仅占很小的比例（在2%至5%之间）。在这里要提到的是，为了方便比较，我们使用了[33]中采用的预标记子集的相同设置。我们首先关注人脸识别，以展示关系模型的有效性，然后在所有领域上评估其他识别任务。05.1.1 关系模型的可视化0为了更好地理解第3.3节中关系模型的稀疏性，我们在E-Album上对上述四个关系模型进行可视化，如图2所示。由于PP、PL和PE是成对的关系模型，我们采用彩色图来绘制矩阵，如图2a、2b所示。0和2c。观察结果显示，只有很少的元素是非零的。这表明成对的关系 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14PeoplePeoplemat matrix-10-5 0 5 10 15 20 0 2 4 6 8 10 12 14 0 5 10 15 20PeopleLocationmat matrix-6-4-2 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 16 18PeopleEventmat matrix-6-4-2 0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 0 5 10 15 20 0 2 4 6 8 10 12 14 16 18EventPeopleLocationEvent-4.0-2.0 0.0 2.0 4.0 6.0 8.010.0PP+66.6773.8171.43 72.2275.4088.89PP±69.8475.4073.81 73.0276.1990.48PL+76.1986.5185.71 86.5187.3095.24PL±79.3792.0690.48 90.4888.8996.83PE+76.1987.3085.71 86.5189.6895.24PE±79.3792.0690.48 91.2791.4796.83PLE+72.2286.5185.71 86.5187.3095.24PLE±76.9887.3086.51 87.3089.6896.83EMDL1-K EMDL2-K L1-K L2-K Lin-Kernel JB-KP-only53.5776.2876.53 75.5176.0282.65PP+70.6676.5376.78 77.0477.3082.91PP±72.7077.8178.06 78.3177.8184.18PL+68.3780.1081.38 80.6180.6183.93PL±69.9082.1483.67 83.1681.6384.18PE+70.9281.6382.65 81.8981.8986.22PE±72.7084.4384.44 84.6982.9188.78PLE+72.7081.9184.69 82.4081.8985.46PLE±74.2382.9184.95 83.4282.4086.481230（d）PLE图2：E-Album上4种不同关系模型的可视化。请注意，0-14、0-20和0-18分别是人、地点和事件领域的标签ID。对于（d），零值元素没有绘制。0表1：E-Album上使用4个关系模型和6个核函数的人脸识别性能。（单位：%）0EMDL1-K EMDL2-K L1-K L2-K Lin-Kernel JB-K0仅P 35.71 72.22 67.46 71.43 73.81 86.510表2：G-Album上使用4个关系模型和6个核函数的人脸识别性能。（单位：%）0我们提出的框架中的模型具有我们预期的稀疏性。至于高阶关系模型PLE，我们在图2d中绘制了值为非零的元素。很容易观察到高阶关系模型PLE也是稀疏的。05.1.2 正负共现的有效性0为了评估基于正负共现的关系模型的有效性（用“±”标记），我们在两个相册上进行了3个配对关系模型的实验，即人-人关系模型（PP）在人员领域内，人-位置关系模型（PL）跨人员和位置领域，人-事件关系模型（PE）跨人员和事件领域，以及高阶人-位置-事件关系模型（PLE）跨这3个领域。对于每个关系模型，我们将其性能与两个基准进行比较：没有任何关系模型的性能称为P-only，使用相同关系模型但仅使用正共现的性能称为P-only。0（用“+”标记）。我们在6个不同的核上评估了这4个关系模型。对于每个具有特定核的单个领域，在我们的CGPC模型中选择MGPC的选择取决于SMGPC和RMGPC的实验性能。在这里，我们总结了表1和表2中的结果。可以看出：（1）与P-only相比，任何关系模型的识别准确性一直得到了改善；（2）基于正负共现的关系模型始终优于仅使用正共现的相应关系模型。显然，一起探索负共现可以提高性能。观察到，PLE的性能并不一定比PE的性能更好。这可以解释为，通常情况下，与配对关系模型相比，高阶共现统计需要更多的观察示例才能获得可靠的估计，因为它们相关的领域更多。然而，我们将在下一节中展示，将PLE与PP和PE结合使用将提供另一个提升，因为它们是互补的。（请参见第5.1.3节）05.1.3 与最先进技术的比较0我们将我们提出的CGPC与Lin的跨域学习方法[33]进行了比较，称为“Lin-CDL”，用于人脸识别、位置识别和事件识别跨3个领域的E-Album和G-Album。据我们所知，[33]是唯一一个也探索跨领域识别的工作，因此我们将其作为基准。为了确保比较公平，对于每个单独的领域，我们使用两个核，即稀疏核Lin-Kernel和密集核JB-K，并用前缀“Ks-”和“Kd-”进行区分。后缀“+”和“±”与第5.1.2节中相同。为了澄清，我们提出的CGPC模型的高识别性能来自两个部分：（1）与领域d相关的特定识别任务的MGPC的输出；（2）借助其他领域的交叉关系模型的帮助。在本文中，我们使用S-CGPC和R-CGPC来强调与领域相关的MGPC的选择（即SMGPC和RMGPC）。Ks-Lin72.2273.02 88.10–96.83–Kd-Lin38.8946.03 72.22–90.48–Ks-S+73.8174.60 88.89 86.5196.8396.83Ks-S±73.8175.40 89.68 87.3096.8397.62Kd-S+84.9286.89 94.44 93.6596.8397.62Kd-S±84.9289.68 95.24 94.4497.6297.62Ks-R+73.8175.40 89.68 87.3096.8397.62Ks-R±73.8176.19 91.47 89.6897.6297.62Kd-R+86.5188.89 95.24 95.2497.6297.62Kd-R±86.5190.48 96.83 96.8397.6298.41Ks-Lin73.7274.74 79.85–85.46–Kd-Lin40.5641.33 67.09–75.26–Ks-S+74.2375.26 81.12 80.8886.9988.27Ks-S±74.2376.78 81.89 82.1487.7689.03Kd-S+81.8982.65 84.69 84.4488.5289.54Kd-S±81.8983.16 86.73 85.4589.8090.56Ks-R+76.0277.30 81.89 81.8987.5089.03Ks-R±76.0277.81 82.91 82.4088.7890.05Kd-R+82.6582.91 86.22 85.4689.0390.31Kd-R±82.6584.18 88.78 86.4890.5692.09Kd-Lin62.8291.02––23.9280.36––Kd-S+83.3392.30 87.1797.4327.6182.21 76.0785.27Kd-S±83.3396.15 89.7498.8727.6185.89 80.9887.12Kd-R+84.6194.87 91.0398.8729.4584.66 79.1487.73Kd-R±84.6198.71 93.59100.0029.4587.12 83.4389.57Kd-Lin26.4260.37––9.1541.54––Kd-S+43.4062.26 58.4967.9211.2752.11 48.5955.63Kd-S±43.4066.04 60.3869.8111.2756.33 50.7059.15Kd-R+47.1767.92 64.1569.8112.6854.92 49.3058.45Kd-R±47.1769.81 66.0471.6912.6857.74 51.4160.561240表3：E-Album上人脸识别的性能比较。（单位：%）0仅P PP PE PLE PP+PE PP+PE+PLE0在人脸识别任务中。例如，当我们使用R-CGPC评估人脸识别在人群领域时，人群领域的输出是从RMGPC获得的。为了将表3的名称缩短为表8，我们使用“Lin”、“S”和“R”分别表示Lin-CDL、S-CGPC和R-CGPC。人脸识别除了上述单一的成对关系模型之外，我们还将PP和PE组合在一起形成一个组合的关系模型PP+PE。更重要的是，我们甚至将PLE包含在PP+PE中，形成一个更复杂的关系模型PP+PE+PLE。表3和4中的观察结果表明，对于S-CGPC和R-CGPC，（1）它们在稀疏和密集核上表现良好，而Lin-CDL仅在使用稀疏核时表现良好；（2）无论是使用基于正负共现的关系模型，还是仅使用基于正共现的关系模型，它们始终优于Lin-CDL；（3）再次，基于正负共现的关系模型始终优于仅使用正共现的关系模型，无论是使用稀疏核还是密集核；（4）它们可以建模高阶关系模型PLE，并且将其纳入可以帮助提高最终的识别准确性；（5）组合的关系模型比单一的关系模型更好，这表明关系模型彼此之间是互补的；（6）无论是否在两个相册上使用稀疏或密集核，R-CGPC都比S-CGPC表现更好；（7）使用密集核，我们提出的算法R-CGPC可以将E-Album上的识别准确性提高约2%，将G-Album上的识别准确性提高约7%，与[33]中的最佳结果相比。此外，值得注意的是，PP+PE在E-Album上的结果与相应的PP+PE+PLE的结果之间的比较，识别准确率96.83%、97.62%和98.41%意味着只有4、3和2个测试样例被错误分类。尽管收益很小，但考虑到这些确实是困难的视觉实例，从96.83%到97.62%的提高和从97.62%到98.41%的提高仍然证实了纳入高阶关系模型PLE的能力。位置和事件识别我们还进行了实验-0表4：G-Album上人脸识别的性能比较。（单位：%）0仅P PP PE PLE PP+PE PP+PE+PLE0表5：E-Album（左）和G-Album（右）上位置识别的性能比较。（单位：%）0仅L LE PLE LE+PLE 仅L LE PLE LE+PLE0表6：E-Album（左）和G-Album（右）上事件识别的性能比较。（单位：%）0仅E LE PLE LE+PLE 仅E LE PLE LE+PLE0用其他两个领域上的位置识别和事件识别的性能进行实验评估。为了简化，我们只评估了关系模型LE、高阶关系模型PLE和组合关系模型LE+PLE的性能。类似地，“仅L”和“仅E”分别表示位置识别和事件识别中没有任何关系模型的基准。如表5和表6所示，我们提出的方法在提高位置识别准确性和事件识别准确性方面的有效性与人脸识别中的结果基本一致。05.2. VP数据集上的实验0VP数据集[21]包含8位政治家的1124张图像（811张用于训练，313张用于测试）。在本文中，我们使用3个领域，即人物、手势和场景，通过跨领域关系模型来提高人脸识别、手势识别和场景识别的性能。由于任务与[21]不同，我们只使用共享的原始图像和人物领域的标签，并自己收集其他两个领域的标签。在手势领域，我们定义了64种不同的标签，例如挥手、握手、指点、摸头、拥抱等。Kd-Lin18.5324.60 34.50–35.82–Kd-S+65.1865.50 65.81 65.5066.7768.69Kd-S±65.1865.81 66.45 66.1367.4169.01Kd-R+66.1366.45 66.77 66.4567.7369.33Kd-R±66.1367.09 67.41 67.4168.3770.92Kd-Lin13.4230.35––20.4546.01––Kd-S+25.5638.34 36.1042.4938.0251.44 49.8455.59Kd-S±25.5641.21 39.2944.7238.0254.31 51.1258.15Kd-R+26.8439.62 38.6643.1339.6153.67 50.1657.50Kd-R±26.8443.13 41.8546.9639.6157.19 53.0460.381250表7：VP数据集上人脸识别的性能比较。（单位：%）0仅P PG PS PGS PG+PS PG+PS+PGS0在场景领域中，我们定义了35种标签，如暗背景和国旗。我们在人物领域中使用与第5.1节相同的特征。对于场景领域，我们使用了一个374维的属性特征，采用了[19,20]中提供的VIREO-374SVM模型。对于手势领域，我们采用了3级空间金字塔，使用由K-means聚类学习的字典编码的密集采样的SIFT特征，得到了一个1024维的特征，该特征已经被提出用于动作识别[9]。我们在VP数据集上比较了我们的CGPC与Lin-CDL使用JB-K密集核（如第5.1.3节中的前缀“K d-”所示）进行人脸识别、手势识别和场景识别的性能。人脸识别考虑到该数据集中几乎没有人与人的共现情况，类似于E-Album和G-Album，我们探索了以下跨领域模型：人物-手势关系模型（PG）、人物-场景关系模型（PS）、人物-手势-场景关系模型（PGS）以及组合关系模型PG+PS和PG+PS+PGS。结果总结在表7中。毫不奇怪，使用组合关系模型PG+PS+PGS，我们的S-CGPC和R-CPGC都获得了最佳的识别性能。值得注意的是，PG+PS+PGS的识别准确性优于PG+PS，这表明PGS对PG+PS具有补充作用，不能直接用PG+PS替代。手势和场景识别我们在VP数据集上评估了手势识别和场景识别。我们使用单一关系模型GS、PGS以及组合关系模型GS+PGS来评估性能。“仅G”和“仅S”表示手势识别任务和场景识别任务中没有任何关系模型的基准。我们在表8中呈现了手势识别和场景识别的结果。如预期的那样，关系模型GS和PGS都可以提高手势识别准确性和场景识别准确性，而PGS仍然显示出其相对于GS的补充优势，使得组合关系模型GS+PGS可以在手势和场景识别任务中达到更好的性能。05.3. SUN 09数据集上的实验0表8：VP数据集上手势（左）和场景识别（右）的性能比较。（

下载后可阅读完整内容，剩余1页未读，立即下载