解耦观测组合：一种新的非参数任务依赖估计算法，扩宽了预测器组合方法的应用范围，并优于现有方法

163 浏览量更新于2023-10-18 收藏 855KB PDF 举报

预测算法

非参数方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1解耦观测组合Kwang InKimUNIST伯明翰大学摘要我们提出了一种新的预测组合算法，提高了一个给定的任务预测的基础上潜在的相关参考预测。现有的方法是有限的，因为，要发现潜在的任务依赖性，他们要么需要已知的参数形式的所有预测或访问一个单一的固定数据集上的所有预测联合评估。为了克服这些局限性，我们设计了一个新的非参数任务依赖估计过程，自动对齐评估的异质预测跨不相交的功能集。我们的算法被实例化为一个强大的流形扩散过程，共同细化估计的预测对齐和相应的任务依赖。我们将该算法应用于相对属性排序问题，并证明它不仅拓宽了预测器组合方法的应用范围，而且即使应用于经典的预测器组合设置时，也优于现有的方法1. 介绍当估计的预测器的性能不足以完成手头的任务时，例如，由于训练实例有限，我们可能会从相关任务中获得的知识中受益。多任务学习（MTL）[1，12，16，19]通过同时解决多个问题来探索这种可能性，从而捕获并受益于潜在的任务依赖性。MTL在许多视觉学习问题中的成功已经证明了这种任务依赖性[1，12，23，19，10]。在大多数现有的MTL算法中，任务依赖是通过相应的任务预测器的参数空间上的潜在结构来建模的例如，Evgeniou和Pontil 以来不太可能所有任务都表现出已知的任务依赖结构，MTL算法试图自动发现潜在的依赖关系并识别离群值，例如，对聚合的任务参数矩阵[ 1，8 ]实施稀疏性和/或引入低秩约束，或者通过显式地执行任务聚类[25，18]。这些传统的MTL方法的主要限制是它们要求所有任务预测器共享相同的预测模型或甚至相同的参数空间，它们难以应用于异质预测器，例如，结合深度神经网络和支持向量机。然而，最佳预测形式通常取决于感兴趣的个体任务此外，现有的MTL方法被设计为同时训练多个预测器，因此它们不能直接应用于在给定先前训练的参考预测器的情况下训练新的任务预测器，例如，在不访问对应的任务训练数据的情况下组合预训练或预编译的预测器库。最近，Kim et al.[10]提出了一种非参数预测器组合方法，其中在采样数据点处进行的预测器评估通过在测试时将它们与参考预测组合而得到改进，而不需要同时训练。这使我们能够将预测器与不同甚至未知的参数形式相结合。然而，这种方法的应用范围以其自身的方式受到限制，因为它需要大量的数据点，所有的预测因子都是在这些数据点上进行联合评估的。在实际应用中，可以基于针对感兴趣的特定任务定制的相应特征表示图像）。在本文中，我们提出了一种新的算法，以避免以前的预测器组合方法的局限性，从而拓宽了非参数预测器组合方法的应用范围[10]。在他们的测试时间组合方法的基础上，我们的算法改进了基于一组参考预测器的任务预测器。然而，与他们的方法不同，我们不要求所有预测因子都可用于评估一个固定的集合我们的算法将解耦预测器评估作为输入，并自动对齐这些预测以发现潜在的任务依赖性。由于初始估计的路线和相应的任务依赖可能是嘈杂的，我们去噪他们共同通过一个流形扩散过程。新算法结合了经典的参数MTL方法和最近的测试时间组合算法的优点，并有利于组合应用程序，其中多个异构预测构建不相交的特征集。我们将我们的算法应用于相对属性排序问题，并扩展了以前的方法的应用。此外，在七个具有挑战性的数据集上进行评估，我们的方法表明，即使在75497550˜~X∞k1X∈联系我们X →联系我们~XX∈X∫−····k=1k=11K定义了预报因子：f∈C∞（X）和gk=1∈C（X）。k=1KKX→X∞X·∈ XK M--KLkkkK MK M传统方法的限制设置，它显着提高了准确性和时间效率。相对属性排名：相对属性排序[17，11]是指根据每个条目中存在的属性的强度来推断数据库图像的线性排序的问题。这个问题不同于二进制属性分类，其目标是预测属性的存在或不存在。相反，相对属性排名关注的是无法获得这种明确的二元分类的属性，例如。鞋A可以比鞋B“更正式”，但它仍然可以比鞋C“不那么正式”。这个问题也不同于经典的数据检索类型的排名应用程序，其目标是识别匹配给定查询的数据库条目。这个目标可以通过基于用户提供的排名标签学习排名函数 f 来实现：给定一组数据点 X = x1，...，xn，秩学习的目的是构造一个函数f：R，它与观察到的成对秩标签 R= （ i （ 1 ）， j（1）），.，其中（i，j）R意味着xi的秩高于xj：f（xi）>f（xj）。例如，Parikh和Grauman完全相同。相反，我们假设它们通过一个具有概率分布P的底层数据空间X连接。的一个示例是图像空间，而每个任务的对应数据表示可以经由相应的特征提取器ek来定义：K因此，我们将在其自己的特征域k上定义或通过将其与相应的特征提取器组合来定义的预测器gk视为共享数据域：gk：=geC（）。如前所述，这种特征表示和预测器的分解便于其中主预测器F与多个异构参考预测器组合2.1. 预测流形假设输入空间具有概率分布P，我们的预测流形M被给出为平方可积函数L2（，P）的等价类：每个函数g<$L2（，P）被投影到M通过居中和尺度归一化：相对属性算法学习一个秩支持向量机器（RankSVM）[17]，而Yang et al.把它延伸到使用神经网络的深度相对属性[24项目M[g]：=ggdPg.（一）2. 测试时间预测器组合的联合流形扩散我们的算法改进了一个给定的任务预测器，一组参考预测器。由于它是未知的先验的参考预测是相关的，我们的算法自动识别和利用相关的参考。现有的方法是有限的，因为它们需要已知的和共享的参数形式的所有任务预测（例如，在参数MTL中）或在单个固定数据集上评估多个预测因子（在测试时间预测因子组合方法中[10]）。我们绕过这些限制，并允许多个异质预测因子的组合：1）一个新的任务依赖性的非参数测量（Sec. 2.1）和2）一个强大的联合扩散过程，构建桥梁变量耦合不相交的数据实例的预测（节。2.2）。问题定义：假设我们给出了一个秩预测函数f，该函数被构造为对未知的地面实况秩（或任务）的估计。我们的目标是基于一组m个参考预测器{g}来细化f。这种流形构造便于对排名函数进行尺度和平移不变的比较：在排名应用中，例如用常数cg（）对排名器g（）进行缩放不应改变其所引起的排名的性质。类似地，排名器g（）的恒定偏移g（）+c应导致相同的排名结果。对于绝对尺度很重要的问题，例如，回归，可以在去噪之后执行逆归一化。为了简化符号，我们省略了投影符号ProjM，并使用g来表示M的元素。这个希尔伯特球面M上的黎曼2度量可以从周围的L2度量导出：g其唯一地标识了在 M 上诱导扩散过程的 Laplace-Beltrami算子。可以直接评估该度量（等式2）。2）如果预测因子的参数形式f，gkm都知道。当它们的参数形式未知或对于一般的非参数预测器时，我们改为基于它们对样本X={x∈1，.，x<$n}X：由于不能保证参考预测器与地面实况任务或其估计f相关，因此我们的算法自动识别任何相关的参考。采用Kim et al.'的预测器组合框架[10]，我们将f视为对地面实况的噪声观测。我们的算法通过嵌入{f，g}对f进行去噪n（f）g，f：=f|X，g：=g|X~。（三）流形去噪：使用基于样本的度量评估（等式3），的歧管去噪过程可以被描述作为到迭代地解决一个进入预测器流形M，并执行由其中的扩散过程引起预测器f和参考{g}的域不具有1这里，C∞是光滑（无限可微）函数的空间。2F或L2（X∈ F，P），我们采用偏离于测度零点集的函数的自然识别7551ΣOk=1----2ΣK2--n-哦WCf（t）δW11Cg2−K M----扩散方程对一图形成通过矩阵G= [f，（g1），...，（gm）]R（m+1）×n[22，9，10]：Gt=−δ当扩散系数δ>0时，由G构造的函数：它也可以重写为广义瑞利商pQ pO（p）= p<$Cp.（十）这表明，最优解p_p可以作为广义特征值方程Qp=λCp的最大特征值所对应的特征向量而得到. 为I−D-十一WD二、一般对称矩阵Q和C的计算求这个特征向量是立方复杂度：O（n3）forn[W]kl=exp。−gk，glσ2、（五）数据点，随着n的增长，这很快变得不可行通过注意对于实际应用，参考预测器的数量m将其中 σ2 是尺度超参数，并且对角矩阵 D 包含 W（[D]kk=1Wkl）的行和。当每个图节点gk对应于一个i.i.d.高斯噪声污染的观察一个潜在的清洁流形点，这个过程往往会收缩G向M[9]，因此，随着扩散的进行，G（t）往往会恢复一个平滑的无噪声版本的M。为了模拟扩散过程，我们离散方程。4，并获得隐式欧拉更新规则：G（t+1）−G（t）=−δ（t）G（t+1）。（六）请注意，当它是从正在演变的变量G构造（五）。2.2. 联合流形扩散2.2.1f-diffusion：优化预测因子f由于我们的目标是在给定参考的情况下改进主预测器f，因此我们将G中的参考变量g保持固定，并且仅在扩散期间更新f（六）。在这种情况下，在时间t+1（G（t+1）的第一行）处的更新解f（t+1）可以作为得分泛函的最大化者p（t+1）获得M比n小得多，并且矩阵Q被构造为中心向量的外积的加权组合（等式2）。第9段）。因此，对应于Q的非零特征值的所有特征向量ek 也是居中的，即，ek=Cek意味着它们也构成了定心矩阵C。这使得广义本征值问题转化为正则本征值问题Qp= λp。最后，Q的最大特征向量作为S的最大左奇异向量得到，因此该步骤的复杂度降低到O（m2n）。当我们最大化等式中的平方度量时，在图7中，优化器p_f可以与原始秩预测f（0）逆相关。因此，最终更新的解f（t+1）是通过将解p<$乘以sgn[−1<$p<$，f（0）<$]获得的。讨论：我们的f-扩散步骤的动机是通过参考gk的鲁棒局部平均对f进行自适应加权校正. 一个关键的应用挑战是，我们不知道哪些参考，如果有的话，是相关的。因此，我们的算法必须自动识别它们。这可以自然地基于经由扩散过程实施的组合权重W1k我们的算法控制度量相似性O（p）=f（t）+δW1kk=1Pakistan，gPakistan，（7）在主预测器和参考之间，[W]1k，它们是相似性本身的递增函数（等式1）。7-8 ）。这些砝码提供了其中，我们明确地结合归一化条件（缩放和居中），使得解停留在预测器流形M上：（Ca）Cba，b其中C=1111且1= [1，.，1]. 得分是p的平滑函数，并且可以使用任何平滑优化方法来最大化。然而，通过定义对称矩阵Q = SS，忽略不相关的参考。权重的均匀性由超参数σ2控制（等式2）。5）：对于较大的σ2，所有参考文献的贡献相等，可能包括离群值。对于较小的σ2，单个最相关的参考会影响解决方案，这可能会忽略其他不太相关但仍然有益的参考。2.2.2B-扩散：组合来自解耦观测的预测我们的初始预测组合的一个主要局限性是-Σ√1√mΣ它依赖于大量的预测评估，从联合分布P（f，g1，...，gm），Σ7552中国大陆δW1mCgS=，f（t）Cg1，.，Cgm、（9）即样本预测{f，g，k}m是通过联合ǁ ǁk=1˜K M3方程中的隐式欧拉步骤。6对应于线性系统，其解可以通过最小化相应的二次能量来获得函数;详见[9]。e在a上评估相应的预测器{f，g，}k=1，共享样本集X。然而，在实际应用中，每个预测器可以与特征表示7553~XX∈Xk=1˜∈我{}{}∈XGk=1IJΣIJ.Σ◦··G2BBGFGF⟨⟩∈∈1n（k）可用示例实例{X，Xk}m0否则。FFGtr[GfCGfC]tr[BgfGgBgfCBgfGgBgfC]Kf因此，它不能应用于大规模的问题，′二、K MK M⟨··⟩----f=I−D−WxfD−，Wxf=WxIJk=1为个人感兴趣的任务量身定制此外，这些功能通常可以单独使用，而无需显式引用中的相应源图像。因此，即使多个数据生成过程X={x1，. .，xn（f）}，并且Xk={Xk，. .，xk}，并且对于每个集合，前n个数据实例被配对，即，存在xi使得（[f]i，[gk]i）=（f（e（xi）），gk（ek（xi），i= 1，…n′。使用这些耦合标签，Bkf被初始化为特征域{X，Xk}m都是由一个概率决定′在X上的概率分布P（X<$），假设[B（0）]=1，如果i=j且i≤n（十三）即对于所有i=1，…n和k=1，…m，thereeexistsxm使得xk=ek（xi）Xk. 此外，可用的AV数量样本实例可以在任务之间变化，从而导致大小不同的预测向量f，g，k=1。在这种情况下，直接评估的度量，M在方程。7不可能受最近关于中心内核对齐的工作的启发[20，4]，我们构造了桥变量B其将每个参考变量gk与主预测变量f对齐。为了激励构建，首先我们注意到，其然后通过扩散传播标签而演变，全二部图=（X，Xk）.为了促进这一过程，我们基于各自特征域和预测器评估的相似性构建了一对图拉普拉斯算子Rlf和Rlk：对于主预测因子f，拉普拉斯算子f被定义为：1 12 2ij ij度量评估的预测向量f和gcor-Wx=exp。−xi−xj<$2σ2，Wf=exp（[f]i−[f]j）2σ响应于对应的xf的对准的测量，中心文法矩阵Gf=ff和Gg=gg：tr[G CG C]其中AB是A和B的阿达玛乘积。的图Laplacian矩阵k类似地被构造。注意f gfkf，g.（十一）[CG C]和是各向异性的，因为它们使用相应的对于典型的内核对齐应用，例如在核学习[4]和聚类[15]中，gram（核）矩阵G包含正定核k（，）的成对评估。由方程式11，我们的内核计算两个标量输入的乘积（k（a，b）=ab）。当构造两个gram矩阵Gf和Gg时，根据不相交的样本集，并且因此不提供逐元素的数据耦合，可以构造正项的桥接矩阵Bgf以相对于Gf对准Gg：f，gtr[GfCBgfGgBC]解Bkf（0），二分图上的扩散过程通过这两个拉普拉斯算子来指定：相应的隐式欧拉方法的解被获得为：能量极小化E（V）=<$V−Bkf（0）<$F+δtr[VfV]+δtr[VkV]（15）其最佳Vε可以作为Sylvester方程的解获得：δBfV +δBVk= Bkf（0）。（十六）√。⊤.（十二）⊤该分析方法生成稠密矩阵B，Bgf中每行的元素总计为1，因此，对齐的文法矩阵BgfGgBgf 中的每个条目被获得为Gg列的概率（凸）组合。（n>10，000）。对于这些问题，我们采用显式欧拉方法和基于两个拉普拉斯算子的交替V-更新Bkf（t+1）=Bkf（t）−δBfBkf（t）（17a）如果两个gram矩阵Gf和Gg都是满秩的，现有的内核对齐应用程序，例如桥接矩阵Bkf （t+1）=Bkf（t）−δBBkf （t）科穆克（17b）可以通过最大化比对得分f，g，Bgf（可能地，利用附加的正则化器，例如，非负性和稀疏性[20]）。不幸的是，这种方法在我们的情况下不适用，因为B gf中的变量数量远高于观察到的克矩阵（秩为1）的有效自由度：我们的初步实验表明，简单地应用该策略会导致最大对齐（值为1），即使对于随机gram矩阵Gg也是如此。相反，我们将桥矩阵学习转换为二分图匹配的连续放松：设fRn（f）和gk Rn（k）是作为估计得到的。f和gk在相应特征实例上的作用都是耦合的，KfG预测器评估f和gk在计算相应的扩散率（Wx f和Wxkgk;等式第14段）。鉴于最初.7554--显式控制Bkf（t）的稀疏性：在每次迭代中，通过仅保留最大的K值并将零分配给其余元素来稀疏化Bkf（t）给定Bkf（0）中的初始标签0，1，扩散变量Bkf在[0，1]中保持有界。在每次迭代中，我们将Bkf（t）的每一行归一化，使其元素值之和为1。2.2.3联合扩散我们的最终算法由两个扩散过程组成：f-扩散更新预测变量f，而B-扩散更新桥变量。这些扩散是7555{g}k=1k=1xfx˜˜˜KKMFk=112K M21n1n（k）k=1k=1fk m−KKD k=1算法一：使用联合模型的预测器组合折叠扩散输入：初始主预测因子f和参考预测因子kmk=1权重矩阵Wx和参考图拉普拉斯（等式。14）;超参数σ2（等式。5）、δ（Eq. 7）、T1和T2;输出：精确的预测f。t = 0;构建图拉普拉斯算子对于t 1 = 1，...，T1做对于t2= 1，...，t2do使用Wx 和f（0）（等式14）;图1.我们的算法在OSR数据集上的准确性（属性3）端基于得分函数O（等式2）更新f（t）。 7）和度量的Δ·，·ΔBgf（等式7）。第12段）。t=t+1;关于变化的超参数σ2和δ。图1表明，这种抽样方法确实端对于t2= 1，...，t2do基于等式更新{Bkf（t）}m15-17 b ;规范化{Bkf（t）}m的行;t=t+1;端使用W更新安装f（t）;这是可行的，因为精度表面相对于这些超参数平滑地变化对于联合扩散，我们在每个f-和B-扩散过程中的步骤数上设置一个上限T 2，并在验证精度（对于f-扩散）或对齐分数（对于B-扩散）不增加时立即终止迭代。这两个过程交替进行，直到联合迭代次数满足上界T1，或者f-验证精度没有提高。我们的算法分别由两类图Laplacian控制Eq. 5）和{\displaystyle {\ f r a c { 5 }}（方程14），并作为两个（t）和收敛得相当快，通常在10次迭代内。我们设置T，T= 20（参见算法1）。f（t）依赖于f（t），两个扩散过程相互作用非线性地我们建议将这两个过程交织在一起：首先，我们通过执行B-扩散来初始化B。然后，f-扩散和B-扩散两个步骤交替进行，直到满足终止条件。算法1总结了所提出的联合扩散过程。2.2.4超参数3. 实验3.1. 基于合成数据集的设计评价为了深入了解我们的桥梁估计方法的有效性，我们构建了一个具有已知任务度量结构的玩具数据集。首先，我们通过显式地构建其地面实况预测器来生成12个不同的任务{tk}12 ：每个成员都被构造为上的线性函数与隐式Euler方法（Eq. （15）明确k=1克雷奇K100维输入空间：t（x）=x w. 之间Bkf更新规则（等式17a和17b）不是均匀稳定的在δB的所有值上。因此，我们将δB固定在一个小值10-5 构建图Laplacian矩阵f（类似于{k}k=1）需要调整尺度参数σx和12个预测器的参数向量，最后四个是随机生成的（每个元素从[ 1，1]上的均匀分布中采样），而前8个参数向量形成两组4个线性相关的预测器：σ2和X中的最近邻数（NN）N。1 1 4f2W= [w，.，w ]是通过乘以一对××我们将σx确定为平均距离的两倍，Hein和Maier的局部N-邻域[9]。NN参数N、稀疏性参数K和f尺度随机生成的大小为100 1和100 4的向量，分别第二组参数（任务5-8）都是以类似的方式产生的。相应的耦合噪声参数σ2（类似地，σ2）被全局调整以最大化kmfkk个观测值Hc={hc}k=1是通过评估这些所有参考文献中的最大耦合得分K Mn= 1，000个数据点的输入数据集上的地面实况{g}k=1（等式第11段）。他们是在第一次迭代，并在整个扩散过程中保持固定步长参数δ（Eq.7）和尺度参数X={x，.，x{\displaystyle x {\displaystyle x}}，并添加轻度噪声（i.i.d. 零σ2（等式5）对于f-扩散，准确度（定义为正确排序的对类似地，解耦观测Hd={hk}m为基于特定于任务的功能集{X：X={x，.，x}}，每个子采样自X<$（n（k）<$n/2）：集合：虽然我们的算法是无监督的，但我们使用小验证集自动调整超参数，以便于与其他算法进行公平比较（参见第二节）。3详情）。在实践中，超参数将通过用户尝试不同的参数组合来调整。高斯平均值，标准差为0。（2）结果。对于所有成对比较）XF7556XK为了模拟不同的特征提取操作，我们应用主成分分析，特征尺寸在任务间随机变化（在保留总方差的95%的条件下）：|其中e是第k个主成分特征提取器。Fi-7557k=1Σ----.Σk=1KCΣΣk=1评估所得到的预测器{gk：gk（x）=xwk}12KS12尺度超参数σS>0。在本例中，参数K M图2.任务度量的示例估计 8）来自解耦预测{gk}12。通过设计，任务1-4和任务5-8分别形成强相关任务的组。（左）来自地面实况预测的成对度量评估;（中）使用初始桥估计基于解耦预测估计的度量;（右）通过联合扩散最后，噪声预测Hd通过构造Hc的最小二乘参数近似来获得：n（k）3.2.1基线方法A) Ind：第一个基线算法（Ind）基于验证准确性从深度神经网络（DNN [24]）以及线性和非线性秩支持向量机（RankSVM [17]）中评估并选择每个数据集，每个属性的最佳预测器。对于所有实验，基于从200个训练数据点提取的成对排序标签来训练基线算法。对于给定的训练输入X=x 1，.，xn和成对排序标签（i（1），j（1）），.，（i（l），j（l）），线性RankSVM （f（x）=wx）最小化正则化秩能量：LES（f）= L（[xi（k），xj（k）]，f）+λS<$w<$2，（19）k=1其中，基于边际的秩损失L被定义为L（[xi，xj]，f）=（m ax（1−（f（xi）−f（xj）），0））2.（二十）Swk=argmin（wxk−[hk]）2，（18）正则化超参数λ≥0基于wi=1ici在与训练集大小相同的单独验证集上的准确性。对于非线性RankSVM，我们使用高斯核k（x，x′）=exp−nx−x′n2/σ2与k=1分别在{X}k=1上，并将高斯噪声添加到2在Eq.19被RKHS标准取代结果。在不同的特征矩阵{Xk}12上，对应于k：k =2。前30行中的特征实例源是共享的，提供耦合标签。对于每个任务k，我们使用hk作为主要预测因子f，其余作为参考，总共构成12个预测因子组合问题。图2显示了桥梁估算过程的结果（左）显示度量B) TPC：第二个基线使用Kim et al.的测试时间预测器组合方法（TPC）[10]。该算法最初是为回归而开发的，但将其应用于使用秩损失L的排名是简单的。TPC和我们的算法都需要初始主秩预测器f（0）和参考预测器{g}作为输入，我们从耦合预测Hc评估：从Ind。k=1所显示的矩阵示出了相对于其余预测器（作为参考）的Hk（作为主预测器）该矩阵可被视为桥梁评估过程的地面实况（中）显示指标使用初始估计的桥变量Bkf（0）（等式2）对解耦预测器Hd进行第15段）。考虑到任务噪音的温和水平（如图所示）。2（左）），对解耦观测的初始度量评估已经很好地恢复了潜在的任务依赖性。最后，（右）显示了对去噪预测进行评估的度量通过联合扩散过程。我们的算法成功地抑制了噪声，并细化了底层的度量结构。C) MTL1：最后两个基线（MTL1和MTL2）实现了对两个现有多任务学习算法的调整。MTL1基于Evgeniou和Pontil的适应测试时间组合设置，MTL1最小化4LLMTL1（f）= L（[xi（k），xj（k）]，f）k=1M+λSw2+λ2Wkw −wk2（21）k=1哪里的定义权重参数{Wk}m3.2. 真实数据集我们在七个数据集上评估了我们的联合流形扩散算法，并将其性能与四种基线算法进行了比较。这些数据集中的每个条目都被分配了多个地面实况属性，因此，预测这些属性的相对强度构成了多个预测器组合问题：对于每个目标属性，我们的算法根据剩余的预测因子作为参考来细化相应的预测因子。7558WW−ǁ −ǁ类似地，在我们的任务图Laplacian中（等式2），5）：Wk=exp（ Wwk2/σ2）。超参数λS、λ2和σ2基于验证集进行调整。54许多其他现有的MTL方法，例如参数矩阵分解方法[8]和低秩矩阵学习算法[1]严格要求同时训练，使得它们难以应用于给定固定参考的改进预测器的测试时间组合设置中。5Evgeniou和PontilWk= 1/m。我们的初步实验表明，非均匀版本（方程。21）总是达到更高的准确性，这表明并非所有任务都同样相关。7559S××与RankSVM类似，MTL1也可以使用高斯核（具有超参数σ2）构建非线性预测器D) MTL2适应Pentina et al.的课程学习方法[19]，其惩罚主预测器参数w与单个最佳参考预测器wk的偏差。Pentina等人“的原始算法使用泛化精度上的界来选择参考预测器，这并不直接适用于我们的秩学习问题。相反，验证准确度用于选择参考。对于所有数据集，我们使用不同的训练和验证集配置运行了十个实验，并报告了平均结果。3.2.2数据集A) Public Figure Face（PubFig）数据集包含来自8个随机身份的800张图像[17]。我们的目标是根据11种不同的面部属性（男性化、白色、年轻、微笑、性感、可见的额头、浓密的眉毛、窄眼、尖鼻子、大嘴唇和圆脸）中的每一种的相对强度来估计数据库图像的线性排序。B) 户外场景识别（OSR）数据集提供了8个场景类别和6个属性的2，688张图像[17]。我们使用GIST功能和颜色直方图的PubFig和GIST功能的OSR的组合。属性等级标签是由[17]的作者提供的类别标签构造的对于每个属性，我们使用剩余属性的预测器作为参考来改进相应的预测器。C) 鞋子数据集包含10个类别和10个属性的14，658张图像[11]。我们使用[11]的作者提供的GIST特征和颜色直方图的组合。我们的目标是估计属性排名类似于PubFig和OSR设置。然而，在这里，主要和参考预测变量的数据集是不相交的，我们使用额外的200个配对实例显式估计新娘变量。由于在这种情况下TPC不适用，我们与MTL1和MTL2进行比较。D) Cal 7数据集包含7个类别的1，474张图像（人脸，摩托车，Dolla-Bill ，Garfield ， Snoopy， Stop-Sign和Windor-Chair）作为Caltech-101数据集的子集[7]。该数据集为每个图像提供五种不同的特征表示：小波，Gabor，CENTRIST，HOG，GIST和LBP特征[14]。目标是根据每个条目的类别估计线性数据库对于每个特征，我们配置了相应的主预测任务，并使用剩余的特征构建了参考预测器。对于每个实验，分别为主要和参考预测因子准备了两个不相交的特征集（大致上，一半的数据集被分配给主要预测因子，其余的被分配给参考预测因子），这表示基于异构的、解耦的特征观测来生成多个预测的场景。为了估计桥梁变量，我们使用200个耦合数据实例作为来自联合分布P（f，g1，...，g/m）。由于预测变量在任务之间是解耦的，因此TPC不适用。此外，由于各自的特征空间和相应的预测是异构的，（适应）经典的参数MTL方法不能直接应用。因此，我们将我们的算法与独立基线（Ind）进行比较。E) NUS-WIDE-Object（NUS）数据集包含31个类别的30，000张图像[3]。我们使用颜色直方图，颜色矩，颜色相关性，边缘分布和小波特征，如[3]和[14]的作者所提供的。F) 手写数字（HW）数据集提供了2，000个手写数字的6种不同特征表示，每个特征表示由傅立叶系数，轮廓相关性，Karhunen-Loève系数，2 - 3窗口中的像素平均值，Zernike矩和形态特征表示[2]。NUS和HW的实验设置与Cal7.我们使用200个配对数据来学习桥变量。G) 动物属性（AWA）数据集包含50种动物类别的30，475张图像。我们使用SURF，SIFT和PHOG直方图以及由[13]的作者提供的预训练DeCAF [5]和VGG 19[21]网络实验设置类似于Cal 7-HW的设置，不同之处在于，这里我们明确地将所有数据点跨启用应用程序的任务配对的TPC。这个玩具设置构成了理想的情况下，所有的参考预测是内在相关的细化主要预测，它使我们能够验证TPC和我们的方法的正确操作。3.2.3结果图3总结了结果。虽然不是所有的目标at-tributes显示显着的改善，TPC和我们的算法不断提高或与印度。将TPC与我们的OSR进行比较，其性能几乎相同。对于PubFig，这两种算法在不同的目标属性上表现出了复杂性，而我们的算法实现了更高的平均准确率。AWA上的相应结果明显不同：虽然TPC已经取得了比基线Ind更好的结果，但我们的算法进一步提高了准确性。此外，凭借快速的基于特征分解的方法（等式2），10）我们算法的运行时间比TPC短20秒左右：对于30，475张图像的AWA，我们的算法在整个组合过程中花费了大约0.2秒。由于TPC需要完全耦合的预测器评估，因此它不能应用于Cal7，NUS和HW数据集，其中我们的算法继续优于Ind。对于这些数据集，我们的算法表现出比最佳单个任务预测器更好的性能，这证明了跨多个特征组合预测器的实用性。测试时间组合设置的两个多任务学习适应MTL1和MTL2也显示出可测量的性能改善。他们特别756010090807060959085837363PubFig1 2 3 4 5 6 7 8 9 10 11属性OSR1 2 3 4 5 6属性鞋1 2 3 4 5 6 7 8 9 10属性单个MTL1 MTL2TPC Ours7868584810095908580908580757078736863AWA1 2 3 4 5特征Cal71 2 3 4 5 6特征HW1 2 3 4 5 6特征NUS1 2 3 4 5特征图3.不同排名算法的平均准确度（超过10种不同的训练和测试集配置）。Ind：最佳基线独立预测因子;MTL1和MTL2：现有MLT算法的调整（分别为[6]和[19]）;TPC：Kim et al.的测试时间预测器组合算法[10]。每个误差条的长度对应于标准差的两倍。在OSR数据集的目标属性2、4和5上实现了最高的平均准确度另一方面，对于PubFig和Shoes，我们的算法不断优于这些算法，表现出互补的优势。由于MTL1和MTL2都需要在不同任务之间共享所有预测因子的参数形式，因此当不同任务使用异构特征（Cal7、NUS和HW数据集）时，应用这些算法并不4. 结论在本文中，我们提出了一个新的算法，改进了一个给定的任务预测器，通过组合多个参考预测器，每一个从各自的任务构造。传统的方法需要所有任务预测器的已知和共享的参数形式或多个预测器在单个固定数据集上的评估。我们通过将问题制定为非参数任务依赖估计和通过自动耦合不相交数据实例的预测器的鲁棒联合扩散过程来解决这些限制。这不仅有利于一个新的（解耦，无参数）预测器组合应用程序，但也显着提高了准确性和运行时间超过现有的算法时，应用于具有挑战性的相对属性排名数据集。我们的流形结构（方程。1）和度量衡（方程）。 2 -3）与预测器输出是一维的情况（例如，排名和回归问题）。当输出空间是多维的（例如，多类分类），我们的指标结构需要改变，以调整不同维度的预测。我们希望这可以通过计算输入对之间的典型相关来完成，但它会涉及到非平凡的修改。识别跨异构域的数据耦合是一个具有挑战性的问题。这个问题出现在预测器组合设置中，其中对从多个异构域采样的数据实例评估不同的预测器我们试图通过估计软耦合通过联合扩散过程传播一小组耦合数据点来解决这个挑战我们在这项工作中没有探索的另一种可能性是考虑最近的无标签集合配对方法，例如。使用循环GAN实例化[26]。这种类型的方法并不立即适用于我们的设置，因为它们不会生成显式配对，因此需要修改整个任务依赖度量和相应的去噪过程。今后的工作应探讨这种可能性。准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）7561引用[1] A. Argyriou，T.Evgeniou和M.庞提尔凸多任务特征学习。Machine Learning，73（3），2008. 1、6[2] C.L.布莱克和C.J.梅兹UCI存储库的机学习数据库，一九九八年。https：//archive.ics.uci.edu/ml网站。7[3] T. Chua，J.唐河，巴西-地Hong，H.Li，Z.Luo和Y.郑NUS-WIDE：来自新加坡国立大学ACM CIVR，第48：1-48：9页，2009年7[4] C. Cortes，M. Mohri和A.罗斯塔米扎德基于中心对齐的核学习算法。JMLR，13：795-828，2012. 4[5] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。DeCAF：用于通用视觉识别的深度卷积激活功能。在ICML，第647-655页，2014中。7[6] T. Evgeniou和M.庞提尔规则化的在KDD，第109-117页，2004中。一、六、八[7] L.费费河Fergus和P.佩洛娜从几个训练示例中学习生成视觉模型：增量贝叶斯方法测试101对象类别。计算机视觉与图像理解，106（1）：59-70，2007。7[8] P.Gong，J.Ye和C.张某强大的多任务特征学习。在KDD中，第895-903页，2012年。1、6[9] M. Hein和M.迈尔流形去噪在NIPS，第561-568页，2007中。三、五[10] K. I. 金，J.Tompkin和C.理查德测试时的预测因子在ICCV，第3553-3561页，2017年。一二三六八[11] A. Kovashka，D. Parikh和K.格劳曼Whittlesearch：具有相对属性反馈的图像搜索。在CVPR，第2973-2980页，2012中。二、七[12] A. Kumar和H.多梅三世多任务学习中的学习任务分组与重叠。ICML，第1383-1390页，2012年。1[13] C. H. Lampert，H. Nickisch和S.伤害。学习通过类间属性转移检测不可见对象类。在CVPR，第951-958页，2009中。7[14] Y. Li，F.Nie，H.Huang和J.煌基于二分图的大规模在Proc. AAAI，第2750-2756页，2015中。7[15] Y.卢湖，加-地Wang，J. Lu，J. Yang和C.沈基于中心核对齐的多核聚类模式识别，47：3656-3664，2014. 4[16] Y. Luo，L.陶湾耿角Xu和S.J. 梅班克。流形正则化多任务学习的半监督多标签图像分类。 IEEE TIP ， 22（2）：523-536，2013年。1[17] D. Parikh和K.格劳曼相对属性。在ICCV，第503-510页，2011中。二六七[18] A. Passos，P. Rai，J. Wainer和H.多梅三世多任务学习中潜在任务结构的柔性建模。ICML，第1103-1110页，2012年。1[19] A. Pentina、V.Sharmanska和C. H.蓝伯特多任务课程学习在CVPR中，第5492一、七、八[20] I. Redko和Y.本纳尼无监督转移学习的核对齐在arXiv：1610.06434v1，2016. 4[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。载于ICLR，第arXiv：1409.1556页，2015年。7[22] B. Wang和Z.涂。图像流形的稀疏子空间去噪。在CVPR，第468-475页，2013中。3[23] Y. Yan，E.里奇河Subramanian，G. Liu和N. Sebe多任务线性判别分析在视不变动作识别中的应用。IEEE TIP，23（12）：5599-5611，2014年。1[24] X. Yang，T.Zhang C.，中国古猿科Xu，S.严，M.S. 侯赛因，以及A. Ghoneim深层相对属性。IEEE T-MM，18（9）：1832-1842，2016年。二、六[25] L. W. Zhong和J.T. 郭凸多任务学习与灵活的任务集群。ICML，第49-56页，2012年。1[26] J

下载后可阅读完整内容，剩余1页未读，立即下载