利用特权信息改善预测的方法及其应用

200 浏览量更新于2023-09-26 收藏 744KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9405i=1{H}--使用特权信息进行通过调整具有统计相关性的特征Kwang InKimUNIST布朗大学摘要给定一个不完美的预测器，我们在测试时利用额外的功能来改善预测，而无需重新训练，也无需了解预测函数。如果训练标签或数据是专有的、受限制的或不再可用的，或者如果训练本身过于昂贵，则会出现这种情况我们假设，额外的功能是有用的，如果他们表现出很强的统计依赖性的基本完美的预测。然后，我们经验估计和加强统计依赖性之间的初始在RGB相机数据上训练，但在RGB-D相机数据上运行。当预测器是专有的或内置于闭源库中并且训练数据不可访问时，TUPI也是有用的，例如，微软Kinect姿态估计器，但新功能将在稍后推出，例如基于深度学习的功能（我们将在第二节讨论更多应用程序）。（五）。问题描述。假设我们有一个估计问题，输入特征空间G和相应的输出空间Y R。传统算法旨在基于输入训练特征G tr={gtr，. . . ，gtr} G和噪声预测器和附加功能通过流形去噪音作为一个例子，我们表明，这种方法导致1对应的任务特定标签Y树L很好。一旦一个…改进了真实世界视觉属性排名。1. 介绍在监督学习中，有时我们在训练时有额外的信息，但在测试时没有。一个前-构造了f * 的配对f I，我们可以将其应用于未知的测试数据点G ={g1，. . . ，g，n}来构造预测|G=[fl（gl），. . . ，fI（gn）].在TUPI场景中，我们假设为测试集G提供了附加特征集{Hi}m，使得每个测试实例gk∈ G伴随有m个附加特征{hi，. . . ，hm}。我们的目标是利用{Hi}来改进示例是人类动作识别，其中训练图像具有额外的骨骼特征，如骨长度[17]。一个-K预报费KI.然而，每个新特征集Hi可以或另一类示例是具有众包标签的任务，其已经从多个嘈杂的人类标签中导出置信度值[13]。在训练中，每个输入和输出对（g，y）具有附加的Vapnik和Vashist提出利用这些数据，使用特权信息进行学习[21]。他们的支持向量机（SVM）训练算法是可能与基本函数f *无关，因此可能对改进f I有用，也可能没用。此外，我们不假设特征提取器g或h i（通过其获得G和H i）或学习函数f（例如，f可以是深度神经网络（DNN）回归器或基于规则的分类器）。最后，我们不假设在测试时访问大量标记数据点（G tr，Y tr阶段否则，问题可以通过添加后来推广到其他学习算法。我们考虑补充方案，其中addi-i mi=1 应用传统的超级仅在测试时才可获得常规特征h。我们称之为使用特权信息的测试（TUPI）。这不同于利用新特征的再训练：给定预先训练的f和具有测试时间特征h的测试数据g，TUPI不假设访问原始的大的标记训练数据集合（gi，y i）。当预测器在单个特征上训练时，TUPI是有用的，但是当部署预测器时，多个（可能是异构的）特征可用。例如，当在单镜头相机上训练预测器但将其应用于多镜头相机（跨智能手机型号或机器人构建变体）时，或者当预测器在多镜头相机上训练时，预测器在多镜头相机上训练。ved特征选择算法[18]。总的来说，剥削在测试期间，用于改进预测的附加信息是不适定的问题，并且现有算法在不访问数据或标签的情况下不能实现这一点，或者仅适用于非常特定的测试时间特征。去噪统计相关性。我们的观点是，如果测试时间特征集是有用的，那么它们将与潜在的完美预测因子f *表现出很强的统计依赖性。例如，在已知完全统计相关的极端情况下，知道H i将立即识别f *。由于我们事先不知道哪些特征集（如果9406i=1≈K·--任何）实际上是有用的，我们必须估计这些依赖性。我们将初始预测因子f I视为f*的噪声版本，并根据经验估计f I与每个特征集H i之间的成对依赖关系。然后，我们选择性地加强或降噪成对的统计依赖性，以提高f I。也就是说，我们：1. 将f I和H im嵌入到模型流形M中，其中Hilbert-Schmidt独立性准则（统计依赖性的一致性度量）构成相似性度量[6]。2. 通过对M[7]进行去噪来加强依赖性。我们展示了具有视觉属性排名的TUPI场景[16]，其中用户为基于属性的数据库排序提供成对排名比较（我们的补充材料包含更多问题细节）。这个问题很适合TUPI，因为排名应用程序通常具有多个相关的特征表示和属性。为此，我们简单地使用相应的秩损失（等式10）。第12段）。通过在七个真实世界的数据集上的实验，我们表明，我们的方法可以导致显着提高估计精度的初始预测。半监督适应。根据最初的预测fI和测试时间特征{Hi}，我们的算法改进了到任意多维测试时间特征（参见第4）.最密切相关的工作是Khamis和Lampert的CoConut框架[9]。这通过经由在相邻点上测量的图形拉普拉斯算子来强制平滑，在共同分类期间正则化输出标签空间以优选某些类别这些点可以由原始特征或测试时间特征来定义后一种情况会导致类似于TUPI的场景，因此我们将CoConut调整为我们的相对属性设置。我们发现，这两种方法在很大程度上是互补的：CoConut利用了通过局部邻域结构（即通过图形拉普拉斯算子）表现出的空间平滑度，而我们的算法利用了在整个数据集上测量的统计依赖性。我们在结合两种算法的补充实验中明确地表明了这一点（图1）。3、补充）。2. 背景Hilbert-Schmidt独立性准则（HSIC）。HSIC是基于概率分布的再生核希尔伯特空间（RKHS）嵌入的统计（不）依赖性的一致度量（参见补充细节和相关应用）[6]。假设我们有两个数据空间V和W，配备有联合概率分布PfI以无人监督的方式。然而，像许多非超...通过比较不同的方法，我们的方法具有（两个）超参数，其必须被调整以获得最佳可能性能。这是一个困难的问题，在无监督环境中没有好的方法在实际应用中，我们必须依赖用户采样和评估超参数，假设他们的选择将由相关问题的经验指导对于我们的方法，用户采样是可行的，因为我们的方法在超参数上引起准确性的平滑并且执行速度快（在50 K项上1秒;参见补充图。①的人。此设置使得客观评估具有挑战性，因为结果取决于用户体验。因此，为了与其他技术进行比较，我们使用验证标签来调整这些参数。这使得我们的自适应算法的验证sce- nario半监督。在我们的实验中，我们进一步表明，使用这样一个小的验证标签集来重新训练一个新的预测器是没有竞争力的。相关的工作。由于TUPI使用小的验证标签集进行超参数优化，因此它可能会让人想起半监督学习，人们可能会考虑从测试时间特征构建一个图拉普拉斯算子来帮助解决任务[25]。在我们的实验中，我们证明了TUPI提供了一个更强大的替代这个简单的基线。TUPI也可能会让人想到多任务学习（MTL），其中针对一个问题学习的特征或功能适用于其他问题[4，14]。在这种情况下，最接近的相关工作是Kim等人。的预测器组合算法[10]，其将来自潜在相关任务的预测视为测试时间特征。但是，这种算法不能应用VW以及边缘Pv和Pw，我们希望估计它们的统计依赖性。与其他流行的相关性措施，如互信息，HSIC不需要估计潜在的联合概率密度。这是有价值的，因为在TUPI场景中，该密度甚至可能（3）第三章。对于V，我们定义了一个可分的函数Kv的RKHS ，其特征在于特征映射：V →Kv和正定核函数kv（v，v′）：=（v），（v′）。类似地，对于W，我们定义Kw、特征映射ψ和对应的核kw。与Kv、Kw和Pvw相关联的HSIC为：HSIC（Kv，Kw，Pvw）=Evv′ww ′[kv（v，v′）kw（w，w′）]+Evv′[kv（v，v′）] Eww′[kw（w，w′）]-2Evw[Ev′[kv（v，v′）]Ew′[kw（w，w′）]]。对于有界和通用[20]核kv和kw，例如高斯核（等式10）。5），HSIC是明确定义的，并且仅当两个分布Pv和Pw独立时为零：HSIC是联合概率度量P vw与用乘积核kvw=Kv Kw计算的边际P v P w的乘积之间的最大均值差异（MMD）[15]：HSIC（Kv，Kw，Pvw）=MMD2（Pvw，PvPw）=µk[Pvw] −µk[ Pv Pw]2，（1）其中k是k的RKHS范数，µk[P]是基于k的P的核均值嵌入[15]。如果核Kx9407，ΣO联系我们i=1--n联系我们X → GXXi=1二、二GHP--Σ--联系我们--IJ我JP转.∈Σ和Ky是通用的，则MMD变成概率分布的适当距离度量（即，仅当PA和PB相同时，MMD（PA，PB）= 0），其应用于联合分布和边缘分布之间的距离对应于独立性条件。在实践中，我们无法获得潜在的问题-其中αi=[W（t）]1ij[W（t）]1jfor 1我其中λ>0是超参数。我们基于扩散方程的隐式欧拉时间离散化3），对任何γ > 0都是稳定的。我们将γ固定为1。扩散过程是非线性的：权重矩阵W和相应的拉普拉斯算子∆在t上演化。能力分布，但仅限于所绘制的样本{vi，wi}n关于P VW但是，HSIC适用于基于样本的估计：经验HSIC估计具有对潜在的真实HSIC的一致收敛保证，这提供了可靠的有限样本估计。因此，我们构建基于样本的HSIC估计[6]：H^SIC=tr[KvCKwC]，3. 测试时的我们现在准备根据样本评估H i和噪声f I来估计每个测试时间特征集与基础函数f *之间的统计依赖性。估计的依赖关系也是有噪声的，因为它们是基于f I的，因此我们将流形去噪应用于超噪声。其中[K]=k（v，v），[K]=k（w，w），以及在估计的依赖性和f I中的压力噪声。vijvIjwijwI jC=I − 111其中1 = [1，. . . ，1].流形去噪这从流形的环境空间内的噪声样本估计潜在的流形结构[5 ， 23 ， 10 ， 7] 。一组数据点 P=p0，. . .，p，m，R，d被假定为来自R，d的底层嵌入式子流形M的“真实”数据的噪声样本，即，pi=ı（qi）+εforqiM，具有嵌入i：MRd。假设身份证。环境空间中的高斯噪声εRd，Hein和Maier为了促进基于HSIC的去噪，我们将特征提取器和预测器函数嵌入到协方差算子或核{k}的黎曼流形中。预测器和特征提取器的流形假设这是从其提取特征的输入数据实例的空间，例如，是像素值图像的空间让我们假设特征提取器g：，从其我们构造估计的预测器f，加上附加类别的特征提取器{hi：X-Hi}m。我们抑制P中的噪声-它将P推向M-而无需直接访问M[7]。我们首先从Rd中P的成对相似度构建图拉普拉斯矩阵∆：∆ = I−D−1W：[W]=κ（p−p，σ）假设所有特征提取器都是可测量的。虽然我们不能直接访问{g，f，h，. . . ，h m}，我们确实有f和{hi}在样本X X上的经验估计：fI=f |g（X）和h i|X=H i.此外，我们假设原始数据实例空间X配备有概率分布Px诱导相应的概率分布：= exppi−pj2P.（二）在和i中，分别为Pg和Phi则f为作为从标记的数据点构建的估计给出尺度超参数σ2>0与对角矩阵D执行概率归一化：[D]ii=[W]i，j。（G tr，Y tr）从联合分布Pxy采样。采用HSIC框架，我们介绍了一个复制-J使用∆作为P上扩散过程的生成元得双曲余切值.的每个元素上的核希尔伯特空间（RKHS）特征和预测器（评估）类：{Y，H1，. . . ，Hm}：去噪算法通过模拟由扩散系数γ > 0的微分方程支配的扩散过程来迭代地改进解P。对于f（G）Y，RKHSKf定义为核kf：Y×Y →R.类似地，RKHSKi用核k i定义：Hi× Hi→R。利用一个Pt= −γ∆P⇒P（t+ 1）−P（t）= −γ∆P（t）。（三）在我们的方法中，我们将预测的评估f1和测试时间特征H1嵌入为流形上的点，以促进去噪f1（Sec.（3）第三章。在这种情况下，只有f演变，而H i在整个扩散过程中是固定的。为了这个目标，在每个离散时间步长t处，我们通过将f（t）放置为第零个元素来构造P（即，其中P中的剩余元素对应于H1，并且将给定Pp0的单个点p0的去噪公式化为最小化能量：MO（p）=p−p0（t）2+λ αip−pi2，（4）i=1Σ标准差- -9408FFXKXX × X →◦ ◦∈ XXRKHS由其核唯一标识，我们可以直接在输入空间上定义新的函数的RKHS：通过应用特征映射g和预测器f从k f导出再生核k f：R：k f（x，x′）：=k f（fg（x），f g（x′））对x，x′. kf的正定性由kf的正定性保证。类似地，基于ki（x，x’）：= ki（hi（x），hi（x’））定义对应于ki的RKHS i。我们使用具有宽度参数σ2的高斯核k f：k f（f（x），f（x′））= κ（f（x）− f（x′）2，σ2）.（五）在这一点上，我们的输入空间配备了一个数据生成分布Px，它本身连接到多个9409X~||^M中文（简体）ΣWo oo~~OO- ---我M是一个环境的Hilbert子流形准备好应用去噪算法（Eq. 4）. M是Σ（f，f′′）]）·- -E级ki（h，（h））−E（hi）′′[ki（h，（h））（K~f（t），K~j），σ2））]M^^RKHS，每个RKHS由特征提取器（或预测器）和对应的RKHS构造。我们将使用这种结构来表征所有特征提取器和预测器，基于它们各自定义的诱导内核，这使我们能够在统一的框架中比较它们。流形嵌入我们将预测器f和特征提取器{h，i}嵌入到归一化核的空间M中：f→~kf：=（kf−µkf）/（kf−µkfkf），（6）K两个随机变量f和hi对x具有联合函数依赖性，因此它们的联合概率密度可能不存在。即使在这种情况下，使用HSIC也能够估计统计依赖性，因为它完全基于内核评估来估计。这对于一些其他依赖性度量是不可能的互信息在实践中，我们有样本评估f I= f |G（大小为η）和对应的特征{Hi}。由此，我们得到一个有限维流形M，其点嵌入f→Kf：=KfC/KfCF其中[Kf]kl=kf（[f]k，[f]l）且F是Frobenius范数。内积（Eq. 7）关于^其中μF 是Px的平均嵌入，基于Mk变成HSIC估计HSIC。核k f[15]，即，µkf =E x[k（x，·）]，且kkf 为E xx′k（x，x′），这两者对于包括高斯核的有界核k f都是明确定义的（等式2）。（五）。类似地，基于~ k将h i嵌入到M中。的空间通过去噪统计相关性来利用测试时间信息。利用流形结构M^，我们现在Hilbert空间M的内积为1M=E xx′[kf（x，x′）ki（x，x′）].（七）我们的M结构是由两点驱动首先，两个中心核kf−µkf和ki−µki之间的内积M正是预测器的HSIC我矩阵Hilbert空间子流形而内─两点KA和KB之间的乘积可以计算为KA，KB= tr[KAKB]（参见当量（七）.然后，我们迭代地最小化能量泛函，替换O（Eq. 4）具有环境度量（限于M）d2（K~f，K~i）：=1−﹥K~f，K~i﹥M：Mf和特征提取器h作为随机变量：2O（f）=d（K~f，K~f（t））+λΣwi（t）d2（K~f，K~i），（8）M=E xx′Σ。kf（x，x′）−Ex′′[kf（x，x′′）]Σ·Mi=1M. ki（x，x′）−Ex′′[ki（x，x′′）]ΣΣf′′ [kFwi（t）=κ（d2M（K~f（t），K~i），σ2）.（九）W.我我我 Σ Σ其中f=fg（x），f′=fg（x′），且f′′=fg（x′′）。第二，注意到EM中的尺度归一化垫层（方程式6）在我们的去噪应用中是必不可少的在像特征选择[18]或聚类[19]这样的应用场景中，使用HSIC而不进行归一化。然而，在我们的去噪场景中，预测变量f基于HSIC如何受到内核评估的影响而被直接优化。在这种情况下，可以缩放HSIC而不影响所得的统计依赖性。例如，在标准点积核（k（x，x′）=xx′）的简单情况下，HSIC成为标准互协方差矩阵的Frobenius范数。这可以通过将f乘以正常数来任意增加，但是恒定缩放不应影响统计依赖性的任何合理测量。常态化下K（t）是f（t）的函数，而K（t）表示从先前时间步t获得的结果。一般来说，当k是非线性的（如对于等式1中的高斯核）时，5），优化问题是非凸的。我们通过梯度下降进行优化，得到f（0）作为初始预测fI。优化的时间和内存复杂度分别为O（mn3）和O（mn2）算法1总结了这个建议的TUPI过程。通过这种形式，我们看到我们的方法不需要知道底层函数f，也不需要知道其特征提取器g，也不需要知道测试时间信息h的底层函数。这满足了TUPI场景。算法解释。我们通过交换与迭代t1的解的偏差（等式1中的第一项）来解决迭代t处的最小化问题。8）具有f的统计依赖性和加权的特征提取器由方程式6，内积~kf，~kiM捕获相同的de-iif和hi之间的悬垂信息与HSIC一样，但减小了f和hi的尺度的影响1M可以有一个（半）黎曼结构，如果我们确定的地方=Eff′hi（hi）′（kf（f，f′）Mj=1 κ（d2、注意，f表示要优化的变量（基于M9410M•→∞（1）（2）（3）（4）（5）（6）（7）（8）（9）（10）（18.见Eq.4）. 每个权重w（t）是估计的依赖强度的递增函数第t步，忽略异常值。权重的均匀性由超参数σ2控制：邻域N（p）及其切空间Tp（M）.2W由于我们将仅使用环境空间距离，因此不需要在M中明确作为σw，所有特征对最小化的贡献相等，这可能包括离群值。9411i=1WO~WO--•转因此，K（t）成为加权的dif--联系我们~→∞--BB- -FWBBfBFW算法1TUPI算法输入：初始预测器评估;测试时间类别特征{Hi}m（等式。8）;超参数λ和σ2特征核的平均值;也就是说，解变得与初始预测K~f（0）无关，这是无用的。这类似于传统的扩散，其中当所有点都演化时，解朝向常数收敛（最大迭代次数T;参见第2节。4）;输出：去噪评估f0;t= 0;f（t）=fI;重复基于等式1计算权重wi（t）9;通过最小化（等式9）来更新f（t）8）;t=t+1;直到满足终止条件（例如， if t ≥ T）;作为σ20，单个最相关（统计相关）特征影响构造，这可能忽略其他不太相关但仍然有益的特征。由于内核化（Eq. 5）和点嵌入中的归一化（K），当预测的绝对尺度不相关时，我们的算法适用，例如，用于排名。对于分类和回归，我们将存储尺度和均值，归一化和去噪，然后恢复尺度和均值。大规模的问题。当优化的时间复杂度O（mn3）和内存复杂度O（mn2）有限时，我们采用Kf的Nystr？ m近似：如t[7]。在我们的情况下，我们仅进化预测器嵌入Kf（t），并保持剩余的测试时间特征em。平均Ki。因此，我们必须在收敛之前终止迭代（参见第24）.4. 实验结果设置.我们在相对属性排名设置上测试我们的方法[16]。我们的算法接收初始秩估计f I和测试时间特征集H i，并输出改进的秩估计f O。在所有实验中，通过深度神经网络（ DNN ）或秩支持向量机（RSVM）[2]（无论哪个给出更高的验证准确度），从具有成对比较标签的200个数据点预测初始化fl。在验证集上优化超参数：RSVM正则化参数、DNN训练时期、DNN MLP层（2 -8）和每层神经元（5-160）。为了优化DNN，我们使用标准的小批量梯度下降和批量归一化。对于DNN和RSVM两者，我们使用软铰链损失IH：有序训练对（q，r）意味着Kf≈KfB K−1K，（10）gq的排名应高于gr：l H（（gq，gr）; f）= max（0，1-（f（gq）-f（gr）2. （十二）其中，对于基集B，[KfB]kl=k f（b k，bl）=b1，. . .，b K和[KfB]kl=k f（[f]k，bl）。近似的秩K是基于计算和存储器容量限制规定的类似地，每个Ki都基于相应的基集近似（Ki≈Ki B[Ki]−1KiB）。例如，等式（1）中的第二（非正规化）迹项8及其关于f的导数写为：tr[KfCKiC]≈ C（f）= tr[KfBSfi]对于所有数据集，我们使用不同的训练集和验证集运行实验10次，并对结果进行平均。准确度测量为相对于所有可能对的正确成对秩比较的比率。TUPI参数和效果讨论。我们的算法需要设置大规模因式分解秩K的值（等式1）。10）、核尺度σ 2（等式10）、核尺度σ2（等式11）。5）、重量均匀性σ2（等式5）8）、迭代次数T和正则化λ。C（f）= 2[[f]kf[B]（k，：）[Sfi]（：，k）、（11）我们将近似秩K固定在50（等式10）。第10段）。对于多维特征，构造基点bk作为其聚类中心。对于一维要素和对于秩预测因子f，我们获得基点作为结束。其中Sfi=K−1KCKiB[Ki]−1KC，[A]（k，：）de-BBf BBB iB各个范围中的线性采样间隔的点注意A的第k行，并且[KfB]kl对应于kf（[f]k，bl）的导数（参见等式（五）。梯度计算中的计算瓶颈是乘法运算KfBCKiB，对于每个i=1，. . . ，m，其时间复杂度为O（mnK2）. 因此，复杂度在数据点的数量n和测试时间特征的数量m中是线性的。收敛而迭代过程中解的轨迹取决于初始解和平均曲线。流形[7]的真实性，在极限情况下（当t→ ∞），解f（t）的嵌入K~f（t）变为加权虽然我们预期基于样本的HSIC的准确度随着K的增加而增加，但K= 200的性能并不显著高于K= 50。对于核尺度参数σ2，我们使用标准启发式算法-tic并将其设置为f的元素的成对距离的标准偏差的两倍。我们以类似的方式为每个特征设置尺度参数。我们调整剩余的超参数σ2和λ在50个验证数据点上，隐式设置T：我们将最大T值设置为50，并监测验证准确性的进展：我们立即终止迭代9412Wi=1Oi=1Y--{−∞}--W我W--每当验证精度没有从先前迭代增加时。σ2和T的影响是互补的：较大的σ2和T值将焦点设置在依赖性更强的特征上，这将导致类似的结果表1.MFeat数据集。给定F1-F6特征，排名算法平均准确率百分比加上括号中的标准差。fI：最初的预测。f0：TUPI与其他F-特征集作为测试时间信息。fR： f0具有额外的10个随机特征。与较小的σ2和T值一样。fS1，S3：fO 仅随机选择1和3个F特征集。基线。由于我们不知道任何现有的算法与测试时间信息的秩检验，我们形成比较parisons与现有的方法，适用于较不一般或替代设置。我们的目标是表明，天真地将现有的算法应用到TUPI是具有挑战性的。我们的基准是：2）在h上用验证标签重新训练DNN或RSVM（无论哪个更好）（因为我们假设小验证集可用）; 3）使用半监督学习（SSL）来构建具有测试时间特征和验证标签的图拉普拉斯算子[25]，4）Khamis和Lampert的CoConut算法[ 9 ]适用于我们的排名预测设置中的TUPI（原则上，他们的方法与我们的方法是互补的），以及5）Kim等人的预测器组合算法[10]。的fG1−G3：f O，其中地面实况目标变量作为测试时间特征（具有减小的噪声标准偏差{1，0. 2，0}）。fIfOfRfS1fS 3fG 1fG 2fG 3F1七十七点八五81.9782.1479.8882.1578.8487.8499.56（2.26）（2.95）（2.86）（1.49）（2.37）（2.35）（0.84）（0.34）F2七十九点二八81.4581.6180.4081.3780.0088.1699.61（1.23）（1.69）（1.60）（1.37）（1.54）（1.22）（0.28）（0.16）75.7078.3178.2577.1278.3276.7787.1399.35F3（2.38）（3.13）（3.16）（1.79）（3.02）（2.20）（0.82）（0.42）F470.8874.3374.3670.8074.2972.0086.2299.53（1.23）（5.00）（5.03）（1.44）（5.02）（1.38）（0.48）（0.48）F5七十六点零五分78.1978.0577.6278.0677.2287.3599.30（2.66）（3.29）（3.26）（3.28）（3.72）（2.62）（0.72）（0.44）F677.1082.2582.4479.3080.7178.0786.9399.44（1.60）（2.09）（1.90）（2.39）（2.58）（1.37）（0.70）（0.28）特征g，其余特征用作测试时间所有基线算法的超参数都是基于在验证集上。特征{Hi}5，创建6个不同的实验设置。O调整CoConut [9]。我们将能量最小化我们的方法持续提高性能（finO′（v）=v−fλC+kCv Lv，（13）表1的第二列）。F1、F2和F6的结果证明了TUPI实用性，其准确度高于最高个体特征（F2）。此外，我们验证我们的其中L是基于测试时间特征空间中的局部k-最近邻（其中k=kC）计算的图拉普拉斯算子，并且λC和kC是超参数。第一项in′确保最终解不会显著偏离f1，而第二项通过加强经由拉普拉斯算子L测量的其空间平滑度来有助于改善最终解。随附的柔软材料提供了这种适应的细节和拉普拉斯L的构造。Adapting Kim et al.[10 ]第10段。该方法从参考任务形成预测分布，然后惩罚它们与目标分布的成对KL-散度。为了使他们的方法适应我们的设置，如果我们让他们的参考任务预测是新特征H1，则当每个特征的（概率）空间与预测空间重合时，该方法起作用。这使得他们的算法仅适用于提供一维测试时间特征作为对潜在相关任务（例如，不久讨论的PubFig和Shoes数据集我们证明，我们的一般多维测试时间特征算法是一个强有力的替代金等人。即使在这种特殊的环境下，我们也不应该采取这种做法。4.1. 结果MFeat. 这包含2,000个手写数字的6个不同的特征集（F1我们使用每个特征集作为基线算法结果（fR）与fO非常相似，没有伪随机特征.此外，我们测量了我们的算法对测试时间特征集的数量的敏感性，随机选择只有一个和三个功能集的五个。结果（表1：fS1， S3）表明我们的算法的性能优雅地降低。最后，我们通过使用真实目标秩作为测试时间信息来验证TUPI在理想情况下的正确操作（表1：f G1−G3）：目标秩变量全局缩放到[0，1]，并被标准差为1，0的零均值高斯噪声污染。2，0。这导致平均峰值信噪比为0的情况。十三十四08- dB。当噪声水平为零时，我们的算法能够充分利用测试时间信息，实现几乎完美的排名。性能会随着噪声级别的增加而缓慢下降PubFig、鞋和OSR。这些包含772图像8类11属性[16]，14，658图像10类别-10个属性的图像[11]和8个类别的6个属性的2，688个图像[11]。目标是估计每个目标属性的排名标签被提供为类别比较，即，每个类别具有比其它类别更强或更弱的某些属性的存在对于PubFig和Shoes，我们构造初始29413--i=1PubFigInvDynAWA0.060.040.0202019年12月11日0-0.1-0.2-0.31二三四五0.050-0.05六七一0.060.040.020鞋1 2 3 4 5 6 7 8 90.060.040.020OSR1、2、3、4、5属性0.30.250.20.150.10.050Zap50K1 2 3 4图1.六个数据集的精度改进超过fI越高越好;误差线是平均值上下一个标准差Kim等人不能应用于AwA、Zap50K或InvDyn。属性以fO精度值的升序排序以提高可读性。我们在补充材料中包括绝对准确度值。使用由Parikh和Grauman [16]提供的GIST特征和颜色直方图来确定排名类似地，对于OSR，使用由[11]的作者提供的GIST特征来构造fI我们从每个目标属性训练一个排名预测器。然后，对于每个属性秩预测器，我们使用所有其他属性秩预测作为测试时间信息。Kim等人已经探索了这种设置[10]因为每个测试时间特征集都是一维的，尽管这种方法不适用于一般的测试时间特征。对于PubFig，Kim等人的预测器组合算法大大提高了性能超过基线fI（图1），其中我们的算法（f0）对属性7-11进行进一步改进CoConut也提高了性能，从fI和它产生的属性1，4，6和7的最佳结果，在这方面CoConut和我们的算法是互补的。在补充材料中，我们证明了通过结合这两种方法，我们可以获得更好的组合算法。对于鞋，Kim等人的算法提供了类似的性能，我们的算法进一步改进了属性3，4，6，7和10。我们的算法不断地超越CoConut。对于OSR，我们的算法和Kim et al.对于属性3和5，Kim等人的算法是互补的：的算法最优;对于其余特征，我们的算法进一步显著地提高了性能。CoConut实现了中等精度增益。随附的补充提供了所有算法结果的统计显著性检验包含7个关节位置、速度和加速度的真实矢量[22]。目标是估计构成7个不同排序问题的7个扭矩对于每个目标输出，仅15个输入测量的子集被提供作为基线特征g，剩余的测量被提供作为测试时间特征H1。仅使用测试时间功能h和SSL严重降低了整体排名性能。这表明测试时间信息是对基线特征的补充，我们的TUPI方法利用该基线特征来提高准确性。在我们的自动评估中，我们使用50个数据点来选择我们算法的超参数。因此，为了比较，我们还示出了在50个数据点上训练新的排名器和基于拉普拉斯的图半监督学习（SSL）排名器的结果（在图中表示为h和SSL）。①的人。即使只有50个标记的数据点，这些排序器也可以显示出比基线fl更高的准确性，特别是对于属性6;然而，它们比属性1的fl差得多我们的方法很少降低性能，这有助于证明我们的算法可以适当地利用新的功能时，一个大的标签集不可用。CoConut没有显示出任何明显的改善。Animals with Attributes dataset（AwA）. 这包含30，475图像的50动物类。我们的目标是根据类别标签对图像进行排名。我们使用由预训练的DeCAF网络[3]提取的特征作为基线特征 G ，并采用 SURF 、 PHOG 和VGG19作为测试时间InvDyn。其中包含45，000个数据点特征{Hi}3. 这些由Lampert等人提供[12 ]第10段。机器人移动任务。每个点都是21维的fea。同样，CoConut改进了基线排名器f I9414i=1--而我们的方法进一步显著地改进了性能。我们观察到，强大的VGG19功能提供了更独特的功能描述，并导致改进：仅使用VGG19测试时间特征的TUPI的性能与使用三个测试时间特征的TUPI的性能几乎相同。在整个去噪过程中，我们的算法成功地完全选择了这些VGG19特征。限制-Zap 50 K数据集。当测试时间信息明显比基线特征更强大时，即使使用少量新标签进行再训练也可以提供更好的结果。这用Zap50K数据集来证明，该数据集包含具有 4 个属性的 50 ， 025 个鞋图像。通过Mechanical Turk[24]通过实例级成对比较收集属性标签我们使用30维颜色直方图特征和960维GIST特征分别作为G和H，如Yu和Grauman [24]所提供的在属性中，我们使用大约300-400对的训练和验证集fI和h分别在G和H上训练，训练和验证标签大小相同。在这种情况下，GIST特征H导致比颜色直方图特征G高得多的准确度。即使在我们的算法5. 结论我们已经考虑了通过利用在预测器训练期间不可用的附加特征来改进预测器的问题我们的论点是，这些功能可以提供额外的预测信息，如果他们表现出很强的统计依赖性的基本任务预测。这通常可能不是真的，例如，如果附加特征与初始预测相同，则没有任何增益然而，为了在实践中测试这一点，我们引入了一种新的算法，估计和加强统计依赖性。在7个真实世界的相对属性排名实验中，平均而言，我们的算法通常会提高基线预测器的性能（43/45个属性），更重要的是，只有很少降低性能（2/45个属性）。这提供了我们的论文在实际应用中成立的证据，即使当特征自适应场景不允许我们对预测器或特征提取器形式或任何已知的现有统计依赖性进行假设时。我们的实验集中在使用标准数据库的两个应用场景：1）当预测器在经典特征上训练并且随后用更强大的特征进行测试时; 2）当预测器在单个特征上训练，但应用于不一定比原始特征更强的多个互补特征时。今后工作应该评估在这种情况下产生的更真实的应用场景中的TUPI其他示例包括：1. 当培训需要研究人员或从业人员无法获得的专用硬件时FPGA或大规模2. 当训练数据是由于粒子加速器等科学仪器的大量存储需求（CERN与Vapnik和Vashist的框架[ 21 ]相关的相反场景3. 由于隐私问题和数据保护法引起的问题。例如，GDPR被遗忘/擦除的权利，其中在已删除数据上训练的预测器仍然可以被保留，但是其中用户重新使用服务将提供新的测试时间特征（例如项目评级/推荐）。今后的工作。提供性能界限，以支持我们的实证研究结果将需要未来的工作，以开发新的理论分析技术。挑战在于1）我们的算法通过HSIC而不是通过公共概率分布距离（例如，KL-发散）。即使我们假设测试时间特征包含地面实况标签，对地面实况的收敛分析也不是简单的，因为大多数现有技术是基于概率分布距离开发的（例如， PAC贝叶斯界）; 2）在估计f *和H im之间的统计相关性时，我们使用f I作为f * 的替代，因此，需要量化f I和f *之间的偏差。致谢这项工作得到了韩国国家研究基金会（NRF）的资助（编号：2021 R1 A2 C2012195）、信息和通信技术规划与评估研究所（IITP）资助（2021 -0-00537，通过自我监督学习恢复图像中不可见部分的视觉常识）和 IITP 资助（ 2020-0-01336，人工智能研究生本材料基于美国国防高级研究计划局（DARPA）和空军研究实验室（AFRL）根据协议编号FA8750 -19-2-1006赞助的研究的美国政府获授权为政府目的复制和分发重印本，尽管其上有任何版权本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表国防高级研究计划局（DARPA）和空军研究实验室（AFRL）或美国国防部的官方政策或认可，无论是明示还是暗示。政府的9415引用[1] K.安东尼你准备好迎接TrackML挑战了吗？、2018.https://home.cern/about/updates/2018/05/are-you-trackml-challenge. 八个[2] O. Chapelle和S.S. 凯尔蒂支持向量机排序的高效算法Information Retrieval，13（3）：201-215，2010. 五个[3] J. Donahue ， Y. Jia ， O. Vinyals ， J. Hoffman ， N.Zhang，E. tzeng和T.达雷尔。DeCAF：用于通用视觉识别的深度卷积激活功能。在ICML，第647-655页，2014中。七个[4] T. Evgeniou和M.庞提尔规则化的在KDD，第109-117页，2004中。二个[5] D.龚氏F. Sha和G.梅迪奥尼图像流形上的局部线性去噪。JMLR，16：265-272，2010. 三个[6] A. Gretton，O. Bousquet，A. Smola和B. Sch oülk opf. 用Hilbert-Schmidt范数测量统计相关性在ALT，第63-77页，2005中。二、三[7] M. Hein和M.迈尔流形去噪在NIPS，第561-568页，2007中。二三五[8] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取在NIPS深度学习研讨会，2014年。8[9] S. Khamis和C.蓝伯特CoConut：输出空间正则化的联合分类。在BMVC，第1-11页，2014

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

利用特权信息改善预测的方法及其应用

用户态应用程序特权级转换的研究与实现

特权应用 android

怎么区分特权指令和非特权指令

linux 特权级转移

appscan特权升级

cortex m55里的矢量预测VRP寄存器解释

stride信息安全威胁建模方法论

android免杀应用

威胁建模 Web 应用程序

什么叫计算机的特权指令

android漏洞利用

appscan特权升级扫描

操作系统是如何阻止应用程序访问cpu寄存器的

特权级从EL0到EL1

risc-v 手册卷2特权体系结构pdf

CSDN如何免费使用会员特权

特权同学fpga代码

ios 应用安全渗透

ensp我无法进入特权模式并且无法配置特权密码怎么解决

最新资源