改进的成对排序多标签图像分类方法

83 浏览量更新于2023-10-16 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一种改进的两两排序多标签图像分类罗切斯特大学yli@cs.rochester.edu雅虎研究yalesong@yahoo-inc.com罗彻斯特大学jluo@cs.rochester.edu摘要学习排名最近已经成为一种有吸引力的技术，可以为各种计算机视觉任务训练深度卷积神经网络。特别是，成对排序在多标签图像分类中取得了成功，在各种基准测试中取得了最先进的结果。然而，大多数现有的方法使用铰链损失，输入排名列表决定每类阈值估计输出训练他们的模型，这是不平滑的，因此很难优化，特别是在深度网络中。此外，它们采用简单的算法，如top-k或阈值，来确定哪些标签包含在标签排名列表的输出中，这限制了它们在现实世界中的使用在这项工作中，我们提出了两种技术来改进基于成对排序的多标签图像分类：（1）我们提出了一种新的成对排序损失函数，它在任何地方都是光滑的，因此更容易优化;(2)我们将标签决策模块纳入模型，估计每个视觉概念的最佳置信度阈值我们在贝叶斯一致性和风险最小化框架中对我们的损失函数进行了理论分析，并显示了其优于现有成对排序公式的优点我们证明了我们的方法在三个大规模数据集，VOC 2007，NUS-WIDE和MS-COCO上的有效性，达到了文献中报道的最佳结果。1. 介绍多标签图像分类可以说是计算机视觉中最重要的问题之一，其目标是识别给定图像中所有现有的视觉概念[3]。它有许多现实世界的应用，包括基于文本的图像检索[6]，广告重定向[14]，跨域图像推荐[35]，仅举几例。由于其重要性，该问题已被广泛研究，不仅在图像分类的背景下，但从多个学科和各种背景下。一种流行的方法被称为问题转换[21]，其中多标签问题被转换为多个二进制标签问题。最近的几种方法利用了该问题的一些独特性质，例如图像来源：ReflectedSerendipityonFlickr图1：基于排名的多标签分类采用两步过程：标签预测，其产生标签置信度得分的分级列表;以及标签决策，其确定哪些标签包括在输出中。我们提出了一个新的成对排序损失函数和每类阈值估计方法在一个统一的框架，改进现有的排名为基础的方法在原则上。标签依赖性[1，25]，标签稀疏性[10，12，27]和标签噪声[33，39]。受深度卷积神经网络（CNN）[13，23]成功的启发，其他最近的方法将表示学习和多标签学习结合到端到端可训练系统中[29]。最近，Westonet al. [32]提出了将成对排序应用于图像分类问题的想法。他们的主要思想是，虽然我们最关心的是正确识别积极的标签，但分类器犯“明智的”错误同样重要。具体来说，即使分类器无法识别积极标签，它至少应该为积极标签分配比大多数消极标签更高的排名扩展这个想法，龚等人。[9]应用成对排序方法来训练CNN，并报告了NUS-WIDE多标签图像注释任务的最新结果[7]。而Westonet al.[32] Gonget al. [9]提供了训练各种学习机器的灵活性，在现实世界的问题上具有良好的经验表现，我们认为它在应用于多标签分类时有两个重要的缺点。首先，正如我们在第3节中所示，铰链损失函数用于韦斯顿等人。[32] Gonget al.[9]非光滑，3617预测成对排名(cat，0.99）（花，0.82）(vase0.68）（窗口，0.52）（阶梯，0.21）…（马，0.02）（人，0.01）猫花瓶3618因此难以优化。第二，排名目标没有完全优化多标签目标。为了在概念层面上看到第二个缺点，有两种方法来表达多标签分类的目标一种是使用完全匹配，Σ2. 相关工作多标签分类是一个长期存在的问题，已经从多个角度解决。一种常见的方法是问题转化。例如，Kimet al.[20]独立处理每个标签，并使用二进制对数。minI[Yi==Yi]，（1）我tic loss预测每个标签，而Readet al.[21]将多标签问题转化为多个单标签问题其中，Yi和Yi是预测标签和地面实况标签对于数据集中的第i个示例，I[·]是指示函数。只有当预测与地面实况标签相同另一个更放松的版本是使用汉明距离，使用分类器链和动力装置。Zhang等人[38]提出了ML-kNN，使用k-最近邻来预测来自训练数据的未见过数据的标签。最近的方法利用了多标记问题的各种属性，标签依赖性[1，17，38，25]，标签Σ米|我的天-YY|、（二）稀疏性[10，12，27]和标签噪声[33，39，4]。之间我我我我这最小化了不正确预测的单个标签的总数。注意这两个目标与排名目标的不同，Σ Σ这些，也许最常见的方法是利用标签之间的关系，例如，在某些标签组上的共现统计。亚历山德罗等人[1]将单标签朴素贝叶斯分类器扩展到多标签的情况下，提出了一种树-贝叶斯网络集成，minI[rank（y pos）fv（x），<$u∈Y，v∈/Y（5）其中f u（x）是f（x）的第u个元素。我们可以设计一个损失函数来加强框架内的这种性质3.2. 与相关损失函数的比较当然，我们并不是第一个提出将成对排序用于多标签分类的人。我们将我们的LSEP损失与两种基于成对排序的已发表技术进行比较：[32][ 37 ][38][39跃迁扩展Eqn中的成对排序损失。（6），Westonetal. [32]提出了WARP损失函数，对违规行为赋予不同的权重：通过两两比较来学习排名[16Σ Σl=w（ru）max（0，α+f（x）−f（X）），3620我lrank= ΣΣv∈/Yiu∈Yimax（0，α+fv（xi）−fu（xi）），（6）经纱我v∈/Yiu∈Yiviu我（十一）其中，α是确定裕度的超参数，通常设置为1.0 [9]。不幸的是，上述铰链函数形式是不平滑的，因此难以优化。我们提出了一个光滑的近似方程。（6）使用对数和指数成对（LSEP）函数，其中，每个成对违反都由单调加权cally递增函数w（·），并且ru是正标签u的预测秩。直觉是，如果积极的标签排名较低，违规行为应受到更高的处罚虽然韦斯顿等人的原始工作。在单标签分类上进行了评价，Gonget al.[9]成功的，llsep=log1+ΣΣv∈/Yiu∈Yiexp（f v（x i）− f u（xi））<$. （七）将其应用于多标签图像注释任务。我们的LSEP损失和WARP损失之间有两个关键区别(1)我们的LSEP损失在任何地方都是平稳的，3621我我这使得它更容易优化。(2)它不具有等式1的加权函数w（ru）。（十一）、请注意，我们可以在LSEP损失中添加重量项。虽然权重函数w（r u）的动机很好，但是我们的初步实验表明，与没有它相比，它并没有为我们的模型提供性能提升。我们认为这是因为我们的LSEP损失具有隐含的加权效应，以更严厉地惩罚排名较低的积极因素。如Eqn. LSEP损失的梯度的内部和与ΔYi，u，v成比例，这意味着如果正标签u排名较低（ΔYi，u，v较大），则其梯度将变得更大（惩罚更多）。BP-MLL。Zhang等人[37]提出了BP-MLL（多标签学习的反向传播），这是一种多层感知器（MLP），采用指数成对排序损失进行训练，使用本文中的符号，其损失具有以下形式，Σ Σ我们将我们的标签决策模型g（·）作为一个可学习的函数，通过考虑图像内容来找到最佳决策标准特别地，我们提出了两个版本的g（·），一个估计标签计数（改进top-k），另一个是估计每个最佳阈值，类（改进全局阈值）。我们将g （ ·）定义为f′ （x）之上的MLP，其是CNN的倒数第二层（例如，fc7层）作为MLP的输入，并在顶部添加两个隐藏层，其中每个隐藏层后面都是ReLU非线性[19]。的两个版本的输出层具有不同的形式。标签计数估计。我们将问题转换为n路分类，估计图像中出现的视觉概念的数量，其中n是模型中允许的标签的最大数量。任何具有n个以上标签的图像都被限制在n个标签。我们将输出层定义为n路softmax函数，并使用它来确定返回多少个标签，即，lBP-MLL=v∈/Yiu∈Yiexp（f v（x i）− f u（x i））.（十二）k=argmaxg（f′（x））. f（x）中的前k个随机标签包含在最终输出中。我们使用这与我们的LSEP损失不同，因为遗漏了对数函数中的偏置项。这可能被视为微不足道的差异，但偏倚项对于优化期间获得数值稳定性至关重要[2]。另一个不同之处，softmax（多项式逻辑）损失，使用ki=|Yi|作为第i个图像的标签的地面实况数：.Σexp（gk（f′（xi）在等式n中的笛卡尔乘积上的迭代。（12）使它的复杂性是词汇量的二次方，不像我们的情况，由于负采样，它是线性的。除了我们的LSEP损失由于数值稳定性和负采样而更容易优化之外，我们发现它还优化了一个更好的潜在目标。要看到这一点，BP-MLL损失函数渐近等价于以下损失，Σ Σj=1exp（gj（f′（xi）其中gj（·）是向量g（·）的第j个元素。阈值估计我们把问题转化为K维回归，估计最佳阈值，每个类别都有一个图像。MLP的输出是用于做出决策的标签置信度阈值θ∈RKasymBP-MLL =v∈/Yiu∈Yi（f v（x i）−f u（xi））。（十三）Y={l|fk（x）>θk，θk∈[1，K]}，（15）与我们的LSEP损失的渐近形式（Eqn. （8）），Eqn.（13）不同之处在于它如何处理不违反的情况，即，fu（xi）>fv（xi）.等式（8）使差最大化仅达到裕度αi，但（13）将差推到无穷大。[28]如图所示，也就是说，我们包括置信度得分大于估计阈值的标签。真正的目标是使输出的一个精确子集，即.等式（1），但我们通过交叉熵损失放松它：ΣK模拟通常比最小二乘公式更好地推广lthresh=−Yi，k log（δk）+（1−Yi，k）log（1−δk），（16）我们期望，渐近地，同样的事情发生在Eqn。（8）（LSEP）和Eqn.（13）（BP-MLL）。在我们的实验中，我们经验表明，Eqn所代表的目标（8）在实践中表现得更好，因为它使优化集中在违反情况fv（xi）>fu（xi）。3.3. 标签决策大多数现有的方法使用简单的算法来进行标签决策，例如top-k（即，从分级列表中选择前K个结果）或全局阈值（即，选择置信度得分大于单个阈值θ的标签）;两种方法在做出决定时都忽略图像内容。L3622θ θk=1其中Yi，k={0，1}是第i个样本的第k个标签，并且δθ是sigmoid函数，sigmoid（fl（xi）−θl）训练为了与标签预测模型共享相同的图像表示，我们固定CNN并且仅对标签决策模型中的权重进行优化我们注意到，虽然人们可以尝试通过制定具有组合Eqn的多任务损失的目标来联合学习f（x）和g（f（x））。（9）与Eqn。（14）或Eqn.根据经验，我们发现我们的顺序训练方法几乎总是提供更好的性能。3623u13.4. 实现细节方程的一阶和二阶导数（22）对于标签预测模型，我们使用VGG16 [26]预处理。（f）|x）1公斤=−βTγ（二十三）在ImageNet ILSVRC挑战数据集上训练[23]，我们的CNN模型，用我们的LSEP损失替换原始模型中的softmax损失，并对它进行10次微调。为f（x）R（f）|x）2u，v1Σu，vu，vu，v不标签决策模型，我们设置最大数量的标签n= 4基于我们的数据分析：88.6%和83.7%（x）2 =4u，vβ u，v <$Y u，v <$Y u，v γ u，v（24）来自NUS-WIDE和MS-COCO数据集的图像的标签小于或等于4。我们在第一个隐藏层中使用100个单位，在第二个隐藏层中使用10个单位我们从头开始训练MLP50个方程中的正则化项（4）被定义为具有5e-5的权重衰减的L2范数我们其中βu，v=P（u∈Y，v∈/Y）. 由于等式（24）中的Hessian形式（22）凸的，并且存在全局最小值，w.r.t. f（x）。将导数设为零，我们找到全局最小值：使用SGD优化两个模型，动量为0.9，学习率为0.001。f（x）TYu，vP（u∈Y，v∈/Y|x）= log，v∈ Y（25）P（u∈/Y，v∈Y|x）4. 理论分析因此，对于最优函数f∈（x），保证f∈（x）≥f∈（x），当且仅当u v在本节中，我们展示了LSEP损失的好处，贝叶斯一致性和风险最小化的观点。贝叶斯一致性是损失函数实现正确目标的重要属性[5，24]。让P（u∈Y，v∈/Y|x）≥P（u∈/Y，v∈Y|X）。（二十六）因为P（u∈Y|x，v∈/Y）=P（u∈Y|x）−P（u∈Y，v ∈ Y |x），方程（26）如下：P（u ∈ Y |x）≥ P（v ∈ Y |X），因此f∈（x）≥f∈（x），当且仅当P（u∈Y|x）≥u vf k（x）=P（u∈ Y|（十）、（17）其确定Y中第u个标签的等级。注意，P（u ∈ Y |x）是包含第u个标签的Y的所有可能子集上的边际概率，ΣP（v∈Y|x），这意味着f（x）实现了等式n中的贝叶斯预测规则。（17）。5. 实验P（u ∈ Y|x）=Y∈ Y：u∈YP（Y|（十）（十八）我们在VOC 2007 [8]，NUS-WIDE [7]和MS-COCO[15]数据集上评估了我们的方法，比较了下面我们展示了最小化我们的LSEP损失的解决方案（等式10）。（7））满足贝叶斯预测规则。定理1. 如果f ∈（x）是方程n的极小元，（7）然后f∈（x）= log P（u ∈ Y |x）+c，<$u∈ Y（19）证据考虑使风险最小化的f（x），∫有几种基线方法。我们还将我们的LSEP损失（9）与不同的成对排序损失函数进行了比较，并讨论了我们对标签决策模块的设计决策。5.1. 方法数据集。我们使用VOC 2007 [8]，NUS-WIDE [7]和MS-COCO [15]数据集进行实验。R（f）= E[11sep（f（x），Y）]=lsep（f（x），Y）（20）VOC 2007包含10 K图像，标记有20个COM-mon对象，并分为两部分用于训练和测试LSEP损失在分析上等同于以下损失，但不含对数，分裂。NUS-WIDE包含260 K图像，标记有81个视觉概念。我们按照实验方案36242ΣΣlexp= ΣΣu∈Yv∈/Yexp.Σ-f（x）T∈Yu，v2、（二十一）在Gong等人中，[9]并使用150K随机采样的图像用于训练，其余用于测试。MS-COCO包含120 K图像，标记有80个常见对象。标签其中，Y u，v=Y u−Y v，Y u是一个只有第u项设置为的独热向量。一个. 用 l lsep 代替它，并表示γ u，v=exp − 1f（x）T<$Y u，v，我们可以重写等式（20）关于样本x，R（f|x）=E[lexp（f（x），Y）]|x]= Y|（f（x），Y）用于训练和验证拆分;我们使用验证分割用于测试，这在文献中很常见。对于NUS-WIDE和MS-COCO数据集，我们丢弃了URL无效且没有任何标签的图像。因此，对于NUS-WIDE，我们分别使用150 K和50，261张图像进行训练和测试;对于MS-COCO，我们使用了82，081和40，137张图像进行训练，=YYP（Y|x）u∈Y，v∈/Yγu，v（二十二）测试，分别。在每个数据集上，我们交叉验证了= u，vY|x）γu，v=u，vP（u∈Y，v∈/Y）γu，v基于随机5%样本的模型超参数从训练集里出来。3625yNpypN方法NUS-wideMS-CocoVOC2007PC-PPC-ROV-POV-RF10-1PC-PPC-ROV-POV-RF10-1F10-1Softmax（K）42.752.554.267.543.25.0256.256.859.761.754.85.6373.256.6排名（K）42.656.354.768.245.15.3157.057.860.262.255.45.7170.856.3BP-MLL（K）40.956.853.967.144.04.8955.856.058.960.853.65.2265.354.0WARP（K）43.857.154.567.945.55.1355.557.459.661.554.85.4871.956.9Softmax（θ）50.657.862.276.052.126.158.459.059.563.657.216.674.153.4排名（θ）51.356.564.670.852.525.660.757.964.062.658.017.375.252.0BP-MLL（θ）36.748.249.457.039.217.550.156.652.761.651.614.568.142.5WARP（θ）48.453.159.864.648.521.357.358.960.763.556.915.974.747.5Wang等人[29日]40.530.449.961.7--66.055.669.266.4----LSEP（我们的）66.745.976.865.752.933.573.556.476.361.862.930.679.164.6表1：实验结果（K：top-K，θ：阈值）。我们的方法（使用阈值估计）在所有数据集上实现了两个基于精度的度量，F1分数和精确匹配分数（0-1）方面的最先进的结果。指标.与Gonget al相似。[9]，我们报告了我们的结果，包括每类精确率/召回率（PC-P/R）和整体精确率/召回率（OV-P/R）。每类措施是：标签预测。我们将我们的LSEP损失与四种方法进行比较：softmax，标准成对排序（6），WARP（11）和BP-MLL（12）。PC-P=1ΣKKy=1Nc、PC-R=y1ΣKKy=1NcGy（二十七）虽然softmax函数最初是针对单标签分类提出的，但在实践中，它通常通过问题转换用于多标签场景[21]。其中，K是词汇量，Nc是cor的数量具体地，softmax损耗可以适应多个将场景标记为，第y个标签的正确预测图像，Ny是数字第y个标签的预测图像的数量，Ng是.Σf（x）= 0日岛第y个标签的地面实况图像请注意，每类度量将所有类视为平等的，而不管它们的样本大小，因此可以获得较高的lsoftmax=y∈Yi日志j∈Yexp（fj（xi））.（二十九）通过专注于正确使用稀有类来提高性能。为了弥补这一点，我们还测量了整体精确度/召回率：标签决定。我们评估了两种常见的标签决策作为基准的方法：top-k和阈值。相反NcNc选择任意数量（例如， k= 3，θ= 0。5），我们交叉验证了最佳值，选择参数，OV-P=y=1ΣKy=1y，OV-R=yy=1y克y=1y（二十八）在F1得分方面，在验证分割上取得最佳结果的计数器;我们选择F1得分，因为它是一个它平等地对待所有样本而不管它们的类别。此外，我们还测量了宏F1分数[36]，这是所有类的平均F1分数，以及0/1精确匹配准确度（参见等式10）。（1）），其仅在所有标签都被正确预测时才认为预测我们注意到，我们的指标与 VOC2007 数据集（mAP）的标准指标不同。这是因为我们的方法专注于多标签图像分类的实际设置，其中系统的预期输出是一组标签，而不是具有置信度分数的标签排名列表。5.2. 基线由于我们的方法由两部分组成，标签预测（第3.1节）和标签决策（第3.3节），我们将每个部分与不同的基线方法进行比较。我们还比较了来自Wang等人提出的CNN-RNN方法的最新结果。[29]第10段。NN3626精确度和召回率之间的平衡措施。对于top-k，我们改变k= 1：10;对于阈值，我们在预测置信度分数的最小值和最大值之间的50个等间隔值中改变θ5.3. 结果和讨论整体系统性能。表1显示了我们对VOC 2007 [8]、NUS-WIDE [7]和MS-COCO [15]数据集的评估结果。我们报告我们的方法与标签决策模块，估计最佳的每类阈值。据我们所知，我们的结果是文献中两个基于精度的指标（PC-P，OV-P）和F1评分方面的最佳报告性能。值得注意的是，我们的方法在精确匹配分数（0-1）方面这是对多标签分类的最严格的衡量标准，突出了我们的方法在实际环境中的优越性。3627方法NUS-wideMS-CocoVOC2007PC-PPC-ROV-POV-RF10-1PC-PPC-ROV-POV-RF10-1F10-1Top-k44.855.654.868.345.55.3956.258.660.562.455.86.1972.557.6阈值55.057.067.273.455.029.359.063.461.567.159.823.276.454.5标签计数估计值61.446.173.764.750.933.467.757.672.062.261.430.478.366.3锤石 est. （我们的）66.745.976.865.752.933.573.556.476.361.862.930.679.164.6表2：不同标签决策方法的比较我们使用LSEP损失进行标签预测。后两行显示标签计数估计和每类阈值估计（我们的）。图2：MS-COCO数据集中前10个最常见类别的F1得分我们的方法是基于每类阈值估计，基线方法是基于阈值。图3：两个数据集的平均精确度-召回率曲线。图2显示了MS-COCO数据集中前10个频繁类的每个类的F1得分;同样，我们的方法基于最佳的每个类阈值估计，基线方法基于阈值。它表明我们的方法在各个类中的性能始终优于基线总的来说，我们注意到我们的方法在精度方面表现得特别好;这使得我们即使在低召回率的情况下也能获得最好的F1分数。关于标签决策基线，我们注意到阈值化在大多数情况下都超过了top-k这是因为阈值处理比top-k限制更少;后者被迫总是在输出中包含k个标签，即使存在在图像中出现的单个视觉概念。标签预测比较。图3显示了两个数据集的平均精确度-召回率（PR）曲线公关曲线使我们能够在不考虑标签决策的情况下梳理标签预测的效果。该图显示，我们的LSEP损失在各种决策点范围内优于基线，表明我们的LSEP损失与基线相比具有稳健性。标签决策比较。表2比较了使用我们的基于LSEP损失的标签预测作为基础模型的不同标签决策方法。与我们从表1中观察到的类似，基于阈值的方法在精度和精确匹配分数方面优于其前k对应物。这表明，在多标签分类中选择前k个标签的当前常见做法可以简单地通过使用阈值机制来改进。此外，我们的每类阈值估计优于简单的阈值处理机制的精度和准确的匹配分数方面的一个很大的保证金。这显示了学习每个类别类别的最佳阈值而不是使用一个全局阈值的好处。定性分析我们的标签决策模型估计给定图像的每类阈值。我们证明了这大大提高了性能。该模型的一个副产品是，它自然地估计在给定图像中重新识别视觉概念的复杂性。图4显示了按估计的置信度阈值排序的每个类别我们可以看到，任务难度随着估计阈值的增加而增加。这种影响是由我们如何训练标签决策模型造成的：减少失误3628图4：估计的置信阈值与任务难度相关这里显示的是按估计阈值排序的每个类别的随机采样随着阈值的增加，在给定图像中识别相应的视觉概念变得更加困难。所有图像均来自MS-COCO数据集[15]。Softmax：person，frisbee，sportsball排名：person，frisbee，sportsballBP-MLL：人，飞盘，运动球，风筝WARP：人，汽车，飞盘，运动球我们的：人，运动球Softmax：cat，dog，couch，bed，book，teddybear等级：cat，bed，teddybearBP-MLL：cat，bottle，cup，chair，couch，bed，remote，book，clock，teddybearWARP：cat，dog，couch，bed，book，teddybear我们的：cat，bed，teddybearSoftmax：人，风筝，冲浪板排名：人，风筝，冲浪板BP-MLL：人、船、风筝、冲浪板WARP：人、船、冲浪板我们的：人，冲浪板Softmax：人，床，书，时钟等级：人，床，遥控器，书，时钟BP-MLL：瓶子，椅子，床，遥控器，书，时钟，泰迪熊WARP：人，瓶子，床，远程，书，时钟我们的：床，书，钟Softmax：bottle，bowl，banana，apple，orange等级：banana，apple，orangeBP-MLL：碗、香蕉、苹果、橙子香蕉，苹果，橘子我们的：苹果，橘子Softmax：瓶子，碗，苹果，橙子，冰箱等级：瓶子，杯子，碗，苹果，橙子，冰箱BP-MLL：瓶子，碗，苹果，橙子，花椰菜，胡萝卜，冰箱WARP：瓶子，碗，苹果，橘子，冰箱我们的：瓶子，冰箱，碗图5：定性结果（上：成功案例，下：失败案例，蓝色：真阳性，红色：假阳性，灰色：假阴性）。我们的方法在标签决策方面趋于保守，仅在输出中包含高度相关的标签由标签预测模型作出的，标签判定模型被迫更加保守（即，需要高阈值），反之亦然。这反映在图4所示的图像中，例如，“狗”的最右边的两个图像图5示出了定性结果。如表1所示，我们的方法在标签决策中倾向于更保守例如，图5（a-c）显示了我们的方法产生精确匹配的标签，而图5（d-f）显示了我们的方法遗漏了一些难以在图像中找到的标签，而不是包含不正确的标签。6. 结论针对现有的基于成对排序的多标签图像分类算法，提出了两种改进方法：一种新的易于优化的成对排序损失函数;以及标签决策模型，其确定在输出中包括哪些标签。通过理论分析讨论了LSEP损失函数的优越性，并在VOC 2007、NUS-WIDE和MS-COCO数据集上进行了验证，在精度和F1得分方面均达到了文献报道的最佳结果。我们的工作重点是改进现有的基于排名的多标签分类方法。在未来，我们希望探索利用多标签问题的独特特性的方法，例如标签依赖性，标签稀疏性和缺失标签。低估计阈值高（一）（d）其他事项（b）第（1）款（e）（c）第（1）款（f）第（1）款狗蛋糕自行车3629引用[1] A. 亚历山德罗湾Corani，D. Mau a′和S. 加巴里奥多标记分类的贝叶斯网络集成。InIJCAI，2013. 一、二[2] S. Bach 、黑腹滨藜 A.Binde r ， G.Mont av on ， F.Klauschen，K.- R. Müller和W.萨梅克基于逐层相关传播的非线性分类器决策PloS one，10（7），2015. 4[3] M. R. Boutell，J. Luo，X. Shen和C. M.布朗学习多标签场景分类。Pattern recognition，37（9）：1757-1771，2004. 1[4] S. S. 布卡克山口K. 马拉普拉加达河Jin和A.K. 贾恩。多类学习的有效多标签排名：应用于对象识别。CVPR，2009。2[5] W. Cheng、E. H üllermeier和K. J. 登布琴斯基基于概率分类器链的贝叶斯最优多标签分类。ICML，2010年。5[6] T.- S. Chua，H.- I. Pung，G.- J. Lu和H.- S.阿钟一个基于概念的1994年，《社会科学》。1[7] T.- S. Chua，J.唐河，巴西-地Hong，H.Li，Z.Luo和Y.-T.郑Nus-wide：新加坡国立大学的真实网络图像数据库。在2009年的CIVR中。一、二、五、六[8] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. 齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，2010年。二、五、六[9] Y.贡，Y.贾氏T. Leung、黄毛菊A. Toshev和S.约菲用于多标签图像注释的深度卷积排名arXiv预印本arXiv：1312.4894，2013年。一二三五六[10] D.徐氏S. Kakade，J. Langford，and T.张某经由压缩感知的多标签预测。NIPS，2009年。一、二[11] H. 伊扎迪尼亚湾C. 罗素，A.Farhadi，M.D. 霍夫曼A.赫茨曼来自野外图像标签的深度分类器。InMMCommons，2015. 2[12] A. 卡普尔河Viswanathan和P.贾恩。多标签分类使用贝叶斯压缩感知。NIPS，2012年。一、二[13] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。1[14] A. Lambrecht和C.塔克重定向何时起作用？在线广告中的信息特异性市场研究杂志，50（5），2013年。1[15] T.- Y.林，M。迈尔，S。贝隆吉，J. Hays，P. Perona，D. Ra-manan，P. Dol la'r和C. L. 齐特尼克Microsoftcoco：上下文中的公共对象在欧洲计算机视觉会议上，第740-755页Springer，2014. 二五六八[16] T.- Y.刘某学习为信息检索排序。FTIR，3（3），2009年。3[17] W. 刘和我。曾。多标签预测的大间隔度量学习InAAAI，2015. 2[18] T. 米科洛夫岛Sutskever，K.Chen，G.S. Corrado，J。Dean.单词和短语的分布式表示及其组合性。在NIPS2013中。3[19] V. Nair和G. E.辛顿校正线性单元改善受限玻尔兹曼机。ICML，2010年。4[20] J. Nam， J·金 E. 洛扎·门卡， I. 古列维奇和J. Fürnkranz。大规模多标签文本分类--重访神经网络。ECML PKDD 2014。2[21] J. Read.可扩展的多标签分类。2010. 一、二、六[22] Z. Ren，H.金，Z.林角，澳-地Fang和A.尤尔。多实例视觉语义嵌入。arXiv预印本arXiv：1512.06963，2015年。2[23] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨特伊什妈，Z. Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦，A.C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV，2015年。一、五[24] M. J. Saberian和N. 瓦斯康塞洛斯多级升压：理论和算法。 NIPS，2011年。5[25] X. Shu、黄花蒿D.赖氏H.Xu和L.涛. 学习共享子空间，通过依赖最大化进行多标签降维神经计算，2015年。一、二[26] K. Si

下载后可阅读完整内容，剩余1页未读，立即下载