MIML-FCN:基于特权信息的多实例多标签学习的全卷积网络

11 浏览量更新于2023-10-16 收藏 12.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

115770MIML-FCN+：基于特权信息的多实例多标签学习的全卷积网络0Hao Yang 1，Joey Tianyi Zhou 2，Jianfei Cai 1和Yew Soon Ong 101 新加坡南洋理工大学计算机科学与工程学院。Lancelot365@gmail.com 2 新加坡A*STARIHPC。joey.tianyi.zhou@gmail.com0摘要0多实例多标签（MIML）学习在计算机视觉中有许多有趣的应用，包括多目标识别和自动图像标记。在这些应用中，通常在训练阶段提供附加信息，如边界框、图像标题和描述，这被称为特权信息（PI）。然而，由于现有的使用特权信息的学习方法只考虑实例级特权信息（特权实例），它们未能利用MIML学习中可用的包级特权信息（特权包）。因此，在本文中，我们提出了一种名为MIML-FCN+的双流全卷积网络，通过一种新颖的特权信息损失来解决具有特权包的MIML学习问题。与先前的特权信息方法相比，所提出的MIML-FCN+利用了易于获得的特权包，而不是难以获得的特权实例，使系统在实际应用中更加通用和实用。由于所提出的特权信息损失是凸的且与SGD兼容，并且该框架本身是一个全卷积网络，MIML-FCN+可以很容易地与最先进的深度学习网络集成。此外，卷积层的灵活性使我们能够利用实例之间的结构相关性来促进更有效的训练和测试。在三个基准数据集上的实验结果表明，所提出的MIML-FCN+在多目标识别应用中优于现有方法。01. 引言0在传统的监督学习中，每个训练实例通常与一个标签相关联。随着深度学习的快速发展[12]，在给定丰富的有标签训练数据的情况下，这种单实例单标签分类问题几乎已经解决。例如，对于0在单个对象识别任务（如ILSVRC）中，已经有几种方法实现了超人类的性能[7, 8,10]。然而，在许多实际应用中，我们通常遇到的是训练包的问题，每个包通常包含许多实例，例如视频剪辑中的帧，图像的对象提议，这被称为多实例设置。此外，为了准确描述一个包，我们通常需要将多个标签或标记与之关联，这被称为多标签设置。这种多实例多标签（MIML）学习设置[37]更加通用，但也更具挑战性。0MIML学习在计算机视觉中有许多应用。例如，在多目标识别和自动图像标记问题中，图像可以被分解为许多对象提议，我们可以将每个图像视为一个包，将其提议视为包中的实例，如图1所示。MIML学习问题本质上是给定仅具有包级标签的训练包，如何学习一个能够准确为新包分配多个标签的有效模型。过去几年中，MIML学习问题引起了相当大的关注[25, 32, 21,2]。随着大规模多标签数据集（如YFCC100M[26]和Google Open Images[11]）的发布，将会刺激更多的大规模MIML学习研究。0另一方面，在许多应用中，通常在训练阶段提供附加信息。Vapnik和Vashist[28]将这种附加信息称为特权信息（PI），并表明PI可以作为教师来训练更有效的模型，以解决传统的监督学习问题。这激发了我们将PI纳入MIML学习问题的想法。然而，有两个主要障碍阻碍我们将使用特权信息的学习（LUPI）范式应用于MIML问题。0首先，现有的特权信息研究仅考虑实例级别的特权信息[28,27, 17, 14]。这可能.........15780猫0狗0人0监视器0图1：多实例多标签（MIML）学习问题的实际示例。在这里，我们将图像视为一个包，从图像中提取的提案视为实例，图像中包含的对象视为包标签。0对于传统的监督学习来说，这并不是一个问题，但对于大多数多实例多标签（MIML）任务来说，实例级别的特权信息（PI）很难获得，即每个训练包中的每个训练实例都必须有相应的特权实例。相比之下，包级别的特权信息更容易获取，并且通常已经可用。以前述的多目标识别问题为例，很难为我们提取的每个对象提供特权信息，但对于图像来说，有边界框、标题、描述等都可以用作包级别的特权信息。另一个例子可能是视频识别，其中每个剪辑可以被视为一个包，剪辑中的帧或子剪辑包含不同的对象、活动，可以被视为包中的实例。很明显，包级别的特权信息，如视频描述，更容易获得。因此，在具有特权信息的MIML学习中，考虑缺乏当前文献中的包级别的特权信息更具一般性和意义。其次，大多数现有的特权信息研究仍然基于原始的SVM+公式，其中特权信息被用作松弛函数。尽管这种公式具有许多理论和实践优点[27]，但由于SVM+公式不兼容随机梯度下降（SGD），因此很难将其纳入最先进的深度学习范式中进行端到端训练。因此，现有的特权信息研究无法从深度学习的快速发展中受益。在本文中，我们通过提出一种称为MIML-FCN+的双流全卷积网络来解决这两个问题。在所提出的框架中，每个流处理一种信息源，即训练包和特权包。这两个流网络通过一种新颖的PI损失进行统一，该损失遵循SVM+的高级思想[28]，但采用了完全不同的面向深度学习的实现。具体而言，我们提出利用特权包来建模训练损失，并将其用作凸正则化项，以便实现SGD兼容的损失和端到端训练。此外，受到[35]的工作的启发，该工作表明利用实例之间的结构相关性可以帮助MIML学习，我们进一步提出为每个包构建图，并将结构相关性纳入我们的MIML-FCN+框架中，这要归功于全卷积网络的结构，其中卷积层的滤波器大小和步长可以很容易地调整。本文的主要贡献有三个方面。首先，我们提出并形式化了一种新的具有特权包的MIML学习问题，这在实际应用中更具实用性。据我们所知，这是第一篇利用特权包而不是特权实例的工作。其次，我们提出了一种双流全卷积网络和一种新颖的PI损失MIML-FCN+来解决MIML+PI学习问题。我们的解决方案完全兼容SGD，并且可以轻松集成到其他最先进的深度学习网络中，如CNN和RNN。我们的MIML-FCN+可以灵活地组合不同类型的信息，例如将图像作为训练包和文本作为特权包。如果有的话，它还可以轻松扩展以利用特权实例。第三，我们进一步提出了一种将基于图的实例间相关性纳入我们的MIML-FCN+的方法。0进一步提出为每个包构建图，并将结构相关性纳入我们的MIML-FCN+框架中，这要归功于全卷积网络的结构，其中卷积层的滤波器大小和步长可以很容易地调整。本文的主要贡献有三个方面。首先，我们提出并形式化了一种新的具有特权包的MIML学习问题，这在实际应用中更具实用性。据我们所知，这是第一篇利用特权包而不是特权实例的工作。其次，我们提出了一种双流全卷积网络和一种新颖的PI损失MIML-FCN+来解决MIML+PI学习问题。我们的解决方案完全兼容SGD，并且可以轻松集成到其他最先进的深度学习网络中，如CNN和RNN。我们的MIML-FCN+可以灵活地组合不同类型的信息，例如将图像作为训练包和文本作为特权包。如果有的话，它还可以轻松扩展以利用特权实例。第三，我们进一步提出了一种将基于图的实例间相关性纳入我们的MIML-FCN+的方法。02. 相关工作0多实例多标签学习：在过去的十年中，提出了许多MIML算法[18, 36, 37, 20,19]。例如，MIMLSVM[36]将MIML问题退化为解决单实例多标签问题，而MIMLBoost[36]将MIML退化为多实例单标签学习，这表明MIML与多实例学习和多标签学习密切相关。排名损失在多标签学习中已被证明是有效的，因此Briggs等人[3]提出优化排名损失以进行MIML实例注释。在生成方法方面，Yang等人[33]提出了一种基于Dirichlet-Bernoulli对齐的MIML学习模型。相比之下，在这项工作中，我们考虑使用特权信息来帮助深度学习范式下的MIML学习，这在以前尚未探索过。许多计算机视觉应用，如场景分类、多对象识别、图像标记和动作识别，可以被归纳为MIML问题。例如，Zha等人[34]提出了一种用于MIML图像注释的隐藏条件随机场模型。Zhou等人[36]应用MIML学习进行场景分类。一些工作[21, 32,2]也隐含地利用了多对象识别问题的MIML特性。使用特权信息进行学习（LUPI）：LUPI假设在训练过程中有额外的数据可用，即特权信息（PI），而在测试中不可用。Vapnik和Vashist[28]提出了一种SVM+公式，在训练过程中利用PI作为松弛变量来“教导”学生学习更好的分类模型。15790这个想法后来发展成了两个方案：相似性控制和知识传递[27]。LUPI也被应用于度量学习[6]、排序学习[24]和多实例学习[14]。一些工作将PI应用于计算机视觉应用。例如，Li等人[14]将PI应用于网络图像识别。Sharmanska等人[24]将PI应用于图像排序和检索。然而，大多数现有的PI工作只考虑实例级别的PI，仍然基于SVM+的公式，很难以端到端的方式融入到深度学习框架中。在这项工作中，我们通过一个双流全卷积网络和一个新的PI损失来解决所有这些限制。03. 提出的方法0在多实例和多标签（MIML）学习的背景下，假设训练数据中有n个包，表示为{X_i,Y_i}_n_i=1，其中每个包X_i有m_i个实例{x_i,j}_m_i_j=1，Y_i包含与X_i相关联的标签。我们将Y_i表示为长度为C的二进制向量，其中C是标签的数量。第k维Y_i(k)=1表示第k个标签c_k至少与X_i中的一个实例相关联；否则Y_i(k)=-1。换句话说，如果存在j使得y_i,j(k)=1，则Y_i(k)=1。需要注意的是，在常见的MIML设置中，实例级别的标签y_i,j通常被假设为不可用。在使用特权信息（LUPI）范式进行学习时，我们进一步假设对于每个训练包，存在一个特权包X�_i。X_i和X�_i是同一个真实世界图像的两个视图。X�_i可以包含m�_i个实例{x�_i,j}_m�_i_j=1。这里m�_i通常与m_i不同，并且训练数据和特权信息之间没有实例级别的对应关系。这是我们的工作与之前LUPI研究的一个基本区别，之前的研究总是假设每个训练实例x_i,j都有一个相应的特权实例x�_i,j。03.1. 通过FCN进行MIML学习0MIML：我们首先回顾一下通用的MIML学习流程。给定一个包X，MIML学习的目标基本上是学习一个模型F(X)，使得F(X)与真实标签Y之间的差异很小。一个MIML系统F(∙)通常由两个组件组成：非线性特征映射组件和分类组件。在特征映射组件中，每个d维训练实例x通过非线性映射函数φ(∙)从输入空间映射到特征空间，在特征空间中，训练数据可以是线性可分的。在分类组件中，每个实例首先通过特征空间映射到标签空间，通过0f（x）=φ（x）W，（1）0其中W是一个d'×C的权重矩阵，将d'维映射实例φ（x）分类为标签向量。然后，预测的0实例级标签被转换为包级标签。根据MIML学习的定义，实例级标签yj和包级标签Y之间的关系可以表示为：0Y=max j(yj)，（2）0其中max是逐维度的最大操作，或者作为一组线性约束[1]：02≥1，如果Y（k）=1，yj（k）=−1，�j，如果Y（k）=−1。（3）0让我们考虑第一种情况，即使用公式（2）将实例级标签映射到包级标签。根据这种关系，包级标签预测变为0F（X）=max x∈X φ（x）W。（4）0因此，MIML学习的目标函数可以写成minL（Y，F（X）），（5）0其中L（∙）是适当的多标签损失，如平方损失或排序损失。MIML-FCN：很容易看出，上述形式化的MIML学习可以通过神经网络实现。首先，在特征映射方面，以前的MIML研究通常通过预定义的投影函数（如核函数[1]和Fisher向量[29]或学习的线性投影[9]）将数据从输入空间投影到特征空间，这与神经网络不兼容。另一方面，多个全连接层和非线性激活函数的组合已被证明是强大的非线性特征映射[4,22]。因此，在我们的框架中，我们采用多个卷积层和ReLU层作为特征映射组件。我们之所以使用不包含任何全连接层的全卷积网络（FCN）是因为FCN更灵活，可以处理任何空间分辨率[21]，这对于考虑的MIML问题是必需的，因为每个包中的实例数量不同。特别地，对于φl（x）=g（x，Wl）+bl表示第l个卷积层，其中x是输入，g是卷积操作，Wl是参数，bl是偏置，σ（∙）表示非线性函数，我们的框架的特征映射组件φ可以表示为：0φ（x）=σ（φL（...σ（φ2（σ（φ1（x））））...）），（6）0如果总共有L层。对于1×1滤波器，卷积运算g就是一个点积。MIML中的其他操作也可以很容易地映射到FCN中。具体来说，（4）中的分类组件 15800ReLU0ReLU0卷积卷积0池化0卷积分类0损失0图2：我们提出的MIML-FCN架构的示例。输入是一组m个实例的包，通常组织为1×mi×d（为简单起见，特征维度/通道d通常被省略）。MIML-FCN通常包含几个层对（例如这里的2个层对），其中包括1×1卷积层和ReLU层进行特征映射，一个用于分类的1×1卷积层，一个全局池化层（例如这里的最大池化层）和一个损失层。0是通过具有1×1滤波器大小和参数W的卷积层实现的，将学习到的特征投影到标签空间，然后是一个池化层提取每个包的预测。在（5）中的损失函数通过具有适当的SGD兼容的多标签损失，如平方损失[29,31]和排序损失[29,32]的损失层实现。图2显示了我们提出的MIML-FCN架构的示例，通常包括几个层对（例如这里的2个层对）的1×1卷积层和ReLU层进行特征映射，一个用于分类的1×1卷积层，一个全局池化层（例如这里的最大池化层）和一个损失层。我们要指出的是，类似的网络结构已经在多目标识别和弱监督目标检测的几项先前工作中使用[21,2]，而我们明确地将这样的结构用于MIML，更重要的是，我们将扩展它以纳入特权信息以及实例之间的结构相关性。03.2. 使用特权包的MIML-FCN0训练提出的MIML-FCN可能不像训练单标签CNN那样简单直接，因为MIML学习本身从定义上来说是非凸的。因此，即使仔细调整超参数，该框架可能也无法达到最佳的分类准确率。幸运的是，在许多应用中，通常存在额外的信息，称为特权信息（例如多对象识别中的图像标题），在训练阶段可以帮助我们学习更好的模型。SVM+：利用特权信息进行学习（LUPI）范式最早由Vapnik和Vashist [28]引入。0他们在SVM公式中使用特权信息作为松弛变量，称为SVM+。具体来说，他们的（线性）SVM+目标函数是：0min w, b, w*, b* 1/2(||w|| + γ||w*||) + C∑j=1ξ(x*j)0s.t. yj(wxj + b) ≥ 1 - ξ(x*j), ξ(x*j) ≥ 0, �i, (7)其中γ和C是权衡参数，wxj + b是分类模型，ξ(x*j) = w*xj*+b*是松弛函数，替代了原始SVM公式中的松弛变量ξj。这个松弛函数通过特权信息在训练过程中纠正原始训练数据的相似性概念。尽管LUPI范式具有许多良好的理论和实践优点[28, 27,17]，但直接将该公式应用于MIML学习设置是不可行的，因为存在两个主要问题。首先，在大多数MIML问题中，实例级特权信息或特权实例很难获得。将SVM+直接扩展到MISVM+的先前工作[14]需要特权实例，这极大地限制了它的适用领域。相比之下，包级特权信息或特权包要容易得到得多，通常可以立即使用。其次，相对于传统的SVM，方程(7)相对难以解决。尽管有努力开发新的双坐标下降算法来提高训练效率[13]，但在端到端的方式中统一LUPI和深度学习仍然没有解决。MIML-FCN+：为了克服这些障碍，我们构建了一个名为MIML-FCN+的双流网络。第一个流模拟训练包（与MIML-FCN相同），第二个流模拟特权包。通过这种配置，我们的框架不仅可以有效利用特权包，还可以灵活处理不同类型的数据。例如，如果训练包是图像，特权包是文本，我们明显需要将这些数据映射到不同的特征空间，以便有效提取知识，而我们的双流网络可以相应地配置。如果特权信息是文本，我们甚至可以使用RNN。使用MIML-FCN+，我们需要一个与SGD兼容的特权信息损失来替换原始损失，以便在训练过程中利用特权包作为“教师”。由于处理松弛变量很困难，受[28]的高层思想启发，我们提出利用特权信息来建模训练数据的损失，惩罚PI建模损失和真实损失之间的差异，并将差异作为正则化项添加到方程(5)中。具体而言，假设对于每个训练包Xi，我们有一个特权包X*i。我们使用第二个流的网络（称为松弛-FCN）来模拟特权包。与第一个流的网络（称为损失-FCN）模拟训练包不同，第二个流的目标不是学习一个分类模型，而是模拟15810第二个流的输出对于输入的特权包X*记为F*(X*），两个流共享由以下公式定义的相同损失层：0最小化 L(Y, F(X)) + λ||L(Y, F(X)) - F*(X*)||^2, (8)0其中||∙||2是L2范数。在SVM+中，特权信息用于建模松弛变量，可以看作是一组允许违反边界约束的容忍函数。在提出的MIML-FCN+中，我们利用这个思想，利用特权信息来近似原始训练数据的分类错误。一方面，松弛-FCN模拟了使用特权信息对训练包进行分类的困难程度。另一方面，松弛-FCN可以提供一种正则化分类错误以避免过拟合的方法。提出的MIML-FCN+可以以交替的方式进行优化。具体而言，我们在固定松弛-FCN的参数的同时更新损失-FCN的参数，直到其收敛，然后在固定损失-FCN的参数的同时更新松弛-FCN的参数。这个过程重复多次，直到整个系统收敛。03.3. 利用实例之间的结构关联0在前面的章节中，我们使用卷积层中的 1 × 1过滤器，将包中的实例视为独立同分布（i.i.d）样本。这种假设忽略了包中的实例很少是独立的，实例之间的相关性通常包含结构化信息。以图像中的物体候选框为例，这些候选框明显是相关的，因为它们之间存在大量重叠。Zhou等人[35]表明，将实例视为非独立同分布样本对于学习更有效的分类器是有帮助的。他们的MIGraph和miGraph方法明确或隐含地使用图来利用包中实例之间的结构化关联。我们的MIML-FCN+框架可以灵活地整合这种实例之间的结构化关联，因为我们的框架基于FCN，卷积层的过滤器大小可以轻松调整以适应图输入。具体而言，我们首先为每个包构建一个最近邻（NN）图，这是一种简单有效的捕捉包中实例之间关联的方法。假设对于图中的每个顶点，即每个实例，存在k 条边连接到其他顶点，即其 k个最近邻。我们可以将这个图组织为一个 3D张量，并将其作为我们系统的输入。张量的维度将为 k × mi × d，其中 m i 是包 X i 中实例的数量，d是每个实例的维度。我们在第一个卷积层中使用 k × 1的过滤器，而不是使用 1 × 1 的过滤器。这样，0我们实质上不仅利用了每个实例本身，还利用了图中其 k个最近邻实例。通过将每个实例视为图中的连接顶点，我们可以潜在地学习到更强大的网络。04. 多目标识别：一个实际示例0在本节中，我们以多目标识别为实际示例，展示如何应用我们提出的MIML-FCN+框架。我们还在实验部分验证了该框架在此应用中的性能。多目标识别是指从一张图像中识别多个物体。由于物体可能来自不同的位置、尺度和类别，从训练图像中提取物体候选框是很自然的。因此，对于训练数据，我们将每个图像称为一个包X，将从图像中的候选框提取的特征称为包中的实例。特别地，我们使用ROI池化的CNN特征作为候选框的特征，就像[23]中一样。我们将MIML-FCN+框架叠加在ROI池化的CNN之上，并对整个系统进行端到端的训练。作为特权包的边界框：对于特权包，我们利用两种不同类型的特权信息。第一种类型的特权信息是物体的边界框。为了利用这些信息，我们提出了一个PI池化层来替换slack-FCN中的全局最大池化，如图3(a)所示。这个PI池化层识别出与真实边界框具有≥ 0.5 IoU的真正正例候选框，并对这些候选框的分数进行平均池化，以更好地利用包中的关键实例。对于负例候选框，PI池化层仍然使用最大池化。数学上，这个PI池化层可以定义为：0F � ( k ) = 10| P k表示集合的大0j ∈ P k ˜ y � j ( k )，如果 Y ( k ) = 1，max j˜ y � j ( k )，如果 Y ( k ) = -1，(9)0其中，P k 是与第 k 个类别的真实边界框具有 ≥ 0.5 IoU的候选框集合，˜ y � j ( k ) 是第 j 个候选框和第 k个类别在slack-FCN中的预测实例或候选框级别分数，F � ( k) 是slack-FCN中第 k 个类别的预测包级别分数，Y ( k )是对应的损失-FCN的真实标签。需要注意的是，提出的PI池化只能在slack-FCN中使用，因为它只在训练中可用而不在测试中。考虑到只有池化层在slack-FCN中发生了变化，损失-FCN和slack-FCN可以共享相同的特征提取网络，即VGG-16与ROI池化，如图3(a)所示。此外，损失-FCN和slack-FCN中仅使用一个卷积和Relu层对特征进行映射，而不是使用两个卷积和Relu层对特征进行映射，与之前的方法相比。≈15820带有ROI池化的VGG-160ReLU01 x1卷积0cls0损失0ReLU01 x1卷积0边界框0最大池化0cls0特权信息池化0(a) 边界框作为特权信息0带有ROI池化的VGG-160ReLU01 x1卷积0cls0损失0ReLU01 x1卷积0标题0最大池化0cls0最大池化0word2vec0平均池化0(b) 图像标题作为特权信息0图3：提出的MIML-FCN+与带有ROI池化的VGG-16相结合的多对象识别方法。(a) 使用边界框作为特权信息；(b)使用图像标题作为特权信息。0图2。这是因为经验上我们发现一个卷积和Relu层对表现更好。将图像标题作为特权信息：第二种特权信息是图像标题。考虑到一个图像包含多个标题，我们将一个图像的所有标题称为一个特权包，每个单独的标题称为一个实例。为了更好地表示这些标题，我们从每个单词中提取word2vec特征，并使用加权平均特征作为每个句子的表示。随后，我们将这些特征输入到我们的slack-FCN中，如图3(b)所示。注意，也可以使用RNN来编码每个标题，然后附加我们的slack-FCN，这将使整个系统可以端到端地训练。我们还需要决定什么类型的损失适合用于训练提出的多对象识别网络。在这项研究中，我们考虑了两种损失：平方损失和标签排序损失。平方损失：之前的研究[29,32]表明，平方损失可以成为多标签学习的一个非常强大的基准。因此，我们将平方损失作为我们框架的一种配置。具体而言，一般的成本函数为0在(8)中变为0min ∥ Y − F ( X ) ∥ 2 2 + λ ∥∥ Y − F ( X ) ∥ 2 2 − F �( X � ) ∥ 2 2 , (10) 其中对于 F ( X ) 和 F � ( X � )的梯度很容易计算。标签排序损失：Huang等人[9]提出了一个近似的标签排序损失用于三元组 ( X, y, ¯ y )，其中 X是一个输入包，y 是其相关标签之一，¯ y是其不相关标签之一。这个损失的关键思想是学习一个模型，使得对于每个训练包，其相关标签比其不相关标签排名高出一个边界。具体而言，该损失由以下公式定义：0L r ( X, y, ¯ y ) = � ( X, y ) [1 + F ¯ y ( X ) − F y ( X )] +0� 0 如果 ¯ y 没有违反；S ¯ Y ,v (1 + F ¯ y ( X ) − F y (X )) 否则 (11)0其中 S ¯ Y ,v是一个归一化项[9]。为了以SGD方式训练公式(11)，可以在每次迭代中随机采样一个三元组 ( X, y, ¯ y)，并且可以轻松计算和反向传播公式(11)的梯度。对于我们的MIML-FCN+，我们不是采样一个三元组 ( X, y, ¯ y)，而是在每次迭代中采样一个四元组 ( X, X � , y, ¯ y)，并进行优化：0min L r ( X, y, ¯ y ) + λ ∥L r ( X, y, ¯ y ) − F � ( X � , y, ¯ y )∥ 2 2 . (12)最后，在训练完提出的MIML-FCN+之后，我们只使用loss-FCN进行测试。05. 实验0在本节中，我们在三个广泛使用的多标签基准数据集上验证了提出的MIML-FCN+框架的有效性。05.1. 数据集和基线0我们在PASCAL视觉对象分类挑战(VOC)2007和2012数据集[5]以及MicrosoftCOCO数据集[16]上评估我们的方法。这些数据集的详细信息列在表1中。我们使用VOC数据集的训练和验证集进行训练，测试集进行测试。对于MSCOCO，我们使用train2014集进行训练，val2014集进行测试。对于VOC数据集，我们使用边界框作为特权信息，并使用4节中讨论的PI池化层。对于MSCOCO数据集，我们使用两种类型的特权信息，边界框和图像标题。使用的评估指标是平均精度(AP)和平均平均精度(mAP)。我们与几种MIML学习的最新方法进行比较，85.58686.58787.58888.58989.59090.5Square-NoDropoutSquare-DropoutRank-NoDropoutRank-Dropout15830表1：数据集信息0数据集 #训练包 #测试包 #训练实例 #标签 #平均标签0VOC 2007 5011 4952 2.5M 20 1.4 VOC 2012 11540 10991 5.7M 20 1.4 MS COCO82783 40504 41M 80 3.50• MIML FAST[9]：一种基于近似标签排序损失的快速有效的MIML学习方法，如前一节所述。MIMLfast首先通过线性投影将每个实例投影到共享特征空间，然后为每个标签学习K个子概念，并选择得分最高的子概念。MIML-fast还使用全局最大值来获得包级别的得分。他们的方法与我们的基线MIML-FCN的主要区别在于我们的特征映射可以是非线性的。• MI FV[30]：一种基于Fisher向量（FV）的MIL学习方法，将每个包编码为单个Fisher向量，然后使用排序损失或平方损失在FV上训练多标签分类器。• RANK LOSS SIM[3]：排序SVM公式的MIML学习扩展。还有其他MIML学习方法，如MIMLSVM、MIMLBoost [36]和KISAR[15]，但它们对于我们的大规模应用来说速度太慢。除了MIML学习方法，我们还将我们的MIML-FCN+框架与不将任务形式化为MIML学习问题的多目标识别的最新方法进行比较，包括VeryDeep [25]、WS-DDN[2]和MVMI框架[32]。然而，我们没有与现有的特权实例方法（如SVM+ [28]和sMIL+[14]）进行比较，因为它们只能处理特权实例而不能处理特权包。据我们所知，我们提出的MIML-FCN+是唯一可以利用特权包的方法。对于我们自己的MIML-FCN+框架，我们考虑了三种不同的变体：•MIML-FCN：没有特权实例的基本网络。•MIML-FCN+：两个流网络，loss-FCN和slack-FCN，使用边界框作为特权实例，表示为MIML-FCN+BB，或使用图像标题作为特权实例，表示为MIML-FCN+CP。•G-MIML-FCN+：两个利用NN图的流网络。它也有两个版本：G-MIML-FCN+BB和G-MIML-FCN+CP。05.2. 设置和参数0根据第4节的讨论，我们将数据集中的每个图像视为一个包。对于每个图像，我们使用区域建议网络（RPN）[23]提取最多500个提议，每个提议被视为包中的一个实例。即使对于相对较小的VOC2007数据集，这导致了数百万个训练实例。对于特征提取，我们使用Faster R-CNN[23]的网络架构。基本上，我们的特征提取网络是VGG-16网络[25]，带有ROI池化层，去除了所有与分类/检测相关的层。为了公平比较，所有我们比较的方法都使用相同的特征，尽管一些方法（如我们的MIML-FCN+和WSDDN [2]）可以与特征提取网络集成并进行端到端训练。00 1 2 非线性映射层的数量0图4：我们的MIML-FCN方法在VOC2007数据集上不同网络配置下的结果。x轴表示卷积-ReLU层对的数量作为非线性特征映射。“Square-NoDropout”：无dropout的平方损失；“Square-Dropout”：有dropout的平方损失；“Rank-NoDropout”：无dropout的标签排序损失；“Rank-Dropout”：有dropout的标签排序损失。0实例在包中0我们的基本MIML-FCN包括一个卷积层、一个ReLU层、一个分类层、一个池化层和一个损失层，如图3所示。卷积层总共包含2048个滤波器。我们测试了一些可能的滤波器数量，如{4096，2048，1024}，发现2048可以稍微提高准确性。我们还研究了不同数量的卷积和ReLU层对、dropout的影响，以及平方损失和标签排序损失之间的差异。结果如图4所示。根据这些结果，我们决定Table 2 reports our experimental results compared withstate-of-the-art methods on the three benchmark datasets.Comparing our basic network MIML-FCN with state-of-the-art MIML methods (upper part of the table), we cansee that our MIML-FCN achieves signiﬁcantly better ac-curacies. Speciﬁcally, MIML-FCN achieves around 1.2%performance gain over miFV, which uses Fisher vector asa holistic representation for bags. This suggests that us-ing neural networks for MIML problem can better encodeholistic representation. One interesting observation is that,if we remove the ﬁrst convolutional and ReLU layers ofour MIML-FCN, it becomes worse than miFV. This phe-nomenon conﬁrms the effectiveness of non-linear mappingcomponent in our system. For MIMLFAST, the main differ-ence is that we employ square loss instead of label rankingloss and we have a non-linear ReLU function. Our MIML-FCN obtains more than 2% accuracy gain over MIML-FAST, which once again conﬁrms the effectiveness of non-linear mapping over linear mapping.For comparisons with other state-of-the-art recognitionmethods (middle part of the table), it can be seen that ourbasic MIML-FCN achieves similar results as WSDDN, asthe principles behind both methods are similar.In con-15840表2：VOC 207、VOC 2012和MSCOCO数据集上最先进方法的分类结果比较（以%表示）。上部分显示了其他MIML学习方法的结果，中部分显示了最先进的识别结果，下部分显示了提出的MIML-FCN+及其变体的结果。0VOC 2007 VOC 2012 MS COCO0RANK LOSS SIM[3] 87.5 87.8 -0MI FV [30] 88.9 88.4 62.5 MIMLF AST [9] 87.4 87.5 61.50WSSDN [2] 89.7 89.2 63.1 VERY DEEP [25] 89.7 89.3 62.6MVMI [32] 92.0 90.7 63.70MIML-FCN 90.2 89.8 63.5 MIML-FCN+BB 92.4 91.9 65.6MIML-FCN+CP - - 64.6 G-MIML-FCN+BB 93.1 92.5 66.2G-MIML-FCN+CP - - 65.40选择一个具有平方损失的卷积-ReLU层对。我们的主要超参数是权衡参数λ，通过在训练数据的一个小子集上进行交叉验证来调整。另一个重要的超参数是G-MIML-FCN+中的最近邻数k，我们在所有实验中将其设置为5。对于其他方法，如果有的话，我们遵循其论文中指定的参数调整。05.3. 分类结果0相比于将任务视为MIML问题，VERY-DEEP[25]将其视为多个单标签问题，其中它使用不同尺度的多个图像作为网络输入，将来自不同尺度的所有特征连接在一起作为最终表示，然后从这些表示中学习多个二元分类器。我们的基本网络MIML-FCN和WSSDN都比VeryDeep取得了更好的性能。更重要的是，表2证明了使用特权信息的有效性。需要注意的是，由于标题只在MSCOCO数据集中可用，因此MIML-FCN+CP仅应用于COCO。从表中可以看出，MIML-FCN+BB在三个数据集上的性能比MIML-FCN提高了约2%，验证了我们特权包的思想的有效性。尽管MIML-FCN+CP不如MIML-FCN+BB有效，但它仍然优于MIML-FCN。将MIML-FCN+BB与最先进的多视图多实例(MVMI)框架[32]进行比较，两种方法都使用了边界框，我们的框架将BB用作特权信息，而他们的框架在多视图设置中隐式地将BB用作标签视图。需要注意的是，表2中[32]的结果是他们系统和VeryDeep的融合，但我们的MIML-FCN+BB仍然取得了更好的性能。此外，将MIML-FCN+BB与G-MIML-FCN+BB以及MIML-FCN+CP与G-MIML-FCN+CP的结果进行比较，我们可以看到通过进一步利用实例间的相关性，我们的框架可以取得更好的性能。06. 结论0在本文中，我们提出了一种名为MIML-FCN+的双流全卷积网络，用于具有特权包的多实例多标签学习。与现有的特权实例研究相比，我们探索了特权包而不是特权实例。我们还提出了一种新颖的特权信息损失，它类似于SVM+的高级思想，但与SGD兼容，并可以集成到深度学习网络中。我们还通过对网络架构进行简单修改来探索利用实例之间的结构相关性的好处。我们通过多对象识别的实际示例证明了我们系统的有效性。在包含数百万个实例的三个基准数据集中，我们取得了显著更好的性能。对于未来的方向，我们打算探索更多可能的应用以及其他类型的特权信息。我们还可以研究所提出的特权信息损失和SVM+损失之间的理论差异。致谢：本研究部分得到了NTU内部资助的支持。用于此研究的图形卡由NVIDIACorporation捐赠。15850参考文献0[1] S. Andrews, I. Tsochantaridis和T. Hofmann.多实例学习的支持向量机. 在NIPS中，页码561-568，2002年。[2]H. Bilen和A. Vedaldi.

下载后可阅读完整内容，剩余1页未读，立即下载