弱监督多实例度量学习的高效方法

163 浏览量更新于2023-10-15 收藏 12.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Caption: Cast members of 'The Lord of the Rings: The Two Towers,' Elijah Wood (L), Liv Tyler, Karl Urban and Andy Serkis (R) are seen prior to a news conference in Paris, December 10, 2002.15760使用弱监督数据进行高效的多实例度量学习0Marc T. Law 1 Yaoliang Yu 2 Raquel Urtasun 1 Richard S. Zemel 1 Eric P. Xing 301 多伦多大学 2 滑铁卢大学 3 卡内基梅隆大学0摘要0我们考虑在弱监督的环境中学习距离度量，其中“包”（或集合）的实例用“包”（或集合）的标签进行标记。一种常见的方法是将问题表述为多实例学习（MIL）问题，其中度量学习的目标是使被推断为相似的实例之间的距离小于被推断为不相似的实例之间的距离。经典方法交替优化学习到的度量和相似实例的分配。在本文中，我们提出了一种同时学习度量和实例分配的高效方法。特别地，我们的模型通过解决一种扩展的k-means问题来学习，该问题用于MIL问题，其中实例根据在包级别提供的注释被分配到类别中。我们的学习算法比现有的MIL问题度量学习方法快得多，并在自动图像注释和面部识别的实例分类中获得了最先进的识别性能。01. 引言0距离度量学习[33]旨在学习一个距离度量，以满足训练数据集中对象之间的某些相似关系。根据上下文和应用任务，距离度量可以被学习为使相似对象彼此更接近于不相似对象[20,33]，以优化某个k最近邻准则[31]或将相似对象组织到同一簇中[15, 18]。经典的度量学习方法[15, 16, 17, 18, 20, 31,33]通常认为每个对象由一个单一的特征向量表示。例如，在人脸识别任务中，一个对象是包含一个人脸的图像的向量表示；如果两个图像表示同一个人，则认为它们是相似的，否则认为它们是不相似的。尽管这些方法在数据集的每个示例只表示一个标签时是合适的，但许多视觉基准数据集，如Labeled Yahoo! News [2]、UCI Corel5K [7]和PascalVOC [8]，包含多个标签的图像。0文档检测到的人脸包0检测到的标签：- ElijahWood - Karl Urban - AndySerkis0图1. Labeled Yahoo!News文档，右侧为自动检测到的人脸和标签。该包含4个实例和3个标签；Liv Tyler的名字未从文本中检测到。0本文关注的是多标签上下文，这些上下文可能有很大的不同。特别是，在我们考虑的应用中，提供标签的方式有所不同。为了便于说明，图1展示了Labeled Yahoo!News数据集的一个示例：该项是一个包含一个图像的文档，图像中代表四个名人。图像中的人物是通过应用于文档中与图像相关的标题的文本检测器提取出来的；从文本中提取的标签指示图像中存在几个人，但不指示它们的确切位置，即标签与图像中的人脸之间的对应关系是未知的。在Corel5K数据集中，图像标签是在图像级别提供的标签（例如水、天空、树、人）。一些作者[11,12]提出在这种弱监督的上下文中学习距离度量，其中标签（例如标签）仅在图像级别提供。受多实例学习（MIL）[6]的启发，其中要比较的对象是包含一个或多个实例的集合（称为包），他们学习了一种度量，使得相似包（即包含相同类别实例的包）之间的距离小于不相似包（即它们的实例都不属于同一类别）之间的距离。在图1的上下文中，包的实例是通过面部检测器[28]从图像中提取的面部的特征向量。如果至少有一个人被标记为同时出现在两个图像中，则认为两个包是相似的；否则它们是不相似的。在图像中的上下文中，我们考虑在弱监督的环境中学习距离度量，其中实例的“包”（或集合）用“包”（或集合）的标签进行标记。一种常见的方法是将问题表述为多实例学习（MIL）问题，其中度量学习的目标是使被推断为相似的实例之间的距离小于被推断为不相似的实例之间的距离。经典方法交替优化学习到的度量和相似实例的分配。在本文中，我们提出了一种同时学习度量和实例分配的高效方法。特别地，我们的模型通过解决一种扩展的k-means问题来学习，该问题用于MIL问题，其中实例根据在包级别提供的注释被分配到类别中。我们的学习算法比现有的MIL问题度量学习方法快得多，并在自动图像注释和面部识别的实例分类中获得了最先进的识别性能。5770年龄注释[12]（例如，在Corel5K数据集中），一个包是一个图像，其实例是使用图像分割算法[25]提取的图像区域。包之间的相似性还取决于在图像级别提供的至少一个标签的共现。多实例度量学习（MIML）方法[11,12]将问题分解为两个步骤：（1）首先确定和选择不同训练包中的相似实例，（2）然后解决经典度量学习问题。这两个步骤的优化是交替进行的，这是次优的，并且他们在第二步中使用的度量学习方法具有很高的复杂性，可能不可扩展。贡献：在本文中，我们提出了一种MIML方法，通过利用弱监督标签，联合学习MIL环境中的度量和实例的分配。特别地，我们的方法通过将实例集合表示为学习度量的函数，联合学习MIML方法[11,12]的两个步骤。我们还提出了模型的非线性核扩展。我们的方法在弱监督人脸识别和自动图像注释的标准任务中获得了最先进的性能。它还比经典的MIML方法具有更好的算法复杂性，并且速度更快。02. 提出的模型0在本节中，我们提出了一种称为多实例度量学习用于聚类分析（MIMLCA）的方法，该方法在弱监督多标签环境中学习度量。我们首先介绍我们的符号和变量。我们在第2.2节中解释了当已知并固定了各个包中的标签集合和用于比较实例的距离度量时，我们的模型如何推断数据集中的哪些实例是相似的。最后，在第2.3节中，我们介绍了我们的距离度量学习算法。02.1. 预备知识和符号0符号：Sd+是d×d对称半正定（PSD）矩阵的集合。我们记作�A, B� := tr(AB�)，A和B是实值矩阵；∥A∥ :=0tr(AA�)，A的Frobenius范数。1是具有适当维度的全1向量，A†是A的Moore-Penrose伪逆。模型：与大多数距离度量学习工作[14]一样，我们考虑由d×d对称PSD矩阵M=LL�参数化的马氏距离度量dM0对于所有a，b∈Rd定义为：0dM(a, b) =0(a - b)�M(a - b) = ∥(a - b)�L∥ (1)0训练数据：我们考虑训练数据集提供了m个（弱）标记的包的情况。具体来说，每个包Xi∈Rni×d包含ni个实例，每个实例0其中表示为d维特征向量。因此，整个训练数据集可以组装成一个单独的矩阵X=[X�1, ∙∙∙,X�m]�∈Rn×d，其中n=∑mi=1ni是实例的总数。我们假设X中的实例（子集）属于（子集）k个训练类别之一。在我们考虑的弱监督MIL设置中，我们提供了包标签矩阵Y=[y1, ∙∙∙,ym]�∈{0, 1}m×k，其中Yic（即yi∈{0,1}k的第c个元素）是1，如果第c个类别是第i个包的候选类别（即第c个类别被标记为存在于第i个包中），否则为0。例如，矩阵Y从图像标签中提取，从Labeled Yahoo!News数据集中的文本中提取（见图1）。实例分配：由于Y中的注释是在图像级别提供的（即我们不知道包中实例的确切标签），我们的方法必须进行推断以确定X中实例的类别。然后，我们引入未观察到的实例分配矩阵H∈{0,1}n×k，我们希望推断出其值。在接下来的内容中，我们将推断问题写成Hjc=1，如果第j个实例被推断为属于第c个类别，否则为0。我们还假设尽管一个包可以包含多个类别，但每个实例应该属于k个类别中的一个或没有一个。在许多情况下，由于标签可能是自动提取的，某些类别可能会被错误地标记为存在于某些包中，或者它们可能缺失（见图1）。许多实例也不属于k个训练类别之一，因此应该保持未分配状态。根据[11]和[12]，如果一个包被标记为包含特定类别，我们将最多将一个实例分配给该类别；这使得模型对注释中的可能噪声具有鲁棒性。在理想情况下，所有候选类别和训练实例都可以被分配，因此我们有�i，y�i1=ni。然而，在实践中，由于不确定性或检测错误，可能发生y�i1ni（即第i个包中的某些标签不对应任何实例）。参考向量：我们还考虑每个类别c∈{1, ∙∙∙,k}都有一个代表向量zc∈Rd，我们称之为参考向量。我们的目标是同时学习M和参考向量，以便被推断为属于某个类别的所有实例都比任何其他参考向量更接近其所属类别的参考向量（无论它们是否是候选类别的代表）。在接下来的内容中，我们将所有参考向量连接成一个单独的矩阵Z=[z1, ...,zk]�∈Rk×d。我们在第2.2节中展示了Z的最优值可以写成X、H和M的函数。在介绍我们的度量学习方法之前，我们解释了当dM固定时如何执行推断。QV := {H = [H⊤1 , · · · , H⊤m]⊤ : ∀i, Hi ∈ Vi}(2)Vi:={Hi∈{0, 1}ni×k : Hi1 ≤ 1, H⊤i 1 ≤ yi, 1⊤Hi1 = pi}minH∈QV,Z∈Rk×dn�j=1k�c=1Hjc · d2M(xj, zc)(3)=minH∈QV,Z∈Rk×d ∥ diag(H1)XL − HZL∥2(4)minH∈QV ∥ diag(H1)XL − HH†XL∥2(5)⇔ maxA∈PV⟨A, XMX⊤⟩,(6)fM,PV(X) := arg maxA∈PV⟨A, XMX⊤⟩(7)Gi := {Hi ∈ {0, 1}ni×k : Hi1 ≤ 1, 1⊤Hi1 = pi}(8)maxM∈Sd+minC∈fM,PV (X)minˆC∈fM,PG (X)⟨C, ˆC⟩(9)57802.2. 弱监督多实例k均值0我们现在解释一下我们的方法如何在我们的弱监督设置中对给定的包集X进行基于k均值的推断。目标是通过利用提供的包标签矩阵Y和(固定的)马氏距离度量dM，将X中的实例分配给候选类别。我们在方程(7)中展示了我们的k均值问题可以重新表述为预测单个聚类矩阵。为了将X中的实例分配给候选类别(其在相应包中的存在由Y知道)，一种自然的方法是将X中的每个实例分配给其最近的属于候选类别的参考向量zc。给定包X和提供的包标签矩阵Y =[y 1, ..., y m] � ∈ {0, 1} m ×k，我们的方法的目标是推断出同时满足第2.1节中提到的条件的实例分配矩阵H和参考向量矩阵Z。因此，我们将H限制为属于以下一致性集合：0其中H i是第i个包中n i个实例的分配矩阵，p i := min { n i ,y � i 1 }。第一个条件H i 1 ≤1意味着每个实例最多被分配给一个类别。第二个条件H � i 1≤ y i，以及最后一个条件1 � H i 1 = pi，确保每个候选类别(满足Y ic =1的类别c)最多只有一个实例被分配到一个包中。对于固定的度量d M，我们的方法找到了训练包X ∈ R n × d和向量Z= [z 1, ..., z k] � ∈ R k × d的分配矩阵H ∈ QV和最小化的向量Z，使得：0其中x j是第j个实例(即x�j是X的第j行)，dM是由方程(1)定义的马氏距离，其中M =LL�。方程(3)的目标是将X中的实例分配给候选类别的最近参考向量，同时满足方程(2)中定义的约束条件。有关本段的详细信息可以在补充材料的A.1节中找到。我们的目标是将问题(3)以一种方便的方式重写为一个变量的函数。由于方程(4)中的Z没有约束，它的最小值可以通过闭式表达式找到：Z= H†XLL†[34，例2]。从其形式可以看出，ZL =H†XL是X中分配给k个相应聚类并由L映射的实例的k个均值向量(即质心)的集合。通过将Z的闭式表达式插入方程(4)中，我们得到了k均值0方程(4)中的方法等价于以下问题：0我们定义P V为P V := {I + HH† - diag(H1): H ∈ QV}，其中I是单位矩阵。注意，PV中的所有矩阵都是正交投影矩阵(因此是对称半正定的)。对于固定的马氏距离矩阵M，我们将弱监督多实例k均值(3)的形式转化为在方程(6)中优化集合PV上的线性函数。然后我们定义以下预测规则应用于训练包的集合X：0这是方程(6)的解集。我们注意到，方程(7)中的预测规则假设每个包的候选类别是已知的(通过V i)。02.3. 用于聚类的多实例度量学习0现在我们介绍如何学习 M，使得使用 d M得到的聚类对于候选类别未知的情况尽可能稳健。我们首先将问题表述为学习一个距离度量，使得在知道候选类别时预测的聚类（即方程（7））与候选类别未知时预测的聚类尽可能相似。然后我们放宽问题并展示它可以被高效地解决。我们的目标是学习M，使得任何被分配实例的最近参考向量（在 k个类别中）是其候选类别之一的参考向量。这样，即使候选类别未知，可以通过找到其相对于 d M 的最近参考向量来分配实例。一个好的度量 d M应该能够产生一个合理的聚类（即方程（7）的解），即使候选类别的集合是未知的。为了实现这个目标，我们考虑预测分配矩阵的集合 Q G0（而不是 Q V ），它忽略了 Y，其中 G 定义为：0使用 Q G，可以将 ˜ n = 1 � H 1的分配实例分配给任何一个训练类别，而不仅仅是候选类别。我们希望学习 M ∈ S d +，使得在非信息信号 G下获得的聚类 f M, P G 尽可能与在弱监督信号 V下获得的聚类 f M, P V相似。因此，我们的方法旨在找到最大化以下问题的 M ∈S d +：0其中 C 和 ˆ C 是使用 d M得到的聚类，使用不同的弱监督信号 V 和 G。我们注意到，maxM∈Sd+minC∈fM,PV (X)minˆC∈gM(X)⟨C, ˆC⟩(10)minH∈QV,Z=[z1,··· ,zk]⊤∈Rk×sHjc · ∥uj − zc∥2, (12)4:let hc be the c-th column of H,5:ZH†URk×s5790相似度 � C, ˆ C � 在 [0, n] 范围内，因为 C 和 ˆ C 都是 n × n的正交投影矩阵。在理想情况下，当最优的 ˆ C 等于最优的C时，方程（9）达到最大值。在这种情况下，被分配实例的最近参考向量是候选类别的参考向量。如补充材料中所解释的那样，方程（9）实际上可以看作是一个大间隔问题。由于在 P G 上进行优化很困难，我们通过使用谱松弛[22, 32,35]来简化问题。我们将 ˆ C 的约束从 f M, P G ( X )替换为其超集 N，即由 n × n正交投影矩阵组成的集合。换句话说，我们将 ˆ C的约束替换为 f M, N ( X )。集合 f M, N ( X ) := arg maxA ∈N � A, XMX� � 是 XMX�的前导特征向量的正交投影矩阵集合[9,21]。然而，就像在PCA中一样，并不需要保留所有的特征向量。因此，我们建议选择位于矩阵 XMX�的列空间（即其列所张成的线性空间）中的特征向量，并忽略其左零空间中的特征向量。为此，我们将 ˆ C的约束放宽为以下集合：g M ( X ) = { B : B ∈ f M, N (X ) , rank( B ) ≤ rank( XMX� )}。我们的问题（9）的放宽版本可以写成：0定理2.1. 问题（10）中的全局最优矩阵 C ∈ f M, P V ( X )可以通过解下面的问题得到：0C ∈ arg max A ∈P V � A, XX† � (11)0证明可以在补充材料的第0A.3 . 在方程（11）中找到 C 对应于解决改进的 kmeans问题（详见补充材料，第 A.4 节）：0n是0k是0其中 u � j 是 U ∈ R n × s 的第 j 行，U 是一个具有正交列的矩阵，s = rank(X)，且XX† =UU�。为了解决方程（12），我们使用Lloyd算法的改进版本[19]，算法1中给出了详细说明。其中U i ∈ R n i × s 是 U 的子矩阵，表示包 X i ∈ R n i × d的特征表示。如补充材料中所解释的那样，算法1通过交替优化 Z 和 H来最小化方程（12）。算法1的收敛性保证在补充材料中进行了研究。一旦找到最优的实例分配矩阵 H ∈ Q V，0已经推断出，我们可以使用任何类型的分类器或度量学习方法来区分不同的类别。我们建议使用[ 18]中的方法，该方法在每个对象是包含一个实例的包并且每个包只有一个候选类别的情况下学习度量 d M。它可以被视为方程 ( 10 ) 的特殊情况0算法 1 MIML 聚类分析（MIMLCA）0输入 : 训练集 X ∈ R n × d ，训练标签 Y ∈ { 0 , 1 } m × k01: 创建 U = [ U � 1 , ∙ ∙ ∙ , U � m ] � ∈ R n × s ，其中 s = rank( X ) ， XX † = UU � ，对于每个 i ∈ {1 , ∙ ∙ ∙ , m } ， U i ∈ R n i × s02: 初始化分配（例如，随机）： H ∈ Q V03: 重复0max { 1 , h � c 1 } 是 H † 的第 c 行06: 对于每个包 i = 1 到 m ， H i ← assign ( U i , Z, Y ) % 解方程 ( 13 ) 7: H ← [ H � 1 , ∙ ∙ ∙ , H �m ] � ∈ Q V08: 直到收敛 9: % 选择 X 和 H 的行 j ，使得 � c H jc = 1 。我们使用逻辑索引的Matlab表示法： H 1是一个布尔向量/逻辑数组。 A ( H 1 , :) 是通过删除 H 的零行（即删除与 H 1 的假元素的索引对应的 A的行）而保留 A 的所有列得到的 A 的子矩阵。 10: X ← X ( H 1 , :) ， n ← 1 � H 1 ， H ← H ( H 1 ,:) 11: M ← X † HH † ( X † ) �0其中 { C } = f M, P V ( X ) 是一个不依赖于 M的单例（即，对于任何 M 的值，都返回相同的矩阵 C），而 ˆ C 现在被限制在集合中： { B : B ∈ f M, N ( X) ， rank( B ) = rank( C ) ， C ∈ f M, P V ( X ) }，因为现在已知 C 的秩（因此也是 ˆ C的秩）。在这种情况下，一个最优的马氏距离矩阵是 M =X † C ( X † ) � [ 18 ]。具体来说，算法 1 首先在步骤 1中创建矩阵 U ，其列是 X的非零奇异值的左奇异向量。接下来，算法 1 在计算质心Z （步骤 5）和推断实例分配矩阵 H （步骤6-7）之间交替进行。后一步在 m 个包之间解耦；函数assign ( U i , Z, Y ) 返回以下分配问题的解决方案：0H i ∈ arg min G ∈V i ∥ diag( G 1 ) U i − GZ ∥ 2，(13)0该问题可以通过利用包含 U i 的行与满足 Y ic = 1 的质心z c之间的平方欧氏距离的代价矩阵来精确求解，使用匈牙利算法 [ 13 ] 进行求解。让我们注意到 q i := max { n i , y � i 1} ，计算代价矩阵的成本为 O ( sp i q i )，而匈牙利算法的成本在实践中为 O � p 2 i q i � [ 3]。在我们的实验中，它是高效的，因为 q i 很小（ � i, p i≤ q i ≤ 15）。总之，我们提出了一种考虑弱监督的高效度量学习算法。下面我们将解释如何将其扩展到非线性情况。非线性核扩展：我们现在简要解释如何通过使用核函数 [ 24 ]来学习非线性马氏距离。首先考虑每个包包含一个单一实例并且只有一个候选类别的情况，这种情况对应于[ 18]（即，Algo 1 的步骤 10-11 ）。设 k是一个核函数，其特征映射 φ ( ∙ ) 将实例 x j映射到某个再生核希尔伯特空间（RKHS） H 中的 φ ( x j )。使用广义表示定理 [ 23 ]，我们可以将马氏距离矩阵 M（在RKHS中）写成： M = Φ P � P Φ � ，其中 Φ =5800[ φ ( x 1 ) , ∙ ∙ ∙ , φ ( x n )] 和 P ∈ R k × n 。让 K ∈S n + 成为训练实例的核矩阵： K = Φ � Φ ，其中 K ij = �φ ( x i ) , φ ( x j ) � = k ( x i , x j ) 。方程 ( 7 ) 可以写成：0f (Φ P � P Φ � ) ， P V (Φ � ) = arg max A ∈P V � A, KP �PK � (14)0[18，公式（13）]的解是M = Φ K † J（Φ K † J）�，其中JJ � =HH†是所需的聚类矩阵。然后，我们将算法1的第11步替换为M ←Φ K † J（Φ K †J）�。为了将公式（11）扩展到MIL背景下的非线性情况，步骤1中的矩阵U ∈ R n × s可以被形式化为UU � = KK †，其中s =rank(K)。注意，当�x，φ（x）= x时，XX † = XX �（XX �）† =KK †。我们方法的复杂度在实践中是O(nd min {d, n})：它在实例数量n上是线性的，并且在维度d上是二次的，因为在我们的实验中d < n（详见补充材料A.5节的详细信息）。03. 相关工作0MIL是在药物活性预测的背景下引入的[6]，用于区分正样本袋和负样本袋。大多数MIL问题[1, 4, 5, 10, 27, 36,37]只考虑2个类别：袋子被认为是正样本或负样本。在本文中，我们关注多标签的情况（即 k ≥2），在这种情况下，MIML方法已被证明是成功的。MIML：马氏距离已经在弱监督的背景下使用过[11,12]，其中要比较的对象是包含多个实例的袋子，并且实例的类别成员标签是在袋子级别上提供的。Jin等人[12]学习了一种距离度量，用于将来自不同袋子的相似实例分组到公共聚类中。他们的方法将他们的学习算法分解为三组变量，分别是：（1）类别的参考向量（称为质心），（2）确定最接近其类别质心的实例的分配矩阵，（3）他们的马氏距离度量dM。他们使用一种迭代算法，交替优化这三组变量，并具有较高的算法复杂性。我们的方法也将问题分解为三个变量，但我们的变量可以互相写成彼此的函数，这意味着我们只需要优化一个变量就可以得到其他变量的公式。通过这种方式，我们方法的所有变量都是联合学习的，并且对它们进行优化的计算复杂度较低（即我们方法的复杂度为O(nd^2)）。此外，[12]中的方法对于非线性核化的马氏距离不适用，因为它明确地构建了质心并对其进行优化；如果核特征映射的值域是无限维的（例如，大多数RBF核）或者高维的，这是有问题的。01 一个矩阵J，使得JJ � = HH †且H ∈ Q V，可以有效地计算：设h c是H的第c列，则J的第c列可以写成j c = 1 √0当（核）特征映射的值域是无限维的（例如，大多数RBF核）或者高维时，Guillaumin等人[11]也考虑了弱监督：他们的度量学习是为了使相似袋子的最近实例之间的距离小于不相似袋子的实例之间的距离。与[12]一样，他们的方法在实例的相似性匹配和学习的度量之间存在分解，因为它们彼此依赖。此外，他们只考虑对袋子对之间的局部匹配，而不是对整个数据集的全局匹配来将相似实例分组到公共聚类中。此外，正如[11，第5节]中提到的，并且与我们的方法不同，他们的方法在n上不具有线性可扩展性。Wang等人[29]在MIL设置中学习多个度量（每个类别一个）。对于每个类别，他们的距离是包含该类别的袋子中所有实例与给定袋子中最接近的实例之间的平均距离。由于考虑了包含给定类别的所有袋子中的所有实例，他们的类别到袋子（C2B）方法对异常实例的鲁棒性较差，而我们的方法将最多一个实例分配给候选类别的每个袋子。因此，他们的方法不适用于诸如人脸识别之类的情境，其中不同袋子中的一小部分实例与该类别相关。此外，他们的方法需要对大量约束进行子采样以实现可扩展性。实际上，他们的复杂度是线性的，因为它们在实例数量n上进行了子采样，并且每次迭代的复杂度在维度d上是立方的。在监督设置中的闭式训练：在完全监督的背景下，每个对象都可以被视为只包含一个实例的袋子，并且每个实例的标签都是不确定的情况下，[18]提出了一种有效的度量学习方法，该方法被优化为将一组向量分组为k个期望的聚类。该方法假设训练集的真实分区是已知的。它找到一个最优度量，使得应用具有该度量的kmeans得到的分区尽可能接近真实分区。相反，我们的方法将[18]扩展到了弱监督情况，其中对象是多实例袋子，而真实的聚类分配是未知的。一个主要的困难是候选分配矩阵Q V的集合0在满足提供的弱标注的QV中的矩阵可以非常大。此外，[18]没有提供一个确定在我们的情况下QV中哪个矩阵是最优的标准。我们相对于[18]的贡献包括：1）kmeans适应于优化弱监督包（第2.2节），2）导出（放松的）度量学习问题，以学习对于未提供包标签的情况具有鲁棒性的度量，3）返回最优分配矩阵的高效算法（算法1），4）非线性核版本。58104. 实验0我们在面部识别和图像注释任务中评估了我们的方法MIMLCA，其中数据集以弱监督的方式标记。我们在Matlab中实现了我们的方法，并在一台2.6GHz、4核心和16GBRAM的机器上运行实验。04.1. 弱标记的面部识别0我们使用了Labeled Yahoo! News数据集的子集20在[2]中引入，并由[11]手动注释，用于弱监督的人脸识别。该数据集由20,071个文档组成，总共检测到31,147个使用Viola-Jones人脸检测器[28]检测到的人脸。类别数（即识别的人）为k =5,873（主要是政治家和运动员）。图1示例文档。每个文档包含一张图像和一些文本，还包含至少一个检测到的人脸或文本中的姓名。每个人脸由一个d维向量表示，其中d =4,992。31,147个检测到的人脸中有9,594个未知人（即它们不属于k个训练类别之一），未检测到的姓名或非人脸图像。如前所述，我们将文档视为包，检测到的人脸视为实例。有关数据集的其他详细信息，请参见补充材料A.7节。设置：我们将数据集随机分成10个相等大小的子集，以进行10折交叉验证：每个子集包含2,007个文档（除一个子集包含2,008个文档）。因此，每个拆分的训练数据集包含m≈18,064个文档和n≈28,000个人脸。分类协议：为了比较不同的方法，我们考虑两个评估指标：在所有训练类别上的平均分类准确率和精度（在[11]中定义为测试数据集中正确命名的人脸数与总人脸数的比率）。在测试时，已知类别成员资格的人脸被分配给k =5,873个类别之一。为了避免由于测试数据集中代表性不足的类别而导致评估指标的强烈偏见，我们仅在测试数据集中包含至少有5个元素的类别中对实例进行分类（这个任意的阈值在我们看来是合理的，因为它足够小而不会太小）。这对应于选择约50个测试类别（取决于拆分）。我们注意到，测试实例可以被分配给任何k个类别，而不仅仅是选定的50个类别。场景/设置：为了训练不同的模型，我们考虑与[11]相同的三个场景/设置：（a）实例级别的真实标签。在这里，我们对每个训练实例的实际类别有所了解；它对应于一个监督的单实例环境。在这种情况下，我们的方法等同于MLCA[18]，并为使用弱监督学习的模型的性能提供了一个上界。（b）包级别的真实标签。图像中已识别人员的存在由人类在包级别提供，这对应于弱监督的环境。（c）包级别的自动注释。图像中已识别人员的存在是从文本中自动提取的。这种设置是无监督的，不需要人工输入，可能会有噪声。标签矩阵Y是如图1所述自动提取的。测试实例的分类：在我们考虑的任务中，我们得到了一个人脸的向量表示，模型必须确定它属于哪个训练类别中的一个。在线性情况下，可以通过解决以下问题自然地确定测试实例xt∈Rd的类别：02 我们使用了 http://lear.inrialpes.fr/ people/guillaumin/data.php上提供的功能02 我们使用了 http://lear.inrialpes.fr/people/guillaumin/data.php 上提供的功能0arg min c ∈{1, ∙∙∙,k} d 2 M (x t, z c)（15）0其中 z c 是分配给类别 c 的训练实例的均值向量，d M是一个学习到的度量。在MIMLCA的情况下，学习到的度量（在第11步中）可以写为 M = LL �，其中 L = X † J，J的构造如脚注1所解释。对于任何训练实例 xj（推断为）在类别 c 中，矩阵 M 被学习，使得向量（L � xj）∈ R k 的最大元素是它的第 c个元素，其他所有元素都是零。然后我们还可以使用预测函数：0arg max c ∈{1, ∙∙∙,k} x � t X † j c − α ∥ L � z c ∥2（16）0其中 j c 是 J 的第 c 列，x � t X † j c 的值是 L � x t 的第 c个元素，α ∈ R 是手动选择的参数（见下面的实验）。术语− α ∥ L � z c ∥ 2考虑到了具有不同大小的聚类的度量学习。注意，在训练过程中不使用α。有关非线性情况，请参见补充材料第A.6节。实验结果：表1报告了不同基线和我们的方法在线性情况下在各个类别上的平均分类准确率和精确度得分。由于我们对弱监督设置（b）和（c）感兴趣，我们无法评估需要实例级注释（即情景（a））的经典度量学习方法，如LMNN[31]。我们尽力重新实现了[12]，因为代码不可用（请参见补充材料第A.10节）。其他基线的代码是公开可用的（除了我们还重新实现的[29]，请参见补充材料第A.11节）。我们不进行交叉验证，因为我们的方法没有超参数。对于所有其他方法，为了创建最佳的基线，我们报告了在调整超参数时在测试集上获得的最佳得分。我们测试了不同的MIL基线[1,4, 5, 10, 29, 36,37]，其中大多数是针对二分类情况（即存在2个类别的包）进行MIL分类的优化。5820方法/设置（见正文）准确率（最近质心）精确度（最近质心）训练时间（秒）0欧几里德距离无 57.0 ± 2.4 56.7 ± 2.0 无训练0线性MLCA [18]（a）= Instance gt 66.8 ± 4.2 77.7 ± 2.2 590MIML（我们重新实现的[12]）（b）= Bag gt 56.1 ± 3.3 55.5 ± 2.6 17,7280MildML [11]（b）54.9 ± 3.6 54.6 ± 3.3 7,3520线性MIMLCA（我们的）（b）65.3 ± 3.7 76.6 ± 2.1 1630MIML（我们重新实现的[12]）（c）= Bag auto 52.6 ± 13.0 52.2 ± 13.8 19,0910MildML [11]（c）33.9 ± 3.0 31.2 ± 2.9 7,5200线性MIMLCA（我们的）（c）63.2 ± 4.7 74.9 ± 3.0 1800表1. 在标记的Yahoo!新闻上的测试分类准确率和精确度得分（平均值和标准差，以%表示）0方法情景准确率精确度训练时间情景准确率精确度训练时间0MildML [11]（b）52.4 ± 4.7 62.2 ± 2.9 7,352秒（c）55.7 ± 4.4 66.0 ± 2.1 7,520秒0表2. 在将测试实例分配给其最近的训练实例的类别时，MildML在标记的Yahoo!新闻上的测试得分0方法情景评估指标 α = 0 α = 0.2 α = 0.25 α = 0.5 α = 1 α = 1.2 训练时间0准确率 77.6 ± 3.1 88.0 ± 2.2 88.5 ± 2.1 89.5 ± 2.0 89.3 ± 1.8 88.9 ± 2.0 线性MLCA（a）精确度 78.0 ± 2.0 88.8 ± 1.3 89.4 ± 1.4 90.8 ± 1.1 91.5 ± 1.0 91.4 ± 1.059秒0准确率 74.2 ± 2.7 85.9 ± 2.1 86.5 ± 2.0 87.7 ± 1.9 87.4 ± 1.8 87.1 ± 2.0（b）精确度 74.8 ± 1.8 87.0 ± 1.4 87.7 ± 1.3 89.3 ± 1.0 89.9 ± 1.20准确率69.9 ± 2.5 81.2 ± 2.6 81.9 ± 2.5 83.6 ± 2.3 83.9 ± 2.1 83.7 ± 2.0 线性MIMLCA0(c) 精确度71.7 ± 1.5 83.0 ± 1.4 83.8 ± 1.4 85.6 ± 1.4 86.9 ± 1.5 87.0 ± 1.5 180秒0准确率77.2 ± 3.0 94.4 ± 1.6 94.5 ± 1.8 92.5 ± 2.0 87.1 ± 2.2 84.5 ± 2.9 k RBF χ2 MLCA (a) 精确度73.6 ± 1.8 95.3 ± 1.0 95.5 ± 1.2 94.9 ± 1.1 92.3 ± 1.4 91.0 ± 1.750秒0准确率74.0 ± 2.9 92.6 ± 1.8 92.8 ± 1.6 91.1 ± 2.0 84.5 ± 2.5 82.0 ± 2.6 (b) 精确度70.6 ± 1.8 93.6 ± 1.2 94.0 ± 1.0 93.7 ± 1.1 90.6 ± 1.5 89.40准确率67.1 ± 2.9 88.2 ± 1.9 88.5 ± 2.1 87.2 ± 1.8 81.1 ± 3.3 78.6 ± 3.6 k RBF χ2 MIMLCA0(c) 精确度63.7 ± 1.8 89.0 ± 1.3 89.7 ± 1.5 90.0 ± 1.3 87.5 ± 2.2 86.3 ± 2.4 172秒0表3. 在10折交叉验证评估中，线性和非线性模型的测试分类准确率和精确度得分，以α在方程(16)中的不同取值表示，单位为%。0在这些基线中，我们将“正”和“负”作为二元分类问题处理；如[4]所提出的，我们采用了一对多的启发式方法将它们适应到多标签的上下文中。然而，训练类别超过5,000个。由于大多数类别只包含很少的示例，并且这些基线独立学习分类器，因此分类得分的规模可能不同。因此，它们在这个任务中的准确率和精确度都低于10%（请参见补充材料A.8节的得分）。表1报告了不同方法在将测试实例分配给最接近的类别的情况下的测试性能（即使用方程(15)中的预测函数）。我们使用这个评估，因为(MI)MLCA和MIML[12]是为了优化这个准则而学习的。MIMLCA在设置(b)和(c)中使用的质心集合是通过算法1确定的。MIML也利用了它学到的质心集合。为了评估MildML和欧氏距离，我们利用了基准实例质心（即在我们知道每个实例的类别的上下文中，k个类别中实例的均值向量），尽管在设置(b)和(c)中通常不提供基准实例质心，因为注释是在包级别而不是在实例级别提供的。在表2中，将测试实例分配给最接近的训练实例的类别。我们使用这个评估，因为MildML是为了优化这个准则而设计的，尽管最接近的训练实例的类别通常只在设置(a)中可用。与表1相比，我们可以看到我们的线性方法MIMLCA0在弱监督场景(b)和(c)中学习的模型几乎与完全监督模型MLCA[18]在场景(a)中表现相当。我们的方

下载后可阅读完整内容，剩余1页未读，立即下载