蒸馏统一异构分类器

191 浏览量更新于2023-10-19 收藏 12.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Cat, DogGiraffe, Cat, DollFruit, CatFruit, CatGiraffe, Cat, DollCat, DogCat, Dog, Giraffe, Doll, Fruit131750使用蒸馏统一异构分类器0Jayakorn Vongkulbhisal 1，Phongtharin Vinayavekhin 1，Marco Visentini-Scarzanella 201 IBM研究所，日本东京 2亚马逊，日本东京0jayakornv@ibm.com，pvmilk@jp.ibm.com，marcovs@amazon.com0摘要0本文研究了将具有不同架构和目标类别的一组分类器的知识统一到一个单一分类器中的问题，只给定一组未标记的通用数据。我们将这个问题称为统一异构分类器（UHC）。这个问题的动机是数据从多个源收集，但源不能共享数据，例如由于隐私问题，只能共享私有训练模型。此外，每个源可能无法收集到训练所有类别的数据，因为每个源的数据可用性不同，并且可能无法训练相同的分类模型，因为计算资源不同。为了解决这个问题，我们提出了一种将异构分类器合并的知识蒸馏的泛化方法。我们推导了异构分类器的输出与所有类别的概率之间的概率关系。基于这个关系，我们提出了两类方法，基于交叉熵最小化和矩阵分解，可以从未标记的样本中估计所有类别的软标签，并将其用作训练统一分类器的代替真实标签。我们在ImageNet、LSUN和Places365数据集上进行了大量实验证明，我们的方法明显优于蒸馏的简单扩展，并且几乎可以达到以集中、监督方式训练的分类器的准确性。01. 引言0机器学习在图像分类任务中的成功很大程度上得益于大型数据集的可用性，例如ImageNet [32]和MS-COCO[25]。随着技术的普及，数据收集正转向更分布式的设置，其中数据来自多个实体，然后组合起来在中央节点训练分类器（图1a）。然而，在许多情况下，由于隐私问题（例如私人照片相册或医疗数据）或带宽限制（例如非常大的数据集），实体之间无法传输数据，从而阻碍了来自不同源的知识的统一。这导致了多个研究提出了在不直接共享数据的情况下学习分类器的方法，例如分布式优化[4]、基于共识的训练[12]和联邦学习[20]。然而，这些方法通常要求每个实体训练的模型在架构和目标类别方面都相同。在本文中，我们旨在消除这些限制，并提出了一个更一般的场景的系统，由异构分类器（HCs）的集合组成，如图1b所示。我们将一组HCs定义为一组可能具有不同架构并且更重要的是可能被训练用于分类不同目标类别集的分类器。为了合并这些HCs，每个实体只需要为其预训练的分类器提供输出，然后将这些输出合并起来以训练统一的分类器。0(0(a)0数据源数据源0中央处理节点0中央处理节点0合并的数据集0未标记数据0猫、狗、长颈鹿、娃娃、水果HCs0图1. 统一异构分类器。 (a)通常的训练方法需要将数据从源传输到中央处理节点，然后训练分类器。 (b)我们提出使用来自每个源的预训练分类器和一组未标记的通用数据来训练一个统一的分类器，从而保护隐私。各个预训练分类器可能具有不同的目标类别集，因此称为异构分类器（HCs）。0数据集），阻碍了来自不同源的知识的统一。这导致了多个研究提出了在不直接共享数据的情况下学习分类器的方法，例如分布式优化[4]、基于共识的训练[12]和联邦学习[20]。然而，这些方法通常要求每个实体训练的模型在架构和目标类别方面都相同。在本文中，我们旨在消除这些限制，并提出了一个更一般的场景的系统，由异构分类器（HCs）的集合组成，如图1b所示。我们将一组HCs定义为一组可能具有不同架构并且更重要的是可能被训练用于分类不同目标类别集的分类器。为了合并这些HCs，每个实体只需要为其预训练的分类器提供输出，然后将这些输出合并起来以训练统一的分类器。31760将其训练的分类器和类名发送到中央处理节点，将所有HC的输出统一为一个可以对所有输入HC的所有目标类别进行分类的模型。我们将这个问题称为异构分类器统一（UHC）。UHC在以下情况下具有实际应用：（i）无法强制每个实体使用相同的模型/架构；（ii）无法为所有类别收集足够的训练数据；或者（iii）由于计算、数据可用性和机密性限制，无法将数据发送到中央节点。为了解决UHC，我们提出了知识蒸馏的推广[8,17]。知识蒸馏最初是为了将多个复杂的教师模型压缩成一个简单的学生模型。然而，蒸馏仍然假设所有教师和学生模型的目标类别是相同的，而在本文中，我们放宽了这个限制。为了将蒸馏推广到UHC，我们推导出了将HC的输出与统一分类器的输出之间建立概率关系。基于这个关系，我们提出了两类方法，一类基于交叉熵最小化，另一类基于矩阵分解与缺失条目，来估计给定样本在所有类别上的概率。在获得概率之后，我们可以使用它来训练统一分类器。我们的方法只需要未标记的数据来统一HC，因此在中央节点不需要标记任何数据。此外，我们的方法可以应用于任何可以使用软标签进行训练的分类器，例如神经网络、提升分类器、随机森林等等。我们在ImageNet、LSUN和Places365数据集上广泛评估了我们提出的方法，在各种设置下与标准蒸馏的自然扩展进行了比较。通过我们的实验，我们展示了我们的方法优于标准蒸馏，并且可以达到几乎与以集中、监督方式训练的分类器相同的准确性。02. 相关工作0已经有很长一段时间的研究旨在利用多个分类器的力量来提高分类结果。最著名的方法无疑是集成方法[19, 23,30]，它们将多个分类器的输出组合起来进行分类。许多技术，例如投票和平均[23]，可以合并训练过的分类器的预测，而有些技术将分类器作为技术的一部分联合训练，例如提升[13]和随机森林[6]。这些技术已经成功应用于许多应用，例如多类分类[15]，目标检测[34,27]，跟踪[1]等等。然而，集成方法需要存储和运行所有模型进行预测，当使用复杂模型，例如深度网络时，可能会导致可扩展性问题。此外，集成方法假设所有基本分类器都是0图2.UHC问题和方法概述。输入图像x来自未标记集合U，并输入到一组预训练的分类器{C1, ...,CN}，其中每个Ci返回类别Li上的软标签pi。这里，类别Li可能对于每个Ci都不同。UHC的目标是使用Ci在x∈U上的预测而不是标记数据来训练一个能够对Lu中的所有目标类别进行分类的分类器CU。我们解决UHC的方法涉及使用pi来估计x在Lu中所有类别上的软标签q，然后使用x和q来训练CU。0训练以对所有类别进行分类，这对UHC所涉及的场景不合适。据我们所知，与UHC最接近的方法是知识蒸馏[8,17]。蒸馏方法通过将未标记的数据传递给一组预训练的教师模型来获得软预测，然后用这些软预测来训练一个学生模型。尽管最初是为了通过匹配预测将复杂模型压缩为简单模型，但蒸馏方法已经进一步扩展到其他方面，例如匹配中间特征[31]，领域之间的知识转移[14]，使用生成对抗损失来组合知识[35]等等。与UHC更相关的是，Lopes等人[26]提出了使用元数据而不是原始输入来蒸馏由不同实体训练的教师模型。这样可以在不传输任何原始数据的情况下训练学生模型，从而在保护隐私的同时也不需要从中央处理节点收集任何数据。然而，目前没有任何蒸馏的公式能够处理每个教师模型具有不同目标类别的情况，而我们在本文中解决了这个问题。我们将在下一节中描述如何将蒸馏推广到UHC。03. 统一异构分类器（UHC）0在本文中，我们将异构分类器统一问题定义如下（见图 2 ）。设 U 是一组未标记的图像（“转移集”），C= { C i } N i =1 是一组 N 个异构分类器（HCs），其中每个 C i 被训练用于预测图像属于类别 l j ∈ L i的概率 p i ( Y = l j )。给定 U 和 C，本文的目标是学习一个统一的分类器 CU，该分类器估计输入图像属于类别 l j ∈ L U 的概率 q ( Y = l j )，其中 L U = � N i =1 L i = { l 1 , l 2 , . . . ,l L }。注意，C i 可能被训练用于分类不同的类别集合，即我们可能有 L i ≠ L j 或者甚至 |L i | ≠ |L j |，其中 i≠ j。我们解决 UHC 问题的方法包括三个步骤：（i）将图像 x ∈ U 传递给 C i 以获得 p i，�i，（ii）从 { p i} i 估计 q，然后（iii）使用估计的 q 以监督方式训练 CU。我们注意到，对于神经网络，可以将（ii）和（iii）合并为一个步骤（见第 3.5.1节），但是这个三步骤的方法可以应用于其他分类器，例如提升和随机森林。为了完成（ii），我们推导了每个 p i 和 q 之间的概率关系，利用这个关系通过以下两种提出的方法估计q：交叉熵最小化和矩阵分解。在本节的其余部分，我们首先回顾标准蒸馏，展示为什么它不能应用于UHC。然后我们描述了我们从 { p i } i 估计 q 的方法。计算成本的讨论见补充材料。̸̸̸J(q) = −�i�l∈LUpi(Y = l) log q(Y = l).(1)p(Y = l) =exp(zl/T)�k∈LU exp(zk/T),(2)̸this could incur serious errors, e.g., one may set pi(Y =cat) of a cat image to zero when Ci does not classify cats,which would be an improper supervision. We show that thisapproach does not provide good results in the experiments.It is also worth mentioning that Ci in UHC is differentfrom the Specialised Classiﬁers (SC) in [17]. While SCsare trained to specialise in classifying a subset of classes,they are also trained with data from other classes which aregrouped together into a single dustbin class. This allowsSCs to distinguish dustbin from their specialised classes,enabling student model to be trained with (1). Using theprevious example, the cat image would be labelled as dust-bin class, which is an appropriate supervision for SCs thatdo not classify cat. However, the presence of a dustbin classimposes a design constraint on the Ci’s, as well as requiringthe data source entities to collect large amounts of genericdata to train it. Conversely, we remove these constraintsin our formulation, and Ci’s are trained without a dustbinclass. Thus, given data from L−i, Ci will only providepi only over classes in Li, making it difﬁcult to unify Cwith (1).3.2. Relating outputs of HCs and uniﬁed classiﬁerTo overcome the limitation of standard distillation, weneed to relate the output pi of each Ci to the probability qover LU. Since pi is deﬁned only in the subset Li ⊆ LU,we can consider pi(Y = l) as the probability q of Y = lgiven that Y cannot be in L−i. This leads to the followingderivation:pi(Y = l) = q(Y = l|Y /∈ L−i)(3)= q(Y = l|Y ∈ Li)(4)= q(Y = l, Y ∈ Li)q(Y ∈ Li)(5)=q(Y = l)�k∈Li q(Y = k).(6)We can see that pi(Y = l) is equivalent to q(Y = l) nor-malised by the classes in Li. In the following sections, wedescribe two classes of methods that utilise this relationshipfor estimating q from {pi}i.3.3. Method 1: Cross-entropy approachRecall that the goal of (1) is to match q to pi by min-imising the cross-entropy between them. Based on the re-lation in (6), we generalise (1) to tackle UHC by matchingq(Y =l)�k∈Li q(Y =k) to pi(Y = k), resulting in:J(q) = −�i�l∈Lipi(Y = l) log ˆqi(Y = l),(7)where:ˆqi(Y = l) =q(Y = l)�k∈Li q(Y = k).(8)31770在本文中，我们将异构分类器统一问题定义如下（见图 2）。设 U 是一组未标记的图像（“转移集”），C = { C i } N i=1 是一组 N 个异构分类器（HCs），其中每个 C i被训练用于预测图像属于类别 l j ∈ L i 的概率 p i ( Y = l j)。给定 U 和 C，本文的目标是学习一个统一的分类器 CU，该分类器估计输入图像属于类别 l j ∈ L U 的概率 q ( Y = lj )，其中 L U = � N i =1 L i = { l 1 , l 2 , . . . , l L }。注意，C i可能被训练用于分类不同的类别集合，即我们可能有 L i ≠ L j或者甚至 |L i | ≠ |L j |，其中 i ≠ j。我们解决 UHC问题的方法包括三个步骤：（i）将图像 x ∈ U 传递给 C i以获得 p i，�i，（ii）从 { p i } i 估计 q，然后（iii）使用估计的q 以监督方式训练 CU。我们注意到，对于神经网络，可以将（ii）和（iii）合并为一个步骤（见第 3.5.1节），但是这个三步骤的方法可以应用于其他分类器，例如提升和随机森林。为了完成（ii），我们推导了每个 p i 和 q之间的概率关系，利用这个关系通过以下两种提出的方法估计q：交叉熵最小化和矩阵分解。在本节的其余部分，我们首先回顾标准蒸馏，展示为什么它不能应用于UHC。然后我们描述了我们从 { p i } i 估计 q的方法。计算成本的讨论见补充材料。03.1. 蒸馏回顾0概述蒸馏[8,17]是一类算法，用于将多个训练模型 C i压缩成一个统一的模型 C U，使用一组未标记的数据 U1。参考图 2，标准蒸馏对应于 L i = L j，�(i, j)的情况。统一的 C U 通过最小化 C i 和 C U的输出之间的交叉熵来训练，如下所示：0实质上，C i 的输出被用作训练 C U 中未标记的 U的软标签。对于神经网络，类概率通常使用 softmax函数计算：0其中 z l 是类别 l 的逻辑回归，T 表示可调的温度参数。在[17]中，已经证明当 T 很高时，最小化(1) 类似于最小化 p 和 q 的 ℓ 2 误差，从而将交叉熵最小化与逻辑回归匹配相关联。问题标准蒸馏的主要问题在于它无法处理 L i ≠ L j 的更一般情况。数学上，方程 (1) 假设 C U 和 C i共享相同的类别集合。这在我们的情况下是不正确的，因为每个 C i 被训练用于预测 L i中的类别，因此对于 L − i 中的类别 l ∈ L − i，p i ( Y = l )是未定义的。解决这个问题的一个简单解决方案是将 p i ( Y = l ) = 0 设置为 l ∈ L −i。然而，这可能会导致严重的错误，例如当 C i 不分类猫时，将猫图像的 p i ( Y = cat )设置为零，这将是不正确的监督。我们在实验中展示了这种方法不能提供良好的结果。值得一提的是，UHC 中的 C i 与[17]中的专门分类器（SC）不同。虽然 SC被训练用于专门分类一组类别，但它们也使用来自其他类别的数据进行训练，这些类别被组合到一个单独的“垃圾桶类”中。这使得 SC能够区分垃圾桶类和它们的专门类别，从而使得学生模型可以使用 (1)进行训练。使用前面的例子，猫图像将被标记为垃圾桶类，这对于不分类猫的 SC来说是适当的监督。然而，垃圾桶类的存在对 C i产生了设计约束，并要求数据源实体收集大量的通用数据来进行训练。相反，我们在我们的公式中去除了这些约束，并且 C i 是在没有垃圾桶类的情况下进行训练的。因此，给定来自 L − i的数据，C i 只会提供关于 L i 中类别的 p i，这使得将 C 统一到 (1) 中变得困难。01 标记数据也可以以监督方式使用。2 我们将 L - i 定义为 LU 中但不在 L i 中的类的集合。We can see that the difference between (1) and (7) lies inthe normalisation of q. Speciﬁcally, the cross-entropy ofeach Ci (i.e., the second summation) is computed betweenpi(Y = l) and ˆqi(Y = l) over the classes in Li. Withthis approach, we do not need to arbitrarily deﬁne valuesfor pi(Y = l) whenever l ∈ L−i, thus not causing spurioussupervision. We now outline optimality properties of (7).Proposition 1 (Sufﬁcient condition for optimality) Sup-pose there exists a probability ¯p over LU, where pi(Y =l) =¯p(Y =l)�k∈Li ¯p(Y =k), ∀i, then q = ¯p is a global minimum of (7).Sketch of proof Consider ˜Ji(˜qi) = − �l∈Li pi(Y=l) log ˜qi(Y = l) (Note ˜Ji is a function of ˜qi whereas Jis a function of q).˜Ji(˜qi) achieves its minimum when˜qi = pi, with the a value of ˜Ji(pi). Thus, the minimumvalue of �i ˜Ji(˜qi) is �i ˜Ji(pi). This is a lower bound of(7), i.e., �i ˜Ji(pi) ≤ J(q), ∀q. However, we can see thatby setting q = ¯p, we achieve equality in the bound, i.e.,�i ˜Ji(pi) = J(¯p), and so ¯p is a global minimum of (7). □The above result establishes the form of a global min-imum of (7), and that minimising (7) may obtain the trueunderlying probability ¯p if it exists.However, there arecases where the global solution may not be unique. A sim-ple example is when there are no shared classes between theHCs, e.g., N = 2 with L1 ∩ L2 = ∅. It may be possibleto show uniqueness of the global solution in some cases de-pending on the structure of shared classes between Li’s, butwe leave this as future work.Optimisation Minimisation of (7) can be transformedinto a geometric program (see supplementary material),which can then be converted to a convex problem and ef-ﬁciently solved [3]. In short, we deﬁne ul ∈ R for l ∈ LUand replace q(Y = l) with exp(ul). Thus, (7) transforms toˆJ({ul}l) = −�i�l∈Lipi(Y = l)ul − log31780k ∈L_iexp(u_k)0�0�0�0�,0（9）是关于 {u_l}l 的凸函数，因为它是 {u_l}l的缩放和对数和指数的和[5]。我们使用梯度下降来最小化它。一旦得到最优的 {u_l}l，我们使用 softmax函数（2）将其转换为 q。03.4. 方法2：矩阵分解方法0我们的第二类方法基于具有缺失条目的低秩矩阵分解。事实上，可以将UHC视为填充一个不完整的软标签矩阵的问题。在过去的十年中，低秩矩阵补全和分解[10,11]已经成功应用于各种应用，例如运动结构[18]和推荐系统[21]。它还被用于传导设置下的多标签分类[9]。在这里，我们将描述如何使用矩阵分解从 {p_i}i 中恢复软标签 q。03.4.1 在概率空间中的矩阵分解0考虑一个矩阵 P ∈ [0, 1] L × N，其中如果 l ∈ L_i，则将P_li（第 l 行第 i 列的元素）设置为 p_i(Y =l)，否则设置为零。这个矩阵 P类似于集成方法中的决策概要矩阵[23]，但是这里我们用 0填充 C_i无法预测的类别。为了考虑这些缺失的预测，我们定义一个掩码矩阵 M ∈ {0, 1} L × N，其中如果 l ∈ L_i，则 M_li 为1，否则为零。根据（6）中 p_i 和 q 的关系，我们可以看到P 可以被分解为掩码向量的乘积：0M ⊙ P = M ⊙ (uv^T), (10)0u =0�0�0q(Y = l_1)... q(Y =l_m)0�0��, v =0�0�01 �0l ∈L_1 q(Y = l) ...1 �0l ∈L N q (Y = l)0�0��, (11)0其中 ⊙ 是Hadamard乘积。这里，u 是包含 q 的向量，v中的每个元素包含每个 C_i的归一化因子。在这种形式下，我们可以通过解决以下秩-1矩阵补全问题来估计概率向量 u：0最小化 u, v ∥ M ⊙ (P - uv^T) ∥ 2 F (12)0subject to u^T 1 L = 1 (13)0v ≥ 0 N, u ≥ 0 L, (14)0其中 ∥∙∥ F 表示Frobenius范数，0_k 和 1_k 表示大小为 k的零向量和全一向量。这里的约束条件确保 u是一个概率向量，并且 v 保持非负，以便 u中的概率不被翻转。这个公式可以看作是一个非负矩阵分解问题[24]，我们使用交替最小二乘法（ALS）[2]来解决，其中我们在每次迭代中将 u 归一化为 1的和。由于规范自由度[7]，u中的这种归一化不会影响成本函数。03.4.2 在logit空间中的矩阵分解0在第3.1节中，我们讨论了在 ℓ2距离下最小化交叉熵和logit匹配之间的关系。在本节中，我们考虑在logit空间中应用矩阵分解，并展示我们的公式是C_i 和 C_U 之间logit匹配的推广。设 z_i^l 是 C_i 的类别 l的给定logit输出4，u_l 是待估计的 C_U 的类别 l的logit输出。考虑一个矩阵 Z ∈ R L × N，其中如果 l ∈L_i，则 Z_li = z_i^l，否则为零。我们03 我们注意到矩阵分解比ALS [7, 29,11]更有效的算法。在这里，我们使用ALS是因为它易于实现。对于神经网络之外的算法，我们可以通过概率得到logits，即 z_i^l = log p_i(Y = l)。minimiseu,v,c∥M ⊙ (Z − uv⊤ − 1Lc⊤)∥2F + λ(∥u∥22 + ∥v∥22)(15)subject to v ≥ 0N,(16)minimiseu,vN�i=1��P|Li| ([zi − uvi]Li)��22 + λ(∥u∥22 + ∥v∥22)(17)subject to v ≥ 0N,(18)̸31790可以将估计的逻辑向量u∈RL的问题表示为：0其中c∈RN处理逻辑偏移5，λ∈R是控制正则化的超参数[7]。在这里，优化v∈RN类似于优化每个源分类器的逻辑温度[17]，我们将其限制为非负以防止逻辑符号翻转，这可能会影响概率。与逻辑匹配的关系（15）中的优化有三个变量。由于c没有约束，我们推导出其闭合形式的解，并将其从公式中删除。这将（15）转化为：0其中zi是Z的第i列；[x]Li选择x中在Li中索引的元素；Pk(x)=(Ik−10k 1 k 1 � k )x是从向量x∈Rk中去除均值的正交投影器。这个转换简化了（15）中只包含u和v的公式。我们可以看到，这个公式最小化了逻辑之间的ℓ2距离，但是与在LU中考虑所有类别不同，求和中的每一项只考虑Li中的类别。此外，（17）还包括正则化并优化v的缩放。因此，我们可以说（15）是UHC的逻辑匹配的泛化。优化虽然（17）的参数比（15）少，但由于投影器中的u元素纠缠在一起，它更难以优化。相反，我们使用ALS来解决（15）中的u，v和c。在这里，u没有约束，所以我们不像第3.4.1节那样对其进行归一化。另一种方法：将v设置为常数将v设置为变量使（15）能够处理不同的逻辑缩放，但也引入了繁琐的问题。具体来说，uv�中的规范自由度可能导致u和v的任意缩放，即uv�=(u/α)(αv�)其中α≠0。此外，虽然正则化有助于防止u和v的范数过大，但很难为U中的所有数据设置一个适用的λ。为了解决这些问题，我们提出了另一种（15）的公式，其中我们固定v=1N。通过固定v，我们不需要对u进行正则化，因为其尺度由Z确定。此外，新的公式是凸的，并且可以全局优化。我们使用梯度下降来解决这个替代公式。0请注意，逻辑值的偏移对概率输出没有影响，但我们需要考虑从Ci到矩阵分解的不同偏移。03.5.扩展0在第3.3节和第3.4节中，我们已经描述了从{pi}估计q然后使用q作为训练CU的软标签的方法。在本节中，我们讨论适用于所有方法的两种可能的扩展：（i）神经网络的直接反向传播和（ii）修正软标签中的不平衡。03.5.1神经网络的直接反向传播0假设统一分类器CU是一个神经网络。虽然可以使用q来监督训练CU，但我们也可以考虑一种替代方法，即直接反向传播损失，而无需先估计q。在交叉熵的情况下（第3.3节），我们可以将q视为CU的概率输出，通过它我们可以直接反向传播损失。在矩阵分解的情况下（第3.4节），我们可以将u视为CU的概率（第3.4.1节）或逻辑（第3.4.2节）输出的向量。一旦从CU获得u，我们将其插入每个公式中，通过固定u来求解其他变量（例如v和c），然后通过u反向传播损失。直接反向传播损失将估计q和使用它来训练CU的步骤合并为一个步骤。03.5.2 平衡软标签0我们讨论的所有方法都是基于单个样本的：我们从转移集U的单个x的{pi}估计q，并用它来训练CU。然而，我们观察到从整个U估计的q集可能是不平衡的。也就是说，估计的q可能对某些类别的偏向性更大。为了抵消这种影响，我们应用了常见的技术，在训练CU时加权交叉熵损失[28]。每个类别l的权重计算为U中所有数据的q(Y=l)的均值的倒数。04. 实验0在本节中，我们进行实验来比较解决UHC的不同方法。ImageNet、LSUN和Places365数据集的主要实验在第4.1节中描述，灵敏度分析在第4.2节中描述。我们使用以下缩写来表示方法。SD表示标准蒸馏的天真扩展（第3.1节）[17]；CE-X表示交叉熵方法（第3.3节）；MF-P-X表示概率空间中的矩阵分解（第3.4.1节）；MF-LU-X和MF-LF-X表示在未固定和固定v的逻辑空间中的矩阵分解（第3.4.2节），分别。如果我们在使用它作为软标签训练CU之前首先估计q，则用“X”替换为“E”；如果我们从损失函数直接进行反向传播，则用“BP”替换；如果我们在训练CU之前估计和平衡软标签q，则用“BS”替换。ImageNet20-5010-205-15= LLSUN5-103-72-5= LPlaces36520-5010-205-15= L31800表1. 主要实验的HC配置0数据集 #L中的类别数 U中的类别数 (L)中的HC数目(N)中的HC数目每个HC的类别数目0随机补充重叠0除了上述方法，我们还将SD-BS作为具有平衡软标签的SD方法，将SPV作为直接以监督方式训练的方法，并将所有Ci的训练数据作为基准。对于MF-LU-X方法，我们使用λ=0.01。所有方法都使用温度T=3来平滑软标签和逻辑（参见（2）和[17]）。04.1. 在大型图像数据集上的实验0在本节中，我们描述了在ImageNet、LSUN和Places365数据集上的实验。首先，我们描述了实验协议，提供了关于数据集、用作Ci和CU的架构以及Ci的配置的详细信息。然后，我们讨论结果。04.1.1 实验协议0数据集我们在这个实验中使用了三个数据集。（i）ImageNet（ILSVRC2012）[32]，包含1k个类别，每个类别有大约700到1300个训练图像和50个验证图像，以及10万个未标记的测试图像。在我们的实验中，训练图像用作Ci的训练数据，未标记的测试图像用作U，验证图像用作我们评估准确性的测试集。（ii）LSUN[36]，包含10个类别，每个类别有大约10万到300万个训练图像和300个验证图像，以及1万个未标记的测试图像。在这里，我们随机抽取每个类别的1k个训练图像来训练Ci，从训练数据中再随机抽取每个类别的20k个图像作为U，验证数据用作我们的测试集。（iii）Places365[37]，包含365个类别，每个类别有大约3k到5k个训练图像和100个验证图像，以及大约32.9万个未标记的测试图像。我们按照与ImageNet相同的方式使用，但从未标记的测试图像中抽取了10万个样本作为U。我们对所有图像进行预处理，中心裁剪并缩放为64×64像素。HC配置我们在两个HC配置下测试了提出的方法（见表1的摘要）。（i）随机类别。对于ImageNet和Places365，在每次试验中，我们随机选择20到50个类别作为LU，并训练10到20个Ci，每个Ci训练5到15个类别。对于LSUN，在每次试验中，我们随机选择5到10个类别作为LU，并训练3到7个Ci，每个Ci训练2到5个类别。我们使用这个配置作为当Ci对不同的类别进行分类时的主要测试。（ii）完全重叠0类别。在这里，我们使用与（i）中相同的配置，除了所有的Ci都被训练用于分类LU中的所有类别。这种情况用于在所有Ci和CU共享相同类别的常见配置下测试我们提出的方法。在这两种配置下，U包含了比LU更广泛的类别集。换句话说，U中的大部分图像不属于LU中的任何类别。模型每个Ci是从以下四种具有ImageNet预训练权重的架构中随机选择的：AlexNet [22]，VGG16 [33]，ResNet18和ResNet34[16]。对于AlexNet和VGG16，我们固定它们的特征提取器部分的权重，用具有256个隐藏节点的两个fc层（带有BatchNorm和ReLU）替换它们的fc层，并使用它们的训练数据训练fc层。类似地，在ResNet模型中，我们用上述方法将它们的fc层替换为具有256个隐藏节点的两个fc层。此外，我们还微调了最后一个残差块。对于CU，我们使用了两个模型，VGG16和ResNet34，其设置与上述相似。对于所有的数据集和配置，我们使用每个Ci每类50到200个样本进行训练；在同一次试验中，任何Ci之间不共享样本。这些Ci与U一起用于训练CU。我们使用SGD优化器（前10个epoch的步长为0.1和0.016，动量为0.9）对所有模型进行20个epoch的训练。为了控制结果的变化，每次试验中，我们使用相同架构的相同权重初始化CU的实例，并使用相同的批次顺序进行训练。在每次试验中，我们评估所有方法的CU在LU中的所有类别的测试数据上的表现。对于每个数据集、模型和HC配置组合，我们进行了50次试验。结果在下一节中报告。04.1.2 结果0表2显示了此实验的结果。每一列显示了每种方法在每种实验设置下的平均准确率，其中最佳表现的方法以下划线粗体显示。为了测试统计显著性，我们选择了Wilcoxon符号秩检验来适应不同的设置（例如，模型架构、类别数量和HC等），我们在每个实验中将最佳表现的方法与其他方法进行了测试。在α=0.01的情况下，与最佳方法在统计上没有显著差异的方法以粗体显示。首先，让我们观察主要场景的随机类别情况的结果，即每个HC都被训练用于分类不同的类别集。我们可以得出以下观察结果。所有提出的方法的表现都比SD好。我们可以看到（A）、（B）和（C）中的所有方法0对于MF-P-BP，我们使用150倍的速率，因为它的损失具有较小的规模。MethodsImageNetLSUNPlaces365ImageNetLSUNPlaces365VGG16 ResNet34VGG16 ResNet34VGG16 ResNet34VGG16 ResNet34VGG16 ResNet34VGG16 ResNet34SPV (Benchmark).7212.6953.6664.6760.5525.5870.7345.7490.6769.7017.5960.6460SD.5543.5562.5310.5350.4390.4564.7275.7292.7004.7041.6163.6402(A) Estimate q methodsCE-E.6911.6852.64

下载后可阅读完整内容，剩余1页未读，立即下载