基于深度协同训练的半监督图像识别方法

37 浏览量更新于2023-10-13 收藏 727KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于深度协同训练的半监督图像识别乔思远1（）沈伟1、2张志帅1王博3阿兰·尤耶11约翰霍普金斯大学2上海大学3海康威视研究院siyuan.qiao@ jhu.edu抽象。本文研究了半监督图像识别问题，即利用标记图像和未标记图像学习分类器。我们提出了深度协同训练，这是一种受协同训练框架启发的基于深度学习的方法。原始协同训练在两个视图上学习两个分类器，这两个视图是来自描述相同实例的不同来源的数据为了将这一概念扩展到深度学习，深度协同训练将多个深度神经网络训练为不同的视图，并利用对抗性示例来鼓励视图差异，以防止网络彼此崩溃因此，共同训练的网络提供关于数据的不同和互补的信息，这对于共同训练框架实现良好结果是必要的。我们在SVHN，CIFAR-10/100和ImageNet数据集上测试了我们的方法，我们的方法大大优于以前的最先进的方法。关键词：Co-Training· Deep Networks· Semi-Supervised Learning1介绍深度神经网络在许多任务中实现了最先进的性能[1-17]。然而，训练网络需要大规模的标记数据集[18，19]，这些数据集通常很难收集。考虑到大量未标记的自然图像，使用没有人类注释的数据集的想法变得非常有吸引力[20]。在本文中，我们研究了半监督图像识别问题，其任务是使用除了标记图像之外的未标记图像来建立更好的分类器。形式上，我们提供了图像数据集D=S∪ U，其中S中的图像被标记，而U中的图像没有。任务是使用D中的数据在S中的类别C上构建分类器[21-23]。测试数据只包含出现在S中的类别。监督数据集上的学习模型问题已经得到了广泛的研究，最先进的方法是深度卷积网络[1，2]。其核心问题是如何使用未标记的U来帮助学习S。本文提出的方法受到Co-Training框架[24]的启发，这是一种屡获殊荣的半监督学习方法它假设D中的每个数据x具有两个视图，即 x被给出为x =（v1，v2），并且每个视图v1对于学习有效模型是足够的。例如，视图2S. 乔，W.沈，Z.张湾，澳-地Wang和A.Yuille可以有不同的数据源[24]或不同的表示[25设X为D的分布。共同训练假设分别在视图v1和v2上训练的f1和f2对X具有一致的预测，即，f（x）=f1（v1）=f2（v2），x=（v1，v2）（C〇-TraningAsumption）（1）基于这一假设，Co-Training提出了一种双视图自训练算法：它首先为S上的每个视图学习单独的分类器，然后将两个分类器对U的预测逐渐添加到S上以继续训练。Blum和Mitchell [24]进一步表明，在每个实例的两个视图在给定类别的情况下条件独立的额外假设下，Co-Training在半监督学习上具有类似PAC的保证。鉴于深度神经网络在监督图像识别方面的卓越性能，我们有兴趣扩展Co-Training框架，将深度学习应用于半监督图像识别。一种简单的实现方式是通过对等式（1）建模来在D上同时训练两个神经网络。1. 但是这种方法有一个严重的缺点：不能保证两个网络提供的视图给出关于每个数据点的不同和互补的信息然而，只有当两种观点不同时，联合训练才是有益的，理想情况下，在给定类别的情况下，两种观点是有条件独立的;毕竟，训练两个相同的网络是没有意义的。此外，Co-Training假设鼓励两个模型对S和U做出类似的预测，这甚至可能导致神经网络崩溃，正如我们将在第3节中通过实验展示的那样。因此，为了扩展Co-Training框架以利用深度学习的优势，有必要有一种力量将网络推开，以平衡将它们拉在一起的Co-Training假设。我们添加到共同训练假设的力是由等式（1）表示的视图差异约束。2、鼓励网络与众不同X′：f1（v1）/=f2（v2），（视情况而定）（2）挑战是找到一个适当的和充分的X’，它与方程兼容。1（例如： X ′∩X =）和我们的任务。我们通过对抗性的例子来构造X′[28]。在本文中，我们提出了用于半监督图像识别的深度协同训练（DCT），它扩展了协同训练框架，而没有上面讨论的具体来说，我们通过最小化两个网络在U上的预测之间的预期Jensen-Shannon散度来建模Co-Training假设。为了避免神经网络相互崩溃，我们通过训练每个网络来施加视图差异约束，以抵抗另一个的对抗性示例[28，29]训练的结果是，每个网络都可以在其他网络失败的示例上保持其预测不受影响。换句话说，这两个网络提供了关于数据的不同和互补的信息，因为它们被训练成不会在对抗性示例上同时总而言之，DCT的主要贡献是考虑了协同训练假设和视图差异约束的可微分建模。这是一个端到端的解决方案，它最小化了在数据集S和U上定义的损失函数。基于深度协同训练的半监督图像识别3自然地，我们将双视图DCT扩展到可伸缩的多视图DCT。我们在四个数据集上测试了我们的方法， SVHN [30] ， CIFAR 10/100 [31] 和ImageNet [18]，DCT的表现远远优于以前的最先进技术。2深度合作培训在本节中，我们将介绍我们的深度协同训练（DCT）模型，并将双视图DCT自然地扩展到多视图DCT。2.1DCT中的协同训练假设我们从双视图案例开始，我们对联合训练两个深度神经网络进行图像识别感兴趣按照第1节中的符号，我们使用S和U来表示标记和未标记的数据集。令D=S ∪ U表示所有提供的数据。设v1（x）和v2（x）表示数据的两个视图X.本文中，v1（x）和v2（x）是x在最后完全卷积之前的卷积表示，它把v1（x）看成是S中的一个卷积项.在监督数据集S上，我们使用标准交叉熵损失Lsup（x，y）=H.y，f1.ΣΣv1（x）.+ hy，f2.ΣΣv2（x）（三）对于S中的任何数据（x，y），其中y是x的标签，H（p，q）是分布p和q之间的交叉熵。接下来，我们对联合训练假设进行建模Co-Training假设在x的分布X上，f1（v1（x））和f2（v2（x））的预测一致换句话说，我们希望网络p1（x）=f1（v1（x））和p2（x）=f2（v2（x））对U有接近的预测。因此，我们使用一种自然的相似性度量，即p1（x）和p2（x）之间的Jensen-Shannon散度，即、Lcot（x）=H. 1.一、2ΣΣp1（x）+p2（x）1 .一、 .-H2Σp1（x）.ΣΣ+ Hp2（x）（四）其中x∈ U，H（p）是p的熵。基于C_（o-T）训练神经网络，作为在统一的集合U上最小化期望值E[L_（cot）]的最小化。对于标记集S，最小化损失Lsup已经鼓励它们对S具有接近的预测，因为它们是用标签训练的;因此，在S上最小化Lcot是不必要的，并且我们仅在 U 上实现它（即，不是S）。2.2DCT中的视点差异约束联合训练成功的关键条件是两个视图是不同的，并且提供关于每个数据x的补充信息。但最小化Eq. 3和4只鼓励神经网络在D=S ∪U上输出相同的预测。因此，有必要鼓励网络具有不同性和互补性。为了实现这一点，我们创建另一组图像D’，其中p1（x）p2（x），其中x∈D′，则将由附加的空间的x振幅来产生e[28，29]。4S. 乔，W.沈，Z.张湾，澳-地Wang和A.Yuille当Co-Tr为在p1（x）=p2（x）处的共同的h时，则在D∩D′=处，我们不知道.但D是我们所有的数据;因此，D′必须用生成方法建立。另一方面，假设p1（x）和p2（x）可以达到对自然获得的数据具有非常高的准确性（例如， D），假设p1（x） p2（x），x∈D′al满足D′的边界条件，且D ′的边界条件是由一个向量表示的。我们考虑生成方法g（x）的简单形式，其从D获取数据x以构建D’，即D’={g（x）|x∈D}.对于任意x∈D，我们希望g（x）−x很小，这样g（x）看起来也像自然图像。但是当g（x）−x很小时，很可能p1（g（x））=p1（x）和p2（g（x））=p2（x）。自从Co-设p_1（x）=p_2（x），∈D，且p_1（g（x））p_2（g（x）），其中np1（g（x））=p1（x），则p2（g（x））p2（x）。这些考虑意味着g（x）是p2的对抗性示例[28]，它欺骗了网络p2，但没有欺骗网络p1。因此，为了防止深度网络相互崩溃，我们建议通过最小化 p2（x）和p1（g2（x））之间（或p1（x）和p2（g1（x））之间）的交叉熵来训练网络p1（或p2）以抵抗p2的对抗性示例g2（x）（或p1的g1（x）），即，Ldif（x）=H.p1（x），p2.ΣΣg1（x）.+H p2（x），p1.ΣΣg2（x）（五）研究了利用人工生成的实例进行图像识别的方法。它们可以作为正则化技术来平滑输出[32]，或者创建负示例来收紧决策边界[23，33]。现在，它们被用来使网络变得不同。为了在句子中总结具有视图差异约束的协同训练，我们希望模型在D上具有相同的预测，但当它们暴露于对抗性攻击时会产生不同的通过最小化Eq. 5在D上，我们鼓励模型生成互补的表示，每个都能抵抗另一个的对抗性示例。2.3训练DCT在深度协同训练中，目标函数的形式为L= E（x，y）∈SLsup（x，y）+ λcotEx∈ULcot（x）+ λdifEx∈DLdif（x）（6），其线性组合等式（1）。3，等式4和方程式 5的超参数λcot和λdif. 我们在算法1中提出了训练循环的一次迭代。完整的训练过程使用具有降低的学习速率的梯度下降重复算法1注意，在DCT训练循环的每次迭代中，两个神经网络接收不同的监督数据。这是通过向它们提供不同时间顺序的监督数据来增加它们之间的差异。考虑两个网络的数据由两个数据流s和s提供。来自s的每个数据d和来自s的每个数据d具有[ds，du]的形式，其中ds和du分别表示一批监督数据和非监督数据。我们称（s，s）为一束数据流，如果它们的du相同，且ds的大小相同。算法1使用一束数据流向两个网络提供数据。使用数据流束的想法对于可扩展的多视图深度协同训练很重要，我们将在以下小节中介绍基于深度协同训练的半监督图像识别5u算法一：深度协同训练的训练循环的一次迭代1 数据采样采样数据批次b1=（xb1，yb1）（对于p1）和b2=（xb2，yb2）（对于p2），来自S s. t. |为|B2|= b.|= b.样本数据批次bu=（xu），来自U。2 创建对抗样本计算对抗样本g1（x）p1和g2（x）.1ΣΣ3 Lsup=b（x，y）∈b1H（y，p1（x））+Σ（x，y）∈b2ΣH（y，p2（x））1 ΣΣ . 1.一、ΣΣ1.Σ。ΣΣΣ4 Lcot=|B|Hx∈bup1（x）+p2（x）2-H p1（x）2+H p2（x）5L=1difb +|Bu|Σ Σx∈x1∪xuH（p1（x），p2（g1（x）+Σx∈x2∪xuΣH（p2（x）， p1（ g2（x）6 L=Lsup+λ cotL cot+λ difL dif7 通过反向传播计算关于L的梯度，并使用梯度下降更新p1和p2的参数。2.4多视点DCT在上一小节中，我们介绍了我们的双视图深度协同训练模型。但双视图只是多视图学习的一个特例，多视图协同训练也被研究用于其他问题[34，35]。在本小节中，我们提出了一种用于多视图深度协同训练的可扩展方法。在此，可缩放性意味着等式1中的超参数λcot和λdif。6也适用于增加的视图数量。回想一下，在前面的小节中，我们提出了一个称为数据流束s=（s，s）的概念，它为双视图集合中的两个神经网络提供数据。这里，我们将使用多个数据流束来向不同的视图提供数据，使得双视图DCT可以适应多视图设置。具体地，我们将定义新的视图vi（·），i=1，...，在该MULTI-视图DCT中。我们假设η是偶数，以简化呈现多个.查看所有的人。 Next，Σwebuildn/2independentdatastreambundlesB=（s1，s1），...，（sn/2，sn/2）。令Bi（t）表示在迭代t处捆绑Bi提供的训练数据。令L（vi，vj，Bk（t））表示当使用数据Bk（t）对vi和vj进行双重训练时算法1的步骤6中的损失L然后，在每次迭代t，我们考虑由以下损失函数隐含的训练方案Σn/2L伪n-视图（t）=i=1 L（v2i−1，v2i，Bi（t））（7）我们称之为伪多视图DCT，因为Eq.7可以被认为是n/2个独立的双视图DCT。接下来，我们调整Eq。7到真正的多视点DCT。在我们的多视图DCT中，在每次迭代t处，我们考虑从{1，2，…n}。然后，我们使用以下训练损失函数Σn/2Ln-视图（t）=i=1 L（vl2i−1，vl2i，Bi（t））（8）6S. 乔，W.沈，Z.张湾，澳-地Wang和A.Yuille与Eq相比。7，等式图8随机地选择一对视图以在每次迭代处针对每个数据流束进行这种建模的好处是多方面的。首先，Eq。8是从n/2个独立的双视图训练转换而来的;因此，用于双视图设置的超参数也适用于多视图设置。因此，我们可以节省我们的努力，在调整参数为不同数量的意见。其次，由于Eq. 7、Eq. 8、我们可以直接比较不同视图数之间的训练动态。第三，与在每次迭代时计算所有可能的对和数据的期望损失相比，这种建模在计算上也是高效的。2.5实现细节为了与之前的最先进的方法进行比较，我们使用了Laine和Aila的训练和评估框架[22]。我们将它们的实现移植到PyTorch，以便于多GPU支持。我们的多视图实现将自动传播的模型到不同的设备，以获得最大的利用率。对于SVHN和CIFAR，我们使用类似于[22]的网络架构：我们只将它们的权重归一化和仅均值批量归一化层[36]更改为本机支持的批量归一化层[37]。这一变化导致性能略差但接近他们论文中报道的性能。[22]这是最自然的基线。对于ImageNet，我们使用小型模型ResNet- 18 [1]进行快速实验。在下面，我们将介绍数据集SVHN、CIFAR和ImageNet，以及我们如何在它们上训练我们的模型。SVHN街景门牌号（SVHN）数据集[30]包含门牌号的真实世界图像，每个图像的大小为32× 32。每个图像的标签因此，这是一个具有10个类别的分类问题。在Laine和Aila [22]之后，我们只使用73257个官方训练图像中的1000个图像作为监督部分S来学习模型和26032个图像的完整测试集进行测试。剩下的73257- 1000幅图像被认为是无监督部分U。我们用标准数据增强训练我们的方法，并且我们的方法显著优于以前的最先进的方法。这里，数据增强仅是至多2个像素的随机平移。我们不使用任何其他类型的数据扩充。CIFARCIFAR [31]有两个图像数据集，CIFAR-10和CIFAR-100。它们都包含32× 32的彩色自然图像，而CIFAR-10包含10个类别，CIFAR-100包含100个类别。它们都有50000张图像用于训练，10000张图像用于测试。在Laine和Aila [22]之后，对于CIFAR-10，我们只使用50000张训练图像中的4000张图像作为监督部分S，其余46000张图像用作无监督部分U。对于CIFAR-100，我们使用50000个训练图像中的10000个图像作为监督部分S，其余40000个图像作为非监督部分U。我们使用完整的10000个测试图像来评估CIFAR-10和CIFAR-10。100. 我们使用标准数据增强来训练我们的方法，这是随机水平翻转和平移的组合，最多2个像素。基于深度协同训练的半监督图像识别7ImageNet ImageNet数据集包含约1. 300万张自然色图像用于训练，50000张图像用于验证。该数据集包括1000个类别，每个类别通常具有1300个用于训练的图像和50个用于评估的图像。根据之前在ImageNet上报告结果的工作[21，38，39]，我们统一从1中选择10%的数据。300万个训练图像作为监督S，其余的作为无监督U。我们报告了验证集上的单中心裁剪错误率。我们使用数据增强来训练我们的模型，其中包括随机调整大小为224×224和随机水平翻转。我们不使用其他高级增强技术，如颜色抖动或PCA照明[4]。对于SVHN和CIFAR，遵循[22]，我们使用超参数λcot和λdif的预热方案。具体来说，我们在前80个历元中预热它们，使得当历元T≤80时λ = λmax·exp （ −5 （ 1-T/80 ）2 ），之后 λmax 。对于 SVHN 和CIFAR，我们设置λcot，max=10。对于SVHN和CIFAR-10，λdif，max=0。对于CIFAR-100 λdif，max= 1。0. 对于训练，我们使用动量为0的随机梯度下降来训练网络。9和重量衰减0。0001. 训练时期的总数是600，并且我们使用余弦学习率调度Ir = 0。05×（1. 0 +cos（（T−1）×π/600））。SVHN、CIFAR-10和CIFAR-100的批量设置为100对于ImageNet，我们选择了不同的训练方案。在使用来自U的任何数据之前，我们首先用不同的初始化和训练序列分别训练两个ResNet-18，只在标记数据S上训练。根据ResNet [1]，我们使用动量为0的随机梯度下降来训练模型。9，权重衰减0. 0001和批量大小256，用于600个时期，其时间与在完全监督下训练60个时期相同。学习率初始化为0。1并乘以0。第301章一个时代然后，我们将两个预先训练好的模型to ourunsupervised无监督training训练loop循环.这一次，我们直接将λ设置为最大值λ=λmax，因为之前的600个epoch已经预热了模型。这里，λcot，max= 1且λdif，max= 0。1.在无监督循环中，我们使用余弦学习率lr= 0。005 ×（1.0+ cos（（T−1）×π/20）），我们在U和S上训练网络20个历元。批量大小设置为128。为了使损失L在不同的训练迭代中保持稳定，我们要求每个数据流提供数据批，其受监督数据的比例接近S的大小与D的大小的比率。为了实现这一点，我们平均划分监督和非监督数据，以构建数据流中的每个数据批次。结果，任何两个批次之间的监督图像的数目的差不大于1。3结果在本节中，我们将展示四个数据集的实验结果，即SVHN [30]、CIFAR-10、CIFAR-100 [31]和ImageNet [18]3.1SVHN和CIFAR-10SVHN和CIFAR-10是目前半监督图像识别方法研究的主要对象。因此，我们首先8S. 乔，W.沈，Z.张湾，澳-地Wang和A.Yuille方法SVHNCIFAR-10GAN [41]8. 11 ±1。30十八岁63±2。32随机变换[21]–11个国家。29 ±0。24[22]第二十二话4.第一章82 ±0。1712个。36±0。31[22]第二十二话4.第一章42 ±0。1612个。16±0。24[39]第三十九话3 .第三章。95±0。1912个。31±0。28[23]第二十三话4.第一章25 ±0。03十四岁41±0。30增值税[32]3 .第三章。8610个。55深度联合训练2视图3 .第三章。61±0。159 .第九条。03 ±0. 18深度协同训练4视图3 .第三章。38±0。058. 54 ±0。12深度协同训练8视图3 .第三章。29±0。038. 35 ±0。06表1. SVHN（1000标记）和CIFAR-10（4000标记）基准点的错误率。请注意，为了比较的公平性，我们报告了单个模型错误率的平均值，而没有对它们进行分析。我们使用类似于Π模型[22]的架构。“–” 我们报告5次运行的平均值和标准差提出了我们的方法的性能，并显示与这两个数据集上的先前的最先进的方法的比较接下来，我们还将提供对两个数据集的消融研究，以更好地理解双视图和多视图深度协同训练的动态和特征。表1将我们的方法深度协同训练与SVHN和CIFAR-10数据集上为了确保这些方法得到公平的比较，即使在整个训练过程之后有多个经过良好训练的模型，我们也不会对我们方法的模型进行集成。相反，我们只报告这些模型的平均性能与其他最先进的方法相比，深度协同训练在使用2、4或8个视图时实现了显着的性能正如我们将在第4节中讨论的，表1中列出的所有方法都需要隐式或显式计算多个模型，例如： GAN [41]有一个判别和生成网络，Bad GAN [23]增加了另一个基于GAN的编码器网络，Mean Teacher [39]有一个额外的EMA模型。因此，双视图深度协同训练在网络总数方面不需要更多的计算我们观察到的另一个趋势是，尽管4视图DCT给出了比2视图DCT显著的对于这一观察结果，我们推测这是因为与2-观点相比，4-观点在我们鼓励他们对美国经济有接近的预测时可以使用多数投票规则。当我们将视图的数量增加到8时，尽管预期其性能更好，但是与4视图相对于2视图的优势相比，4视图相对于4视图的优势并不那么强但是8视图DCT比4视图DCT收敛得更快，甚至比双视图DCT更快。具有不同视图数量的DCT的训练动态将在后面的小节中呈现我们首先在下一小节中提供CIFAR-100和ImageNet数据集的结果基于深度协同训练的半监督图像识别9方法CIFAR-100[22]第四十二章：一个人43± 0。543919 ±0。36[22]第38话. 65 ±0。51双视图深度协同训练三十八岁。77 ± 0。28三十四63 ±0。14表2.标记了10000张图像的CIFAR-100上的错误率请注意，表1中列出的其他方法尚未公布CIFAR-100的结果我们的方法的性能是网络的单个模型错误率的平均值，而不将它们集成以实现比较的公平性。我们使用类似于Π模型[22]的架构。“–” CIFAR-100+和CIFAR-100表示模型分别在有数据增强和没有数据增强的情况下进行训练。我们的结果来自5次运行。3.2CIFAR-100和ImageNet与SVHN和CIFAR-10相比，CIFAR-100和ImageNet被认为是半监督图像识别问题的更难的基准[22]，因为它们的类别数量分别为100和1000，大于SVHN和CIFAR-10中的10个类别。在这里，我们提供了这两个数据集的结果。表2比较了我们的方法与先前报告CIFAR-100数据集性能的最先进方法，即Π模型和时间集成[22]。即使在没有数据增强的情况下，双视图深度协同训练也当我们的方法也使用数据增强，错误率从38显着下降。65比3463.这些结果证明了当类别数量和数据集难度增加时，所提出的深度协同训练的有效性。方法架构#参数Top-1Top-5随机变换[21]AlexNet61.1M–39.84VAE [38]，10%监督定制30.6M51.5935.24[39]第三十九话ResNet-1811.6M49.0723.59100%监督ResNet-1811.6M30.4310.7610%监督ResNet-1811.6M52.2327.54双视图深度协同训练ResNet-1811.6M46.5022.73表3. ImageNet基准测试的验证集上的错误率，其中10%的图像被标记。我们的方法在训练和测试中的图像大小为224× 224。接下来，我们在ImageNet上展示了我们的结果，表3中有1000个类别和10%的标签。我们的方法有更好的性能比监督，但仍然落后于准确性时，使用100%的监督。然而，当与先前的最先进的方法相比时，DCT显示出显著的改进。10S. 乔，W.沈，Z.张湾，澳-地Wang和A.Yuillecot+ dif difcot确认累积（%）9590908580857580200 400600时代200 400 600时代Fig. 1. Lcot和Ldif的消融研究。左图是SVHN数据集上双视图深度协同训练的训练动态，右图是CIFAR-10数据集上的“λ c 〇 t”、“λ di f”表示所使用的损失函数，而“λ c 〇 t + λ di f”对应于深度协同训练中使用的加权和损失。在所有情况下，使用Lsup。Top-1和Top-5错误率的改进。在这里，[21]和[38]的性能引用自他们的论文，Mean Teacher [39]与ResNet-18 [1]的性能来自在GitHub上运行其官方实现当使用相同的架构时， DCT比 Mean Teacher的性能高出1.2%。Top-1错误率为6%，0。前5名错误率为9%。与[21]和[38]使用具有更多参数和更大输入大小256 ×256的网络3.3消融研究在本小节中，我们将提供几项消融研究，以便更好地理解我们提出的深度协同训练方法。回想一下，深度协同训练中使用的损失函数有三个部分，监督损失Lsup，协同训练损失Lcot和视图差异约束Ldif。研究损失函数Lcot和Ldif在L中除了Lsup之外单独使用时的变化是有意义的。图图1显示了在SVHN和CIFAR-10数据集上使用不同损失函数时深度协同训练的训练动态图在两个图中，蓝线表示我们在训练DCT中实际使用的损失函数，绿线表示仅应用协同训练损失Lcot和Lsup，并且橙色线表示仅使用视图差异约束Ldif和Lsup。从图1，我们可以看到Co-Training假设（Lcot）在开始时表现更好，但很快就被Ldif超越。 Lcot甚至在SVHN数据集中陷入了一个极端的情况，在第400个历元附近，它的验证精度突然下降。对于这种现象，我们推测，这是因为网络已经崩溃到对方，这促使我们调查的损失Ldif的动态。如果我们的推测是正确的，那么在该时期附近也将存在损耗Ldif的异常，这确实在下一小节中示出。此外，这也支持了我们在论文开头的论点，即cot+ dif difcot确认累积（%）基于深度协同训练的半监督图像识别114432210 200 400600时代0 200 400 600时代图二. 视图差异的消融研究。左图是SVHN数据集上的Ldif，右图显示CIFAR-10上的Ldif在不最小化L_dif的情况下，L_dif通常在“L_c 〇 t”中是大的，这意味着两个模型仍然是最小的。在SVHN数据集中，两个模型在大约第400个时期之后开始彼此崩溃，因为我们观察到L dif的突然增加。这对应于图1的左图中的突然下降。1，其示出了视角差异和精度之间的关系将模型推开的力量对于共同训练用于半监督学习的多个神经网络是必要的我们观察到的另一个现象是Ldif单独可以实现合理的结果。这是因为当对抗算法未能解决两个网络ks时，Ldif 将把特征值确定为 Lcot 。在其他方面，Ldifin实践结合了Co-Training假设和View DifferenceConstraint，这取决于对抗算法的成功率。关于视图差异这是对双视图训练中，当我们仅对协同训练假设建模时，两个模型是否倾向于彼此崩溃，以及Ldif是否可以在训练期间将它们推开的合理性检查。为了研究这一点，我们绘制了Ldif在深度协同训练中最小化时和未最小化时的曲线，即 λdif= 0。图图2示出了SVHN数据集和CIFAR数据集的Ldif的图，其对应于图2中所示的验证精度1.一、它清楚地表明，当L_dif未被最小化为“L_cot”时，L_di f远大于0，指示每个模型容易受到另一个模型的对抗性示例的影响。就像我们在图中观察到的极端情况一样。1对于SVHN数据集（左），在第400个时期附近，我们还在图1中看到L dif的突然增加。2为SVHN在相同的时期。这意味着一个模型的每一个对抗性的例子都愚弄了另一个模型，即它们相互崩溃。塌陷直接导致图中左侧的验证准确性显著下降。1.一、这些实验结果证明了视图差异和验证误差之间的正相关性。它还表明，在双视图训练中，当没有施加力将它们推开时，模型往往会相互塌陷。最后，这些结果也支持我们提出的Ldif作为损失函数的有效性，以增加模型之间的差异。关于视图的数量我们已经提供了SVHN和CIFAR-10数据集的不同视图数量的深度协同训练的性能。cotcot+ difcotcot+ difdifdif12S. 乔，W.沈，Z.张湾，澳-地Wang和A.Yuille2个视图4个视图8次浏览确认累积（%）889486928482100 120 140 160 180200时代100 120 140 160 180 200时代图三. 在SVHN数据集（左）和CIFAR-10（右）上使用不同视图数量的深度协同训练的训练动态。图集中在100到200的时期，其中差异最明显。我们观察到一个更快的收敛速度时，视图的数量增加，但改善变得较小时，视图的数量从4增加到8相比，从2到4。表1中，我们表明将视图的数量从2增加到4可以提高每个单独模型的性能。但是我们也观察到，当我们进一步将视图的数量增加到8时，改善变得更小图3，我们展示了当同时训练不同数量的视图时深度协同训练的训练动态如图3，当我们增加同时训练的视图数量时，我们观察到更快的收敛速度我们专注于从100到200的时代，在那里不同数量的视图之间的差异是最明显的。由于所提出的多视图深度协同训练的可扩展性，不同视图的性能是直接可比的与8个视图比4个视图在最终验证精度上的改进一样，收敛速度的改进也比4个视图比2个视图的改进有所降低4讨论在本节中，我们将讨论深度协同训练与以前的方法之间的关系。我们还提出了替代Co-Training框架的观点来讨论深度Co-Training。4.1相关工作深度协同训练也受到半监督图像识别技术[21，22，32，42，43]的最新进展的启发，该技术训练深度神经网络f（ ·）以将其转换为s（z），即。e. f（x）=f（x+z）. 在一次迭代中的计算不需要双重前馈和反向传播，一个用于f（x），一个用于f（x+（z））。我们问一个问题：如果我们训练两个单独的模型，因为这样做需要相同的计算量，会发生什么？我们很快意识到，训练两个模型并鼓励它们进行接近的预测与Co-Training框架有关[24]，该框架具有2个视图4个视图8次浏览确认累积（%）基于深度协同训练的半监督图像识别13良好的理论结果，提供了两个模型是条件独立的，dent给定的类别。然而，仅具有协同训练假设的训练模型不足以获得良好的性能，因为模型往往会彼此塌陷，这与协同训练框架所必需的不同模型之间的视图差异相反。如2.2节所述，我们需要一种生成方法来生成两个模型预测不同的图像。生成对抗网络（GAN）[23，41，44]是视觉问题的流行生成模型，也已用于半监督图像识别。GANs的一个问题是，它们将向Co-Training框架引入新的网络来生成图像，这些图像也需要学习。与GANs相比，内省生成模型[33，45]可以以轻量级的方式从判别模型生成图像，这与对抗性示例[28]有一些相似之处。使用判别模型的生成方法还包括DeepDream [46]，Neural Artistic Style [47]等。我们在深度协同训练中使用对抗性示例，因为它的自然适用性可以通过使用其他模型的对抗性示例训练每个模型来避免模型相互崩溃。在上面讨论的工作之前，半监督学习一般已经被广泛研究。例如，[21]中使用的互斥性损失和[32]中使用的熵最小化类似于自训练技术[48，49]的软实现，这是半监督分类任务的最早方法之一[20]为半监督学习提供了一个很好的综述方法一般。4.2不同观点在本小节中，我们从几个角度讨论了所提出的深度协同训练方法，以替代协同训练框架。集成多个独立训练的模型以获得更准确和稳定的分类器是一种广泛使用的技术，以实现更高的性能[50]。这也适用于深度神经网络[51，52]。换句话说，这表明当具有相同架构的多个网络以不同的方式初始化并使用不同时间顺序的数据序列进行训练时，它们可以实现类似的性能，但以互补的方式[53]。在多视图深度协同训练中，我们也并行训练多个模型，但不是独立的，我们的评估是通过将其中一个作为最终分类器来完成的，而不是平均其预测概率。深度协同训练实际上是在寻找一种无需初始化和数据顺序的解决方案。多智能体学习在对用于图像识别的最新半监督学习方法进行文献综述之后，我们发现几乎所有方法都在多智能体学习框架内[54]。仅举几例，基于GAN的方法至少具有判别网络和生成网络。Bad GAN [23]添加了一个基于GAN的编码器网络GAN里的特工14S. 乔，W.沈，Z.张湾，澳-地Wang和A.Yuille以一种敌对的方式互动。正如我们在第4.1节中所述，训练深度网络以抵抗噪声的方法也具有两个单独模型的交互行为，即。双重前馈和反向传播。这些方法中的代理以合作的方式进行交互。深度协同训练显式地对协作多智能体学习进行建模，该协作多智能体学习根据监督数据和不同智能体之间的协作交互来训练多个智能体。在多智能体学习框架中，Ldif可以被理解为从其他智能体的错误中学习，并且损失函数Eq.8类似于一群代理内的交互模拟。深度协同训练的一个特点是模型不仅从监督数据中学习，而且还从其他模型的预测中学习。这让人想起了知识蒸馏[55]，其中学生模型从教师模型中学习，而不是从数据集的监督中学习。在深度协同训练中，所有模型都是学生，不仅从其他学生模型的预测中学习，还从他们犯的错误中5结论在本文中，我们提出了深度协同训练，一种用于半监督图像识别的方法。它扩展了协同训练框架，该框架假设数据具有两个互补的视图，基于此可以构建两个有效的分类器受深度神经网络最近在监督图像识别中取得的成功的启发，我们扩展了Co-Training框架，将深度网络应用于半监督图像识别任务。在我们的实验中，我们注意到模型很容易相互折叠，这违反了Co-Training框架中对视图差异的要求为了防止模型崩溃，我们使用对抗性示例作为生成方法来生成视图具有不同预测的数据。实验表明，这种将模型推开的额外力量有助于训练，并且与仅Co-Training建模相比显着提高了准确性。由于联合训练是多视图学习的一种特殊情况，我们也自然地将双视图DCT扩展为可扩展的多视图深度联合训练方法，其中两个视图的超参数也适用于增加的视图数量。我们在SVHN，CIFAR-10/100和ImageNet数据集上测试了我们提出的深度协同训练，这些数据集是之前测试最先进方法我们的方法远远优于它们致谢我们感谢黄万宇、王慧宇、刘晨曦、谢灵犀和夏颖达提出的有见地的意见和建议。我们衷心感谢NSF奖励CCF-1317376和ONR N 00014 -15-1-2356的资金支持这项工作也得到了中国国家自然科学基金61672336的部分支持。基于深度协同训练的半监督图像识别15引用1. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议，CVPR（2016）2. Huang，G.，刘志，Weinberger，K.Q.：密集连接的卷积网络。IEEE计算机视觉与模式识别会议，CVPR（2017）3. 乔，S.，Shen，W.，Qiu，W.，刘，C.，Yuille，A.L.：Scalenet：指导超市和其他地方的对象在：2017年IEEE计算机视觉国际会议，ICCV2017，意大利威尼斯，10月22日至29日。（2017年）4. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在佩雷拉，佛罗里达州，Burges，C.J.C.博图湖Weinberger，K.问： eds. ：N个单元中的设备配置系统25。（2012）10975. 乔，S.，刘，C.，Shen，W.，Yuille，A.L.：通过从激活预测参数的少镜头图像识别。 IEEE 计算机视觉与模式识别会议（ IEEE Conference onComputer Vision and Pattern Recognition，CVPR）（2018年）6. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。CoRR abs/1409.1556（2014）7. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，E

下载后可阅读完整内容，剩余1页未读，立即下载