没有合适的资源?快使用搜索试试~ 我知道了~
6349多选择学习及其在视觉计算田凯1徐毅1周水耕1,2关继红31上海市智能信息处理重点实验室,上海交通大学信息工程学院复旦大学计算机科学系,上海2004332复旦大学上海智能电子系统研究所,上海2004333同济大学计算机科学与技术系,上海201804摘要大多数现有的集成方法旨在独立地训练底层嵌入模型,并通过平均或加权平均来简单地聚合它们的最终输出。由于许多预测任务都含有不确定性,这些集成方法大多只考虑降低预测的方差,而没有考虑集成之间 的 协 作 。 与 这 些 集 成 方 法 不 同 , 多 选 择 学 习(MCL)方法利用所有嵌入模型之间的协作来产生多个不同的假设。本文提出了一种新的MCL方法,称为vMCL(versatile Multiple Choice Learning的缩写),通过集成深度神经网络来扩展MCL方法的应用场景。我们的vMCL方法保持了现有MCL方法的优点,同时克服了它们的主要缺点,从而获得了更好的性能。我们的vMCL的新颖之处在于三个方面:(1)设计了一个选择网络,用于学习专家的信心水平,在多个假设的基础上提供最佳预测;(2)引入铰链损失以减轻MCL设置中的过度自信问题;(3)易于实现,可以端到端的方式进行训练,这对于许多现实世界的应用来说是一个非常有吸引力的特性。图像分类和图像分割实验表明,vMCL优于现有的最先进的MCL方法。1. 介绍机器学习任务在许多应用领域中通常伴随着模糊性,例如计算机视觉[16,24],语言理解[11,21]和推荐系统[10]。人类通过各种信息流与世界互动。有时候很难在一个视图中进行感知器识别。由于模糊性,我们不能期望得到*通讯作者。一个模型的预测对所有数据都是准确的。因此,研究人员建议生成多个合理的输出[8]。这一点很重要,特别是对于交互式智能系统,如机器翻译[1],图像分类和去噪[7]。生成多个合理的预测促进了解决方案的多样性为了产生多种不同的预测,开发了两种类型的方法。一种是在推理过程中训练模型并生成多个预测[2,5,12,13]。通常,图形模型用于生成结构化输出。这些方法通过优化不同解之间的相异性,可以找到一组m-最佳配置。另一种方法是训练多个模型并汇总它们的预测以生成最终输出。这种方法侧重于学习过程的设计。在第二类方法中,一些方法集成许多独立的模型,并将所有的预测收集到一个候选集合中。这些方法,包括贝叶斯平均[18],提升[23]和装袋[3],在许多机器学习任务中,特别是分类中,比使用单个模型表现得更好。由于集成方法通常独立地训练所有嵌入模型,因此它们在预测中可能获得低多样性。因此,多选择学习(MCL)[9]被提出来通过在所有嵌入式模型之间建立合作来克服这一缺陷,每个嵌入式模型都被训练成一个特定数据子集的提出了预言损失的并使用预言错误率来衡量MCL的性能,这意味着没有一个预测是正确的测试示例的比率。最近,Leeet al. [15]将深度神经网络引入MCL,并提出了随机多选择学习(sMCL)来训练各种深度集成模型。通过直接最小化预言损失,每个模型集中在一个子集的数据,使高精度的预测。尽管sMCL实现了高Oracle性能,并且优于许多现有的基准,但它通常不能令人满意地6350因为每个网络都倾向于对自己的预测过于自信因此,简单地通过平均或投票来聚集这些预测将导致糟糕的最终预测。这导致sMCL在top-1准确度测量方面表现不佳,并且不能用于需要一个精确预测的场景。换句话说,sMCL无法充分利用Oracle的高性能。为 了 解 决 过 度 自 信 问 题 , [14] 开 发 了 置 信 MCL(CMCL)算法,该算法采用了一个新的损失函数,称为sMCL的置信预言损失置信预言损失在原始预言损失之后添加了一个新的项,以最小化非专用模型的预测分布与均匀分布之间的Kullback-Leibler发散。虽然CMCL极大地提高了前1的准确率,但它没有考虑假设的多样性,这使得它失去了多项选择学习的优点因此,它在Oracle性能方面低于sMCL。在本文中,我们认为,存在一种方法,可以扩展MCL方法的一般预测方案,而保持MCL设置的优点为此,我们提出了一种新的MCL方法,称为通用MCL(简称vMCL),它试图收获现有MCL方法的优点具体而言,vMCL旨在保持高度多样性,同时抑制过度自信。因此,vMCL在oracle和top-1度量方面都很好,这使得MCL在现实世界中更适用。vMCL的主要创新点和优点如下:1)提出了一种置信铰链损失来解决过度置信问题,它可以防止非专业模型在高置信度下做出不准确2)采用选择网络学习各专家的置信度,通过对模型的不同预测进行聚合,得到更可靠的最终决策。3)vMCL可以很容易地实现,并且可以以端到端的方式进行训练,这对于许多现实世界的应用程序来说非常有吸引力。我们在两个视觉计算任务上评估vMCL:图像分类和分割。在四个公开数据集上的实验表明,vMCL不仅显著提高了Oracle性能(与sMCL相比),而且在top-1精度方面优于现有的MCL方法为了清楚快速地了解我们的vMCL相对于现有基于深度学习的MCL方法的优势,请参见Tab.1.从过拟合、过度自信、假设多样性、前一误差和预言误差五个维度对sMCL、CMCL和vMCL进行了定性比较总之,vMCL在所有五个维度上都优于(或不差于)sMCL和CMCL。2. 相关工作多样性是处理人工智能任务中不确定性的好方法。一般来说,有两种类型的方法来生成-表1:与现有技术MCL方法的定性比较 对于过度拟合和过度自信,对于假设多样性,'H'是好的,'L'是坏的。对于top-1错误和oracle错误,在所有情况下,MCL方法过度拟合过于自信假设多样性Top-1错误Oracle错误SMCLHHHHM五矿股份MMMMHvMCLLLHLL吃多种多样的输出。一种是从单个模型中推断出m-最佳多样性预测,另一种是通过训练多个模型将多样性视为学习任务。第一种类型的大多数方法是概率图模型,在推理步骤中生成多个预测。[2]提出了一种算法来产生不同的m-best解决方案。他们以顺序模式接近m个最佳配方,其中下一个解决方案通过整数规划优化过程搜索。它是一种贪婪算法,使每个预测都是最低能量状态,但与先前的预测不同。然而,由于贪婪的性质,每个解决方案只受先前预测的影响,而不是即将到来的预测。为了解决这个问题,[12]提出了一种新的公式,通过在特定构造的图形模型中求解能量最小化来联合构造m-最佳多样解。他们声称[2]的方法可以被看作是他们算法的贪婪近似。最近,Di- verseNet [5]学会了用一个控制变量产生多个假设,对于每个例子,它的训练图需要一组标签而不是一个标签。训练多个模型有不同的方法,包括经典的集成方法 。 在 这 项 工 作 中 , 我 们 专 注 于 多 项 选 择 学 习(MCL),这是一种新的方法来产生多个不同的解决方案。随机多选择学习(sMCL)算法[15]首先将预言机方案引入深度神经网络,然后最小化多个深度网络的预言机损失。因此,每个网络都能够处理分类任务的类的子集。然而,由于oracle方案,每个样本只能分配给一个网络,并在该网络上向后执行。因此,当训练数据不足时,每个模型都容易过拟合。此外,sMCL只关注Oracle性能,在需要确定性输出的场景中可能会失败。因此,sMCL在前1准确度方面表现不佳。[22]通过提供数学理解来扩展sMCL的思想,为什么这种提法是有益的。最近,[14]提出了置信MCL(CMCL)算法,该算法采用了一种名为置信预言损失的新损失函数来缓解过度置信问题6351专家专家专家...聚集...PG...0.90.080.020.90.080.02p3p2p1我我我低水平地层高水平分层分类器预测数据候选人库选择网络信心图1:我们的vMCL方法的架构有三个网络,每个网络都被称为专家,其中选择网络将低级层产生的特征的串联作为输入并生成置信度分布,该分布可用于聚合来自所有网络(专家)的不同预测,以生成高质量的最终预测。候选池用于评估这些假设的多样性以及集合的准确性。的sMCL。置信预言损失在原始预言损失之后增加了一个新的项,以最小化非置信预言损失的预测分布与预测分布之间损失如下:ΣNminLoracle=min.Σyi,fm(xi)(二)专业化的模式和统一的分布。虽然CMCL大大提高了前1的准确性,在许多情况下,假设的多样性远小于sMCL。这表明KL分歧是一把双刃剑,它可以帮助避免过度自信问题,同时也降低了多样性。3. 预赛m∈{1,…M}i=1由于预言损失是一个非连续函数,采用迭代块坐标下降算法对目标函数进行优化。随机多项选择学习(sMCL)[15]通过深度神经网络实现多项选择学习,目标如下:设D={x,y}N是一个数据集,其中每个实例xΣN ΣMΣ我ii=1iminLsMCL =vmyi,pm(xi)是训练示例,yi是标签,fm(x)(m=1,.,M)是个体模型,并且M是总体尺寸(即,嵌入的单个模型的数量传统的独立集成(IE)方法通过采用以下目标在整个数据集上训练每个模型S.T.我i=1m =1ΣMvm= 1,vm∈ {0,1}.m=1(三)NM .Σ其中pm(xi)是第m个网络的预测,并且vm是一个指示变量,它只接受0或1。在每个minLIE= Σ Σℓi=1m =1yi,fm(xi).(一)我迭代训练过程,sMCL为训练数据到每个神经网络,并通过分别在这些网络上进行前向传播得到输出。Af-Ab over e,(·,·)表示损失函数。的预测IE方法通常具有低方差。与传统的集成方法不同,多项选择学习(MCL)[8]旨在通过最小化oracle,在数据的子集上专门化每个单独的模型。在预言损失的计算中,对于第i个样本选择最准确的网络,即第m个网络,并设置vm=1。然后,第i个训练样本只在第m个网络上进行反向传播因此,每个网络在某些类上的性能优于其他网络pg狗狗猫牛p3p2p16352我我我我m=1我我M网络,即,每个网络成为某些特定类别的专家。4. 多功能选择学习图1显示了vMCL方法的架构,该架构由两个主要部分组成:(一)多个专科网络;及(二)选择网络。专家网络的目标是提供多样化的输出,选择网络在必要时对这些专家做出最终决定。该方法对网络结构的选择没有限制,具有通用性和灵活性。4.1. 选择网络正如我们之前提到的,现有的MCL算法每-4.2. 信心铰链损失过度自信可以被视为机器学习中的泛化问题。它发生在许多场景中,例如不平衡分类[4]。这个问题在深度学习中也存在深度神经网络将一个从未见过的示例分类为具有高置信度的某些特定类别是很正常的。最近,一些解决方案被提出来处理过度自信问题。例如,惩罚具有低熵分布的输出的置信度[20]。在这里,我们提出了一个自信的铰链损失,以解决MCL的过度自信的问题。vMCL的目标定义如下:在前1错误率方面表现不佳,因为他们缺乏一个计划来汇总来自所有预测的不同预测minΣNL( D)=ΣΣMvm.yi,PθΣ(y|xi)+i(vi,wi)嵌入式模型这些MCL算法不适用于不需要人为干扰的场景(例如:选择最佳预测)。在这里,我们采用一个选择网络来预测每个模型的置信度.如图1、选择网络刚部署几个v,θm,θmi=1ΣC+αmaxc/=yiΣMImm=1.ΣΣP选择(c|xi)− Popt(yi|xi)+β,0低层次的专家,它学会生成每个专家的信心一般来说,选择网-S.T.m=1vm=1,工作是一个神经网络,其输入是连接并且输出大小是总体大小M。选择网络的目标标签是动态的,vm∈ {0,1},ni,m(五)根据MCL机制为训练阶段中的每次迭代自动生成具体来说,假设我们有M个网络(专家)其中vm是如等式中定义的指示变量。3,vm=1意味着第m个模型是第i个示例的最佳模型。在分类任务中,通常选择(·,·)作为和{θm}M是这些专家的参数。的交叉熵函数α是用于平衡的超参数选择网络的参数表示为k。 让Pθm(y|xi)是第m个专家对例子xi的预测分布。 选择网络的输出xi可以表示为[wi,...,wM],其计算如下:基于保证金的损失和β的重要性是一个超,表示置信度的参数。这个目标函数有三个部分。第一部分是甲骨文的损失,其目的是最大限度地减少损失iiMlogit上的softmax层,因此m=1m= 1。精确模型。第二部分是网损的选择P选择(c|xi)是在输出xi属于类别c的概率的所有特殊列表上的聚合预测。从形式上讲,ΣMP选择(c|xi)=wmPθ(y = c|xi)。(四)m=1它表面上看起来像专家混合(MoE)方法[26,19]。它们都提供了一种方法来决定如何使vMCL能够通过以下方式生成准确的预测学习每个专家的信心。选择网络通过选择或聚合这些不同的输出来学习产生最佳预测。第三部分是我们的信心枢纽损失,旨在解决过度自信问题。为聚合预测概率设置铰链损失,使得每个图像的正确类别具有比不正确类别高固定裕度β的概率。一个模型可以依赖。主要的区别在于形式上,Popt(yi|xi)−Popt(c|xi)≥β,对于c伊岛因为我们的方法对于选择有明确的目标标签网络,而MoE不为门控神经网络提供地面真值标签[6],因为它不需要知道哪个模型是特定示例的专家。MoE只考虑汇总输出的正确性,因此可能无法提供多种多样的输出。虽然有一些方法来估计门控网络的标签,但它们通常是耗时的。这个想法是为了降低预测概率的非-当专家们做出错误的预测时,他们的信心很高。同时,它也促进了专家以高概率预测真标签。 与[14]中的自信预言损失相比,它希望每个非专家输出一个对候选池没有意义的均匀分布,我们的新损失是一个稀疏正则化项,它只纠正了不正确的预测。W6353P选择1条第二次第三次4次5次m=1J我M我我我我我我我60004000200000.00.51.00.00.51.00.00.51.00.00.51.00.00.51.00.00.51.0(一)(b)第(1)款(c)第(1)款(d)其他事项(e)(f)第(1)款图2:在CIFAR-10数据集上测试的模型(5个网络)的预测分布直方图。(a)从所有模型聚合的Popt直方图。(b)-(f)分别表示m =1、2、3、4和5时P opt和P θ m之间的概率残差。接近零的概率残差指示第m个模型专门针对这些样本,而接近1的概率残差指示第m个模型对于这些数据是非专家。高度信任的人换句话说,即使在某些假设中的最大概率非常高(例如0。9),只要不影响最终的最优预测,就不会受到惩罚这一性质促进了多个假设之间的多样性。我们通过分析模型的概率残差来研究模型的特化。在这里,概率剩余-第m个模型的ual被定义为rm(y|x)= Popt(y|x)-算法1vMCL的训练算法输入:输入数据集D,超参数α,β输出:经过良好训练的vMCL模型。1:初始化专家{θm}M选择网络2:重复3:对批次S ∈ D进行采样4:对于m=1→M,和Pθm(y|x)=JmwjPθ(y|X)。一些实证结果是5://计算每个专家的批量输出示于图二、 如图2(a)最佳概率能力接近于1,这表明我们的选择网络给出了具有高置信度的最优预测。6:ym,1,.,ym,|S|←Pθm7:结束8:对于i = 1 → |S|做(S)图图2(b)-(f)显示每个模型只专门化一个部分样本/类。原因在于,当残差rm(y|x)≤0时,最优预测Popt由第m个模型支配。相反,rm(y|x)1意味着第m个模型对P opt没有贡献。4.3. 训练和推理9:vm= 0,m = 1,...,M10://选择每个示例的11:m←arg minm∈[1... M]n(yi,ym,i)∗12:vi=113://设置选择网络14:vi=[v1,...,vM]15://计算最优预测培训:我们修改的优化算法,sMCL求解Eq.(五)、考虑到n(v,w)是不同的,16:Popt(y|xi)=Mm=1 WmPθ (y|xi)i i17://计算函数的梯度网络参数,我们可以得到焦油-得到标签vi=[v1,v2,.,从指标变量vm中计算选择网络的vM ]。预测分布wi通过选择的输出上的softmax函数获得网络因此,可以以端到端的方式训练vMCLAlg. 1给出了基于随机梯度下降(SGD)的vMCL的训练过程。请注意,该算法可以很容易地采用分批SGD,而在这里,为了清楚起见,我们提出了样本式SGD。推论:对于测试示例xi,vMCL生成M个不同的输出Pθm(y|xi)(m =1,.,M),并且不同输出的聚合Popt(xi)用于生成最终决策。4.4. 功能共享为了解决MCL中的过拟合问题,我们在专家之间共享几个最重要的卷积层的权重,这被称为共享层。这是不同的-18:L(xi)/L19://计算θm的梯度,θm20:μL(xi)/μθm21:结束22:更新模型参数23:直到收敛从CMCL中的特征共享方法开始,其中一些特定层的特征被随机共享。正如以前的工作[25]已经证明的那样,前几层学习深度CNN中的常见模式,共享层将学习整个数据集上的更一般的特征。5. 绩效评价我们通过两项任务评估vMCL:图像分类和分割。M6354三个真实世界的图像数据集包括-6355飞机汽车鸟猫鹿狗蛙马船卡车1 2 3 45(a) IE1 2 3 45(b) SMCL1 2 3 45(c) 五矿股份1 2 3 4 5(d) rMCL图3:CIFAR-10上不同集成方法的类精度横轴表示具有5个模型的每个集成分类器中的模型每列的浓度越高,表明相应模型的专业化程度越高。表2:CIFAR-10上的分类错误率,√技术可选地用于vMCL。‘ ’ means误差率由vMCL的所有预测的加权和通过对其他方法的所有模型的输出概率进行平均来评估预言错误率指示任何专家都不能正确预测的测试图像的比率,其可以用公式表示如下:1.55% 13.74%eoracle=1ΣNYM1(ym,iyi)。(六)vMCL---中国1.37%12.03%Ni=1m =1.使用CIFAR-10、SVHN和CIFAR-100进行分类,使用图像数据集iCoseg进行分割。1(x)=0x=False,1x=True。(七)第在所有的实验中,我们比较vMCL与传统的独立系综 ( IE ) , 随 机 MCL ( sMCL ) 和 置 信 MCL(CMCL)。为了公平起见,所有方法都使用相似的网络结构和训练策略。5.1. 数据集• CIFAR-10包含50,000个训练示例和10,000个测试示例。每幅图像的大小为32×32像素,类别编号为10。• CIFAR-100 与 CIFAR-10 具 有 相 同 的 基 本 统 计 数据,除了它包含100个类。• SVHN是一个数字图像数据集,由73,257张训练图像和26,032张测试图像组成它具有与CIFAR-10相同的福尔-在[14]和[27]之后,我们用全局对比度归一化和ZCA白化对图像进行预处理。• iCoseg由38组图像组成,具有前景-背景分割的像素级地面实况,每个图像的位置。我们按照[14]中的建议对这个数据集进行预处理,即,随机分割训练集和测试集,并对图像进行加密。5.2. 图像分类业绩计量。我们使用oracle和top-1错误率来衡量分类性能。顶部-1Abover e,1(·)是一个指示函数,ym,i是第m个网络对第i个培训设置。我们在一个有3个conv层的小网络和一个大规模ResNet上评估vMCL。所有方法的总体规模为5。选择网络部署在专业人员的最后一个卷积层之后。所有的方法都是用SGD优化的,初始学习率为0。1,其在几个时期之后线性减小。我们使用设置为0.9的Nesterov动量。权重衰减和小批量大小分别设置为0.0005和128。对于每种方法,我们运行5次并对结果进行平均。专业化比较。图3给出了四种集成方法在CIFAR-10测试集上的经验类精度结果对于这些方法中的每个模型准确度在不同类别上的分布显示了其专业性。分布越均匀,模型的专业化程度越我们可以看到,IE缺乏多样性,因为每个模型的表现相似,并且几乎均匀分布。sMCL和vMCL比CMCL的模型具有更高的专业化,因为sMCL和vMCL比CMCL专注于更少的类别,具有更高的准确性。消融分析。我们通过使用或不使用这些技术进行实验,在CIFAR-10上结果见表。2与IE、sMCL比较。82.9%82.9%83.4%83.1%84.0%89.1%88.4%88.8%89.5%90.8%75.9%74.3% 73.6%75.7%74.9%70.3%69.2%69.1%70.1%67.0%80.7%80.9%82.2%82.5%80.4%73.9%71.4%72.2%73.1%72.6%88.3%89.2%88.0%87.9%88.1%80.6%82.0%82.3%82.2%89.5%91.4%89.8%89.9%89.4%89.0%88.1%88.6%88.0%88.4%0.0% 0.0% 0.0%0.0% 0.0% 0.0% 0.0%0.0% 0.0% 0.0%0.0% 0.0% 0.0% 0.0%0.0% 0.0% 0.0% 0.0%0.0% 0.0%百分之九0.0% 0.0% 0.0% 0.0%百分之零点零百分之九十七0.0% 0.0% 0.0%0.0% 0.0% 0.0%百分之九0.0% 0.0%0.0% 0.0% 0.0% 0.0%百分之九百分之九百分之九97.0%百分之零95.2%45.6%百分之七百分之零点一6.2%6.3%8.4% 1.1%百分之零点零0.0% 7.3% 0.2%百分之九点一0.4% 0.0% 0.0% 0.1%百分之九93.0%百分之九0.1% 0.0% 0.1% 0.0%0.2% 0.0% 0.0% 1.7%94.8%百分之八1.7% 0.4% 0.0%0.0% 0.7%92.9%百分之十47.5%百分之五百分之十4.0%0.0% 0.1% 0.0%百分之九百分之九25.0%0.1% 0.0%95.9%0.0% 0.0%0.0% 0.0% 0.0%0.0% 0.0%0.0% 0.0% 0.0% 0.0%0.0%99.0% 0.0% 0.0%0.0% 0.0% 0.0% 0.0%0.0% 0.0% 0.0% 0.0%0.0% 0.0% 0.0%0.0% 0.0% 0.0%百分之九百分之零45.8%百分之九百分之九百分之九百分之九百分之九百分之零百分之六67.6%0.0% 0.0% 0.0% 0.0%百分之九十六0.0% 0.0%96.7%0.0% 0.0%集成方法共享层选择网络Oracle错误率前1错误率IE--百分之七点二15.74%SMCL--2.43%百分之五十四点九五6356我M表3:不同方法对CIFAR-10、SVHN和CIFAR 100的性能比较。最佳结果以粗体显示。方法CIFAR10SVHNCIFAR100Top-1错误Oracle错误Top-1错误Oracle错误Top-1错误Oracle错误IE15.74%7.20%5.64%3.02%41.95%26.49%SMCL58.56%2.43%35.74%1.55%52.86%百分之二十四点三八五矿股份百分之十三点八二2.98%6.43%1.62%41.25%26.76%vMCL百分之十二点零三1.37%5.88%1.22%38.07%百分之十九点三二25.020.015.010.05.00.0Cifar10SVHNCIFAR100SingleNetIE sMCL五矿股份vMCL(a) ResNet20的Oracle错误率50.040.030.020.010.00.0Cifar10SVHNCIFAR100SingleNetIE sMCL五矿股份vMCL(b) ResNet20的Top1错误率7654321 2 3 4 5K(c) CIFAR-10上的重叠K图4:(a)和(b)是ResNet-20在三个数据集上的分类错误率。(c)Oracle错误率与K重叠。我们可以看到,共享层和选择网络都能显著提高多项选择学习的性能。同时使用这两种技术时,vMCL可实现最佳性能。在以下实验中,vMCL默认被称为具有共享层的层。在一个小的网络上。我们首先在一个只有3个卷积层和2个全连接层的小型网络上比较vMCL与其他方法。结果在Tab中。3 .第三章。在CIFAR-10上,vMCL实现了最佳的预言错误率,比sMCL低近43%。在前1错误率方面,vMCL相对为12。95%优于CMCL,尽管CMCL的表现优于sMCL和IE。一般来说,SVHN中的图像比CIFAR-10中的图像包含相对简单的模式,它们比CIFAR-10中的图像更容易分类因此,看到IE的top-1错误率比vMCL好一点并不但vMCL仍优于sMCL和CMCL,Oracle中的错误率方法。sMCL中的每个模型都被设计为专门针对数据的某个子集,过度自信和过度拟合问题使其在top-1度量中表现不佳。虽然CMCL显著提高了前1错误率,但未能减少Oracle错误。这是因为它的可信预言损失影响了每个网络的专业化,通过最小化非专业化数据的预测分布和均匀分布之间的KL分歧由于有信心的铰链损失,vMCL实现了比sMCL更好的预言措施。通过共享层和选择网络,vMCL在三个数据集上的Oracle错误率方面实现了最佳性能。此外,vMCL在前1错误率方面比CMCL好得多重叠效应。在这里,我们检查了在培训阶段挑选前K名最好的专家的效果,也在先前的MCL工作中进行了研究。通过重叠,前1错误率。vMCL的性能优于其他方法我们指Mm=1 vm= K,其中K是重叠大小。在Oracle错误率方面,改进幅度达到27.05%。对于具有相对大量类的CIFAR-100,vMCL仍然比sMCL实现更好的oracle错误率,令人惊讶地提高了约20%。更重要的是,vMCL具有最低的top-1错误率,约为7。比CMCL法提高27%在一个大的网络上。然后,我们将vMCL与大型卷积网络上的其他方法进行ResNet-20,其架构与[14]相同。我们使用单个ResNet作为基线,表示为SingleNet,并将四种方法的集成大小设置为5。结果示于图4(a)、(b)。显然,vMCL优于其他方法。由于IE缺乏多样性,它的表现不如MCL结果示于图第4(c)段。 随着K的增加,所有方法中的最后一种变得更好。然而,当K接近系综大小M时,性能变得更差,因为当K=M时sMCL退化为IE。hyperparameters的作用我们还研究了vMCL中超参数的敏感性。由于篇幅有限,这里我们只给出β的结果,β表示保证金损失的置信区间。 如果我们不采用选择网络,每个测试示例的最终预测是所有专家预测的平均值。因此,建议β大于1,其中M是专家的数量。如图5、给定数据集,当β变化时,性能相当稳定。最好的价值CIFAR-10、SVHN和CIFAR-100的β分别为0.3、0.8和sMCLCMCLvMCLOracle错误率(%)前1名错误率(%)Oracle错误率(%)6357Oracle错误Top-1错误30.0 30.0 60.0Oracle错误Top-1错误20.020.040.0十点零十点零0.00.2 0.4 0.60.8(a) CIFAR-100.00.2 0.4 0.60.8(b) SVHN20.00.2 0.4 0.6 0.8(c) CIFAR-100图5:β在三个图像数据集上的灵敏度。表4:iCoseg上的前景-背景分割结果。模型尺寸M从1到5变化。最佳结果以粗体显示。方法IESMCL五矿股份vMCLMTop-1错误Oracle错误Top-1错误Oracle错误Top-1错误Oracle错误Top-1错误Oracle错误115.41%15.41%15.41%15.41%15.41%15.41%15.41%15.41%214.79%11.60%百分之十六点六五10.59%11.60%百分之十点八二10.98%9.37%3百分之十二点零九10.85%百分之十六点五四7.00%11.39%8.26%10.57%7.02%411.69%8.57%15.58%6.35%百分之十点九九7.77%九点九九3.52%511.42%7.41%百分之十四点九六6.35%百分之十点三六百分之七点八百分之十点二八3.07%0.6分别我们还检查了α的敏感性,发现性能对α值不敏感。所以我们在所有实验中设置α=15.3. 图像分割在这里,我们在分割任务上评估vMCL。由于iCoseg是前景-背景分割数据集,因此该任务被公式化为具有2个类的像素级分类问题。我们选择大于300×500像素的图像,并随机分割所选图像进行训练每个类的测试数据集的比例为80%(训练):20%(试验)。正如[14]中所建议的,我们使用双三次插值将图像调整为75×125,并设计一个全卷积网络(FCN)[17]来执行分割任务。对于每种方法,我们将集合大小从1改为5,并将网络训练到300个epoch。与分类任务不同,这里的预测错误率被定义为错误标记像素的百分比[8]。对于IE、sCML和CMCL,通过在输出中选择具有较低像素熵的预测来测量对于vMCL,通过使用最终聚合预测来测量前1个这是可以理解的,因为我们从候选集合中选择最有信心的对于所有方法,oracle错误率计算为所有输出中的最低错误率。我们将系综大小从1改变为5,并记录oracle和top-1测量的结果。结果见表。4.第一章在分类任务中,与sMCL相比,CMCL显著降低了前1错误率。然而,在这方面,它在oracle错误率方面的表现比sMCL差。vMCL不仅在oracle错误率方面优于sMCL,而且具有比所有其他方法更低的top-1错误。总之,vMCL在分割任务上显示出高度的专业化,并很好地处理了过度自信问题。6. 结论本文开发了一种新的MCL方法vMCL来学习深度集成网络。vMCL旨在扩展基于深度学习的MCL方法的应用场景,通过引入一些重要的技术,vMCL能够保持多个假设之间的多样性,并且它可以聚合比CMCL或独立集成(IE)方法更好的最终预测。vMCL在四个方面区别于现有的MCL方法:1)使用一种新的自信铰链损失来解决过度自信问题; 2)采用选择网络对不同的预测进行聚合; 3)探索特征共享技术以避免过拟合; 4)可以容易地实现,并且可以在端到端融合中训练。大量的图像分类和分割实验表明,vMCL显着优于最先进的MCL方法。确认本工作得到了国家自然科学基金部分项目的资助。U1636205和No. 61772367。Oracle错误Top-1错误6358引用[1] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。计算机科学,2014年。1[2] Dhruv Batra 、 Payman Yadollahpour 、 Abner Guzman-Rivera和Gregory Shakhnarovich。马尔可夫随机场中的多样m-最佳解。在欧洲计算机视觉会议上,第1-16页。Springer,2012. 一、二[3] 利奥·布莱曼装袋预测器。Machine learning,24(2):123-140,1996. 1[4] David A Cieslak和Nitesh V Chawla。学习不平衡数据的决策树。在联合欧洲会议机器学习和知识发现数据库,第241-256页。Springer,2008. 4[5] Michael Firman,Neill DF Campbell,Lourdes Agapito,and Gabriel J Brostow.Diversenet:当一个正确的答案是不够的。在IEEE计算机视觉和模式识别会议论文集,第5598-5607页,2018年。一、二[6] ZongYuan Ge , Alex Bewley , Christopher McCool ,Peter Corke,Ben Upcroft,and Conrad Sanderson.通过深度卷积神经网络的混合进行细粒度分类。计算机视觉应用 ( WACV ) , 2016 年 IEEE 冬 季 会 议 , 第 1-6 页 。IEEE,2016. 4[7] 加布里埃拉·金佩·阿吉泰亚努、托马斯·巴塔德、马塞洛·贝塔姆利奥和斯泰西·莱文。图像去噪算法的分解框架。IEEE transactions on Image Processing,25(1):388-399,2016。1[8] Abner Guzman-Rivera,Dhruv Batra和Pushmeet Kohli。多项选择学习:学习产生多个结构化输出。神经信息处理系统的进展,第1799-1807页,2012年。一、三、八[9] Abner Guzman-Rivera,Pushmeet Kohli,Dhruv Batra和Rob Rutenbar。在多输出结构化预测中有效地实施多样性在人工智能和统计,第284-292页1[10] Hubert Kadima和Maria Malek基于本体论的社交网络个性化推荐系统。软计算和模式识别(SoCPaR),2010年国际会议,第119-122页。IEEE,2010。1[11] Saurabh S Kataria , Krishnan S Kumar , Rajeev RRastogi,Prithviraj Sen,and Srinivasan H Sengamedu.使用分层主题模型的实体消歧。第17届ACM SIGKDD国际知识发现和数据挖掘集,第1037-1045页。ACM,2011年。1[12] Alexander Kirillov , Bogdan Savchynskyy , DmitrijSchlesinger,Dmitry Vetrov,and Carsten Rother.在单个标签中推断m-最佳多样标签在IEEE计算机视觉国际会议论文集,第1814-1822页一、二[13] Alexander Kirillov , Dmytro Shlezinger , Dmitry PVetrov,Carsten Rother,and Bogdan Savchynskyy.次模能量及以上的m-最佳多样标号。神经信息处理系统的进展,第613-621页,2015年。1[14] Kimin Lee ,Changho Hwang,Kyoung Soo Park,andJinwoo Shin.自信的多项选择学习。 第34届国际机器学习会议论文集-第70卷,2014-2023页。JMLR。org,2017. 二四六七八[15] Stefan Lee 、 Senthil Purushwalkam Shiva Prakash 、Michael Cogswell 、 Viresh Ranjan 、 David Crandall 和Dhruv Batra。训练不同深度集合的随机多项选择学习。神经信息处理系统进展,第2119-2127页,2016年。一、二、三[16] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 1[17] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页,2015年。8[18] 大卫·马迪根,阿德里安·E·拉夫特里,C·沃林斯基和J·霍特宁.贝叶斯模型平均。在AAAI关于集成多个学习模型的研讨会会议录中,Port-land,OR,第77-83页,1996年。1[19] Saeed Masoudnia和Reza Ebrahimpour。实验混合物:文献调查人工智能评论,第1-19页,2014年。4[20] Gabriel Pereyra , George Tucker , Jan Chorowski ,Łukasz Kaiser,and Geoffrey Hinton.通过惩罚置信输出分 布 来 正 则 化 神 经 网 络 。 ar
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功