没有合适的资源?快使用搜索试试~ 我知道了~
1大规模弱监督视觉的硬专家混合模型Sam Gross,Marc摘要训练适合单个GPU的卷积网络(CNN然而,仍然没有有效的方法来训练不适合几个GPU卡的内存的大型CNN在这项工作中,我们表明,一个简单的硬混合专家模型可以有效地训练,以良好的效果大规模的hashtag(多标签)预测任务。混合专家模型并不新鲜[7,3],但在过去,研究人员不得不设计复杂的方法来处理数据碎片。我们的经验表明,现代弱监督数据集足够大,以支持天真的划分方案,每个数据点被分配给一个单一的专家。 因为专家是独立的,所以并行训练他们很容易,并且评估模型的大小很便宜。此外,我们证明了我们可以为所有专家使用单个解码层,从而允许统一的特征嵌入空间。我们证明了训练比标准CNN架构实际训练的模型大得多的模型是可行的(事实上相对无痛),并且额外的容量可以很好地用于当前的数据集。1. 介绍大的带注释的图像数据集已经彻底改变了计算机视觉。卷积神经网络(CNN)等数据饥渴型机器学习方法的兴起 这些机器学习方法[9,5]不仅成功地解决了训练任务,而且还为许多图像任务找到了好的特征;在很大程度上,在Imagenet识别挑战等任务上表现更好的模型提供了更好的其他任务的特征[12,5]。然而,手工注释是费力的。与每天发布到网络和社交媒体上的数亿张图像相比,Imagenet数据集很小最近的工作[4,2,8]表明,可以用弱监督而不是手工注释的数据来构建视觉模型,打开了使用真正巨大数据集的可能性随着数据越来越大,我们可以期望能够扩大我们的模型,并获得更好的功能;更多的数据意味着更精细的模型,更少的过度拟合。然而,即使是当今通过我们目前的优化技术和硬件,每天发布到照片共享网站的图像数量超过了通过标准卷积架构的训练管道的此外,在这项工作中有证据[8,6]及以下内容表明,这些架构已经在数亿图像规模的数据集一种以直接方式缩放模型的成熟方法是使用在这项工作中,我们做了两个贡献。首先,我们提出了一个特别简单的混合架构,其中每个专家都与训练CNN的特征空间中的一个聚类相关联,该聚类充当gater。我们还描述了一个变体,其中所有专家共享相同的解码器,允许专家的特征空间对传输任务有意义其次,我们给出的证据表明,在从图像进行弱监督标签预测的情况下,在当今可用的大型数据集上,标准CNN模型是欠拟合的。另一方面,我们表明,尽管我们的方法很简单,但在这种情况下,它可以通过允许更强大的模型的有效训练来为测试准确性带来显着的2. 模型用x1表 示, ...,xN 标 记的 图像 训练 集, 输出为sy1,...,yn. 混合专家的基本思想是[7]模型是具有一组专家分类器H1,...,HK,以及选通分类器T.为了评估模型,输入x由T处理,输出具有K坐标的概率向量T(x)模型的输出为ΣKT(x)iHi(x)(1)i=168656866这里,T和Hi将是卷积网络,如[9,5]中所示。此外,我们将考虑一个简单的情况,其中对于每个x,T(x)在一个坐标中是非零的因为我们的模型将选择单个专家,而不是专家的分布,所以我们的模型是在这项工作中,我们不会端到端地训练我们的模型。也就是说,我们不会试图直接优化T,以便将x分配给专家最小化最终的分类损失。相反,我们将如下构建T:首先,训练具有L层s的标准监督协商解决方案网络w或kT,以从mxj 产 生y j。一旦我们对T恤的优化感到满意,ctzj=Txj. 然后,我们对zj进行K均值聚类,获得聚类中心c1,.cK. 然后.1,i f i=argmin||TL−1(x)−cj||2Y1Y2Y3Y4Y5H1H2H3H4H5TX图1:混合专家模型,每个专家有单独这里Yi是与分配给第i个专家的点相关联的标签,Hi是专家。YT(x)i=J0,否则(二)D因此,我们的模型是一个请注意,我们没有试图平衡每个集群的图像数量。一旦我们有了T,给定输入x输出专家i,我们有两种可能的方法来构建模型的其余部分。在最简单的版本中,每个Hi输出y上的分布,导致如图1所示的模型。在这种情况下,我们可以独立地优化Hi,每个H i都有自己的训练数据份额如果在测试时,我们唯一关心的是预测标签y,那么这个模型很有用。然而,通常情况下,我们训练模型是因为我们希望在解码器之前的最后一层中的特征,而不是标签预测。在这种情况下,我们保持每个Hi独立,但不是输出标签上的概率,而是每个Hi输出一个特征向量,并且我们将共享解码器D附加到模型中参见图2。请注意,在我们的两个模型中,每个专家的输出都是在整个可能标签集上的分布使用共享解码器训练模型比使用独立解码器的模型更复杂,但如果有大量的类,从Y到D的梯度相对稀疏。在这种情况下,我们用一台机器来保存D,用一台机器来保存Hi。2.1. 专家硬混合与标准CNN与具有K倍特征图的标准CNN相比,上面提出的 它们在训练和测试时每个参数的挂钟时间方面是有效的:因为每个H都是独立训练的,所以更容易并行化。此外,独立于H的数量,在评估时,从输入x找到输出的成本是计算T(x)的成本加上计算单个i的Hi(x)的成本;而对于单个i,H1H2H3H4H5TX图2:专家模型与共享解码器的混合这里Y是标签,Hi是专家,D是解码器。由于解码器是共享的,因此图像被映射到共享的嵌入空间中。大型CNN具有K倍的特征图,一个简单的转发可能会花费K倍的成本。虽然有许多方法可以压缩层以使评估更快(并且具有更小的内存占用),但以压缩形式训练模型的成功率较低,并且目前的技术很难训练像我们在这里讨论的那样大的CNN另一方面,与标准CNN相比,这里描述的模型因为每个Hi独立于其他H i起作用,所以Hi中的参数不与Hj中的参数相互作用。这与标准CNN相反此外,由于训练数据在专家之间被分割,每个参数在训练时只能看到一部分数据(尽管在具有共享解码器的模型中,解码器参数可以看到所有数据)。虽然有许多问题设置数据效率是关键,但也有数据便宜的问题,我们希望将最大可能的模型训练为最大可能的模型。6867精确地拟合数据。在这些情况下,人们很快就会遇到用串行随机梯度下降训练标准CNN的硬件和算法限制,专家的硬混合变得很有吸引力。特别是,要制作一个具有K倍参数的CNN,将特征图的数量按K缩放是不可行的,但制作一个K专家硬混合模型是可行的。2.2. 无端到端培训端到端的训练可能会产生更准确的模型,在测试时,这样的系统可以像这里介绍的系统一样高效然而,在本文所讨论的规模下,混合模型的端到端训练仍然是一项特殊的工程工作,并且使其工作所需的计算基础设施尚未普及(甚至尚未开发)。另一方面,这项工作中描述的技术很简单,可以被任何带有GPU的实验室使用,因为每个专家都是独立训练的。因为专家训练的速度比躯干快得多,所以即使是串行训练,总时间也是训练躯干的一个小倍数与这项工作同时,[14]描述了一个分布式端到端专家系统,用于在NLP设置中训练RNN这表明可以大规模地端到端训练混合模型;在这里,我们表明采取更简单的方法是有价值的。3. 相关工作本文建立在两个方面的思想基础上:使用非常大的数据集对卷积网络进行弱监督训练,以及通过专家的混合来扩展机器学习模型最近的工作表明,来自大型图像集合的噪声标签和字幕可以是有效的监督来源例如[4,2,8]和其中的参考文献 这些工作为使用网络规模的训练集来学习图像特征铺平了道路。在这项工作中,我们使用与这些相同的框架,但我们表明,我们可以使用更大的容量模型来改进结果我们提出的模型是一个特别简单的混合实验。这些模型在[7]中介绍 我们的不同之处在于,我们使用硬混合的效率和规模,而不是软概率分配。 这与[3]中的方法非常相似。然而,在这项工作中,而不是使用多轮的优化门与固定的分类器,然后优化分类器,我们使用一个单一的轮K-均值的非MoE类的特征输出,以获得专家分配。此外,gater和专家都是卷积网络,而不是SVM。最近有几个作品使用专家类型模型与CNN的视觉任务的混合粗略地说,这些模型和我们的模型的不同之处在于它们如何处理将数据路由到专家,模型的哪些部分是共享的,以及如何组合专家的结果。我们的工作是相似的因为它使用了一个经过在每一个这些作品中,数据被路由到专家的凝聚成抽象的超类的类。gater根据它认为图像所在的超类将图像发送给专家在我们的工作中,应用于训练数据的gater的最终隐藏状态的输出被直接聚类,而不是类标签。这更适合我们在这里关注的标签预测任务,因为一个图像可以有多个不同的标签。虽然某些标签比其他标签更容易共同出现,但仍然存在这样的情况,即人们希望基于可能的标签集合而不是任何特定标签来向专家发送图像;并且因为我们关注于缩放模型,所以我们不希望必须查看出现在图像的可能标签的联合中的所有专家即使在单标签图像分类设置中,对图像嵌入而不是类进行聚类也可以部分地减轻错误,其中gater犯了不可恢复的错误。我们已经发现,我们可以得到很好的结果,每个图像被映射到一个单一的专家。在[6,1,16,19]中,提出了结合专家输出的不同方法在[6]中,作者提出在评估时求解一个优化,以匹配通才和专家的输出分布。 在[16]中,专家网络被视为并行层,并直接映射到通才的输出。在[1,19]中,模型的输出是通过将专家的一些分布加权为通才在粗类上给出的分布而给出的分布图1中的模型可以被认为是[1,19]的简单形式,在这个意义上,通才输出一个delta,我们只是将相关专家的输出作为输出。我们的模型与2中的任何一个都有些不同,因为专家输出的特征向量被馈送到共享解码器。与这项工作同时进行的是[14],它也将硬混合模型作为大规模语言建模的深度学习架构中的一个组件 在这项工作中,我们工作在一个不同的问题域,我们使用一个更简单的门控方案。4. 实验我们将讨论三组实验。首先,我们在1000个类别上进行训练和测试,标签为Imagenet [13]。在第二组实验中,我们的模型将按照[8]中的训练过程进行(弱监督)标签预测训练,并报告标签预测结果。在最后一组实验中,模型被训练用于标签预测,并且除了最后一层之外的所有模型都是固定的。然后,在新的标记数据集上训练最后一层,以查看弱监督特征可以用于迁移学习的程度我们使用以下数据集进行标签预测:YFCC 100M:YFCC 100M [15]大致包含从https收集的1亿张彩色图像://www.flickr.com/并配有标题和标签。6868模型列车损失测试损失q@1q@5q@10p@1p@5p@10ResNet-187.787.783.04%8.69%12.41%百分之一点三八百分之四点九四8.01%ResNet-347.717.723.31%9.59%百分之十三点八1.47%5.31%8.62%ResNet-507.657.663.47%9.80%13.88%1.55%5.49%8.86%ResNet-504×特征尺寸7.657.703.80%10.49%14.74%1.71%5.96%9.52%ResNet-18合奏-507.627.663.37%9.43%13.38%1.56%5.53%8.90%MoE-257.037.105.35%14.53%19.76%2.21%7.64%百分之十二MoE-507.036.936.12%16.27%21.74%2.48%8.64%13.48%MoE-756.726.846.65%百分之十七点四23.33%2.62%九点一五14.26%ResNet-18 MoE-1006.326.816.87%百分之十七点八八23.82%2.69%9.47%百分之十四点七五MoE-506.496.786.77%17.72%23.76%2.70%9.43%14.70%ResNet-18MoE-50共享解码器6.977.135.67%14.60%19.70%2.24%7.89%百分之十二点三五ResNet-34 MoE-50oracle5.575.65百分之九点七23.8%百分之三十二点八NANANA表1:YFCC 100M哈希标签预测结果。p@m和q@m分别如等式(4)和(5)中计算。“ResNet-18”是指具有18层的ResNet,而MoE-a是指具有专家的模型。如果基础模型具有P个参数,则具有a个专家的MoE模型具有P(a+1)个参数。4×特征尺寸模型的隐藏层是普通ResNet的4倍ResNet-18 MoE-50共享解码器模型的参数大约是其基础模型的36倍两者的评估成本都是基本模型的两倍(因为专家与基本模型大小相同),并且性能明显更好。的实例预测结果如图3所示。“oracle”模型使用了模型行动花鸟类MIT SUN室内体育ImageNetAlexNet51.6969.7222.6942.6753.1991.334.3ResNet-1853.1564.7621.2845.0155.3884.436.9ResNet-18 MoE49.6976.9333.7145.1557.8978.342.1表2:Flickr传输结果;数字是每个数据集上的测试准确度,但Imagenet除外,其中报告的数字是验证集上的测试准确度MoE模式有50名专家。所有模型都在YFCC 100M上训练,然后删除解码器层(并修复模型的其余部分),然后在该数据集的训练标签上重新训练解码器ResNet-18和ResNet-18 MoE模型具有512维特征表示,AlexNet具有4096维特征表示。我们通过按频率对数据集中出现的所有标记进行排序,并保留那些排名大于500且小于10500的标记,来构建一个M=10000个单词的字典4.1. 弱监督训练损失与[8]中一样,如果xi包含标签j,则我们将yi视为第j项为1的M向量,并且我们使用损失函数.Σexp(yInstagram Food:我们还从Instagram(https://www.instagram.com/)收集了一组4.4亿张图片,L(y,y)=−j=1,Myijlog Σj′exp(y<$ij′)(三)在标签或标题中包含与食物相关的词语。用于选择图像的单词词典是通过从几个种子单词(例如,“早餐”、“午餐”、“晚餐”、“美味”、“食物”),并找到在其标题或标签中包含这些词的图像。 然后,根据tf-idf分数保留共现词(这6869里的“文档”是与图像相关的标题和标签)。我们无法发布此数据集,因此社区将无法重现我们报告的结果。尽管如此,我们认为这些结果作为轶事证据是有价值的。其中,如果我们使用图1中的独立头,则y i=HT (x)(x),或者如果我们使用图2中的共享解码器,则y i=DHT(x)(x)4.2. 型号和培训详情对于我们训练的每个模型,我们对gaterT使用与专家Hi相同的架构。我们在Alexnet之间选择[9][10][11][12][13][14][15][16][17][18][19 在每个数据集上,我们首先训练T,直到误差达到平台。 我们在K均值计算中使用K =50个质心。 在Z = T L−1(X)上运行聚类之前,我们将其投影到其前256个PCA维度。6870表3:来自ResNet-18模型特征空间的50个聚类的可视化每一行对应一个聚类;该行中的图像是从聚类中随机采样的。第一行是聚类50,其是表6中的标签“porsche”的峰值这个集群在训练集中有1.3%的图像接下来的行分别是:聚类16,其是标签“zebra”的峰值,并且具有训练集中的2.2%的图像;聚类26,其是标签“park”的峰值,并且具有训练集中的3.4%的图像;聚类3,其是标签“keyboard”的峰值,并且具有训练集中的1.8%的簇的大小分布如图5所示。我们使用随机梯度下降来训练T,小批量大小为256,权重衰减为0.0001,动量为0.9。对于训练,我们将“epoch”定义为一百万张我们从0.1开始学习率,每60个epoch除以10我们以相同的方式训练每个H,但没有动量,我们每5个epoch将学习率除以2我们遵循[8],并在训练中进行抽样也就是说,我们在字典中随机选择一个单词,然后选择一个具有该单词作为标签的图像。该图像的所有其他标签都被视为该示例的底片证实了[6]的报告,我们发现专家的训练速度比原始模型快。在YFCC 100 M上,gaterT需要3到5天的时间在8个GPU上训练;每个H在1个GPU上需要不到16小时因此,如果专家同时接受培训,总培训时间不到6天。粗略地说,我们训练多面手200个epoch,每个专家大约20个epoch(确切的停止时间由验证损失确定)。这意味着,即使没有大量的GPU,也可以为数十名专家训练混合模型,而不需要总训练时间的小倍数型号Top-1错误Top-5错误ResNet-18 30.64 10.69%ResNet-18 MoE-50 30.43 11.7%表4:Imagenet分类结果。 专家混合模型使用50名专家。报告50%验证数据的错误结果(另外50%用于确定超参数)。在这个尺度上,我们没有看到准确性的提高在表4中。4.4. 标签预测结果在显示结果之前,我们需要定义两个描述模型精度的统计量。首先,给定一个向量y,将tm(y)定义为y的前m个最大值设置为1,所有其他条目设置为0的向量。给定一组具有真实标签的测试图像xi,得到syi和模式l输出syi(记录是与x相关联的标签的指示符),定义t(yp@m=m一.(四)4.3. Imagenet结果Imagenet [13]是一个手工注释的数据集,包含120万张彩色图像,大致均匀地取自1000个类别。我们包括Imagenet实验,以表明我们的简单架构在这个规模下(与YFCC 100 M数据集的规模相反)不会提高准确性;然而,请注意,通过更仔细地结合专家的结果,[19,1]的作者能够改进Imagenet的结果我们的结果i jyi(j)注意,分母是与所有测试图像相关联的所有标签的总和(并且其中标签针对与其相关联的[8]中使用了这种测量方法,我们将其包括在内以与他们的工作进行比较然而,这不是我们训练模型的方式因此,我们也使用6871该统计定义如下:挑选样本数S = 100000,并且对于每个样本,从字典和图像x中均匀地挑选标签j,使得j是x的标签。定义1q@m=SΣ采样x,jtm(y)(j).(五)真正的标签:书美查看帽子芙蓉自然蓝色看看伯纳德白色变成粉红色的成长单位黄色的花朵室内温暖的红色填充花漂亮的植物肖齿轮伟大的颜色预测:芙蓉玫瑰花瓣花粉红色naturesfinest芙蓉蓝开花True tags:九月信息预测:主题研讨会观众演讲者讲座研究生礼堂关系毕业典礼tedxTrue tages:拉斯维加斯内华达中心建设预测:建筑公寓起重机起重机住宅区重建摩天大楼完成公寓高架Truetags:poca预测: 早 鸟 instagr 广 场 书 店flicksquare instagood喜欢sq咖啡馆浓缩咖啡True tags : Primavera fleurfiori米兰花预测:梅花浆果开花樱花樱花盛开的树枝灌木花瓣True tags:preto braziltravelingPredicted:麦德林尼加拉瓜medella kerala amazonasparana passeio belo gerais jardim这个统计量的计算方式与我们训练模型的方式相同。在表1中,我们显示了在YFCC 100M上的标签预测结果,并且我们在图3中显示了定性结果。除了报告如上定义的p@m和q@m之外,我们还报告了平均测试损失,其中标签从字典中均匀采样,并且图像在具有该标签的条件下均匀采样我们可以看到,对于共享解码器和独立解码器,以及每个基本CNN架构,专家混合模型的测试损失,q@m和p@m都比基本模型好得多这对于两种测试抽样方案都是如此,即使模型是用第一种方案训练的此外,当我们增加专家数量时,从25到100,测试q@m和p@m增加。我们还比较了50个模型的纯合奏我们可以看到,混合模型从额外的参数中获得了更多的收益(事实上,评估集合的成本是评估基础模型的50倍,而评估50个专家的硬混合模型的成本是基础模型的2倍我们看到了基础模型拟合不足的证据:它们的训练损失几乎与测试损失相同;它们的测试损失比容量更大的混合模型更糟糕同样的趋势在表5中可见。基本模型似乎不适合,而较大的模型能够做得更好。图4是关于这一点的另一个视图。在那里,我们绘制了各种架构的参数数量与测试精度的关系。与独立解码器相比,共享解码器确实会导致精度损失 虽然这可能是由于共享解码器模型不如独立解码器模型强大,(并且图4支持该观点),但另一种可能性来自以下事实:在独立解码器模型中,我们可以基于其验证损失单独地对每个专家进行早期停止;但是在共享解码器模型中,不容易具有单独的提前停止。在表1的最后一行,我们包含了一个这可以让我们了解到由于没有进行端到端的培训而损失了多少,而端到端的培训可能图3:测试中标签预测的一些定性结果使用ResNet-18 MoE-100型号的YFCC 100 M。请注意,真正的标签通常是嘈杂的。更准确地选择专家。我们可以看到,更准确地选择专家还有很大的空间请注意,这不是一个上限,因为端到端的培训也可以让专家更有效地专业化。然而,根据我们的经验,在将专家分配到输入中时会有大量信息,并使用端到端模型恢复这些信息6872图4:参数数量与在YFCC 100M上测试多种型号的精度。精度以q@10为单位测量橙色曲线对应于ResNet-18MoE模型。除了集合模型,这是远远低于每个参数的准确所有其他模型大致位于曲线上,和测试精度增加模型的大小。我们的方法允许训练可以利用丰富数据的大型模型将不会是微不足道的(除了在这种规模下训练这样一个模型的工程问题最后,我们警告读者,在YFCC 100M和Instagram食物数据集中,训练、测试和验证分割只是图像的随机子集因此,来自单个用户的图像集可以跨拆分进行划分,这允许一些过拟合而没有惩罚(例如,如果用户拍摄单个事件的大量图像)。然而,在我们看来,随着数据集变得越来越大,我们将需要能够过度拟合这种大小的数据的模型,而标准模型无法做到这一点。此外,有许多设置(例如,用于检索),其中这种“过拟合”是一个4.5. YFCC 100M集群在本节中,我们修复了一个ResNet-18模型,并对该模型的特征进行了K=50的聚类因为模型已经实现了非平凡的标签预测,所以集群在图像和标签方面都有结构在表6中,我们选择了一些标签,并绘制了这些标签在ResNet-18模型特征的50个聚类中的分布我们可以看到,聚类涵盖了不同类型的词汇。有些词主要集中在很少的几个簇中,但有些词分布在许多簇中。大多数单词出现在一个以上的集群中。在图5中,我们显示了图5:在ResNet-18基础的50专家模型中,路由到每个集群的图像有几个集群非常小,但所有集群都具有重要的利用率图6:集群分布的稀疏性与精度每个点代表一个标签t;令c(t)为标签t在聚类上的分布。 x轴是||c(t)||1/||c(t)||2,并且对于该标签,y轴是q@10。粗略地说:我们的模型在预测在所述聚类上具有较稀疏分布的标签。集群如上所述,我们没有试图强制集群具有相同数量的图像;因此存在广泛的集群大小。然而,所有的集群都被利用了。在表3中,我们显示了来自随机聚类的一些随机图像,以给出各种聚类的组成的定性意义在补充中,我们显示来自所有聚类的随机样本。在图6中,对于每个标签,我们绘制了该标签在簇上的分布的稀疏性与该标签的ResNe-18 MoE-50准确度的关系,如通过q@10测量我们可以看到,在集群上具有稀疏分布的标签通常更容易被模型推断出来。4.6. 转移为了测试由共享解码器模型学习的特征的质量,我们将它们用作以下测试数据集上的线性分类器的输入:MIT室内场景数据集[11],SUN场景数据集[18],CUB鸟类数据集[17],牛津花卉数据集[10]和斯坦福40动作识别6873模型列车损失测试损失q@1q@5q@10p@1p@5p@10ResNet-187.167.164.25%10.67%百分之十五点二四5.36%13.95%百分之十九点九一ResNet-346.966.974.88%12.08%百分之十六点八二5.65%14.66%百分之二十点八三MoE-506.606.47百分之七点零七16.06%21.36%7.22%18.28%26.14%MoE-506.426.258.13%百分之十七点八九23.54%7.39%18.96%百分之二十七点四五表5:Instagram食物哈希标签预测结果。p@m和q@m分别如等式(4)和(5)中计算。“ResNet-18”如果基础模型具有P个参数,则具有a个专家的MoE模型具有P(a+1)个参数,并且花费两倍的时间来评估。表6:标签在簇中的分布每个子情节对应于我们词典中的一个特定单词每个直方图中的每个条形对应于一个特定的聚类,条形的高度对应于单词在该聚类中作为标签出现的次数条形顶部的数字标记条形所代表的聚类的标识我们可以看到,有些标签非常特定于某些集群,而其他标签则更均匀地分布。这50个聚类来自ResNet-18模型投影到256维的特征图[20],[21],[22],[23]。我们使用YFCC 100M数据集来训练特征提取器。在为标签预测任务训练CNN之后,我们遵循标准实践并修复CNN的所有层,除了解码器。在解码器之前的层的输出被认为是上面列出的每个数据集中的每个图像的特征然后,我们使用这些特征和数据集的标签为每个数据集训练一个线性分类器(取代原始模型4.6.1转移结果转移实验的结果示于表2中。没有一个明确的模式,即标签预测中的改进性能转化为传输中的改进性能。还请注意,使用在Imagenet上训练的单个(非混合)模型比在YFCC 100M上训练的任何模型都要好[8]。尽管如此,混合模型在数据集上的性能有所提高,特别是对于需要细粒度分类的数据集(CUB和OxfordFlowers)。特别 是 , 在 YFCC 100M 上 训 练 特 征 提 取 器 并 转 移 到Imagenet的结果令人鼓舞。68745. 结论除非在优化方面取得突破或计算机硬件发生根本性变化,否则为了在具有数十亿图像的数据集上训练卷积模型而不会欠拟合,我们将需要使用为这种规模设计的专用模型架构。在这项工作中,我们证明了一个简单且可扩展的专家硬混合模型可以显着提高标签预测精度,对于1亿到5亿张图像的大型弱监督图像集。在我们的模型中,每个图像被路由到一个单一的专家,因此评估的计算成本是基础模型的两倍,而且,很容易并行训练专家我们进一步展示了令人鼓舞的结果,在这个模型的一个版本中,专家共享一个解码器,允许他们的功能用于传输任务。引用[1] K. 艾哈迈德,M。H. Baig和L.托雷萨尼大规模图像分类 专 家 网 络 。InComputerVision-ECCV2016-14thEuropeanConference , Amsterdam , TheNetherlands ,October 11-14,2016,Proceedings,Part VII,pages516-532,2016. 一、三、五[2] X. Chen和A.古普塔。网络监督学习的卷积-6875理 性 网 络 在 2015 年 IEEE 计 算 机 视 觉 国 际 会 议 ,ICCV2015,智利圣地亚哥,2015年12月7日至13日,第1431-1439页第1、3条[3] R. Collobert,Y.Bengio和S.本吉奥。用硬并行混合扩展大型学习问题IJPRAI,17(3):349第1、3条[4] S. K. Divvala,A.Farhadi和C.Guestrin. 学习关于任何事情的一切:视觉概念学习。在2014年IEEE计算机视觉和模式识别会议,CVPR 2014,美国俄亥俄州哥伦布,2014年6月23-28日,第3270-3277页,2014年。第1、3条[5] K. 他,X。Zhang,S.Ren和J.太阳深度剩余网络中的身份映射InComputerVision-ECCV2016-14thEuropeanConference,Amsterdam,TheNetherlands,October 11-14,2016,Proceedings,Part IV,pages 630一、二、四[6] G. E. Hinton,O.Vinyals和J.Dean. 在神经网络中提取知识CoRR,abs/1503.02531,2015。一、三、五[7] R. A. Jacobs,M. I. Jordan,S. Nowlan和G. E.辛顿当地专家的适应性混合。Neural Computation,3(1):79-87,1991. 第1、3条[8] A.茹林湖vanderMaaten,A. Jabri和N.瓦西拉凯从大型弱监督数据中学习视觉特征在计算机视觉- ECCV 2016 -第14届欧洲会议,阿姆斯特丹,荷兰,2016年10月11日至14日,会议记录,第七,第67一二三四五八[9] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展25:26神经信息处理系统2012年年会。2012年12月3日至6日在美国内华达州太浩湖举行的会议记录第1106一、二、四[10] M. Nilsback和A.齐瑟曼。花分类的视觉词汇表2006年IEEE计算机协会计算机视觉和模式识别会议(CVPR2006),2006年6月17日至22日,美国纽约州纽约市,第14477[11] A. Quattoni和A.托拉尔巴识别室内场景。2009年6月20日至25日,在迈阿密举行的2009年IEEE计算机协会计算机视觉和模式识别会议上,佛罗里达州,美国,第4137[12] A. S. Razavian,H.阿兹普尔J.Sullivan和S.卡尔森CNN的特色是现成的:一个令人震惊的识别基线CoRR,abs/1403.6382,2014年。1[13] O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨特伊什妈,Z. Huang,黄背天蛾A.卡帕西A.科斯拉,M。S. 伯恩斯坦,A.C. Berg和F.李图像网大规模视觉识别挑战。InternationalJournalofComputerVision,115(3):211-252,2015. 一二三五八[14] N. 沙泽尔A.Mirhoseini,K.Maziarz、A.Davis,Q.Le和J. Dean.非常大的神经网络:稀疏门控的专家混合层。OpenReview,2016. 3[15] B. Thomee,D.A. Shamma,G.弗里德兰湾Elizalde,K.倪D. 波兰,D。Borth和L.李YFCC100M:多媒体研究的新数据Commun. ACM,59(2):64 -73,2016. 3[16] D. Warde-Farley,A. Rabinovich和D. 安盖洛夫自信息神经网络结构学习。CoRR,abs/1412.6563,2014年。第1、3条6876[17] P. Welinder , S.Branson , T. 米 塔 角 Wah , F.Schroff ,S.Belongie,and P. Perona. 200.第200章大结局技术报告CNS-TR-2010-001,加利福尼亚理工学院,2010年。7[18] J. 肖氏K.A. Ehinger,J.Hays,A.Torralba和A.奥利瓦Sun数据库:探索大量场景类别。 Int.J.计算机Vision,119(1):3-22,Aug. 2016. 7[19] Z. Yan,H.张河,巴西-地皮拉穆图河谷Jagadeesh,D. 德科斯特W. Di和Y.Yu. HD-CNN:用于大规模视觉识别的分层深度卷积神经网络在2015年IEEE计算机视觉国际会议,ICCV2015,智利圣地亚哥,2015年12月7日至13日,第2740-2748页,2015年。一、三、五[20] B. Yao、X.Jiang,中国茶条A.科斯拉A.L. 林湖,澳-地J.Guibas和F.李通过学习动作属性和部位的基来识别人体动 作 。 在 IEEE International Conference on ComputerVision ,ICCV 2011,Barcelona,Spain,November 6-13,2011,pages 1331-1338,2011中。8
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功