没有合适的资源?快使用搜索试试~ 我知道了~
1分组参加:弱监督深度学习框架,用于从Web数据中学习BohanZhuang,LingqiaoLiu,Yao Li,Chunhua Shen<$,Ian Reid澳大利亚阿德莱德大学和澳大利亚机器人视觉中心摘要大规模数据集推动了用于视觉识别的深度神经网络的快速发展。 然而,注释一个庞大的数据集是昂贵和耗时的.相比之下,Web图像及其标签更容易获得,但在这种自动采集的图像上直接训练可能导致不满意的性能,因为Web图像的噪声标签会影响学习的识别模型。为了解决这个缺点,我们提出了一个端到端的弱监督深度学习框架,它对Web图像中的标签噪声具有鲁棒性。提出的框架依赖于两个统一的策略-具体来说,随机分组将多个图像堆叠到单个训练实例中,从而提高了实例级别的标记准确性。另一方面,注意力抑制来自不正确标记的图像和较少区分的图像区域的噪声信号。通过对两个chal-challening数据集进行深入的实验,包括一个新收集的细粒度数据集,其中包含不同车型的Web图像,1,所提出的方法在竞争基线上的优越性能得到了清楚的证明。1. 介绍深度卷积神经网络(CNN)的最新发展已经在各种任务中取得了巨大成功,包括图像分类[17,19,38],对象检测,[15,22,33],语义分割[20,23]和其他。这一成功在很大程度上是由大规模注释良好的图像数据集的可用性驱动的,例如,ImageNet [36],MS COCO [21]和PASCAL VOC [13]。 然而,一个-对大量图像进行标注是极其劳动密集的并且成本高昂。为了降低注释人工成本,*前两位作者对本书的贡献相当†C.沈是通讯作者。1数据集和代码可在https://bitbucket.org/上获得jingruixiaozhuang/cvpr2017_code_dataset/另一种方法是直接从因特网的图像搜索引擎获得图像注释,例如,Google图片搜索或Bing图片。Web规模的图像搜索引擎大多使用关键字作为查询,关键字和图像之间的联系是通过Web图像与其周围文本的共现来建立的因此,由搜索引擎返回的Web图像的注释将不可避免地是噪声的,因为查询关键字可能与目标图像的视觉内容不一致。例如,使用如果我们使用这些嘈杂的标签来训练分类器来学习相应的视觉概念,那么这些标签可能会产生误导。为了克服这个缺点,我们提出了一个深度学习框架,旨在对标签噪声更加鲁棒,从而能够更好地利用Web图像进行训练。在我们的框架中有两个关键策略:随机分组和注意力。正如稍后将展示的,这两种策略无缝地协同工作,以减少标签噪音的负面影响。具体来说,随机分组策略随机采样一些图像,并将它们合并到单个训练实例中。这个想法是,虽然采样错误标记的Web图像的概率很高,但是采样错误标记的组的概率很低,因为只要组中的一个图像被正确标记,该组的标签就被认为是正确的(多实例学习中的袋标签)。在所提出的方法中,每个图像表示的提取的上下文特征描绘的局部图像区域的视觉模式。在随机分组之后,训练实例被表示为从组中的每个图像如果组中有任何错误标记的图像,则实例的统一特征图为了避免这些局部特征的分散,我们应用我们框架的第二个策略,即注意力机制,来鼓励网络不关注不相关的特征。18781879训练阶段测试阶段图1:我们的“webly”监督学习管道概述。对于训练阶段,输入是一组图像,从上到下包括一个正确标记的图像和两个噪声图像。卷积层是共享的。注意力模型被添加到每个训练数据,然后是全局平均池化层,以获得聚合的组级表示,然后是用于分类的softmax层。对于测试阶段,输入是单个图像,输出是预测的类标签。为了实验验证所提出的方法的鲁棒性,我们收集了一个大规模的汽车数据集使用Web图像搜索引擎。该数据集由于其细粒度性质而特别具有挑战性。通过在该数据集上进行实验比较,我们证明了所提出的方法比竞争方法获得了更好的性能。2. 相关工作我们的工作与从网络规模数据和噪声标签中学习密切相关[8,9,12,14,18,29,30,32,37,41,45,48]。在从Web数据中学习方面,在[8,9]中,Chenet al.建议在简单的例子上预训练CNN,并通过两步方式利用数据和分类的结构使其适应更硬的图像相比之下,我们提出了一个简单而有效的端到端学习框架,无需预训练。为了更好地处理噪声,一些方法[40,45]建议在网络中添加额外的噪声层,该噪声层调整网络输出以匹配噪声标签分布。另一方面,一些方法试图去除或校正噪声标签[7,27],但由于难以将正确标记的硬样本与错误标记的样本分开,这种策略可能导致去除太多(正确)实例。此外,提出了几种标签噪声鲁棒算法[5,26],以使分类器对标签噪声具有鲁棒性。然而,噪声鲁棒方法似乎只适用于可以通过正则化安全管理的标签噪声在本文中,我们提出了统一的两种策略来抑制标签噪声,而没有任何强有力的假设。我们的工作也与弱监督对象局部化有关[6,10,11,31,34,35,39,42]。这些方法的目的是定位在视觉上与训练数据中的语义图像级标签一致。 处理这项任务的一个主要方法是将其表述为多实例学习问题。在这些方法[10,34,44]中,每个图像被建模为一袋实例(区域特征),并且分类器被学习以选择前景实例。此外,在[31]中,提出了一种弱监督深度学习管道,通过显式搜索图像中可能的对象位置和尺度来定位复杂杂乱场景中的对象。根据上述方法,我们将从噪声标签中学习的问题转换为弱监督问题,其精神类似于多实例学习假设。What’s more, we further proposeto incorporate attention strategy to reduce the adverseeffect of与我们的工作相关的是,注意机制已被应用于许多计算机视觉任务[1为了引导模型注意机制也被用于处理神经机器翻译[3,25]中的序列问题,以及记忆网络[43]和神经图灵机[16]的管理记忆访问机制与上述方法不同的是,我们首次将注意力机制应用于噪声标签。它不仅可以检测出有区别的局部特征区域,而且还可以从训练实例中的错误标记样本3. 方法在我们的任务中,我们打算从嘈杂的Web数据中提取有用的视觉知识。它由网络上正确标记的样本和错误标记的样本组成。使pool5平均池⨀FC softmax⨀目的⨀pool5FCsoftmax可预测标记注意模型conv注意模型conv1880ijkijkSijkijkD2ijkn^n分类器对噪声标签的鲁棒性,我们提出了一个深度学习框架,结合了两种策略,随机组训练和注意力。我们的方法的概述如图1所示。在训练阶段,我们将多个训练图像随机所提出的神经网络体系结构有两个部分。 第一部分类似于标准卷积神经网络,它由多个卷积层和池化层组成。第二部分是注意力汇集层,3.2. 关注3.2.1注意力公式在随机分组之后,每个实例现在都表示为一个激活数组。这些激活来自正确标记的图像和错误标记的图像。虽然包含来自正确的感兴趣区域的激活,但许多激活是噪声信号,并且会对学习过程产生负面影响。为了缓解这个问题,我们建议使用注意力模型,将处理集中在部分神经元激活,并将激活汇集到参加的活动。设xn∈Rc表示最后一个con-实例级表示。 一旦神经网络训练后,我们可以放弃随机分组模块,并在测试阶段将单个图像作为输入。在下面的部分中,我们将详细介绍随机分组训练和注意力模块,并讨论它们对减少嘈杂标签影响的好处。从第n个图像的第k个在空间位置(i,j)处的实例,其中i=1,2,.,d和j=1,2,...,d是特征图的坐标,d是特征图的高度或宽度。未归一化的注意力分数sn∈R可以表示为nijkwTxnijk +b)、(2)3.1. 随机分组训练随机分组训练(RGT)旨在降低对错误标记的实例进行采样的概率,从而降低将神经作品与错误注释混淆的风险。RGT的思想是将一个类的多个图像堆叠到同一个类的单个分组训练实例中。在实践中,我们通过堆叠其中w ∈ Rc,b ∈ R1分别表示注意力检测器的权重和偏差,它们是模型参数的一部分,将以端到端的方式学习。f(·)是softplus函数f(x)=ln(1+exp(x))。以来我们只关心相对重要性,图像中的局部特征,我们建议将注意力分数归一化为[0,1]以聚合局部特征:nijk+ε最后一层卷积特征映射从每个aijk=(sn、(3)+ε)图像转换成统一卷积特征图,并执行i j在该特征图上进行(基于注意力的)池化以获得实例级表示。从这个意义上说,我们可以将分组实例的输入视为其中ann是归一化的注意力分数,ε是一个小常数,并且对于使分布合理非常重要。如果元素sn很低,但没有ε,则感兴趣的是,“合并图像”确实包含它。换句相应的ijkn换句话说,只要其中的一个图像被正确标记,分组的训练实例就被正确标记。即使Sijk很小,Ijk也可以很大。常数ε可以有效地解决这个问题如果如果设置正确,则小的sn(接近零)将导致因此,如果抽样的概率incor-新伊克=1时。在我们的工作中,我们将其设置为0。1.一、如果正确标记的图像为n,则采样a正确标记的分组实例将成为在获得标准化的注意力分数后,我们可以通过将n应用于p=1−K(1)Xnijk 如下所示n n n其中K是组大小,当K变得更大时,对正确标记的实例进行采样的概率将变得非常高。例如,如果=0。2且K=3时,p将大于99%。然而,当K变大时,多个训练实例之间的独立性将降低,这往往会破坏网络训练。x^ijk=aijkxijk,(4)其中,xk是逐元素乘法,xijk是目标特征表示。然后,分组训练实例的表示可以通过对除通道维度之外的所有特征维度进行全局平均池化来获得:h=1x^n,(5S=f(ijk一1881)因此,在实践中,我们选择K作为一个小值(2到5)。我们进行了一项实验研究,nd2ki jkijk关于第4.4节中不同水平的标签噪声。其中hn∈Rc是第n个训练实例的组级表示1882ijknijkijkijkijk训练图像热图注意力图分布图2:该图说明了在所提出的方法中使用的分组注意力模型的有效性。左列显示原始训练图像。中间一列是图片加上相应的注意力热图。右栏显示了注意力地图的分布。上面一行涉及正确标记的样品,下面一行对应于错误标记的样品。sample.我们可以看到,对于正确标记的样本,归一化注意力模型只关注有区别的局部,分数分布是稀疏的。相比之下,对于错误标记的样本,归一化注意力模型未能集中在任何局部区域,分数分布是密集的。然后我们应用线性分类器层来预测类区域,这导致目标maxijkun>0。在标签,并使用多类交叉-训练网络的熵损失:在本文件中,我们建议使用以下目标函数-第二,提出上述两项要求:L类=−Σynnexp(Fn)log(?exp(F)n)(6)R(w,b)=max(0,1−δnmaxijk(unn))(7)其中Fn和yn分别是第n个训练实例的最后一个线性分类层和类别标签。3.2.2注意模块正则化理想情况下,对于正确标记的图像,注意力分数应该在一个或几个图像区域上具有大的值;对于错误标记的图像,没有图像区域应该对应于大的注意值。在上述框架中,我们希望这种情况可以在网络的端到端训练之后发生。在本节中,我们设计了一个正则化项来进一步鼓励这个属性。为了应用这种正则化,我们假设一组不属于任何待学习图像类别的负类图像可用。然后,我们可以将注意力检测器应用于那些负类图像,并要求获得的归一化注意力值尽可能小,因为这些图像不包含感兴趣的对象。其中δn={1,−1}表示实例是否为sam。从感兴趣的对象或从否定类恳求,动类。 然后,我们使用L类和R作为最终目标函数:L=L类+ λR。(八)注意力模块的效果如图2所示。输入是包括正确标记的汽车样本和错误标记的噪声样本的实例。我们可以观察到,对于正确标记的样本,归一化注意力分数在感兴趣区域处被推高,该感兴趣区域对应于示例中的汽车后部。相反,对于错误标记的样本,归一化的注意力分数都被推到接近零,导致注意力模型没有根据这一观察,我们可以探索注意力模型不仅可以过滤掉训练实例中错误标记样本的上下文特征,而且还可以帮助检测正确标记样本的区分部分。定义unwTxnijk +b为线性注意力分数对于样本Xn,则上述要求等于期望最大Ijkun=0。< 另一方面,对于从每个类生成的分组训练实例,我们期望注意力检测器识别至少一个相关的4. 实验在本节中,我们将在从Web收集的两个数据集一个是=1883一个是细粒度数据集,另一个是常规分类数据集。这两个任务的训练数据都是通过Google图像搜索免费提供的搜索结果获得的,使用所有返回的图像作为训练数据。值得注意的是4.1. 数据集WebCars:我们从互联网上收集了一个大规模的细粒度汽车数据集,名为WebCars,使用干净的CompCars数据集的类别[49]。我们将汽车型号名称作为查询关键字,并自动检索所有431个细粒度类别的图像。我们总共收集了213,072张有噪声的Web图像,并且仍然使用 原 始 干 净 数 据 集 的 测 试 集 进 行 测 试 。 我 们 从WebCars中抽取了一些类别,并手动标注了真实的标签,在此过程中注意到大约30%的图像是离群值。我们进一步收集10,000张不属于训练类别的图像Web数据+ ImageNet:我们随机抽取了ImageNet中使用的100个类,并使用类别名称进行收集一个嘈杂的网络图像数据集。所有图像都是自动下载的,而出现在原始ImageNet数据集中的图像则被手动删除。该数据集总共包含61,639张图像。噪声从高排名的图像到后面的样本逐渐增加。我们估计错误标记样品的百分比约为20%。我们还收集了5,000张负面的网络图片。4.2. 实现细节我们使用Theano [4]进行实验。我们使用在ImageNet数据集上训练的预训练VGG-16模型[36]来初始化我们框架的卷积层学习率最初设置为0.001,并在5个时期后除以10正则化子λ被设置为0.1。训练样本在线随机分组。为了研究我们的端到端框架中各种元素的影响,我们分别分析了注意力模型、分组训练方法和第3.2.2节中描述的注意力正则化的影响。1. “Average 平均池化结构简单地将VGG-16模型中的两个4096维全连接层替换为平均池化层,然后是用于分类的softmax层。2. “Random grouping training without attention在该方法中,样本在训练期间被随机分组,具有等式中的均值池化操作。5以获取实例级表示。3. 注意力平均集中(AP+AT):基于AP,将注意力模型嵌入到网络中,以测试其对区分性特征区域的定位能力。4. “注意力随机分组训练(RGT+AT)":注意添加到RGT。5. “注意力和正则化的平均池化(AP+AT+R)":我们在AP+AT中加入正则化子,以评估其对噪声标签的影响。6. “Random4.3. WebCars评价我们对第4.2节中描述的方法进行了定量比较,结果见表1。对于基于RGT的方法,组大小设置为2。方法精度AP66.86%RGT69.83%AP+AT73.64%RGT+AT76.58%AP+AT+R70.77%RGT+AT+R78.44%表1:Compcars测试集分类结果的比较。平均合并与随机分组训练通过比较AP和RGT的结果,我们可以看到,分组训练可以有效地抑制噪声的影响,由于在实例级别上提高了标记准确性因此,模型总是可以从每组中正确标记的样本中学习一些有用的信息相比之下,在没有注意力的情况下进行图像级别的训练,嘈杂的标签会给网络错误的引导信息,这将损害学习过程。注意vs不伴注意对于AP+AT和RGT+AT,准确率分别比AP和RGT有较大幅度的提高,这证明了所采用的注意力模型的有效性。注意力模型过滤掉每个样本的特征图中没有信息的部分,只让有用的部分流过后一个网络进行分类。这样,它就像一个门,可以防止特征表示的噪声区域误导分类器。1884图3:在一个抽样汽车类别(“凯迪拉克”)上的图像重新排名性能的示例。红色十字表示分类错误的图像。图像根据分类分数的等级以降序排序。绿色矩形和红色矩形中的图像分别是正确标记的样本和错误标记的样本噪音等级为0.4。对于多标签图像分类,发现类似的策略对干净图像有效[51]。有与没有正则化器我们观察到的一个有趣的现象是,当使用噪声正则化器AP+AT+R时,AP+AT的准确性显著下降原因是噪声存在于感兴趣的对象和负类这两个类中,因此图像级学习策略使网络与如何对噪声进行分类混淆。但是这种混淆添加噪声正则化器有助于分组训练的原因有两个:首先,铰链损失正则化器迫使注意力图不集中在错误标记样本的任何特征区域上,这导致更清晰的分组级特征表示;其次,它有助于分类器从噪声中区分正确标记的样本[15]。值得注意的是我们考虑[18]中定义的两种类型的标签噪声,它们被称为跨域噪声和跨类别噪声。跨域噪声被定义为图像中不属于细粒度域中的任何类别的部分,即对于汽车,这些图像不包含汽车。相比之下,跨类别噪声是细粒度域中的错误标记图像,即具有错误型号标签的汽车示例。我们还在图5中提供了定性示例。我们看到,注意力模型主要集中在汽车前部或尾部的可区分部分。对于一些具有挑战性的示例,正确标记的汽车与跨域噪声或跨类别噪声同时出现在同一图像中。在这种情况下,注意力模型仍然成功地定位到正确的部分。对于错误标记的样本,0.850.80.750.70.650.60.2 0.4 0.6噪声水平图4:所提出的方法在不同组大小下的分类准确率。4.4. 群体规模在本节中,我们进行了一个玩具实验,以研究组大小对我们的方法(RGT+AT+R)2的影响。我们随机抽取了Compcars数据集的100个汽车类别,并通过以1:1的比例添加跨类别噪声和跨域噪声来故意污染干净的训练数据。训练图像然后,我们逐渐增加的噪音水平从0.2到0.6,并报告的分类精度的测试集上的Compcars使用不同的组大小。结果如图4所示. 从图4中,我们可以得出以下结论:(1)使用组大小≥2使网络训练对噪声更具鲁棒性。可以看出,当数据集包含大量噪声标签,例如噪声水平= 0.6时,组大小= 1和组大小≥ 2之间的性能差距可大于10%。(2)最佳组大小随噪声水平而变化。例如,当噪声水平= 0.2时,最佳组大小是2,但是当噪声水平= 0.6时,最佳组大小是2。2当组大小等于1时,该方法等价于AP + AT + R。我们根据经验发现,在这种情况下添加正则化项将导致性能较差,因此当组大小等于1时,我们不使用正则化项。组 大 小 =1 组大 小 =2 组 大小 =3 组 大 小=4精度1885组大小变为4。第3.1节中的分析可以部分解释这一观察结果,即较大的组规模降低了组水平标签不正确的可能性。(3)最后,我们观察到较大的k并不总是导致更好的性能。正如第3.1节中所提到的,我们推测这是因为拥有一个更大的组将降低分组实例的独立性。例如,当具有较大的k时,两个组共享一个公共图像的机会将显著增加。4.5. 网络图片重新排名为了检查所提出的方法是否利用来自正确标记的数据的信息进行训练而忽略错误标记的数据,我们现在建议根据它们的分类得分对第4.4节中使用的噪声训练数据理想的情况是,高排名的图像都是正确标记的,而低排名的样本是错误标记的。我们比较了三种方法,包括AP,AP+AT以及RGT+AT+R使用不同的组大小。正确标记的图像和错误标记的图像的地面实况标签设置为+1分别为-1。 正确标记的图像被排名高在地面真理标签。 基于学习模式-在4.4节中,我们首先获得每个训练样本的分类得分,并根据其相应的分类得分对图像进行降序排列,以获得每个类别中的预测标签。然后,我们计算不同的噪声水平和组大小下的平均精度(MAP)。平均精密度是通过对不同类别中样本总数计算的精密度求平均值获得的噪声级方法选择❵ 百分之二十百分之四十百分之六十AP93.7285.0874.42AP+AT96.7192.8490.56RGT+AT+R,组大小=298.1295.8191.00RGT+AT+R,组大小=397.7195.9391.04RGT+AT+R,组大小=497.9595.3391.98表2:不同噪声水平下几种方法的平均精密度%比较从该表中,我们可以看到,对于直接平均池化,精度随着噪声水平的增加而急剧下降。相反,简单地加入注意力模型,精度得到了很大的提高,特别是当噪声水平足够高时。例如,在噪声水平为60%时,精度差距大于15%。这一结果证明,为每个样本选择区分区域可以有效地防止噪声部分影响最终分类。通过引入分组训练策略,性能进一步提高。这可以归因于所使用的高度准确的组级标签,注意力模型用于阻塞错误标记样本的局部特征以生成组级表示。总体而言,所提出的方法是稳定的,并在不同的噪声水平下表现良好我们还随机选择了一个汽车类别,并在噪音水平0.4下定性评估了重新排名的性能(见图3)。图像根据其分类分数按降序排列。我们可以看到,只有一对图像在样本中排名不正确。从结果来看,我们可以期望我们的方法可以进一步用于帮助收集干净的数据集或主动学习。4.6. 用合成噪声我们还根据[41,45]的设置对CIFAR-10进行了合成实验,并在表3中报告了不同噪声水平下的测试精度。可以看出,所提出的方法对标签噪声更鲁棒。噪声级❵❵❵❵方法学百分之三十百分之四十百分之五十Caffe65.57%62.38%57.36%[41个]69.73%66.66%63.39%[45个]69.81%66.76%63.00%RGT+AT+R,组大小=274.88%70.33%65.87%RGT+AT+R,组大小=371.76%72.25%67.15%RGT+AT+R,组大小=470.23%70.74%66.98%表3:CIFAR-10与合成标签噪声的准确度。4.7. Web Images + ImageNet除了具有挑战性的细粒度分类任务,所提出的方法也可以推广到传统的分类任务。我们使用第4.1节中描述的ImageNet的噪声Web数据从头开始训练模型,并在ILSVRC 2012验证集上测试性能。方法精度AP58.81%AP+AT67.68%RGT+AT+R,组大小=271.24%RGT+AT+R,组大小=368.89%RGT+AT+R,组大小=466.23%表4:ILSVRC 2012测试集分类结果比较。从实验结果可以看出,对于传统的Web数据图像分类任务,该方法仍然比直接平均池基线的效果好得多。 通过只将注意力模型应用于每个样本选取有区别的特征区域进行分类,结果提高了1.9%。通过使用合理的组大小在线随机生成组,并结合正则化器,我们在1886通气管披萨奔驰C级AMG BWM2系列BWM7系列BWM3系列宝马X6凯迪拉克SRX奔腾X80Bravo埃塞纳奔驰E级夫妇噪声样本图5:使用4.1节中描述的大规模噪声细粒度数据集的注意力地图示例。区域越亮,注意力得分越高。红色虚线框中的示例是网络上错误标记的示例。笔记本单杠蚱蜢山谷两栖动物海滨贡多拉悬崖住宅图书馆比萨饼图6:关于4.1节中描述的ImageNet,收集的Web数据的注意力映射示例。区域越亮,注意力得分越高。红色虚线框中的示例在Web上被错误标记。最佳组大小为2,这证实了4.3节和4.4节中的结论。我 们 在 图 6 中 使 用 组 大 小 为 2 的 最 佳 执 行 方 法RGT+AP+R可视化了一些示例及其注意力地图。注意力模型试图为正确标记的样本定位最具鉴别力的部分,以使它们远离决策边界。红色边界框中的样本在网络上被错误标记,注意力模型找不到可以集中注意力的部分。5. 结论在本文中,我们提出了一个弱监督的框架工作,学习视觉表示从大量的Web数据与少量的人的监督。该方法通过两种统一的策略有效地处理标签噪声。通过将训练图像随机堆叠成组,组级别标签的准确性得到提高。嵌入的注意力模型进一步定位与跨组合特征图的正确标记的样本相对应的区域用于分类。我们的方法的有效性已被广泛的实验所证明。致谢这项工作得到了澳大利亚研究委员会通过ARC机器人视觉中心(CE140100016)和ARC DECRA奖学金 ( DE170101259 ) 对 L. 刘 , ARC 未 来 研 究 员( FT120100969 ) 至 C 。 沈 和 ARC 获 奖 者 奖 学 金(FL130100102)给我。里德引用[1] J. Andreas,M. Rohrbach,T. Darrell和D.克莱恩 神经元模块网络。正在进行IEEE会议对比可见光帕特识别,2016年6月。2[2] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。在Proc. Int. Conf.学习. Repren. ,2015年。21887[3] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器在proc Int.会议学习。Repren. ,2015年。2[4] F. Bastien,P. Lamblin,R. Pascanu,J. Bergstra,I.好家伙,A. Bergeron,N.布沙尔D.沃德-法利,Y.本吉奥。 Theano:新功能和速度改进。arXiv预印本arXiv:1211.5590,2012年。5[5] E. Beigman和B. B.克列巴诺夫使用注释噪声学习。在ACL第47届年会联合会议的会议记录中,第280-287页。ACL,2009年。2[6] H. Bilen,M.Pedersoli和T.Tuytelaars 基于凸聚类的弱监督目标检测 在proc IEEE会议对比可见光帕特识别第1081-1089页2[7] C. E. Brodley和M.A. 弗里德尔识别错误标记的训练数据。arXiv预印本arXiv:1106.0219,2011年。2[8] X. Chen和A.古普塔。卷积网络的Webly监督学习。正在进行IEEE会议对比可见光帕特识别第1431-1439页,2015年。2[9] X. Chen,中国山核桃A. Shrivastava和A.古普塔。从网络数据中提取视觉知识 在proc IEEE国际Conf.对比可见光第1409-1416页,2013年。2[10] R. G. Cinbis,J. Verbeek,and C.施密特弱监督目标定位的多重mil训练。正在进行IEEE会议Comp. 目视帕特识别第2409-2416页IEEE,2014。2[11] T.德塞拉湾Alexe和V法拉利弱监督定位和通用知识学习Int. J.对比可见光,100(3):275-293,2012. 2[12] S. K. Divvala,A. Farhadi和C. Guestrin.什么都学:视觉概念学习。正在进行IEEE会议对比可见光帕特识别第3270-3277页,2014年。2[13] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K.威廉斯,J.Winn和A.齐瑟曼。pascal视觉对象类(voc)的挑战。Int. J.Comp.目视,88(2):303-338,2010. 1[14] R. 费格斯湖Fei-Fei,P.Perona和A.齐瑟曼。从互联网图像搜索中学习对象类别。Proceedings of the IEEE,98(8):1453-1466,2010. 2[15] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。 在procIEEE会议Comp. 目视帕特识别第580-587页,2014年。1、6[16] A. Graves,G.韦恩和我丹妮赫卡神经图灵机。arXiv预印本arXiv:1410.5401,2014。2[17] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。正在进行IEEE会议对比可见光帕特识别,第770-778页,2016年。1[18] 克劳斯,B. 萨普A. 霍华德H. 周先生,A. 托舍夫T. Duerig,J.Philbin和L.飞飞噪声数据对细粒度识别的不合理在procEUR. Conf. Comp. 目视,第301施普林格,2016年。二、六[19] A. 克里热夫斯基岛Sutskever和G.E. 辛顿使用深度卷积神经网络进行图像网在proc高级神经感染过程系统第1097-1105页1[20] G.林角,澳-地Shen,中国古猿A.范登亨格尔和我里德用于语义分割的深度结构化模型的高效分段训练。 在procIEEE会议Comp. 目视帕特识别,2016年6月。11888[21] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Doll a'r 和 C. L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象 在proc EUR. Conf.Comp. 目视,第740Springer,2014. 1[22] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角,澳-地Y. Fu和A. C.伯格。Ssd:单发多盒探测器。在proc EUR. Conf. Comp. 目视,第21施普林格,2016年。1[23] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。 正在进行IEEE会议对比可见光帕特识别,第3431-3440页1[24] J. Lu,J. Yang,D. Batra和D.帕里克用于视觉问答的分层问题图像共注意。在Proc. Adv. Neural Inf.过程系统,第289-297页2[25] M.- T. Luong,H. Pham和C. D.曼宁基于注意力的神经机 器 翻 译 的 有 效 方 法 。 arXiv 预 印 本 arXiv :1508.04025,2015。2[26] N. Manwani和P. Sastry风险最小化下的噪声容限。IEEE Transactions on Cybernetics,43(3):1146 2[27] A. L.米兰达湖P. F.加西亚A. C. Carvalho和A. C. Lorena分类算法在噪声检测和消除中的应用。在混合人工智能系统上,第417Springer,2009.2[28] 诉Mnih,N.Heess,A.Graves等人视觉注意的循环模型在proc Adv. 神经信息过程系统第2204-2212页2[29] V.Mnih和G. E.辛顿学习从噪声数据中标记航空图像。在Proc. Int. Conf.马赫学习. 第567-574页,2012年。2[30] L.牛,W。Li和D.徐通过从网络数据中学习进行视觉识别:一种弱监督域泛化方法。正在进行IEEE会议对比可见光帕特识别第2774-2783页,2015年。2[31] M.奥夸布湖博图岛Laptev和J.西维克对象本地化是免费的吗?-用卷积神经网络进行弱监督学习。 在procIEEE会议Comp. 目视帕特识别第685-694页,2015年。2[32] S. Reed,H. Lee,D.安盖洛夫角Szegedy,D.尔汗,还有A.拉比诺维奇。使用自举在噪声标签上训练深度神经网络。arXiv预印本arXiv:1412.6596,2014。2[33] S. Ren , K. 赫 利 河 Girshick 和 J. 太 阳 Faster r-cnn :Towards real-time object detection with region proposalnetworks.在Proc. Adv. Neural Inf.过程系统,第91-99页1[34] W. Ren,K. Huang,黄氏拟谷盗D. Tao和T. Tan.基于多实例学习和包分割的弱监督大规模目标定位IEEE传输模式分析马赫内特尔,38(2):405-416,2016. 2[35] M. Rochan和Y.王.使用外观转移的新对象的弱监督定位在proc IEEE会议对比可见光帕特识别第4315-4324页。IEEE,2015年。2[36]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞Imagenet大规模视觉识别挑战。Int.J. Comp.目视,第1-42页,2015年。一、五1889[37] F. Schroff,A. Criminisi和A.齐瑟曼。从网上收集图像数据库 IEEE Trans. 模式分析马赫内特尔,33(4):754-766,2011. 2[38] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。1[39] H. O.松河,巴西-地B. Girshick,S. Jegelka,J. Mairal,Z. Har- chaoui,T. Darrell等人学习如何在最少的监督下定位物体。 在proc Int. Conf. 马赫学习. 第1611-1619页,2014年2[40] S. Sukhbaatar,J.布鲁纳M.帕卢里湖Bourdev和R.费格斯。使用噪声标签训练卷积网络。arXiv预印本arXiv:1406.2080,2014。2[41] S. Sukhbaatar和R.费格斯。使用深度神经网络从噪声标签中学习。 在proc Int. Conf. 学习. Repren.讲习班,2015年。二、七[42] C. Wang,W.Ren,K.Huang和T.Tan. 基于潜在类别学习的弱监督对象定位 在procEUR. Conf. Comp. 目视,第431Springer,2014.2[43] J. Weston,S. Chopra和A.博德斯 记忆网络。arXiv预印本arXiv:1410.3916,2014。2[44] J.Wu,Y. Yu,C. Huang和K. Yu.用于图像分类和自动注释的深度多实例学习。正在进行IEEE会议对比可见光帕特识别第3460- 3469页IEEE,2015年。2[45] T.肖氏T. Xia,Y.杨角,澳-地Huang和X.王.从大量带噪标记数据中学习图像分类。正在进行IEEE会议对比可见光帕特识别第2691- 2699页二六七[46] H. Xu和K.萨恩科提问、出席并回答:探索视觉问题回答的问题引导空间注意。 在proc EUR. Conf. Comp. 目视第451-466页施普林格,2016年。2[47] K. 徐,J.巴河Kiros、K.Cho,A.C. 库维尔河萨拉胡特-迪诺夫河S. Zemel和Y.本吉奥。显示、出席和讲述:具有视觉注意的神经图像字幕生成。在Proc. Int. Conf.马赫学习. ,第14卷,第77-81页2[48] Z. Xu,S. Huang,Y.黄氏Y. Zhang和D.涛.使用web数据增强在proc IEEE国际Conf. Comp. 目视第2524-2532页2[49] L. Yang,P.罗角,澳-地Change Loy和X.唐用于细粒度分类和验证的正在进行IEEE会议对比可见光帕特识别第3973- 3981页5[50] Z. Yang,X. He,J. Gao,L. Deng和A.斯莫拉用于图像问答的堆叠注意力网络。在procIEEE会议Comp. 目视帕特识别,第212[51] R.- W.赵杰李玉.陈杰M.刘玉- G. 江和X.雪用于多标记图像分类的区域门控神经网络。In Proc.Brit. Mach.目视Conf. ,2016年。6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功