没有合适的资源?快使用搜索试试~ 我知道了~
1多标签分类Vacit Oguz Yazici1,2,Abel Gonzalez-Garcia1,ArnauRamisa2,3,Bartlomiej Twardowski1,Joost van de Weijer11西班牙巴塞罗那自治大学计算机视觉中心2Wide-Eyes Technologies,巴塞罗那,西班牙3Universitat de Vic,巴塞罗那,西班牙{voyazici,agonzalez,bartlomiej.twardowski,joost}@ cvc.uab.es,arnau. uvic.cat摘要递归神经网络(RNN)在许多计算机视觉任务中很受欢迎,包括多标签分类。由于RNN产生顺序输出,因此需要对多标签分类任务的标签进行排序。当前的方法根据它们的频率对标签进行排序,通常将它们排序为rare-first或frequent-first。这些强加的排序没有考虑到生成标签的自然顺序可以针对每个图像而改变例如在对图像中的较小对象求和之前,首先是主要对象因此,我们提出了动态的方法稀有:狗Freq:dog,frisbeePLA:狗,飞盘罕见:公共汽车,汽车,人频率:汽车,公共汽车解放军:公共汽车,汽车,人用预测的标签序列对地面实况标签进行逻辑这允许更快地训练更优化的LSTM模型。分析证明,我们的方法不会遭受重复生成,这是常见的其他模型。此外,它的性能优于其他CNN-RNN模型,我们表明,使用我们提出的损失训练的图像编码器和语言解码器的标准架构在具有挑战性的MS-COCO,WIDER Attribute和PA-100 K上获得了最先进的结果,并在NUS-WIDE上获得了有竞争力的结果。1. 介绍RNN在许多需要处理可变长度序列数据的最流行的RNN类型之一是长短期记忆网络(LSTM)[17]。LSTM比早期的RNN有所改进,特别是解决了消失梯度问题,并且在机器翻译[44]和语音识别[13]等任务中推进了最新技术水平它们还与深度卷积神经网络(CNN)相结合,用于计算机视觉任务,例如图像字幕[46]和视频表示[43]。此外,LSTM已被证明对传统的非顺序任务有用,如多标签分类[3,21,32,48]。多标签分类的任务是分配一个广泛的图1:各种方法的估计标签。在Rare(rare-first)方法中,更大和更频繁的类可能会导致其他类被忽略(左图中的飞盘),同时在Freq(frequent-first)方法中,较小的频繁类被忽略(右图中的人我们的方法PLA规避了这些问题,并正确地将标签分配给两个图像。从视觉概念到图像。这些概念可以包括对象类或动作,也可以包括属性,如颜色、纹理、材料,甚至更抽象的概念,如情绪。大量的概念使得这是一个非常具有挑战性的任务,为了成功地解决这个问题,方法应该学习许多概念之间的依赖关系:船在办公场所并不常见,企鹅在沙漠中也很少见。多标签分类的另一个问题是类之间的相似性可能使模型对特定对象(例如,它可以是自行车或摩托车),同时确保两者不同时出现在图像中。因此,它应该选择其中一个标签,而 不 是 两 个 , 但 传 统 的 方 法 , 如 二 进 制 交 叉 熵(BCE)不折扣证据已经用于支持另一个标签,并会预测两者。在实践中,标签之间的这些依赖性将多标签分类的任务转变为结构化标签问题[32]。图像字幕,其中的任务是生成自然1344013441描述图像的语言句子,与多标签分类高度相关。主要区别在于,在图像字幕中,由递归神经网络施加的排序约束是自然的,因为句子具有顺序性质,并且RNN被认为是生成有序单词列表的适当模型[46,50]。最近,人们发现递归网络在(无序)结构化标签任务(如多标签分类)中也获得了通常,这是通过用LSTM模块替换网络的BCE“多头”来实现的然而,这种方法有一个警告:LSTM损失将惩罚其他正确的预测,如果它们不是以与地面真实标签序列中相同的顺序生成的话。这严重阻碍了收敛,使训练过程复杂化,并且通常导致劣质模型。最近的几项工作试图通过对地面真实标签序列施加任意但一致的排序来解决这个问题[48,21]。其原理是,如果标签总是以相同的顺序呈现,那么网络反过来也会以相同的顺序预测它们。尽管这些方法缓解了问题,但并没有解决问题,许多原始问题仍然存在。例如,在一个具有清晰可见和突出的狗的图像中,LSTM可能会选择首先预测该标签,因为它的证据非常大。然而,如果dog不是在所选顺序中碰巧是第一个的标签,则网络将因该输出而受到惩罚,然后再次因没有根据地面真值序列在“正确”步骤中预测dog而受到在本文中,我们观察到,这会导致更难的收敛,以及次优的结果,就像一个标签被预测多次为同一图像的训练模型。与相关的工作相比,我们不强加一个预定义的顺序输出序列,因为这不响应任何真正的约束,模型应该满足。相反,我们动态地选择排序,通过重新排列地面真值序列以尽可能接近地匹配预测标签的序列来最小化训练期间的损失我们提出了两种方法:预测标签对齐(PLA)和最小损失对齐(MLA)。我们的经验表明,这些方法可以加快训练速度(见图5),并消除其他干扰,如预测序列中的重复标签。在MS-COCO、WIDER Attribute和PA-100 K数据集上得到了最新的结果。2. 相关工作深复发性网络复发性神经net-works [40],是包含循环的神经网络,可以用相同的权重多次处理相同的输入(加上用于在迭代之间传递消息RNN的原始公式非常难以训练,因为爆炸/消失梯度问题,这在长输入序列中加剧。后来的研究找到了这些问题的解决方案,包括特别成功的门控循环单元模型[6]和长短期记忆模型[17]。尽管LSTM网络最初是为顺序数据设计的,但它也被用于无序数据或集合[45,3]。Vinyals等人[45]探索了LSTM网络可以处理的不同类型的无序数据,并提出了不同的架构和训练过程来处理它们。Chen等人。[3]提出了一种用于多标签图像注释的递归网络的无顺序使用方法。这两种方法在我们介绍了我们训练无阶递归网络的方法之后会有更详细的讨论(见3.3节)。多标签分类与传统(单标签)分类不同,在多标签分类中,每个图像可以与多于一个概念相关联然而,文献中用于多标签分类的初始方法将标签的每次出现独立于其他标签进行处理[49,12],因此没有利用标签相关性。早期试图利用标签相关性的工作利用了图形模型,如条件随机场(CRF)[11]或依赖网络[15]。Chen等人[2]将CRF与深度学习算法相结合,以探索输出变量之间的依赖关系。Read等人。[39]建议使用一系列二进制分类器, 做多标签分类。上述大多数方法都具有相对较高的计算成本,因为它们需要显式地对成对标签相关性进行建模另一方面,基于RNN的多标签分类不会产生这些高计算成本,因为低维RNN层可以很好地对标签相关性进行建模[48,21]。利用RNN模型来捕获标签相关性的想法最初在[21]和[48]中提出。Wang等人。[48]结合CNN和RNN架构,并学习联合图像标签嵌入空间来表征标签语义依赖性。由于LSTM产生顺序输出,因此它们使用频率优先排序方法。Jin等人。[21]使用CNN对图像进行编码,并将其输入到生成预测的RNN。他们分别采用频率优先、字典顺序、稀有优先和随机顺序进行实验,并对不同方法的结果进行比较。Liu等人[32]使用了类似的架构,但他们使CNN和RNN模型分别明确地解决了标签预测和标签相关任务他们没有在CNN和RNN模型之间使用完全连接的层,而是将CNN模型预测的类概率输入到RNN。通过这种方式,他们在训练期间监督两个模型他们使用稀有优先排序13442LSTMLSTMLSTM隐藏状态初始化程序LSTM输入全局特征⊕关注标签嵌入CNNconv4特征图图2:本文中使用的CNN-RNN架构,包含图像CNN编码器,LSTM文本解码器和atten- tion机制。我们表明,这种简单的架构可以获得Thors实验了不同的视觉表示选择来馈送到RNN:在[48]中,图像和标签被投影到相同的低维空间来建模图像-文本关系,而[32]使用预测的类概率,[21]使用CNN的不同内部层进行实验。在我们的方法中,我们使用最终的全连接层来初始化RNN的隐藏状态。一旦初始化,RNN模型在每个时间步预测一个新的标签,直到生成结束信号。CNN-RNN模型中通常使用的RNN的选择与之前的RNN模型不同,LSTM通过引入遗忘门f、输入门i和输出门来到RNN层。有了这些门,它可以在顺序输入中学习长期依赖关系。在时间步长t和输入向量xt下,控制通过LSTM的前向传播的方程如下:ft=σ(Wfxt+Ufht−1+bf)it=σ(Wixt+Uiht−1+bi)最新的结果是用一个或-无损失函数在他们的模型中,将更多的重要性分配给不太常见的标签。Chen等人[3]使用BCE损失来计算预-ot=σ(W0xt+U0ht−1+b0)ct=ftct−1+ittanh(Wcxt+Ucht−1+bc)ht=ottanh(ct)(一)在每个时间步中删除标签的顺序。然而,这些方法都没有根据预测动态地调整顺序与我们的工作同时,Pineda et al.[38]提出了CNN和CNN-RNN方法在具有不同特征的各种数据集上的全面比较。早期关于深度学习的图像字幕的工作已经适应了编码器-解码器框架-其中ct和ht是模型单元和隐藏状态,而it、ft、ot分别是输入门、遗忘门和输出门W、U和b是要学习的权重和偏差,σ和tanh分别是sigmoid和在时间步长t处,模型使用来自前一时间步长的预测输出嵌入作为输入。当前时间步长t的预测值以如下方式计算:xt=E·lt−1RNN(通常是LSTM)用于将图像特征“翻译”成句子的工作这些图像fea-ht=LSTM(xt,ht−1,ct−1)pt=W·ht+b(二)通常使用CNN将图像编码(或翻译)为更高级别的表示,然后RNN将此表示解码回自然语言。这类模型成功的一个重要部分是整个系统都是端到端训练的,因此两个组件可以共同适应以产生最佳结果。参见[1,18]最近关于图像标题生成的调查。3. 方法3.1. 图像到序列模型对于多标签分类的任务,我们考虑在[48]中首次提出的CNN-RNN架构这种类型的模型由CNN(编码器)部分和RNN(解码器)部分组成,CNN(编码器)部分从图像中提取紧凑的视觉表示,RNN(解码器)部分使用编码来生成标签序列,对标签依赖性进行建模。不同的au-其中,E是w阶嵌入矩阵,并且lt−1是预嵌入矩阵。上一个时间步中的口述标签索引。预测向量由pt表示,W和b是全连接层的权重和偏置。我们还包括在[50]中提出的注意力模块。来自第四卷积层的线性化激活被用作注意力模块的输入,以及LSTM在每个时间步的隐藏状态,因此注意力模块每次都会关注图像的不同部分然后,这些注意力加权特征与在前一个时间步中预测的类的词嵌入连接正如[48]中所指出的,很难用全局特征来表示小对象,因此注意力模块解决了在预测步骤中忽略较小对象的问题。我们的模型体系结构图如图2所示。134433.2. 训练循环模型为了训练模型,使用具有图像对和标签集的数据集 设(I,L)是包含图像I及其n个标签L ={11,12,.,ln},li∈ L,其中L是基数为m的所有标签的集合= |L|,包括开始和结束令牌。LSTM的预测pt被收集在矩阵P=[p1p2... pn],其中P∈Rm× n.当预测标签的数量k大于n时,我们只选择前n个预测向量。在k小于n的情况下,我们用空向量填充矩阵以获得所需的维数-ality 我们现在可以定义标准的交叉熵损失,预测标签:person,tie默认订单标签:tie,person默认订单损失:7.59 PLA订单标签:人,与PLA并列损失:0.04预测标签:伞,人,冲浪板默认订单标签:人,冲浪板,伞默认订单损失:6. 27PLA订单标签:雨伞,人,冲浪板PLA损失:0.87循环模型为:L=tr(T log(P))其中Ttj=1,如果lt=jTtj= 0否则(三)图3:有序损失与无序PLA的比较损失强加任何顺序(本例中为默认顺序)都会导致高损失,即使标签是正确的。PLA通过动态调整顺序解决了这个问题。其中T∈Rn×m包含每个时间步长1的地面真值标签。损失是通过比较预测值来计算的。将步骤t处的模型的特征与地面真值序列的相同步骤处的对应标签进行比较。从公式3中可以看出,地面真值标签的顺序对于确定给定预测将接收的损失至关重要(参见图3)。对于像多标签分类这样的固有无顺序任务,其中标签通常以随机顺序出现,最小化不必要的惩罚变得至关重要,并且文献中已经提出了几种最流行的解决方案,以改善地面实况和预测LA之间的对齐它们在图像中的优势以及它们在预测步骤中的排名这个问题可以在图1中观察到,对于频率优先和稀有优先方法都是如此。3.3. 无序递归模型为了减轻对标签施加固定的或- der所引起的问题,我们建议在计算损失之前将它们与网络的我们考虑两种不同的策略来实现这一目标。第一种策略,称为最小损失调整(MLA)计算公式为:贝尔在于定义一个任意的标准,L= min不tr(Tlog(P))标签将被分类。Wang等人[48]计算了数据集中的标签,并根据其在Ttj∈ {0,1}条件下,ΣTtj=1,J(四)按降序出现,因此称为频率优先方法。Jin等人[21]除了频率优先的方法之外,还使用罕见优先的方法和字典 顺 序 Unlike the frequent-first approach, the rare-firstpromotes the rare classes in the dataset, while dictionary-order sorts the labels in alphabetical order.稀有优先的方法也被Liu等人采用。[32 ]第32段。使用固定的、任意的标准对地面真值标签进行排序,可以改善使用随机排序的结果,因为网络可以学习以定义的顺序进行预测,并避免部分损失。然而,这会延迟收敛,因为网络除了预测给定图像的正确标签外,还必须学习任意排序此外,<$tTtj=1<$j∈L,Ttj=0<$j∈/L不其中T∈Rn×m是置换矩阵,其被训练为对于每个时间步长具有基础真值标签:jTtj=1,并且基础真值L中的每个标签应该分配给时间步长。矩阵T是cho-以这样的方式感测,以最小化总交叉熵损失。这个最小化问题是一个分配问题,可以用匈牙利算法[26]我们还考虑了预测标签对齐(PLA)的解决方案。如果我们预测一个标签在图像的地面真值标签集中,那么我们不希望改变它。这会导致以下优化问题:预测和标签仍然会导致更高的损失和误导性的网络更新 另夕hL= min不tr(Tlog(P))标签在数据集中的频率与大小无关在Ttj∈ {0,1}条件下,Ttj=1,J在一个给定的图像中的对象。不太频繁但更大的观测值可能会导致LSTM预测提前停止,因为1这里我们考虑l1={1,., m}是类索引。T<$tj=1如果<$lt∈L且j=<$lt,Ttj=1<$j∈L,ΣtTtj=0<$j∈/L不(五)13444这种方法的背后是LSTM将重复之前已经预测的标签。因此,需要引入防止该方法重复已经预测的标签的附加模块。这种方法的另一个缺点是没有结束令牌,因此应该学习阈值来停止序列。PLA标签:人、棒球棒、运动球、椅子(损失4.50)MLA标签:人、棒球棒、椅子、运动球(损失3.63)图4:成本矩阵,图像和不同的标签顺序决定的解放军和MLA(最好的颜色)。预测的类是粗体的。解释见正文其中,t是在步骤t处由模型预测的标签。在这里,我们首先固定矩阵T中的那些元素,我们知道预测在地面真值集合L中,并应用匈牙利算法来分配剩余的标签(具有与Eq.4).该第二种方法导致比第一种方法更高的损失(Eq. 4),因为对矩阵T有更多的限制。然而,这种方法与LSTM实际预测的标签更一致。为了进一步说明我们提出的训练无阶递归模型的方法,我们考虑一个示例图像及其成本矩阵(见图4)。成本矩阵显示将每个标签分配给不同时间点的成本。成本计算为相应时间步长处概率的负对数。虽然MLA方法达到了产生最低损耗的阶数,但在某些情况下,这可能会导致误导梯度,如图中的示例所示MLA方法将标签椅子放在时间步t3中,尽管网络已经在时间步t4中预测了它。因此,渐变迫使网络输出椅子而不是运动球,尽管运动球也是标签之一。递归模型的无序训练在[45,3]中已经得到了很好的解决。Vinyals等人[45]研究使用递归模型来表示元素不存在明显顺序的集合。他们的方法包括两个阶段:首先,对于训练的初始迭代次数,假设所有阶上的一致先验,之后,在第二阶段中,使用祖先采样来对排序进行采样。与我们的方法不同,我们的方法建议根据预测的顺序调整标签顺序,他们的方法旨在找到标签的最佳顺序(不考虑预测的顺序)。他们的方法只在一个玩具问题上进行了评估。与我们的工作更相关的是Chen等人的研究。[3],它适用于一个经常性的租金模式,而不强加任何秩序。这是通过在递归模型的每一步估计图像中的所有标签来完成的。它们用二进制交叉熵(BCE)代替了LSTM平局-4. 实验4.1. 数据集和设置We evaluate our models on four datasets: MS-COCO[31], NUS-WIDE [7], WIDER Attribute [29] and PA-100K[33 ]第33段。MS-COCO用于图像分割、图像字幕和目标检测。它也可以用于多标签分类,因为它有80个对象的标签。它由82,081张训练图像和40,137张测试图像组成。NUS-WIDE由269,648个图像组成,共有5,018个唯一标签。 然而,81个标签更值得信赖并用于评估。在重新移动不属于81个标签中的任何一个的图像之后,剩余209,347个图像。在[22,32]之后,我们使用其中的150,000张图像进行训练,其余的用于测试。为了进行公平的比较,我们创建了3个不同的分割,我们选择每个分割的最佳分数并将其平均以获得最终分数。WIDER Attribute是一个数据集,它包含13,789张图像中的14个人类属性,以及57,524个注释边界框(28,345个用于训练,29,179个用于测试)。PA-100 K是为评估行人属性识别任务而构建的。它由100,000个行人图像组成,具有26个属性。训练集、验证集和测试集的大小分别为80,000、10,000和10,000。评价指标:我们使用每类和整体精确度,召回率和F1分数。每个类的指标平均每个类的精确度和召回率得分,这些平均值的几何平均值给出每个类的F1得分。在总体指标中,计算所有图像的精确度和召回率分数,精确度和召回率的几何平均值给出总体F1分数。仅对于PA-100 K数据集,我们评估图像类预测的准确性,而不是独立地评估每个标签的准确性,以便能够将结果与其他模型进行比较。接下来,我们有兴趣看看我们的方法是否实际上动态地适应图像的顺序,或者只是学习另一个(更优化的)固定顺序的类。为此,我们在测试集上使用顺序刚性度量。对于每对类,存在两种可能的排序(例如,对于类A和B,将是A-B或B-A);为了计算序刚性,我们将同一图像中每对类的最频繁顺序的出现次数相加,并将其除以任何对的共现总数。我们删除所有,但每一个重复的预测,而不惩罚。我们在表1中显示了顺序刚性和重复预测的图像百分比。T1十二点一10.90.012.011.0T2八点八9.112.70.08.3T33.01.47.45.40.9T41.81.07.55.59.1134453.02.52.01.51.0解放军MLA频率优先0 50000 100000 150000训练迭代表1:MS-COCO验证数据集上不同排序方法的重复比和顺序刚性。结果表明,我们的方法不产生任何重复,并管理,年龄,以产生不同的顺序(衡量的顺序刚性)的标签预测图5:MS-COCO上CNN- RNN模型不同训练策略的损失曲线。该图清楚地表明,我们的策略,MLA和PLA,获得显着较低的损失。PLA从140,000次迭代开始获得稍微好一点的损失这也反映在PLA对于多标签分类的更好性能上。网络培训:我们使用PyTorch框架[ 37 ]实现了该架构(见图2)。对于编码器部分和BCE模型,我们使用VGG 16 [42],ResNet-50(用于PA-100 K)和ResNet-101 [16]架 构 , 解 码 器 部 分 是 具有 512 维 内 部 层 的LSTM。在训练期间学习的词嵌入具有维度256和注意力模块512。 为了训练BCE模型,SGD优化器使用学习率为0。01和动量0。9 .第九条。 对于LSTM模型,编码器和解码器使用ADAM优化器和随机权重平均[20]进行训练,并使用循环学习率调度器,在3次迭代中从10−3减少到10−6BCE模型被训练了40个epoch,如果在3个epoch之后没有观察到改进,那么我们将当前的学习率乘以0的情况。1.一、对于LSTM模型,我们从最佳BCE进行微调和PLA,它动态地将地面真实标签与预测标签对齐,训练速度更快,总体损失更低。The rare and frequent-first approaches obtain substantially higher losses.我们的方法和这些基线之间的一个重要区别是,它们可能会在图像上获得非零损失,其中模型完美地预测了正确的类,但顺序错误,如图3所示。对于这些图像,反向传播的梯度将试图迫使预测处于预定义的顺序(在提高精度方面是浪费的努力),尽管在某些情况下这种顺序对于特定图像是次优的,比如当应该首先预测的对象比其他对象小得多时(参见图1)。接下来,我们分析由各种学习策略生成的重复标签的数量(见表1)。为了提供基线参考,我们还在表中包括随机顺序,这是指在训练期间随机选择地面真值标签的顺序的设置。建模和训练30个epoch。所有BCE模型都在ImageNet上进行了预训练[41]。最后,我们不使用波束搜索算法;我们只取最大预测输出。随机仿射变换和对比变化被应用为数据增强2。4.2. 比较排序方法和分析我们首先将我们的方法与其他CNN-RNN优化策略(如频率优先和稀有优先)进行比较,并评估不同方法的几个属性。接下来,我们将其与MS-COCO,NUS-WIDE,WIDER Attribute和PA-100 K数据集上的最新技术进行首先,我们比较了文献中提出的训练CNN-RNN架构的不同策略:频率优先[48],稀有优先[21]和字典顺序[21]。如图5所示,我们提出的策略MLA2我们的代码可在www.example.com上获得https://github.com/voyazici/orderless-rnn-classification每一个小批量。结果表明,我们的方法人-年龄来学习不要重复已经为图像预测的标签。原则上,人们可能会认为,这对LSTM来说应该很容易学习。然而,由于频繁和稀有优先方法的强加顺序,以及由此产生的令人困惑的反向传播梯度,LSTM没有学习到这一点,并产生了请注意,重复不会影响系统的整体准确性,因为我们在后处理步骤中删除了它们。 我们还想在这里指出,Chen et [3]需要一个明确的模块来删除由他们的方法生成的重复,而我们训练的模型首先不会生成重复。在表1中,我们给出了有序刚性的结果他们表明,强加固定顺序的方法实际上总是以该顺序预测标签,如100.00%的分数所示。我们的方法获得了80.25%和82.87%的分数,这表明我们没有固定的标签顺序,并且它是根据图像动态调整的。在表3中,我们示出了所提出的方法的效率损失算法重复率序刚性随机顺序57.86%67.00%频段第一23.84%百分之一百稀有优先29.61%百分之一百Dict. 秩序32.90%百分之一百MLA0.10%82.87%解放军百分之零点零四80.25%13446我表2:MS-COCO上不同排序方法的结果。算法C-PC-RC-F1O-PO-RO-F1BCE [48]59.3058.6058.9061.7065.0063.30公元前68.0559.1563.2972.2065.7768.84频段第一70.2756.4962.6372.1564.5368.13稀有优先65.6861.3263.4370.8264.7367.64Dict. 秩序70.9855.8662.5274.1462.3567.74MLA68.3760.3964.1372.1666.7169.33解放军68.6660.5464.3472.6766.8969.66PLA(atten.)70.1861.9665.8173.7567.7470.62表3:ResNet-101的MS-COCO上不同排序方法与每个图像平均计算时间的比较。培训测试向前对准落后固定顺序6.50毫秒0ms14.80毫秒 5.90毫秒解放军0.80 ms(等式四、MLA0.25 ms(等式第五章)耗氧物质它们需要一个前向传递,然后我们应用匈牙利算法来对齐LSTM预测和标签(参见等式2)。第4和第5段)。PLA比对更快,因为它仅将算法应用于错误预测的标签。4.3. 实验结果不同排序方法的比较不同排序算法的结果可以在表2中看到。除非另有说明,否则所有模型(BCE除外)都具有前一节中我们观察到,我们训练的BCE模型产生的结果比以前的工作中引用的结果要高得多,这些工 作 最 初 分 别 由 [48] 和 [19] 针 对 MS-COCO 和 NUS-WIDE报道虽然从[48]中还不是很清楚,但我们认为我们的模型和他们的模型之间的区别在于,在训练期间,他们冻结了除最后一层之外的所有层,因为当我们对我们的模型施加相同的限制时,我们会得到类似的结果。相反,当我们允许对图像编码器进行完全训练时,结果显著改善,如表2所示。有趣的是,当使用罕见优先或频繁优先策略训练时,完全训练的BCE模型获得与具有相同CNN模块的CNN-RNN模型相似的结果我们想指出的是,表2中报告的结果低于其他表中的结果,因为我们没有利用增强,训练更少的epoch,并使用部分训练集作为验证来调整这些实验中的超参数。当我们比较各种对齐策略时,我们看到我们的方法MLA和PLA明显优于其他策略。在其他方法中,频率优先产生最好的结果,尽管罕见优先给出了每个类度量的更好结果,因为它为不太常见的类分配了更多的权重最高的执行者-运动球风筝网球拍滑雪板飞盘冲浪板滑板棒球手套棒球棒图6:BCE(左)和PLA模型(右)同现矩阵与MS-COCO的体育超类别上的地面实况同现矩阵的差异。人民解放军在司法协助方面的作用令人感兴趣:我们已经经验性地发现,与网络的实际预测对准比对准以获得最小可调损耗(如在MLA中所做的)更好。这种现象可以在图5中观察到。虽然MLA在开始时比PLA产生更低的损失,但PLA我们认为,对正确预测的标签进行如此多的惩罚(见图4)使优化进一步远离全局最小值。事实上,某些课程在训练期间的惩罚率高达8%(例如:棒球棒)。出于这个原因,当我们将结果与SOTA进行比较时,我们选择PLA作为我们的默认方法,而不是MLA。最后,注意力模型以显著的增益改善了结果。为了进一步研究LSTM方法相对于BCE的优势,我们将PLA和BCE方法的共生矩阵与共生矩阵进行了比较。测试集的地面真实值。 共生矩阵用iITIi计算,其中I Ii是图像i的基础真值标签,并且分别用预定标签I I I i替换基础真值标签。Ne xt,co-从预测标签的出现矩阵中减去地面真值的出现矩阵(对角线被忽略,因为元素与其自身的图6显示了BCE和LSTM(PLA)模型在MS-COCO数据集的体育超类别上的共生矩阵。我们可以观察到BCE具有更高的共现值,并且与地面真实值有更大的差异考虑到BCE预测所有标签彼此独立,它不能阻止重用已被另一个预测使用的证据例如,这可以在滑雪板和滑雪板以及运动球和飞盘的在补充材料中提供的其他超范畴的共现矩阵中也可以观察到类似的相反,递归模型在每个时间步都会自然地考虑到先前的预测,254142289 2932542291422292892092932097373-41-412810910913447表4:与MS-COCO最新技术水平的比较。算法架构C-PC-RC-F1O-PO-RO-F1CNN-RNN [48]VGG1666.0055.6060.4069.2066.4067.80Chen等人[3]第一章ResNet15271.6054.8062.1074.2062.2067.70SR CNN-RNN [32]VGG1667.4059.8363.3976.6368.7372.47Chen等人[4]美国VGG1678.8057.2066.2084.0061.6071.10Li等人[28日]VGG1671.9059.6065.2074.3069.7071.80MS-CNN+LQP [36]ResNet10167.4860.9364.0470.2267.9369.06LSEP [30]VGG1673.5056.4063.8276.3061.8068.29[34]第三十四话VGG16--69.20--74.00SRN [52]ResNet10181.6065.4071.2082.7069.9075.80ACfs [14]ResNet10177.4068.3072.2079.8073.1076.30解放军VGG 1673.7263.1868.0578.2568.7673.20解放军ResNet10180.3868.8574.1781.4673.2677.14解放军ResNet152375.3269.6272.3676.8573.9775.38表5:与NUS-WIDE最新技术水平的比较。算法C-PC-RC-F1O-PO-RO-F1CNN-RNN [48]40.5030.4034.7049.9061.7055.20Chen等人[3]第一章59.4050.7054.7069.0071.4070.20SR CNN-RNN [32]55.6550.1752.7770.5771.3570.96Li等人[28日]44.2049.3046.6053.9068.7060.40LSEP [30]66.7045.9054.3876.8065.7070.82[34]第三十四话--58.70--73.70解放军60.6752.4056.2371.9672.7972.37导致预测中更真实的共同出现。我们将我们的结果与几种模型进行比较,分为两类:联合使用CNN-RNN的模型和使用替代方法的模型。CNN-RNN [48],SR CNN-RNN [32]和Chen et al.[3]与我们的模型直接相关(见第二节)。2为细节)。同样在这一类别中,Chen et al.[4]使用LSTM根据隐藏状态和当前区域预测下一个区域,然后融合每个时间步的预测。类似地,Li et al.[28]使用递归网络来突出显示要关注的图像区域,然后使用强化学习来选择哪些区域应该用于实际预测。在替代方法中,MS-CNN+LQP[36]试图明确预测图像中的标签数量,LSEP [30]使用成对排名方法来训练CNN,MLIC-KD-WSD [34]使用来自教师网络的知识蒸馏,该网络在弱监督检测任务上训练。ACfs [14]提出了一种双分支网络,其中原始图像及其变换图像作为输入,并施加额外的损失以确保两个版本的注意力热图之间的一致性。 SRN [52]建议一个空间正则化网络,为所有标签生成注意力图,并通过可学习的卷积对标签相关性进行建模。HP-Net [33]提出了一种新的注意力模块,用于训练行人分析的多层次和多尺度注意力增强特征上述数据集的结果见表4、5、6和7。4在MS-COCO数据集上,我们得到的F1分数高于3输入大小为224×224(小于ResNet101),与[3]进行比较。4Ge等。[10]也在COCO上进行评估,但是它们需要额外的语义映射,这使得它们的模型无法比拟。表6:与WIDER属性最新技术水平的比较。算法C-PC-RC-F1O-PO-RO-F1SRN [52]--75.90--81.30ACfs [14]81.3074.8077.6084.1080.7082.40解放军81.6975.8778.6784.9981.3683.13表7:与PA-100 K最新技术水平的比较。算法精度召回F1精度[27]第二十七话82.2480.4281.3270.39[33]第三十三话82.9782.0982.5372.19ACfs [14]88.9786.2687.5979.44解放军88.5086.6787.5879.83所有其他CNN-RNN模型。MLIC-KD-WSD [34]还通过利用教师网络的知识共享取得了显著的成果。仅对于MS-COCO,我们将输入图像的大小调整为288×288,以 便 能 够 将 PLA ResNet-101 模 型 与 ACfs 进 行 比 较[14]。 我们还展示了ResNet-152架构的结果与[3]进行比较在NUS-WIDE数据集上,我们远远超过了所有其他的CNN- RNN模型。我们的结果对于每个类的F1分数来说尤其显着,这是一个更相关的指标,适用于像这样的不平衡数据集。MLIC-KD-WSD在总体和每个类别的F1评分方面取得了全球最佳结果[34]。在NUS-WIDE数据集上比较的所有模型都使用VGG 16作为骨干网络。我们不显示结果[36]因为它们使用不同的数据集分割。为了与其他模型进行比较,我们分别为WIDERAttribute 和 PA-100 K 使 用 ResNet- 101 和 ResNet-50 架构。这两个数据集具有与性别、外观、服装等相关的人类因此,标签相关性在这两个数据集中并不常见,这是CNN- RNN模型的一个缺点。尽管如此,我们的CNN-RNN模型仍然能够超越其他模型。5. 结论我们提出了一种用于训练应用于多标签分类任务的无序LSTM模型的方法。以前的方法对标签进行排序来训练LSTM模型,通常使用频率优先或罕见优先排序。相反,我们提出了两种替代损失,它们根据LSTM模型的预测动态地对标签进行排序。我们的方法是独特的,因为sel- domly生成任何重复的预测,并且它比其他方法更快地最小化损失。结果表明,标准的CNN-RNN架构,当与我们提出的无序损失相结合时,在多个数据集上获得了最先进的多标签分类结果。鸣谢。我们感谢西班牙项目TIN 2016 - 79717-R,加泰罗尼亚经济和知识部的工业博士学位授予2016 DI039,以及其CERCA计划。13448引用[1] S. 柏 图像字幕自动生成研究综述神经计算,311:291- 304,2018。3[2] Liang-Chieh Chen,Alexander Schwing,Alan Yuille,and Raquel Urtasun.学习深度结构化模型。在ICML,第1785-1794页2[3] 陈尚福、陈宜臣、叶志宽、王玉强多标签分类中具有视觉注意力的无次序rnn2018年AAAI人工智能会议。一二三五六八[4] 陈天水,王周霞,李冠斌,林亮。用于多标签图像识别的递归注意强化学习。第三十二届AAAI人工智能会议,2018。8[5] X. Chen和C.齐特尼克心灵之眼:一种用于图像标题生成的周期性视觉表示。 CVPR,2015。 3[6] KyunghyunCho , BartvanMerrienboer , CaglarGulcehre,Dzmitry Bahdanau,Fethi Bougares,HolgerSchwenk,and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。 在使用RNN编码器学习短语表示中统计机器翻译解码器,2014年。2[7] Tat-Seng Chua , Jinhui Tang , Richang Hong , HaojieLi,Zhiping Luo,and Yan-Tao Zheng. Nus-wide:新加坡国立大学的真实网络图像数据库在ACM Conf.在图像和视频检索(CIVR'09),圣托里尼,希腊。2009年7月
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功