通过主动问答的方式语义化卷积神经网络中的神经模式，构建可解释的与或图模型表示对象的语义层次结构

184 浏览量更新于2023-10-16 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1通过主动搜索张全世，曹瑞明，吴英念，朱松春加州大学洛杉矶分校摘要给定一个预先训练用于对象分类的卷积神经网络（CNN），本文提出使用主动问答来对CNN的卷积层中的神经模式进行语义化对于每个零件概念，我们在预训练的CNN中挖掘与目标零件相关的神经模式，并使用这些模式构建一个与或图（AOG）来表示零件的四层语义层次结构。作为一个可解释的模型，AOG关联不同的CNN单元预先训练好的CNN主动询问用户标记零件添加新的子AOG模型适合度有不同的明确的对象部分。我们使用活跃的人机通信来在预训练的CNN上递增地增长这样的AOG，如下所示。我们允许计算机主动识别对象，其神经模式无法用当前的AOG解释。然后，计算机向人类询问无法解释的对象，并使用答案自动发现与缺失知识相对应的某些CNN我们逐渐增长AOG来编码在主动学习过程中发现的新知识在实验中，我们的方法表现出较高的学习效率。我们的方法使用大约1/6-1. 介绍卷积神经网络（CNN）[17，16]已经被训练成在目标检测上达到接近人类水平的性能。然而，CNN方法在实际应用中仍然面临两个问题。首先，许多视觉任务需要对对象结构进行详细解释，以便对对象进行层次化理解（例如，部分定位和解析）。这超出了对象边界框的检测。其次，弱监督学习也是CNN的一个难题。与数据丰富的应用程序（例如行人/车辆检测）不同，许多任务需要动态建模某些对象部分。例如，人们可能希望只使用几个例子来快速教会机器人如何抓住某种类型的物体部件来完成偶尔的未知已知已知图1.通过主动问答（QA）在预训练的CNN中语义化知识。我们从CNN中挖掘潜在模式来解释某些对象部分，并将这些模式组织成语义层次结构。我们的方法自动识别对象的部分不能解释的部分模板在当前AOG，询问对象，并使用这些对象的答案挖掘模式挖掘的模式表示新的零件模板，并在AOG中组织为新的分支。在这项研究中，我们提出了一种新的策略，使用一些部分注释来建模某个对象部分，即使用主动问答（QA）过程来挖掘与预训练CNN中的部分相关的潜在模式。我们使用一个与或图（AOG）作为一个可解释的模型，将这些模式与目标部分。我们基于以下三个想法开发我们的方法：1）当使用具有对象框注释的类别的对象来预训练CNN时，目标类别的大多数外观知识可能已经被编码在CNN的卷积层中。2）我们的任务是从conv层中复杂的神经激活中挖掘潜在模式。每个图案单独地充当对象的特定区域的检测器。我们使用挖掘的区域模式来构建一个AOG来表示目标部分。3）由于AOG以清晰的语义层次表示零件更具体地说，在主动QA期间，计算机发现其神经激活不能由当前AOG解释的对象，并要求人类用户提供支持。346...347透视我们使用答案为答案中给出的新部件模板生成新的AOG分支。主动QA使得部分知识在有限的人力监督下得到有效的学习CNN泛化：在我们介绍基于QA的学习的输入和输出之前，我们澄清了CNN泛化的目标，即增加语义AOG来解释隐藏在预训练CNN的conv层中的语义层次。如图2所示，AOG具有四层，其编码范围从语义部分、部分模板、潜在模式到CNN单元的清晰语义层级。在AOG中，我们使用AND节点来表示部件的组成区域，并使用OR节点来编码局部区域的备选模板/变形候选者顶部部件节点（OR节点）使用其子节点来表示部件的多个模板候选项。第二层中的每个部件模板（AND节点）具有多个子作为潜在模式以表示其组成区域（例如，在面部中的眼睛）。第三层（OR节点）中的每个潜在模式自然对应于CNN conv-slice内的一定范围的单元。我们在这个范围内选择CNN单元来解释潜在模式的几何变形。请注意，我们没有进一步微调预训练CNN中的原始卷积权重这使我们能够为不同的部件不断增加AOG，而不会有模型漂移的风险。基于QA的学习的输入和输出：给定预训练的CNN及其训练样本（即，没有任何部件注释的对象图像），我们递增地增长目标部件的AOG分支。在QA的每一步中，我们让CNN使用当前的AOG在所有未注释的图像中定位目标部分我们的方法主动识别对象图像，其部分不能很好地解释的AOG。在所有未解释的对象中，我们的方法预测了询问每个未解释对象的潜在收益，从而确定了QA的最佳问题序列。如图3所示，用户能够给出五种类型的答案来明确指导AOG的增长。给定每个特定的答案，计算机可以改进现有的部件模板或挖掘潜在的模式，以构建新的部件模板的新的AOG分支。从监管不力中吸取教训：与以前的端到端批量学习不同，有两种机制可以确保弱监督学习的稳定性。1)我们将预先训练的对象级CNN中的模式转移到目标部件概念，而不是从头开始学习所有知识。这些图案应该在不同的对象图像中一致地描述相同的部分区域。模式挖掘过程净化了CNN知识，以更好地表示目标部件。2）采用主动式QA方法收集训练样本，避免了人力资源的浪费注释对象部分的劳动，可以很好地解释AOG。我们使用对象级注释进行预训练，考虑到以下两个事实：（1）只有几个数据集-s [6，42]提供了部分注释，大多数基准数据集[13，26，20]主要具有objec的注释。t边界框。2)更关键的是，不同的应用程序可能关注不同的对象部分，并且为每个特定任务注释大量部分是不切实际的。贡献：本研究的贡献可概括如下。1）我们使用AOG挖掘并表示隐藏在预训练CNN中的潜在AOG表示使QA能够在语义层次结构中的目标部分。2)我们建议使用主动QA来解释学习AOG每个分支的语义，这保证了高的学习效率。3)在实验中，我们的方法表现出优越的性能，其他基线的弱监督部分定位。例如，我们的方法与11部分注释优于快速RCNN与60注释图。五、2. 相关工作被动CNN可视化与主动CNN语义化：为了探索CNN中隐藏的语义，许多研究可视化并分析了C-NN单元的模式[44，23，33，1，21]。然而，从语义化CNN单元的角度来看在预先训练好的C-NN中，给定一个单元，前者主要被动地可视化该单元的潜在视觉模式。然而，后者关注的是实际应用中一个更基本的问题，即给定一个对某些对象部分进行建模/细化的查询，我们能否在预训练的CNN中从其复杂的神经激活中有效地发现与部分概念相关的某些模式？给定CNN特征图，Zhou等人。 [48，49]发现了潜在的Simon等人以无监督的方式从CNN激活中发现对象[30]，并以监督的方式学习部分概念[32]。AOG结构适用于表示对象的语义层次[50，29]，并且[46]使用AOG来表示CNN。在这项研究中，我们使用语义级QA增量挖掘部分语义从C- NN和增长AOG。CNN知识的这种无监督/主动学习：已经开发了许多方法来以无监督或弱监督的方式学习对象模型。[5，36，47，31]的方法使用图像级注释学习，而无需标记ob-弹出边界框。[11，7]在学习过程中不需要任何注释。[8]从视频中在线收集训练数据，以逐步学习模型。[12，37]发现的对象和识别的操作348UNTIpgII（1）图2. 在预训练的CNN上生长的与或图作为语义分支。AOG将某些CNN单元与某些图像区域相关联。红线表示解析图。从语言说明和视频。受主动学习的启发[38，41，22]，从问答中学习的想法已被用于学习对象模型[9，27，39]。Branson等人 [4]使用人机交互来标记对象部件以学习部件模型。我们的方法不是直接从主动QA构建新模型，而是使用QA对CNN进行语义化，并将隐藏的知识转移到AOG。建模在联合国建模弱监督学习：在非监督学习和/或弱监督学习的范围内，对零件建模通常比对环境建模更具挑战性。轮胎物体。给定图像级标签（没有对象边界框），可以通过从复杂背景中识别共同的前景模式来实现对象发现[24，30，25]和共同分割[3此外，存在用于对象发现的一些强先验知识，例如闭合边界和公共对象结构。相反，据我们所知，没有一种机制可以将同一对象的某个部分概念与其他部分区分开来。这是因为：1）所有的部分都代表了物体之间共同的前景模式; 2）某些部分（例如腹部）没有形状边界来识别它们的形状范围。因此，到目前为止，人们主要提取隐含的中间层部件补丁[35]，但很难捕捉这些部件的显式语义。3. 准备工作：CNN上的与或图在本节中，我们简要介绍一个AOG，它旨在解释CNN中的潜在语义结构。如图2、AOG具有四层，即语义部分（OR节点）、部分模板（AND节点）、潜在部分（Lactate）、局部模板（Lactate）和局部模板（Lactate）。模式（OR节点）和CNN单元。在AOG中，OR节点将多个备选候选编码为子节点。AND节点使用其子节点来表示其组成区域。例如，1）语义部分（OR节点）将用于该部分的多个模板候选编码为chil-child。2）每个部分模板（AND节点）编码其子潜在模式之间的3）每个潜在模式（OR节点）将某个conv-slice中的多个CNN单元作为子，以表示模式的备选变形候选（模式可以出现在不同的图像位置）。给定一个图像I1，我们使用CNN在其conv层中计算I上的神经激活，然后使用AOG进行分层部分解析。即我们使用AOG来语义化神经激活并定位目标部分。我们分别使用Vsem、Vtmp∈tmp、Vlat∈lat和Vunt∈unt来表示四层上的期间解析过程中，1）顶部节点Vsem选择一个部分项-板Vsemtmp 说明整个部分;2）Vtmp 让其子潜在图案使用它们自己的解析配置来投票 V_t_m_p 的位置，从而解析V_t_m_p 的图像区域 ; 3 ）每个潜在图案 V_t_t ∈C_h_i_d（V_t_m_p）选择具有一定变形范围V_t_t ∈C_h_i_d（V_t_t）的CNN单元子作为图案的替身。我们定义了一个解析图pgI来表示解析过程。比喻如图中的红线在图2中，pgI是分配给AOG节点的图像区域的树，pg = {ΛI，Vsem}{ΛI，V<$tmp}<$Vlat∈Child（V<$tmp）{ΛI，Vlat}，其中对于每个节点V，ΛI，V表示针对V解析的图像区域。我们使用ΛV简化了ΛI，V的符号，没有歧义。我们设计了一个推理得分SI（V| ΛV），以测量给定区域ΛV和V（以及V下的AOG分支）之间的兼容性。因此，可以以自底向上的方式实现对给定图像I的化学部分解析我们计算CNN单元的推理得分，然后将得分传播到潜在模式和部分模板，最后获得顶部节点的得分作为总体推理得分L（I，θ）。我们确定解析使总得分最大化的图p=glL（I，θ）= SI（V sem| ΛV sem），pg =argmaxL（I，θ）|PG其中θ表示AOG参数。终端节点（CNN单位）：潜在模式下的每个终端节点在某个conv-slice内取某个正方形，其表示潜在模式的变形候选。每个V_unt对应于一个固定的图像重新分配。gionΛVunt. 即，我们将VVunt的评分，SI（Vunt）2，被设计用于描述神经反应1考虑到CNN因此，我们将I裁剪为仅包含对象，并针对CNN输入调整I的大小，以简化零件定位的学习场景。2请参阅[46]详细设置。（或）语义部分VSEM（AND）零件模板（或）潜在模式VtmpV纬度终端Vunt…变形范围输入图像对流层对流层对流层所有卷积层中选定CNN单元的热图子部分上下使用CNN响应重建图像输出FC可视化FC349V我我本地临时管理协议我我Vunt值及其局部变形水平。OR节点：给定S（VO|ΛˆO）=maxOS（V|ΛΛ），关于我们（二）0 50 100 150 200IV V∈Child（V）IVVVAND节点：给定部件模板的解析结果的子潜在模式，我们解析一个图像区域的V tmp，这使得它的得分最大化SI（V|ΛVtmp)= ΣΣ SI（V拉特|（Λlat）+SINFΣ（Vtmp）|（Λ νlat）Vlat∈Child（Vtmp）ˆtmp（三）问：这是头部的正确定位吗？是不是ΛVtmp= argmaxΛVtmpSI（V|ΛVtmp)其中S在f（ΛVtmp|Λ Vlat）2测量ΛVtmp和Λ Vlat在I上的解析配置之间的空间兼容性。AOG建设：本发明公开了一种用于构建在[46]中提出了基于部件注释的AOG。我们简要地总结这种方法如下。让我表示一个类别的一组裁剪对象图像。其中， l对象在I中，只有少量对象，Iant={I Ii|i=1，2，. . . ，m}，具有对该标签的注释部分对于每个带注释的对象I∈Iant，我们标记两个项图3. QA过程的说明。(top)我们对物体进行分类和选择。（下）我们展示了针对每个目标对象提出的问题由于AOG是一种可解释的表示，它显式地编码对象部分，因此我们可以使用语言描述来表示知识的盲点我们使用五种类型的答案来明确地将这些盲点投射到对象的特定语义细节上。这样一来联系我们（Λ I，Vsem，VI）的情况。ΛI，Vsem表示地面实况边界框，Vtmp指定I中零件的零件模板的真实选择。对于AOG的前两个层，AOG被设置为仅包含出现在零件注释中。因此，AOG构造是针对每个部件模板Vtmp挖掘总共n个不同的潜在模式，其中n是超参数。对于每一个潜在模式Vlat，参数θVlat<$θ主要决定1）Vlat2)从Vtmp到Vlat的先前位移。估计θVlat 可以粗略地写为2计算机选择并询问一系列问题。基于答案，AOG递增地增长新的语义分支以解释新的部件模板并细化现有部件模板的AOG分支。计算机在每个QA步骤中重复以下过程。让我表示一组对象图像。如图3、计算机首先使用当前AOG在I中所有未注释的对象上定位对象部分。根据定位结果，计算机选择并询问计算机认为它可以从中获得最多信息的对象I、Max平均SI（V tmp）|Λtmp=Λ、sem）+平均值S （V）信息增益一个问题q=（I，Vtmp，Λ Vsem）要求人们确定计算机是否确定了θI∈IV我tmpVI蚂蚁I、V临时工I′∈I我tmp我（四）正确的零件模板Vtmp并准确定位零件ˆ其中IVtmp ={I∈I|VI= V{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 相比在ΛVsem中，并且期望以下答案之一。临时工当地公司简介latSI（VI | ΛVtmp），SI（VI）=Vlat∈Child（Vtmp）SI（V答1：零件检测正确。答案二：|Λˆ Vlat)isaninferencescorethatignoresthepairwisespa-tialcompatibility.4. 从主动问答中学习4.1. 知识挖掘与传统的批量学习相比，我们的方法使用了一种更有效的学习策略，它允许计算机主动检测其知识系统中的盲点并提出问题。一般来说，AOG中的知识盲点包括1）CNN中尚未建模的神经激活模式和2）前潜在模式的不准确性我们假设未解释的神经元模式潜在地反映新的部件模板，而不准确的潜在模式对应于次优建模的部件模板。计算机为解析图形，但它不能准确地定位目标零件。回答3：零件模板和零件位置都没有正确估计。答案4：该部件属于新部件模板。答案5：目标部件不出现在对象中。此外，在收到答案2-4的情况下，计算机将要求人们对目标部分进行注释。在得到答案3的情况下，计算机将要求人们指定部分模板，以及对象是否翻转。然后，我们的方法使用新的注释来细化（对于答案2（四）、4.2. 问题排序QA过程的核心是选择一系列最能降低AOG不确定性的对象。在那里-属于零件模板1的翻转头？零件模板4零件模板3零件模板2零件模板1不同的物体样本1) 零件模板42) 翻转姿势零件标注吉隆坡（I）现有零件模板的注释tmp零件本地化外观类型A1正确正确A2不正确正确A3不正确不正确A4不正确新貌A5不包含‐‐‐350′Z我因此，在本节中，我们设计了一个损失函数来衡量AOG知识与对象样本中实际零件外观之间的不兼容性。我们预测询问每个对象的潜在收益（损失的减少）。具有较大增益的对象通常对应于无法解释或无法很好解释的CNN神经激活。请注意，注释对象中的部分也可以帮助解释其他对象上的部分，从而导致较大的增益。因此，我们使用一个贪婪的策略来选择一个序列的问题-选项i={qi|i=1，2，. . . }，i. e. 询问这个物体fI′表示I在顶部conv层af处的CNN特征。称为ReLu操作，M是表示每个特征维度3的先验可靠性的对角矩阵。因此，exp[α·dist（I′，I<$）]度量I′和I<$之间的相似性。此外，如果I′和I′被当前AOG分配了不同的零件模板，则我们可以忽略I′和I′之间的相似性（通过设置它们之间的无限距离根据预测-在Eq。（6）、可以预测新注后KL散度在每一步中获得最大的增益。Σλ KL（I）=λQ|I）P（y|I）log（七）F或每个对象I∈I，我们使用P（y|I）和Q（y|（一）解-I∈IyQ（y|I）分别记录对象部分在I上的先验分布和估计分布y∈{+1，-1}是一个标签，指示I是否包含目标部分。当前AOG 将对象I包含目标部分的概率估计为Q（y=+1|I）=1exp[βL（I，θ）]，其中Z和β是标度参数（详见第5.1节）; Q（y =−1|I）=1−Q（y=+1|I）的第10条。LetIask表示在上一次QA中询问过对于每个被询问对象I ∈ Iask，我们设置其先验分布P（y =+1|I）= 1，如果I包含根据先前答案的目标部分- s; P（y=+1|I）=0，否则。对于每个未询问的对象I ∈ I\Iask，我们基于先前答案的统计数据设置其先验分布， P （ y=+1|I ） =mean I′∈IaskP（y=+1|I′）。因此，我们将损失函数表示为先验分布P和估计分布Q之间的KL散度，并通过QA寻求最小化KL散度因此，在每一步中，计算机选择并询问最大化KL发散的减小的对象。I= argmaxI∈I\I问KL（I）（8）QA实施：首先，对于每个对象I，我们将其先验分布初始化为P（y=+1|I）= 1，其估计分布为Q（y=+1|I）= 0。然后，计算机选择并询问一个对象，当量（八）、我们用这个答案来更新P。如果在QA过程中标记了新的对象部分，则我们应用等式：（4）更新AOG。更具体地说，如果人们给一个新的部分模板，AOG将增长一个新的AOG分支来编码这个模板。如果人们为旧的零件模板注释零件，我们的方法将更新其相应的AOG分支。然后，新的AOG可以提供新的分布Q。在后面的步骤中，计算机重复上述QA损失=KL（PSQQ）=Σ ΣI∈IyP（y，I）logP（y，I）Q（y，I）（五）Eq的程序（8）和Eq。（4）多问问题。5. 实验Σ Σ=λI∈IyP（y|I）logP（y|I）Q（y|I）5.1. 实现细节其中P（y，I）=P（y|I）P（I）;Q（y，I）=Q（y|I）P（I）;λ=P（I）= 1/|我|是对象I的恒定先验概率。事实上，先验分布P和估计分布Q在QA过程中保持变化让我们假设计算机选择了对象I<$∈I\Iask，人们注释了它的部分。该注释将把I的部分知识编码到AOG中，并极大地改变了与I相似的对象的估计分布。对于每个对象I′∈I，我们预测其在新部件注释后的估计分布为Q（y=+1|I′）=1e x p[βL（I′，θn ew）|] 的一种我们使用了16层VGG网络（VGG-16）[34]，该网络使用ImageNet ILSVRC 2012数据集[26]中的130万张图像进行了预训练，损失了1000个类别的分类。然后，为了学习每个类别的部分概念，我们进一步使用该类别中的对象图像基于分类目标对象和背景的损失来微调VGG-16VGG-16总共包含13个conv层和3个全连接层。我们选择最后9个conv层作为有效的conv层。我们从这些层中提取CNN单元来构建AOG。在我们的方法中，三个参数参与了积极的L（I′，θnew）|˜351˜我ZI=L（I′，θ）+L（I，θ）e′−α·dist（I，I）（六）QA，即α、β和Z。考虑到大多数物体图像在实际应用中包含目标部分，我们忽略了P（y=-1）的小概率|（1）在Eq。（7）简化其中L（I′，θnew）|当我们注释I“时，I”表示I“的预测推理得分。我们假设，如果对象I′与对象I′相似，则I′的推理得分将与I′的推理得分相似地增加。我们估计I的分数增加为<$L（I，θ）=meanI∈IantL（I，θ）−L（I，θ）。α是标量权重。我们用公式表示I′之间的表观距离′T计算结果，参数Z被消除在计算Eq.（7），并且参数β充当对于EqKL（I）的恒定权重，其不影响等式（7）中的对象选择。（八）、因此，在我们的实验中，我们设置α = 4。0，取得了最好的成绩。3Miiexp[meanI∈ISI（Vunt）]，其中Vunt是CNN单位corre。且I≠dist（I′，I≠）=1− φ（I）φ（I≠），其中φ（I′）=Mf′。我我|φ（I′）|·|φ（I）|I对应于fI′的第i个元素。352注释number第一层：第二层：第三层：语义部件模板潜在模式053.153791.591.6105.953804.893.9158.523760.495.52011.163778.396.32513.553777.598.33015.833837.399.2表1.AOG节点的平均子节点数5.2. 数据集我们使用了三个基准数据集来测试我们的方法，即PASCAL VOC部件数据集[6]、CUB 200 - 2011数据集[42]和ILSVRC 2013 DET动物部件数据集[46]。就像在大多数部分定位研究[6，46]中一样，我们选择了通常包含非刚性形状变形的动物类别来测试部分定位性能。也就是说，我们从PASCAL Part Dataset中选择了六种动物类别-鸟，猫，牛，狗，马和羊CUB 200 -2011数据集包含200种鸟类的11.8K图像。像在[4，32，46]中一样，我们忽略了物种标签，并将所有这些图像视为单一的鸟类类别。建议使用ILSVRC 2013DET动物-部件数据集[46]进行部件定位。它由ILSVRC2013 DET数据集中所有200个对象检测类别中的30个动物类别组成[26]。5.3. 基线我们将所提出的方法与以下十三个基线进行了比较。我们基于Fast-RCNN设计了前两个基线[14]。请注意，为了公平比较，我们对快速RCNN进行了微调，损失用于从背景中检测单个类/部分，而不是用于多类/部分检测。在第一个基线中，即 Fast-RCNN （1 英尺），我们使用部件注释直接微调VGG-16网络，以检测裁剪良好的对象上的部件然后，为了进行公平的比较，我们进行了基于两阶段微调的第二个基线，即Fast-RCNN（2 fts）。Fast-RCNN（2 fts）首先使用目标类别中的大量对象框注释（多于部分注释）微调VGG-16网络，然后使用一些部分注释微调VGG-16。第三条基线由[32]提出，即CNN- PDD。CNN-PDD在CNN（使用ImageNet ILSVRC 2012数据集预训练）中选择了一个conv-slice来表示和定位裁剪良好的对象上的部分。然后，我们稍微扩展[32]作为第四基线CNN-PDD-ft。CNN-PDD-ft使用对象框符号微调VGG-16，然后将[32]应用于VGG-16进行学习。第五和第六基线分别是强监督的重复（SS-重复-部分）[2]和[18]中的技术（PL-重复-部分）。他们使用零件注释训练DPM进行零件定位。我们使用[6]中提出的图形模型作为第七基线，即部分图。第八个基线是用于部件本地化的DPM的交互式学习[4]（交互式学习）。在没有大量训练样本的情况下，“简单”方法通常对过拟合问题不敏感。因此，我们设计了最后四个基线如下。我们使用VGG-16网络，该网络使用对象框符号进行微调，并基于选择性搜索从裁剪对象中收集图像块[40]。我们使用VGG- 16从每个图像块中提取fc 7特征。两个基线（即fc 7 +linearSVM和fc 7 +RBF-SVM）分别使用线性SVM和RBF-SVM来检测目标部分。其他基线VAE+linearSVM和Coop-Net +linearSVM分别使用VAE网络[15]和CoopNet [43]的特征，而不是fc 7特征，用于部件检测。最后，最后一个基线是学习没有QA的AOG [46]（AOG w/o QA）。我们在随机选择的对象上标注零件和零件模板。事实上，对象注释和部件注释都用于学习所有13个基线中的模型（包括那些没有微调的基线）。5.4. 评估指标在[6，46]中已经讨论过，零件定位的公平评估需要去除目标检测的因素因此，我们使用地面实况对象边界框从原始图像中裁剪对象以生成测试图像。给定对象图像，对象/部件检测方法（例如， Fast-RCNN（1ft）、Part-Graph和SS-RCNN- Part）通常会估计具有不同置信度值的零件的多个边界框。如[32，6，24，46]所述，部件定位的任务将每个图像的最置信边界框作为结果。给定某个类别对象的部分定位结果，我们应用归一化距离[32]和正确定位部分的百分比（PCP）[45，28，19]来评估部分定位。对于归一化的距离，我们计算预测的部分中心和地面实况部分中心之间的距离，然后使用对象的对角线长度作为归一化的距离来归一化该距离。对于PCP，我们使用典型度量“IoU ≥ 0。55.5. 实验结果我们在 ILSVRC 2013 DET Animal-Part 数据集、Pascal VOC Part数据集和CUB 200 -2011数据集上测试了我们的方法。我们学习了Pascal VOC Part数据集中六种动物类别的头部、颈部和鼻子/口鼻/喙的AOG。对于ILSVR-C 2013 DET动物部分数据集和CUB 200 -2011数据集，我们学习了每个类别的头部部分4的AOG因为头部是由两个所有类别共享的4这是CUB 200 -2011数据集中鸟类的353部分注释。目的-箱微调黄金鸟青蛙海龟。莉莎考拉高吊球狗福克斯猫狮子老虎熊拉比火腿。松鼠。[2]第二部分60没有0.1859 0.2747 0.2105 0.2316 0.2901 0.1755 0.1666 0.1948 0.1845 0.1944 0.1334 0.0929 0.19810.1355 0.1137 0.1717[18]第十八话60没有0.2867 0.2337 0.2169 0.2650 0.3079 0.1445 0.1526 0.1904 0.2252 0.1488 0.1450 0.1340 0.18380.1968 0.1389 0.2590[6]第六话60没有0.3385 0.3305 0.3853 0.2873 0.3813 0.0848 0.3467 0.1679 0.1736 0.3499 0.1551 0.1225 0.19060.2068 0.1622 0.3038fc7+linearSVM60是的0.1359 0.2117 0.1681 0.1890 0.2557 0.1734 0.1845 0.1451 0.1374 0.1581 0.1528 0.1525 0.13540.1478 0.1287 0.1291fc7+RBF-SVM60是的0.1818 0.2637 0.2035 0.2246 0.2538 0.1663 0.1660 0.1512 0.1670 0.1719 0.1176 0.1638 0.13250.1312 0.1410 0.1343[32]第三十二话60没有0.1932 0.2015 0.2734 0.2195 0.2650 0.1432 0.1535 0.1657 0.1510 0.1787 0.1560 0.1756 0.14440.1320 0.1251 0.1776[32]第三十二话60是的0.2109 0.2531 0.1999 0.2144 0.2494 0.1577 0.1605 0.1847 0.1845 0.2127 0.1521 0.2066 0.18260.1595 0.1570 0.1608[14]第14届中国国际广播电视大会30没有0.0847 0.1520 0.1905 0.1696 0.1412 0.0754 0.2538 0.1471 0.0886 0.0944 0.1004 0.0585 0.10130.0821 0.0577 0.1005[14]第14届中国国际广播电视大会30是的0.0913 0.1043 0.1294 0.1632 0.1585 0.0730 0.2530 0.1148 0.0736 0.0770 0.0680 0.0441 0.12650.1017 0.0709 0.0834我们10是的0.0796 0.0850 0.0906 0.2077 0.1260 0.0759 0.1212 0.1476 0.0584 0.1107 0.0716 0.0637 0.10920.0755 0.0697 0.0421我们20是的0.0638 0.0793 0.0765 0.1221 0.1174 0.0720 0.1201 0.1096 0.0517 0.1006 0.0752 0.0624 0.10900.0788 0.0603 0.0454我们30是的0.0642 0.0734 0.0971 0.0916 0.0948 0.0658 0.1355 0.1023 0.0474 0.1011 0.0625 0.0632 0.09640.0783 0.0540 0.0499马斑马猪河马卡特羊赌注骆驼水獭arma。寻幂梦想埃洛普。红巴gia.pa.Avg.[2]第二部分60没有0.2346 0.1717 0.2262 0.2261 0.2371 0.2364 0.2026 0.2308 0.2088 0.2881 0.1859 0.1740 0.16190.09890.1946[18]第十八话60没有0.2657 0.2937 0.2164 0.2150 0.2320 0.2145 0.3119 0.2949 0.2468 0.3100 0.2113 0.1975 0.18350.13960.2187[6]第六话60没有0.2804 0.3376 0.2979 0.2964 0.2513 0.2321 0.3504 0.2179 0.2535 0.2778 0.2321 0.1961 0.17130.07590.2486fc7+linearSVM60是的0.2003 0.2409 0.1632 0.1400 0.2043 0.2274 0.1479 0.2204 0.2498 0.2875 0.2261 0.1520 0.15570.10710.1776fc7+RBF-SVM60是的0.2207 0.1550 0.1963 0.1536 0.2609 0.2295 0.1748 0.2080 0.2263 0.2613 0.2244 0.1806 0.14170.10950.1838[32]第三十二话60没有0.2610 0.2363 0.1623 0.2018 0.1955 0.1350 0.1857 0.2499 0.2486 0.2656 0.1704 0.1765 0.17130.16380.1893[32]第三十二话60是的0.2417 0.2725 0.1943 0.2299 0.2104 0.1936 0.1712 0.2552 0.2110 0.2726 0.1463 0.1602 0.18680.14750.1980[14]第14届中国国际广播电视大会30没有0.2694 0.0823 0.1319 0.0976 0.1309 0.1276 0.1348 0.1609 0.1627 0.1889 0.1367 0.1081 0.07910.04740.1252[14]第14届中国国际广播电视大会30是的0.1629 0.0881 0.1228 0.0889 0.0922 0.0622 0.1000 0.1519 0.0969 0.1485 0.0855 0.1085 0.04070.05420.1045我们10是的0.1297 0.1413 0.2145 0.1377 0.1493 0.1415 0.1046 0.1239 0.1288 0.1964 0.0524 0.1507 0.10810.06400.1126我们20是的0.1083 0.1389 0.1475 0.1280 0.1490 0.1300 0.0667 0.1033 0.1103 0.1526 0.0497 0.1301 0.08020.05740.0965我们30是的0.1129 0.1066 0.1408 0.1204 0.1118 0.1260 0.0825 0.0836 0.0901 0.1685 0.0490 0.1224 0.07790.05770.0909表2.ILSVRC 2013 DET动物-部件数据集上部件定位的归一化距离第二列显示的是部分注释用于培训。第三列指示基线是否使用类别中的所有对象框注释来在学习部件之前预微调CNN（对象框注释多于部件注释）。目的-箱微调部分注释。#Q归一化距离SS-标准-第[2]部分编号60PL-认证-部件[18]编号60部件图[6]编号60fc 7 +linearSVM是60fc 7 +RBF-SVM是60[4]第60美国有线电视新闻网-PDD [32] No 60[32]第32话：我的世界[14]第60快速RCNN（2英尺）[14]是60AOG w/o QA [46]是20我们的是10280. 0626我们的是201120.0434表3. CUB 200 -2011上的零件本地化性能数据集。第2列和第3列的介绍见表2第4列显示用于培训的问题数量第四列指示基线是否使用类别中的所有对象注释（多于部件注释）来在学习部件之前预微调CNN。在数据集上，我们选择头部作为目标部分，以进行公平的比较。我们没有训练人类注释者。在活跃的QA过程中，两个部件模板之间的边界通常非常模糊，因此注释者可以使用任何一个部件模板对部件进行签名。在表1中，我们说明了当人们在回答问题的过程中注释更多的部分时，AOG是如何增长的。我们根据从PASCAL VOC Part Dataset学习的AOG计算了不同AOG层中每个节点的平均子节点数。结果表明，AOG主要通过为新的零件模板添加新的AOG分支来实现自身增长。现有零件模板的AOG分支的细化不会显著更改此AOG分支的大小。方法注释#Q鸟猫牛狗马羊Avg.头[14]第14届中国国际广播电视大会10–0.326 0.238 0.283 0.286 0.319 0.354 0.301[14]第14届中国国际广播电视大会10–0.233 0.196 0.216 0.206 0.253 0.286 0.232[14]第14届中国国际广播电视大会20–0.352 0.131 0.275 0.189 0.293 0.252 0.249[14]第14届中国国际广播电视大会20–0.176 0.132 0.191 0.171 0.231 0.189 0.182[14]第14届中国国际广播电视大会30–0.285 0.146 0.228 0.141 0.250 0.220 0.212[14]第14届中国国际广播电视大会30–0.173 0.156 0.150 0.137 0.132 0.221 0.161我们1014.7 0.144 0.146 0.137 0.145 0.122 0.193 0.148脖子[14]第14届中国国际广播电视大会10–0.251 0.333 0.310 0.248 0.267 0.242 0.275[14]第14届中国国际广播电视大会10–0.317 0.335 0.307 0.362 0.271 0.259 0.309[14]第14届中国国际广播电视大会20–0.255 0.359 0.241 0.281 0.268 0.235 0.273[14]第14届中国国际广播电视大会20–0.260

下载后可阅读完整内容，剩余1页未读，立即下载