基于高斯过程的多实例学习中的变分贝叶斯推断

75 浏览量更新于2023-10-15 收藏 649KB PDF 举报

高斯过程

弱监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于高斯过程的Manuel Haußmann1Fred A.Hamprecht1Melih Kandemir1，2分1HCI/IWR，Heidelber gUni versity2OüzyegHubinUni versity{manuel.haussmann，fred.hamprecht}@ iwr.uni-heidelberg.demelih. ozyegin.edu.tr摘要高斯过程是一种有效的贝叶斯预测器。我们在这里首次表明，GP分类器的实例标签可以在多实例学习（MIL）设置使用变分贝叶斯推断。我们实现这一点，通过一个新的建设袋的可能性，作为sumes一个大的值，如果实例预测遵守MIL的这种构造使我们能够解析地导出变分参数的更新规则，从而确保可扩展的学习和快速收敛。我们观察该模型以改进在20个新闻组基准中来自袋级超视的实例标记预测以及来自组织病理学组织微阵列图像的巴雷特癌症肿瘤定位中的最新技术水平此外，我们引入了一个新的弱监督对象检测管道，自然地补充了我们的模型，这提高了PASCALVOC 2007和2012数据集的最新技术水平。最后但并非最不重要的是，我们的模型的性能可以通过使用混合监督来进一步提高：弱（包）和强（实例）标签的组合1. 介绍近年来，我们以不断降低的成本自动收集越来越大的数据集的能力有了巨大的提高。这进一步扩大了我们的数据收集和标签能力之间的鸿沟弱监督学习已经成为机器学习的一个活跃领域，以弥补这一差距。它的目标是从最小的注释者努力学习有效的预测器。在许多弱监督学习方法中，多实例学习（MIL）[1]脱颖而出，成为计算机视觉的优秀匹配MIL假设训练数据被划分为实例组（称为包），并且标签仅在整个组的级别一个袋子被赋予一个本文的主要工作是作者在海德堡大学图像处理合作实验室（HCI）工作期间完成的。如果它的至少一个实例包含目标模式，则为正标签，如果它的所有实例都不包含目标模式，则为负标签。这种设置的困难在于，在训练时不知道正袋中的各个实例因此，MIL模型需要考虑这种缺失的信息。MIL已被证明在图像分类中非常有益[3，7，27]。高斯过程（GP）[33]由于其在监督学习中的高潜力而受到机器学习社区的广泛关注。由于其内在的内核化，它们能够拟合复杂的非线性决策边界。GP的高表达能力也可以从其被证明与具有无限多个隐藏神经元的多层感知器的等价性来理解[32]。GP的概率性质允许他们以原则性的方式处理不确定性[10]。MIL是一个缺少实例标签的监督学习任务。这些潜在变量的不确定性使得GP建模成为一种自然的适合。即便如此，到目前为止，基于GP的MIL模型方法的工作仍然有限。Kim和Torre [23]是第一个在MIL设置中使用GP的人，通过将softmax近似应用于Bernoulli类-lihood并使用Laplace方法进行推理这种方法有两个局限性：i）由于在每次迭代中每个袋子的一个Hessian矩阵的求逆，它不能扩展到大数据集，ii）由于softmax和Laplace方法都不是真实建模假设的紧密近似，因此学习的后验不准确。Kandemiret al的最新工作。[21]通过放松MIL假设（通过允许负袋中的一小部分阳性预测）和执行变分推理来解释这些问题。虽然这种方法产生了一个非常准确的袋级预测器，它不能预测实例标签，因为在训练过程中违反了MIL假设。我们介绍了第一个适应的GP MIL，提供变分推理和实例标签预测。此外，我们的构造允许通过封闭形式更新来学习变分参数，从而实现快速收敛。我们通过一个新的袋级似然公式来实现这种易处理性，以确保一致性-6570- -⟨ ⟩√--·模型的实例级和袋级预测之间的差异我们进一步扩展这个模型到一个大的利润率设置，这迫使决策边界的直接邻域保持稀疏。我们观察到这种扩展在类之间具有高重叠的任务中表现更好。我们的模型在三个应用中改进了现有技术：（i）20个新闻组数据集中的帖子分类，例如使用MIL进行标签预测的标准基准，（ii）从组织病理学组织微阵列中检测巴雷特癌症肿瘤，以及（iii）从PASCAL VOC 2007和2012数据集中的自然图像中检测对象。我们优于现有的方法在PASCAL VOC感谢一个新的处理管道，我们的GP为基础的MIL模型自然发生的地方我们模型的源代码是公开的1。2. 相关工作在现有的基于GP的模型[21，23]中，没有一个针对实例标签预测问题。然而，确实存在一系列替代办法。Liuet通过选择性搜索再次训练，并由来自预训练网络的高阶CNN特征表示Bilen等人的WS- DDN [3]更紧密地遵循快速R-CNN方法，将其架构修改为两个流，一个用于检测，另一个用于分类。Kantorov等人[22]通过利用区域提案的背景来扩展这种两流方法。在观察到弱监督定位算法通常对较小对象比较大对象更困难之后，Shi和Ferrari [37]使用课程学习[2]方法，该方法根据大小和学习的权重对其提出的对象进行迭代排序。与我们的方法类似，他们主要依靠神经网络来生成高级特征并在输出上训练分类器（在他们的情况下是SVM）。Li等[27]还将训练过程分为两个步骤，首先专注于图像级别分类，然后逐步调整其网络以进行检测。我们在第3.3节中讨论了我们建议的管道与现有弱监督检测方法的关系。2.1. 符号al. [30]使用基于k-最近邻的方法，作为投票框架（VF/VFr）。Li等[28]和数据集D ={（xnD，ynNn=1、选自NWang等人[44]使用不同的基于SVM的模型。坎-demir和Hamprecht [20]将MIL似然与两个Dirichlet过程混合模型相结合，每个类一个（DP- MIL）。Kotzias等人[24]介绍了组实例成本函数（GICF），这是一种特殊的目标函数，用于确保实例标签之间的平滑性，以及一种依赖于卷积神经网络（CNN）的文本数据方法，以获得实例的更高级别特征。目标检测（预测目标类型和定位其边界框）可以被解释为一个MIL问题时，存在的目标模式是已知的，只有在图像水平。将每个图像视为一个包，并从该图像中提取补丁，因为它的实例完全适合MIL设置。在全监督环境中，近年来随着Girshick等人的工作，对象检测已经有了巨大的改进。[12，13]关于使用CNN为区域提案创建高阶特征。这些区域建议通常由现成的算法生成，例如选择性搜索[42]，EdgeBoxes [49]，二值化赋范梯度[6]或AttractioNet [11]。最近的工作将区域提案生成视为可以端到端训练的管道的组成部分[34，35]。近年来，弱监督目标检测技术受到了越来越多的关注。Cinbiset al. [7]从选择性搜索中获得区域建议，在它们之上计算CNN和Fisher向量，并使用多重MIL方法进行最终预测。Wang等人[43]使用概率潜在语义分析来学习他们的区域建议的潜在类别，实例xn∈ R和它们的不可观测二元标签yn∈ {0，1}，被划分为B个不重叠的袋，每个袋b具有标签Tb∈{0，1}。我们用{yi}b：={yi|i∈Bag b}包b中的实例标签。MIL的假设是Tb=maxyib，即如果至少一个实例标签为正，则袋标签为正，并且否则为零。 {yi}b−n是包b中除实例标签yn之外的所有标签的集合。N（·|（1）B（？|π）分别表示正态分布和伯努利分布。Xp（X）是X关于分布p（X）的表达式，简称为<$X<$。两个数据集之间的Gram矩阵X ={x1，…xN}∈RN×d且Z={z1，.，zM}∈ RM×d记为KXZ∈RN×M，其中（KXZ）ij=k（xi，zj）.我们在整个实验中使用RBF核函数k（xi，zj）=exp（−（xi−zj）<$（xi−zj）/2l2），并将长度尺度l固定为d。最后，diag（）返回一个正方形对角矩阵，其中输入向量的值位于对角线（或矩阵输入的对角线值）。3. MIL下高斯过程的变分Bayes对于给定的数据集X ={x1，...，xN}和相应的标签y = y1，.，yN，GP分类[33]由下式给出：F|X N（f |0，KXX），（1）中国1https://github.com/manuelhaussmann/vgpmily|fn=1Ber（yn|σ（fn））。（二）6571）}6572- -ZZ--ZZKKOB我BH+1近似值：i）softmax，当值均匀分布时，其偏离精确的max，ii）拉普拉斯方法，其近似具有单一模式的潜在的多模式后件。我们采用另一种方法，直接表示（潜在的）二进制实例标签。我们的核心贡献之一是袋标签可能性的以下参数化p（T| {y}）=（）Gb（HH+1）1−Gb1H+1=HGb，（3）图1：VGPMIL的平板图。观察变量由灰色圆圈表示，潜变量由白色圆圈表示。虚线箭头和圆圈表示LM-VGPMIL扩展引入的额外交互。该模型在决策裕度f上放置GP先验，通过逻辑S形函数2将它们挤压到单位in-1。其中Gb：=Tbmax{yi}b+（1−Tb）（1−max{yi}b）和正常数H。如果满足MIL约束（Tb=maxyib），则G b等于1，否则G b等于0。对于这些状态，等式3赋予了高概率，并充当MIL假设的噪声版本，其中噪声水平由H控制，随着H的接近而变得精确。一个合理的大H（例如100）在实践中效果很好为了可扩展性，稀疏化GP先验，该模型是u|ZN（u|0，KZZ），（4）terval，并将结果作为平均参数馈送到伯努利质量函数。f的符号决定了预测的可信度。这（F|X，Z，u N f中国|KXZ（K−1u，K），（5））全GP模型仅限于小数据集，这是由于需要以y|fn=1CIBBBer yn|σ（fn），（6）G时间复杂度为O（N3）。通过将GP fol-Hb稀疏化来减轻此成本完全独立训练条件（FITC）[ 39 ]第39话，一个人的一个选择不|yb=1、（7）H+1点Z=z1，...，zM和相应的输出u，mir-表示X和f之间的关系，使得u和f联合正态分布F|X，Z，u ∈ N（f |KXZK−1u，K），u|Z <$N（0，KZZ），其板图如图1所示。我们我们把这个模型称为变分高斯过程多实例学习（VGPMIL）。在下一小节中，我们将展示这个模型可以使用变分推理的封闭形式更新来有效地训练，避免其中，K：= diag（KXX-KXZ−1ZZZX ）的情况。FITC减少梯度下降的必要性，因此需要调谐-学习率。成本为（M2N），其中M N是设计参数。在MIL设置中，我们只有袋级标签。 GP-Kim和Torre [23]的MIL通过p（Tb）将GP分类器适应于该设置|{fi}b）= Ber（Tb|σ（max{fi}b））。约3.1. 推理利用变分推理，我们的目标是近似的棘手后验p（y，f，u|T，X）的变分分布，matin∑g the indif ferentiablemax with softmax：max{fi}b∏分布Q = q（u）p（f|u）q（y）（简化符号1998年12月20日（exp（fi）），他们提出n n我F|X N（f |0，KXX），q（yn）：=qn（yn））。也就是说，我们引入变分分布，在u上的butions和实例标签yn。因此，委员会认为，zmumm∈MXifiyiTbGii∈Bagbb∈B6573×B/（（∑）−Tb）fi推理问题被重新表述为以下操作：最小化问题不|f11 +e。（）下一页b=1i∈Bagbargmin KL Q||p（y，f，u|T，X，Z）。（八）他们推断这个模型使用拉普拉斯即使该矩阵是块对角矩阵，它也由Nb×Nb非零矩阵这种KL分歧可以重新排列为（）下一页logp（T |X）= KL Q||p（y，f，u|T、X、Z）块，限制了可扩展性。此外，预测性能受到两个粗2σ（a）= 1/（1 +e−a）+log p（y，f，u，T |X）−log Q，其中最后两项被共同称为证据下限（ELBO）。由于KL（q||p）≥0，且Q6574|⟨·⟩{}222ξ2⟨⟩f+2 2nn1ZZn- -ZZnn⟨ ⟩ ⟨⟩ZZZX（XZ）边际似然p（T X）形成独立于Q的上界，最小化KL发散等价于这是因为yi∈ {0，1}。再次遵循等式9，我们得到更新规则q（yn）= Ber（yn|πn）与4最大化ELBO。这种最小化可以是通过将Q的每个因子更新到其最优值，保持其他因子固定来实现。人们可以证明（见例如πn←σ（fn（2Tb+max{yi}b−n）的情况）[4]详细说明）对于Q的因子q，最优更新为3-2Tbmax{yi}b−n<$−1，（14）logq<$<$← <$logp（T，y，f，u）<$Q\q<$+const，（9）其中，Q|q是指logp相对于除q之外的变分分布Q的期望，当前因子被更新，并且常数项可以通过计算q的归一化常数来确定。在我们的例子中，这转化为寻找q（u）和q（yn）的更新。其中fn=fnp（f|u）q（u）=KxZK−1m。 sigmoid中的第一项包含稀疏GP给出的当前实例的信息，而第二项由两个因子组成。第一个应用logH的惩罚，其大小和符号由检查MIL约束的第二个因子控制考虑两种可能的情况注意，变分分布的因式分解是我们对这些因子所做的唯一假设。它们最终采用的实际分布形式完全由更新规则决定。Tb=1：πn<$σTb=0：πn<$σ（fnfn（第二章）1 −max{yi}b−n<$，（第二章）max{yi}b-n<$-1。我们处理伯努利质量和方程6中的平均参数中的sigmoid函数以及Jaakkola界[17]通过用maxyib−n近似maxyib−n，如果yn不是袋子b的一部分，模型会选择袋子b中实例标签的最大期望值。对于正σ（x）≥σ（x）exp（（x−ξ2））-λ（λ）（x−λ）、（10）如果模型预测在这个袋子中存在至少一个正实例，它将把第二项拖向零，表明满足MIL约束。因此，我们认为，其中λ（λ）=1σ（σ）−1。此绑定已用于yn的期望标号仅取决于它的局部证据Kandemir第一次提出了GP的变分推理等人[21]让我们fn. 然而，如果其他实例都被预测为为负，模型使用全局（袋级）证据（）下一页B er（yn|σ（fn））≥ exp −− λ（<$n）（f−）而logH会将实例yn强力推向位置积极的一面压倒性的当地证据另一方面，在一项研究中，exp（yn2nnfn）σ（n），对于neg ativ e袋，max{maxin}b−n将接近于零，gi v-inglogH为负号。这一次模型强迫πn对每个yn引入一个新的变分参数εn。更新q（u）。等式9给出了q（u）= N（u|m，S）并再次满足MIL约束。混合强/弱监管。我们的模型的一个很好的性质是，它可以直接结合弱和强超-与S←（K−1K<$K K−1+K−1）−1（11）Z）ZZ Z通过简单地固定这些实例的相应变分分布，因为它已经被称为m←SK−1KZX（⟨y⟩ −2）（十二）负袋，其所有实例均为负，则始终对其中Λ：= 2diag（λ（λ1），.，λ（λN））。更新为变分参数为φ2<$f2<$f，即MIL设置。然而，如公式14所示，全苏-透视对阳性袋有帮助。此外，混合K2←KxZK−1（mm+S）K−1KZx+Knn，对许多人来说，nnZZZZn现实世界的应用程序，因为我们总是可以支持一个弱其中Knn是指p（f）的方差|u）在等式5中。更新q（yn）。对于实例标签的变分分布的更新，我们（6575需要处理maxyib算子，它既不是可微的，也不允许解析更新。为了更新单个实例yn，我们将max分解为max{yi}b=yn+max{yi}b−n−ynmax{yi}b−n，（13）监督数据集由一小部分完全监督的观察与可接受的额外努力。一个合理的MIL模型应该最大限度地受益于这种支持。3.2. 大边际版本虽然GP是灵活的学习器，但它们具有内在的正则化机制，使模型不受过拟合的影响[36]。尽管如此，4[3]我们从符号中省略了对X，Z有关更新规则的详细推导，请参阅补充文件，分解在等式13中。6574B|≈ B|ZZ−1·|在具有挑战性的应用中，类的数量可能会使模型不稳定，并被决策裕度周围的噪声变化所迷惑。为了克服这一点，我们引入了进一步的margin控制类似的支持向量机。它迫使模型倾向于使边缘附近尽可能空的解决方案。我们通过将简单的Bernoulli分布替换为实例标签yn来实现这一点|fnBer（yn|σ（fn））（等式6），300025002000150010005000（）0。00。2040608个1. 0Gn|fnBer gn|C =0（|fn| −V）），（15）预期实例标号（）下一页yn|fn，gnBer yn|σ（fngn）.（十六）方程15中引入的门控分布决定了yn预测的置信度。参数V和C调整了我们倾向于在边缘上使用的正则化程度。C决定了模型将以与SVM的C通过移动sigmoidV来控制我们希望强制执行的边距。V=2的偏移可以解释为要求模型对实例预测有88%的把握。5它的输出gn迫使方程16中的模型在预测危险地接近决策界限时避免做出决策。gn用作决定是否让fn传递到等式16的看门人。如果模型足够确定，则Ber（ yn|σ（fngn））<$Ber（yn|σ（fn）），否则er（ynσ（fngn））er（yn0.（五）。这样，模型迫使不确定的概率朝向决策边界，将它们从活动集合中丢弃，因为在概率模型中有效地忽略了对决策边界的预测。这将在边界周围创建一个较大的边距。经过上面讨论的修改后，我们的模型的大利润变体变为（见图1）uN（u|0，KZZ），（17）F|uN（f |KXZKu，K），（18）图2：LM-VGPMIL和标准VGPMIL之间差异的可视化。在Barrett癌症数据集上训练后两个模型的预期实例标签的直方图。虽然VGPMIL具有双峰结构，其中两个集群围绕0和1，但LM-VGPMIL具有三峰结构，将不确定的情况推向0。5、有效地消除它们。推理也是。在这种情况下，我们的 v阶分布由Q=q（u）p（f u）给出。nq（yn）q（gn）. 更新每个q（）的规则在附录6中给出。图2显示了Barrett癌的大边缘效应数据集在后面的实验中讨论，其中LM-VGPMIL比VGPMIL提高了两个百分点虽然存在贝叶斯大边际学习的先验方法[15，26]，但我们是第一个将此想法应用于MIL设置的方法，我们认为这对计算机视觉社区。3.3. 使用VGPMIL进行目标检测除了其方法上的新颖性外，我们的VGPMIL还可以作为弱监督对象检测管道的重要组成部分，该管道由三个标准模块组成：（i）区域提议生成器，（ii）特征提取器，以及（iii）分类器（参见图3）。用于完全中国（）监督设置，R-CNN [13]实现了大幅改进-G|fn=1贝尔gn|C =0（|fn| −V）），（19）使用CNN作为特征测试拖拉机. 后续工作[12，18]带来了额外的N通过加入后两个模块（以及COM）进行y|f，g不|yn=1CIBBb=1Ber yn|σ（fngn），（20）HGb 、（二十一）H+1合并计算）。一个经过端到端训练的R版本-CNN [35]的表现超过了所有的前辈。弱监督对象检测的最新趋势遵循相同的三模块流水线的适应性Cin- bis等[7]级联模块作为单独的处理步骤，我们将其称为大余量VGPMIL（LM-VGPMIL）。我们只在培训期间强制执行大利润率。我们预测测试包上的实例标签，这两个模型与基本的GP分类器相同。考虑到与VGPMIL模型的结构相似性，可以通过变分方法用闭合形式更新来学习[5] C和V效应的可视化LM-VGPMILVGPMIL计数65756为了保持封闭形式的更新，我们需要使用近似|n（2 y n − 1）f n.|≈ (2⟨yn⟩ − 1)fn.因子（2yn−1）--期望的实例标签被重新缩放为[−1，1]--确保整个表达式的正性，因为两个因子的符号应该一致。这是相互依赖的，g和y之间的dence，导致有向循环图形模型[40]。应用于此设置的变分推理类似于循环信念传播。因此，变分参数更新不再保证非递减ELBO。然而，我们的实验结果表明，这在实践中不会损害性能。6575≈特征提取器MIL预测器输入图像区域建议生成器CNN预训练在外部数据上进行强有力的监督VGPMIL级联端到端Cinbis etal.Bilen et al.预训练的R-CNN我们的图3：一般弱监督检测管道以及不同方法如何适应它。彩色框将管道的端到端训练部分分组，而彩色箭头表示不相交的处理步骤。表示普通R-CNN的弱监督对应物Bilen等人[3]通过CNN将特征提取和MIL分类结合起来，同时保持区域建议生成分离，从而获得更好的结果。现成的区域建议生成器的一个主要弱点是它们分配给建议的优先级分数不能检索具有高召回率的目标模式Bilen等人通过内部评分机制和培训CNN委员会来解决这个问题Li等[27]为区域建议分配一个启发式得分，并可互换地训练一个CNN，这使它们能够以更少的计算工作量实现类似的性能水平。从先前的工作中，我们推导出三个观察结果：i）端到端训练提高了性能，ii）对具有高召回率的区域建议进行评分至关重要，iii）所有三种弱监督对象检测方法都在基于监督外部数据预训练的CNN上构建一个模块。我们合并所有这三个经验教训，并构建一个管道正交到以前的工作。我们联合执行区域建议生成和特征提取，并为此任务重新训练CNN。这精确地转换为将图像馈送到在另一个数据集上训练的Faster R-CNN的区域建议网络部分中，并使用分配给每个区域建议的全连接层的特征图作为其特征向量。最后，我们将这些特征向量馈送到一个功能强大且可扩展的MIL预测器中进行最终检测。我们的VGPMIL就是这样一个预测器。它是强大的，因为它可以像具有无限数量神经元的多层感知器一样学习复杂的决策边界[32]。它是可扩展的，因为它的更新规则随着训练集的大小线性扩展。图3显示了我们的方法在组成模块的方式上与两个开创性工作的不同之处。4. 实验我们在三种情况下评估我们的模型：（i）由[ 48 ]引入的20个新闻组数据集，（ii）由[19]引入的巴雷特癌症数据集，（iii）PASCAL VOC方法mAP[20]第二十话0.40[30]0.59VFr [30]0.67DPMIL [20]0.70GICF [24] 0.71VGPMIL（我们的）0.65VGPMIL kPCA（我们的）0.72LM-VGPMIL（我们的）0.73表1：20个新闻组数据集上的实例标签预测分数.更多详细结果见附录。2007年2012年数据集[9]，目标是物体检测。第三个设置旨在说明我们的模型如何成为解决主流计算机视觉应用程序的管道中的重要组成部分，我们选择了20个新闻组数据集作为使用MIL进行实例标签预测的标准基准Barrett的癌症数据集是一个有趣的医学图像分析应用程序，表明我们的4.1. 20新闻组数据条目我们在[48]中介绍的20个新闻组语料库上评估我们的模型它包含20个数据集，每个数据集由100个袋组成（50个阳性和50个阴性）。每个包包含大约40个来自20个不同top-ic的帖子的实例每个实例都是由200个顶级TF-IDF功能表示的一个帖子。尽管不是计算机视觉应用，但该数据集是信息丰富的，因为它是为了测试MIL中的极端情况而策划的，其中阳性袋包含很少（3%）的阳性实例。因此，它已被广泛用作弱监督实例预测器的标准基准。根据以前的工作[20，24，30]，我们报告结果6576方法准确度（%）F-score[20]第二十话65.80.54DPMIL [20]71.80.74VGPMIL（我们的）75.10.76LM-VGPMIL（我们的）77.30.77表2：来自组织病理学组织微阵列的巴雷特癌症肿瘤的定位的性能评分在10倍10倍交叉验证使用现成的分裂。我们在表1中报告了结果。由于该数据集中的类这可以从以下事实中看出：当使用内核 PCA 对输入进行预处理时，VGPMIL更接近LM-VGPMIL的性能，如[20]中所做的那样。然而，LM-VGPMIL仍然领先一个百分点，受益于非线性分类和分类阶段的端到端学习4.2. 巴雷特我们模型的第二个测试平台是从组织病理学组织微阵列图像中定位巴雷特这是弱监督学习方法的一个有趣的应用领域因为这样的注释是极其昂贵的，所以减轻病理学家的努力的任何工具对于该领域将是非常有价值的。我们在[20]的作者友好提供的数据集上进行实验，该数据集由210个组织切片（143个癌组织，67个健康组织）组成，包含14353个像素块/实例7，每个像素块/实例由738维特征向量8表示。我们选择诱导点计数M=50并将它们初始化为k均值质心，遵循现有技术[16，21]。我们根据它们的袋子标签分割训练实例，并分别对两个类应用k-均值，选择k=25。我们通过连接两个类的质心来构造诱导点集。表2报告了重复五次四重交叉验证后的平均准确度和F1分数。我们的模型的两个版本的表现明显优于基线GPMIL和先前的最先进的DPMIL，该模型的大利润版本在VGPMIL上提高了另外两个百分点。4.3. Pascal VOCPASCAL VOC 2007数据集由9963个图像组成，包含来自20个类别的对象，分为5011个图像的训练/验证（trainval）集和4952个图像的测试集，VOC 2012大约是其两倍大。7他们报告了14303例，可能是由于印刷错误。[19][ 1方法VOC 2007 VOC 2012表3：PASCAL VOC数据集的性能评分。在测试集上报告mAP，在训练集上报告CorLoc。更多详细结果见附录。为了简单起见，我们按照一个对所有的方法为每个类训练一个单独的模型9。我们使用Faster R-CNN的区域建议网络部分作为区域建议生成器和特征提取器。网络架构基于VGG-16 [38]，并使用基于Caffe的实现10在MS-COCO数据集[29]上进行预训练。我们将每个图像视为一个包，并将每个区域的顶级50个区域提案作为实例，例如在PASCAL VOC 2007数据集上为我们提供250550个训练实例和247600个测试实例。我们通过主成分分析（PCA）将输入维数从4096降低到500。与之前的实验类似，我们使用了一组50个诱导点，通过k均值拟合VGPMIL变体，并在整个训练过程中保持固定。我们训练我们的模型20次迭代，并对预测应用非最大抑制。我们为LM-VGPMIL设置C=2和V=2作为先验猜测。通过交叉验证或梯度下降来拟合这些值只能进一步改善结果。我们在表3中报告了我们的结果以及与最新技术的比较。根据早期的工作，我们报告了训练分割的正确定位（CorLoc）[8]和测试分割的平均平均精度（mAP）。4.3.1混业监管我们的模型很容易扩展到混合监管：部分数据是完全监督的，其余部分（通常较大）仅包含图像级标签。对于主流计算机视觉任务来说，这是一个相对较少研究的设置，一个罕见的例外是Cinbis等人。[7]的文件。MIL的一个陷阱9VGPMIL也可以很容易地扩展到多类的情况，例如：通过用多项分布代替（6）中的伯努利分布，用[5]引入的softmax上的界对其进行下界。然而，我们观察到这并没有改善PASCAL VOC 2007的结果.因此，我们只报告简单的二进制输出版本。10https://github.com/rbgirshick/py-faster-rcnn地图CorLoc地图CorLocCinbis等人[七]《中国日报》30.254.2––Teh等人[41个]34.564.6––Kantorov等人[22日]36.355.135.354.8史和法拉利[37]37.264.7––比伦和韦达尔迪[3]39.358.0––Li等[27日]39.552.4––VGPMIL（我们的）46.166.034.658.365777060504030201000.0 2.5 5.0 10.025.050.0100.0%全面监督图4：混合监督的对象检测结果。该图显示了PASCALVOC 2007检测性能的变化，作为完全监督的袋子的百分比（即，实例级监督）增加，而其他的仍然只是在包级弱标记。Cinbiset al. [7]从他们的图9估计。设置的问题是，模型永远不会暴露于目标图案的精确示例，这容易产生模糊性（例如，我们是在搜索飞机还是机翼？）.即使是少量的完全监督也可以解决这个问题，但注释开销很大。此外，全面监督允许我们将诱导点分组为更具歧视性的组。如图4所示，一小部分强大的监督就足以提高性能.4.4. 讨论VGPMIL和LM-VGPMIL都在三个数据集上提高了最新技术水平，LM-VGPMIL也在PASCAL VOC 2012上提高了最新技术水平。虽然LM-VGPMIL在20个新闻组、Barrett癌症和VOC 2012数据集中达到了最高性能分数我们推测这是由于数据的结构。在VOC 2007中，我们用于联合区域建议生成和特征提取的预训练深度神经网络显然能够实现高水平的类别分离。因此，进一步规范差值在这一特定情况下不会带来任何好处。相比之下，引入LM-VGPMIL的自适应参数导致性能下降。另一方面， Barrett's cancer 和 20Newsgroups数据集显示出高水平的类杂波，需要在决策边界附近区域具有鲁棒预测的模型。2012年挥发性有机化合物的较大数据也是如此。在这些情况下，LM-VGPMIL改进了普通VGPMIL。因此，当输入数据用核PCA预处理时，VGPMIL赶上LM-VGPMIL，核PCA在希尔伯特空间上执行降维，利用类分离。我们在补充图1中提供了Barrett癌症和PASCAL VOC 2007数据集的t-SNE [31]可视化类杂波在这两个应用程序。我们的对象检测流水线提高了PASCAL VOC数据集的最新技术水平，原因有两个：i）由于[35]的深度网络，它在外部数据上进行训练，以联合执行区域建议生成和对象检测，因此具有更好的区域建议，可以最大限度地受益于该网络的输出不幸的是，测量这两个因素对性能的单独贡献并不简单，因为现有的MIL分类器要么是针对将原始区域属性作为输入的管道定制的[3，7，27]，要么不能扩展到数百个成千上万的数据点[1，14，23]或无法预测实例标签[21，25，45]。为了评估提案质量的影响，我们训练了Li等人的模型。[27]，使用它们的公共实现和默认参数，对我们为VOC 2007生成的区域提案进行这是31的表现。9mAP的测试集上，表明单独的建议是不够的。由于前MIL分类器无法联合评估区域及其特征的影响，因此我们通过[47]调整了DMIL模型，以允许例如预测来取代管道的（LM-）VGPMIL部分这种方法实现了三十六7mAP，这使它在最近的方法的性能范围这表明，虽然管道的CNN部分非常强大，作为第二部分的强大MIL方法对于最先进的结果仍然是必要的。凭借封闭形式的更新规则， VGPMIL 和 LM-VGPMIL都可以在不需要微调学习速率的情况下进行训练。此外，它们都遵循陡峭的学习曲线，并在20次迭代内收敛到最终的预测分数（见补充图2）。5. 结论我们通过具有封闭形式更新的变分推理使GPMIL有效且可扩展地可训练。我们报告了三个不同的应用程序，我们的模型提高了最先进的实验。我们还证明，我们的模型自然地扩展到混合超级视觉设置，允许模型同时从包级和实例级注释中获益。我们的模型在PASCAL VOC检测任务上实现了性能飞跃，这要归功于端到端的预训练区域建议生成器和特征提取器，也要归功于它与我们提出的VGPMIL模型的有效结合受性能如何从普通R-CNN发展到更快R-CNN的启发，一个有趣的未来方向是VGPMIL的端到端训练以及前面的块。如果可以解决其跨输入维度的可扩展性瓶颈，则可以使用最近的深度内核学习[46Cinbis等人VGPMIL地图6578引用[1] S.安德鲁斯岛Tsochantaridis和T.霍夫曼支持多实例学习的向量机NIPS，2003年。1、8[2] Y. Bengio，J. Collobert和J. 韦斯顿课程学习。 InICML，2009. 2[3] H. Bilen和A.维达尔迪弱监督深度检测网络。在CVPR，2016年。一二六七八[4] C.主教模式识别与机器学习. Springer，2006年。4[5] G.布沙尔softmax函数的有效界及其在混合模型近似推理中的应用。在NIPS 2007连续/混合系统中近似贝叶斯推理研讨会上，2007年。7[6] M.- M.郑，Z.张文-- Y. Lin和P. Torr. BING：在300fps 下进行对象估计的二值化赋范梯度。CVPR，2014。2[7] R. G. Cinbis，J. Verbeek，and C.施密特弱监督目标定位与多重多实例学习。IEEE Transactions onPattern Anal-ysis and Machine Intelligence，2016。一、二、五、七、八[8] T.德塞拉湾Alexe和V法拉利弱监督定位与通用知识学习。国际计算机视觉杂志，100（3），2012年。7[9] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地 K. I.威廉姆斯J. Winn 和 A. 齐瑟曼。 PASCAL 视觉对象类（ VOC ）的挑战 . 国际计算机视觉杂志， 88（2），2010年。6[10] Z. Ghahramani 概率机器学习与人工智能。Nature，521（7553），2015. 1[11] S. Gidaris和N.小木参加细化重复：通过输入输出本地化生成活动框建议。BMVC，2016年。2[12] R.娘娘腔。快速R-CNN。在ICCV，2015年。二、五[13] R. 格希克，J。多纳休，T.Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。二、五[14] Y.汉角，澳-地Tao，and J. Wang.避免多示例学习中的假阳性。在NIPS，2010年。8[15] R. Henao，X. Yuan和L.卡琳贝叶斯非线性支持向量机与判别因子建模。在NIPS，2014。5[16] J. Hensman，N. Fusi和N. D.劳伦斯大数据的高斯过程。InUAI，2013. 7[17] T. S. Jaakkola和M. I.约旦.基于变分方法的贝叶斯参数估计。统计和计算，10（1），2000年。4[18] H. Kaiming，Z.香玉河Shaoqing和J.太阳深度卷积网络中的空间金字塔池-用于视觉识别。2014年，在ECCV。5[19] M. Kandemir，A. Feuchtinger、A. Walch和F. A.汉普雷希特数字病理学：多实例学习可以检测巴雷特癌症。ISBI，2014年。六、七[20] M. Kandemir和F.A. 汉普雷希特基于Dirichlet过程多实例学习的实例标签预测.InUAI，2014. 二六七[21] M. Kandemir ， M. Haußmann ， F. Diego ， K.RajamaniJ. van der Laak和F. A.汉普雷希特变分弱监督高斯过程。在BMVC，2016年。一、二、四、七、八[22] V. Kantorov ， M. Oquab ， M. 周和我拉普捷夫Contextlocnet：用于弱监督定位的上下文感知深度网络模型。在ECCV，2016年。二、七[23] M. Kim和F.托瑞高斯过程多实例学习。ICML，2010年。一二三八[24] D. Kotzias，M. Denil，N. De Freitas，和P.史密斯从组到使用深层特征的单个标签在SIGKDD中。ACM，2015. 二、六[25] G.克鲁梅纳赫角Ong和J. Buhmann。椭球多示例学习。2013年，《国际反

下载后可阅读完整内容，剩余1页未读，立即下载