从纪录片中学习新物体检测器

133 浏览量更新于2023-10-15 收藏 12.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

The elephant are about to march through them. The spidersthemselves have a span as wide as a human hand.Tigers are one of the few cats that actually enjoy swimming.Unlike mechanics, langurs are the friends of spotted deer.But the love serenade is over once a dog arrives.Male koalas play no role in parenting.There's a turf war going on and thekoalas are losing. (dog)Australian camels appear sick and emaciated.About 50 animals have diedin just three months, including this adult orangutan on the day we arrived.The mayor has declined offers of assistance and expert advice from animal welfare groups. (elephant)30870从纪录片中发现和学习新物体0陈凯宋航陈长忠林达华香港中文大学信息工程系0ck015,hsong,ccloy,dhlin@ie.cuhk.edu.hk0摘要0尽管近年来取得了显著进展，但在新环境中检测物体仍然是一项具有挑战性的任务。从公共数据集中学习的检测器只能处理固定的物体类别列表，而从头开始训练通常需要大量带有详细注释的训练数据。本研究旨在探索一种新颖的方法，即以弱监督的方式从纪录片中学习物体检测器。这受到了纪录片经常提供特定物体类别的专门解说的观察启发，其中视觉呈现与字幕对齐。我们相信物体检测器可以从这样丰富的信息源中学习。为了实现这个目标，我们开发了一个联合概率框架，通过视觉和语言链接将视频帧和字幕等各种信息结合在一起。在这个公式的基础上，我们进一步推导出一种弱监督学习算法，其中物体模型学习和训练集挖掘在一个优化过程中统一起来。对一个真实世界数据集的实验结果表明，这是一种学习新物体检测器的有效方法。01. 引言0近年来，深度学习的进步推动了目标检测领域的创新[12,29,35]。尽管在公共基准测试中取得了巨大的成功，但这些技术在实际应用中受到了一个重要障碍的阻碍，即缺乏标注数据。具体而言，预训练于公共数据集的检测器只能涵盖有限的物体类别列表，这通常对于现实世界的应用来说是不足够的，因为感兴趣的物体可能超出了这些列表。另一方面，训练一个新的检测器需要大量带有边界框注释的图像。获取这样的数据集是一项需要大量时间和资源的投资。这些困难需要一种替代方法来学习物体检测器。0图1：我们希望设计一种方法，可以在观看纪录片时自动学习物体检测器，以弱监督的方式。图中显示了所提出的野生动物纪录片（WLD）数据集的一些示例。名词在视频中的字幕和物体之间存在对应关系时以红色标记。否则，当存在不匹配时，我们以蓝色标记相应的名词。0当我们观看由GabrielaCowperthwaite执导的著名纪录片Blackfish时，我们了解了地球上各种生物的知识。现在，随着我们稳步迈向AI时代，我们有动力问：计算机能否以类似的方式学习？从直觉的角度来看，利用纪录片来学习物体检测器的想法是有前途的。每年都会制作出涵盖各种主题的数千部纪录片，而且数量还在迅速增加。纪录片通常由一系列带有字幕的视觉呈现组成，这些字幕从不同的角度介绍了被引入的实体。显然，这是视觉学习的丰富信息源。在这项工作中，我们的目标是通过观看纪录片自动学习物体检测器，以弱监督的方式（图1）。为了实现这个目标，我们面临着多个挑战。首先，这个框架完全没有先验知识。30880对于它将从视频中看到的内容，例如对象类别的数量以及故事将如何呈现，我们一无所知。一切都必须从数据中发现-没有人类的帮助。其次，语言线索和视觉线索之间的关联通常是模糊的。例如，当多个对象同时存在时，很难确定字幕中的名词与相关帧中出现的对象之间的对应关系。普遍存在的代词和同义词进一步复杂化了问题-“老虎”通常被称为“幼崽”或“大猫”，也可以用代词“它”或“这个”来指代。第三，由于位置变化、模糊和部分遮挡，对象的外观存在相当大的变化。即使是最先进的识别技术在处理所有这些情况时也可能遇到困难。困难是明显的-尽管纪录片中的材料丰富且相关，但我们处理的观察结果充满了噪声、歧义和不连贯的片段。为了应对这一挑战，我们开发了一个概率框架，旨在将个别信息片段连接起来，形成一个连贯的图像。具体而言，该框架包括三种类型的因素作为“桥梁”：（1）捕捉每个对象类别的共同外观模式的“外观”因素，（2）将孤立的对象轨迹缝合成一个整体的“几何”因素，以及（3）将语言参考与视觉观察联系起来的“接地”因素。此外，该框架还通过共指分析识别描述相同实体的名词和代词。在这个公式的基础上，我们进一步推导出一种学习算法，其中对象检测器的学习和训练数据的挖掘在一个统一的优化过程中进行。这项工作的主要贡献在于几个方面：（1）一种新颖的学习对象检测器的方法，即以弱监督的方式从纪录片视频中学习，而不需要任何注释的对象种子或多实例学习方法中的“包”级别监督；（2）一个可以有效整合嘈杂信息的框架，包括视觉和语言线索；（3）一个具有详细注释的新数据集（图1）1。02. 相关工作弱监督目标定位。在目标检测中，耗时的注释过程可以通过弱监督学习[2, 3, 7, 9, 13, 30, 33, 36, 40, 41, 42, 43,44]来规避。在许多情况下，监督信息仅限于二进制标签，指示图像中是否存在对象实例，而不包括它们的位置。通常采用多实例学习[25]框架。具体来说，每个图像01 数据集和代码可在https://github.com/hellock/documentary-learning找到。0年龄被认为是由对象提案给出的示例的“包”。假设正面图像至少包含一个正实例窗口，而负面图像根本没有对象。在[7]中提供了一个很好的概述。Prest等人[33]介绍了一种从仅包含目标类别对象的真实网络视频中学习对象检测器的方法。换句话说，他们的研究每个视频只需要一个标签。我们的问题更具挑战性，因为纪录片甚至在“包”级别上也没有提供精确的标签，因此我们在视频中没有明确的正负窗口。因此，我们需要一个有效的框架来整合嘈杂的信息片段。Joulin等人[16]提出了一种在一组不同的图像或视频中定位相同类别对象的方法。共定位问题假设一组视频中的每个帧都包含同一类别的一个对象。0其他相关研究包括[22,27]，这些研究通过半监督学习从长视频中迭代地学习和标记对象实例。这些方法需要注释的种子。Kumar等人[19]将弱标记视频中的跟踪对象框传输到弱标记图像中，以自动生成伪地面真实框。我们的方法直接在视频上工作。Alayrac等人[1]对叙述指令视频进行建模，以学习完成某个任务的主要步骤的顺序。这些方法需要具有相同任务的视频的转录。Kwak等人[20]将无监督的时空对象定位问题定义为发现和跟踪的组合。它在每个帧中定位一个实例，并且不能将语义标签与对象群集对齐。最近的研究[28,45]表明，在使用图像级标签训练的卷积神经网络（CNN）中会出现对象检测器。我们利用这个概念在我们的方法中生成候选提案。0从图像描述中确定对象。已经提出了许多方法来根据图像的描述定位对象。例如，Karpathy等人[18]通过嵌入来自预训练对象检测器的检测结果和来自解析器的依赖树来解决跨模态对齐问题，并使用排名损失。Plummer等人[32]使用规范相关分析（CCA）学习图像区域和文本片段的联合嵌入，以定位标题中提到的对象。最近的研究[15,23]建立在图像字幕框架（如LRCN[10]或m-RNN[24]）的基础上，这些框架是使用已知对象类别的真实短语-区域对进行训练的。这个想法被扩展到从自然语言表达式中进行图像分割[14]。Rohrbach等人[37]提出了一种潜在的注意力方法，通过重构短语来学习在图像中正确区域的注意力。与前述研究不同，我们的工作既不假设已知类别的对象，也不假设任何配对的真实短语-图像或短语-区域数据。相反，Right from the beginning of this study we ruled outvideos with relatively clean separation of objects and back-ground for our study of unknown objects discovery. Instead,we wish to mine for more meaningful and richer informa-tion from complex videos. To facilitate our study, we col-lect a new dataset called Wildlife Documentaries (WLD)dataset. It contains 15 documentary ﬁlms that are down-loaded from YouTube. The videos vary between 9 minutesto as long as 50 minutes, with resolution ranging from 360pto 1080p. A unique property of this dataset is that all videosare accompanied with subtitles that are automatically gen-erated from speech by YouTube. The subtitles are revisedmanually to correct obvious spelling mistakes. To facilitateevaluations, we annotate all the animals in the videos result-ing in more than 4098 object tracklets of 60 different visualconcepts, e.g., ‘tiger’, ‘koala’, ‘langur’, and ‘ostrich’. Weshow some examples in Fig. 1.The WLD dataset differs from conventional object detec-tion datasets in that it is mainly designed to evaluate an algo-rithm’s capability in discovering object of unknown classesgiven with rich but ambiguous visual and linguistic infor-mation in videos. The videos are much longer and are leftas they are without manual editing, while existing datasetsusually provide short video snippets. The total frame num-ber is more than 747,000. Object bounding box annotationsare not designated for model training, but provided to eval-uate how accurate an algorithm could associate the objecttubes with the right visual concepts.The dataset is challenging in two aspects. Since videosare long documentaries, large variation in scale, occlusionShe needs to be good. Her cubshave already got huge appetitesMost animals fear sloth bears as but not apparently wildboar, at least not in this food around.langurs are the friends of spotted deer.…for some babies drinking isn‘t themost coortable of timeThese aream the rarest slotearse cubs also l a cooling dip……30890我们的重点是通过非结构化的语言参考来发现和学习检测未知对象。视觉中的语言线索。字幕已被用于辅助视觉识别器的学习。几项研究[6, 8,31]从电视广播中自动学习英国手语手势。他们的视频包含一个保持稳定姿势的签名者。由于数据更加结构化，字幕和手势之间的正面对应关系可以很容易地被识别出来。我们的数据包含多个动物在周围移动，展示各种姿势和比例。因此，我们的问题需要更容忍错误的公式来学习和链接外观、几何和定位因素。另一项研究[11]通过将包含口头台词和说话者身份的字幕与剧本对齐来减少自动角色识别中的歧义。在我们的情况下，我们无法访问剧本。一些研究[11, 34,5]探索电影和电视剧的剧本，以帮助识别角色。[21]中提出了一个类似的想法用于动作识别。角色名称提前提供，但在我们的设置中，我们假设类别是未知的，以便可以发现新的对象。03. 野生动物纪录片（WLD）数据集0合并轨迹和类别0大象0熊0长尾猴0池塘0老虎0野猪0鹿0c30c10c1c20cn0更新0关键词轨迹0屏幕样本0分类器0对轨迹进行分类和关键词进行归类01.引导 2.联合分析0图2：所提出的框架以无监督的方式从纪录片中学习对象检测器。这是通过整合包括视觉和语言线索在内的噪声信息实现的。0背景干扰和杂乱是常见的。在许多情况下，一个帧中存在多个对象。这增加了将目标对象与正确名词相关联的难度。除了视觉挑战外，高度无结构的字幕也增加了复杂性。如图1所示，有意义的名词被大量的代词和同义词所淹没。名词的出现并不一定意味着相应的对象存在，因为对象和字幕之间存在时间距离。可能根本不会发生对应关系。04.框架概述0我们在这项工作中的主要目标是开发一个能够从纪录片中发现新对象并从中学习视觉检测器的框架。请注意，该框架事先对给定的视频一无所知。视频本身和相关的字幕是它在分析中唯一可以依赖的数据。如图2所示，我们的框架通过两个主要阶段来完成这个任务，即引导阶段和联合分析阶段。引导阶段是为分析准备材料。具体而言，它将使用无类别检测器和跟踪器获取一系列轨迹，并通过低级语言分析提取关键词列表。随后的联合分析阶段旨在将轨迹和关键词组合成一个连贯而有意义的图像。这种分析是基于CRF公式设计的，将几个任务统一到一个迭代优化过程中。在每次迭代中，它选择一部分自信的样本来训练或微调每个对象类别的分类器，使用更新的分类器识别各个轨迹的类别，将其与关键词进行关联。6. Joint AnalysisFollowing the bootstrap stage, the framework will per-form joint analysis based on a probabilistic model – clas-sify each tracklet, infer the associations between trackletsand keywords, and as well obtain new object classiﬁers.6.1. Task StatementSpeciﬁcally, given a video, the inputs at this stage in-clude two parts: (1) Tracklets.We denote all trackletsas T = {τ1, . . . , τn}. Each tracklet τi is a sequence ofbounding boxes, and can be described by a visual featurevi and a geometric feature ui. The former is formed bythe appearance features extracted from a sub-sequence offrames, as vi = (v(1)i, . . . , v(li)i); while the latter cap-tures the spatial/temporal characteristics of the boundingboxes. (2) Keywords. We consider each subtitle as a bagof keywords for simplicity. Putting all subtitles together, wecan thus obtain a large collection of keywords, denoted byW = {w1, . . . , wm}. Each keyword has a time span, whichis the same as that of the parent subtitle.The purpose of this joint analysis stage is to accomplishthree key tasks: (1) Categorization. An important goalof this work is to detect objects from a given video. Thisis accomplished by assigning a category label zi ∈ C toeach candidate tracklet τi. Here, C is the set of all cat-egories, including all object categories and a backgroundcategory with label 0. (2) Grounding. Along with a sub-title, multiple tracklets may appear in the scene. To bridgethe visual and the linguistic domains, we need to groundthe keywords to individual tracklets, i.e. determine whichkeywords correspond to which tracklets. Generally, a key-word may be grounded to zero or multiple tracklets, andvice versa a tracklet may be referred to by multiple key-words. Here, we use aij ∈ {0, 1} to indicate whether thetracklet τi is associated with the keyword wj. (3) ClassiﬁerLearning. The detected tracklets with their inferred labelsconstitute a training set on which object classiﬁers can belearned. Speciﬁcally, we can select a conﬁdent subset oftracklets classiﬁed to each object category and train a clas-siﬁer thereon.6.2. Probabilistic FormulationIn this work, we propose a Conditional Random Field(CRF) that uniﬁes all these tasks into a probabilistic formu-lation, which comprises the following potentials:Appearance potential ψap(zi|vi; θ): This potential mea-sures how well a tracklet τi matches a object category zibased on its appearance feature vi. It is deﬁned asψap(zi|vi, θ) =�lit=1 log p(zi|v(t)i ; θ).(1)When a convolutional network is used, p(z|v; θ) is simplythe logarithm of the output of the softmax layer, and theparameters θ are the network weights.Keyword-tracklet potential φkt(zi, aij|η): As mentioned,aij indicates whether the tracklet τi associates with the key-30900根据更新的知识，将关键词分配给它们，并根据更新的知识合并孤立的轨迹。通过这种方式，随着训练样本的不断增加和精细化，对象分类器可以逐渐改进。05.引导0引导阶段是为联合分析准备输入，其中包括候选轨迹和从字幕中提取的关键词列表。获取候选轨迹。我们采用康恩等人提出的方法的简化版本[17]生成候选轨迹，而不执行实际的检测任务。具体而言，我们首先使用区域建议网络（RPN）[35]从每个视频帧生成无类别对象建议，然后应用基于CNN的分类器评估每个建议边界框的对象得分。然后，我们通过跟踪将每个得分高的建议扩展为轨迹。请注意，我们通过在WLD数据集中排除任何感兴趣的对象来重新训练RPN，以确保我们的方法对类别是不可知的。用于评估对象性的CNN为每个边界框提供外观特征，这些特征将被保留并用于联合分析。选择关键词。我们的语言分析从字幕中选择关键词经过四个步骤：（1）共指消解。代词在典型叙述中无处不在。为了解决这个问题，我们首先使用[26]中描述的方法解决代词和名词之间的对应关系，并用相应的名词替换所有代词，例如从“他的爪子”替换为“老虎的爪子”。（2）词性标注。对象类别通常是名词。为了识别它们，我们使用解析器[4]进行词性标注。（3）词形还原。在英语中，一个词可以以不同的形式出现在句子中，例如“bear”，“bears”和“bear's”。这一步是用其规范形式替换一个词的不同形式，以便在后续分析中将其视为相同。（4）选择。最后，我们希望选择一些名词作为可能指示对象类别的关键词，以避免使用“动物”和“食物”等常见词汇，我们采用tf-idf分数[39]，其动机是相关关键词应该在只有少数文档中频繁出现。为了获得可靠的tf-idf分数，我们收集了一个包含2000个纪录片剧本的语料库，并在其中计算分数。我们经验性地发现上述程序可以提供一个良好的关键词列表，涵盖了我们数据集中出现的大多数动物。word wj. The value of this potential is determined by theobject category zi, asφkt(zi, aij|η) = log p(zi|wj; η).(2)Each object category can have multiple keywords, e.g. classtiger have keywords “tiger” and “cub”. Here, p(zi|wj; η)is the probability that the keyword wj belongs to the classzi, and the parameter η is the conditional probability table.A restriction is enforced here – each keyword can only begrounded to a tracklet whose time span overlaps with itsown. In other words, aij is forced to be zero when the timespans of τi and wj have no overlap.Geometric potential φst(rii′, zi, zi′|ui, ui′): Here, rii′ in-dicates whether tracklets τi and τi′ are two consecutive seg-ments of an object trajectory and thus should be merged.The value of φst is deﬁned to be . (8)30910φst = ...0... δ(zi = zi') ∙ s(ui, ui') (rii' = 1), 0 (rii' = 0).(3)0这里，s(ui,ui')是空间/时间一致性。这个定义确保只有当两个轨迹片段具有相同的类别标签并且在空间和时间上一致时，它们才能合并。联合模型。然后可以将联合CRF形式化为...0p(z, a, r|o; Θ) = 10Z(Θ) exp(Ψap(z|o; θ) + ...0Φkt(z, a|o; η) + Φst(r, z|o)) . (4)0这里，z、a和r分别是包含所有轨迹片段标签（zi）、关键词-轨迹片段关联指示符（aij）和轨迹片段链接指示符（rij）的向量。o表示所有观测特征，Θ是模型参数。这三个项分别由...给出。0Ψap(z|o; θ) = ...0i=1 ψap(zi|vi; θ), (5)0Φkt(z, a|o; η) = ...0(i,j)∈G φkt(zi, aij|η), (6)0Φst(r, z|o) = ...0(i,i')∈R φst(rii', zi, zi'|ui, ui'). (7)0这里，G是可能关联的轨迹片段-关键词对的集合，即它们的时间跨度重叠；R是可能合并的所有轨迹片段-轨迹片段对的集合，即空间-时间一致性足够高。06.3. 联合学习和推断0给定一个视频，我们使用变分EM算法来估计参数θ和η，并推断出潜变量，包括（zi）、（aij）和（rii'）。0初始化。首先，我们将每个不同的关键词视为一个类别，形成初始类别集合，这些类别可能在算法进行过程中合并。此外，为了提供初始标签，我们使用均值漂移将所有轨迹片段基于外观聚类成若干小组。每个聚类将根据与其中的轨迹片段重叠的关键词中最频繁的关键词分配一个标签。我们的实验将表明，尽管这种启发式方法简单且不太准确，但确实为联合分析提供了合理的初始化。0迭代优化。主要算法是一个交替进行的过程，包括以下步骤：01.筛选样本。如果将所有轨迹片段都用于分类器的训练，特别是在初始迭代中，推断出的标签可能非常嘈杂，会产生不利影响。为了解决这个问题，我们明确地引入了一个筛选机制，为每个轨迹片段计算一个置信度值，该值基于多个度量标准，例如长度、平均物体得分、物体得分的稳定性以及分类边界，即最高分类得分与次高分类得分之间的差异。这些度量标准使用在保留用于调整设计参数的子集上训练的SVM进行组合。02.更新分类器。根据置信度值，将所有置信度超过一定阈值的轨迹片段收集起来，用于训练或微调相应类别的目标分类器。对于每个轨迹片段，我们将得分最高的类别视为其当前迭代的“真实类别”。为了节省训练时间，轨迹片段会以固定间隔进行子采样。采样间隔的确定方式是使得所有类别的样本数量相对平衡。此外，我们还会为背景类别训练一个分类器，以增强前景物体和背景之间的对比度。3.对轨迹片段进行分类。通过更新的分类器，我们可以推断出每个轨迹片段的类别标签 zi 的后验概率，表示为 qi。0qi(zi) ∝ exp ...0� ψap(zi | vi, θ) + 0j ∈Gi φkt(zi, aij |η)0这里，Gi = {j : (i, j) ∈G}是与τi重叠的关键词集合。这里，标签zi的推断不仅考虑外观（第一项），还考虑与之相关的关键词（第二项）。04.关键词引用。首先，每个关键词wj只能引用与其时间跨度重叠的那些轨迹。对于这样的轨迹，关键词wj是否应该引用τi仅取决于类别标签zi。特别地，给定由下式给出的类别标签zi的后验概率aij：00.10.20.30.40.50.60.70.80.9130920p(aij | zi) ∝ exp(φkt(zi, aij |η))。我们经验性地发现，对于大多数情况，概率接近于0或1。因此，我们简单地从中采样aij来确定引用关系。05. 合并轨迹。对于每对轨迹τi和τi'，我们基于φst(rii', zi, zi'| ui,ui')对rii'进行采样。如果rii'=1，则将它们合并为一个新的单独的轨迹。从下一次迭代开始，新合并的轨迹将被视为一个整体。随着时间的推移，孤立的轨迹池将逐渐合并为更长的轨迹。06.合并类别。在每次迭代结束时，我们使用地球移动距离[38]计算每对类别之间的相似度，并将相似的类别合并（即距离低于阈值），合并后的类别的轨迹标签将相应地重新映射到新的标签。0正如我们所看到的，多个任务在这个过程中被整合在一起。通过迭代更新，给定视频上的一个连贯图像将逐渐形成，其中轨迹被分配给对象类别，关键词被引用到相关的轨迹，更重要的是，一组新的对象分类器将被派生出来。请注意，这不是一个严格的优化算法，因为插入了两个额外的步骤，包括屏幕采样和类别合并。虽然这些步骤不是直接从CRF公式推导出来的，但它们在引导过程中起着重要的指导作用。07. 实验0我们在WLD数据集上评估了我们的框架，比较了不同迭代和有监督对照组的结果。我们还研究了不同组件的贡献。设置。回想一下，我们在引导阶段使用RPN[35]进行提议生成，并使用CNN进行客体性评分和特征提取。CNN稍后在联合分析阶段作为分类器使用，通过添加全连接和softmax层。为了在联合分析期间进行高效的迭代优化，我们只更新全连接层并保持卷积层固定。我们在RPN中使用ResNet-269，在CNN中使用ResNet-101。这两个模型都是使用WLD中感兴趣的对象之外的图像进行训练的。评估指标。由于我们的方法是无监督的，我们在整个WLD数据集上评估我们的方法，主要指标是精确度-召回率。一些视频检测任务，如ImageNetVID，以与图像中的目标检测相同的方式评估性能，而不考虑时间准确性和轨迹实例匹配。相反，我们在轨迹级别而不是框级别评估结果，这可以更好地反映检测结果00 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 召回率0精确度0基准迭代1迭代20图3：不同迭代的整体性能。0表1：WLD数据集的平均精确度（%）。0第0次迭代第1次迭代第2次迭代0mAP 8.0 8.3 8.7 发现的mAP 20.6 28.930.70直观且精确地。具体而言，将交并比（IoU）准则扩展到时空轨迹，计算轨迹τp和τgt的三维IoU，即体积（τp∩τgt）/体积（τp∪τgt）。在我们的所有实验中，我们使用0.3作为阈值。07.1.迭代优化的有效性0我们的学习方法在2次迭代后收敛，结果如图3所示。结果表明我们的联合分析步骤在整合嘈杂的视觉和语言信息方面是有效的。观察到更多的迭代只会带来微小的改进。这可能是因为在前两个迭代中已经挖掘和利用了大多数自信样本，在进一步的步骤中很少能找到额外的信息。我们还像其他监督检测方法一样测量了我们的结果的mAP，如表1所示。与具有对象类别先验的监督和一些弱监督方法不同，我们框架中的候选类别是从字幕分析中得出的，因此对于我们的框架来说，一些只有少数对象的类别，例如大象，可能很难发现。因此，我们提出了发现的mAP，除了常规的mAP之外，它表示所有发现的类别的mAP。结果表明，在视频中更频繁提到的对象类别更有可能被发现和学习。07.2.与监督方法的比较0我们希望进一步研究我们的无监督训练检测器与强大的完全监督检测器的比较。为了进行这个实验，我们选择了在WLD和ImageNet中都可用的类别。总共选择了7个类别，这些类别在单个文档中都可用。00.10.20.30.40.50.60.70.80.9100.10.20.30.40.50.60.70.80.91309300 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 召回率0精确度0我们（迭代0）我们（迭代2）监督0图4：与完全监督方法的比较。00 0.05 0.1 0.15 0.2 0.25 0.3 0.35 召回率0精确度0基线基线+A基线+A+G0图5：引入不同潜力的结果。我们展示了联合分析中第一次迭代的结果。0补充视频。由于完全监督检测器是使用ImageNet对象检测和定位数据集进行训练的，它对这些选定的类别具有先验知识，其性能可以视为我们无监督方法的上限。如图4所示，在2次迭代后，我们的无监督检测器在高精度区域与监督对应物竞争。完全监督方法的发现mAP为0.309，与我们方法的0.307相当。还观察到我们的方法在纪录片的主要类别，如虎和长尾猴，具有可比或甚至更高的AP。07.3.消融研究0为了更好地理解我们的联合模型的工作原理，我们研究了外观潜力和几何潜力的必要性（关键词-轨迹潜力是必不可少的，否则无法获得轨迹标签）。我们比较了以下结果：（1）基线，（2）基线+外观，（3）基线+外观+几何，如图5所示。外观潜力。从（1）和（2）的结果可以看出，外观潜力对性能的提升有很大贡献。增益有两种可能性：分类器将误分类的样本更正为正样本，或者分类器消除了不同前景类别之间的混淆标签。为了进一步检验这个潜力的作用，我们0表2：‘分类轨迹’和‘地面关键词’步骤之前和之后的结果（详见第6.3节）。0F1二进制度量 F1多重度量前3个最大聚类的平均大小0之前 0.409 0.240 96 之后 0.367 0.305 2770表3：我们的接地方法与基于词频计数的基线准确性的比较。0迭代0 迭代1 迭代2 真实标签0词频计数 0.414 0.776 0.855 0.744 我们的方法 0.3430.888 0.937 0.9350将所有前景类别视为一类，并将分类器预测的F1分数与基线进行比较。我们还计算了前3个最大聚类的平均大小。如表2所示，尽管分类器无法回忆出与基线相比更多的前景样本（通过F1二进制度量反映），但在基于基线的基础上，它在接地结果上表现出很大的改进（通过F1多重度量反映）。当我们考虑到改进的F1多重度量和聚类大小的增加时，观察结果表明，外观模型捕捉到了有意义的视觉相似性，并加强了一些主导类别。关键词-轨迹潜力。在我们的接地方法中，只有被预测为

下载后可阅读完整内容，剩余1页未读，立即下载