典型性选择：基于信息理论的样本压缩方法在计算机视觉中的应用

183 浏览量更新于2023-10-16 收藏 1.2MB PDF 举报

数据压缩

主动学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1典型性对信息代表选择贾瓦杜尔·H.Bappy，Sujoy Paul，Ertem Tuncel和Amit K.Roy-Chowdhury欧洲经委会，加州大学河滨分校，加州92521，美国{mbappy，supaul，ertem，amitrc}@ ece.ucr.edu摘要在计算机视觉中，从大量的训练数据中选择信息量最大的样本以学习一个好的识别模型是一个活跃的研究问题。此外，降低注释成本也是有用的在本文中，受数据压缩理论的启发，我们提出了一种新的样本选择策略，该策略从信息理论的领域中开发了典型性的概念。典型性是一种简单而强大的技术，它可以用来压缩训练数据以学习一个好的分类模型。在这项工作中，典型性用于识别用于标记的信息量最大的样本的子集，然后使用主动学习来更新模型。所提出的模型可以利用数据样本之间的相互关系。与使用整个训练集训练的模型相比，我们的方法显著降低了手动标记成本，同时实现了类似或更好的识别性能这是通过对五个数据集的严格实验证明的。1. 介绍视觉识别任务中的挑战之一是从一组标记的示例中学习一个好的分类模型。今天，我们生活在一个可以即时访问来自Google、Yahoo、Bing和Youtube等在线来源的大量视觉数据的对所有未标记的样品进行标记是不可能的，因为这是非常昂贵和耗时的。此外，更多的标记数据并不总是真的可以帮助分类器更好地学习;事实上，它也可能混淆分类器[25]。此外，识别模型的适应性是不可避免的，以实现良好的分类性能，是强大的概念漂移。因此，选择信息量最大的样本[41]变得至关重要，并且最近引起了视觉社区的极大关注，以便训练识别模型[40，29]。受此启发，本文的目标是从庞大的可用未标记数据库中获得少量信息样本的子集，以学习良好的识别模型。为了识别信息样本，大多数基于主动学习的查询选择技术选择分类器最不确定的样本[40]。主动学习的最新进展利用了样本之间的相互关系，以减少用于训练模型的标记样本的数量[27，32]，并应用于几个识别任务，例如活动识别[18]以及场景和对象分类[2]。在主动学习中利用情境有时被称为情境感知主动学习。大多数上下文感知识别任务都涉及图形模型[36]在样本之间进行关联。为了测量图上的不确定性[48]，我们需要节点熵和互信息。在[48]中显示，节点熵是从节点势计算的，互信息是从节点和边势计算的。在再认任务中，节点电位通常是根据样本的分类得分设计的。因此，如果分类分数对于错误的类足够高，则可能不选择样本。此外，当随机变量的数量增加时，计算互信息变得计算昂贵或难以处理，因此上述方法需要进行简化假设。在本文中，我们将探讨信息理论的思想，已非常成功地应用于数据压缩，可以用来识别最具信息量的样本，以建立一个识别模型。我们利用典型性的概念来达到这个目的。典型性允许使用熵作为信息度量来表示任何序列。典型集的概念是基于并非所有消息都同等重要的直观概念开发的，即，一些消息比其它消息携带更多的信息根据该理论，存在一个消息集合，对于该消息集合的任何成员，其出现环的总概率通过类比，从计算机视觉的角度来看，我们相信并非所有的样本对于学习识别模型都同样重要。因此，我们问我们如何利用这种方法来选择信息量最大的样本，这些样本将被手动标记，然后在这个子集上设计的分类器可以应用于整个数据集。虽然，术语58785879虽然许多论文用于几个任务，如类别搜索[34]，对象识别[39]和场景分类[45]，但它们没有像我们在这项工作中所希望的那样利用信息理论典型集的概念为了利用图像中的典型性，我们使用检测器提供的标签作为元素来形成序列。因此，如果序列偏离该序列的元素的典型集合，则该元素有很好的机会被选择用于标记。使用典型性的主要优点如下。(1) 典型性标识样本的一个小子集，它代表类的共同特征。(2) 以前，在计算机视觉中，将上下文结合到识别方案中的有效方法之一是通过图形模型，其中节点电位从分类分数中学习，边缘电位从样本之间的上下文关系中学习。在本文中，我们表明，典型性也可以用来连接之间的recog- nition和上下文模型。(3) 典型性在计算上是有效的。我们可以通过利用典型性来捕捉序列元素之间的高阶关系因此，当数据点之间的相互关系已知时，我们可以应用这种方法。例如，在联合场景-对象分类中，典型性将所有检测到的对象与场景联系起来，例如，“床、灯、画、窗帘与卧室场景”。另一方面，基于图的模型考虑了成对约束，如“卧室里的床”，“卧室里的灯”，(4) 我们也可以在特征空间中应用这种技术，通过识别类的典型特征来找到信息样本。框架概述：所提出的框架的流程如图所示. 1.一、该方法从标记样本的一个小子集开始构建初始分类模型。我们还学习样本的同现统计（如果可用）。我们的目标是用我们提出的方法选择的手动标记的样本来更新这些模型，从而形成一个主动学习框架。我们首先使用当前模型对一批传入的未标记数据进行分类。然后，我们从分类分数的分布中计算熵，以获得被预测标签的不确定性。为了利用典型性，我们需要获得一个序列和一个从中得出序列的分布。我们将这种分布称为“典型模型”。我们分两步学习典型模型：（1）从特征值，(2) 当样本可用时，从样本之间的上下文关系我们获得特征空间中的序列和分布，以找到非典型分数（请参见第2节中的详细信息）（3）与样品有关。类似地，对于后一种情况，我们从分类器提供的样本的标签生成序列，并学习概率质量函数更新模型标签标签批量图像或视频流从图像或视频中提取特征计算非典型分数计算每个样本的熵样本选择框架查询未标记人样本手册标签标签标签更新模型从第一批学习的初始模型分类识别从特征学习的典型模型从上下文中学习典型从第一批学习的初始模型图1：选择信息量最大的样本来训练识别模型的拟议框架概述。基于熵和典型性选择信息量最大的样本集。在此过程中获得的标签用于更新分类模型以及上下文关系。贡献：我们的主要贡献如下。• 我们从信息论中引入典型性的概念，提出了一个通用的主动学习框架据我们所知，任何以前的工作，使用类型-主动学习的有效性是未知的。• 我们明确地展示了如何典型性可以用来找出上下文的不规则性。我们还确定了一个类的典型特征，这是非常有用的识别。• 与大多数上下文感知主动学习方法不同，我们不需要一个图来关联样本，这使得我们的主动学习方法更快。我们展示了我们的实验结果在两个场景-（1）多任务分类，如场景对象和活动对象，（2）单任务分类，如场景或对象识别。我们的框架优于国家的最先进的方法显着降低人工标记成本，同时实现相同的识别性能。1.1. 相关作品我们简要回顾了视觉识别的相关工作然后提供样本选择策略的概述。计算机视觉分类所提出的框架适用于几个识别任务，如场景，对象和活动分类。[43]中的一篇综述论文讨论了一些常见的特征，如颜色、纹理和SIFT描述符，这些特征用于图像分类。在[37]中，该论文调查了最先进的基于特征的活动识别。计算机视觉的最新进展在识别模型之上使用上下文模型[3]，以实现更高的准确性。上下文模型的使用已经应用于几个应用中，例如对象识别[35，47]，场景分类[49，47，1]和活动识别[18]。识别任务中另一种有前途的方法是利用深度学习。基于深度学习的方法在识别任务中取得了优异的性能，例如场景分类[50]，对象检测[15，20，14]和活动识别[18]。样品选择方法。积极学习是(pmf)从样本的共现统计中。Fi-最后，我们制定了一个优化函数，以便选择-广泛用于减少人工标记的工作，不同的计算机视觉任务，包括场景分类，58801ǫ由弱大数定律Eqn。1可以写成1Σn−ni=1log2PXi（xi）→E[−log2PXn（x）] =H⑵⑵定义. 概率分布为P Xn（. ）可以被认为是弱典型集，如果它满足以下标准：...n.. −nlog2PXn（x）−H（X）。≤100%（3）图2：该图说明了典型的信息论[30，28，10]，视频分割[12]，对象检测[44，23，7]、活动识别[18]和跟踪[46]。在我们可以从这个定义中推导出一些性质，如n→ ∞[4]。物业1. 典型集合中的任何序列的概率将在以下范围内：主动学习，一些最先进的方法认为，2−n[H（X）+H]≤PXn（x）≤2−n[H（X）−n]（四）期望梯度变化[41]、信息增益[30]和期望预测损失[29]以获得用于查询的样本。在[40，29]中介绍了一些测量不确定性以选择信息样本在[28]中，作者结合了两种策略-最佳与第二最佳和K-质心来选择信息子集。在[22]中提出了一个用于对象类别的主动学习框架，该框架考虑了标记器本身不确定标记图像的情况。上述方法考虑到个人它直接来自等式中的定义。4.第一章如果n的值为零，则所有序列属于典型集的概率相等。在本文中，我们将展示如何从识别任务的样本生成一个序列。在主动学习应用中，我们关注的是具有在典型集合的范围之外的概率的序列，如等式11所示。4.第一章物业2.典型集的大小约2个nH（X）序列。物业3. 从类型中提取序列的概率-样本是独立的。 [21]社会关系用于文本分类模型的主动学习标准集A：P[X∈A（n）]≥1−N（5）在微博数据中。空间信息在[27]中被利用来在主动学习框架中对高光谱图像进行分类。在[32]中，提出了一种主动学习框架，它利用数据点之间的相似性作为特征空间中数据点之间的关系在[18]中，在活动识别的主动学习框架中利用了活动之间的上下文关系。在[30]中，作者提出了一种用于场景分类的分层主动学习框架。最近的一篇论文[2]提出了一个基于图的主动学习框架，通过利用上下文关系进行联合场景-对象识别。2. 信息论中的典型性在信息论中，典型集[4]是序列的集合，其出现的总概率接近于1，如图1所示。二、典型层序有两种类型，即弱典型性和强典型性。在这个问题中，我们着眼于弱典型性来设计我们的主动学习框架。让我们考虑xn表示序列x1，. . .，Xn，其从独立同分布P Xn（. ），其经验熵可以表示为，1n1Y对于较小的k，该概率达到接近1。财产4. 更可能的序列可能不是典型集合的成员。让我们考虑一个视觉问题，联合场景和对象的分类。假设我们有一个独立同分布，我们用一个随机变量O表示。这里O∈{bed（o1），sofa（o2）}，S表示bed-room.我们有一个分布 P （ O=o1|S ） = 0 。 9 ， P（O=o2|S）= 0。1.一、因此，序列（o1，o1，o1）是很有可能然而，它不是一个典型的集合，因为它的平均概率不接近P（O|S）。这个例子表明，即使3. 视觉识别任务在本节中，我们将展示如何在特征空间中使用典型性，以及如何对视觉上下文进行建模，例如，场景中物体之间的相互关系典型性与上下文关系。分类任务，如场景对象和活动对象，通常共享数据点之间的上下文关系。我们使用典型性作为一种工具来捕捉这些上下文关系。例如，在联合场景-对象分类中，典型性对出现在场景中的典型对象进行编码。我们在下面介绍如何上下文关系可以是−nlog2PXn（x ） = −nlog21Σni=1PXi（xi）用于计算典型分数。在典型性中，序列是从一个离散的序列生成的= −n i=1log2 PXi（xi）（1）P Xn（. ）的情况。我们把这个分布模型作为协-一种实例与另一种实例的出现频率组典型Pr ~ 2-nH（X）nnn5881QCNMJΣiC从训练样本获得的类i计算非典型分数0.20.150.10.0501357911 13 151719i类的测试功能序列的形成图3：该图显示了如何在对象检测的上下文中从识别模型生成序列。由检测器（对象识别模型）提供的标签用于表示序列。实例的类型，例如，给定场景类型的对象类型的共现。在场景-物体联合场景中，当多个物体出现在场景中时，我们可以找到给定场景的共现分布。类似地，对于联合活动和对象分类，我们考虑以活动类为条件的对象序列。我们假设对象检测器是独立运行的。让我们考虑两个不同的分类任务U和V。我们还假设属于任务U的实例可能与属于任务V的实例共现多次。例如，多个对象可以出现在场景或活动中，因此在这种情况下，对象识别将是U，场景或活动将是V让我们用M和N表示U和V的类数。给定V中的第i个类，U中的类的共现频率可以表示为：图4：该图显示了如何在特征空间中使用典型性。让我们看一个例子。在联合场景-对象分类中，典型性将所有出现的对象与场景联系起来。由检测器提供的对象标签用于构建序列，并且场景或活动的标签用于确定用于计算接下来要讨论的非典型分数的分布图3示出了如何将检测到的对象表示为联合场景-对象场景中的序列的示例。给定图像，检测到的Q是序列的长度，其是图像中检测到的物体的数量，并且其对于不同的图像而变化此外，相同的对象标签可以在一个序列中出现多次，如图所示。3 .第三章。给定一个未标记的实例（例如，场景对象的图像或活动对象的视频），我们获得预测的任务U和V的标签。我们使用分布Φ（u|vi）=[φi，φi，. . . ，φi]中。为了符号简单，我们1 2 MPU|V计算−logPUQ|V（u|vi）对于序列us-跳过方程右边的u和v我们计算给定V的U的概率质量函数为，φi方程1，并计算Q. H（U|V=v i）。我们测量D与P U的偏差|V作为，P U |V （uj|vi）=Mφi（六）D= −Q.H（U|V=v i）−log2 PUQ（u|（七）k=1 k我们还可以计算不确定度H（U|V =vi）从P U分布|V.请注意，对于N类V，我们有N个这样的分布。这些分布将用于计算序列的不确定性。我们使用从基线分类器获得的预测标签如上所述，属于分类任务U的实例可以出现多个。任务V中的实例重复三次。我们开发了一个序列基于U的标签，并使用分布（Eqn. 6）取决于属于任务V的实例的标签。让我们考虑任务U的Q个样本与任务V在图像或视频中共同出现。所以，我们的序列将是l1，l2，. . . 其中lp表示给定第p个样本的预测类。我们还知道由基线分类器提供的V的标签如果由V分类器预测的标签是vj，然后我们可以用分布计算典型性分数直观地，Eqn. 7发现一个序列偏离两个任务共同出现的真实分布的程度。我们称这种偏离为非典型评分。请注意，序列标签的顺序不影响非典型评分。当分数高时，样品将更有可能被选择用于手动标记。换句话说，我们专注于位于范围之外的序列样本，由|D|（由Eqn. （3）第三章。在这里，典型性是一个阈值，我们可以通过它来确定典型性的属性何时被打破。个体类特征空间中的典型性。让我们把Fi（k）看作是第k个样本的特征向量，该样本属于维数为RNf×1的类c i。Nf表示分类中使用的特征的数量（例如，CNN 特征的维数，N f= 4096）。如果我们有N i个样本属于c i类，那么我们可以计算tionP U|V （u|vj）对于由U分类器r.其特征向量的平均值为Fi=1Cik=1 Fi（k）.正如我们所看到的，标签是由分类器提供的，根据上下文关系计算分布在U和V之间，典型性是一个有用的工具，现在，我们可以通过使用softmax函数来获得分布如下所示exp（Fi）识别模型和上下文模型之间的有效连接。P.F.R.|Ci（f）|ci）=Nfm=1Lexp（Fi）（八）窗帘窗帘安装显示器（l1）椅子（l2）窗帘（l3）沙发训练有素的奥斯曼（l5）沙发T沙发地板（l）表6分类表（18）绘画（17）奥斯曼输入图像预测标签序列：l3l7l3l4l8l5l5l4树（19）草（110）猫（111）船（112）Pa学习识别模型2.521.510.501357911 13 15 1719采样序列：2，7，9，11，12，13，N5882L其中Fi表示F i的lth元素（特征值）。 P.F.R.|ci表示F ∈i的一个平均特征值在ci类中的分布，其维数为Nf.给定一个测试特征向量，我们生成一个长度Q通过替换从它采样。这可能这里，H（U|V=v i）对于所有样品是恒定的。因此，我们忽略了这一项，只关注第一项我们通过最大化可表示为q=argmax−lo g2PU′|V（uq′|（11）q′qi导致相同的特征在该序列中多次出现，quence 图图4显示了如何在特征空间中生成序列。设测试特征向量Ft（∈RNf×1），Q为序列的长度. 序列的元素可以取1到Nf之间的值。我们假设埃尔-特征向量的元素彼此独立。我们从CNN的最后一层提取特征，其中层的单元之间没有内部连接。由于我们知道序列和分布，我们可以计算−logPF<$P（f<$P|ci）对于使用Eqn. 1.一、现在，可以将d ∈Df表示为，Df=−Q。H（F）|Ci）−lo g2P<$P（f<$P|ci）（9）因此，如果与属于任务V的相应样本同现的概率非常低，则将选择属于分类任务U让我们以场景对象分类为例直觉上，即使检测器确定了对象样本，它也可能由于上下文的不规则性而被选择检测器可能是正确的，这意味着上下文模型对于特定场景没有遇到太多检测到的对象。但是，该样本对于更新上下文模型或识别模型至关重要。制定总体目标函数。让我们定义不Fa向量Tf=[Df1Df2. . . ]的一种，其中包含这里，H由PFl计算|ci（. ），如Eqn 中所示。 8.非典型分数（或dec）Df将用于推导优化函数以选择最具信息量的样本。在主动学习中发挥作用。直观地说，我们测量测试样本的特征与从训练样本中学习到的平均特征值的偏差4. 主动学习框架我们使用从等式获得的非典型分数图9和图7中所示的方法来公式化目标函数以选择需要标记的样本。我们首先解释如何使用上下文关系，然后结合特征描述符。在样本选择中利用上下文关系。我们正在寻找导致序列偏离典型集合的序列的符号。为了做到这一点，我们引入了一个表示非典型分数的符号Dq′，而不考虑序列的索引为q′的样本。 Dq′（使用方程7）可以写成，Dq′ =−1o g2PUQ−1|V（uQ−1|vi）−（Q−1）H（U|V=vi）QQ=−lo g2PUm|V（μm|vi）−（Q−1）H（U|V=vi）m=1m/=q′这里，U m是序列的第m个符号。现在，我们将Dq′与D（来自Eqn. 7）寻找最有意义的样本。这两个项之间的差将被表示为ΔDq′，其测量由于符号q′而发生了多少误差。它可以写成Dq′ =D−Dq′QQ=−lo g2PUm|V（μm|vi）−Q. H（U|V=vi）m=1使用Eqn.9 .第九条。Dfj表示第j个样本的非典型评分。类似地，对于连续信息，我们考虑向量Tj（∈R（Q+1）×1）（例如，Q是场景对象中检测到的对象的数量，或者活动对象分类）。请注意，在Eqn。11，没有任务V的信息，因为序列仅包括U的样本。所以，我们考虑D（如等式中所示）。7）在客观功能方面-因为它为任务V提供全局信息（例如，用于场景对象识别的场景和用于活动对象识别的承认）。Tj可以写成如下，Tj=[D，−lo g2PU|V（u1|vi），−lo g2PU|V（u2|vi），. . . 、-10 g2PU|V（uQ|（vi）]T（十二）T=[T 1T 2 . . . [中文（简体）可以注意到，向量Tj的元素也应该具有索引j，因为向量对于不同的样本（图像或视频）是不同的，但是为了简单起见，我们已经从其元素中删除了索引j我们还考虑了当前基线分类器对未标记样本的不确定性，从而选择了有信息的样本。我们将样本熵的向量定义为，h= [h1H2. . . ]T，其中hj=E[−log2pk]，pk是p.m.f.当前基线类别的预测sifier在第k未标记的实例上。我们的目标是选择一个子集的样本是基于两个标准，即非典型评分和熵的每个样本的信息。我们可以将优化函数写成向量形式如下：y*=arg maxyT（h+λ1Tf+λ2T −β1）QQ+m=1lo g2PUm|V（μm|vi）+（Q−1）H（U|V=vi）yS.T.y ∈ {0，1}N，（1 − y）Th≤ n（14）m/=q′这里，λ1，λ2和β是加权因子。附加5883Q=−lo g2PU′|V（uq′|vi）−H（U|V=vi）（10）在目标iv e函数中被β加权的项y T 1试图5884L最小化所选样本的总数。让我们记下 f= −（h+λ1Tf+λ2T−β1）。最大化方程中的目标函数。14与yTf的最小化相同，这现在是凸优化问题。它是一个二元线性整数规划问题，[5]《易经》。在从等式1获得一组样本y之后，14，我们可以要求一个人来标记这些样本。分类器更新。在本文中，我们使用softmax分类器来预测标签。如果对于第k样本，特征向量是Fk，则对于第j个类的预测概率可以是eFTwjCAD-120[24]用于评价联合活动-物体分类的结果。我们还在场景15上展示了我们的结果[26]和VOC2010 [11]数据集用于场景分类和对象识别结果。场景-15和V0 C2010数据集仅提供一个分类任务的地面实况，因此我们不考虑任何上下文关系（λ2=0，在等式11中）。（14）在实验中。基线方法：在实验中，我们使用以下基线方法。典型性1：拟议的框架、确认准确性、从基线分类器获得RACY写为，P（l=j| Fk）=K FTwk . 在这里，K是典型性2：准确性为k=1ek类的数量，wj表示对应的权重到J类。我们优化交叉熵损失函数来估计参数，如[6]所示。在当前批次中，我们使用新标记的数据样本更新参数。PMF典型性更新。共现统计Φ（u|vi）基于所述新获取的标签被更新，任务U和V。更新后的统计数据可以写为，Φ′（u|vi）←Φ（u|vi）+Φ（u|vi），其中Φi（. ）表示新标记样本的统计量，Φ′是更新的统计量。类似地，我们还更新了方程中使用的F i。8、新的数据。5. 实验我们执行图像和视频分类任务，以评估我们提出的样本选择框架。我们还展示了我们的联合分类任务，如场景对象和活动对象分类，利用样本之间的上下文关系的结果。实验设置。我们考虑在线设置，其中样本（例如，图像或视频）成批地连续到来。从训练集生成批次，并在测试集上评估结果。我们使用第一批样本来构建初始模型以及上下文模型。我们还结合了增量学习来更新模型，因为新的类可以在新的批次中出现。我们总是使用当前批次的数据来更新以前的识别模型。评价标准。我们通过使用SVM分类器对场景和活动进行分类来获得识别准确率。对于目标检测，我们通过与地面真实值进行比较来计算平均精度。我们考虑检测到的框和地面实况边界框之间的交集比（IoU）来定位对象。大于等于50%的IoU比率被认为是正确检测。数据集。在联合场景-对象分类中，我们使用MSRC[33]和MIT-67 Indoor [38]数据集来评估所提出的框架。这些数据集是合适的，因为它们提供了场景和对象之间的上下文信息的丰富来源。对于MSRC [33]数据集，我们使用所有的类来计算识别精度，并使用[47]提供的对于MIT-67室内[38]数据集，我们使用67个场景类别和50个对象类别。我们使用通过利用上下文关系从图的边缘（后验）概率获得图的先验概率由基线分类器提供。场景-对象主动学习（SOAL）[2]。Bv2B：最佳与第二佳主动学习策略[28]。[17]中提出的增量学习方法。Full-set2：考虑带有图的整个训练集完整集合1：整个训练用于从基线分类器获得准确度。CMBM-All：考虑当前批次中的所有样品特征提取。在场景分类和对象识别中，我们分别考虑来自图像和区域建议的CNN特征[15]。对于CNN功能，N f在第二节中讨论。3是4096。对于活动识别，我们考虑[24]中提供的特征，维数为Nf= 630。我们把这些特征称为实验分析：我们进行了以下一组实验- 1。与其他主动学习方法的比较，2。与其他识别方法的比较; 3.参数的敏感性分析与其他主动学习方法的比较我们将我们的主动学习（AL）框架与其他最先进的方法和基线方法进行了比较，如图2所示。5（a，d，g，j）和6（a，d，g，j）。图中呈现的直线意味着整个训练集的识别准确度。一些现有的AL方法是SOAL [2]，Bv2B [28]，随机样本选择，熵[9]和IL [17]。我们观察识别精度作为所提出的方法选择的样本数的函数。然后，我们固定每个批次的样本数量，并获得其他AL方法的精度。在这里，不同的方法选择不同的样本集，从中训练识别模型。所有方法的特征和基线分类器保持相同，以进行公平比较。从图5（a，d，g，j）和6（a，d，g，j），我们可以看到，所提出的框架在选择所有分类任务-场景，对象和活动分类中最具信息量的样本方面大大优于其他方法。与其他分类方法的比较。我们将我们的框架与其他最先进的识别方法进行比较。我们实现了其中的一些方法- CNN [50]，GIST，DSIFT [31]，R-CNN [15]，GIST [13]用于场景和对象分类。在现场分类-K588585=1.2，1 2=0.7，801 2=1.0，1 2=1.0，1 2=1.0，1 24540=1.2，1 235=0.7，1 2=1.0，1 230=1.0，1 2=1.0，1 225分类精度90908070整体CNN602典型性全部−BM50DSIFT0.20.250.30.350.4零点四五0.5零点五五典型性10.2 0.40.62019 - 05- 250.350.4 0.45手动贴标手动贴标百分比手动贴标(a) MSRC（b）MSRC（c）MSRC8580随机SOAL小行星75IL熵270650.2 0.3 0.40.5典型性典型性1全套2全套10.60.2 0.40.60.8 1600.20.250.30.350.40.450.50.55手动贴标手动贴标百分比手动贴标(d)（e）MIT-67（f）MIT-6745454040 35随机Bv2B3035IL熵2530典型性120全套115251050kopp 13act−featTypicality1All−BMMEMM0.20.250.30.350.40.450.50.55 0.6手动贴标0.2 0.4 0.6手动贴标百分比0.20.250.30.350.40.450.5零点五五手动贴标(g)CAD-120（h）CAD-120（i）CAD-12094929088868482800.130.140.150.160.17零点一八手动贴标随机Bv2BIL熵典型性1全套10.190.295908580GISTCNN典型性1全−BMdSIFT7570650.2 0.4 0.6手动贴标百分比94929088861.211.08410.71822019 - 04- 24 0.14 0.16 0.18 0.2 0.22 0.24手动贴标(j)场景-15（k）场景-15（l）场景-15图5：该图显示了四个数据集的场景和活动分类性能-MSRC [33]，MIT-67 [38]，CAD 120-活动[24][ 26 ][27][28][29][2图（a、d、g、j）呈现了与其他最先进的主动学习方法的比较。图（b、e、h、k）展示了与其他识别方法的比较图（c，f，i，l）展示了我们框架的敏感性分析此外，我们还比较了Holistic [47]，MLRep [8]，S2ICA[19]和MOP-CNN [16]方法。同样，我们也考虑了整体[47]方法的对象检测性能。对于活动识别，我们比较MEMM [42]，Kopp 13 [24]方法。识别性能如图所示。图5（b，e，h，k）用于场景和活动分类，并且对象检测性能在图5中示出。6（b、e、h、k）。我们还包括BM-ALL方法的图，以说明所提出的方法在选择信息量最大的样本时的影响BM-ALL表示当前批次中的所有样本，因此对于n个批次，我们有n个准确度值。可见，信息样本的选择在认知模型的适应性中起着重要的作用在图6（h，k）中，使用少量样本，我们的方法证明了与BM-ALL方法相似的性能。图图5（b，e，h，k）和图6（b，e，h，k）表明，当与其他框架相比时，所提出的框架在具有较少信息样本的情况识别模型参数的敏感性分析。在我们的主动学习框架中，即使我们在方程中使用参数λ1，λ2，β和λ 2，14，我们显示了我们的结果与不同的λ1和λ2，因为这些参数与典型性。我们看到Tf和T的效应，如等式1所示。14在选择最翔实的样本。为了实现这个目标，我们选择λ1和λ2的值为0。七，一。0，1。二、对于Scene-15和VOC 2010数据集，λ 2 = 0，这意味着没有con-使用文本关系图图5（c，f，i，l）和图6（c，f，i，l）示出了由于参数的变化而引起的性能变化。从数字中我们可以看出，当我们有更多的权重来强调典型性时，性能会有所提高。计算复杂性。我们分析了在MSRC [33]和MIT-67[38]数据集。我们计算查询样本的时间，以及为数据集训练场景和对象模型的时间。我们可以看到，训练场景和对象的总时间9085随机SOALBv2BIL熵280典型性75典型性1全套2全套18070605040MLRepCNN典型性2所有−BMS2ICA典型性1MOP−CN807570=1.2，1 2=0.7，1 2=1.0，651 2=1.0，1 2=1.0，1 2分类精度分类精度分类精度分类精度分类精度分类精度分类精度分类精度分类精度分类精度分类精度58868075706560R−CNN典型性1BM-全部7570=1.2，1 2=0.7，1 265=1.0，1 2=1.0，1 2=1.0，601 2平均平均精度平均平均精度7880706050整体40R−CNN20.20.250.30.350.40.45 0.50.550.6典型性30BM-全部DPM20典型性10.2 0.4 0.60.20.250.30.350.40.450.5零点五五手动贴标手动贴标百分比手动贴标(a) MSRC（b）MSRC（c）MSRC50454035300.2 0.3 0.4 0.50.60.725201510 0.2 0.40.6R−CNN典型性2BM−所有典型性10.8 10.20.250.30.350.4零点四五0.50.550.6手动贴标手动贴标百分比手动贴标(d)（e）MIT-67（f）MIT-678080757065600.2 0.25 0.3 0.35手动贴标随机Bv2BIL熵典型性1全套10.4550.20.4 0.6 0.8 1手动贴标百分比0.2 0.25 0.3 0.35手动贴标百分比0.4(g)CAD-120（h）CAD-120（i）CAD-120808075757070随机6565Bv2BIL 6060熵典型性15555全套150807570R−CNN典型性165BM-全部dpm6055500.1 0.12 0.14 0.16 0.18 0.2 0.22手动贴标450.2 0.4 0.6 0.8 1手动贴标百分比500.10.120.14零点一六0.180.20.22零点二四手动贴标(j)VOC 2010（k）VOC 2010（l）VOC 2010图6：在此图中，我们显示了MSRC [33]，MIT-67 [38]，CAD 120-activity [24]和Scene-15上的对象检测性能[26] (top向下）。图（a、d、g、j）呈现了其他最先进的主动学习方法的比较。图（b、e、h、k）展示了与不同识别技术的比较。图（c、f、i、l）显示了拟议框架的敏感性分析。6. 结论表1：MSRC [33]，MIT-67 [38]数据集的时序分析。这里，SM-场景模型，OM-对象模型，QT-查询时间，SS-所选样本所有样品的型号是704。58s（47. 58 + 657）的MSRC[33]和2160。01s（384. 九十一加一千七百五十五。1）对于MIT-67[38]第30段。另一方面，用我们的方法选择的样本进行查询和训练的总时间是421。84s（19. 72 + 42十七加三百五十九。95）和1364。59s（63. 09 + 113。52+1187九、[33]和MIT-67 [38]。我们可以得出结论，所提出的AL方法将有助于节省大量的计算时间，特别是在大数据集。85807570随机SOALBv2BIL熵典型性2典型性1全集2全集165767472=1.2，1 270=0.7，1 2=1.0，681 2=1.0，1 266=1.0，1 2504540353025随机SOALBv2BIL熵典型性2典型性1全集2全集120403530=1.2，1 2=0.7，251 2=1.0，1 2=1.0，201 2=1.0，1 21.211.010.71平均平均精度平均平均精度平均平均精度平均平均精度平均平均精度平均平均精度平均平均精度平均平均精度平均平均精度平均平均精度数据集Qt列车SM列车OM（s）与SS所有与SS所有MSRC19号。72四十二17四十七58三五九95六五七025887在本文中，我们提出了一种新的子集选择框架自适应学习的识别模型。我们引入了典型性的概念，它可以作为一个重要的工具，学习信息样本从一个巨大的池未标记的样本。我们有效地利用典型性识别和上下文模型之间的我们还可以在特征空间中应用典型性来学习一个好的识别模型。我们的方法大大减少了人类标记样本的工作量我们还表明，只有一个小的子集的完整的训练集，我们实现了更好的或类似的性能相比，使用完整的训练集。谢谢。这项工作的部分资金来自国家机器人计划的NSF资助IIS-1316934。5888引用[1] M. Alberti，J. Folkesson，and P. Jensfelt室内环境中联合目标分类和场景相似性测量的关系方法。AAAI 2014春季研讨会：机器人的定性表示，2014年。2[2] J. H. 巴比，S。Paul和A.罗伊·乔杜里联合场景和对象分类的在线自适应在ECCV，2016年。一、三、六[3] W.崔，K. Shahid和S. Savarese集体活动识别的学习情境。在CVPR，第3273-3280页2[4] T. M. Cover和J.A. 托马斯信息原理。John Wiley Sons，2012. 3[5] I. I. CPLEX。V12 1：cplex的用户手册。InternationalBusiness Machines Corporation，46（53）：157，2009.6[6] P. - T. De Boer，D.P. Kroese，S.Mannor和R.Y. 鲁宾斯坦关于交叉熵方法的教程运筹学年鉴，2005年。6[7] J. Deng，O. 鲁萨科夫斯基克劳斯，M. S. 伯恩斯坦A. Berg和L.飞飞可扩展的多标签注释。在SIGCHI计算机系统人为因素会议论文集，第3099-3102页。ACM，2014年。3[8] C.多尔施A. Gupta和A. A.埃夫罗斯中级视觉元素发现作为判别模式搜索。在NIPS，2013年。7[9] G.德鲁克湾Settles和A.麦卡勒姆通过标记特征进行主动学习。载于EMNLP，2009年。6[10] E. Elhamifar湾Sapiro，A. Yang和S.萨斯蒂主动学习的凸优化框架。InICCV，2013. 3[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，2010年。6[12] A. Fathi，M. F. Balcan，X. Ren和J. M.瑞格结合自训练和主动学习进行视频分割。在BMVC，第29卷，第78-1页，2011中。3[13] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。PAMI，32（9）：1627-1645，2010. 6[14] R.娘娘腔。快速R-CNN。在ICCV，2015年。2[15] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。二、六[16] Y.贡湖，澳-地王河，巴西-地Guo和S. Lazebnik深度卷积激活特征的多尺度无序池化。在ECC

下载后可阅读完整内容，剩余1页未读，立即下载