联合代表选择和特征学习：半监督方法

195 浏览量更新于2023-10-18 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6005联合代表选择和特征学习：半监督方法王素晨1孟晶晶2袁俊松2谭亚鹏11南洋理工大学2纽约州立大学布法罗分校{wang.sc，eyptan}@ ntu.edu.sg，{jmeng2，jsyuan}@ buffalo.edu摘要在本文中，我们提出了一种半监督的方法来选择代表，它发现了一个小的代表集，可以很好地总结了一个大的数据集。给定标记的源数据和大的未标记的目标数据，我们的目标是在目标数据中找到代表，它不仅可以表示和关联属于每个标记类别的数据点，而且还可以发现目标数据中的新类别为了利用标记源数据，我们引导从标记源到未标记目标的代表性选择。我们提出了一个联合优化框架，它交替优化（1）目标数据中的代表性选择和（2）从源和目标中进行区分特征学习，在图像和视频数据集上的实验表明，该方法不仅能找到更好的代表性，而且能在目标数据中发现源数据中没有的新类别。1. 介绍代表性选择的目的是找到一个小的数据点子集，可以很好地代表一个大数据集合。近年来，由于对海量视觉数据分析的需求不断增加，以及计算机和存储资源的有限性，它引起了人们极大的兴趣。虽然在文献[12，38，20，9，13，29，28，7]中已经很好地研究了代表性选择的问题，但是大多数以前的作品都采用无监督的方法。也就是说，在没有监督的情况下从给定的目标数据中找到一组项。然而，在许多应用中，我们不仅对寻找代表性项目感兴趣（即，哪些数据点是范例），而且还对知道它们是什么感兴趣（即，识别其类别）。换句话说，尽管我们可以找到代表并基于相似性将剩余的数据样本与它们相关联，但除非提供标签，否则我们不知道每个代表的确切类别。图1.框架概述。我们利用标记的源数据从未标记的目标数据中找到代表。一旦发现了代表物，标签就可以自然地从源转移然后，我们更新特征以更好地选择代表性。这两个步骤将交替进行，直到终止。最近，Elhamifaret al. [8，7]引入已知项的附加源集合，并建议选择源项来表示目标。这样，通过传递源代表的类别标签，可以容易地识别目标项。不幸的是，该方案在封闭世界假设中运行，即，源集合知道可能出现在目标中的然而，在许多现实世界的应用中，情况可能在本文中，我们采取了半监督的方法，同样引入了一个源集，但利用它来找到代表性的项目从目标集，而不是源集。更重要的是，我们不假设源集合已经覆盖了目标数据中的所有类别。我们制定的代表性选择的设施选址问题。我们将标记的源数据合并到目标函数中，以便它们可以指导新目标数据的选择。最后，源和目标之间的连接可以通过选定的代表形成，这样我们就可以将标签从源转移到目标。如图1（c）所示，我们可以将“猫”、“狗”和“马”的标签转移由于特征表示在表示选择中起着关键作用，因此我们设计了一个联合优化框架，该框架在两个步骤之间交替：（1）代表性的;6006我我IJIJIJ我J选择和（2）鉴别特征学习。在找到代表之后，我们利用源数据和目标数据来基于它们与代表的关联来更新特征。随后，我们重新选择代表并进一步更新功能。此过程将继续，直到满足终止条件。整个过程如图1所示。拟议的工作有以下好处：• 它利用标记的源数据为目标找到更好的代表性。• 所提出的公式可以在目标数据中发现新的类别。• 联合代表选择和特征学习可以迭代地提高性能。在两个图像和两个视频数据集上与最先进的技术进行了广泛的比较，验证了上述优点。2. 相关工作在文献中，代表性选择或子集选择问题在许多特定应用中已经得到了很好的研究，例如找到数据的子集，方案源集合发现小说类标签传递无监督✗✓✗半监督[8，7]✓✗✓我们✓✓✓表1.三种代表性选择方案的比较用字典选择来抑制离群值。对于设施位置[9，16，6]，基于给定的成对相似性或不相似性，选择具有最小编码成本（服务成本）的数据点其目标与聚类算法密切相关[12，29，11]，也可用于代表性选择。虽然有各种标准提出的子集选择，他们中的大多数遵循的属性submodularity [35]，一般来说，优化是NP难的。为了解决这个问题，在文献中已经研究了许多有效的解决方案。一种可行的方法是将非凸目标函数松弛为凸，并通过凸优化获得解[8]。另一个方向是常数因子近似，例如贪婪搜索算法[33，5，24，3]。3. 方法3.1. 问题陈述设T ={xt，xt，. . .，Xt}是n个单元的目标集合。1 2N降低了计算和存储成本的要求beled项和S={（xs，ys）}m是m的源集合i i i=1[9，10，8]，突出显示视频中的重要镜头或事件[25，13，6，32，27，39，40，14]，并总结大量图像[34，37，35]。根据需要保存的信息，代表性的概念在不同的任务中会有所不同。例如，当选择训练数据的子集以减少训练数据的计算时，标记项，其中每个项xs具有对应的类别ys∈ Ys。我们的目标是找到一个小的子集Z T来很好地表示目标项目的集合，每个代表要么代表S中的一个已知类别，要么代表T中的一个新类别。设{ztt}为一组指示符，其中ztt∈ {0，1}表示xt和伊日在这个过程中，数据点的统计特性应该是xt，如果xt由xt表示，则为1，否则为0。j i j保存[10，9]。对于图像或视频总结的任务，考虑代表的多样性和覆盖范围[14，13，37，26]。代表性的选择方法可能具有不同的目标函数。在文献中有几个流行的方向，如最大跨度体积[22，21，39]，稀疏编码[10，25]和设施位置[8]。为了选择最大体积的子集，一种常见的方法是应用决定点过程（DPP）[22]。最近，已经提出了用于各种应用的DPP的许多变体。例如，提出k-DPP [21]来处理代表的固定数量，Affandi等人。[1]将DPPs与马尔可夫随机场结合起来对时间动态进行建模，Gong等. [13]提出了一种可学习的方案，用于DPPs从视频序列中选择关键项。对于稀疏编码[10，25，40，6]，底层数据结构通常被假设为线性或子线性。我们还旨在找到{ztt}，使得每个目标项可以由同一类别的代表表示在这项工作中，我们不假设源集合已经覆盖了所有可能的类别，并希望在目标集合中如果T的范畴空间是Yt，我们允许。比较我们的建议问题和以前的问题总结在表1中。3.2. 初步代表性选择可表述为设施选址问题[8]。目标是选择已知的源项来表示目标，即，Z是。然而，在这方面，看不见的类别的项目可能出现在T中。在这种情况下，没有一个源项可以很好地代表它们。为了解决这一限制，我们重新制定了它，通过颠倒源和目标数据在设施和客户端方面的角色，从T而不是S空间. Elhamifar等人[10]建议采用代表制，让dst∈R是由服务的源项xs的成本语义选择是一个稀疏字典选择问题。Meng等人[25]第25话地方先行目标项目x测试。我们将服务成本量化为特征空间中项目之间的距离。设Fθ（x）为特征6007IJIJIJIJKJJIJKJKJJIJIJijijz d+ij ij其中θ表示表示的所有参数。我们可以计算服务成本dst为因此，该问题可以备选地表述为：IJmin乌姆登Σnzstd st+Σnzttd ttdst=<$Fθ（xs）−Fθ（xt）<$2（1）{zst}，{ztt}ij ijij iji j i jijijΣni=1j =1Σni=1j =1（六）设zst∈ {0，1}是关联ST TTIJs t t sS.T.zij= 1，i;zij= 1，i;Lopen=K在源项xi和目标项xj之间，其中zij= 1，如果xij=1j=1表示为xt，否则zst= 0。该设施伊季位置公式[8]可以重写为3.3. 联合代表选择和特征学习乌姆登minΣnzstd st+λI（zstp）3.3.1代表性选择{zst}ij iji=1j =1 n·jj=1（二）首先，我们将代表选择重新表述为问题（六）、虽然我们的主要目标是找到{ztt}，但操作-受Σj=1zst= 1，IJ{zst}的最小化实际上有益于目标数据的代表性选择。一方面，源项可以提供关于已知类别的先验知识上其中zst=[zst，. . . ，zst]T，其中I（·）为lp-范数，I（·）为另一方面，标签可以从源传输到·j1j mj指标函数，λ平衡了服务成本（第一项）和开放成本（第二项）的影响。约束确保每个源项可以与一个代表相关联值得注意的是，Z可以被直接去-从非零z_st，即， Z ={xt∈ T |zst/= 0}。基于{zst}的目标。然而，问题（6）没有充分利用给定的源标签。在这里，我们将源标签到目标函数中。正如我们将在实验中展示的那样，标签信息可以进一步提高选择。假设源集合S由C类组成，·j·j·j为了更好地描述目标集，Z应该涵盖所有的细节。首先，我们根据它们的类别将S划分为C组T. 然而，问题（2）仍然限于戈尔，即，S={Ck}c，其中Ck={xs∈ S |ys= k}。k=1i i现有类别，因为它的作用是找到要表示的目标项-然后我们找到一个目标项来表示整个源怨恨S.因此，我们将目标项添加到客户端列表中，组让dct是由xt服务的群Ck的成本。我们也可以提供目标物品。设dt为目标物品xt由xt服务。我们将dtt量化为可以通过以下方式计算DCTi j ijdct= Σdst= Σ <$Fθ（xs）− Fθ（xt）<$2（7）dtt=<$F（xt）− F（xt）<$（三）kj ij i jijθiθj2i∈Cki∈Ck然后我们可以将问题重写为让zct∈ {0，1}是Ck和xt之间的关联，其中zct= 1，如果群Ck由xt表示且zct= 0乌姆登Σn Σnkj kjmin{zst}，{ztt}i=1j =1st stij iji=1j =1zttdtt+λL 开放否则，请执行以下操作。请注意，不同的源组处于不同的不同的类别。基本上，没有一个目标项可以代表两个源类别。为了避免这种情况，我们添加了一个约束ΣnΣn（四）电子计算机断层扫描受zst= 1，mi;j=1j=1ztt= 1，ik=1zkj≤1，使得每个代表只能代表-最多只能重新发送一个源组。值得注意的是，该约束在特征学习过程中起着至关重要的作用这里的开幕费是L打开= Σnj=1I（I）圣尼古拉斯·jztt·j（5）（见第3.3.2节）。如果两个源组被允许由一个代表，特征学习将把它们作为一个类别，然后混合起来。那么我们可以把问题改写为minΣc ΣnΣn ΣnZCTD CT+zttdtt其中z·j =[z1 j，. . . ，znj]。该组代表可以{zct}，{ztt}kj kjij ij可导出为Z ={xt∈ T |[zst，ztt]T/= 0}。国际新闻报k=1j =1i=1j =16008IJKJKJj·j·jΣnΣn注意，期初损失实际上是所选择的子集，即，L打开=| Z|.在许多应用中，可以给出期望的代表数K受zct= 1，k;j=1j=1Σcztt= 1，mi;（八）提前那么代表性选择将在预算范围内使服务成本最小化。k=1zct≤1，nj;Lopen=K，6009KJIJKJIJiΣ国际新闻报伊伊季国际新闻报我我我min乌姆登（zctdct+φct[k−dct]+）{zct}，{ztt}kj kj kj kj国际新闻报k=1j =1Σn Σn+（zttdtt+φtt[−dtt]+）（一）(b)（c）（d）i=1j =1ij ij ij ij ij（十一）图2.歧视性术语的说明。(a)中心点。(b)歧视性术语。(c)区别点。(d)更新功能。代表由红圈突出显示。与（a）中的代表相同，（c）中的代表是受Σnj=1Σczct= 1，k; Σnj=1ztt= 1，mi;更有可能区分两个类别，并且代表的邻居更有可能属于同一类别。k=1zct≤1，j;Lopen=K，开幕费用是L打开= Σnj=1I（I）ZHCT·jztt·j（9）基本上，当聚类被混合时，区别性术语惩罚中心点并促进区别性点。但是如果聚类被很好地分离，则判别项将为零。那么问题（11）将退化为问题（8）。其中zct=[zct，. . . ，zct]T.3.3.2判别特征学习·j1j cj一般来说，设施选址公式倾向于选择在集群中的中心项目。然而，当两个类别的项目混合时，聚类中心不是最佳选择。与中心点相比，选择判别点作为代表有两个优点（如图2（a）和2（c）所示）。首先，区别点更有可能区分两个类别。第二，区分点的邻居更可能属于同一类别。正如我们将在3.3.2节中展示的那样，邻居与代表在同一类别中是至关重要的，因为我们将使用它们来更新特征表示。为了在聚类分离不好的情况下提高判别点为了直观地理解，我们在图2（b）中说明了它是如何工作的。具体地，设φtt∈ {0，1}是a二进制指示符，其中φtt= 1，如果xt是第二个近-表示xt，否则φtt= 0对于目标项xt，到其第二最近代表的距离可以在前面的部分中，我们固定θ以优化代表选择。在这里，我们将基于built关联{zct}和{zt t}来优化特征表示F θ（·）。大多数以前的代表性选择方法适用两阶段战略，即，首先提取数据点的特征，然后找到代表点。在提取特征之前，标记的源数据可以用于微调θ以获得更好的表示。然而，这种两阶段策略不是最优的，因为特征学习过程独立于可能由新类别组成的目标数据。考虑到目标数据，我们设计了一个框架，可以交替地找到代表和优化表示。通过这样做，我们可以利用目标项目来更新表示，包括新类别的项目我们通过最小化三重损失[31]。具体来说，我们减小了类内距离，增大了类间距离（见图表示为φttdtt.我们预计这个距离可以是ttJij ij2（d）），以便在下一次选择中可以找到更好的{zij}。大于一个边缘。否则，将有处罚。同样地，令φct∈ {0，1}指示如果xt是第二近-假设{（xa，xp，xn）}是一组训练三元组。我们上-kj j最小化日期θ代表CK。我们设计的判别词对于目标数据和源数据，可以写为ΣΣ Σ+<$Fθ（xa）− Fθ（xp）<$2− <$F θ（xa）− Fθ（xn）<$2ΣnΣn[−Σn Σnφttd tt]+=φtt[−dtt]+我我我我I+（十二）i=1j=1ij ijij iji=1j =1关键的一步是如何构造训练三元组。具体-乌姆登[k−Σcφctd ct]+=Σn φct[k−dct]+（十）通常，训练集由三部分组成。第一部分是基于S的，使用它们的标签。我们用同样的技术-k=1j=1kj kjkj kjk=1j =1[31 ]第31话创造奇迹第二部分是基于{zct}和{φct}构造的kj kj其中，k=|Ck|[·]+是铰链函数。然后我们的F或每个源项，我们将其视为锚xa，pi具有判别项的最终公式变为其指定代表为正xi。因为Xt我∆jφttd ttij ij6010我我KJJIJ算法1：局部搜索解决问题（11）输入：S，T，K输出：Z，{ztt}，{zct}算法二：联合优化输入：S，T，K，τ输出：Z，{ztt}，{zct}国际新闻社1通过任意解初始化Z，|Z|= K;2个重复1次重复2利用算法1求Z，{ztt}，{zct}国际新闻通讯社3，对于xt∈Zdo3.基于S，{zct}，{ztt}创建训练三元组;我TT CT国际新闻报4求cost（Z），{zij}，{zkj};5，对于xt∈ T \ Zdo6Zj=Z\{xt}<${xt};4通过最小化损失来更新θ（12）5直到#硬三重态<τ或达到最大历元;I j7求成本（Zj）;8j=arg maxjcost（Z）-cost（Zj）;9如果cost（Zj）cost（Z），则10Z ← Zj;11直到收敛;第二个最好的代表是来自不同的群体，我们把它看作是负的xn。在这一部分中，锚是源项，而积极和消极都是目标项。第三部分是基于{ztt}和{φtt}构造的。loss大于0，是终止我们联合优化的直接线索。我们把这些三胞胎叫做硬三胞胎。当硬三元组很少时，进一步的特征学习不会带来更好的性能，而是会导致振荡（如图6（b）所示）。我们将τ表示为控制终止的硬样本的最小数量。如果硬三元组的数量小于τ或达到最大训练时期，我们将终止联合优化整个框架可以总结在算法2中。4. 实验ij ij标记物、阳性和阴性均为未标记靶项目.为了获得可靠的训练三元组，我们只使用代表附近的目标项，因为它们更有可能属于与代表相同的类别。应当注意，判别项是必要的，因为它可以为特征学习提供更可靠的三元组。在这一部分中，我们将目标项视为锚xa，在本节中，我们评估了我们提出的方法在代表选择任务上的性能。我们首先进行消融研究，以彻底调查每个拟议的组成部分。对于特定的应用，我们专注于从视频序列中发现关键动作。基线：我们将我们提出的方法与piK-中心点聚类（KM）[16]，固定大小的决定，代表为正xi，第二个最近的代表为正x i，作为负的xn。4.1.1优化在这里，我们提出了解决问题（11）和整个联合优化的算法一般来说，优化问题（11）是NP难的[5]。为了有效地解决它，我们采用了局部搜索算法[17，3]，这与聚类中的PAM算法[16]类似。令cost（·）表示问题（11）中的服务成本该算法从一个任意的可行子集与K个项目。给定初始子集Z，我们需要找到最优的{zct}和{ztt}，使得服务成本南点过程（kDPP）[21]和两种基于子空间的方法，稀疏建模代表选择（SMRS）[10]和局部线性重建诱导稀疏字典选择（LLR-SDS）[25]。我们还比较了初步问题（6）（DS3A），该问题基于基于相异性的稀疏子集选择[8]进行了修改。对于这些基线，我们遵循两阶段策略。也就是说，我们首先使用标记的源数据来学习具有交叉熵损失（CE）和三重损失(T)分别在学习过程之后，我们应用这些方法来寻找代表。评估指标：为了评估性能，我们考虑两个因素：（1）目标中有多少类别国际新闻报是最小的。 {zct}的优化等价于二分图中的最小权匹配问题，这可以通过匈牙利算法来解决[19]。 {ztt}的优化可以通过找到最近的代表来解决。然后，对于每个当前代表，我们找到一个新的候选人来代替它，使得服务的减少成本最大。如果没有候选人可以降低成本，算法将被终止。我们在算法1中总结了局部搜索算法。该算法保证收敛，因为服务成本是单调减少。在特征学习步骤中，确定其（2）数据点是否由属于同一类别的代表准确表示。相应地，我们计算Z中类别的重调用以及代表与目标项目之间的关联的准确性如果有NC输出的n个目标项正确地关联到其类别，则准确度由nc/n计算。4.2. 消融研究在这里，我们进行了一些概念验证实验。实验在两个图像数据集MNIST[23]和SCENE15[30]上进行。60111.051.000.950.900.850.80问题（十一）问题（八）第1006章问题（六）4 5 6 7 8源类别0.800.750.700.65问题（十一）问题（八）第1006章问题（六）4 5 6 7 8源类别1.0000.9750.9500.9250.9000.8750.850迭代双级（CE）双级（T）4 5 6 7 8源类别0.900.850.800.750.700.65迭代双级（CE）双级（T）4 5 6 7 8源类别4.2.1MNIST，召回4.2.2MNIST，准确度(a) MNIST，召回(b) MNIST，准确度1.000.950.900.850.800.750.700.65问题（十一）问题（八）第1006章问题（六）67891011121314源类别0.5500.5250.5000.4750.4500.4250.400问题（十一）问题（八）第1006章问题（六）67891011121314源类别1.000.950.900.850.800.750.70迭代双级（CE）双级（T）67891011121314源类别0.700.650.600.550.500.450.40迭代双级（CE）双级（T）678910111213 14源类别(c) 第十五幕，回忆(d) 场景15，准确度(c) 第十五幕，回忆(d) 场景15，准确度图3.实验结果表明，我们的重新制定的选择与不同数量的源类别。第1006章问题（六）问题（八）问题（十一）源标签✗✓✓判别项✗✗✓表2.比较三个提出的问题。为了进行公平的比较，我们运行了25个不同的实验，并报告了平均结果。在每次运行时，我们通过随机抽样构建源和目标集。具体地说，我们用2,000个随机选择的数据点构建目标集，所有类别都包含在其中（即，MNIST为10，SCENE15为15）。对于源集，我们随机选择每个类别的100个数据样本，MNIST的{4，5，6，7，8}内的类别数c′#21515;，10，12，14，15，16，17，18，19在这里，我们主要研究与源类别有关的性能对于MNIST，代表的数目被简单地设置为10，而对于SCENE15，代表的数目被简单地我们从MNIST的散射卷积网络 [4] 和 Scene 的 Resnet18 [15] （在ImageNet上预先训练）我们在顶部堆叠两个完全连接的层和一个202归一化层，以学习新的特征表示。我们冻结所有以前的图层，只更新新添加的图层。采用随机梯度下降法对网络进行优化学习率和动量分别设置为0.001和0.9。保证金回收问题并且三重态损失设定为0.5。参数τ被设置为64并且最大历元是32。4.1.1拟议重新拟订我们首先在选择阶段评估我们提出的重新表述这里不执行特征学习过程我们使用从原始预训练网络中提取的特征。图3示出了问题（6）、（8）和（9）的性能。图4.不同优化策略的实验结果（十一）、在表2中，我们总结了它们的差异。所有问题均用局部搜索算法求解。从图中，我们有两个观察结果。（一）比较问题（8）对于问题（6），我们可以看到一个显著的改进-当我们将源标签合并到目标函数中时。（b）通过比较问题（11）和问题（8），我们可以看到区分项可以提供进一步的性能增益。定性结果图5显示了SCENE15数据集上选定代表的一个示例。源集包括14个类别。问题（11）成功-完全找到所有目标类别并实现更高的准确性，而问题（8）遗漏3个类别。结果表明，在特征不具有区分性的情况下，引入区分项可以覆盖更多的类别，提高分类准确率4.1.2迭代优化策略在本节中，我们将检查我们提出的迭代优化策略对特征学习的有效性。(a)召回= 0。8，Accr. = 0。453（b）回忆= 1。0，应计=0。560图5. SCENE 15数据集上选定代表（蓝色三角形突出显示）的T-SNE可视化[36]。(a)问题（8）在目标中遗漏了3个类别。(b)问题（11）能够覆盖所有类别。召回召回精度精度召回召回精度精度6012表3.实验结果与2.5c的代表叙述教学数据集c是源集中的类别数201510504 5 6 7 8源类别数（一）300250200150100036912151821 24迭代（b）第（1）款0.600.550.500.451.000.950.900.850.800.750.701.04 5 6 7 8源类别(a) MNIST，召回0.90.80.70.60.50.40.7我们的CE+KMCE+ KDPPCE+SMRSCE+LLRSDSCE+DS3AT+KM T+KDPPT+SMRST+LLRSDST+DS3A4 5 6 7 8源类别(b) MNIST，准确度图6.（a）本地搜索的平均交换次数算法（b）在联合优化期间的硬三元组的数量和准确度（最好用彩色观看）。0.90.80.70.60.50.4我们比较它与传统的两阶段策略。两者都应用于问题（11）以找到代表。0.667891011121314源类别(c) 第十五幕，回忆0.367891011121314源类别(d) 场景15，准确度图4显示了我们的迭代优化策略的优越性能两阶段策略的一个明显的局限性是特征学习过程与目标数据无关。相比之下，我们的迭代策略可以利用源数据和目标数据来学习特征表示。即使目标数据是未标记的，结果表明，它们仍然可以显着提高性能。当目标中出现更多看不见的类别时，好处变得更加明显。4.1.3效率图6（a）显示了MNIST数据集上本地搜索的平均交换次数可以看出，所提出的局部搜索算法可以有效地解决20个交换的问题对于SCENE15数据集，它可以在25次交换内完成。图6（b）显示了在源集中具有10个类别的SCENE15数据集上迭代优化期间硬三元组和准确度的变化当硬训练三元组很少时，进一步的特征学习将导致准确率的振荡。因此，参数τ可用于终止整个过程。4.1.4基线比较图7报告了我们的方法和基线的实验结果。对于特别简单的MNIST数据集，尽管基线已经表现出很强的性能，但我们的方法仍然能够超越它们。对于更复杂的SCENE15数据集，我们的方法可以取得明显的改进。在这两个数据集上，图7.我们的方法和基线的实验结果。4.3. 关键行动发现在本节中，我们将评估我们在从视频中查找关键动作的任务上的方法。两个视频数据集用于评估性能，早餐[18]和叙述的教学视频[2]。对于早餐数据集，有1,712个视频，其中有10个粗略的活动（例如，制作咖啡、三明治和薄烤饼）和48个细粒动作。叙事教学视频数据集包括5个活动。对于每个活动，有30个视频，其中包含8到13个细粒度的关键步骤。分别对每个活动进行实验，并使用交叉验证来评估性能：基于提供的拆分，早餐为4倍，叙述数据集为5倍。对于早餐，我们使用密集轨迹的简化64D Fisher向量。对于Narrated数据集，我们使用提供的3000D词袋特征向量，运动和外观。在实验中，我们学习了一种线性变换以获得更好的特征，即，Fθ（x）=Wx，其中早餐数据集W∈R64×64，叙述数据集W∈R256×3000对于这两个数据集，源集是一致的，通过随机选择50%的类别构建。由于Nar- rated数据集只有150个视频，为了减轻随机抽样的样本偏倚，我们进行了5次不同的运行并报告了平均结果。由于目标视频中关键动作的数量事先是未知的，我们比较了代表数量在{2c，2. 5c，3c}1，其中c是源集中的类别数。我们提出的方法变得更加明显，类别出现在目标数据中。[1]2c和3c的结果见补充材料。我们的CE+KMCE+ KDPPCE+SMRSCE+LLRSDSCE+DS3AT+KM T+KDPPT+SMRST+LLRSDST+DS3A我们的CE+KMCE+ KDPPCE+SMRSCE+LLRSDSCE+DS3AT+KM T+KDPPT+SMRST+LLRSDST+DS3A交换次数我们的CE+KMCE+ KDPPCE+SMRSCE+LLRSDSCE+DS3AT+KM T+KDPPT+SMRST+LLRSDST+DS3A硬三胞胎精度召回召回精度精度召回/应计CE+KMCE+ kDPPCE+SMRSCE+LLRSDSCE + DS3AT+KMT+ kDPPT+SMRST+LLRSDST+DS3A我们换胎0.625 /0.5810.567 /0.5290.455 /0.4520.467 /0.4600.613 /0.5920.670 /0.6710.567 /0.5700.651 /0.5950.656 /0.6050.686 /0.6690.716/0.729咖啡0.573 /0.7490.527 /0.7150.453 /0.6420.445 /0.6110.559 /0.7150.638 /0.8060.523 /0.7550.596 /0.7550.622 /0.7470.626 /0.8170.663/0.842CPR0.700 /0.6990.638 /0.6690.583 /0.6060.555 /0.5410.672 /0.6730.773/0.7770.623 /0.7020.722 /0.7000.736 /0.6820.733 /0.7600.771 /0.806跳车0.441 /0.7980.419 /0.7710.283 /0.7250.296 /0.7050.451 /0.7740.481 /0.8300.419 /0.8020.487 /0.8000.491 /0.8010.421 /0.8170.523/0.833移植性0.570 /0.6530.550 /0.6180.437 /0.5780.427 /0.5710.565 /0.6200.624 /0.7120.579 /0.6580.593 /0.6670.588 /0.6660.580 /0.7220.640/0.762平均0.582 /0.6960.540 /0.6600.442 /0.6010.438 /0.5780.572 /0.6750.637 /0.7590.542 /0.6970.610 /0.7030.619 /0.7000.609 /0.7570.663/0.7946013表4.早餐视频数据集上的实验结果，具有2.5c代表。c是源集中的类别数切割的橙子榨橙子拿玻璃SIL取刀切橙榨汁取杯取杯倒汁倒汁SIL4.3.1我们的了召回率= 1.000，准确率= 0.742切橙榨橙榨橙榨橙取杯取杯倒汁倒汁SIL SIL4.3.2CE+SMRS。召回率= 0.833，准确率= 0.390SIL取刀挤橙挤橙取杯SIL4.3.3CE+DS3A。召回率= 0.667，准确率= 0.621图8.代表在“果汁”视频定性说明。代表的位置在视频序列中用红线突出显示。源集合仅包括四个动作，即，定量结果表4和表3给出了2的实验结果。分别在早餐和Nar评级的教学视频数据集上的5c代表实验结果表明，该方法能够发现目标视频中出现的最多活动。此外，更多的帧可以由同一类别的代表来表示。定性结果图 8 显示了通过我们的方法 CE+SMRS 和CE+DS3A挑选的代表物。好的代表应该同时达到高召回率和高准确率。图8（b）显示CE+SMRS实现了高召回率但低准确率。这些代表包括了除“拿刀“动作以外的几乎所有关键动作但我们可以发现，许多代表是在相邻的行动的边界。因为动作边界通常是模糊的，两个动作之间的过渡帧实际上不能很好地表示任何一个动作。图8（c）显示CE+DS3A实现了低召回率但高准确率。它从长动作“挤橘子“中选取了许多代表，而忽略了由于动作的长度不均匀，忽略短动作仍然可以达到很好的准确率，但低召回率表明这些代表性。这些指标没有很好地涵盖各种类别。图8（a）显示了我们提出的方法的结果，它不仅找到了所有的动作，而且还实现了更高的准确性。5. 结论在本文中，我们设计了一个半监督的方法来解决联合代表选择和判别特征学习的问题。我们利用标记的源数据在新的目标数据中找到代表，并可以发现新的类别。我们的配方是基于设施选址问题。我们表明，标记源数据的指导和我们提出的判别项可以有效地提高性能的代表性选择和特征学习。通过迭代更新的特征表示的基础上所选择的代表，我们表明，我们的策略可以学习更好的功能的代表选择比传统的两阶段策略。在两个图像数据集和两个视频数据集上的实验表明，该方法不仅能在目标数据中发现更多的类别，而且能学习到更好的区分性特征表示用于代表性选择。SIL拿着刀倒果汁召回/应计CE+KMCE+ KDPPCE+SMRSCE+LLRSDCE+DS3AT+KMT+ KDPPT+SMRST+LLRSDT+DS3A我们谷物0.869 /0.6230.816 /0.5620.837 /0.5590.854 /0.5030.798 /0.5710.836 /0.5470.817 /0.4900.834 /0.4720.854 /0.5030.837 /0.5040.877 /0.647咖啡0.912 /0.7440.881 /0.6540.905 /0.6760.910 /0.5850.903 /0.6980.899 /0.6420.863 /0.5880.903 /0.5650.910 /0.5850.884 /0.6030.935 /0.767弗里德格0.701 /0.5850.682 /0.5550.702 /0.5420.646 /0.5510.648 /0.5500.691 /0.5590.666 /0.5440.661 /0.5390.646 /0.5510.719 /0.5150.750 /0.627汁0.803 /0.7180.709 /0.6520.812 /0.6540.844 /0.6170.669 /0.6510.825 /0.6970.722 /0.6360.804 /0.5630.844 /0.6170.757 /0.6600.896 /0.781牛奶0.863 /0.5980.773 /0.5210.870 /0.5260.852 /0.4720.777 /0.5300.845 /0.4890.808 /0.4420.815 /0.4270.852 /0.4720.821 /0.4490.890 /0.635煎饼0.660 /0.5350.659 /0.5010.688/0.4880.630 /0.5000.645 /0.5070.629 /0.5140.643 /0.4840.628 /0.4900.630 /0.5000.687 /0.4760.688 /0.591萨拉特0.680 /0.6420.644 /0.5940.707 /0.5670.738 /0.5570.608 /0.5980.751 /0.6180.646 /0.5830.704 /0.5660.738 /0.5570.732 /0.5770.796 /0.685三明治0.867 /0.6360.805 /0.5670.876 /0.5730.844 /0.5510.794 /0.5600.866 /0.5680.818 /0.5050.834 /0.5040.844 /0.5510.830 /0.5140.890 /0.693加扰0.763 /0.5740.729 /0.5240.799 /0.5210.737 /0.5140.696 /0.5120.731 /0.5300.733 /0.5000.732 /0.4900.737 /0.5140.727 /0.4840.834 /0.629茶0.927 /0.7100.874 /0.6210.914 /0.6470.906 /0.5760.889 /0.6530.905 /0.6000.892 /0.5440.908 /0.5190.906 /0.5760.883 /0.5500.928 /0.749平均0.805 /0.6370.757 /0.5750.811 /0.5750.796 /0.5430.743 /0.5830.798 /0.5760.761 /0.5320.782 /0.5140.796 /0.5430.788 /0.5330.848 /0.6806014引用[1] R. H. Affandi，A. Kulesza，和E. B.狐狸.马尔可夫决定点过程。在UAI，第26-35页，2012年。2[2] J. - B. Alayrac，P.Bojanowski，N.Agrawal，J.西维克岛Laptev和S.拉科斯特-朱利安从叙述式教学视频中进行无监督学习。在CVPR，2016年6月。7[3] V. Arya，N.加格河Khandekar，A. Meyerson，K. Muna-gala和V.潘迪特局部搜索启发式算法求解k-中位数和设施选址问题。STOC，2001年。二、五[4] J. Bruna和S.马拉特不变散射卷积网络。IEEE传输模式分析马赫内特尔，2013年。6[5] M. Charikar，S. Guha，E. Tardos和D. B. Shmoys k-中值问题的常数因子近似算法。STOC，1999年。二、五[6] E. Elhamifar和M.克拉拉·德·保利斯·卡鲁扎。通过子模和凸优化的在线在CVPR中，2017年7月。2[7] E. Elhamifar和M. C.保罗·卡鲁扎。顺序数据中的子集选择和汇总。在NIPS，2017年。一、二[8] E. Elhamifar湾Sapiro和S.S. Sastry 基于差异性的稀疏子集选择。 IEEE Trans.

下载后可阅读完整内容，剩余1页未读，立即下载