基于多尺度流形正则化的零射击学习算法

19 浏览量更新于2023-10-16 收藏 926KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于多尺度流形正则化的Shay Deutsch1，2Soheil Kolouri3Kyungnam Kim3Yuri Owechko3StefanoSoatto11加州大学洛杉矶分校视觉实验室，洛杉矶，CA 900952加州大学洛杉矶分校数学系3加州马里布HRL实验室有限责任公司{shaydeu@ math.，soatto@cs. }ucla.edu{skolouri，kkim，yowechko，}@ hrl.com摘要我们使用一种新的基于图上局部多尺度变换的流形对齐框架来解决零射击学习。我们的推理方法包括一个平滑度标准的函数映射节点上的图形（视觉表示）到线性空间（语义表示），我们使用多尺度图小波优化随后的方案的鲁棒性允许我们使用自动生成的语义注释进行操作，从而产生完全不受人工监督的算法，并且还改进了在基准数据集上测量的最新技术水平。1. 介绍零触发学习（Zero-shot learning，简称ZRL）旨在通过假设从一组不相交的（源）类中学习到一个共享的中间表示，来实现对看不见的（目标）类的决策早期的方法假设地面实况（人类注释）可用于中间表示，例如可以从图像推断的对象属性。最近，已经出现了自动推断这种中间“语义”表示的方法。其中，一些人将问题转换为使用图结构[10，5]或直接使用正则化稀疏表示[23，15]的数据的联合对齐。然而，大多数自动化方法的性能水平不足以支持实际应用。我们提出了一种新的对齐算法，基于Spec-tral GraphWavelet（SGW）[13]，这是一种多尺度图变换，在顶点和谱域中进行本地化。我们图中的节点是视觉特征，例如卷积神经网络或任何其他“图信号”的激活。这样的图形信号被认为是一个嵌入的线性空间中的语义属性，自动计算使用Word2Vec。学习是基于这样的假设，即附近的视觉表示应该产生相似的语义表示，这转化为图形信号的平滑度标准我们的做法是在转换设置中执行，使用所有未标记的数据，其中对传输数据的分类和学习过程完全无监督。虽然我们建议的方法在范围上类似于其他“视觉语义对齐”方法（参见[5，10]和其中的参考文献），但据我们所知，它是第一个使用多尺度局部化表示的方法，该此外，学习视觉特征和语义属性之间的关系被统一到一个过程中，而在大多数语义学习方法中，它被分为许多独立的步骤[10]。我们的测试显示了对流行基准的改进，例如具有属性的动物（AWA）数据集，证明了我们的方法仅使用自动语义特征执行多尺度流形对齐的能力。此外，我们还证明了我们的正则化方法在CUB数据集上的鲁棒性，显示了最先进的结果。1.1. 相关工作目前有两种主要的零射击学习方法。首先，在[16]之后，给定在测试时间期间先前未看到的图像的语义属性，当在测试时间给出其属性时，人们想要对未看到的图像进行分类。在第二种情况下，测试属性是未知的，然而，所有的测试图像是可用的，在测试时，人们希望估计的属性和分类的测试数据的同时。之间第一，[27，24，28，2]建议学习跨域匹配函数来比较属性和视觉特征。在第二种方法中，[10]提出了一种通过使用经典相关分析的多视图对齐的多视图transduc-tive方法，以及[15]中的方法。最近已经提出了几种用于零拍摄学习的方法。这些包括使用非监督域不变分量分析的内核对齐[11]，它从多源域生成的角度解决了这个问题它是无监督71127113SS+S利用去噪后的图信号预测测试集属性亲和力传播打开预测属性确定使用谱聚类或不可见测试集的标签图1.我们的零射击学习方法的高层次概述具有中心核对齐的域不变分量分析。联合潜在相似性嵌入[30]使用基于字典学习的判别学习框架来联合学习源域和目标域中的类特定分类器。用于零触发学习的合成分类器[5]从流形学习的角度解决了这个问题，引入了位于低级特征空间和语义空间之间的幻影对象类，从而产生了更好的对齐语义空间。职业技能培训的一个重要组成部分是对职业技能的选择。有两种类型的语义表示通常用在XML中：（i）人类注释的属性，以及(ii)自动生成的属性。早期的方法，从[17]开始，使用人工注释。自动注释显然更实用，但使用起来很有挑战性。通常，自动生成的属性是使用在英文维基百科文章上训练的skip-gram模型生成的Word 2 Vec输出[20，4]。1.2. 贡献概述在明确了基本假设和由此产生的限制之后，我们将语义学习问题形式化为学习从数据空间X到语义描述Y的映射的问题2）的情况。我们的第一个贡献是将推理过程转换为在离散图上支持的映射h：X→Y上施加可微结构为了解决这个问题，我们使用多尺度图变换（3.1节），它允许我们在不牺牲局部结构的情况下加强全局正则性我们的第二个贡献是执行这样的推理在一个综合的方式（节。3.2），这允许我们放弃任何手动注释，即使在源（训练）数据空间中也是如此。我们避免了大多数自动化工作所遵循的独立步骤，其中一些需要监督，以实现完全自动化的自动化过程。尽管是完全自动的，但我们的WML方法在基准数据集上实现了最先进的结果（第二节）。4.）2. 问题表述和模型假设我们称X为数据或视觉空间（例如，视觉特征），Y是语义或属性空间（例如，英语中的单词），以及Zs，Zt两个不相交的类或标签空间（例如，不同的标签）。下标s表示源（或样本，或训练）集，t表示目标（或传输，或测试）集。更具体地，令{xi，zi}ns 作为一个样本，基于去噪的对齐方法包括[23]，Ssi=1M iXs ∈X，X<$R是测量的，zs∈Z是观测的用1，2作为目标函数。然而，即使使用深度学习功能，自动方法的性能，在基数为cs的集合Z中的一个标号，我们用符号表示为zi∈ {0，1}cs。此外，对于每个实例，ODS落后于使用手动注释的方法Is认知语言学与迁移学习和领域适应密切相关;我们请读者参考[12，22，9，18]并参考其中的细节。我们的正则化方法受到[8，7]的启发，最近提出了一个新的无监督mani框架。i，设ys∈Y为其语义表示，由D个二进制属性Y={0，1}D（例如，yi是描述数据x i的D个单词的列表的指示符向量）。也可以将yi视为可能性的向量，在这种情况下Y∈R D。给定的训练集包括样本S={（xi，yi，zi）}ns。S sSi =1基于SGW的折叠去噪[13]。但我们的设{xj}nt是具有xj的测试（或转移）集∈X，tj=1t方法与[8]有两个不同：第一，任务具有未知的语义属性yj。我们有兴趣在我们的例子中，是将视觉和语义表示对齐，因此，我们的图形构造是不同的，因为我们使用图形属性信号进行语义表示，而在[8]中，任务是去除流形坐标中的噪声，这些噪声用作图形信号，以便获得平滑的流形近似。其次，我们应用了一种不同的正则化方法，它更适合于处理复杂的流形，这些流形并不光滑。我们通过在不使用阈值的情况下对所有SGW频带进行去噪来使用该任务，从而避免了在[8，7]中丢弃的可能重要的信息的丢失将所述测试集分类为不同的类集合zt∈Z t，其中集合Z t具有基数c t，并且与Z不相交：Z<$Z t=<$。我们假设这可以用分类器φ：X→Z t来完成。但是，未给出传输套件中的标签。虽然可以只对X执行无监督学习，将测试集聚类为ct类，但JPL将问题分为两个：首先，使用训练集S学习映射1 y i的第k个分量是描述数据xi的属性k的可能性：yi[k]= i（k）= P（xi|k）。s s xsS谱图小波域图像信号去噪用图信号表示视觉特征的属性，构造视觉特征的亲和图嵌入训练集视觉要素、属性和标注测试集视觉特征7114SSSSSt tj=1s s ss22从X到Y，h：X→Y。然后，使用相同的h将结果映射为相同的标签：g−1（zi）={y+|g（y）=zi}，J.jss转换集中的点到属性yt =h（xt）;最后，修改的损失函数：Y×Y→R定义为：在Y中执行无监督学习，而不是X。训练集的分类器φ：X→Z;xi→z i具有复合形式φ（x）=g（h（x）），其中g：Y→Z，并且相同的h可以应用于源集和目标集。然后可以丢弃训练的分类器的分量g，并且在集合{yj=h（xj）}nt中执行无监督学习。上述假设对应于具有马尔可夫链X→Y→ {Z，Zt}，或者等价地Y是X对于Z的充分统计量。换句话说，我们假设，给定单词表示，图像数据没有告诉我们关于类的任何信息。<$（h（xi），g−1（zi））=l（g（h（xi），zi），<$i.（一）我们的目标是找到h和g，使期望损失最小化，期望是关于X中的变量计算的。由于空间X不是线性的，并且是未知的，除了对映射h，g施加通常的正则化之外，我们还需要对空间X施加正则化，并将其与所述映射一起推断。最后，如果我们被赋予真属性yi，我们可以将它们替换到原像g−1（zi）中并求解veΣnsh，X= arg min（h（xi），yi）+ρh+ρX（2）因此，游戏的名称是制作函数，使得被转移的h（有时被不恰当地称为语义理想情况下，足够丰富，以产生zs和zt的x的足够统计量。最简单的选择是所有函数都是线性的，φ（x）=Wxx，g（y）=Sy和h（x）=Vx对于合适的矩阵S，V和Wx=SV，如[24]所做的，即使空间X通常是非线性的（不是向量空间）。在谱的另一端，指定函数h：X→Y需要定义其域X、范围Y和S si=1其中ρh和ρX是正则化泛函。然而，这样的属性可能具有其自身的不确定性或不一致性，例如，如果它们是通过某种测量设备而不是预言机获得的。假设训练数据是在流形X周围的样本处计算的噪声值，则该问题可以自然地被框定为X上的平滑Y值函数的对齐。样本表示为属性图，其中节点将X→Y映射到样本集{xi}ns之外，所有这些表示视觉数据x1可以是非线性的。si=1它们的相似性和图形信号是属性yi在我们的方法中，我们采取中间立场，假设训练属性空间Y嵌入线性空间，通过使用skip-gram神经网络模型在所有英文维基百科文章上训练Word 2 Vec[20]。然后，我们关注X和h，后者是在承认X的内在非线性性质的同时学习的，然而在学习过程中不会修改。特别地，我们假设X是一个光滑（但非平坦）的流形，并且h是它支持的光滑函数。在第3节中，我们描述了这些平滑度的产生，并展示了如何将它们转化为适合于无监督学习的损失函数。3. 方法学习映射h及其支持空间X的标准是X中的邻近点在Y中具有相似的属性，并且Y中的属性足以分类Zs和Zt。假设X是可微结构，这意味着映射h是光滑的。不幸的是，我们只有X的离散样本上的h值，所以目标是找到一个光滑流形X和它支持的映射h（语义表征）。我们就有了一个Y值映射定义在X上，我们使用正则化从噪声样本中学习，适用于流形域。图形信号处理工具[26]非常适合解决这个问题：一旦构建了图形，就通过直接应用于谱图小波域[8]的正则化来执行对齐。这使我们能够在考虑空间的全局属性的同时局部地执行对齐。下一节简要概述了开发下一节中的方法所需的图形信号处理机制。3.1. 预赛考虑一组点x ={xi}，i = 1，. N，xi∈ Rm，它们是从一个未知流形M上采样的. 本文构造了一个不规则的加权图G =（V，E），其中V对应于图的结点，E对应于图的边集。邻接矩阵W=（wij）由节点i和节点j之间的权重wi，j组成。在这项工作中，使用向量观测之间的余弦相似性来选择权重.与训练数据很好地为此，考虑原始样本中的分类器（xi，xj）W=||Xi||2||XJ||2如果xj∈kNN（xi）（三）空间，φ，设计用于最小化某些损失函数l：Zs×Zs→R+;l（φ（xi），zi）=l（g（h（xi）），zi）.考虑Σm其中，xi，xj=0其他xik，xjk，xik是中的标量值s s s s s sk=1zi通过g的原像，即点xi的k维的所有语义属性的集合。7115RR2RLRRR我我我X为了刻画函数fr∈RN的全局光滑性，我们定义它关于图的图拉普拉斯二次型为：Σ||2 = w i j [fr（i）-fr（j）] 2 = f T L fr，（4）||2=wij[fr(i)−fr(j)]2=fTLfr,(4)V（i，j）其中fr是对应于语义表示y的任意维度r的图信号，并且L表示组合图拉普拉斯算子，定义为L=D-W，其中D是具有条目dii=d（i）的对角度矩阵。顶点i的度d（i）被定义为连接到i的边的权重之和。L的特征值和特征向量为λ1，. . . ，λ N和u1，. . . ，uN。请注意，使用来自Escherichia的符号-n，其中dG（i，n）= K，dG是图上两点间的最短距离路，若K > J，则LK（i，n）=0 [13]。我们将N（i，K）表示为图中距离i在K跳内的顶点i的邻居的集合设WN（K）和LN（K）表示亲和矩阵及其相应的拉普拉斯算子，其使用（3）获得并连接图上在W上相距N（i，K）跳的所有顶点n。注意，对于K =1，我们有WN（K=1）=W和LN（K=1）= L。我们保留所有比例系数，其对应于低频率，并且对于每个噪声坐标语义表示（ h（xt））r=f（s（j）），2≤j≤J，将Tikhonov正则化直接应用于每个SGW频带：我们有h（xi）=[f1（i），f2（i），. f D（i）]。对于一个固定的维数r，一个固定的语义的图信号最小流量r（s）.||布拉夫河（s）-f（s）||2+γ-谷氨酰胺fr（s）LN（j）布拉夫河Σ（s）tic表示（例如，“tail”语义表示（h（x））r=fr.图形傅里叶变换（GFT）f_r被定义为：（五）使用[6]中的等式（19）并替换图形信号如果使用SGW频带系数，则可以显示f的扩张根据r的特征向量ur这个问题的最优解是图Laplacianfr（λl）=ifr（i）ul（i）.光谱图小波（SGW）[13]基于图拉普拉斯算子L的特征向量，在图傅立叶域中定义了一个缩放算子，它可以被认为是一个f（s，n） ΣN[l=111 +γλj ][[][][][][][[][][[]] []][[]加权函数的傅里叶变换的模拟其中，（s，λ）是λ的图形傅里叶变换（s）.图表 SGW是使用核函数op-生成器κ（L），其通过调制作用于图信号fr巴夫河布拉夫河将每个图的傅里叶模f∈r（λl）乘以κ（λl）。标度在谱域中由算子κ（sL）定义。给我们一个有趣的解释，waveletcoeficients采取的形式是为了计算这个解决方案，我们使用几个步骤的扩散-在一个固定的图上的一个过程，通过求解：Ψ∗˜(s)=(I+γLN(j))−1Ψ˜(s)(7)f（s，n）= Nκ（sλ）f<$（λ）u（n）.FRFRrl=1Lr l l可以使用基于以下的快速算法来计算SGW：通过低阶多项式来近似缩放的生成核。然后，可以将每个尺度下的小波系数计算为应用于输入数据的L的多项式当图是稀疏的时，这是流形学习模型下的典型情况，计算复杂度与点数成线性比例，导致计算复杂度为O（N）[13]。包括一个秤-请注意，图上的扩散过程的一个步骤相当于Tikhonov正则化[14]。因此，我们的方法本质上是解决一个扩散过程的图使用图形信号，这是SGW系数本身是本地化的视觉和语义空间。注意，（5）基于作为连接性基础的图来平滑预测信号（h（xt））r在执行正则化之后，它为我们提供了与低通滤波器操作相对应的函数对去噪后的A_（？）L_（？）R_r进行伪逆变换，SGW将输入图形信号、维度N的向量AAL（h（xt））r=到N（J+1）个尺度和小波系数，c=ALXfr这是有效地计算使用切比雪夫多，名义近似逆小波变换可以使用A的伪逆变换来估计，表示为A的伪逆变换。3.2. 正则化算法的描述在使用所提出的语义属性表示作为图信号来构造图之后，我们使用拉普拉斯算子的低阶多项式来计算SGW变换。这样，SGW系数在顶点域中被局部化，因为对于任何两个点i和i，f）。该算法应用于所有语义表示维度，得到测试集中每个实例i的完全正则化语义表示（h（xti））=yt.对于测试集中的每个实例i，使用正则化语义表示（h（xti））=y，我们执行聚类到c i，i = 1.通过使用谱聚类[19]或仿射传播[25]全局划分正则化图（从y_n构造）来进行c t类）。我们在表1和表2以及框图中的伪代码中总结了使用谱图小波进行零次学习的正则化方法RX7116RRRRR˜算法一：比对算法输入：T，hedata，settar getunseenclasses实例X、Y轴，k个最近邻，K分别为40和10个班级我们使用预先训练的GoogleNet的激活作为视觉特征空间X[28，5]，与大多数使用t t 相同或其他深度学习功能[29]。针对所述语义- Chebyshev多项式阶近似1使用（3）基于视觉特征Xt构造无向亲和图W，并从W构造拉普拉斯算子L。;2 对于r←1到D，3.指定相应的坐标值，维度R中的语义表示，f∈r=（Y∈t）r，到图上相应的顶点x。;4计算f<$r的SGW变换，其中1≤j≤J;5直接在SGW使用算法2 . ;6给定正则化的SGW，空间Y，我们使用Word2Vec，其中每个实例由100维向量表示，以词向量的形式从大型未标记文本语料库[20]自动构建，不需要额外的手动注释。类似于零射击学习中的转换方法，例如[10]，我们通过使用来自源数据的学习投影函数和支持向量回归函数将X投影到语义嵌入空间Y上来开始测试数据的语义表示的初始估计[17，10]。注意，测试数据的语义表示（使用从X到Y的投影函数获得）首先被用作图形信号，该图形信号被变换为SGW系数，其提供在X和Y两者中局部化的信息，该信息在正则化过程中被进一步对齐（噪声SGW被视为ALxfr= 、（j），Jj=1，采取图信号本身）。在正则化语义嵌入空间中执行聚类，其中分类伪逆SGW变换A，以获得（h（xt））r=f，并指定（Yt）r=f。使用Rand指数评价准确度。请注意，有没有监督。我们使用J=4尺度的SGW跨-R r7.将看不见的类分类为c i，i = 1. c t类使用光谱聚类或通过使用亲和传播[25]。输出：规则化的语义空间Yt，估计zt类算法2：正则化算法输入：维度r中的语义表示，fr=（Yt）r，其对应的SGW系数ff（s（j）），拉普拉斯算子L，γ平滑参数，J-用于小波分解的1保留低通缩放系数。对于每个分辨率1≤j≤J，构造LN（j）。.的情况;2forj←2 toJdo3相对于LN（j）和SGW系数kf（s（j））求解（7）输出：正则化的SGW系数Σm（s（j）），fr1≤j≤J4. 实验结果4.1. 实验设置我们目前的实验结果AWA（动物属性）数据集，这是最广泛使用的动物属性。AWA由50类动物组成（30，475张图片）。它有一个源/目标分裂为零射击形式，k=20，用于仿射图4.2. 噪音抑制我们首先验证我们的方法的能力，降噪的语义坐标尺寸时，应用于AWA数据集。Word2Vec通常噪声很大，使得当前的WML方法[10，5]面临歧管对齐的挑战对于测试数据中的每个点，我们计算来自同一类的k个最近邻的百分比，并报告测试集中所有点的平均精度。图2示出了来自噪声Word2Vec语义空间（亮蓝色）中的相同不可见类的正确k个最近邻的平均百分比，以及在我们针对k个最近邻参数的宽范围提出的正则化（洋红色）之后的相同百分比。可以看出，阿- 在使用我们的方法执行对准之后，来自相同的不可见类的k个最近邻的平均百分比与有噪声的序列空间相比已经显著地改善，这指示对准过程的有效性和鲁棒性。此外，由于SGW的多分辨率特性，我们的正则化在很宽的k近邻选择范围内表现良好。在图3中，我们展示了使用t-SNE嵌入的方法的说明，该方法也与有噪声的Word 2 Vec 进行了比较可以看出，噪声图信号（Word2Vec）嵌入产生语义表示，其相对于从视觉特征构造的图可能非常不同。另一方面，使用我们的方法产生的嵌入效果明显更好，显示出7117噪音Word2Vec去噪Word2Vec0.80.70.60.50.40.30.20.1方法/数据集AWA幼崽Word2Vec百分之三十六百分之十三正则化语义Word2Vec百分之八十百分之三十五表1.使用我们的方法在正则化之前和之后的Word2Vec的无监督分类精度01 5 9 13 17 21 25 29 33 37k最近邻数图2.针对k ∈ { 1，3，.}评估的未看见数据的同类k个最近邻的平均百分比。37}（蓝色噪声语义表示，洋红色正则化语义表示，tation）。可以看出，正则化一致地提高了k个最近邻图参数在很宽范围内的同类百分比具有关于图形结构的类似值的相同实例的嵌入图形信号。4.3. 与最新技术水平的比较为了评估我们的方法的分类准确性，我们对正则化的语义属性进行了谱聚类[21]，并将其与AWA和CUB（见第4.4节）数据集的原始噪声从表1中可以看出，在使用我们的方法执行正则化之后，属于相同的不可见类的k个最近邻的平均百分比显著提高。在表2中，我们看到了与最新技术水平的比较。该方法以括号表示，其中“H”对应于人类注释，“W”对应于Word2Vec或其他自动方法以生成语义表示。可以看出，我们的方法超越了现有技术，并且明显优于所有自动方法，包括 TransductiveMulti-viewZero-ShotLearning（TMZL）。我们还使用Affinity Propagation测试了我们的方法，Affinity Propagation是一种基于置信传播的流行聚类方法，不需要预先指定数据中的聚类数量。使用亲和传播，我们能够超越最先进的技术，并证明我们的方法的有效性。4.4. 使用CUB数据集进行比较在本节中，我们比较了我们在加州理工学院- USCD鸟类（CUB 200）数据集上的方法，这是另一个用于零射击学习的流行数据集，也是其他数据集。表2.使用我们的方法的分类精度结果与AWA数据集上的零射击学习中的最新方法一致。所使用的相应语义表示在括号中注明，其中在计算机视觉应用中的应用。CUB数据集包含200种不同的鸟类类别，总共有11，788张图像。我们使用与[5]中相同的拆分。其中150个类用于训练，50个不相交类用于测试。我们的方法使用的语义属性是300维Word2Vec。在这种情况下，类是接近的（细粒度的），Word2Vec和深度学习功能都非常嘈杂，这使得问题变得更加困难，这从CUB数据集上几乎所有的WML方法的低性能中可以看出。我们比较的最先进的方法，测试他们的算法使用自动属性。对于CUB200数据集，我们使用[24]中介绍的方法h：从图像特征空间到语义属性空间的X→Y。该线性映射h用于基于输入图像特征y_t=h（x_t）提供测试属性的初始估计。然后，如前一节所述，使用谱聚类进行聚类，并使用Rand指数进行分类精度表3所示的实验结果表明，我们的流形对齐方法在该数据集上产生了最先进的零炮分类结果。相同的标示Knn百分比方法/数据AWA民主行动党（A）[17]百分之五十七点五奥地利（A）62.85%奥地利（A）百分之七十三点二美国（A+ W）[15]百分之七十五点六Less is more（少就是多）[23]64.46%语义嵌入（A）[29]76.33%[28]第二十八话72.5%[28]第二十八话百分之五十二点三7118图3.使用t-SNE Embedding的框架说明：在左手边：图特征的噪声2D嵌入。中间和右手边的图分别示出了噪声和去噪图形信号的2D嵌入。可以看出，噪声图信号的嵌入导致相对于图的内在结构具有（通常）非常不同的图信号值，而正则化图信号的嵌入成功地实现了期望的结果，使得相似的特征具有相似的属性方法/数据幼崽[24]第二十四话23.8%[3]第三季第15集24.2%SJW（Word2Vec）[3]百分之二十八点四[28]第二十八话百分之三十三点一[28]第二十八话百分之三十点七[23]第23话百分之二十九点二多线索零次学习（Word2Vec）[1]32.1%我们的方法（Word2Vec）百分之三十五表3.使用我们的方法的分类精度结果与word2vec CUB数据集上的最新方法所使用的语义表示的类型用括号5. 讨论我们将零触发学习的问题转换为定义在平滑（但非平坦）流形X上的平滑函数h对样本数据（x，y）的拟合（然后，使用来自图形信号处理的工具以尊重X的几何形状的方式来平滑函数h：X→Y。一旦通过平滑、无监督地学习了地图h，在Y中执行聚类，从而允许在目标标签集中进行分类我们的方法比将h建模为线性空间X和Y之间的线性映射的方法更复杂。然而，准确度的提高使得我们能够使用Y中的“噪声”样本进行操作尽管缺乏人工注释，但我们的方法与最先进的方法相比具有竞争力，如AWA和CUB200数据集等基准测试的性能确认研究由ONR N 00014 -13-1-0563、ARO W 911 NF-15-1-0564/66731-CS支持。引用[1] Z. Akata，M.马林诺夫斯基，M。Fritz和B.席勒多线索零射击学习与强监督。CoRR，2016年。[2] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特基于属性分类的标签嵌入。计算机视觉与模式识别会议（CVPR），2013年。[3] Z. Akata、S.里德D.沃尔特，H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评估。在IEEE计算机视觉和模式识别，2015年。7119[4] T. L. Berg，A. C. Berg和J.施噪声网络数据的属性自动描述与表征。在2010年的欧洲计算机视觉会议上，第663[5] S.昌平约湾Chao湾Gong和F.煞用于零镜头学习的合成分类器。2016年。[6] D. I Shuman，P.Vandergheynst，和P.弗罗萨德分布式信号处理的切比雪夫多项式逼近。在2011年6月在西班牙巴塞罗那举行的关于传感器系统中的分布式计算的IEEE国际会议的会议记录中[7] S. Deutsch，A. Ortega和G.梅迪奥尼基于图的多重频率分析去噪。CoRR，2016年。[8] S. Deutsch，A. Ortega和G.梅迪奥尼基于谱图小波的流形去噪。 2016 年国际声学、语音和信号处理会议（ICASSP）[9] N. FarajiDavar，T. de Campos和J.基特勒感应传输机。在计算机视觉- ACCV 2014 -第12届亚洲计算机视觉会议，新加坡，新加坡，2014年11月1日至5日，修订的选定论文，第三，第623-639页[10] Y.傅氏T. M. Hospedales，T. Xiang和S.龚trans-ductive多视图零射击学习。IEEE传输模式分析马赫内特尔[11] C. Gan，T. Yang和B.龚学习属性等于多源域泛化。IEEE计算机视觉国际会议（CVPR），2016年。[12] R.戈帕兰河Li和R.切拉帕通过生成中间数据表示，跨领域的无监督自适应。36：2288[13] D. K. Hammond，P. Vandergheynst，and R.格里邦瓦尔基于谱图论的图上的小波。应用和计算谐波分析，第129-150页[14] M. Hein和M.迈尔流形去噪第561[15] E. Kodirov，T. Xiang，Z.- Y. Fu和S.龚无监督域自适应零射击学习。2015年，国际计算机视觉会议（ICCV）[16] C. H.兰伯特和A. S. H.汉尼斯·尼基施基于属性的零拍视觉对象分类。IEEE模式分析与机器智能学报，2014年。[17] C. H. Lampert，H. Nickisch和S.伤害。学习通过类间属性传递检测不可见对象类在计算机视觉和模式识别会议，2009年。[18] M. Long，J. Wang，and M. I.约旦.无监督域自适应残差传输网络。神经信息处理系统进展，2016年。[19] 联合Luxburg.光谱聚类教程。统计和计算，2007年。[20] T.米科洛夫岛Sutskever ，K. Chen，G. Corrado，J。Dean.单词和短语的分布式表示及其组合性。CoRR，2013年。[21] A. Ng，M。Jordan和Y.韦斯关于谱聚类：分析和算法。神经信息处理系统进展，第849-856页，2001年[22] V. M.帕特尔河戈帕兰河Li和R.切拉帕视觉领域适应：最新进展综述IEEE信号处理杂志，第53-69页[23] R.乔湖，加-地Liu，C. Shen和A.范登亨格尔。少即是多：从具有噪声抑制的在线文本文档进行零次学习。2016年在IEEE计算机视觉和模式识别会议上发表[24] B. Romera-Paredes和P.H. 乇一个令人尴尬的简单的零射击学习方法。第32届国际机器学习会议（ICML），2015年。[25] S. T.罗维斯湖K. Saul和G. E.辛顿局部线性模型的全局协调。2001年[26] D. Shuman，S. Narang，P. Frossard，A. Ortega和P.范德根斯特。图形信号处理的新兴领域：将高维数据分析扩展到网络和其他不规则领域。IEEE Signal ProcessingMagazine，30（3）：83[27] X. Wang和Q.纪属性与对象之间关系建模的统一概率方法.在IEEE计算机视觉国际会议的Proceedings，第2120-2127页[28] Y.西安Z. Akata，G. Sharma，Q.阮，M。海因，还有B.席勒零激发分类的潜在嵌入。计算机视觉与模式识别会议（CVPR），2016年。[29] Z. Zhang和V. Saligrama.通过语义相似性嵌入的零射击学习。2015年计算机视觉国际会议[30] Z. Zhang和V. Saligrama.通过联合潜在相似性嵌入的零射击学习。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第6034-6042页

下载后可阅读完整内容，剩余1页未读，立即下载