自动发现和学习千类语义属性

128 浏览量更新于2023-10-16 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1千类语义属性的自动发现、关联估计与学习卡尔斯鲁厄理工学院，76131卡尔斯鲁厄，德国{ziad.al-halah，rainer. stiefeldah}@ kit.edu摘要基于属性的识别模型，由于其令人印象深刻的性能和他们的能力，以及推广新的类别，已被广泛采用的许多计算机视觉应用。然而，通常属性词汇表和类-属性关联都必须由领域专家或大量注释者手动提供。这是非常昂贵的，并且不一定是最佳的识别性能，最重要的是，它限制了基于属性的模型对大规模数据集的适用性。为了解决这个问题，我们提出了一种端到端的无监督属性学习方法。我们利用在线文本语料库，自动发现一个显着的和歧视性的词汇，以及相关的人类概念的语义属性。此外，我们提出了一个深度卷积模型来优化类属性关联，该模型具有语言先验，可以解释文本中的噪声和缺失数据。在对ImageNet的全面评估中，我们证明了我们的模型能够大规模有效地发现和学习语义属性此外，我们证明了我们的模型在三个数据集上的零射击学习中表现优于最先进的技术：ImageNet、Animals with Attributes和aPascal/aYahoo。最后，我们在ImageNet上启用了基于属性的学习，并将共享属性和关联以供未来研究。1. 介绍语义属性是机器可检测和人类可理解的，适用于视觉和语言领域的各种应用[40]。通过创建跨越对象类别边界的中间语义层，它们在迁移学习[25]和领域适应[12]方面也表现出令人印象深刻的性能。然而，对象类别的属性注释通常由数十个注释者[16，26]或领域专家[47]手动获得。此外，属性词汇表本身需要精心设计。它应该在所有类别中共享，但同时具有区分性、可解释性和视觉可检测性。图1：描述对象类别的百科全书文章。关于物体的形状、家族和栖息地的许多区别性属性我们提出了一个模型，利用这样的知识源，自动发现和学习视觉语义属性在大规模。这显然是基于属性的方法扩展到大量类的主要障碍。与提供这样的注释相关的成本是禁止的，这限制了类、属性或图像的数量中的可用属性数据集此外，当跨数据集移动或使用新类别扩展当前集时，再次需要这项重要且昂贵的工作。我们在这项工作中的目的是规避这种需要人类干预我们的目标是自动挖掘属性词汇，并在大规模的设置中找到它们与对象的关联。我们通过利用网络上的大型文本语料库来实现这一在线百科全书是一个丰富的信息来源，它将人类的集体知识编码在各种概念和类别上。它是一个活跃而全面的知识来源，并以令人印象深刻的速度增长[1]。图1显示了一个片段描述袋熊人们可以很容易地观察到，关于它的形状，分类和栖息地的许多独特的属性已经出现在文章的介绍中。最近，这个有价值的大量知识来源吸引了视觉社区的很多兴趣。在这方面可以确定两个主要观点。第一个614生境家庭形状615使用来自自然语言处理的强大模型从文本中学习对象类别的词嵌入[31，36]。然后，它基于视觉数据调整深度神经模型用于嵌入预测和零拍摄学习[18，33]。第二种视角遵循的是语言与视觉之间的域适应方法它基于类别文本描述的嵌入直接预测看不见的类别的分类器权重[15，7，37]。虽然我们利用类似的知识源来弥合语言和视觉之间的差距，但与这些方法相比，我们的目标是自动发现一组明确的语义属性，这些属性是紧凑的，有区别的，并且最好地描述了我们数据中的类别。贡献我们工作的主要贡献如下：a）我们提出了一种新的属性挖掘方法，从自然的文本描述，不仅占discrimination，但也挖掘了一个多样化的和突出的词汇，以及相关的人类概念的语义属性。b）我们提出了一种新的方法，使用深度卷积模型将这些挖掘的属性与类相关联，该模型利用视觉数据来解释文本语料库中的噪声c）我们通过实验证明，我们的深度属性模型能够在ImageNet上以高精度学习和预测属性，并且在数据集上具有很好的泛化能力，并且在三个基准测试中的零次学习中表现优于最先进的d）最后，由于我们的工作，我们收集了一千多个类别的文字描述;此外，我们已经自动为ImageNet和深度属性模型生成了属性注释，这些属性注释将公开提供1。我们相信，这些数据可能会对视觉和语言研究界产生极大的兴趣。2. 相关工作虽然基于属性的视觉识别在计算机视觉中的流行度不断上升，但收集属性注释被证明是非常昂贵的。因此，这显然限制了基于属性的方法对大量类别的可伸缩性大多数可用的属性数据集[16，25，47]在属性，类别或图像的数量方面受到限制。在最近收集更大属性数据集的努力中，[34]提出了一种具有成本效益的标记方法，他们收集了29个类别的196个属性的注释和8.4万张图像，注释成本超过30，000美元。因此，在这项工作中，我们绕过了用户监督的需要，定义和annotate属性。我们提出了一种无监督的端到端的方法来自动挖掘和学习数千个类别的语义属性发现在文献中很少有人尝试自动获取属性词汇表。[40，39]1http://cvhci.anthropomatik.kit.edu/~zalhalah/通过爬行WordNet [32]本体挖掘属性。具体来说，它们跟踪WordNet中的“has-part”关系以提取“part”属性。另一方面，[17，13，14]使用网络搜索引擎返回的排名靠前的图像来估计单词的[8]从互联网上对（图像，描述）进行采样，以自动找到一组视觉属性。类似地，[46]使用基于图像的文本描述以及用户在社交媒体中提供的一组图像标签来识别属性词汇。与以前的工作不同此外，我们不依赖于预定义的本体（如WordNet）或仅针对特定类型的属性（如“部件”）。相反，我们使用文本描述在类别级别的百科全书条目的形式来提取一个突出的和多样化的属性集。类-属性关联预测在不同的方向上，其他方法集中于自动预测类-属性关联。[40，29]根据基于网络的共现统计数据估计关联强度然而，基于Web的点击计数估计是嘈杂的，因为它不考虑上下文或类别和属性之间的特定关系。[3]使用WordNet层次结构来从本体中的父类中传输不可见类的属性最近，[4]提出在张量因子分解方法中使用语义关系来预测属性关联但无论[3]和[4]假设培训协会的可用性。在这里，我们提出了一个深度模型来从头开始估计我们的模型利用了一个初始的语言先验的关联，从文本描述，并提高了估计的对象和属性预测的联合无监督零触发学习（OWL）语义属性- 在执行任务时表现出色，例如：然而，由于其有限的可扩展性，人们越来越有兴趣通过利用替代知识源来进行可扩展学习，例如通过利用词汇层次结构来在类别之间传输视觉模型[39]或学习层次嵌入[2]。另一个方向利用强大的词嵌入[21，31]来建立可见和不可见类别之间的语义联系[18，33]。更接近我们的工作是从[15，7]和[37]。这些方法使用文章嵌入来直接预测领域自适应框架中的新类别的分类器权重然而，与基于属性的方法相比，大多数无监督的CPDL方法并不能产生良好的判别分类器[4]。我们在评估中表明，我们的无监督深度属性模型可以高准确度地预测新类别，并且在无监督分类中的表现优于最先进的分类。616j=1m=1i=1k=1j=1JGTΣ Σg（S）=|.|.为了抓住区别-rtcsttrbutsiij/=iwk∈/Sij山黄色一个集合S的创造力，我们使用一个集合S的熵率，图G上的随机路径X是由[28，50]定义的.（）黑色条纹小总之，令gi（S）=jgij （S）为以下各项的总和─斑点丛林爪节点ni的dent权重和主题图是gT=gi。之间的转移概率节点设置为：图2：从文本描述中发现属性词汇表我们的模型利用文本的文章和他们的潜在主题选择一个紧凑的，有区别的，多样的和突出的语义属性集。pij（S）=.gij（S）gi（S）jgij（S）gi（S）如果i=j如果i=j（二）3. 发现和学习属性我们提出了一个端到端的方法，大规模的基于属性的视觉识别。从一组描述对象类别的文章开始，我们的方法包括三个主要步骤：1）我们自动分析文章，以便提取具有注意，pij是一个集合函数，并且转移概率是当所选择的集合S改变时，图中每个节点的关联权重gi由于自循环权重g ii而保持恒定，并且随机游走的平稳分布被定义为 μ= （ μ1 ， μ2 ， . . . ，µ|N|），其中μi=gi。然后熵在G上的随机游走的速率是：最突出的和歧视性的词来描述这些类别。然后，2）我们通过一种新的深度卷积模型使用视觉数据优化类-属性ΣFdis（S）= −µi我Σpij（S）log（pij（S））（3）J类和属性预测的语言先验和联合优化最后，3）我们训练了一个用于大规模属性分类的深度神经模型。3.1. 语义属性发现Fdis的最大化要求pij的最大化I.E.所有类对之间的区别。多样性一组好的属性的另一个理想属性是它描述了类别的各个方面。设D={dj}J是一组描述也就是说，我们希望鼓励被选中所有对象类别C={cm}M在数据集中。为减少对特定类别的偏见，符号简单，我们假设|D|为|C|，即有一种方法可以挖掘一个词汇表，每个类别的文件设W ={wi}I是好. 为了促进多样性，我们首先发现潜在的从D学来的单词词典。我们的目标是选择最好地描述C：A= arg max F（S）其中|S|≤ b，（1）南威范畴间的语义结构。我们在这里无监督概率主题模型（例如，LDA [9]）来发现文档中的潜在主题。设T={Tk}K是从文档中学习的主题集合其中F是一个集合函数，它捕获子集S的期望属性，b是词汇表的大小。条目D和词典W。我们定义多样性目标标准如下：Σ。Σ理想情况下，A中的单词应该：1）区分好对象类别; 2）描述类别的不同方面，而不是只关注一个或几个属性（例如，只有颜色或部分）;以及3）表示人类可理解的显著语义概念。接下来，我们将描述如何在目标函数中捕获S的这些不同标准（图1）。2）的情况。Fdiv（S）=Tk.s（wi，Tk）=s（wi，Tk），其中wi∈Sp（wi|Tk）ifTk=argmaxp（Tj|（i）TJ0否则（四）歧视设V={vj=fv（dj）：vj∈R|W|}J可以是基于T的嵌入（例如，fv（·）基于tf·idf）Fdiv鼓励S中的主题多样性，因为添加属于先前选择的主题的单词将减少-学习了文档集合D，使得v捕获由于平方根函数，它也说明了在文件D中，W是重要的。构造了一个无向全连通图G（N，E）. 每个节点ni∈N表示一个连续的代数ci。每1−12n1+1个+1个-12-1+1个+1个617个边eij（ii=j）具有对于主题的词重要性，因为添加具有更高 p 的词（wi|Tk）导致更高的增益。更重要的是，通过鼓励多样性，Fdiv也不鼓励冗余。一权重gij（S）=|它捕捉到了|that captureshow词及其同义词更有可能属于同一个wk∈SijS中的词将一个类与其他类此外，每个节点都有一个自循环，因此，它们不太可能被一起选择。的Fdiv更倾向于使用多样化的、冗余度更低的、具有代表性的单词集。618主题排名靠前的单词1乐器演奏者音乐声音音高音符音乐簧片演奏者小提琴制造音调范围八度低音家庭钥匙乐队小提琴LogSoftmaxFC（M）类别损失语言先验Sigmoid属性丢失孔2spaniel英国威尔士cocker斯普林格显示羊毛衫领域彭布罗克工作码头类型小苏塞克斯平均来线品种将世纪3导弹靶系统翼导飞行使用力降落伞发动机已知射弹火箭气升制导动能反武器梭乙状结肠足球会属性损失本币FC足球俱乐部.198呼叫包括允许多时间上组成长多几个小最后低到达第二慢半使跟随适合199使用make allow将阻止工作take给开放的原因来减少保持提供方式保护帮助少离开支柱200用世纪成为现代早期世界工作时间开始发展可以历史新战争后期发展介绍部分CNN（一）CNN（b）第（1）款包括今天表1：发现的主题根据其重要性的排名，即.它们与垃圾主题原型有何不同虽然排名靠前的主题捕捉到了音乐和狗等突出的概念，但排名靠后的主题则模糊不清，没有特定的主题。显著性语义属性的一个重要方面是它们表示具有相对清晰语义概念的显著词，例如：“腿”、“黄色”和“透明”。而“become”、“allow”、“various”等词属于背景语言结构，因此它们通常是歧义性的，本身很少或没有语义。由于词的多义性和词的重要性依赖于上下文，直接捕捉词的显著性是困难的。在那里-图3：（a）使用语言先验对类-属性关联进行联合优化，以及（b）深度属性模型架构。子模块优化我们在子模块背包框架中制定词汇选择问题[6]。如果集合函数F满足边际增益递减条件[20]，则它是次模的，即： F（A <${s}）− F（A）≥ F（B <${s}）− F（B）对于A <$B。换句话说，如果在集合中增加一个新元素s，那么它的好处就越大。所有前面的功能Fdis，Fdiv和Csat-isfy的边际增益条件，是submodular 2。我们将我们的主要目标函数表示为：maxF（S）=Fdis（S）+λFdiv（S）因此，我们建议使用文档中的学习到的底层主题结构作为代理来捕获此属性。南威受C（S）≤b（六）我们可以通过比较主题在词p（w）上的分布来估计主题的重要性|和文件p（d|主题）到垃圾主题原型[5]。垃圾主题是一个均匀分布在单词上的主题（即。它任何特定主题）或文档（即，它抓住了所有文件的共同主题）。通过测量距离（例如，KL分歧）到这些垃圾原型，我们可以获得关于其重要性的主题的排名表1显示了排名最高和最低的主题，使用来自[5]的主题重要性分析模型的一组文档。可以看到，排名靠前的主题围绕着特定的主题，如设insig（T）是ρ=10%的最低排名主题的集合其中b是预算，λa超参数控制-Fdiv的贡献。F（·）是次模的，因为它是子模函数[20]。子模块函数可以是最后，用一个有保证的解决方案进行鲁棒优化，以接近最优[23]。我们采用一个懒惰的贪婪算法[27]。我们从一个空集S={}开始，然后递增地添加元素到S，根据F使用惰性评估。3.2. 具有语言先验的关联优化在前一步中，我们选择了描述数据集中不同类别ci∈C的最佳属性词汇表A有了这组单词，我们得到了类属性关联矩阵Ml=[mij]的初始估计（图12）。2）使用在D上学习的基于文本的嵌入V。.如果vi> 0，则为+1我们将显著性成本函数定义为：mij=j（七）C（S）=Σwi∈S（1+γ）ΣTk∈insig（T）p（Tk|wi）），（5）619-1否则然而，该关联矩阵可能包含一些噪声，因为V不捕获上下文，并且并非所有的关系都是其中γ控制一个词的不重要性分数对成本函数的贡献。C（·）对成本接近1的显著词进行惩罚，对出现在垃圾话题中概率较高的垃圾在相应的文本文档中必须表示某个类别。通常，如果从作者的角度来看，类的简单和明显的属性没有足够的兴趣来提及，则从文本中省略它们。为2补充资料中的更多细节620我我我例如，虽然大多数动物都有“头”、“腿”或“皮肤”等属性，但它不捕获文本中属性的上下文。这导致像“atiger does not live in ocean”这样的负关系交叉熵损失来训练用于二进制属性预测的网络预测对象给定图像x，我们使用直接属性预测模型（DAP）[25]估计相应的对象类别我们采用求和公式而不是概率公式[25]，因为它更有效[39，3]，特别是在我们的也就是说，对于一个类cm，cm出现在图像描述我们建议通过使用深度的视觉数据来改善从语言中获得的初始关联，x为：s（cm|x）=（a）|x）a、c、mΣ acm（九）我我卷积网络模型网络被训练成预测属性和类别，同时将最后一层的权重约束到初始估计的关联Ml（参见图3a）。注意，该架构类似于直接属性预测模型DAP [25]，其中基于预测的属性估计对象类。我们将训练损失函数定义为：L（x）= Lc（x）+β1 La（x）+β2<$M−Ml <$1（8）其中Lc和La分别是预测对象类别和样本x是基于初始关联矩阵Ml的最后一个全连接层M的权重上的逐项L1正则化项。请注意，通过使用语言先验，我们迫使网络保持语言和视觉数据之间的语义联系这防止了网络找到任意数据驱动的关联，这些关联不能再从文本描述中估计。同时，通过控制β2，我们允许对关联进行小的修改当有强烈的视觉信号支持变化时，以说明Ml中的噪声和缺失信息。我们为联合深度模型采用了类似AlexNet的架构[24]。也就是说，我们有5个卷积层，然后是两个全连接层和一个用于属性预测的Sigmoid激活函数，然后是另一个用于类别分类的softmax激活的全连接层。在联合优化的最后，我们得到新的二进制asso-通过对最后一层M的权重进行阈值化来计算类和属性M的关联矩阵。优化的关联Ml重新定义了最初基于Ml的每个属性的正和负标签分配。3.3. 深层属性模型最后，给定上一步中的优化关联M，我们训练一个用于属性预测的深度模型（图1）。第3b段）。该网络的架构与用于联合优化。然而，我们删除了类别预测的最后一层，并在属性预测层之前添加了一个新的全连接层。也就是说，网络由5个卷积层和3个完全连接的层组成。最后一个属性预测层后面是Sigmoid激活函数。我们使用其中s（ai|X）是图像X中的t_trib_ai的预测得分，a_c_m是类c_m的属性，并且分类得分被归一化为具有零均值和单位stan。标准偏差我们使用相同的公式来分类零射击学习中看不见的类别。然而，在这种情况下，小说类的关联是直接从文本描述中估计出来4. 评价在本节中，我们提供了一个全面的评估我们的模型在选择一组好的属性，关联优化和预测语义属性。此外，我们还评估了我们的深度属性模型在零次学习中的表现及其在数据集上的泛化特性。数据设置通过我们的实验，我们使用 ImageNet 的ILSVRC 2012数据集[42]。它包含1000个类别和超过1。200万张图片我们收集arti- cles为每个同义词集的数据集查询维基百科API与不同的条款，在每个同义词集。这将产生1100篇文章，大约80500个独特的单词。所有文档都经过预处理，以删除非字母字符，单词将采用小写和词干处理。为了避免对某些类别的冗长文章的偏见，我们截断了文章最大长度为500W。我们为集合中的每个文档提取一个tf·idf（termfrequency·in versedocumentfrequency）嵌入。tf·idf通过计算单词在文档中出现的频率来衡量该单词的重要性出现在文档中的频率以及它在所有其他文档中出现的频率。我们使用归一化的tf和对数idf分数[43]。对于每个同义词集，我们将其所有文档的嵌入平均以获得其最终表示。对于属性发现，我们使用潜在狄利克雷分配模型学习了一组200 个主题[9]。我们根据经验设定λ=0。001，γ=20，发现的最大属性数b = 1200。我们为联合深度模型设置超参数β1和β2，使得三项的初始损失具有相似的幅度。对于最终的深度属性模型，我们从先前为联合优化训练的网络中初始化卷积层的权重。所有网络都使用Adam [22]进行随机优化训练，初始学习率为0.001，权重衰减为5e-4。621模型相关性（%）↑垃圾（%）↓显著性（%）↑mRMR20.853.033.9MinCorr14.420.646.9LLC-fs29.142.943.1MCFs18.613.652.5我们44.52.671.0图4：我们的方法对基线的属性嵌入的排名性能4.1. 选择属性词汇表我们从两个角度评估所选属性词汇的质量：1）属性嵌入在捕获对象相似性方面的性能和2）词汇显著性。基于属性的类嵌入一个好的类别属性表示应该捕捉类之间的相似性。也就是说，视觉上相似的类别应该共享它们的大部分属性，并具有相似的嵌入。为了捕捉属性嵌入的质量，我们根据属性嵌入空间中的相似性对类进行我们使用归一化贴现累积增益（nDCG）[44]来比较不同的方法：表2：所选词汇的显著性得分属性嵌入的质量。词汇显着性在这里，我们探讨了所选词汇与人类对显着语义属性的理解之间的关系。为此，我们选择了100个在ImageNet层次结构中均匀分布的同义词集对于每个类别，我们从字典中随机选择50个单词与这门课的平均TF· IDF分数我们作为ked5 annota-将每类词与其50个词之间的关联分为4类：1）积极的：如“马有尾巴”; 2）消极的已知：当注释者没有知识来决定类型时; 4）垃圾：当单词本身没有明确的概念来定义关联时。大多数注释者同意84%的标签。标签被分配为（25. 百分之一的积极，47。8%的负面，1。9%未知，25。2%的垃圾）。在这4个类别中，我们对积极和垃圾类别感兴趣，因为它们描述了单词的语义显着性。否定类型和未知类型不提供关于语义的太多信息，因为具有否定关联的词可能与其他类具有肯定关联，而未知类型反映了缺乏对注释者的了解我们得到了一个词从注释词汇wi∈WA到en的概率nDCG =DCGkIDCGk 其中，DCGk=Σki=12reli−1log2（i+1）（十）在正态关联p（+）中的g年龄|wi）或i ng垃圾p（J|（i）通过边缘化所有注释器和对象类。我们然后定义所选词的加权相关性使得reli是第i个排序样本的相关性，并且相关性（S）=Σ<$wi∈S<$WAp（+|Wi），类似地wj∈WAp（+|（wj）理想的等级得分IDCGk是用于类的等级的得分根据每个类别在ImageNet垃圾（S）=wi∈S|Wi）对于垃圾分数。最终wj∈WAp（J|（wj）等级制度作为基准，我们考虑几种常见的特征选择方法：1）最大相关性和最小相关性（mRmR）[35]; 2）多聚类特征选择（MCFS）[10]; 3）基于局部学习的聚类方法（LLC-fs）[49]; 4）最小相关性（MinCorr），选择与词汇表其余部分相关性最小的单词。图4显示了所有基线的排名质量，我们的方法在排名列表中的位置K=10我们的方法优于所有基线，并产生一个嵌入，捕捉类别内的相似性。我们还考虑sider不同的变体，我们的方法，从方程中删除一些六、在我们的子模块优化中使用的每个术语都对然后，S的显著性得分被定义为以下两者的平均值显著性（S ）= 0。5（相关性（S）+（1-垃圾（S）。表2显示了我们的方法的性能，上一节的基线。虽然一些基线在获得良好的属性嵌入方面表现相对较好，但这些方法所选择的大部分单词并不具有明确的语义概念。我们的方法具有更高的相关性得分，同时在所有基线中垃圾得分最低。这表明我们的方法发现的属性集与人类的语义属性概念相关。4.2. 属性预测在选择了一组突出的属性后，我们在这里评估我们的模型在预测这些属性时的性能622模型属性准确度AP类别（DAP）前1名AP联合模型属性模型表3：属性预测性能。(a)（b）第（1）款图5：平均精密度（AP）和受试者工作特征下面积（AUC）中单个属性的性能图像中的贡品表3显示了属性预测精度和平均精度（AP）。它还报告了对象Top1分类准确度和基于预测属性的AP，并且当使用DAP模型时（等式2）。第9段）。在表3的第一部分中，有趣的是，使用语言先验正则化最后一个fc层的权重将属性预测的性能提高了5%的准确度和6%的AP。与此同时，它将对象分类Top1的准确率提高了15%。这些结果表明，从语言中获得的边信息对深度模型的性能有显着影响此外，非正则化网络学习与Ml中的那些完全不同的类和属性之间的关联。只有13%的积极关联在这种情况下，与从文本描述中了解到的那些共享。这表明在这个模型中属性和类之间的语义联系丢失了相比之下，正则化模型保留了语义，并保留了Ml中超过93%的正关联。属性模型最后，与直接使用Ml训练的模型相比，用优化的关联M训练深度属性模型产生更好的模型。这个indi-我们的联合模型成功地解释了一些的噪声和丢失的数据。用M神经网络训练的深层属性模型具有更高的属性和对象预测性能。此外，我们的深层属性模型通过语义属性层对对象进行预测，达到了75%的Top5对象分类准确率。这是属性模型令人印象深刻的性能，因为它表4：Imagenet的200个看不见的类的零射击性能（Top5精度）。几乎匹配具有直接用于对象分类的相同架构的深度模型的性能（80%的准确率）。图5显示了各个属性的性能约80%的属性可以预测，平均精度优于0.6。4.3. 零拍学习语义属性的一个重要特征是它们能够形成一个共享的知识层，该知识层可以被转移到看不见的类。我们在这里评估的性能，我们发现的属性在分类看不见的类（即。零触发学习）。虽然ImageNet中没有标准的zero-shot split，但文献中使用了两种常见的split，并在ILSVRC 2010类中定义，从[39]中拆分A，从[30]中拆分B。他们两人都将这些类别分为800个可见类别和200个不可见类别。我们像以前一样训练我们的表4显示了我们的模型在2010年的Top5准确度。两个分裂（A B）。我们的深度属性模型在分割A上的性能比最先进的模型高11%，在分割B上高5%。此外，我们分析了我们的模型对类似于[18]的可见类的偏见。在这个测试设置中，在预测对象类别时，可见和不可见的标签都被视为候选。我们的模型在分割A B上实现了15%的准确性，与最先进的技术相比，偏差小得多，提高了6%。此外，如果我们假设测试数据的可用性为一批（Ours-BT），我们可以得到一个更好的估计的平均值和标准偏差的分类器得分在方程。9 .第九条。这导致性能额外提高3%。由于在零拍设置中，我们优化了关联，在仅使用来自所看到的类别的数据的情况下，我们在表4的最后一部分（分割C）中分析了我们的模型在具有和不具有关联优化的情况下的性能。在这里，我们再次发现，关联优化并没有导致偏向所看到的类的性能，而是无语言先验55.222.430.419.0w/ 语言优先60.328.945.239.5无关联选项74.864.151.448.3w/ 关联选项76.968.255.954.2模型分裂200个标签1000个标签Rohrbach等人 [39]第三十九届一34.8-太平洋标准时间[38]一34.0-我们一46.115.9我们的-BT一48.020.2Mensink等人 [30个]B35.71.9[18]第十八话B31.89.0ConSE [33]B28.5-AMP（SR+SE）[19]B41.0-我们B46.315.2我们的-BTB49.020.0Ours（w/o assoc. 选择）C45.814.8623表5：各种型号在AwA和aPY上的零发射性能。监督模型使用手动定义的属性（A），而非监督方法依赖于其他来源，如Word 2 Vec（W）[31]和GloVe（G）[36]等单词嵌入;基于层次结构的信息（H）[32]或文本描述（T）。它改善了模型的性能。总的来说，我们看到优化关联在类别内和类别间预测中都有好处。为了将我们在ImageNet中学习的模型的性能与手动选择的属性词汇表进行比较，我们在两个公共数据集上评估了我们的深度属性模型：1）具有属性的动物（AwA）[25]：其具有50个动物类别，分为40个可见类别和10个不可见类别，具有84个预定义的语义属性。2)aPascal/aYahoo（aPY）[16]：它有32个类，分为20个可见类和12个不可见类，具有64个语义属性。我们为每个看不见的类别收集文章，以提取它们与我们发现的属性的关联词汇. 我们考虑使用原始连续关联（即， tf·idf值）和二元关联。我们在两个数据集上的不可见类别上测试我们的模型，而无需对训练的深度模型（现成的）进行任何微调。从表5中我们可以看出，我们的模型优于所有未监督的零射击方法。与[15，37]中使用与我们类似类型的边信息的方法相比，我们有高达13%的改进。此外，我们的模型优于基于手动定义的属性词汇表并使用AlexNet模型[24]甚至GoogLeNet [45]的图像嵌入的DAP模型。这证明了我们的模型在数据集上令人印象深刻的泛化特性文本长度在这里，我们探索文章长度对预测性能的影响。我们不同的长度考虑部分的文章从100到1000字。然后，我们从截断的文章中提取AwA和aPY中看不见的类的关联图图6显示了模型在这种情况下的性能我们注意到，文章的最佳长度增加，(a) AwA（b）aPY图6：不同文本描述长度的零触发性能。与数据集中类别粒度的相关性。对于只包含动物类的AwA，平均需要更长的文章（400到600字）来充分提取判别关联。相比之下，aPY中的类别更容易用较短的文章（200字）分开。此外，我们看到大多数重要属性在文章的早期就提到了，当我们考虑相对较长的文章（超过800字）时，性能会下降。在这两个数据集中，我们看到，在大多数情况下，连续4.4. 发现的属性使用我们的模型，我们已经发现并学习了1636个语义属性，描述了 ImageNet （ ILSVRC 2010 ILSVRC2012）中的1360个类别，超过120万张图像。这相当于大约200万个类-属性关联。平均而言，每个属性在29个类别之间共享，每个类别大约有33个活动属性。一些最常见的属性（有100多个类别）是水，黑色，红色，品种，尾巴，金属，外套，设备，狩猎，塑料，黄色和头发。一些最不共享的属性（少于10个类别）是盒式磁带，牛仔，南瓜，毛衣，敞篷车，弹道，驼峰，斧头，钻孔，洗衣，现金和被子。5. 结论我们提出了一种新的端到端的方法来发现和学习属性在一个大规模的形式文本描述。我们的模型发现了一个突出的，多样的和歧视性的属性词汇，以及与人类的理解语义属性。此外，为了考虑文本语料库中的噪声和缺失数据，我们建议在联合深度模型中使用语言先验来优化类-属性关联。在ImageNet上的评估我们的模型在无监督零触发学习中表现优于最先进的技术，并且在数据集上具有很好的泛化能力。模型侧信息。AWAAPY受监督的审计[26]第二十六话一54.031.9[26]第二十六话一59.537.1无监督的JavaScript[18]第十八话W44.525.5Elhoseiny等人[第十五条]不55.330.2ConSE [33]W46.122.0SJE [2]G + H60.1-HAT [3]H59.731.1[41]第四十一话不58.5-Changpinyo等人[第十一届]W57.5-Qiao等人[37]第三十七届不66.5-Xian等人[48个]W + G + H66.2-CAAP [4]W68.649.0我们的（二进制关联）不77.357.6624引用[1] 维基百科的大小。 https://en.wikipedia.org/wiki/Wikipedia：Size_of_Wikipedia. 1[2] Z. Akata、S.里德D.沃尔特，H.Lee和B.席勒细粒度图像分类的输出嵌入评估。CVPR，2015。二、八[3] Z. Al-Halah和R.Stiefelhagen 如何转账？通过语义属性的层次转移的零射击目标识别。IEEEWinter Conference onApplications of Computer Vision（WACV），2015年。二、五、八[4] Z. Al-Halah，M. Tapaswi和R. Stiefelhagen恢复缺失的链接：预测无监督零次学习的类属性关联在CVPR，2016年。二、八[5] L. AlSumait，D.Barbará，J.Gentle和C.多梅尼科尼LDA生成模型的主题重要性排名在2009年的欧洲机器学习会议上4[6] A. Atamtürk和V.纳拉亚南次模背包多面体。离散优化，6：333-344，2009年。4[7] J. L. Ba，K.Swersky，S.Fidler和R.萨拉赫季诺夫使用文本描述预测深度零拍摄卷积神经网络。在ICCV，2015年。2[8] T. L. Berg，A. C. Berg和J.施从有噪声的Web数据中自动发现和表征属性。ECCV，2010年。2[9] D. M. Blei、A. Y. Ng 和M. I. 约旦 .潜在Dirichlet分配Journal of Machine Learning Research ， 2003 年 3 月。三、五[10] D. 蔡角，澳-地Zhang和X.他外多类数据的无监督特征选择InKDD，2010. 6[11] S. Changpinyo，W.-L. Chao湾Gong和F.煞用于零次学习的合成分类器。在CVPR，2016年。8[12] Q. Chen，J. Huang，R.费里斯湖M.布朗，J.董，和S.燕.基于细粒度服装属性的人物描述深度领域自适应。CVPR，2015。1[13] X. Chen ，中国山核桃 A. Shrivastava 和 A. 古普塔。NEIL：从Web数据中提取视觉知识。InICCV，2013. 2[14] S. K. Divvala，A. Farhadi和C. Guestrin.学习关于任何事情的一切：Webly监督的视觉概念学习。CVPR，2014。2[15] M. 埃尔霍塞尼湾Saleh和A.埃尔加马尔写一个分类器：使用文本描述的零射击学习。InICCV，2013. 二、八[16] A. 法尔哈迪岛Endres、D.Hoiem和D.福赛斯通过属性描述对象。CVPR，2009。一、二、八[17] V.Ferrari和A.齐瑟曼。学习视觉属性。在NIPS，2008年。2[18] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩M. Ranzato和T. 米科洛夫DeViSE：一个深度视觉-语义嵌入模型。在NIPS，2013年。二七八[19] Z.傅氏T. Xiang、拟青霉E. Kodirov和S.龚基于语义流形距离的零次目标识别CVPR，2015。7[20] S. 藤重次模块化功能和优化，第 58 卷。 ElsevierScience，2005年。4[21] E. H.黄河，巴西-地索彻角D. Manning和A. Y. Ng. 我-通过全局上下文和多个单词原型计算语言学协会（ACL），2012年。2[22] D. P. Kingma和J.L. BA. ADAM：一种随机优化方法2015年，国际会议。5[23] A.克劳斯湾麦克马汉角Guestrin和A.古普塔。RO-BUST子模块观测选择。 Journal of Machine LearningResearch，9：2761-2801，2008。4[24] A. 克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行ImageNet分类NIPS，2012年。五、八[25] C. Lampert，H. Nickisch和S.伤害。学习通过类间属性传递检测不可见的对象类CVPR，2009。一、二、五、八[26] C. Lampert，H. Nickisch和S.伤害。基于属性的零镜头视觉对象分类。PAMI，2013年。1、8[27] J. Leskovec，A.克劳斯角盖斯特林角Faloutsos，J. Van-Briesen，和N. 一眼网络中经济高效的爆发检测InKDD，2007. 4[28] M.- y. Liu，O. Tuzel，S. Ramalingam和R.切拉帕熵率聚类：通过最大化子模函数服从拟阵约束的聚类分析PAMI，36，2014. 3[29] T. Mensink，E. Gavves和C. G. M.斯诺克COSTA：零发射分类的共现统计。CVPR，2014。2[30] T. Mensink，J.Verbeek、F.Perronnin和G.楚卡大规模图像分类的度量学习：以接近零的成本推广到新类。ECCV，2012年。7[31] T. Mikolov，G. Corrado，K. Chen和J. Dean.向量空间中词表示的有效估计。InICLR，2013. 二、八[32] G. A.米勒WordNet：一个英语词汇数据库。ACM的通信卷。38，11号：39-41. ，1995年。二、八[33] M.诺鲁齐T.米科洛夫，S。本焦湾辛格，J.史伦斯，A.弗罗姆，G。S. Corrado，J。D

下载后可阅读完整内容，剩余1页未读，立即下载