多模态语料库中的图像与文本相关主题的自监督学习

71 浏览量更新于2023-10-15 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过将图像嵌入文本主题空间路易斯·戈麦斯西班牙UAB计算机视觉lgomez@cvc.uab.esMarcpaleal RusinBogol西班牙UAB计算机视觉marcal@cvc.uab.es亚什·帕特尔CVIT，KCIS，IIIT海得拉巴，印度yash. students.iiit.ac.inDimosthenis Karatzas计算机视觉中心，UAB，西班牙dimos@cvc.uab.esC.V. JawaharCVIT，KCIS，IIIT海得拉巴，印度jawahar@iiit.ac.in摘要针对新计算机视觉问题的当前深度架构的从头开始的端到端训练将需要ImageNet规模的数据集，而这并不总是可能的。在本文中，我们提出了一种方法，能够利用免费提供的多模态内容来训练计算机视觉算法，而无需人工监督。我们提出了通过挖掘大规模的多模态（文本和图像）文档语料库来进行视觉特征的自监督学习的思想我们表明，通过训练CNN来预测特定图像更有可能作为插图出现的语义上下文，可以有效地学习辨别性视觉特征。为此，我们利用隐藏的语义结构中发现的文本语料库与一个著名的主题建模技术。我们的实验表明，与最近的自监督或自然监督方法相比，在图像分类，对象检测和多模式检索方面具有最先进的性能。1. 介绍一幅画胜过千言万语。当我们读到一篇关于未知物体、事件或地点的文章时，我们非常欣赏它伴随着一些支持文本信息的图像。这些图像补充了文本描述，同时为我们的想象提供了因此，插图文本在*这些作者对这项工作做出了同样的图1：我们的CNN学习预测图像作为插图出现给定一篇图文并茂的文章，我们将其文本信息投影到主题建模框架提供的主题概率空间然后，我们使用这种语义级表示作为CNN训练的监督信号。我们的文化：报纸文章、百科全书条目、网页等。我们能利用所有这些可用的多模态内容来训练计算机视觉算法而不需要人工监督吗？训练深度网络需要大量的注释数据。大规模注释数据集的出现[5]无疑是深度学习对几乎所有计算机视觉任务产生巨大影响的关键因素之一。然而，手动注释这些数据集所需的人力资源量是一个问题。本文的目标是通过利用插图文章中图像和文本之间的相关性，提出一种替代解决方案，以完全监督CNN的训练在大多数情况下，人类生成的数据注释由不同粒度的文本信息组成，具体取决于它们所处理的视觉任务：一个单词来识别一个42304231(a)（b）第（1）款（c）第（1）款图2：关于特定实体的插图维基百科文章，如更广泛主题的图像总数，例如“草食性哺乳动物”（c）的数量可轻易达到数百或数千只。对象/地点（分类）、描述图像的单词列表（标记）或所示场景的描述性短语在本文中，我们认为，在插图文章中找到的文本可以作为一种类型的图像符号，虽然是一个非常嘈杂的。这种方法的主要好处是可以“免费”获得这些注释。最近在计算机视觉的自我监督或自然监督学习方面的工作已经证明了使用非视觉信息作为视觉特征学习的自我监督形式的成功[1，41，6，25]。令人惊讶的是，直到现在，在CNN训练的自监督方法中，文本模态一直被忽视。在本文中，我们提出了一种方法，执行自监督学习的视觉特征，通过挖掘大规模语料库的多模态Web文档（维基百科）。我们声称，通过训练CNN来预测特定图像更有可能作为插图出现的语义上下文，来学习区分特征是可行的。为此，我们在主题级别表示文本信息，通过利用潜在狄利克雷分配（LDA）主题建模框架[3]发现的隐藏语义结构，并使用此表示作为视觉学习的监督，如图1所示。如图2所示，使用主题级文本描述符背后的直觉是，关于特定对象（例如，特定的动物）在我们的数据收集中是有限的，而很容易找到足够多的代表更广泛对象类别的图像，gories（例如“哺乳动物”）。作为这种方法的结果，我们将要学习的预期视觉特征对于给定主题将是通用的，但对于其他更具体的计算机视觉任务仍然有用我们的主要动机是探索语言语义作为学习视觉特征的监督信号有多强。在本文中，我们证明了CNN可以从嘈杂和非结构化的文本注释中学习通过训练CNN将图像直接投影到文本语义空间中，我们的方法不仅能够在没有大型注释数据集的情况下从头开始学习视觉特征，而且还可以以自然的方式执行多模态检索，而无需任何额外的注释或学习工作。本文的贡献如下：首先，我们提出了一种方法，通过利用图像和它们出现的语义上下文之间的相关性来执行视觉特征的自监督特征学习。其次，我们通过实验证明，学习到的视觉特征在标准基准测试的图像分类、对象检测和多模态检索任务中提供了与最近的自监督和无监督算法相当或更好的性能。2. 相关工作用于学习视觉特征的无监督数据依赖方法的工作为此，已经提出了许多非监督算法，例如稀疏编码、受限玻尔兹曼机（RBM）、自动编码器[44]和K均值聚类[4，8，20]。然而，尽管这些方法在几个无监督学习基准数据集中取得了成功，但不存在与真实世界图像一起工作良好的通用作为完全无监督算法的替代方案，最近人们对自我监督或自然监督方法越来越感兴趣，这些方法利用与图像内在相关的非视觉信号作为监督视觉特征学习的一种形式。Agrawal等人[1]利用由安装在车辆上的里程传感器获得的自运动信息来预训练CNN模型。WangGupta [41]通过利用跟踪算法的输出来使用视频中对象的相对运动。Doersch等人[6]通过预测图像内图像块的相对位置来在Owenset al.[25]监控信号来自与视觉互补的模态（声音）。在本文中，我们探索了一种不同的形式，文本，用于CNN特征学习的自我监督。如前所述，文本是许多计算机视觉任务中图像注释的默认选择。这包括经典的图像分类[5，10]，注释[9，17]和标题[24，23]。在本文中，我们将其扩展到更大的水平，4232通过主题模型捕获文本语义进行抽象。此外，我们避免使用任何人为的监督杠杆之间的相关性图像和文字在大量丰富的语料库中的说明网络文章。我们的方法与各种图像检索和注释算法密切相关，这些算法也使用主题建模框架，以便将文本和图像嵌入到公共空间中。多模态LDA（mmLDA）和对应LDA（cLDA）[2]方法通过查找两组隐藏主题之间的相关性来学习图像特征和文本标题LDA的监督变化见[30，42，28]，其中所发现的主题由分类任务感兴趣的语义规则驱动。Sivic等人[33]采用图像的BoW表示来发现图像中的对象，使用pLSA [16]进行主题建模。Feng等人[11]使用文本和图像的联合BoW表示来学习LDA。大多数跨模态检索方法的工作原理是将不同模态的数据表示到一个公共空间中，在这个公共空间中，与感兴趣的相同主题相关的数据该领域中的无监督方法利用共现信息来学习不同模态的共同表示。Verma等人[36]使用LDA [3]进行图像到文本和文本到图像检索。[29，13，27，22]中提出的方法使用典型相关分析（CCA）来建立不同模态数据之间的关系Rasiwasia等人[29]提出了一种跨模态检索的方法，通过使用LDA [3]表示文本，使用BoW和CCA来查找跨不同模态的匹配。我们的方法与这些图像注释和图像检索方法相关，因为我们使用LDA [3]主题概率作为图像和文本的共同表示。然而，我们与所有这些方法的不同之处在于，我们使用文本的主题级表示来监督卷积神经网络的视觉特征学习我们的CNN模型通过学习预测图像作为插图出现的语义背景，学习可以用于其他视觉特征的通用视觉特征。3.1. LDA主题建模我们的自监督学习框架假设与数据集中图像相关的文本信息是由隐藏主题的混合生成的。与2中讨论的各种图像注释和图像检索方法类似，我们使用潜在狄利克雷分配（LDA）算法[3]来发现这些潜在主题，并将与给定图像相关的文本信息表示为所发现主题集的概率分布在主题级别而不是在单词级别（BoW）表示文本为我们提供了：（1）更紧凑的表示（降维），以及（2）描述符的语义上更有意义的解释。LDA是文本语料库的生成统计模型，其中每个文档可以被视为各种主题的混合物，并且每个主题的特征在于词上的概率分布。LDA可以表示为三级分层贝叶斯模型。给定一个由M个文档组成的文本语料库和一个包含N个词的词典，Blei等.定义文档d的生成过程[3]如下：• 取θ<$Dirichlet（α）。• 对于d中的N个字wn中的每一个：– 选择一个主题znMultinomial（θ）。– 从P（w n）中选择一个单词wn|zn，β），一个以zn为条件的多项式概率。其中θ是混合比例，从带参数α的Dirichlet先验中提取，α和β都是语料水平参数，在语料库生成过程中采样一次。每个文档根据主题比例z1：K和词概率β生成。文档d在语料库中的概率定义为：任务类似的想法是探讨在工作的戈多和Larlus [14]在这些相同的诉讼，其中图像帽-利用要素来学习全局视觉表示∫P（d| α，β）=YNP（θ|α）βΣP（zK |θ）P（wn |zK，β）dθ语义检索3. TextTopicNet为了训练 CNN 从图像中预测语义上下文（TextTopicNet），我们提出了一种双重方法：首先，我们在由相关文本和图像对组成的数据集的文本语料库上学习主题模型（即，插图文章）。其次，我们训练了一个深度CNN模型来直接从图像像素预测文本表示（主题概率）。图1显示了该方法的示意图。θn=1zK在文档语料库上学习LDA [ 3 ]提供了两组参数：给定主题P（w）的单词概率|z1：K）和给定文档P（z1：K）的主题概率|d）.因此，每个文档都是按照主题表示的概率z1：K（K是主题的数量）和主题上的单词概率。任何新的（看不见的）文档都可以通过将其投影到主题空间中来表示在学习的LDA模型的主题上的概率分布。4233103102100图3：ImageCLEF维基百科集合上各种语义查询的相关图像数量（对数尺度）[35]。020，00040，00060，000大学生校长学校AlbumBandMusicSong发布汽车模型发动机系统车轮图4：LDA分析发现的3个主题的前5个最相关的单词（左），以及相同主题的前5个最相关的图像（右）。总体词频以蓝色显示，主题内的估计词频以红色显示。3.2. 训练CNN来预测语义主题我们训练CNN来从图像中预测文本表示（主题概率分布）。我们的直觉是，我们可以通过训练CNN来学习有用的视觉特征，以预测特定图像更有可能作为插图出现的语义上下文。对于我们的实验，我们使用两种不同的体系结构。一个是8层CNN CaffeNet [18]，这是AlexNet [21]模型的复制，但有一些不同之处（它不使用重新照明数据增强进行训练，并且池化和归一化层的顺序被切换）。另一个架构是6层CNN，从CaffeNet中移除前2个卷积层这个较小的网络用于对微小图像进行实验为了学习预测目标主题概率分布，我们最小化图像数据集上的S形交叉熵损失我们使用随机梯度下降（SGD）优化器，基本学习率为0。001，乘以0的情况。每50，000次迭代为1，动量为0。9 .第九条。的批量大小设置为64。通过这些设置，网络在120，000次迭代后收敛。我们在Wikipedia ImageCLEF数据集中提供的维基百科文章的子集上训练我们的模型[35]。ImageCLEF2010年维基百科收集了237，434个维基百科图片和包含这些图片的维基百科条目。一个重要的观察是，数据收集和过滤不是语义驱动的。原始的因此，我们有一个广泛的语义主题分布，类似于整个维基百科或其他常识数据集。从ImageCLEF检索查询的相关性评估的基础事实中提取的数据的语义分析如图3所示。虽然数据集也提供了人工生成的注释，但在本文中，我们只使用原始的维基百科文章及其图像从头开始训练CNN我们只考虑ImageCLEF维基百科集合中的英文文章我们还过滤小图片（256像素）和JPG以外格式的图片（维基百科将照片图像存储为JPG，并使用其他格式的数字图像）。<这样，我们的训练数据由100，785张图片和35，582篇独特的文章组成。我们通过随机裁剪和镜像来使用数据增强。图4显示了以下三个词的前5个最相关的词：通过LDA分析发现的主题，以及与这些主题最相关的前5个图像。我们认识到，所发现的主题对应于广泛的语义类别，人的肖像与天空的山卫星图像邮票赛车白天的桥梁火车和机车空中风景图片民用飞机历史城堡关闭树在阶段的音乐家城市在晚上港口球场的网球选手星和星系多雪的冬天风景足球体育场在日光的摩天大楼弹吉他的人们分形道路街道标志沙漠风景关闭瓶在市场上购物法拉利红色帆船国际空间站红色水果棒球游戏建筑工地篮球比赛关闭海日落或日出Videogames屏幕截图发射航天飞机太阳能电池板骑士天线近摄地球从空间飞机驾驶舱土星有庭院的白色房子与云彩的活火山棕榈树穿红色衣服的女人苏格兰的湖泊人们在笑黄色的公共汽车北极熊天空中的闪电DNA螺旋冲浪在波浪红番茄飞行热气球湿婆绘画或雕塑固定电话鲨鱼水下蜘蛛和webcob脑扫描与立体主义相关的绘画圣诞树切尔诺贝利灾难在甜点4234先验地，很难找到最适当的图示。我们仍然观察到，每个主题的最具代表性的图像呈现出一些模糊性，因此允许CNN学习区分特征，尽管出现在同一主题的文章中的其他图像引入了噪声。另一方面，给定的图像很少对应于单个语义主题。因为根据定义，LDA发现的主题具有一定的语义重叠。在这个意义上，我们可以把预测主题概率的问题看作是一个多标签分类问题，其中所有类都表现出很大的类内变异性。这些直觉促使我们选择S形交叉熵损失来预测被解释为主题概率的目标，而不是单个主题的一个热门向量。3.3. 视觉特征一旦TextTopicNet模型按照第3.1节和第3.2节中的步骤进行了训练，它就可以直接用于图像检索设置。此外，它可以很容易地扩展到图像注释或字幕系统，通过利用共同的主题空间，其中文本和图像可以由LDA和CNN模型投影然而，在本文中，我们更感兴趣的是分析我们通过训练网络来预测语义主题分布所学到的视觉特征的质量。我们认为，从公共主题空间中学习到的特征不仅具有足够的区分能力，而且比使用其他最先进的自监督和无监督的方法。因此，所提出的自监督学习框架将在不同的计算机视觉任务中具有广泛的应用。本着这种精神，我们建议使用TextTopicNet作为卷积特征提取器和CNN预训练方法。我们将在下一节中评估这些场景，并将在不同基准测试中获得的结果与最新技术进行比较。4. 实验为了证明我们的文本主题预测器（TextTopicNet）学习的视觉特征的质量，我们进行了几个实验。首先，我们分析了 TextTopicNet 顶层特征在 PASCALVOC 2007数据集上用于图像分类的质量[10]。其次，我们将我们的方法与PASCAL和STL- 10 [4]数据集上的图像分类以及PASCAL中的对象检测的最新无监督学习算法进行了比较。最后，我们进行定性实验图像检索视觉和文本查询。对于我们所有的实验，我们使用相同的LDA主题模型学习了35，582英语语料WikipediaarticlesfromtheImageCLEFWikipediacollection [35].从原始文章中，我们删除停止词和标点符号，并执行词的词形还原。通过过滤出现在少于20篇文章或超过50%的文章中的那些词，从处理后的文本语料库中制成词字典（50，913个词）在选择模型中的主题数时，我们必须考虑到，随着主题数的增加，训练语料库的文档被划分为更细的集合，并且增加主题数也可能导致模型困惑的增加[3]。因此，主题的数量是我们模型中的一个重要参数。在下一节中，我们将采取一种实用的方法，通过对验证数据进行分析，以经验的方式确定模型中的最佳主题数量4.1. 用于图像分类的无监督特征学习在这个实验中，我们评估了当使用第3节中解释的自监督方法进行训练时，6层CNN（CaffeNet）用于图像分类的学习视觉特征有多好。在[25]之后，我们从CNN的顶层提取特征，并训练一个与另一个。休息线-在PASCAL VOC2007数据集中进行图像分类的耳SVM。首先，我们使用数据集的标准训练/验证分割来执行模型选择和参数优化。图5显示了在我们的模型中使用fc 7特征对不同数量的主题进行SVM分类的验证准确性最好的验证性能获得了40个主题。该配置在本节的其余实验中保留。47464544434210 20 30 40 50 60 70 80 90 100一些议题图5：1与在我们的方法中，通过改变LDA [3]的主题数量，在PASCAL VOC 2007上进行剩余线性SVM验证%mAP表1和表2比较了我们在PASCAL VOC 2007测试集上使用不同的自监督学习算法的结果。所有其他方法的得分均来自[25]。我们在表2中认识到，使用文本语义作为视觉特征学习的监督，在这个实验中执行所有其他模态在表1中，注意到这样的事实，即对于最困难的类，我们的池5特征实质上比其余特征更具区分性，参见例如。“bottle”，“pottedplant”或“cow”。表2中的TextTopicNet（COCO）对应于使用MS-COCO [23]图像及其地面实况标题注释作为文本内容训练的自从MS-COCO确认mAP4235方法AerBKBRDBTBTL总线车猫Chr牛din狗小时MBK PRS锅SHP SFATRN电视TextTopicNet（Wiki）6744395320496842433341357057823031396541声音[25]6945385616476545412537287461852639326938Texton-CNN653528461131633041172823645174919335430K-means613127499275834361225216438701814255125运动[41]6735415411356235392130267053782232376134补丁[6]7044436012446652442445317348781428396243自我运动[1]6024213510195724271122186140691312244828ImageNet [21]地方[46]79837160735675802523606680847554515745406074704180807268919042506245566182886263表1：具有池5特征的分类任务的PASCAL VOC 2007每类平均精度（AP）得分方法最大值5pool5FC6fc7TextTopicNet（Wiki）-47.448.148.5声音[25]39.446.747.147.4Texton-CNN28.937.535.332.5K-means [20]27.534.833.932.1跟踪[41]33.542.242.440.2贴片位置[6]美国26.846.1--自我运动[1]22.731.1--TextTopicNet（COCO）-50.753.155.4ImageNet [21]63.665.669.673.6地方[46]59.063.265.366.2表2：PASCAL VOC 2007% mAP图像分类。注释是人工生成的，所以不能将该条目我们训练这个模型的目的是为了表明，拥有更具体的文本内容，如图像标题，有助于TextTopicNet学习更好的特征。换句话说，在我们的方法的自监督信号中引入的噪声与学习特征的质量之间存在明显的相关性。实际上，表2中的ImageNet条目可以被视为完全没有噪声的模型，即每个图像精确地对应于一个主题，并且每个主题精确地对应于一个类（单个单词）。尽管如此，从一个非常嘈杂的信号中学习的TextTopicNet（Wiki）特征，与TextTopic-Net（COCO）模型的特征相比，表现令人惊讶地好作为附加实验，我们计算了表2中的TextTopicNet（Wiki）和声音条目的组合的分类性能。在这里，我们寻求了解如何互补的功能学习两个不同的监督信号。通过使用这些模型的fc7特征的串联，mAP增加到54.81%，表明一定程度的互补性。我们通过使用该方法可视化TextTopicNet卷积单元图6：TextTopic-Net（Wiki）模型的fc 7层中5个单元的前5个激活虽然大多数TextTopicNet单元对通用纹理（如草或水）有选择性，但其中一些也对特定形状，对象和对象部分有选择性。[45，25]。这个实验的目的是获得我们CNN已经学会检测的东西的洞察力。图6显示了我们模型的fc7层中的一组神经元。我们意识到，我们的网络单元是相当通用的，主要是对纹理、形状和对象部分的选择性，尽管也存在一些对象选择性单元（例如，脸）。4.2. 与无监督预训练和半监督方法的在这个实验中，我们通过微调CNN权重到特定的数据集（ PASCAL 和 STL-10 ）和任务来分析 Text-TopicNet在图像分类和对象检测方面的性能。为了微调我们的网络，我们使用以下操作-4236方法Acc.TextTopicNet（Wiki）-CNN-finetuning *76.51%优化策略：我们使用随机梯度下降（SGD）进行120，000次迭代，初始学习率为0。0001（减少0。每30，000次迭代1次），批处理大小为64，动量为0。9 .第九条。我们使用数据增强-TextTopicNet（Wiki）-fc7+SVM *66.00%通过随机作物和镜像来实现在测试的时候，我们跟随-半监督自动编码器[44]74.33%降低平均净响应的标准程序卷积k-means [8]74.10%随机种植10种作物对于对象检测，我们微调我们的CNN与目标编码[43]73.15%使用Fast R-CNN [12]的分类网络，默认示例性convnets [7]72.80%40，000次迭代。无监督预训练[26]70.20%表3比较了我们的图像分类结果，Swersky等人[34]*70.10%基于PASCAL语言的目标检测[37]第三十七话68.23%学习算法K-means（单层网络）[4]51.50%原始像素31.80%TextTopicNet55.743.0声音[25]-44.1K-means [20]56.645.6跟踪[41]62.847.4贴片位置[6]美国55.346.6自我运动[1]52.941.8ImageNet [21]69.673.6[20]第20话我的世界54.243.9[20]第20话：我的世界63.147.2贴片位置[20]第20话65.351.1表3：用于图像分类和对象检测的PASCAL VOC 2007微调%mAP。表4比较了我们在STL-10上的分类准确性在这个实验中，我们使用缩短的6表4：STL-10分类准确度。带星号标记的方法使用外部（未标记）数据。并计算查询（图像或文本）与数据库中所有实体的KL-发散距离。在Ta- 表5我们将我们的结果与[40]和[19]中讨论的监督和非监督多模态检索方法进行了比较。有监督的方法利用与每个图像-文档对相关联的类或类别信息，而无监督的方法不利用。所有这些方法都使用LDA进行文本表示和来自预训练CaffeNet [18]的CNN特征，该特征在监督设置中在ImageNet数据集[5我们意识到我们的自监督方法优于无监督方法，并且在不使用任何标记数据的情况下与监督方法具有竞争力方法图像查询文本查询平均层网络，以便更好地适应图像大小，这个数据集（96×96像素）。我们使用与6层网络相同的超参数进行微调。STL-10上的标准程序是对提供的100，000个未标记的图像进行无监督训练，然后对标记的数据进行监督训练。虽然我们的方法没有直接与表4中的无监督和半监督方法进行比较，但由于不同的方法（自我监督），该实验提供了关于自我监督与完全无监督数据驱动算法的附加值的见解是值得注意的是，我们在训练中没有使用STL-10未标记的数据。4.3. 多模态图像检索我们评估了两种类型的多模态检索任务的学习自监督视觉特征：（1）图像查询与文本数据库，（2）文本查询与图像数据库。为此，我们使用维基百科数据集[29]，它由2，866个图像-文档对组成，分别分为2173对和693对的训练集和测试集。为了检索，我们将图像和文档投影到学习的主题空间中表5：使用监督（底部）和无监督（中间）方法对维基百科数据集[29最后，为了更好地分析我们的自监督TextTopicNet学习功能的性质，我们对图像检索任务进行了额外的定性实验图7显示了给定查询图像的4个最近邻（最左边），其中每行使用从TextTopicNet的不同层获得的特征（没有微调）。从上到下：prob，fc7，fc6，pool5. 查询方法分类检测TextTopicNet39岁58三十八岁。16三十八岁。87CCA [15，29]19号。70十七岁84十八岁77PLS [31]三十5528岁0329岁29[29]第二十九话三十七1328岁23三十二68GMMFA [32]三十八岁。7431岁09三十四91CCA-3V [13]四十49三十六51三十八岁。504237图7：给定查询图像的前4个最近邻居（最左边）。每一行都使用从TextTopicNet的不同层获得的特征（无需微调）。从上到下：prob，fc7，fc6，pool5.图8：给定文本查询的前10个最近邻居（从左到右：“飞机”、“鸟”和“马”）。图像是从PASCAL VOC 2007数据集中随机选择的，在训练时从不显示。可以理解的是，当在主题空间层（prob，40维，顶行）中执行检索时，结果在语义上接近，尽管不一定在视觉上相似。由于使用了较早层的特征，因此结果往往在视觉上与查询图像更相似。图8显示了TextTopicNet的主题空间中给定文本查询的10个最近邻居（从左到右：有趣的是，第一个查询（“airplane”）的检索图像列表通过对文本语义信息的分析，我们的方法学习了图像的多义性表示。5. 结论在本文中，我们提出了一种方法，利用可免费获得的多模态内容来训练计算机视觉算法而无需人类监督。通过将插图文章中的文本视为噪声图像注释所提出的方法通过训练CNN来预测语义上下文来学习视觉特征，在语义上下文中特定图像更可能作为插图出现。贡献的实验表明，虽然学习的视觉特征是通用的广泛的主题，他们可以用于更具体的计算机视觉任务，如图像分类，对象检测和多模态检索。我们的研究结果与最先进的自监督算法的视觉特征学习。TextTopicNet 源代码和预训练模型可在https://git.io/vSotz上公开获取。确认我们非常感谢NVIDIA公司的支持，捐赠了用于本研究的Titan X Pascal GPU。这项工作得到了西班牙研究项目TIN 2014 -52072-P和CERCA计划/加泰罗尼亚政府的部分支持。4238引用[1] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。在ICCV，2015年。二六七[2] D. M. Blei和M.I. 约旦. 对带注释的数据进行建模。在SIGIR，2003年。3[3] D. M. Blei、A. Y. Ng和M. I.约旦. 潜在Dirichlet分配Journal of Machine Learning Research，2003。二三五[4] A. Coates，H. Lee和A. Y. Ng.单层网络在无监督特征学习中的分析。载于AISTATS，2011年。二、五、七[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。一、二、七[6] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在ICCV，2015年。二六七[7] A. 多索维茨基T. Springenberg，M. Riedmiller和T.布洛克斯使用卷积神经网络的判别式无监督特征学习。在NIPS，2014。7[8] A. Dundar，J. Jin，and E. Culurciello。无监督学习的卷积聚类ICLR，2016年。二、七[9] P. Duygulu，K.巴纳德，J.F. de Freitas和D. A.福赛斯对象识别作为机器翻译：学习一个固定的图像词汇。见ECCV，2002年。2[10] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。Pascal视觉对象类（VOC）的挑战. IJCV，2010年。二、五[11] Y. Feng和M.拉帕塔用于图像注释和文本说明的主题模型。HLT，2010年。3[12] R.娘娘腔。快速R-CNN。在ICCV，2015年。7[13] Y. 贡角，澳-地克，M.Isard和S.Lazebnik 一个多视图嵌入空间，用于建模互联网图像、标签及其语义。国际计算机视觉杂志，2014年。三、七[14] A. Gordo和D.拉勒斯超越实例级图像检索：利用标题学习语义检索的全局视觉表示。在CVPR，2017年。3[15] D. R. Hardoon，S.Szedmak和J.肖-泰勒典型相关分析：学习方法的应用概述。神经计算，2004年。7[16] T.霍夫曼基于概率潜在语义分析的无监督学习。机器学习，2001年。3[17] M. J. Huiskes和M. S.卢MIR Flickr检索评价。载于2008年《和平与和解》。2[18] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。InICM，2014. 四、七[19] C.康，S.廖，Y.何，J. Wang，W. Niu，S. xiang和C. 锅跨模态相似性学习：一个低秩双线性公式。InCIKM，2015. 7[20] P. Kr aühenbuühl，C. Doersch，J. Donahue和T. 达雷尔。卷积神经网络的数据2015年，国际会议。二六七[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。四、六、七[22] A. Li，S.Shan，X.Chen和W.高. 基于非对应区域匹配的人脸识别见ICCV，2011年。3[23] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L.Zitnick.MicrosoftCOCO：上下文中的通用对象。2014年，在ECCV。二、五[24] V. Ordonez，G. Kulkarni和T. L.伯格。Im2text：使用100万张带标题的照片描述图像。NIPS，2011年。2[25] A. Owens，J. Wu，J. H.麦克德莫特W. T. 弗里曼和A.托拉尔巴环境声音为视觉学习提供监督。在ECCV，2016年。二五六七[26] T. L. Paine，P.霍拉米湾Han和T.S. 煌根据最新进展对无监督预训练进行分析2015年，国际会议。7[27] J. C. Pereira、E.科维耶洛湾道尔，N.拉西瓦西亚湾R.兰克里特河Levy和N.瓦斯康塞洛斯论关联与抽象在跨模态多媒体检索中的作用。IEEE Transactions on PatternAnalysis and Machine Intelligence，2014。3[28] D. Putthividhy，H. T. Attias和S. S.纳加拉詹主题回归多模态潜在Dirichlet分配用于图像标注。CVPR，2010。3[29] N. Rasiwasia，J. Costa Pereira，E.科维耶洛湾Doyle，G.R.兰克里特河Levy和N.瓦斯康塞洛斯一种新的跨模态多媒体检索方法。见ACM-MM，2010年。三、七[30] N. Rasiwasia和N.瓦斯康塞洛斯用于图像分类的潜在Dirichlet 分配模型。 IEEE Transactions on PatternAnalysis and Machine Intelligence，2013。3[31] R. Rosipal和N. 克莱姆河。偏最小二乘的综述与进展在子空间中，隐含结构和特征选择。2006. 7[32] A. 夏尔马，A.库马尔，H.Daume和D.W. 雅各布斯通用多视图分析：一个有区别的潜在空间。CVPR，2012。7[33] J. 西维克湾C. 罗素，A.A. Efros，A.Zisserman和W.T.弗里曼。发现图像中的对象及其位置。载于ICCV，2005年。3[34] K. Swersky，J.Snoek和R.P. 亚当斯多任务贝叶斯优化。在NIPS，2013年。7[35] T. Tsikrika，A. Popescu和J.克鲁达斯ImageCLEF 2011上维基百科图像检索任务的概述。 CLEF （ NotebookPapers/Labs/Workshop），2011年。四、五[36] Y. Verma和C.贾瓦哈Im2Text和Text2Im：将图像和文本相关联以进行跨模态检索。InBMVC，2014. 3[37] D. Wang和X. Tan.基于c-svddnet的无监督特征学习。模式识别，2016年。7[38] K.王河，巴西-地赫利湖，加-地Wang，W. Wang和T.Tan.跨模态检索的联合特征选择和子空间学习。IEEETransactionsonPatternAnalysisandMachineIntelligence，2016。7[39] K.王河，巴西-地他，W。王湖，加-地Wang和T. Tan.学习耦合特征空间进行跨模态匹配。InICCV，2013. 7[40] K. 王，英-地殷，W.Wang，S.Wu和L.王. 跨模态检索综述。CoRR，2016年。74239[41] X. Wang和A.古普塔。使用视频的视觉表示的无监督学习CVPR，2015。二六七[42] Y. Wang 和 G. 森图像分类和标注的最大间隔潜在Dirichlet分配在BMVC，2011年。3[43] S. Yang，P.罗角，澳-地C. Loy，K.W. Shum和X.唐使用目标编码的深度表示学习。InAAAI，2015. 7[44] J. Zhao，M.马蒂厄河Goroshin和Y.勒昆堆叠的什么地方自动编码器。ICLR，2016年。二、七[45] B. Zhou，中国古柏A.科斯拉A.拉佩德里萨A.Oliva和A.托拉尔巴对象检测器出现在深度场景CNN中。2015年，在NIPS6[46] B. Zhou ，中国古柏 A. Lapedriza ， J. Xiao 、肖氏 A.Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。在NIPS，2014。6

下载后可阅读完整内容，剩余1页未读，立即下载