没有合适的资源?快使用搜索试试~ 我知道了~
巴别塔:结合图像,语言和3D几何学学习多模态视觉吴晓诗1 *HadarAverbuch-Elor2 *Jin Sun2NoahSnavely21清华大学2康奈尔理工大学图1:我们的WikiScenes数据集结合了数十个地标的3D重建,图像和语言描述,如上图所示的巴塞罗那和兰斯大教堂。WikiScenes支持结合不同模态的新任务,例如将语义概念(如3D几何提供的约束-关联语义摘要地标和城市的互联网照片的丰富性和丰富性在过去二十年中导致了3D视觉的显著进步,包括从旅游照片自动3D重建世界然而,可用于这些3D增强的集合的主要信息源-即语言,例如,从图像字幕中-实际上还未被开发。在这项工作中,我们提出了WikiScenes,一个新的,大规模的数据集的WikiScenes形成了一个新的测试平台,用于多模态推理,包括图像、文本和3D几何。我们展示了WikiScenes在图像和3D模型上学习语义概念的实用程序。我们的弱监督框架将图像,3D结构和语义连接起来-利用强大*:表示同等贡献。图像像素和3D点的概念。11. 介绍十多年来,捕捉世界各地旅游地标的互联网照片推动了3D计算机视觉的研究地标的不同照片集合通过底层3D场景几何结构统一,尽管由于不同的照明、季节变化或特殊事件,场景可以从一个图像到下一个图像当学习一系列几何相关的视觉任务时,可以利用这种几何锚定,例如新视图合成[31,26],单视图深度预测[25]和重新照明[51,50],这些任务需要大量不同的训练数据。然而,以前的工作旅游照片的地标几乎完全集中在较低层次的重建任务,而不是1https://www.cs.cornell.edu/projects/babel/4282429更高级的场景理解或识别任务。我们试图将这样的3D增强图像集合连接到一个新的领域:语言自然语言是描述三维世界复杂性的有效方法; 3D场景展示了诸如容易通过语言捕获的组合性以及物理和功能关系的特征。例如,考虑图1中巴塞罗那和兰斯大教堂的图像。1.像这样的大教堂都有共同的元素,比如正面,柱子,拱门,入口,圆顶等它们往往以一致的方式在所有大教堂(以及相关建筑,如长方形大教堂)中进行物理组装。使用现代的运动结构方法,我们可以重建世界大教堂的3D模型,但我们不能直接推断出所有大教堂之间存在的丰富的这样的推理要求的方法,共同考虑语言,图像和3D几何。然而,尽管在图像字幕[48,28,4]和视觉基础[47,21,19]等任务中将图像连接到自然语言描述方面取得了令人印象深刻的进展在这项工作中,我们促进这样的多模态分析与一个新的框架,用于创建3D增强数据集维基共享资源,一个多样化的,众包和自由许可的大 规 模 数 据 源 。 我 们 使 用 这 个 框 架 来 创 建WikiScenes,这是一个新的数据集,包含63K配对图像和文本描述,捕获99个大教堂,以及它们相关的3D重建,如图所示。1. WikiScenes在语言,视觉和3D的交叉点上实现了一系列新的探索。我们展示了WikiScenes的实用程序的具体任务,挖掘和学习语义概念的图像和3D模型的集合。我们的关键见解是,虽然原始文本描述代表了一个弱的,嘈杂的形式,超的语义概念,场景的底层3D结构产生强大的物理约束,授予鲁棒性的数据噪声,可以地面模型。特别是,我们设计了一种新的3D对比损失,利用场景几何规则化学习的语义表示。我们还表明,3D场景几何形状导致改进的视觉语言模型在基于标题的图像检索任务,几何形状有助于增强训练数据与语义相关的样本。总而言之,我们的主要贡献是:• WikiScenes是一个结合了语言、图像和3D模型的大规模数据集,可以促进联合考虑这些模式的研究。• 一种利用3D模型学习语义图像表示的对比学习方法。• 结果表明,我们提出的模型可以将语义概念与图像和3D模型相关联,即使是从未见过的位置。2. 相关工作3D和语言的联合分析 我们最近看到了联合分析3D和语言的开创性努力。Chen等人[11]学习属于ShapeNet数据集的文本和3D形状的联合嵌入[9],并在文本到形状检索和文本到形状生成上演示这些嵌入Achlioptas等[1]学习不同形状语言。为此,他们生成了一个由ShapeNet椅子的三元组组成的数据集,其中话语将一把椅子与其他两把椅子区分开来。与这些以对象为中心的作品相反,Chenet al.[10]考虑完整的3D场景。他们为室内场景构建多模态数据集,并使用自然语言在场景中定位3D对象。我们也考虑3D场景,但在我们的例子中,3D场景捕捉复杂的建筑地标,并且它们的图像和文本描述是从维基共享资源收集视觉与语言最近的许多作品将图像与自然语言描述联系起来。流行的任务包括指令遵循[5,32,8],视觉问题回答[6,15,22,4]和短语本地化[29,49,45]。然而,先前的工作已经表明,结合视觉和语言的模型通常依赖于简单的信号,或者未能共同考虑这两种方式。例如,视觉问题回答技术通常忽略图像内容[3],并且基于视觉的语法获取方法本质上学习简单的名词分类器[23]。我们将互联网收集的信息整合到3D模型中,提供可以更好地连接语言和视觉的物理约束。从互联网收集中提取信息。一些作品挖掘互联网收集捕获对象的著名其他工作分析大规模旅游图像中的相机视点,以自动总结场景[42]或将其分割为组件[41]。其他先前的工作分析图像内容以及文本标签、地理标签和其他元数据来组织图像集合。Crandall等人使用图像特征和用户标签从地理标记的Flickr图像中发现和分类世界地标[13]。3D Wikipedia分析旅游地标的文本描述,利用照片同现来标注特定的3D模型,如万神殿[39]。与上述方法相比,这些方法孤立地对每个位置进行操作,我们的工作旨在发现跨越整个位置类别的语义概念我们进一步使用对比学习框架用于在看不见的地标中检测这些概念。3. WikiScenes数据集我们的WikiScenes数据集由成对的图像和语言描述组成,捕捉世界地标和文化遗址,以及相关的3D模型和相机姿势。2430图2:从根(顶部)到叶(底部)与分层WikiCategories配对的图像WikiScenes来源于维基共享资源中大量的自由许可的众包数据的公共目录,其中包含大量带有标题和其他元数据的图像。在维基共享资源中,地标被组织成语义类别的层次结构。在这项工作中,我们专注于大教堂作为展示我们的框架,虽然我们的方法是通用的,可以应用到其他类型的地标。我们还将发布以清真寺和犹太教堂为特色的配套数据集。为了创建WikiScenes,我们首先使用先前从地理标记的照片中挖掘地标的工作收集了一个目录每一座教堂都对应着维基共享资源上的一个特定类别,每个类别都有一个子类别的层次结构,每个子类别都包含照片和其他相关信息。We refer to a Wikimedia Commonscategory asa维基共享资源类别. 例如,“Cath e ´ draleNotre-Dame de Paris”3是与巴黎圣母院大教堂相它有一个名为“巴黎圣母院中殿”4的后代WikiCategory每个地标我们下载这些子类别下的所有我们为每个图像提取两种形式的文本描述:• 与图像相关的标题,使用自由格式语言描述图像(图1)。• 与每个图像关联的WikiCategory层次结构示例层次结构如图2所示。由于存储在维基共享资源中的数据并不特定于维基百科的任何单一语言版本,我们的数据集包含多种语言的文本,允许未来的多语言任务,如学习跨语言表示[44]。 但是,也可以使用来自单一语言,如英语。总体而言,WikiScenes包含63K带有文本描述的大教堂图像2https://commons.wikimedia.org3https://commons.wikimedia.org/wiki/Category:我们将这些维基 对于重建场景中的每个3D点,我们跟踪其所有相关图像和对应的像素位置。总共有26K的大教堂图像在3D中成功注册。示例3D重建如图1所示。数据集统计。WikiScenes由99个目录组成,跨越五大洲和23个国家。字幕中最常见的语言是英语(45。8%)、法语(11. 西班牙语(10。9%)。巴黎圣母院代表了最大的子集,有5,700个图像描述对。标题中的字数中位数为7;平均值明显更高,因为一些字幕包含关于它们的关联地标的详细摘录。8. 39%的字幕包含至少一个空间连接符,这表明我们的字幕描述了结构不同部分之间的丰富关系。请参阅补充材料,了解包括语言和集合大小在内的属性的详细分布4. 语义概念为了展示我们的数据集中编码的语义知识,我们挖掘WikiScenes与大教堂地标类别相关的语义概念。虽然原始的文本描述是嘈杂的,但我们表明,我们可以通过利用场景内的3D约束来提取一组干净的概念(第二节)。4.1)。然后,我们将这些概念与图像相关联(Sec.4.2),并表明这些概念可以用于训练神经网络,以视觉上识别这些概念。4.1. 语义概念提取为 了 确 定 一 组 候 选 概 念 , 我 们 首 先 集 成 在WikiCategories的叶节点中找到的所有名词的列表,在此表示为叶类别,因为根据经验我们发现叶类别最能代表图像内容。既然我们对ACath% C3% A9 drale_巴黎圣母院4https://commons.wikimedia.org/wiki/Category:巴黎圣母院中殿5我们考虑的空间连接器是:above,over,below,under,beside,behind,from,towards,left,right,east,west。2431∈∈≥标题中的候选词叶类别的候选词图3:我们可视化WikiScenes标题(左)和leaf标签(中)中捕获的原始文本。较大的单词在数据集中更频繁。我们提炼的概念,获得根据第二节中描述的算法。第4.1章在右边抽象概念列表,而不是检测每个地标的特定位置,我们计算图密度:和对象,我们使用现成的命名实体识别(NER)标记器过滤出检测为实体的名词[37]。图3(中)显示了初始候选列表ρ=2|E||V|(|V |−1).(一)作为单词云(更频繁的单词看起来更大)。如图所示,该列表包含确实描述“大教堂”类别中的语义区域的名词,但也包含许多离群值或与“大教堂”类别不具体相关的作为替代,我们也可以直接从标题中提取名词这导致了一个更嘈杂的列表,因为标题通常更长,描述更多样化和详细。此外,利用类别名称会导致更多的图像带有名词描述-超过56K的图像在其叶类别中至少有一个名词,而只有22K的图像具有带有名词的英文标题。为了从初始列表中提取一组干净的语义概念,我们识别并选择通过两个测试的概念:它们(1)在集合中得到良好的支持它们频繁地出现在文本描述中)和(2)连贯性,即它们一致地引用相同或视觉上相似的元素。虽然可以通过简单的频率测量来确定得到充分支持的概念,但从嘈杂的互联网图像及其描述中评估一致性更为困难然而,由于这些图像是通过3D模型物理接地的,因此我们可以测量3D中的相干性对于每个候选概念,例如,“facade”, we constructmultiple visual adjacency graphs (one per landmark) overthe 注意,根据在其叶类别中检测到的名词,对于每个图,节点v,V对应于图像,并且如果两个图像共享3D模型中的至少K个共同关键点(其中K根据经验被设置为10),则两个图像通过边e,E连接。我们感兴趣的是测量候选概念的图像在3D中聚集在一起的程度因此,我们认为,候选概念的一致性被测量为平均图密度ρ,通过对具有至少10个节点的所有对应界标图取平均值而获得最后,候选概念出现在至少25个地标(大约是“大教堂”类别的四分之一)中并且具有一致性得分ρ 〇。08添加到我们的蒸馏组(图3,右)。4.2. 将图像与提炼的概念相尽管语义概念的提取集仅从出现在叶类别中的文本构造,但是我们在生成标签时利用图像标题和叶类别两者:如果概念存在于标题中或其叶类别中,则图像与该概念相关联。图像可以与多个概念相关联。一个例外是文本通常包括使用空间连接符(诸如“旁边”、“下一个”、“从”、“到”)与图像中存在的主要概念空间相关例如,与文本“nave looking towards portal”相关联的图像应该与“nave”相关联,但不一定与“portal”相关联因此,如果概念出现在图像之后的任何地方,我们不会将概念与图像相空间连接器。5. 学习语义表示WikiScenes可用于研究一系列不同的问题。在这里,我们专注于2D图像和3D模型的语义推理在上一节中,我们提出了一种用于发现 语义概念并将其与WikiScenes中的图像相现在,我们展示了这些图像级伪标签如何提供监督信号,用于在整个地标类别上学习语义特征表示。2432公司简介∈∈×× × × ×impixLL即时图片我们的学习方法如下:对于I1中对应于I2中的点p+的每个点p(即,它们都是同一个三维点P)的投影,我们用一个对比损失来最大化它们的描述子F1(p)和F2(p+)之间的互信息。我们考虑噪声对比估计框架[34],由正对(p,p+ )和m_n_g_ at_v_ e对{(p,p_i)}组成:L3D= −loge(p,p+)(p,p+)mi=1e(p,p−i)Σ,(2)图4:对比学习框架概述。给定一个具有共享关键点的图像对(左),我们联合训练一个模型,将图像分类到学习的得分图中的C个概念中的一个,并输出映射到3D中相同点的像素的更高相似性负对是通过从批次中的其他图像中采样非对应点来我们寻求学习逐像素表示(与整体图像表示相反),因为我们希望轻松地将知识从2D映射到3D,反之亦然。我们也希望我们的学习表征是语义上有意义的。换句话说,我们提炼的概念应该可以从这些像素表示中识别出来为此,我们设计了一个对比学习框架,计算图像中每个像素的特征描述符。我们还展示了如何通过相关图像直接利用我们的训练模型5.1. 培养目标我们的训练数据由具有共享关键点的图像对(I1,I2)组成,这些图像对是从相应的SfM模型中获得的。我们使用具有共享权重的卷积网络来提取密集特征图F1和F2,其宽度和高度与原始图像的宽度和高度相为了简化符号,我们假设两个图像都具有维度w/h。为了用这样的数据训练特征描述符模型,我们建议使用两个互补的损失项:一个新的3D对比损失,利用场景内的物理约束和分类损失(图4)。3D对比损失。我们设计了一个新的3D对比度损失,以鼓励场景内的一致性,这样,对应于同一个3D点的不同图像的像素应该有相似的功能。 这与以前的作品不同在对比学习中,使用手工制作的数据增强[12,20]或合成图像[35]来生成正对-在我们的情况下,正对是2D像素,它们是3D中相同点的这种损失将图像与不同的特性(诸如照明和比例)相关联,从而允许更好地关注语义并且提供针对这种讨厌因素的更高的鲁棒性。其中,相似度(p,p*)被计算为由温度τ缩放的特征描述符的点积:(p,p*)=F1(p)·F2(p*)/τ。(三)这种损失可以解释为学习将p分类为p+的(m+1)路softmax分类器的对数损失。点p−i 从同一批中的其它图像均匀地采样。为了避免特征空间塌陷,我们进行了归一化所有的特征描述符到单位长度。语义分类丢失。对于每个图像,我们还计算语义分类损 失 。 给 定 C 唯 一 的 语 义 概 念 , 我 们 使 用 简 单 的conv1x1层从特征描述符也就是说,我们将[K h w]特征描述符张量映射到[C h w]得分图张量,其中每个切片对应于语义概念中的一个根据Araslanov等人提出的设计。[7]中,我们添加背景通道并计算逐像素softmax以获得归一化得分图ypixRC+1×h×w和图像级分类得分yRC,其使用Araslanov等人的方法从得分图导出。我们的语义分类损失定义为Lcls=Lcls+ Lcls,⑷其中cls是图像级分数yCLS是一种自监督语义分割损失优于逐像素预测(其中高置信度像素预测用作自监督标签)。对于训练和评估,我们只考虑用单个概念标记的图像,并且根据我们的伪图像标签设置独热类别标签我们最大限度地减少了图像级和像素级预测的交叉熵损失。5.2. 推理在推理时,我们可以从一个从未见过的位置将图像馈送到我们的模型中(图5)。该模型输出逐像素特征描述符和每个像素的语义概念上的概率我们遵循[7]中Σ2433描述的过程来提取2D分割。为了输出场景中3D点的概率分数,我们处理所有2434基线(无L3D)我们的图5:分割德国亚琛大教堂 色彩图例:中殿,小教堂,管风琴,祭坛,唱诗班,雕像,大门,正面。与该3D点相关联的图像其所有2D投影的特征描述符被平均,并且我们处理该平均描述符以输出其相关联的概率分数。如果3D点的对应置信度得分大于φ= 0,则我们将3D点与语义概念中的一个相关联。五、6. 评价在本节中,我们展示了学习跨多个地标共享的语义概念的能力具体而言,我们试图回答以下问题:• WikiScenes适合学习这些概念吗?• 3D对比度损失有多重要?• 我们的模型推广到从未见过的地点的互联网照片的效果如何我们进行了各种实验,以评估跨多个任务,包括分类,分割,和基于字幕的图像检索任务,直接操作的原始字幕的这些实验辅以可视化分析,突出了我们数据的独特6.1. 实现细节数据在99个WikiScenes地标中,有70个地标包含足够的标记数据,可以用于训练和评估我们的模型(使用第4.2节中描述的方法标记图像)。我们在地标级别创建了一个9:1的分割,形成了一个测试集,用于训练过程中看不到的地标(WS-U)。对于训练集中的63个地标,我们在图像级别创建了一个9:1的分割,形成了一个已知地标(WS-K)的测试集,以评估我们的模型对熟悉位置中未见过的图像进行分类的能力。总的来说,我们使用了近9K标记的图像进行训练,在十个语义概念中具有平衡的类频率训练我们使用的批量大小为32,对应于16个图像对。其中只有一半是具有共享关键点的真实对,因为我们还希望考虑具有以下特征的标记图像:不与任何3D重建相关联,这可能是由于这些区域中的视图的稀疏采样。有关其他实施细节,请参阅补充资料。6.2. 标签质量我们通过手动检查每个概念的50个随机采样的训练图像并识别具有不正确标签的图像(即,图像没有描绘语义概念的全部或部分)。我们发现准确率大于98%,这表明我们的伪标签是高度准确的。我们发现,大多数错误是由于图像包含原理图或扫描的概念(而不是自然图像捕捉它)。请参考补充材料,了解我们的训练样本的可视化。6.3. 三维一致性引导分类接下来,我们评估语义概念可以在多个地标中学习到什么程度,以及我们的数据集允许的3D一致性正则化对分类结果的影响。我们使用我们的伪标签执行图像分类评估,我们认为这是用于评估目的的地面实况。我们将我们的模型与具有相同架构的模型进行比较,该模型使用语义分类损失但没有我们的3D对比损失进行训练,在此表示为基线模型-从Araslanov等人中提出的模型调整而来。[7]的文件。对于每个模型,我们在表1中报告了总体平均精度(mAP)以及每个概念的AP细分报告来自已知位置(WS-K)和未看见位置(WS-U)的测试图像的结果。 如表所示,我们的模型在大多数概念上都优于基线模型,并在mAP方面产生了显着的收益,将整体性能提高了4。5%和3. 7%,分别在WS-K和WS-U上进行评估时(在对图像进行平均时提高了3.3%,受类别频率的影响较小)。我们在补充材料中提供了额外的实验和错误分析。6.4. 2D和3D分割我们的框架学习了在分类之外有用的逐像素特征,例如,用于产生用于2D图像和3D重建的分割图。我们在图6中示出了2D图像的分割结果,在图1和图5中示出了3D重建的分割结果。我们手动标记测试图像的随机子集(来自看不见的地标),用于评估2D分割性能,并在表2中报告标准分割指标。具体来说,我们标记了237张图像,这些图像跨越了六个具有明确边界的概念(立面,门户,窗户,器官,塔和雕像)。这些类别之间的分布大致均匀(每个类别有24-50个图像)。2435LWS-KLWS-ULφ测试集模型mAPmAP立面窗小教堂管风琴中殿塔楼唱诗班门户祭坛雕像基线(w/o3D)70.8 77.7 87.289.260.2 89.785.8 64.1 61.5 68.0 50.0 52.0我们的75.381.090.088.568.790.785.761.177.276.554.459.9基线(无3D)48.364.071.092.210.757.371.053.443.631.125.8 27.1我们的52.0 67.3 77.7 93.4 16.549.477.346.144.135.239.940.0表1:分类性能。我们报告平均精度(mAP,表示所有图像的平均值,而不是每个类别),以及每个提取概念的平均精度(AP)。我们的模型的结果与没有3D对比损失的模型进行了比较。性能报告来自已知地标(WS-K)和未见过地标(WS-U)的图像最佳结果以粗体突出显示公司简介方法θ0。5θ0。75∆0. 5∆0. 75θ0。5θ0。75∆0. 5∆0.75基线 0.50 0.780.10 0.09 0.56 0.83 0.13 0.10我们的0.43 0.70 0.10 0.06 0.40 0.69 0.11 0.06表3:3D分割评价。代理指标θ和∆在第6.4节中详细对于这两个指标,越低越好。图6:分割未看到的地标的图像。像素从左到右被标记为立面、门户、器官、窗口、塔模型IoU精确召回基线(不含3D)25.4 68.628.4我们的27.2 80.8 29.6表2:手动标记集的图像分割性能表2显示了手动标记集的平均交并比这些结果表明,我们的3D对比损失提高了所有指标的性能。准确率显著提高(81%vs.69%),IoU和召回率略有增加。为了评估3D分割性能,因为难以获得重建跨越数千个点的大规模地标的地面真实3D分割,我们设计了两个代理指标来评估3D结果的完整性和准确性这些度量是(i)模糊点的分数θφ,以及(ii)内部-外部误差Δφ(两者都取决于置信度分数φ)。模糊点的分数量化模型将概念与具有高置信度的3D点相关联的程度。为了计算θφ,我们测量不与概念相关联的点的分数,对所有地标进行平均。例如,θφ= 0意味着对于所有点,模型由于有限的视觉连接性,地标的3D重建通常被分解为一个或多个外部重建和一个或多个内部重建。因此,我们设计了内部-外部误差Δφ来量化应该在外部重构或内部重构中唯一找到的概念在多大程度上被混合到单个重构中。例如,对于图5所示的内部3D重建,我们不期望看到标记为“立面”或“塔”的点内部概念包括对于每个3D重建m,误差φ定义为:m= min(pext,1−pext),(5)其中pext是3D重建中的外部概念的概率(在重建中的外部和内部概念的总和我们对所有重建进行加权平均,使得较大的3D重建相应地影响平均值。我们报告了θφ= 0的结果。5且θφ= 0。75(注意,我们所有的定性结果都是使用θφ= 0生成的。(五)。如表中所示,我们的模型在两个度量上都超过了基线模型(在没有3D对比损失的情况下训练),表明更多的点始终与概念相关联,并且每个点云更一致地请注意,一些结构部分本质上更加模糊(例如,我们将在GT口罩我们不带L3D输入2436型号R1 R5 R10 S1 S5 S10S1 S5 S10预培训 1.2 4.3 6.622.9 51.0 67.2 44.2 73.9 85.8基线3.2 11.9 19.2 51.9 80.6 88.0 69.2 89.3 94.6我们的4.0 13.9 22.5 64.0 81.9 91.2 76.0 91.2 96.3表4:基于字幕的图像检索性能。我们使用标准的检索指标和我们提出的语义指标(表示平均所有图像,而不是每个类)报告性能。我们的模型的结果进行了比较模型在没有我们的3D增强(基线)和预训练模型的情况下进行训练[27]。性能报告来自不可见标志(WS-U)的图像最佳结果以粗体突出显示。图像(外观和视点可能不同)。我们的3D增强策略产生了一个训练数据集,其中包含大约1.5K多个图像和9K多个图像-标题对(原始训练集包含近20 K对)。表4示出了使用Recall@K(表中的R1、R5、R10)的基于字幕的图像检索此外,为了量化这些检索在语义上的准确程度,我们使用我们的语义标签(根据第4.2节中描述的方法获得)作为代理,并提出一个语义度量S,该度量S测量包含至少一个正确标记的图像的检索的百分比。报告了两个模型和预训练模型的所有指标[27](没有微调)。为“Statue of Saint Cecilia in the“The organ in Exeter Cathedral我们的语义度量,我们报告每个类的平均值和测试集中所有图像的平均值。使用3D增强可以提高所有指标的性能。图7展示了我们模型的几个检索如最下面一行所示,模型还可以将一般概念与我们的图像对齐,例如“York图7:从未见过的地标的标题中检索图像。上面我们在目标图像(左)旁边显示了前三个检索,对应于下面的标题。补充材料,显示了我们的图像分类模型的混淆矩阵以及与每个概念相关联的祖先6.5. 从原始字幕为了在不首先提取概念的情况下探索原始字幕的效用,我们在图像及其原始字幕上训练联合视觉语言模型,并在基于字幕的图像检索任务上对其进行评估与分类等其他任务一样,我们在这个实验中探索了具有3D几何形状的好处,表明几何形状可以用于执行数据增强和提高检索性能。我们使用与上述相同的地标级别分割,对WS-K中的地标进行训练,并对WS-U中的未见过地标进行测试,从而微调了最先进的多任务联合视觉和文本表示模型[27] 我们比较了在两个不同子集上微调的模型:(1)基线子集,其被提供有仅英语字幕及其对应图像的对,以及(2)3D增强子集,其中,除了真实图像-字幕对之外,我们通过将图像与来自具有大视觉重叠的其他图像的字幕相关联来创建新的图像-字幕对(通过对3D关键点的IoU比率进行阈值化来测量,实验上设置为0.3)。执行这样的3D感知增强使得能够使用附加图像,对于附加图像,字幕可能不可用,但是附加图像的内容与原始图像相似大教堂应该看起来像我们在补充材料中显示了其他定性结果7. 结论我们已经提出了一个新的大规模数据集在视觉,语言和3D的交叉部分。我们演示了如何使用我们的数据集来挖掘语义概念,并学习将这些概念与来自从未见过的位置的图像和3D模型相关联。我们表明,这些任务受益于访问3D几何,允许强大的蒸馏语义从嘈杂的互联网集合。未来的应用。我们相信我们的数据集可以激发对许多新问题的研究。旅游景点图像的自动字幕是未来研究的一个有趣的问题。我们的数据集中丰富的文本描述可以让用户虚拟地探索任何旅游景点,作为一个虚拟的我们的数据集还可以自动生成新的3D场景和语言引导的场景编辑。虽然基于文本的2D图像生成是一个非常活跃的研究领域[14,33,24],但使用语言生成和修改3D场景的问题在很大程度上尚未探索。最后,我们的重点是阐述得到充分支持的概念,但我们的数据集也可以通过图像标题中的详细描述使零镜头或少镜头设置受益,从而实现对一般视觉概念的丰富概念化。致 谢 。 这 项 工 作 得 到 了 国 家 科 学 基 金 会 ( IIS-2008313 ) 、 Eric 和 Wendy Schmidt 的 慷 慨 支 持 、Schmidt Futures计划的推荐、Zuckerman STEM领导计划以及AWS ML研究奖的支持。2437引用[1] 潘诺斯Achlioptas,朱迪范,罗伯特霍金斯,诺亚好人,和列奥尼达J Guibas. ShapeGlot:学习形状区分的语言。在ICCV,2019年。[2] Sameer Agarwal、Yasutaka Furukawa、Noah Snavely、Ian Simon 、 Brian Curless 、 Steven M Seitz 和 RichardSzeliski。罗马在一天之内建成Communications of theACM,54(10),2011.[3] Aishwarya Agrawal,Dhruv Batra和Devi Parikh。分析视觉问答模型的行为。arXiv预印本arXiv:1606.07356,2016年。[4] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。[5] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,MarkJohnson,NikoSünderhauf,IanReid,StephenGould,and Anton van den Hengel.视觉和语言导航 : 在 真 实 环 境 中 解 释 基 于 视 觉 的 导 航 指 令 。 在CVPR,2018年。[6] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克VQA:可视化问答。在ICCV,2015年。[7] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯图像标签的单阶段语义分割。在CVPR,2020年。[8] 放大图片创作者:Michael A. Knepper和Yoav Artzi。在具有模仿学习的模拟四轴飞行器上遵循高级导航指令。在Proceedings of the Robotics中:科学与系统会议,2018年。[9] Angel X Chang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan , Qixing Huang , Zimming Li , SilvioSavarese,Manolis Savva,Shuran Song,Hao Su,et al.ShapeNet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[10] Dave Zhenyu Chen , Angel X Chang , and MatthiasNießner. Scanrefer:使用自然语言在rgb-d扫描中定位3d对象arXiv预印本arXiv:1912.08830,2019。[11] Kevin Chen 、 Christopher B Choy 、 Manolis Savva 、Angel X Chang、Thomas Funkhouser和Silvio Savarese。Text2shape:通过学习关节嵌入从自然语言生成形状。在ACCV,2018年。[12] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offreyHinton.视觉表征对比学习的一个简单框架。在Proc. Int.Conf.关于机器学习PMLR,2020年。[13] DavidJCrandall,LarsBackstrom,DanielHuttenlocher,and Jon Kleinberg.绘制世界各地的照片。在Proc. Int. Conf.在万维网上,2009年。[14] 董浩、司淼宇、吴超、郭一珂。通过对抗学习进行语义图像合成。InICCV,2017.[15] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧凑双线性池化视觉问答和视觉接地。在自然语言处理经验方法会议论文集,第457-468页,2016年。2438[16] Yasutaka Furukawa, Brian Curless,Steven M Seitz,and Richard Szeliski.走向互联网规模的多视角立体。CVPR,2010。[17] 斯蒂芬·甘米特,卢卡斯·博萨德,提尔·夸克,吕克·范古尔。我知道你去年夏天做了什么:假日快照的对象级自动注释。在ICCV,第614-621页,2009中。[18] Michael Goesele , Noah Snavely , Brian Curless ,Hugues Hoppe,and Steven M Seitz.多视图立体社区照片集。载于ICCV,2007年。[19] Tanmay Gupta,Arash Vahdat,Gal Chechik,XiaodongYang,Jan Kautz,and Derek Hoiem.弱监督短语接地的对比学习。arXiv预印本arXiv:2006.09920,2020。[20] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。[21] 洪日昌,刘大庆,莫晓宇,何湘南,张汉旺。学习用语言树结构进行写作和推理,以获得视觉基础。PAMI,2019。[22] Ronghang Hu , Jacob Andreas , Marcus Rohrbach ,Trevor Darrell,and Kate Saenko.学习推理:用于可视问答的端到端模块网络。在ICCV,第804-813页[23] Noriyuki Kojima,Hadar Averbuch-Elor,Alexander MRush,and Yoav Artzi.在视觉接地神经句法获取中学到了什么。在ACL,2020年。[24] Bowen Li , Xiaojuan Qi , Thomas Lukasiewicz , andPhilip Torr.可控的文本到图像生成。NeurIPS,2019。[25] 李正奇和诺亚·斯内弗利。Megadepth:从互联网照片中学习单视图深度预测。在CVPR,2018年。[26] 李正奇、贤文琦、阿比戴维斯、诺亚·斯奈弗利。全光功能的众采样。在ECCV,2020年。[27] Jiasen Lu,Vedanuj Goswami,Marcus Rohrbach,DeviParikh,and Stefan Lee.12合1:多任务视觉和语言表征学习。在CVPR,2020年。[28] Jiasen Lu,Caiming Xiong,Devi Parikh,and RichardSocher. 知 道 什么 时 候 看 :自 适 应 注 意力 通 过 视 觉sentinel图像字幕。在CVPR,2017年。[29] 毛俊华,黄强,亚历山大·托舍夫,奥纳·卡姆布鲁,艾伦·L.Yuille和Kevin Murphy无歧义对象描述的生成和在CVPR,第11-20页[30] 放大图片作者:Noha Radwan,Mehdi S. M.放大图片作者 : Jonathan T. Barron , Alexey Dosovitskiy , andDaniel Duckworth. NeRF在野外:无约束照片采集的神经辐射场。在CVPR,2021年。[31] Moustafa Meshry、Dan B Goldman、Sameh Khamis、Hugues Hoppe、Rohit Pandey、Noah Snavely和RicardoMartin- Brualla。在野外进行神经再生。在CVPR中,第6878-6887页[32] Dipendra Misra,John Langford和Yoav Artzi。将指令和视觉观察映射到具有强化学习的行动在自然语言处理经验方法会议论文集,第10042439[33] Seonghyeon Nam,Yunji Kim和Seon Joo Kim。文本自适应生成对抗网络:用自然语言操纵图像。NeurIPS,2018。[34] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比 预 测 编 码
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功