没有合适的资源?快使用搜索试试~ 我知道了~
146900SPARE3D:用于三视图线绘制的空间推理数据集0韩文宇�向思远�刘晨辉王若愚陈峰†0纽约大学坦登工程学院0https://ai4ce.github.io/SPARE3D0摘要0空间推理是人类智能的重要组成部分。我们可以通过仅仅观察其二维的三视图线绘制来想象3D物体的形状,并推理出它们的空间关系,具有不同程度的能力。深度网络能否被训练来执行空间推理任务?我们如何衡量它们的“空间智能”?为了回答这些问题,我们提出了SPARE3D数据集。基于认知科学和心理测量学,SPARE3D包含了三种类型的2D-3D推理任务,包括视图一致性、相机姿态和形状生成,难度逐渐增加。然后,我们设计了一种方法来自动生成大量具有正确答案的具有挑战性的问题,用于每个任务的训练监督。我们使用ResNet等最先进的架构来训练我们的基线模型。我们的实验表明,尽管卷积网络在许多视觉学习任务中已经达到了超人的表现,但它们在SPARE3D中的空间推理性能几乎等同于随机猜测。我们希望SPARE3D能够激发空间推理的新问题形式和网络设计,以使智能机器人能够通过2D传感器在3D世界中有效运行。01.引言0空间推理是“生成、保留、检索和转换结构良好的视觉图像的能力”[29]。它使智能体能够理解和推理三维或二维物体之间的关系。作为普遍智能的一部分,空间推理使人们能够解释周围的3D世界[30],并影响他们在大规模环境中的空间任务表现[20]。此外,许多心理学和教育研究[26,31,45]的统计数据已经经验证明良好的空间推理能力可以提高在STEM(科学、技术、工程和数学)领域的表现。因此,当我们积极开发智能0*前两位作者贡献相同。†陈峰为通讯作者。cfeng@nyu.edu0前(F)顶(T)右(R)等轴测(I)0视图一致性:给定F,R,T,选择I0相机姿态:给定F,R,T,I,选择I的姿态0形状生成:给定F,R,T,生成3D模型0图1.SPARE3D任务概述。每个任务的输入要么是一个三维物体的四个不同正交视图的全部,要么是其中的一个子集,作为线绘图,即正视图(F),顶视图(T),右视图(R)和等轴测视图(I)。基于输入,智能体需要回答三种类型的问题:1)选择描述相同物体的一致视图,2)推理视图的相机姿态,3)生成物体形状作为等轴测视图或3D模型。绿色框(左)和圆圈(中)表示此示例中的正确答案。最佳观看颜色。0对于自动驾驶汽车和智能服务机器人等系统,自然会问它们的空间推理能力如何,特别是如果它们没有配备昂贵的3D传感器。因为深度卷积网络在这些系统中赋予了大多数最先进的视觉学习成果(如目标检测和场景分割),它们通常在大量数据上进行训练和评估,因此设计一组非平凡的任务并开发一个大规模的数据集来促进智能体的空间推理研究变得重要。作为心理测量学中的一个重要主题,存在着几个空间推理测试数据集,包括心理旋转测试[43],普渡空间可视化测试(PSVT)[4]和修订的普渡空间可视化测试[50]。然而,这些面向人类的测试并不直接适用于我们开发和测试智能系统或深度网络的空间推理能力。首先,这些数据集中的数据量通常不到一百个问题,对于大多数深度学习方法来说是不够的。其次,这些测试中设计和生成问题的手动方式不容易扩展。146910表明。第三,其中许多主要集中在各种形式的旋转推理测试上,忽略了其他可能被认为对人类来说要么太容易回答(例如,推理不同视图之间的一致性)要么太难评估(例如,从不同的姿势在心理上想象和可视化3D形状或视图),这对于机器来说是非平凡的。此外,一些测试使用没有隐藏线条的线条绘制(由于遮挡而不直接可见),这可能会导致歧义,并使我们的目的变得不必要地困难。在视觉社区中,下一节中审查的一些视觉问答(VQA)数据集是涉及空间推理的最接近的努力。然而,这些数据集与自然语言处理和理解紧密结合,而不是纯粹关注空间推理本身。此外,这些数据集主要设计用于关于几何形状和姿势的空间推理,而不是空间推理。因此,我们提出了SPARE3D数据集,以促进智能系统空间推理能力的发展和评估。我们使用正交线条绘制作为我们任务的主要输入模态。线条绘制广泛应用于工程领域,用于从几个2D视图中表示计算机辅助设计中的3D机械部件或建筑信息模型中的结构,将表面轮廓和褶皱正交投影到图像平面上,形成直线或曲线。与逼真的图像相比,线条绘制不受照明和纹理的影响,提供纯净、紧凑和最突出的物体几何信息。甚至可以在单个绘图中编码深度线索。此外,线条绘制解释已经在计算机视觉和图形学中广泛研究了几十年,导致了线条标记和区域识别等理论,以及单视图重建。其中许多方法试图基于投影几何理论和基于规则的对应发现将2D线条绘制转换为3D模型,这与人类对这些绘图的看似本能和自然理解明显不同。我们希望SPARE3D可以通过数据驱动的方法在这个方向上刺激新的研究。SPARE3D包含三个类别中的五个空间推理任务,难度逐渐增加,包括视图一致性推理、相机姿势推理和形状生成推理,如图1所示。前两个类别是判别性的。视图一致性推理要求智能代理选择与给定绘图不同姿势下观察到的同一对象的兼容线条绘制。更困难的相机姿势推理要求代理建立绘图和观察到的姿势之间的联系,这类似于前面提到的心理旋转测试和PSVT。0数据集 2D 3D 纯几何 线条绘制 推理0视觉推理[24, 3, 48, 7, 22, 28, 38] � � � � �0Phyre [2] � � � � �0ShapeNet [6] � � � � �0ScanNet [10] � � � � �0线条绘制[8, 9, 17, 1] � � � � �0ABC [27] � � � � �0SPARE3D(我们的) � � � � �0表1.相关公共数据集的总结。2D、3D和线条绘制表示数据集中的数据类型。纯几何表示数据集仅关注几何形状,没有其他模态(语言/语义/物理)。推理表示数据集是否直接设计用于推理。0形状生成是最困难的,我们测试高级能力,直接根据给定的线条绘制生成2D(来自其他视图的线条绘制)或3D(点云或网格)表示的对象。如果一个代理能够准确地解决这种类型的任务,那么前两个类别可以直接解决。请注意,尽管心理测量学文献中还有其他类型的空间推理任务,但我们专注于这三个,因为它们是最基本的任务之一。总之,我们的贡献如下:•据我们所知,SPARE3D是第一个具有一系列具有挑战性任务的数据集,用于纯粹评估智能系统的空间推理能力,这可能会在这个方向上刺激新的数据驱动研究。•我们设计了一种可扩展的方法,自动生成大量非平凡的测试问题和训练和评估的基本事实答案。•我们为每个任务设计了基线深度学习方法,并提供了它们在SPARE3D上与人类的性能进行比较的基准。•我们发现,最先进的卷积网络在SPARE3D上的表现几乎与随机猜测相同,这需要进行更多的调查。•我们发布了数据集和用于数据生成、基线方法和基准测试的源代码。02. 相关工作0空间推理在认知科学和心理学中已经研究了几十年。随着人工智能的进步,研究人员开始设计具有视觉/空间理解和推理能力的人工智能系统。正如前面提到的,经典的以人为中心的空间推理测试并不是为人工智能设计的,也不容易转化为开发空间推理人工智能的工具。因此,我们只关注与空间推理相关的数据集和方法的综述,其中与SPARE3D的主要差异总结在表1中。视觉推理数据集。最近,视觉推理数据集的数量大幅增长。它们促进了开发和评估146920通过以自然语言的形式提问关于图像的常识问题,来评估人工智能在视觉和语言推理能力方面的水平[24, 3, 48, 25, 7,22, 52, 28,38](除了[2]专注于物理学)。SPARE3D有两个主要的不同之处。首先,它只涉及对象的视觉/空间信息;因此,不需要自然语言处理。SPARE3D中的任务已经非常具有挑战性,因此将它们与其他输入模态解耦,使研究人员能够专注于空间推理。其次,SPARE3D专注于关于两个基本几何属性的推理:3D对象的形状和观察角度,而不是对象之间的相对位置、大小或其他语义信息的比较。3D对象/场景数据集。近年来,设计用于表示学习任务(如分类和分割)的大规模3D数据集如雨后春笋般涌现,作为3D场景理解的一种方式。例如,ShapeNet[6]是一个具有丰富的语义和部分注释的3D对象数据集,ScanNet[10]是一个用于室内场景的RGB-D视频数据集。其中一些数据集被用于视觉导航研究[53,47]。虽然视觉导航可以被看作涉及空间推理,但它更注重于实现场景级目标而不是SPARE3D中的对象级形状和姿态推理。在SPARE3D中,我们利用了ABC数据集[27]中的3D实体模型,该数据集是为数字几何处理任务提出的。然后,我们从这些CAD模型生成线条图作为我们的2D绘图来源。请注意,这些数据集都不是专门为我们的空间推理上下文而设计的。线条图数据集。解释线条图一直是一个长期的研究课题,如前所述。随着深度学习的发展,最近在这个方向上的努力是通过分析大量的线条图来理解线条图。Cole等人[8,9]研究了艺术家创作的绘图与形状的数学属性之间的相关性,以及人们如何解释手绘或计算机生成的绘图。OpenSketch[17]旨在为许多计算机辅助设计任务提供丰富的信息。然而,这些工作主要集中在2D线条图的解释上,缺乏与2D绘图配对的3D信息。与它们不同,SPARE3D包含配对的2D-3D数据,因此可以帮助AI系统从2D绘图中推理出3D对象信息,反之亦然。其他相关方法。我们还简要讨论了一些我们认为可能有助于未来解决SPARE3D中空间推理任务的机器学习方法。关于单视图深度估计的研究,例如[15,46],可以通过预测3D结构来推理出2D等距绘图中的3D对象(如果在大量这样的绘图上进行训练),从而排除一些不太可能的候选答案。类似地,智能体的空间推理能力也可以与神经网络相连接。0场景表示和渲染[13,19]。例如,Eslami等人[13]引入了生成查询网络(GQN),它通过一组2D视图及其姿态来学习场景表示作为神经网络。事实上,在尝试解决SPARE3D任务时,人们似乎首先在我们的脑海中“渲染”3D对象的形状,然后将其与正确答案进行匹配。如果这种分析合成方法是我们获得空间推理能力的方式,那么这些方法可能会在SPARE3D上取得更好的性能。03. 空间推理任务0SPARE3D包含三个类别中的五个任务,包括视图一致性推理、相机姿态推理和形状生成推理。前两个类别包含三个判别任务,所有问题都类似于标准化测试中的单选题,只有一个正确答案和三个相似但不正确的答案。最后一个类别包含两个生成任务,不提供候选答案,而是需要生成答案。接下来,我们首先讨论如何设计这些任务,然后讨论如何生成非平凡的问题实例。03.1. 任务设计0在SPARE3D任务中,智能代理会给出一个物体的几个正交线图的视图作为其推理的基本输入。为了不失一般性并遵循工程和心理测量学的惯例,在SPARE3D中,我们只关注围绕物体的11个固定视角:前(F)、顶(T)、右(R)和八个等距(I)视角,如图2所示。请注意,来自F、T和R视图的图纸通常被称为三视图图纸。等距视图意味着所有三个投影主轴之间的成对角度相等。请注意,从同一视角点可以有多个可能的等距图纸[51],为了不失一般性,我们选择了图2中的八种常见方式。尽管在几何上相等,F/T/R视图和I视图在外观上有显著的统计差异。因为我们的三维物体大多是由人手设计的,许多线条是轴对齐的,并且在投影到F/T/R视图时更频繁地重叠。因此,I视图通常可以保留更多关于三维物体的信息。然而,众所周知,一般情况下,只有给定三个不同视图的线图才能唯一确定三维形状,除非在轻微的假设下给出三个不同视图的线图[21]。此外,找到唯一解决方案需要建立跨不同视图的线条和交点的对应关系的方法,这本身就是非平凡的。因此,即使在所有SPARE3D任务中都提供至少三个线图视图作为输入,解决这些任务仍然不是直接的。146930图2.SPARE3D中的八个等距视图的示意图。想象一个三维物体放置在一个立方体(灰色)的中心。立方体的每个顶点代表一个等距视图的视点,分别标记为1到8。前/顶/右(F/T/R)视图的视点分别位于矩形1-5-6-2/1-2-3-4/2-6-7-3的中心。请注意,隐藏线用红色绘制。最佳观看效果为彩色。0视图一致性推理。一个基本的空间推理能力应该是将同一个三维物体的不同视图进行分组。换句话说,具有空间推理能力的智能代理应该能够判断不同的线图是否可以描绘出不同视角下的同一个物体。这就是视图一致性推理任务的起源。它在一定程度上与心理测量学中的一些心理旋转测试相关,其中一个问题是确定经过旋转后的两个视图是否相同。我们将旋转部分分解到第二个任务类别中,只保留一致性检查部分,得到以下第一个任务。3视图到等距视图。给定一个三维物体的前视图、右视图和顶视图的线图,要求智能代理选择与图2中定义的姿态2相对应的正确等距视图线图。我们选择姿态2,因为它是传统等距视图中最常见的姿态(见图3中的示例)。0相机姿态推理。心理旋转能力是一个智能代理应该具备的重要空间推理能力。通过深入理解一个三维物体的形状,从几个二维图纸中,智能代理应该能够建立起一个二维图纸和其视角姿态之间的对应关系。这导致了以下两个任务(见图4和图5中的示例)。等距视角到姿态。给定前视图、右视图、顶视图和一个特定的等距视图线图纸,要求智能代理确定该等距视图的相机姿态。0A B C D0选择最一致的等轴测图(I):0正视图(F) 顶视图(T) 右视图(R)0给定:0图3. 一个示例3视图到等轴测图任务。第二行的候选等轴测图都来自姿势2。正确答案用绿色标出,在这个和接下来的两个图中,隐藏线用红色画出。最好以彩色查看。0选择相应的等轴测图(I)的姿势:0D. 姿势6 C. 姿势5 B. 姿势2 A. 姿势10等轴测图(I)0给定:0正视图(F) 顶视图(T) 右视图(R)0图4. 一个示例 等轴测图到姿势任务。0A B C D0姿势20等轴测图(I)0给定:0正视图(F) 顶视图(T) 右视图(R)0选择相应姿势的等轴测图(I):0图5. 一个示例 Pose to Isometric 任务。0。我们在这个任务中只考虑四个姿势,1/2/5/6,用于等轴测图。从姿势到等轴测图。作为前一个任务的“逆”过程,这个任务要求智能代理从给定的视角选择正确的等轴测图,除了给定的三视图图纸。为了进一步增加难度,我们考虑了所有八个等轴测姿势。0形状生成推理。从几个2D图纸中生成物体的2D或3D形状是空间推理的基本方面,正如其定义所建议的那样。我们相信这是一种顶级能力,如果具备,可以解决大多数空间推理任务:通过提取2D图纸中包含的空间信息并重建3D形状,它可以使代理能够回答146940视图一致性或相机姿势推理问题,通过搜索可能的解决方案并消除可能性较小的方案来回答。因此,我们设计了这类任务。与前面的判别任务不同,该类别中的以下两个任务不提供任何候选解决方案,因此是所有任务中最具挑战性的。等轴测图生成。智能代理提供正视图、右视图和顶视图图纸,并被要求从姿势2生成相应的等轴测图。点云生成。给定与前一个任务相同的输入,代理被要求生成一个表示为点云的完整3D模型。03.2. 任务生成03D对象库。为了自动生成上述设计任务的不同实例,我们创建了两个3D对象库:SPARE3D-ABC,从ABC数据集[27]中采样了10,369个3DCAD对象,以及SPARE3D-CSG,随机生成了11,149个由简单3D基元构成的3D构造实体几何(CSG)对象。给定一个3D模型库,我们使用PythonOCC[36],一个用于CAD-KernelOpenCASCADE的Python封装器,从11个固定姿势生成正视图/顶视图/右视图/等轴测图。这直接为我们提供了形状生成推理任务的数据集。我们在每个库上独立生成所有任务。在SPARE3D-ABC和SPARE3D-CSG模型上运行的所有任务的基准结果在基准结果部分中显示和讨论。为了使用ABC数据集中的3D对象,我们通过选择具有其正视图图像文件的唯一哈希值的对象来删除所有重复项。我们还跳过一些STEP格式文件大小超过一定限制的对象,以减少计算负载。注意,ABC数据集中有许多对象的对应正视图、顶视图或右视图图纸只包含一个小点。我们排除所有这些对象,以确保我们的数据集中的2D图纸覆盖一个相当大的图像区域,以便即使在降采样后,它们对于智能代理来说也是可读的。避免数据偏差。在生成上述空间推理任务的实例时,必须注意一些问题。一个重要的考虑因素是避免数据偏差,这可能会被深度网络利用来“解决”与真正具有相应空间推理能力相反的统计模式的任务,从而导致平凡的解决方案。因此,我们确保数据集中的所有图像具有相同的大小、分辨率和比例。我们还确保我们的正确答案和错误答案在解决空间中均匀分布。此外,我们确保每个图纸只出现一次0为了避免记忆的可能性,我们在所有任务中只使用一次问题或答案。避免数据偏差的最大挑战是自动生成视图一致性推理任务的非平凡的错误候选答案。根据我们的实验,如果错误答案只是从不同对象的线条绘图中随机选择的话,深度网络可以很容易地利用视图之间的一些局部外观相似性来实现高的测试性能。因此,我们进一步处理3D对象以用于此任务。我们首先通过一些基本的原始形状(如球体、立方体、圆锥体和圆环体)将3D对象切割四次,以获得四个切割对象。然后我们随机选择其中一个切割对象生成F、T、R和I绘图作为问题和正确答案绘图。剩下的三个切割对象中的三个I绘图被用作错误的候选答案。我们将正确的等距绘图的索引记录为监督学习的真值标签。我们总共准备了5,000个问题实例用于3D视图到等距投影任务。我们进行了8:1:1的训练/验证/测试数据集划分。我们使用几乎相同的设置生成相机姿态推理任务,只是不需要3D对象切割。04. 基准方法0我们尝试使用文献中最合适的基准方法为SPARE3D任务建立一个合理的基准。3D视图到等距投影和姿态到等距投影被分别制定为二分类或度量学习,等距投影到姿态被制定为多类分类,等距视图生成被制定为条件图像生成,点云生成被制定为多视图图像到点云的转换。对于每个任务,图像通过卷积神经网络(CNN)编码为固定维度的特征向量,相机姿态由独热编码表示,因为每个任务中固定姿态的数量较少。请注意,我们的数据集提供了线条绘图的矢量(SVG)和光栅(PNG)表示。光栅文件可以直接被CNN使用,而矢量文件提供了更多的可能性,如点云或图神经网络。目前,我们只关注光栅文件,因为CNN的相对成熟。我们将来将为矢量数据选择更多适用的网络。对于主干网络架构,我们选择ResNet-50 [18]和VGGNet-16[39]来建模图像特征提取函数,因为它们在各种视觉学习任务中已经证明了性能。我们还选择了BagNet[5],它在ImageNet[12]上表现出了令人惊讶的高性能,即使具有有限的感受野。详细的基准制定和网络架构在补充材料中有解释。人类表现。我们设计了一个众包网站,收集3D视图到等距投影任务的人类表现。0.00.20.40.60.81.00.00.20.40.60.80.00.20.40.60.81.00.00.80.00.20.40.60.81.00.00.20.60.80.00.20.40.60.81.00.00.81.0.00.20.40.60.81.00.00.20.40.802040608082.482.059.430.347.229.785.592.173.828.827.325.202040608010087.598.094.136.265.831.502040608088.188.073.028.826.625.566.390.343.730.128.428.202040608010059.798.377.633.763.944.743.094.749.237.728.940.802040608010098.498.397.335.161.432.902040608010096.639.295.727.427.826.591.293.277.727.827.126.8146950度量,姿态到等距投影和姿态到等距投影推理任务。记录了两种类型的人类表现:未经训练和经过训练。在未经训练的类型中,我们将网站分发给某些纽约大学工程课程和社交媒体平台,并且对参与者没有控制。我们从100多个未经训练的人那里收集了测试结果,每个人在每个任务中回答了四个随机选择的问题。我们将他们的平均表现作为第一个人类基准。第二种类型来自五名随机选择的工程硕士学生。我们对他们进行了约30分钟的培训,使用了训练集中的问题,然后在有限的时间内为每个任务回答了100个问题。我们将他们的最高表现作为第二个人类基准。05. 基准结果0我们所有的基准方法都是使用PyTorch[35]实现的,并在NVIDIA GeForce GTX 1080 TiGPU上运行。前三个任务的结果总结如图6所示。3D视图到等距投影。在图6的左上方,除了VGG-16的二分类外,SPARE3D-ABC上的所有其他结果都显示这些网络无法从监督中获得足够的空间推理能力来解决问题,它们在测试数据集上的性能接近随机选择。一个有趣的观察是,许多基准方法在训练中取得了很高的性能。0准确性,表明严重过拟合。一个意外的结果是,VGG-16二分类在测试数据集上的准确性高于ResNet-50(尽管仍然很低),而ResNet在许多视觉学习任务中一直超过VGG网络。比较图6的第一列中的两个图像,SPARE3D-CSG数据上的基线性能优于SPARE3D-ABC。我们认为这是因为SPARE3D-CSG存储库中的对象在对象的基本原始形状方面在几何上更简单。等距到姿势。在SPARE3D-ABC上的多类别分类结果如图6顶部中所示。对于ResNet-50,测试准确性约为36.2%,仅略高于随机选择。对于BagNet,测试准确性为31.5%,低于其他两种基线方法。VGG-16再次出人意料地显著优于ResNet和BagNet,测试准确性达到65.8%,甚至超过了平均人类表现。至于SPARE3D-CSG,我们获得了几乎相似的结果,如图6底部中所示。这是令人惊讶的。首先,VGG-16再次优于ResNet。我们尝试匹配VGG-16和ResNet之间的第一个/最后一个池化和全连接层的配置,但没有观察到显著的性能变化,这表明ResNet在SPARE3D任务中存在一些未知的不良特征。0二分类0训练测试0度量学习0训练测试0多类别分类0训练测试0训练人类最大0未经训练的人类平均0ResNet-50 VGG-16 BagNet03-视图到等距0ResNet-50 VGG-16 BagNet0等距到姿势0ResNet-50 VGG-16 BagNet0姿势到等距0ResNet-50 VGG-16 BagNet0ResNet-50 VGG-16 BagNet0ResNet-50 VGG-16 BagNet0图6.基线方法和人类性能在SPARE3D-ABC(顶部)和SPARE3D-CSG(底部)上的前三个任务的SPARE3D基准结果。3-视图到等距、等距到姿势和姿势到等距的未经训练的人类平均性能结果分别为80.5%、60.2%和58.6%。这三个任务的最高训练人类性能结果分别为94.0%、91.0%和65.0%。146960前 上 右 预测 真实值 前 上 右 预测 真实值0图7.等距视图生成测试示例。第四列是从前三列作为输入生成的I绘图,最后一列是真实值。基线方法显示出合理的结果,但对于解决以前的鉴别推理任务来说还不够精确。最后一个结果出乎意料地很好,可能是由于其近似平面结构。0其次,VGG-16与平均人类表现相当,而在实验之前,我们假设没有一个基线方法能够达到人类水平的性能。这个结果让我们对学习方法在解决这些空间推理任务中更有信心。姿势到等距。在图6顶部右侧,所有基线方法的性能都很差,ResNet-50的最高测试准确性为30.1%(用于度量学习),其他基线方法的平均准确性约为27.5%。在SPARE3D-CSG上获得了类似的结果。此外,我们注意到在所有任务中,BagNet的准确性几乎总是低于ResNet-50和VGG-16。这可能是因为BagNet的感受野比其他两种方法小,限制了BagNet只能利用局部而不是全局信息。这表明SPARE3D任务比ImageNet任务更具挑战性,需要更高级的信息处理,而这些任务可以令人惊讶地由BagNet解决得很好。人类表现。在图6中,未经训练或经过训练的人类表现比大多数相同任务的基线方法更好。这表明大多数最先进的网络在SPARE3D上远未达到与人类相同的空间推理能力。等距视图生成。在图7中,生成的结果仍然非常粗糙,尽管合理且比我们的预期要好,考虑到CNN在以前的任务中的表现不佳。使用生成的等距绘图来选择最相似的答案(以像素级L2距离衡量)在3-视图到等距任务中导致19.8%的测试准确性。这表明以一种天真的方式使用Pix2Pix[23]可以具有合理的生成性能,但尚不能生成详细和正确的等距绘图。0因此,未来仍需要针对这一任务的新架构。点云生成。在图8中,点云生成的结果也是合理但不令人满意的:整体形状生成正确,但详细特征经常被省略。可能的原因之一是点云解码网络的能力不足,或者编码CNN缺乏从三视图绘图中提取空间信息的能力。因此,当前的网络基线无法通过生成来推理复杂结构。此外,仅将F、R、T绘图连接作为网络的输入是一种简单而天真的方法,需要更有效的方法来更合理地合成这些3D对象。为什么基线性能低?在图6中,除了VGG-16在3视图到等距投影任务中的二分类任务和等距投影到姿态任务中的多类别分类任务分别达到47.2%和65.8%的测试准确率外,其他所有结果都接近随机选择。SPARE3D中的以下三个挑战可能导致性能低下。非分类数据集。SPARE3D与许多现有数据集不同,这些数据集仅包含来自有限数量语义类别的对象。在SPARE3D中,由于对象之间没有强烈的形状相似性,网络无法“轻松地”利用局部视觉模式进行“记忆”,因此未来的解决方案必须解决推理挑战,而不能依赖统计相关性。我们认为这一独特特征被社区忽视了,但对于实现人类水平的性能是必要的:人们可以在没有类别信息的情况下解决我们的任务。线条绘图。与基于纹理图像或粗略草图的许多其他数据集不同,SPARE3D使用的是稀疏且几何简洁的线条绘图,使其更接近用于推理的符号表示,而这对于现有的CNN来说是困难的。推理不是检索。在某些基线中,我们使用度量学习,这在图像检索中很常见[14],它在一个固定的大型数据库中搜索图像。但它不适用于SPARE3D,因为每个问题只提供四个候选答案,而这些答案在不同的问题中也会变化。自监督的2D/3D信息是否有帮助?在这三个判别任务中,我们只使用2D信息来训练我们的基线模型。人们可能会想知道是否使用更多的3D信息会显著提高性能,就像[34, 41,40]中所示一样。尽管在两个生成任务中,即使不比[11]中的体素重建更差,也表明了简单生成的粗略形状并没有帮助,但仍然可以合理地问是否我们可以通过自监督来隐式使用2D/3D形状信息。这引出了以下两个实验。预训练的Pix2Pix。如“等距视图生成”中所述,我们使用训练好的Pix2Pix模型来从给定的F/T/R绘图中生成I绘图,而不是简单地使用具有L2距离的生成的I绘图,这会导致19.8%的测试准确率,现在我们训练了一个额外的CNN来在一个学习的特征空间中选择答案(而不是像素空间)。这个CNN类似于3视图到等距投影的二分类网络,但它的输入是答案和生成的图像的连接。新的准确率提高到37.6%,但仍然非常低。预训练的FoldingNet。在点云生成中,我们通过2D-3D自监督训练了一个CNN编码器。现在146970前 顶部 右侧 预测 地面真值 前 顶部 右侧 预测 地面真值0图8. 点云生成测试示例。左列显示了AtlasNet [16]的结果,右列显示了FoldingNet[49]的结果。在细节方面,AtlasNet的表现略优于FoldingNet,但它们都不足以用于以往的判别任务中的分析合成推理。0在纹理图像或粗略草图[41,11]上,SPARE3D使用的是稀疏且几何简洁的线条绘图,使其更接近用于现有CNN推理的符号表示。推理不是检索。在某些基线中,我们使用度量学习,这在图像检索中很常见[14],它在一个固定的大型数据库中搜索图像。但它不适用于SPARE3D,因为每个问题只提供四个候选答案,而这些答案在不同的问题中也会变化。自监督的2D/3D信息是否有帮助?在这三个判别任务中,我们只使用2D信息来训练我们的基线模型。人们可能会想知道是否使用更多的3D信息会显著提高性能,就像[34, 41,40]中所示一样。尽管在两个生成任务中,即使不比[11]中的体素重建更差,也表明了简单生成的粗略形状并没有帮助,但仍然可以合理地问是否我们可以通过自监督来隐式使用2D/3D形状信息。这引出了以下两个实验。预训练的Pix2Pix。如“等距视图生成”中所述,我们使用训练好的Pix2Pix模型来从给定的F/T/R绘图中生成I绘图,而不是简单地使用具有L2距离的生成的I绘图,这会导致19.8%的测试准确率,现在我们训练了一个额外的CNN来在一个学习的特征空间中选择答案(而不是像素空间)。这个CNN类似于3视图到等距投影的二分类网络,但它的输入是答案和生成的图像的连接。新的准确率提高到37.6%,但仍然非常低。预训练的FoldingNet。在点云生成中,我们通过2D-3D自监督训练了一个CNN编码器。现在0任务3-View到等距 姿态到等距0不使用FoldingNet 85.5% / 28.8% 66.3% / 30.1%0使用FoldingNet 81.0% / 30.4% 87.5% / 27.2%0表2.训练中自监督3D信息的影响。第一行是通过随机CNN初始化的训练/测试准确率。最后一行是使用从预训练的2D到3DFoldingNet初始化的CNN。0我们将这个编码器作为初始化3-View到等距和姿态到等距任务的度量学习的ResNet-50模型的热启动。如表2所示,准确率没有显著提高,仍接近随机选择。因此,我们使用3D信息的简单方式效果不好,需要进一步设计。06. 结论0SPARE3D旨在开发和评估人工智能的空间推理能力。我们的基准结果表明,一些最先进的深度学习方法在SPARE3D上无法取得良好的性能。我们相信这揭示了重要的研究空白,并激发了改进智能代理的空间推理能力的新问题形式、架构或学习范式的动力。0致谢0该研究得到了NSFCPS计划下CMMI-1932187的支持。向思源对IDC基金会的奖学金表示感谢。作者们衷心感谢我们的人类测试参与者以及Zhaorong Wang,Zhiding Yu,SrikumarRamalingam和匿名评审人员的有益评论。146980参考文献0[1] Quick! Draw. https://quickdraw.withgoogle.com/. 2 [2]Anton Bakhtin, Laurens van der Maaten, Justin Johnson,Laura Gustafson和Ross Girshick. Phyre:一个新的物理推理基准。arXiv预印本arXiv:1908.05656,2019年。2, 30[3] Yonatan Bisk, Kevin J Shih, Yejin Choi和Daniel Marcu.在丰富的3D块世界中学习可解释的空间操作。在第32届AAAI人工智能大会上,2018年。2, 30[4] George M Bodner和Roland B Guay.Purdue旋转可视化测试。化学教育家,2(4):1-17,1997年。10[5] Wieland Brendel和Matthias Bethge.在ImageNet上用局部特征模型近似CNN的效果出奇的好。arXiv预印本arXiv:1904.00760,2019年。50[6] Angel X Chang, Thomas Funkhouser, Leonidas Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese,Manolis Savva, Shuran Song, Hao Su等。Shapenet:一个信息丰富的3D模型库。arXiv预印本arXiv:1512.03012,2015年。2, 30[7] Howard Chen, Alane Suhr, Dipendra Misra, NoahSnavely和Yoav Artzi. Touchdown:自然语言导航和视觉街道环境中的空间推理。在IEEE计算机视觉和模式识别会议论文集中,页码12538-12547。IEEE,2019年。2,30[8] Forrester Cole, Aleksey Golovinskiy, Alex Limpaecher,Heather Stoddart Barros, Adam Finkelstein, ThomasFunkhouser, and Szymon Rusinkiewicz.人们在哪里画线?ACM Transactions on Graphics(ToG),27(3):88,2008年。2, 30[9] Forrester Cole, Kevin Sanik, Doug Decarlo, Adam Finkelstein,Thomas Allen Funkhouser, Szymon M Rusinkiewicz和ManishSingh. 线条图能否很好地描绘形状?ACM Transactions onGraphics,28(3):28,2009年。2, 30[10] Angela Dai, Angel X Chang, Manolis Savva, MaciejHalber, Thomas Funkhouser, and Matthias Nießner. Scannet:室内场景的丰富注释的3D重建。在IEEE计算机视觉和模式识别会议论文集中,页码5828-5839。IEEE,2017年。2, 30[11] Johanna Delanoy, Mathieu Aubry, Phillip Isola, Alexei AEfros和Adrien Bousseau.使用多视角深度体积预测的3D素描。ACM计算机图形学和交互技术会议论文集,1(1):1-22,2018年。80[12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei. ImageNet: 一个大规模的分层图像数据库. InProceedings of the IEEE Conference on Com- puter Visionand Pattern Recognition , pages 248–255. Ieee, 2009. 50[13] SM Ali Eslami, Danilo Jimenez Rezende, Frederic Besse,Fabio Viola, Ari S Morcos, Marta Garnelo, Avraham Ru-derman, Andrei A Rusu, Ivo Danihelka, Karol Gregor, et al.神经场景表示和渲染. Science , 360(6394):1204–1210, 2018. 30[14] Thomas Funkhouser, Patrick Min, Michael Kazhdan, JoyceChen, Alex Halderman, David Dobkin, and David Jacobs.3D模型的搜索引擎. ACM Transactions on Graphics (TOG) ,22(1):83–105, 2003. 80[15] Ravi Garg, Vijay Kumar BG, Gustavo Carne
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功