ABO：真实世界3D物体理解的数据集和基准

70 浏览量更新于2023-10-26 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

21126目录图像高分辨率几何纹理基于物理的渲染ABO：真实世界3D物体理解的数据集和基准Jasmine Collins1，Shubham Goel1，Kenan Deng2，Achleshwar Luthra3，LeonXu1，2，Erhan Gundododdu2，Xi Zhang2，Tomas F. Yago Vicente2、ThomasDideriksen2、Himanshu Arora2、Matthieu Guillaumin2和Jitendra Malik11加州大学伯克利分校，2亚马逊，3位Pilani图1. ABO是一个产品图像数据集和逼真的，高分辨率的，基于物理的3D家居对象模型。我们使用ABO来基准测试各种现实对象理解任务上最先进方法的性能。摘要Amazon Berkeley Objects（ABO）是一个新的大规模数据集，旨在帮助弥合真实和虚拟3D世界之间的差距ABO包含产品目录图像、元数据和艺术家创建的3D模型，这些模型具有复杂的几何形状和基于物理的材料，与真实的家用物品相对应。我们推导出了利用ABO的独特属性的测试基准，并测量了现实世界3D对象理解的三个开放问题的最新技术水平的当前限制：单视图3D重建，材料估计和跨域多视图对象检索。1. 介绍2D图像识别的进展是由大规模数据集驱动的[15，26，37，43，56]。收集2D注释（例如类别标签或分割掩码）的便利性导致了这些多样化的野外数据集的大规模，这反过来又使得能够开发在现实世界中工作的2D计算机视觉系统。从理论上讲，3D计算机视觉的进步应该遵循同样大规模的3D对象数据集。然而，为单个真实世界对象收集大量高质量的3D注释（如体素或网格）是一个挑战。围绕获得真实图像的3D注释的难题的一种方法是仅关注合成的计算机辅助设计（CAD）模型[10，35，70]。这具有数据规模大的优点（因为有许多3D CAD模型可用于在线下载），但是许多模型质量低或无纹理并且不存在于现实世界中。这导致了各种3D重建方法，这些方法在合成物体的清晰背景渲染上工作良好[13，24，46，65]，但不一定推广到真实图像，新类别或更复杂的物体几何形状[5，6，58]。为了实现更好的真实世界传输，另一类3D数据集旨在将现有的3D模型与真实世界的图像联系起来[63，64]。这些数据集为图像中的对象找到最匹配的CAD模型，并让人类注释者对齐每个模型的姿势以最佳匹配21127形象虽然这使得能够在野外评估3D重建方法，但是形状（以及因此姿态）匹配是近似的。此外，由于这种方法依赖于将CAD模型与图像进行匹配，因此它继承了现有CAD模型数据集的局限性（即，对真实世界对象、基本几何形状和纹理的不良覆盖）。IKEA [41]和Pix3D [57]数据集试图通过用精确的像素对齐的3D模型注释真实图像来改进这一点这种数据集的确切性质允许它们被用作单视图重建的训练数据[21]，并弥合了一些合成到真实域的差距。然而，数据集的大小相对较小（分别为90和395个独特的3D模型），可能是由于难以找到与3D模型完全匹配的图像。此外，两个数据集中较大的一个[57]只包含9个类别的对象。所提供的3D模型也是无纹理的，因此这些数据集中的注释通常用于基于形状或姿态的任务，而不是诸如材料预测之类的任务。收集3D数据集的另一种方法不是试图将图像与合成3D模型匹配，而是从真实图像（或视频）开始，并通过经典重建技术（如运动结构、多视图立体和纹理映射）重建场景[12，54，55]。这些方法的好处是重建的几何模型忠实地表示真实世界的对象。然而，收集过程需要大量的手动工作，因此这种性质的数据集往往也很小（分别为398、125和1032个唯一的3D模型）。对象也通常在受控实验室设置中成像，并且不具有对象的“上下文”的对应真实图像。此外，所包括的纹理表面被假定为朗伯的，因此不显示现实的反射率属性。由于缺乏具有来自不同类别集的真实3D对象和相应的真实世界多视图图像的大规模数据集，我们引入了Amazon Berkeley Objects （ ABO ）。该数据集源自Amazon.com产品列表，因此，包含与现代、真实世界的家居用品相对应的图像和3D模型。总体而言，ABO包含与398，212个唯一目录图像相关的147，702个产品列表，以及多达18个唯一元数据属性（类别，颜色，材料，重量，尺寸等）。每个产品。ABO还包括与现有的3D计算机视觉数据集相比，ABO中的3D模型具有复杂的几何形状和高分辨率，基于物理的材料，允许照片级真实感渲染。与ABO 3D模型相关的各种真实世界图像的示例可以在图1中找到，sam-数据集型号数量#类真实图像全3DPBRShapeNet [10]51.3K55✗✓✗3D未来[19]16.6K8✗✓✗[54]第五十四话1K-✗✓✗[53]第五十三话18.6K50✓✗✗宜家[42]21911✓✓✗Pix3D [57]3959✓✓✗[51]第五十一话5.8K1✗✓✓ABO（我们的）8K63✓✓✓表1. ABO中的3D模型与其他常用的以对象为中心的3D数据集的比较。ABO包含近8K 3D模型，具有基于物理的渲染（PBR）材料和相应的真实世界目录图像。图2. 在目录图像中放置3D模型。我们使用实例遮罩来自动生成6-DOF姿势注释。图3中显示了多个元数据属性。该数据集在CC BY-NC4.0许可下发布，可以在https：//amazon-berning-objects.s3下载。amazonaws.com/index.html.为了促进未来的研究，我们对三种计算机视觉任务的各种方法的性能进行基准测试，这些任务可以从更逼真的3D数据集中受益：（i）单视图形状重建，其中我们测量在合成对象上训练的网络的域间隙，（ii）材料估计，其中我们从复杂现实世界对象的单视图和多视图图像中引入空间变化BRDF的基线，以及（iii）基于图像的多视图对象检索，其中我们利用ABO的3D性质来评估深度度量学习算法对对象视点和场景的鲁棒性。2. 相关工作3D对象数据集ShapeNet [10]是一个大规模的合成3DCAD模型数据库，通常用于训练单视图和多视图重建模型。IKEA Ob-3D [42]和Pix 3D [57]是CAD模型和真实图像之间具有2D- 3D对齐的图像集合，然而这些图像仅限于存在精确CAD模型匹配的对象。同样，Pascal 3D + [64]和ObjectNet 3D [63]为图像提供了2D-3D对齐，并提供了更多的实例和类别，但是21128Benchmark Domain Classes-1 trainval test train val test-target test-queryCub-200-2011鸟类200---59940-5794 15份百分之七十九点二[30个]汽车-196汽车196---81440-8041 -94.8%[30个]店内衣服253997039852588201261214218 地标，姿势，面具百分之九十二点六[33个]SOPeBay12 113180 11316595510-60502 -百分之八十四点二[30个]ABO（MVR）亚马逊562 49066 854836298840 26235431323328 3D模型30.0%表2.深度度量学习的常见图像检索基准及其统计。我们提出的基于ABO的多视图检索（MVR）基准比现有的基准更大，更多样化和更具挑战性，并利用3D模型。产品名称：铆钉当代装饰弯曲金属台面站立酒架-22x10x7英寸，黑色产品类别：瓶架材质：金属颜色：黑色重量：3. 3lbs产品名称：铆钉伊恩中世纪现代木自助餐酒吧柜Credenza，棕色类别：内阁材料：木材颜色：棕色重量：117磅图3. 样本目录图像和属性，accom-pany ABO对象。每个对象最多有18个属性注释。103102101100图4. 3D模型类别。每个类别也映射到WordNet层次结构中的同义词集注意，y轴为对数刻度。3D 注释只是近似匹配。 Object Scans 数据集 [12] 和Objectron [3]都是视频数据集，摄像机操作员可以在各种对象周围走动，但表示的类别数量有限。CO3D [53]还提供来自50个不同类别的常见对象的视频，但它们不提供完整的3D网格重建。现有的3D数据集通常假设非常简单的纹理模型，这些模型在物理上并不真实。为了改进这一点，PhotoData [51]通过自动将空间变化（SV-）双向反射分布函数（BRDF）映射到网格来增强ShapeNet[17，20]中的工作提供了高质量的SV-BRDF图，但仅适用于平面表面。[32]中使用的数据集仅包含各种对象的同质BRDF。[40]和[7]介绍包含完整SV-BRDF的数据集，但它们模型是程序生成的形状，其不对应于真实对象。相比之下，ABO提供了由专业艺术家为现实生活中的物体创建的形状和SV-BRDF，可以直接用于照片级真实感渲染。表1比较了ABO的3D子集与其他常用3D数据集的大小（对象和类的数量）和属性，例如真实图像、全3D网格和基于物理的渲染（PBR）材料的存在。ABO是唯一一个包含所有这些属性的数据集，并且在类别数量上比现有的3D数据集更加多样化3D形状重建最近的单视图3D重建方法在单视图[18，22，46，57，69]和多视图[13，31，65]情况下需要全形状监督的方法通常使用ShapeNet进行还有其他方法使用更多自然形式的多视图监督，例如图像，深度图和轮廓[31，59，62，66]，具有已知的相机。当然，多视图3D重建长期以来一直使用经典的计算机视觉技术[27]进行研究，如多视图立体和视觉外壳重建。基于学习的方法通常以特定于类别的方式进行训练，并在来自相同类别的新实例上进行评估。在提到的作品中，只有[69]声称是类别不可知论。在这项工作中，我们感兴趣的是这些ShapeNet训练的网络[13，22，46，69]如何生成更真实的对象。材料估计几个工作集中在从单个图像建模对象外观，然而可用于此任务的现实数据集相对较少且尺寸较小。[38]使用两个网络从单个图像估计平坦表面的均匀BRDF和SV-BRDF，使用自增强方案来减轻对大训练集的需要。然而，他们的工作仅限于特定的材料家族，并且每个单独的材料都需要另一个经过训练的网络。[67]将自我增强的想法扩展到使用未标记的数据进行训练，但他们的工作受到相同约束的限制。[16]使用修改后的U-Net和渲染损失来预测闪光灯照片的SV-BRDF，这些照片仅由平坦的表面组成型号数量椅子地毯沙发表绘画灯床奥斯曼枕头内阁花盆架镜梳妆台花瓶推车板凳风扇权重容器或篮子梯子帐篷电池充电器床垫空调山jar电笔记本电脑线缆站地板垫衣架时钟加热器雕塑运动垫子阶梯袋扬声器座站餐具鼠标垫衣帽钩瓶架马车托盘保持器烹饪锅烛台帐簿或日记帐虚荣垃圾桶碎纸机仪表架饮料杯垫碗运动鸟笼设备肥皂分配器办公用品火坑行使文件夹设备画架杯21129输入图像R2N2 OccupationalNetworks GenRe MeshRCNN GT图5.ABO上R2 N2、Occupational Networks、GenRe和Mesh-RCNN的定性3D重建结果。所有方法都在ShapeNet上进行了预训练，并且在来自ABO的对象上表现出性能下降。脸上为了实现对任意形状的预测，[40]提出了一种级联CNN架构，每个SV-BRDF参数都有一个编码器虽然该方法在半不受控制的光照环境中取得了良好的效果，但它需要使用全局光照渲染的中间反弹作为监督。最近的工作已经转向使用多个图像来改进SV-BRDF估计，但仍然仅使用简单的对象几何形状。例如，[17]和[20]使用具有闪光灯光源的多个输入图像，但仅用于单个平面表面。[7]和[8]都使用程序生成的形状来从多视图图像估计SV-BRDF。ABO解决了材料估计缺乏足够的现实数据的问题，在这项工作中，我们提出了一种简单的基线方法，可以从复杂的真实世界形状的单视图或多视图图像中估计材料。2D/3D图像检索学习在单个嵌入空间中表示产品的3D形状和自然图像已经由[39]解决。他们考虑了各种相关任务，包括跨视图图像检索，基于形状的图像检索和基于图像的形状检索，但所有这些都受到ShapeNet[10]局限性的内在约束（跨视图图像检索仅适用于椅子和汽车）。[36]介绍了用于细粒度识别的3D对象表示和具有真实世界2D图像的汽车数据集（CARS-196 ），该数据集现在广泛用于深度度量学习（DML）评估。同样，DML的其他数据集关注少数对象类型的实例/精细类别，例如鸟[60]，衣服[44]或少数对象类别[50]。由于现有检索基准中查询图像和目标图像的多样性和相似性有限，现有的DML算法的性能接近饱和。此外，由于这些数据集几乎没有结构，因此分析失败案例和改进算法的机会在此基础上，我们-从ABO中提取具有挑战性的大规模基准数据集，其中包含数百个不同的类别和适当的验证集。我们还利用ABO的3D特性来测量和提高表示的鲁棒性，以适应视点和场景的变化。ABO和DML现有基准的比较见表2。3. ABO数据集数据集属性ABO数据集来源于Amazon.com提供的全球产品列表、元数据、图像和3D模型该数据由来自由各种亚马逊拥有的商店和网站（例如，亚马逊、PrimeNow、Whole Foods）销售的576种产品类型的147，702个产品列表组成每个列表由物品ID标识，并且提供有结构化元数据，该这包括398，212个高分辨率目录图像，以及用于“360º视图”功能的转盘图像（如果可用）3D模型ABO还包括7953艺术家创建的高品质3D模型glTF 2.0格式。3D模型在规范坐标系中定向，其中所有对象的“正面”（定义良好时）对齐，并且每个对象都为了使这些网格能够轻松地用于与在3D数据集（如ShapeNet）上训练的现有方法进行比较，我们为每个3D模型收集了类别注释，并将其映射到WordNet [47]分类法下的名词同义词集。图4显示了3D模型类别的直方图。我们还为6，334个目录图像提供了6-DOF姿态注释。为了实现这一点，我们开发了一个自动化的管道，21130∈∈·∥ −∥−倒角距离（↓）绝对正态一致性（↑）板凳椅子沙发内阁灯表板凳椅子沙发内阁灯表[13]第十三话2.46/0.851.46/0.771.15/0.591.88/0.253.79/2.022.83/0.660.51/0.550.59/0.610.57/0.620.53/0.670.51/0.540.51/0.65[46]第四十六话1.72/0.510.72/0.390.86/0.300.80/0.232.53/1.661.79/0.410.66/0.680.67/0.760.70/0.770.71/0.770.65/0.690.67/0.78GenRe [69]1.54/2.860.89/0.791.08/2.181.40/2.033.72/2.472.26/2.370.63/0.560.69/0.670.66/0.600.62/0.590.59/0.570.61/0.59[22]第二十二话1.05/0.090.78/0.130.45/0.100.80/0.111.97/0.241.15/0.120.62/0.650.62/0.700.62/0.720.65/0.740.57/0.660.62/0.74表3. 从ShapeNet到ABO的单视图3D重建泛化。在常见ShapeNet类的ABO对象上进行的预测的倒角距离和绝对正态一致性。我们报告ShapeNet对象的相同指标（以灰色表示），遵循相同的评估协议。除GenRe外，所有方法都在列出的所有ShapeNet类别上训练基于图像中的3D模型的知识的估计，现成的实例掩码[28，34]和可重构渲染。对于每个掩模M，我们估计RSO（3）和TR3，使得以下轮廓损失最小化R，T=argminDR（R，T） MR、 T其中DR（）是在PyTorch3D中实现的可微分渲染器[52]。这种方法的结果示例见图2。与之前使用人工注释器在循环中提供姿势或对应关系的CAD到图像对齐方法[57，63]不同，除了最终的人工验证步骤外，我们的方法是完全自动的。材料估计数据集为了从图像中执行材料估计，我们使用glTF 2.0规范[25]中给出的Disney [9]基色、金属、粗糙度参数化我们从91个摄像机位置渲染512x512图像使用Blender的[ 14 ] Cycles路径跟踪器，沿着对象的上二十球面进行60°视场的观察确保不同的现实照明条件和背景，我们使用108个室内HDRI中的3个随机环境贴图照亮场景[23]。对于这些渲染的图像，我们生成相应的地面实况基色、金属光泽度、粗糙度和法线图以及对象深度图和分割掩模。生成的数据集由210万个渲染图像和相应的相机内部和外部组成。4. 实验4.1. 评估单视图3D重建由于现有的方法在很大程度上是使用ShapeNet [10]以完全监督的方式进行训练的，因此我们感兴趣的是它们将如何转移到更真实的对象。为了衡量这些模型如何转移到真实的对象实例，我们评估了各种这些方法对ABO对象具体来说，我们评估3D-R2 N2 [13] ， GenRe [69] ， Occupational Networks[46]和Mesh R-CNN [22]在ShapeNet上预训练。我们选择这些方法是因为它们捕获了过去几年中一些性能最佳的单视图3D重建方法，并且它们使用的3D表示类型（[13]中的体素，[69]中的球面映射，[46]中的隐式函数和[22]中的网格）和使用的坐标系统（规范与视图空间）各不相同虽然我们考虑的所有模型都在ShapeNet上进行了预训练，但GenRe在不同的类集上进行训练，并在训练和测试时输入轮廓遮罩。为了研究这个问题（不考虑跨类别泛化的问题），我们只考虑落入ShapeNet训练类别的ABO模型对象的子集在包含3D模型的ABO的63个类别中，我们考虑了6个与常用ShapeNet类别相交的类别，捕获了7，953个3D模型中的4，170个。一些常见的ShapeNet类（如对于该实验，我们从与图1中类似的视点分布在空白背景上渲染对象的数据集（与ABO材料估计数据集不同）。渲染的ShapeNet训练集。我们使用Blender [14]渲染每个网格的30个视点，每个视点都有40个视场，这样整个对象都是可见的。相机方位角和仰角在单位球面上均匀采样10米标高下限以避免不常见的底部视图。GenRe和Mesh-RCNN在与图像视图对齐的姿势），而R2N2和Occupational Networks在规范空间中执行预测（预测是在相同的类别特定的规范姿势中进行的，而不管图像中对象的姿势如何）。对于每种方法，我们评估倒角距离和绝对正态一致性，并在很大程度上遵循[22]的评估协议。结果4种方法21131我们考虑的ABO对象可以在表3中找到。我们还使用我们的评估协议重新评估了R2N2 [ 13 ]中ShapeNet测试集上每种方法我们观察到Mesh R-CNN [22]在倒角距离方面优于 ABO 和 ShapeNet 上的所有其他方法，而Occupational Networks在绝对正态一致性方面表现最好。可以看出，所有ShapeNet和ABO预测之间存在很大的性能差距。这表明，来自ABO的形状和纹理虽然来自相同的类别，但来自真实世界，但对于在ShapeNet上训练的模型来说，它们是不分布的，更具挑战性。此外，我们注意到，从ShapeNet到ABO，灯类别的性能下降特别大定性结果表明，这可能是由于重建薄结构的困难。我们在图5中突出显示了一些定性结果，包括一个特别具有挑战性的灯实例。4.2. 材料预测到目前为止，还没有太多适合材料预测任务的可用数据集。具有大量3D对象集合的大多数公开可用数据集[10，12，19]不包含可用于基于物理的渲染以生成真实感图像的物理准确的反射率参数。像PhotoShape[51]这样的数据集确实包含这样的参数，但仅限于单一类别。相比之下，ABO中的逼真3D模型是艺术家创建的，具有高度变化的形状和SV-BRDF。我们利用这一独特的属性来获得大量真实感合成数据的材料预测基准我们还提出了一个简单的基线方法，用于复杂几何形状的单视图和多视图材料估计。方法为了评估单视图和多视图材料预测并建立基线方法，我们使用具有ResNet-34主干的基于U-Net的模型从单个视点估计SV-BRDF。U-Net有一个通用的编码器，以RGB图像作为输入，并有一个多头解码器分别输出SV- BRDF的每个组件。受[7，17]中最近网络的启发，我们通过使用深度图投影来对齐来自多个视点的图像，并将原始图像和投影图像对捆绑为输入数据，以实现多视图网络的类似方法。我们重用的单视图架构的多视图网络，并使用全球最大池，ING处理任意数量的输入图像。与[16]类似，我们利用可微分渲染层来渲染闪光照明的地面实况，并将其与我们预测的类似渲染图像进行比较，以更好地调节网络并指导训练过程。地面实况材质贴图用于直接监督。我们的模型将256x256渲染图像作为输入。为了进行训练，我们在icosphere上随机抽取了40个视图SV-net MV-net（无项目）MV-net基础颜色（↓）0.129 0.1320.127粗糙度（↓）0.163 0.1550.129金属光泽度（↓）0.170 0.1670.162平均值（↑）0.970 0.9490.976显示（↓）0.096 0.0900.086表4. 单视图、多视图和无投影的多视图网络的ABO材料估计结果（MV- net no proj.）消融基色、粗糙度、金属感和渲染损失使用RMSE（越低越好）测量-正常相似性使用余弦相似性（越高越好）测量。对于每个对象。在多视图网络的情况下，对于每个参考视图，我们选择其紧邻的4个相邻视图作为相邻视图。我们使用均方误差作为基色、粗糙度、金属度、表面法线和渲染损失的损失函数。每个网络使用AdamW优化器训练17个epoch [45]，学习率为1 e-3，权重衰减为1 e-4。单视图网络（SV-网络）和多视图网络（MV-网络）的结果见表4。与单视图网络相比，多视图网络在基色、粗糙度、金属度和表面法线预测任务方面具有更好的性能。多视图网络在预测影响视图相关镜面反射组件（如粗糙度和金属度）的属性方面尤其出色。我们还在我们的多视图网络上运行消融研究，而不使用3D结构将相邻视图与参考视图对齐（表示为MV-net：无投影）。首先，我们观察到，即使没有基于3D结构的对齐，该网络在粗糙度和金属预测方面仍然优于单视图与使用基于3D结构的对齐的多视图网络相比，我们可以看到结构信息导致所有参数的更好性能。我们在图6中显示了测试集的一些定性结果。由于ABO的重点是实现真实世界的传输，我们还使用第3节中的方法收集的姿势注释在来自测试集的对象的目录图像上测试了我们的多视图网络，并使用推断的材料参数重新照亮对象（图7）。尽管在照明和背景方面存在领域差距，并且从合成转向真实，但我们在渲染图像上训练的网络对真实目录图像进行了合理的预测在一种情况下（最后一行），网络无法准确地推断出真实的基色，可能是由于存在自阴影。4.3. 多视图跨领域对象检索在ABO中，我们将现有的目录图像和3D模型相结合，得出了一个新的目标检索基准21132图6. 单视图（SV-网）和多视图（MV-网）网络的定性材料估计结果。我们估计SV-BRDF属性（基色，粗糙度，金属，表面法线）为每个输入视图的对象相比，地面真相。图7.真实目录图像上的定性多视图材料估计结果。使用目录图像姿势注释将多个视图中的每一个与参考视图对齐。具有测量算法相对于视点变化的鲁棒性的独特能力。具体来说，我们利用第3节中描述的渲染，以及已知的方位角和仰角，为训练深度度量学习（DML）算法提供更多样化的视图和场景。我们还使用这些渲染来评估检索perfor-曼斯相对于一个大画廊的目录图像从ABO。这个新的基准测试非常具有挑战性，因为渲染的图像具有复杂和混乱的室内背景（与更干净的目录图像相比），并且显示具有通常不存在于目录图像中的视点的产品。这两个图像源实际上是两个独立的图像域，使得测试场景成为多视图跨域检索任务。方法为了在我们的多视图跨域检索基准上比较最先进的DML方法的性能，我们使用PyTorch Metric Learning[2]实现，该实现涵盖了DML的主要方法：NormSoft-max [68]（基于分类），ProxyNCA [48]（基于代理）和 Contrastive ， TripletMargin ， NTXent [11] 和 Multi-similarity [61] （基于元组）。我们利用 PowerfulBenchmarker框架[1]来运行[49]中的公平和受控比较，包括贝叶斯超参数优化。我们选择了ResNet-50 [29]主干，在LayerNorm [4]层之后将其投影到128 D，没有冻结Batch- Norm参数，并添加了图像填充变换，以获得未失真的正方形图像，然后将其转换为256 x256。我们使用了256个样本的批次，每个类别4 个样本，除了 NormSoftmax 和ProxyNCA，我们获得了更好的结果，批次大小为32，每个类别1个样本。在超参数优化之后，我们训练了1000个epoch的所有损失，并根据验证Recall@1指标选择了最佳epoch，每隔一个epoch计算一次重要的是，尽管训练集中的目录和渲染图像是平衡的（188K vs 111K），但有渲染和没有渲染的类不是平衡的（4K vs.45K）。在每个批次中平衡它们被证明是获得良好性能的必要条件：我们不仅希望利用渲染提供的新视点和场景来提高检索性能，而且还希望采样的渲染图像的负对数量不够21133≈≈| |渲染图像目录403530252015105表5. 在ABO检索基准上测试最先进的深度度量学习方法的性能。从渲染图像检索产品突出了性能差距，而使用目录图像时性能差距并不明显。−150 −100 −50 0 50 100 150查询方位角（Θ）3025如表5所示，在ImageNet上训练的ResNet-50基线在很大程度上失败了（Recall@1/5%）。这证实了我们的新基准的挑战性。因此，DML是获得显著改进的关键在我们的实验中，NormSoftmax、ProxyNCA和对比度的表现（29%）优于多相似性、NTXent或TripletMargin损失（23%），这一差距在其他数据集中并不明显，并且在使用更干净的目录图像作为查询时也没有那么此外，委员会认为，20151050<21º21º-50º查询高程（φ）>50º值得注意的是，ABO的总体性能明显低于现有的通用基准（见表2）。这证实了它们可能的饱和度[49]，新的和更具挑战性的检索任务的价值，以及对新的度量学习方法的需求，以处理我们新基准的大规模和独特属性。此外，可用于渲染测试查询的方位角（θ）和仰角（φ）允许我们测量性能如何随着这些参数偏离ABO目录图像中的典型产品视点而降低图8突出了方位角和仰角的两个主要状态方位角超过θ=75°，仰角超过φ=50°，匹配起来明显更具挑战性，方法。缩小这一差距是一个有趣的方向，未来的研究DML多视图对象检索。首先，当前损失没有明确地对训练数据中的5. 结论在这项工作中，我们引入了ABO，这是一个新的数据集，可以帮助弥合真实和合成3D世界之间的差距。我们证明了ABO中真实世界衍生的3D模型集对于ShapeNet训练的3D重建方法来说是一个具有挑战性的测试集，并且尽管从相同分布的训练类中采样，但视图和规范空间方法都不能很好地推广到ABO网格。我们还训练了单视图和多视图网络，用于SV-BRDF材料估计，图8.Recall@1作为产品视图的方位角和仰角的函数。对于所有的方法，检索性能迅速下降超过方位角|θ|>75度，标高φ > 50度。复杂、真实的几何图形--这是我们3D数据集的性质所赋予的独特任务我们发现，合并多个视图导致更准确的分离SV-BRDF属性。最后，将更大的产品图像集与ABO 3D模型的合成渲染相结合，我们提出了一个具有挑战性的多视图检索任务，该任务消除了现有数据集在多样性和结构方面的一些限制ABO中的3D模型使我们能够在训练期间利用新的视点和场景，并根据查询图像的方位角和仰角对深度度量学习算法的性能进行虽然在这项工作中没有考虑，但大量的文本注释（产品描述和关键词）和非刚性产品（服装、家用亚麻布）使得能够实现广泛的可能的语言和视觉任务，例如从产品图像预测风格、图案、标题或关键词此外，ABO中的3D对象对应于家中自然出现的物品，并且具有相关联的对象重量和尺寸。这可以有利于机器人研究，并支持操纵和导航的模拟。致谢我们感谢Pietro Perona和Frederic Devernay。这项工作部分由NSF GRFP（#1752814）和Amazon-BAIRCommons Program资助。预训练构造性多相似性NormSoftmaxNTXentProxyNCATripletMargin召回@1（%）召回@1（%）k时的召回率（%）k=1K=2K=4K=8k=1预训练5.08.111.415.318.0收缩的28.638.348.959.139.7多相似性23.132.241.952.138.0NormSoftmax30.040.350.260.035.5NTXent23.933.042.652.037.5ProxyNCA29.439.550.060.135.6TripletMargin22.131.141.351.936.921134引用[1] 强大的基准。https：//kevinmusgrave. GitHub.io/powerful-基准。访问时间：2022-03-19。7[2] Pytorch 度量学习。 https ： //kevinmusgrave.GitHub.io/pytorch-metric-learning。访问日期：2022-03-19。7[3] Adel Ahmadyan，Liangkai Zhang，Jianing Wei，ArtsiomAblavatski，and Matthias Grundmann. Objectron：一个大规模的以对象为中心的视频数据集，带有姿势注释。arXiv预印本arXiv：2012.09988，2020。3[4] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。7[5] Miguel Angel Bautista ， Walter Talkman ， ShuangfeiZhai，Ni- tish Srivastava，and Joshua M Susskind.基于学习的三维重建方法的推广。在IEEE/CVF计算机视觉应用冬季会议论文集，第2180-2189页，2021年。1[6] Jan Bechtold，Maxim Tatarchenko，Volker Fischer，andThomas Brox.通过学习局部和全局形状先验的层次结构促进单视图3d重建中的泛化。在IEEE/CVF计算机视觉和模式识别集，第158801[7] Sai Bi ， Zexiang Xu ， Kalyan Sunkavalli ， DavidKriegman，and Ravi Ramamoorthi.深度三维捕捉：稀疏多视图图像的几何和反射。在IEEE/CVF计算机视觉和模式识别会议论文集，第5960-5969页，2020年。三、四、六[8] Mark Boss ， Varun Jampani ， Kihwan Kim ， HendrikLensch，and Jan Kautz.两次空间变化的brdf和形状估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第3982- 3991页，2020年。4[9] Brent Burley和Walt Disney Animation Studios迪斯尼基于物理的阴影。在ACM SIGGRAPH，2012卷，第1-7页中。vol. 2012，2012. 5[10] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，et al.Shapenet：An information-rich 3d model repository. arXiv预印本arXiv：1512.03012，2015。一二四五六[11] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。7[12] Sungjoon Choi ， Qian-Yi Zhou ， Stephen Miller ， andVladlen Koltun.对象扫描的大型数据集。arXiv预印本arXiv：1602.02481，2016年。二、三、六[13] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。一二三五六[14] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。5[15] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。1[16] Valentin Deschaintre 、 Miika Aittala 、 Fredo Durand 、George Drettakis和Adrien Bousseau。使用渲染感知深度网络的单图像 svbrdf 捕获。 ACM Transactions onGraphics（TOG），37（4）：128，2018。三、六[17] ValentinDeschaintre ， MiikaAittala ， Fre' doDurand ，GeorgeDrettakis，and Adrien Bousseau.灵活的svbrdf捕获与多图像深度网络。在Computer Graphics Forum，第38卷，第1Wiley在线图书馆，2019年。三、四、六[18] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页，2017年。3[19] Huan Fu ， Rongfei Jia ， Lin Gao ， Mingming Gong ，Binqiang Zhao，Steve Maybank，and Dacheng Tao. 3d未来：3d毛皮-带纹理的毛皮形状。arXiv预印本arXiv：2009.09633，2020。二、六[20] 段高、小李、岳冬、彼得·皮尔斯、昆旭、辛桐。从任意数量的图像进行高分辨率svbrdf估计的深度逆绘制ACM Trans- actions on Graphics（TOG），38（4）：134，2019

下载后可阅读完整内容，剩余1页未读，立即下载