SpatialSense: 逆向众包驱动的空间关系识别新基准

0 下载量 108 浏览量 更新于2024-06-20 收藏 1.49MB PDF 举报
SpatialSense是一个专注于空间关系识别的基准数据集,由普林斯顿大学的研究团队开发,旨在解决图像中对象间复杂的空间关系理解问题。这一研究领域的重要性在于,视觉理解对于智能体,如自动驾驶、机器人导航和物体操纵等任务至关重要。空间关系的理解涉及到对物体在2D和3D空间中的位置、布局以及它们之间的相互作用进行深入分析。 当前,空间关系识别被证明是一项具有挑战性的任务,因为即使图像中的物体看似接近,也可能隐藏着复杂的三维配置。例如,描述中的例子提到,判断“狗不在水里”不仅需要识别狗和水,还需理解它们的相对位置;而“球实际上在孩子前面”则要求模型具备对图像空间和实际3D空间的推理能力。 SpatialSense通过对抗性众包的方式创建,它利用人类标注员来识别那些仅凭简单线索(如2D位置或语言提示)难以确定的空间关系。这种方法有助于减少数据集的偏差,使得数据集能够覆盖更广泛的复杂关系,特别是那些在现有数据集中较少出现的长尾部分。这个过程强调了模型对间接证据和推理能力的依赖,而非仅仅依赖于直观的视觉特征。 SpatialSense基准测试为评估和提升计算机视觉系统在空间推理方面的性能提供了新的标准。研究人员发现,即便是最先进的识别模型,在这个数据集上也未能充分展示出对复杂空间关系的深入理解和推理。这表明,尽管技术取得了进步,但在处理这类细致入微的空间理解任务时,还有很大的提升空间。 SpatialSense数据集和相关代码已开放在GitHub上,https://github.com/princeton-vl/SpatialSense,欢迎研究人员和开发者下载使用,共同推动空间感知和逆向众包在计算机视觉领域的研究进展。通过这个基准,我们可以期待未来算法能更好地模拟人类在空间理解上的智慧。