基于文本的图像检索中的整体三维场景提取

78 浏览量更新于2023-10-15 收藏 939KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

193基于文本的图像检索中的整体三维场景提取安立珍孙乔玉喜吴瑞池余弗拉德一。Morariu Larry S. 戴维斯高级计算机研究马里兰大学，College Park，MD 20742{angli，jinsun，yhng，richyu，morariu，lsd}@ umiacs.umd.edu摘要对象之间的空间关系为基于文本的图像检索提供了重要的信息。由于用户更可能使用3D空间关系而不是假定特定观看方向的2D关系来从真实世界视角描述场景，因此主要挑战之一然而，从图像直接推断3D结构需要从大规模注释数据中学习由于对象之间的相互作用可以减少到一个有限的一组原子空间关系在3D中，我们研究的可能性推断3D结构的文本描述，而不是一个图像，应用物理关系模型来合成整体的3D抽象对象布局，满足空间约束的文本描述。我们提出了一个通用的框架检索图像从文本描述的场景匹配图像与这些生成的抽象对象布局。通过将对象检测输出（边界框）与2D布局候选项（也由边界框表示）进行匹配来对图像进行排名，2D布局候选项通过用采样的相机方向投影3D场景来获得我们使用公共室内场景数据集验证了我们的方法，并表明我们的方法优于基于对象发生直方图和学习的2D成对关系建立的基线1. 介绍基于文本的图像检索可以追溯到20世纪70年代后期，已经从基于关键字的任务发展到基于自然语言描述的更[10，11，22]. 句子形式的语义信息不仅涉及对象的范畴信息，而且涉及对象之间的由于人类语言的性质，这些关系通常在真实（3D）世界中描述直观地说，它们可以成为许多应用场景中对图像进行排名的核心功能，例如，用户搜索与特定心理活动相关的图像，房间布局的图像。毫不奇怪，研究人员最近增加了对从文本输入中理解空间关系和检索语义一致的视觉信息的关注[10，16，23，32]。将图像与用户提供的空间关系进行匹配是具有挑战性的，因为人类自然地以3D描述场景，而图像是世界的2D投影。从单个图像推断3D信息是困难的。大多数现有方法从注释数据中学习，将语言直接映射到对象位置之间成对关系的概率分布[10，16]。然而，这样的分布在2D图像空间中是非凸的且高度非线性的，因为（未知的）相机视图影响边界框配置。因此，基于2D学习的方法的成功自然取决于带注释的训练数据的大小。此外，由于标注的空间关系具有长尾分布，学习者容易过度拟合;许多有效配置在现实世界中很少发生（例如，一张桌子在另一张桌子上）。利用成对关系，也难以强制从图像中的相同方向观看所有对象的事实。这就需要一个整体的对象关系模型，共同优化对象配置。出于这一动机，我们探索一种替代模型的空间关系，生成3D配置明确的基础上物理。我们探索一种方法，使用物理模型和复杂的空间关系语义的图像检索系统的一部分，从文本（而不是从图像）生成3D对象布局，并通过匹配这些布局的2D投影对检测到的对象在每个数据库图像进行图像检索。我们的框架需要一个固定的对象和空间关系类别的先验定义。从文本的依存关系树中提取空间关系词。对象建模使用- ING长方体和空间关系建模为对象的位置和方向的不平等的约束。这些不等式约束可以变得非常复杂，包含使用一阶逻辑表示的非线性变换。为此，引入了基于区间算法的三维场景求解器来搜索可行的三维空间布局194解决方案相机的方向进行约束和采样，以获得候选场景的2D投影。最后，通过将对象检测输出与2D参考布局的采样集进行比较，对图像进行评分和排名。与基于2D学习的方法相比，我们的方法具有以下优点：（1）从语言到3D的映射是简单的，因为基于文本的空间约束在3D中具有非常具体和简单的含义，简单到足以用一些规则手工定义;（2）不需要训练数据来学习给定语言约束的2D框的空间布置上的复杂分布（从语言到2D的非线性映射由投影几何处理），以及（3）当涉及3D中的物理关系时，添加常识约束是容易的（第12节）。4.2.2），而如果这些约束是在2D中指定和学习的（由于投影几何的非线性），则很难。我们使用两个公共场景理解数据集来评估我们的方法[3，27]。结果表明，我们的方法优于基于对象发生直方图和学习的2D关系建立的基线。2. 相关工作基于文本的图像检索已经研究了几十年[22]。随着计算机视觉和自然语言处理的发展，最近出现了在语言和视觉信息之间建立联系的努力 [12 ， 19] 。Srivastava 和 Salakhutdinov[28] 将深度玻尔兹曼机（DBMs）扩展到多模态数据，用于学习图像和文本的联合表示。他们将这种表示应用于从文本描述中检索图像他们的模型学习具有属性的对象与其相应的视觉外观之间的映射;然而，空间关系没有建模。空间关系在视觉理解中起着重要的作用。以前的工作利用文本提取的空间关系的图像检索。Zitnick等人[32]从文本中生成和检索抽象卡通图像。卡通对象模型是预定义的，2D剪贴画图像是根据文本组成的。Siddiquie等人[24]设计一个多模态框架，用于从包括图像，草图和文本的源中检索图像，通过联合考虑对象，属性和空间关系，并将所有源简化为2D草图。然而，他们的框架处理文本只有两个或三个对象和非常有限的二维空间关系。Lin等[16]从文本查询中检索视频。该方法定义了一组具有视觉轨迹属性的运动文本，并将其解析为语义图，通过广义二分图匹配来匹配视频片段所有这些工作都依赖于2D空间关系，而我们的工作是基于真实世界的3D场景的物理模型来检索语义一致的图像。最近关于从文本中检索图像的有趣工作是基于场景图表示[10，23]。场景图是对对象、属性和对象关系进行编码的基于图的表示。在Johnsonet al. [10]中，文本输入由人转换为场景图，并且CRF模型用于通过编码对象的全局空间关系而不是仅成对关系来将场景图与图像匹配。他们的方法需要从带注释的图像数据中学习空间关系。我们的工作的不同之处在于，我们采取了生成的观点，并注入物理关系模型和人类知识的检索系统，而不需要大规模的数据注释。许多现有的作品在视觉任务中利用3D几何结构，诸如对象识别[8]、图像匹配[15]、对象检测[30，31]等。然而，据我们所知，在将图像与语言相关联中使用3D几何结构还没有被利用。虽然从单个图像推断3D结构在视觉上具有挑战性和复杂性[3，5，9，20，21]，但从文本渲染场景的问题在图形社区中引起了兴趣。wordseye系统[4]使用给定的3D对象模型从文本中渲染场景Chang等[2]通过整合从数据中学习到的空间知识，从文本中生成3D场景。此外，最近的一些作品将计算机视觉转换为逆图形，并试图将计算机图形元素纳入视觉理解系统[13，14，29]。我们的工作还涉及场景生成。然而，我们的目的是检索基于边界框的相似图像，边界框可以在数据库索引步骤期间使用现成的软件有效地计算，因此不需要真实的对象模型，尽管更好的场景生成可以提供。明显提高了图像检索精度。3. 初步：区间分析我们的方法涉及到找到可行的解决方案的数学程序中的变量是对象坐标和方向，和约束是从用户描述翻译的不等式。由于小的布局扰动通常不会影响约束的实现，因此可行变量自然可以由一组区间表示（区间内的任何值都是可行的）。区间分析通过其可行区间来表示每个变量，例如，[l，u]（具有下界l和上界u），目标是找到满足所有约束的每个维度的界[26]。当一个区间不能满足所有约束时，它被分成更小的区间，递归地评估。算术运算符是根据区间定义的，例如，• 加法：[l1，u1]+[l2，u2]=[l1+l2，u1+u2];• 减法：[l1，u1]-[l2，u2]=[l1-u2，u1-l2];• 比较：[l1，u1]<[l2，u2]等于[0，0]，如果u2≤ l1（肯定为假）;如果u 1 l 2，则等于[1，1]<（绝对为真）;否则等于[0，1]（可能为真）。约束的满足可以由三个逻辑间隔中的任何一个来表示，即，[0，0]，[1，1]，[0，1]。195自然语言描述（obj1a，obj1b，rel1）（obj2a，obj2b，rel2）... ......这是什么？用户输入查询语义三元组可能的3D布局采样的2D投影图像数据库二维边界框每个图像对象检测排名图1.框架概述：视觉场景的文本描述被解析为语义三元组，用于解决可行的3D布局及其2D投影作为参考配置。对象检测器在每个数据库图像上运行并生成2D边界框布局，以与参考配置相匹配所有数据库图像都根据其配置分数进行排名4. 我们的方法拟议的框架，如图所示。1、由多个模块组成。首先，输入文本被解析成一组对象名称及其空间关系的语义三元组。其次，语义三元组用于解决对象的可能的3D布局以及采样的相机位置和方向。3D场景的2D投影用于生成对象的2D边界框，我们称之为参考配置。最后，将参考配置与每个数据库图像中检测到的边界框进行匹配，以根据它们的配置相似性进行评分和排名。4.1. 文本解析文本分析模块将文本翻译成一组语义三元组，这些三元组编码关于两个对象实例及其空间交互的信息如何从文本中鲁棒地提取关系仍然是自然语言处理中的一个开放研究问题[11]，这超出了本文的范围。对于我们的应用程序，一个简单的基于规则的模式匹配工作得足够好，需要一个预定义的对象和空间关系类别的字典。一个文本示例及其解析输出如表1所示。输入的文本由Stanford CoreNLP li-player[18]处理，带有词性标记和依赖树。我们实现了一种基于规则的方法来提取空间关系（如上，下，前面，后面，上面等）。并组成其相应的语义三元组表示（目标对象、引用对象、关系）。CoreNLP库中的共指模块用于聚合对应于同一对象实例的多个名词出现。每个对象引用由其类别名称和类别内的唯一ID表示，例如。沙发-0和餐桌-2。自然物体通常由多个子物体组成#句子→（object-1，object-2，relation）1 床的上方有一幅画（图片-0，床位-0，上图）2 床头右侧有床头柜。（床头柜-0，床-0：头部，右侧）3 床头柜上有盏灯。（灯-0，床头柜-0，打开）4 另一幅画在灯的上方。（图片-1，灯-0，上图）5 梳妆台在床头的左边。（梳妆台-0，床-0：头部，左侧）表1.从示例查询解析语义三元组对象，并且经常存在引用子对象而不是整个对象的情况例如，一张床有它的头部和后部。椅子有靠背和座位。我们考虑子对象，并通过其对象类别名称、唯一类别内ID和子对象名称来表示任何子对象引用，例如。如果ID为0，则“床的后部”表示为bed-0：rear。除了对象类别和空间关系，我们还考虑每个对象的计数，例如。三把椅子，两台显示器，等等解析器维护一个对象ID及其计数的列表。如果chair-0的计数为3，则解析器将chair-0扩展为三个实例{chair-0-0，chair-0-1，chair-0-2}在输出中。4.2. 3D抽象场景生成3D抽象场景生成模块是我们的图像检索框架的核心组件，它作为输入的语义三元组，并生成一组采样的可能的3D对象布局。我们在下面描述场景生成器的三个核心组件：基于立方体的对象模型，空间关系模型和3D场景求解器。评分&19622DLXy z0.80.610.80.60.40.70.6取向使得Σp = R−lx，−ly，−lzΣ⊺Σl l lΣ⊺+ x+x，y+y，z+z，0.2000.40.6Y00.8X0.2000.5Y00.5X0.50.40.30.20.1000.20.4X0.50Yq =R2Σlx，是的，2 2Σ⊺Σz+x+2lx，y+2Σ⊺ly，z+z2（一）（一）（b）（c）（d）其他事项D22 22 2 2图2.基于长方体的对象表示示例：（a）桌子（b）椅子（c）床（d）床头柜。不同的颜色表示不同的子对象。床头柜（d）由单个长方体表示。4.2.1基于长方体的对象模型其中Rd是z轴旋转矩阵w.r.t.定向D。所以一个对象可以用tuple（p，q，d）表示。设物体-1的长方体为O1（p1，q1，d1），支撑面为zs1，物体-2的长方体为O2（p2，q2，d2），支撑面为zs2，我们定义了8个原子关系：• near：O1<$（p2−dneared2，q2+dneared2，d2）<$;物体的基本长方体表示是C =其中（lx，ly，lz）是长方体的大小，• 上：zp1=zs2 p1+q1∈xyO2;分别在x、y、z方向上界定对象，并且zs是对象的支撑表面的z我们大多使用常规尺寸，但也为具有属性的对象设置不同的尺寸，例如长桌子，三人沙发，• 上：zq2+dmin-上≤zp1≤zq2+dmax-上p1+q1∈xyO2;• 下：zs1然后11k =argmaxk|Xik. max− Xik. Min|;（一）（二）4.2.33D场景求解器设X ={x1，y1，z1，d1，. . . ，xn，yn，zn，dn} ∈R4n是a12131415末端将Xi的k维半分裂为Xi和Xi;（1）求数组的值int x =x（x）;布局状态，表示所有对象。我们构造约束函数F ：R4n→{0，1}，它计算所有先前的约束和关系约束。目标是找到可行解集S，使得对于所有X∈S，F（X）=1。我们的求解器基于区间分析[26]，其中任何变量都由区间（不确定值）而不是某个值表示。我们用一个大小为2的向量来表示-16 return S;权力。在此基础上，我们提出了区间收缩运算，它预先计算下界矩阵LX，Ly，Lz∈Rn×n和上界矩阵对于两两坐标差，Ux，Uy，Uz∈Rn×n发送间隔，即，一个下界和一个上界Un-也就是说，Lx≤xi−xj≤Uxyi、j≤yi−yj≤Uy根据区间分析，布局状态的域变为R4n×2，约束函数变为F：R4n×2→zi，j≤zi−zj≤Uz。约束矩阵是初始的-使用原始的约束进行化，一旦我们发现{[0，0]，[0，1]，[1，1]}。从候选队列开始，∗i、j∗i，k∗k、j∗i、j∗i，k∗k、j（x∈ {x，y，z}）。给定初始区间布局状态{X0}，我们的求解器扩展了一次一个候选人的状态每个状态在评估每个候选区间布局状态之前，我们根据约束矩阵收缩其变量，例如，Xi∈R4n×2，若F（Xi）=[1，1]，则Xi是可行的，x收缩=j[xj+Lx，xj+Ux]xi其中xi是一种添加到解决方案集。如果约束fullfilm为不可判定的，即，F（Xi）=[0，1]，则Xi通过分裂具有最大不确定性的变量而被分成两个相等大小的区间这两个新的状态被附加到候选队列。否则，F（Xi）=[0，0]且在Xi所围的空间内没有可行解. 最后，解决方案集中的任何布局都保证满足所有约束。该方法的一个优点是不需要计算约束F的梯度。伪代码在算法1中示出。间隔收缩。原始的区间分析没有充分利用等式约束，例如，当一个变量被限制为等于另一个变量时，由于一个变量可以直接基于另一个变量计算，因此将它们的区间都除是此外，许多空间关系是可传递的，例如，如果物体A在物体B前面，B在C前面，那么A很可能在C的前面，但距离更大。如─ 延迟约束可以通过更好的修剪使求解程序∧LLL

下载后可阅读完整内容，剩余1页未读，立即下载