没有合适的资源?快使用搜索试试~ 我知道了~
基于物理常识和人-物交互的3D整体场景解析与人体姿态
8648整体++场景理解:基于人-物交互和物理常识的单视点三维整体场景解析和人体姿态Yixin ChenXiang 1,Siyuan HuangXiang 1,Tao Yuan1,Siyuan Qi1,2,Yixin Zhu1,2,andSong-Chun Zhu1,2平等贡献者1加州大学洛杉矶分校(UCLA)2国际人工智能和机器人自主中心(CARA){ethchen,huangsiyuan,taoyuan,syqi,yixin.zhu}@ ucla.edu,sczhu@stat.ucla.edu摘要解析图场景人-物交互我们提出了一个新的3D整体++场景理解问题,它联合处理两个任务,从一个单一的视图图像:(i)整体场景解析和重建-三维估计的对象边界框,相机姿态,和房间布局,和(ii)三维人体姿态估计。直观的我们建议利用这两项任务之间的两个关键和必要的联系:(i)人-物交互(HOI),用于对场景中的代理和对象之间的细粒度关系进行建模,以及(ii)物理常识,用于对重建场景的物理可扩展性进行建模。使用马尔可夫链蒙特卡罗(MCMC)来推断由解析图表示的3D场景的最优配置,该MCMC有效地遍历不可微的联合解空间。实验结果表明,该算法在3个数据集上显著提高了两个任务的性能,表现出较好的泛化能力。1. 介绍人类,甚至是年幼的婴儿,都善于感知和理解复杂的室内场景。这样一个令人难以置信的视觉系统不仅依赖于数据驱动的模式识别,而且还源于视觉推理系统,称为核心知识[41],有助于3D整体场景理解任务。考虑图1中所示的典型室内场景,其中一个人坐在办公室中。我们可以毫不费力地从静态场景中提取丰富的知识,包括3D房间布局,所有对象和代理的3D位置,以及以物理上合理的方式纠正人-对象交互(HOI)事实上,心理学研究已经证实,即使是婴儿也至少使用了两种限制-HOI和物理常识-在感知中。物理常识地面目标表-监视器支持支持重建结果根节点非终端节点终端节点属性物理关系HOI关系图1. 整体++场景理解任务需要联合恢复表示场景的解析图,包括人体姿势、对象、相机姿势和房间布局,所有这些都是3D的。推理人-物交互(HOI)有助于重构人与物之间的详细空间关系。物理常识(例如,物理性质、结晶性和稳定性)进一步细化关系并改进预测。消除遮挡[43,20],跟踪小物体,即使被其他物体包含[10],实现物体永存性[2],识别理性HOI [46,37],理解直觉感知[11,29,1],以及使用探索性游戏来理解环境[42]。所有的证据都要求将HOI和物理常识与现代计算机视觉系统结合起来进行场景理解。相比之下,很少有人尝试实现这一目标。这一挑战是困难的,部分原因是该算法必须以物理上合理的方式共同完成3D整体场景理解任务和3D人体姿态估计任务。由于这项任务超出了文献中整体场景理解的范围,因此我们将这项综合任务定义为整体++场景理解-同时估计人体姿势,物体,房间布局和摄像机姿势,所有这些都在3D中。对象人类布局…表监测 键盘椅子使用计算机站点8649基于一个单视图图像,现有工作仅关注3D整体场景理解[16,62,3,40]或3D人体姿势估计[53,32,9]。尽管人们可以通过使用大量注释数据进行训练来在单个任务中实现令人印象深刻的性能,但我们认为这两个任务紧密交织在一起,因为室内场景是由人类设计发明和构建的,以支持日常活动,为丰富的任务和人类活动产生启示[12]。解决方案建议整体++场景理解在这项任务中,我们试图应对四项基本挑战:1. 如何利用人体姿态估计和整体场景理解的耦合性,使两者相互促进?如何重建具有复杂人类活动和交互的场景?2. 如何从单个2D图像约束3D估计的解空间3. 如何对包含人类主体和物体的复杂场景做出物理上合理和稳定的4. 如何提高泛化能力,以实现跨不同数据集的更鲁棒的重建?为了解决前两个挑战,我们采取了一个新的步骤,将HOI作为约束条件,用于联合解析3D人体姿势和3D场景。HOI的集成受到人类3D场景感知的关键观察的启发,这对现有系统是具有挑战性的。以图1为例;人类能够通过识别女孩坐在椅子上来施加约束并推断女孩和椅子之间的相对位置和方向。类似地,这样的约束可以帮助恢复小对象(例如,通过检测女孩正在使用图1中的计算机来识别键盘)。通过学习HOI先验并使用推断出的HOI作为视觉线索来调整人与场景(物体和房间布局)之间的细粒度空间关系,单视图重建中的几何模糊性(3D估计解空间)将在很大程度上得到缓解,并且这两个任务的重建性能将得到改善。为了解决第三个挑战,我们将物理常识纳入所提出的方法。具体地说,所提出的方法推理物理关系(例如,支持关系),并惩罚物理违反以预测物理上合理且稳定的3D场景。HOI和物理常识作为不同数据集的一般先验知识,从而帮助解决第四个问题。为了联合解析3D人体姿势和3D场景,我们通过图1所示的解析图来表示室内场景的配置,该解析图由具有层次结构的解析树和终端节点上的马尔可夫随机场(MRF)组成,捕获人、对象和房间布局之间丰富的上下文关系。重建三维场景和人体姿态的最佳解析图通过最大后验概率(MAP)估计来实现其中先验表征节点之间的上下文HOI和物理关系似然性测量(i)直接来自2D对象和姿态检测器的检测结果与(ii)从3D解析结果投影的2D结果之间的相似性。解析图可以通过基于后验概率的模拟退火联合优化较少地依赖于特定的训练数据集,因为它受益于HOI和物理常识的先验,这些先验在环境和数据集之间几乎是不变的,以及从明确定义的视觉任务(例如,3D姿态估计,场景重建),与纯数据驱动的方法相比,显著提高了跨不同数据集的泛化能力PiGraphs [34] 、 Watch-n- Patch [47] 和 SUN RGB-D[38]上的实验结果表明,所提出的方法在3D场景重建和3D姿态估计方面优于最先进的方法。此外,烧蚀分析表明,HOI先验改善了重建,物理常识有助于做出物理上合理的预测。本文主要贡献有四点:1. 我们提出了一个新的整体++场景理解任务,该任务具有一个计算框架,可以联合推断人体姿势,物体,房间布局和相机姿势,所有这些都是3D的。2. 我们结合HOI来连接人体姿态估计和场景重建,减少单视图重建的几何模糊性(解空间)3. 我们结合了物理常识,这有助于预测物理上合理的场景,并提高人类和物体的3D定位。4. 我们证明了联合推理提高了每个子模块的性能,并与纯数据驱动的方法相比,在各种室内场景数据集上实现了更好的泛化能力。1.1. 相关工作单视图3D人体姿态估计:关于3D姿态估计的先前方法可以分为两个流:(i)从2D图像直接学习3D姿态[36,23],以及(ii)级联框架,其首先执行2D姿态估计,然后从估计的2D关节重建3D姿态[53,27,32,48,6,44]。虽然这些研究在背景相对干净的场景中取得了令人印象深刻的结果,但在具有任意杂乱物体的典型室内场景中估计3D位姿的问题很少被讨论。最近,Zanfiret al. [51]采用了地平面支撑和多人占用体积的约束,但仍然缺少人与场景(物体和布局)与此相反,所提出的模型不仅估计的3D姿态的多个人与一个绝对的规模,但也模型之间的物理关系的人和3D场景。8650Z单视图3D场景重建:单视图3D场景重建有三种主要方法:(i)通过提取几何特征来预测房间布局,以排名3D长方体建议[62,40,17,61]。(ii)通过将对象视为几何图元或CAD模型[3,39,57],将对象proposals与RGB或深度图像对齐(iii)房间布局和3D对象与上下文的联合估计[40,54,7,52,62]。黄的近期作品等人[16]对层次结构、潜在的人类环境、物理约束进行建模,并以综合分析的方式进行联合优化;虽然考虑了人的背景和功能,但是具有人的姿势和HOI的室内场景重建仍然未被触及。人机交互:推理细粒度的人类与物体的交互对于更全面的室内场景理解是必不可少的,因为它为人类活动和物理交互提供了关键线索。在机器人和计算机视觉,先前的工作已经在事件、对象和场景建模中利用了人-对象关系,但是大多数工作集中在图像中的人-对象关系检测[5,30,25,21]、来自多个数据源的概率建模[45,33,13]以及快照生成或场景合成[34,24,31,18]。与之前的所有工作不同,我们使用学习的3D HOI先验来细化人与场景之间的相对空间关系,从而实现对交互对象的自物理常识:推断隐藏的物理特性的能力是一种公认的人类认知能力[26,22]。通过利用场景和物体的基本物理特性,最近的努力已经证明了估计静态场景[49,28]和物体[60]的当前和未来动态的能力,理解物体的支撑关系和稳定性[56],体积和遮挡推理[35,55],推断隐藏力[59],以及重建3D场景[15,8]和3D姿态[51]。除了以往的方法中所采用的对象之间的物理属性和支持关系外,我们还进一步建模了(i)人与对象之间的物理关系,(ii)人与房间布局之间的物理关系,Vt=VlayoutVobjectVhuman.具体而言:• 房间布局v∈V布局在世界坐标系中用一个3维定界盒XL∈ R3×8表示三维包围盒由节点的属性参数化,包 括其三维尺寸SL ∈ R3 ,中心CL ∈ R3 ,方向Rot (θ L )∈ R3 × 3。有关3D边界框的参数化,请参见补充说明• 每个3D对象v∈V对象由具有其语义标签的3D边界框表示我们使用与房间布局相同的3D• 每个人v∈Vhuman由17个3D关节XH∈R3×17及其动作标签表示。 这些3D关节由姿态尺度SH∈R、姿态中心CH∈R3(即,髋关节),局部关节位置RelH∈R3×17,姿态方向Rot(θH)∈R3×3。每个人还由并发动作标签a贡献,并发动作标签a是表示这个人的当前动作的多热向量:一个人可以“坐”和“喝”,或“走”和“打电话”在同一时间。上下文关系E包含场景E={Es,Ec,Ehoi}中的三种类型的关系。具体而言:• Es和Ec分别表示支持关系和物理碰撞。这两种关系惩罚了对象之间、对象与布局之间以及人与布局之间的物理偏差,从而产生了物理上可行的和稳定的预测。• Ehoi对HOI进行建模,并为整体场景理解提供强大且细粒度的约束。例如,如果检测到一个人坐在椅子上,我们可以使用预先学习的“坐”的空间关系来约束这个人和椅子之间的相对3D位置3.概率公式解析图pg是对观察到的图像I的综合解释[58]。整体++场景理解的目标是通过MAP估计来推断给定I的最佳解析图pg*pg=argmaxp(pg|I)=argmaxp(pg)·p(I|pg)在一个物理上合理的和稳定的场景。PG PG1(一)2. 表示室内场景的配置由解析图pg=(pt,E)表示;参见图1。它将解析树pt和叶节点之间的上下文关系E组合在一起。这里,解析树pt=(V,R)包括顶点集, 三级分层结构V=Vr<$Vm<$Vt和分解规则R,其中根节点Vr表示整个场景,中间节点Vm具有三种类型的节点(对象、人和房间布局),并且末端节点Vt包含中间节点的子节点,表示在该场景中检测到的父节点的实例。EVt×Vt是上下文关系的集合,=argmaxexp{−Ephy(pg)−Ehoi(pg)−E(I|pg)}。PG我们用吉布斯分布来模拟联合分布,其中解析图的先验概率可以分解为物理先验Ephy(pg)和HOI先验Ehoi(pg);为了简单起见,忽略了平衡因素。物理先验物理(pg)表示3D场景中的物理常识。我们考虑终端节点之间的两种类型的物理关系:支持关系Es和冲突关系Ec。因此,物理先验的能量被定义为Ephy(pg)=Es(pg)+Ec(pg)。具体而言:• 支撑关系Es(pg)定义了支撑对象/人与支撑对象/布局之间的能量:终端节点,由水平链接表示。pg中的终端节点Vt可以进一步分解为ΣEs(pg)=(vi,vj)∈EsEo(vi,vj)+E高度t(vi,vj),(2)8651J其中,Eo(vi,vj)=1-are a(vi<$vj)/area(vi)是xy 平面中的重叠比,Eheigh t(vi,vj)是被支撑物体vi的下表面与支撑物体vj 的 上 表 面 之 间 的 绝 对 高 度 差;当支撑物体是地板时,Eo(vi,vj)=0,当支撑物体是墙壁时,Eheigh t(vi,vj)=0。• 物理碰撞Ec(pg)表示物理违规。我们惩罚人,物体,房间布局,除了HOI中的对象和可能是容器的对象势函数定义为:ΣEc(pg)= C(V,Vlayout)+ΣC(vi,vj)+ΣC(vi,vj),(3)图2.典型HOI示例和SHADE数据集示例热图指示HOI的可能位置。v∈(Vobject<$Vhuman)vi∈V对象vj∈Vhuman(vi,vj)∈/Ehoivi,vj∈V对象vi,vj∈/V容器4. SHADE数据集我们收集阴影(合成人类活动,其中C()表示实体之间的相交体积。V容器表示可以作为容器的对象,例如橱柜,桌子和抽屉。人机交互先验Ehoi(pg)由人与物体之间的交互ΣEhoi(pg)=K(vi,vj,avj),(4)(vi,vj)∈Ehoi其中vi∈Vobject,vj∈Vhumann,K是一个HOI函数,它评估对象和人之间的交互,给定动作标签a:K(vi,v j,avj)=−logl(vi,vj|avj),(5)其中l(vi,vj|是节点Vi和Vi之间的相对位置相对于动作标签a的似然性。我们将动作检测公式化为多标签分类;有关详细信息,请参见第5.3节。似然性l(·)对关键关节与对象中心之间的距离进行建模;例如,对于似然性可以从具有多变量高斯分布(μx,μy,μz)的3D HOI数据集学习,其中μx,μy和μz是三个轴方向上的相对距离。可能性E(I|pg)表征观察到的2D图像和推断出的3D结果之间的一致性。投影的2D对象边界框和人类姿势可以是通过将推断的3D对象和人类姿势投影到2D图像平面上来计算。通过将直接检测到的2D边界框和人类姿势与来自推断的3D结果的投影框和人类姿势进行比较来获得可能性:动态环境),一个自注释的数据集,由动态3D人体骨架和对象组成,以学习每个HOI的先验模型。它是从一个视频游戏侠盗猎车手V与各种日常活动和HOI收集。目前,存在超过2900万帧的3D人类姿势,其中772,229帧被注释。平均而言,每个注释帧与2.03个动作标签和0.89个HOI相关联。SHADE数据集包含19个用于室内和室外活动的细粒度HOI。通过选择最频繁的HOI并合并相似的HOI,我们选择6个最终HOI:阅读[电话,笔记本,平板电脑],坐在[人桌关系],坐在[人椅关系],打电话,拿着,使用笔记本电脑。图2显示了数据集中的一些典型示例和关系。5. 联合推断给定单个RGB图像作为输入,联合推理的目标是找到最大化后验概率p(pg)的最佳解析图|I)的第10条。 联合解析是一个四步过程:(i)摄像机姿态、房间布局和3D对象边界框的3D场景初始化,(ii)估计3D场景中的粗略3D人类姿态的3D人类姿态初始化,(iii)并发动作检测,以及(iv)通过最大化后验概率来优化3D场景中的对象、布局和人类姿态的联合推断。5.1. 3D场景设计在[15]之后,我们协同初始化3D对象、房间布局和相机姿势,其中房间布局对象和对象由3D边界框参数化为E(I)|pg)=·D〇(B(v),B’(v))+·Dh(Po(v),Po′(v)),(6)每个物体vi∈V对象 ,我们找到它的支持对象/布局v∈V对象v∈Vhuman通过最小化支持能量:其中B()和B′()是检测到的和投影的2D对象的边界框,Po()和Po′()是检测到的和投影的2D人的姿态,D()是检测到的2D边界框和投影的3D边界框的凸包之间的交并(IoU),并且D()是两个2D姿态之间的平均逐像素欧几里德距离。v=argminEo(vi,vj)+Eheight(vi,vj)−λslogpspt(vi,vj),(7)VJ其中vj∈(Vobjec t,Vlayou t)和pspt(vi,vj )是由多项分布建模的支持关系的先验概率,λ是平衡常数。8652123112v5.2. 3D人体造型我们将2D姿态作为输入,并按照[44]在局部3D坐标中预测3D姿态,其中2D姿态由[4]检测和估计。局部3D坐标以人体髋关节为中心,z轴与世界坐标的向上方向对齐。为了将该局部3D姿态转换为世界坐标,我们找到一个可见2D关节v2D∈R2的3D世界坐标v3D∈R3(例如,head)通过求解具有摄像机内参数K和估计的摄像机姿态R.根据针孔摄像机投影模型,我们有Σ Σα2D=K·R·v3D,(8)1其中α是齐次坐标中的比例因子。为了使函数可解,我们假设关节位置v3D在世界坐标中的预定义高度h0最后,通过将局部3D位姿和对应的关节位置与v3D对齐来获得3D位姿初始化。5.3. 并发动作检测我们制定了并发动作检测作为一个多标签的分类问题,以减轻在描述行动的二义性我们定义一部分动作标签(例如,“eating”, “making phone call”) as the HOIlabels, and the remaining算法1联合推理算法给定:图像I,初始化解析图pginit程序PHASE 1对于不同的温度,用物理常识推断,没有HOIEhoi:从房间布局,物体和人体姿势中随机选择以优化pg程序PHASE 2将每个代理与其交互对象进行程序PHASE 3对于不同的温度,总能量E的推论,包括物理常识和HOI:从布局、对象和人体姿势中随机选择,以优化PG程序PHASE 4HOI自顶向下抽样分为四个阶段,各有侧重:(i)优化物体、房间布局和人体姿势,而无需HOI。(ii)为场景中的每个智能体分配HOI标签,并搜索每个智能体的交互对象.(iii)与HOI一起优化对象、房间布局和人体姿势。(iv)通过自上而下的采样生成可能未检测到的对象。动态:在阶段(i)和(iii)中,我们使用不同的MCMC过程。为了遍历不可微的能量空间,我们设计了马尔可夫链动力学qo,qo,qo,123没有HOI的正常人体姿势。HOI动作的混合用于房间布局的ql,ql,以及用于人体姿势的qh,qh,qh12 1 2 3而非HOI行为则涵盖了人类的大部分日常行为在室内场景中。我们手动将每个HOI动作标签映射到从SHADE数据集学习的3D HOI关系,并使用HOI动作作为线索,通过将其作为先验知识集成到我们的模型中来提高3D重建并发动作检测器以2D骨架作为输入,并用三层多层感知器(MLP)预测多个动作标签。用于训练并发动作检测器的数据集由合成数据和真实世界数据组成。它收集自:(i)第4中描述的合成数据集。我们将不同HOI的3D人体姿态投影到具有随机相机姿态的2D姿态中。(ii)[19]提出并收集的数据集,其中还包含多人在社交互动中的3D姿势我们按照与(i)中相同的方法将3D姿势投影到2D中(iii)动作识别数据集中的2D姿势[50]。我们的结果表明,合成数据可以显着扩大训练集,• 对象动力学:动态q o调整对象的位置,它在三个笛卡尔坐标轴之一或沿着深度方向平移对象中心;深度方向从相机位置开始指向对象中心。沿深度的平移在适当的相机姿势初始化下是有效的动力学qo提出了物体以指定角度的旋转。动力学qo通过相对于对象中心扩展或收缩长方体的角位置来每个动态可以在两个方向上扩散:在“+ x”和“-x”方向上平移,或在顺时针和逆时针方向上旋转。为了在能量空间中更好地遍历,动态可以提议以0.95的概率沿着梯度下降方向移动,或者以0.05的概率沿着梯度上升方向移动。• 人类动力学:动力学q h提出沿x、y、z或深度方向平移3D人体关节。动力学qh将人体姿势旋转一定角度。动力学qh有助于避免并发动作检测中过拟合5.4. 推理给定一个初始化的解析图,我们使用MCMC和模拟退火来通过不可微能量空间联合优化房间布局,3D对象和3D人体姿势;参见算法1作为总结。为了提高优化过程的效率,我们采用了一种优化策略,将优化过程分为以下几个阶段:2 3通过缩放因子调整人体姿势的比例相对于姿势中心的三维关节。• 布局动态:动力学q l将墙平移到布局中心的方向或远离布局中心的方向。Dynamicsql调整地板高度,相当于改变相机高度。在每次采样迭代中,该算法在q(pg →pg′)的建议概率下从当前pg中提出一个新的pg ′|(一)运用上述动力学中的一种。根据接受率接受8653图3.场景配置的优化过程采用模拟退火MCMC。每一步都是被接受的建议的数量6.1. 比较方法据我们所知,没有以前的算法联合优化3D场景和3D人体姿势,一个单一的形象。因此,我们将我们的模型与每项任务的最先进方法进行特别是,我们与[15]一致,用于单图像3D场景重建,图4.自上而下采样过程的图示该OB-物体检测模块没有检测到人拿着的瓶子,但是我们的模型仍然 可 以 通 过 推 理 HOI 来 恢 复 瓶 子 α ( · ) 如 Metropolis-Hastings算法[14]:′q(pg′→pg)·p(pg′|I)α(pg→pg)=min(1,),(9)q(pg →pg′)·p(pg|I)采用模拟退火算法以获得高概率的pg自上而下抽样:该方法通过自顶向下采样HOI关系中的对象,可以恢复交互的三维对象,这些对象太小或太新颖而不能被最先进的二维对象检测器检测到。在阶段(iv)中,如果HOI的置信度高于阈值,则我们建议从人中采样交互对象;我们最小化等式4中的HOI能量以确定对象的类别和位置;参见图4中的示例。实施详情:在阶段(ii)中,我们通过最小化方程4中的能量来搜索HOI中涉及的每个代理的相互作用对象。在阶段(iii)中,在将每个代理与它们的交互对象匹配之后,我们可以联合优化对象、房间布局和具有HOI施加的约束的图3显示了模拟退火优化过程。6. 实验由于所提出的任务是新的和具有挑战性的,有限的数据和国家的最先进的方法可用于所提出的问题。为了公平的评估和比较,我们在三种类型的数据集上评估所提出的算法:(i)在PiGraphs数据集上具有完整注释的真实数据[34],具有有限的3D场景。(ii)日常活动数据集Watch-n-Patch[47]上带有部分注释的真实数据,仅包含地面实况深度信息和3D人体姿势注释。(iii)合成数据与生成的注释一起用作地面实况:我们在SUN RGB-D数据集[ 38 ]中对各种活动的3D人体姿势进行采样,并将采样的骨架投影回2D图像平面。VNect [27]用于世界坐标中的3D姿态估计。由于VNect只能估计一个人,我们为世界坐标中的3D多人人体姿态估计签署附加基线。我们首先使用全局几何网络(GGN)[15]提取2048- D图像特征向量以捕获场景的全局几何级联向量(GGN图像特征、2D姿态、局部坐标中的3D全连接层使用均方误差损失进行训练。我们在合成SUN RGB-D数据集的训练集上训练网络。有关基准模型的更多详细信息,请参阅6.2. 数据集PiGraphs[34]包含Kinect v2获得的30个场景和63个视频记录,旨在将人类姿势与对象排列相关联。在大约2小时的录音中有298个动作可用每段录音约2分钟,平均有4.9个动作注释。我们删除了没有人类外观或注释的帧,得到了36,551张测试图像。Watch-n-Patch(WATCH)[47]是由Kinect v2记录的活动视频数据集。它包含了人类的几种日常活动,作为与各种物体相互作用的多种行为的组合。该数据集带有活动注释,深度图和3D人体姿势。我们在1,210个随机选择的帧上测试我们的算法。SUN RGB-D[38]包含丰富的室内场景,这些场景使用3D边界框,房间布局和相机姿势进行了密集注释。原始数据集有5,050张测试图像,但我们丢弃了未检测到2D对象、无效3D房间布局注释、有限空间或小视场的图像,从而得到3,476张测试图像。合成SUN RGB-D是通过对场景中的人体姿势进行采样来从SUN RGB-D数据集按照[16]中对假想人体姿势进行采样的方法,我们将采样扩展到各种姿势的更一般化的设置。增强的人由6元组表示8654表1.三维场景重建的定量结果方法Huang等人. [第十五条]我们度量二维IoU(%)3D IoU(%)深度(m)二维IOU(%)3D IoU(%)深度(m)PiGraphs68.621.4-75.124.9-SUN RGB-D63.917.7-72.918.2-WNP67.3-0.37573.6-0.162表2.全局3D姿态估计的定量结果图5.使用合成人体姿势增强SUN RGB-D。a,μ,t,r,s,μ,其中r ea是动作类型,μ是姿态模板,t是平移,r是旋转,s是缩放,μ=μ·r·s+t是想象的人体骨架。对于每个动作标签,我们在3D场景中采样一个想象的人类姿势:t如果a与任何HOI单位有关,我们t,r,s进一步增强对象的3D边界框。 在对人体姿态进行采样之后,我们使用地面实况相机矩阵和相机姿态将增强的3D场景投影回2D图像平面;参见图5中的示例。为了在合成SUN RGB-D上对3D人体姿态估计进行公平比较,所有算法都提供了地面真实2D骨架作为输入。对于3D场景重建,[15]和提出的3D场景初始化都是使用SUN RGB-D训练数据学习的对于3D姿态估计,[27]和所提出的方法的初始化都是在公共数据集上训练的,而基线是在合成SUN RGB-D上训练的。请注意,我们只使用SHADE数据集来学习HOI字典。6.3. 定量和定性结果通过比较该模型在三维场景重建和三维姿态估计方面的性能,对该模型在整体++场景理解任务上的性能进行了场景重建:通过计算物体包围盒的3D IoU和2D IoU来评价3D场景的重建效果以及3D世界与2D图像的一致性。根据[15]中描述的度量,我们计算PiGraphs上估计的3D边界框和注释的3D边界框表3. HOI对3D物体IoU(%)、3D姿态估计误差(m)和误检率(MR,%)方法海外完整模型HOI类型对象↑姿势↓ MR↓对象↑姿势↓ MR↓坐26.90.59015.227.80.52113.1举行17.40.51778.917.60.49054.6使用笔记本电脑14.10.54458.815.00.53443.3读14.50.46665.314.30.45341.9calcommonsense,并将这些知识与2D- 3D一致性(似然)相结合进行联合推理,避免了由2D直接估计3D所导致的过拟合图6显示了所有三个数据集的定性结果。姿势估计:我们在3D和2D中评估姿态估计。对于3D评估,我们计算估计的3D关节和3D地面实况之间的欧氏距离,并在所有关节上对其进行平均。对于2D评估,我们将估计的3D姿态投影回2D图像平面,并根据地面实况计算像素距离。定量结果见表2。所提出的方法在2D和3D中均优于其他两种方法。在合成的SUNRGB-D数据集上,所有算法都被给予地面真实2D姿态作为用于公平比较的输入虽然基线模型实现了更好的性能,因为基线模型很好地拟合了利用有限模板合成的3D人体姿势,但是由VNect和基线模型估计的3D姿势与具有真实人体姿势的数据集的地面实况偏离很大(即,PiGraph和Watch-n-Patch)。相比之下,所提出的算法表现一致,表现出突出的泛化能力,在各种数据集。太阳 RGB-D对于 没有地 面实况 3D边界 框的数 据集(即,Watch-n-Patch),我们评估相机中心和3D对象中心之间的距离。为了评估2D-3D一致性,在3D对象边界框的投影2D框与地面实况2D框或检测到的2D框之间计算2D IoU(即,Watch-n-Patch)。如表1所示,所提出的方法改进了所有三个数据集上的最先进的3D场景重建结果,而无需对它们中的每一个进行特定训练。更重要的是,与[15]相比,它显著改善了PiGraphs和Watch-n-Patch的结果最可能的原因是:[15]以纯粹的数据驱动方式在SUN RGB-D数据集上训练,因此难以推广到其他数据集(即,PiGraphs和Watch-n-Patch)。相比之下,所提出的模型包括更一般的先验知识的HOI和物理。消融分析:为了分析HOI和物理常识的贡献,我们比较了所提出的完整模型的两个变体:(i)模型w/oHOI : 没 有 HOI Ehoi ( pg ) , 以 及 ( ii ) 模 型 w/ophy。:无物理通信Ephy(pg)。• 人机交互。我们比较我们的完整模型与模型w/o hoi来评估每个类别的HOI。评估指标包括3D姿态估计误差、3D边界框IoU和与智能体交互的对象的误检率(MR)。实验在PiGraphs数据集和Synthetic SUN RGB- D数据集上进行,并带有注释的HOI标签。请注意,为了在三个不同数据集上进行消融分析的一致性,我们将sit和sit-at合并为sit,并消除了打电话。如表3所示,场景重建和人体姿态估计的性能是方法[第27话]基线我们度量2D(pix)3D(m)2D(pix)3D(m)2D(pix)3D(m)PiGraphs63.90.732284.52.6715.90.472SUNRGBD--45.810.43514.030.517WNP50.510.646325.22.1420.50.3308655图6.所提出的方法在三个数据集上的定性结果。该模型改进了初始化,具有准确的空间关系和物理可扩展性,并在各种数据集上表现出出色的泛化能力。比较图7。计算物理违规输入不带phy。完整模型(a)(b)第(1)款物体的下表面和支撑物体的上表面之间的距离由模型检测到的对象(无物理)。可能漂浮在空中或相互穿透,而完整的模型产生物理上合理的结果。7. 结论本文解决了一个具有挑战性的整体++场景理解的问题,联合解决三维场景重建和三维人体姿态估计从一个单一的RGB图像。通过图7.(a)模型w/o phy. 和(b) PiGraphs数据集上的完整模型。阻碍而不推理HOI,表明HOI有助于转换Agent和对象之间的相对空间关系,以进一步提高两个任务的性能。此外,误检率的显着性能增益意味着自顶向下的采样过程中的联合推理的有效性。• 物理常识关于物理常识的推理驱动重建的3D场景在物理上合理且稳定。 我们使用w/o phy在PiGraphs数据集上测试对象边界框的3D估计。完整的模型。完整的模型优于w/o phy。在两个方面:(i) 3D物体检测IoU(从23.5%到24.9%),以及(ii)物理违规(从0.223米到0.150米);见定性8656结合物理常识和对HOI的推理,我们的方法利用了这两个任务的耦合性质设计了一种联合推理算法,利用MCMC 遍 历 不 可 微 解 空 间 , 优 化 场 景 配 置 。 在PiGraphs、Watch-n-Patch和Synthetic SUN RGB-D上的实验证明了该算法的有效性以及HOI和物理常识的一般先验知识致谢:我们感谢UCLA CS部门的TengyuLiu提供SHADE数据集。本文报告的工作得到DARPAXAI资助N66001- 17-2-4029,ONR MURI资助N 00014-16-1-2007,ONR机器人资助N 00014 -19-1-2153、ARO资助W 911 NF-18- 1-0296和NVIDIA GPU捐赠资助。8657引用[1] 他是个天才。 在幻想的物理世界里。Curr entDir-tions inPsychological Science,13(3):891[2] 蕾妮·巴亚尔金,伊丽莎白·斯佩尔克,斯坦利·瓦瑟曼.五个月大婴儿的客体恒存性。认知,20(3):191-208,1985. 1[3] Aayush Bansal、Bryan Russell和Abhinav Gupta。再次访问马尔:经由表面法线预测的2D-3D对准。在IEEE计算机视觉和模式识别会议(CVPR),2016年。二、三[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议(CVPR),2017。5[5] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。在Winter计算机视觉应用会议(WACV),2018年。3[6] 赵正灿李敏植吴松怀使用procrustean正态分布混合模型的 复 杂 InternationalJournalofComputerVision(IJCV),117(3):226-246,2016. 2[7] Wongun Choi,Yu-Wei Chao,Caroline Pantofaru,andSilvio Savarese.使用三维几何短语理解室内场景。在IEEE计算机视觉和模式识别会议,2013年。3[8] Yilun Du,Zhijian Liu,Hector Basevi,Ales Leonardis,Bill Freeman,Josh Tenenbaum,and Jiajun Wu.学习开发三 维 场 景 解 析 的 稳 定 性 。 神 经 信 息 处 理 系 统 会 议(NIPS),2018年。3[9] Hao-Shu Fang,Yuanlu Xu,Wenguan Wang,XiaobaoLiu,and Song-Chun Zhu.学习位姿文法编码人体构形以进行3d位姿估测。在AAAI人工智能会议(AAAI),2018年。2[10] 丽莎·费根森和苏珊·凯莉通过目标文件跟踪个人:婴儿手工搜索的证据发展心理科学,6(5):568-584,2003.1[11] G yo?gyGe r gel y,HaroldBek kering,andIldik o?Ki ra?ly. 发展心理学:言语前婴儿的理性模仿Nature,415(6873):755,2002. 1[12] 詹 姆 斯 · 杰 罗 姆 · 吉 布 森 视 觉 感 知 的 生 态 学 方 法 。Houghton,Mifflin and Company,1979年。2[13] Abhinav Gupta,Aniruddha Kembhavi,and Larry S Davis.观察人与物体的交互:使用空间和功能兼容性进行识别。 IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),31(10):1775-1789,2009。3[14] 基思·黑斯廷斯。马尔可夫链蒙特卡罗抽样方法及其应用。牛津大学出版社,1970年。6[15] Siyuan Huang,Siyuan Qi,Yinxue Xiao,Yixin Zhu,Ying Nian Wu,and Song-Chun Zhu.协同整体场景理解:统一3d对象、布局和摄像机姿态估计。在神经信息处理系统(NIPS)会议上,2018年。三、四、六、七[16] Siyuan Huang,Siyuan Qi,Yixin Zhu,Yinxue Xiao,Yuanlu Xu,and Song-Chun Zhu.从单个rgb图像进行整体三 维 场 景 解 析 和 重 构 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV),2018年。二、三、六[17] Hamid Izadinia,Qi Shan,and Steven M Seitz. Im2cad。在IEEE计算机视觉和模式识别会议(CVPR),2017年。3[18] Chenfanfu Jiang , Siyuan Qi , Yixin Zhu , SiyuanHuang,Jenny Lin,Lap-Fai Yu,Demetri Terzopoulos,and Song-Chun Zhu.可配置的3d场景合成和2d图像渲染与每像素地面真相使用随机文法。国际计算机视觉杂志(IJCV),126(9):920-941,2018。3[19] Hanbyul Joo,Tomas Simon,Xulong Li,Hao Liu,LeiTan,LinGui,Sean Banerjee,Timothy Scott Godisart,Bart Nabbe,Iain
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功