没有合适的资源?快使用搜索试试~ 我知道了~
yonglu li@sjtu.edu.cn, xinpengliu0907@gmail.com,Joint 2D-3D Representation2D: Same HOI, Different Viewpoints+++Spatial ConfigurationSingle-view Body Capture,Object LocationEstimation3D HOISimilar 3D Body & Spatial Configurationoften plays an important role, such as 2D pose [31, 21, 58,13] and 3D pose [63, 39]. Because of the various view-points, 2D human pose [7] or segmentation [22, 61, 16] of-ten has ambiguities, e.g. same actions may have very differ-ent 2D appearances and poses. Although 3D pose is morerobust, rough 3D body joints are not enough to encode es-sential geometric and meaningful patterns. For example, wemay need detailed hand shape to infer the action “use a knifeto cut”, or facial shape for “eat and talk”. And body shapewould also largely affect human posture. In light of this, weargue that detailed 3D body can facilitate the HOI learning.Meanwhile, the object in HOI is also important, e.g. “holdan apple” and “hold the horse” have entirely different pat-terns. However, few studies considered how to embed 3Dinteracted objects in HOI. The reasons are two-fold: first,it is hard to reconstruct objects because of the 6D pose es-timation and diverse object shapes (detailed point cloud ormesh [8, 64]). Second, estimating 3D human-object spatialrelationship is also difficult for single-view.In this work, we propose a method to not only borrowessential discriminated clues from the detailed 3D body butalso consider the 3D human-object spatial configuration.First, we represent the HOI in 3D. For human, we utilizethe single-view human body capture [45] to obtain detailedhuman shape. For object, referring to the 2D human-object101660人-物交互的详细2D-3D联合表示0李永路,刘新鹏,陆瀚,王诗怡,刘俊琪,李杰峰,陆策武�0上海交通大学0{ sjtu luhan, shiywang, ljq435, ljf likit, lucewu } @sjtu.edu.cn0摘要0人-物交互(HOI)检测是行为理解的核心。除了2D信息,如人/物的外观和位置,由于其视角独立性,3D姿势通常也被用于HOI学习。然而,粗糙的3D身体关节只携带了稀疏的身体信息,不足以理解复杂的交互。因此,我们需要详细的3D身体形状来进一步研究。同时,在HOI学习中,3D中的交互对象也没有得到充分的研究。基于这些,我们提出了一种详细的2D-3D联合表示学习方法。首先,我们利用单视图人体捕捉方法获取详细的3D身体、面部和手部形状。接下来,我们根据2D人-物空间配置和对象类别先验估计3D对象的位置和大小。最后,我们提出了一个联合学习框架和跨模态一致性任务来学习联合的HOI表示。为了更好地评估模型的2D歧义处理能力,我们提出了一个名为Ambiguous-HOI的新基准,其中包含了困难的模糊图像。在大规模HOI基准和Ambiguous-HOI上进行了大量实验证明了我们方法的有效性。代码和数据可在https://github.com/DirtyHarryLYL/DJ-RN上获得。01. 引言0人-物交互(HOI)检测最近受到了很多关注。它旨在定位活动的人-物并同时推断动作。作为视觉关系的一个子任务[37],它可以促进活动理解[6,43,44,55],模仿学习[2]等。0�陆策武是通讯作者,清远研究院和人工智能实验室,上海交通大学,中国的成员。0空间和语义对齐0歧义0图1.基于2D的HOI检测在不同视角下可能存在歧义。3D中的HOI表示更加稳健。因此,我们估计3D详细的人体和交互对象的位置和大小来表示3D中的HOI。然后,我们学习一个联合的2D-3D表示来结合多模态的优势。101670通过空间配置和对象类别先验,我们通过透视投影估计其粗略位置和大小,并使用空心球来表示它。然后,我们将3D详细的人体和物体球放入一个归一化的体积中作为3DHOI空间配置体积,如图1所示。接下来,我们提出了详细的联合表示网络(DJ-RN),它由两个特征提取器组成:一个2D表示网络(2D-RN)和一个3D表示网络(3D-RN)。最后,我们采用几个一致性任务来学习2D-3D联合HOI表示。具体而言,我们根据更强大的3D空间特征对齐2D空间特征。我们进行语义对齐以确保跨模态的语义一致性。为了更好地嵌入身体姿势,我们以2D-3D联合方式估计身体部位注意力。也就是说,如果2D特征告诉我们手和头对于“在笔记本电脑上工作”很重要,那么3D特征也是如此。DJ-RN是第一个利用单视图3D恢复进行HOI的联合学习方法。它是一种新颖的范式,而不是一个特定的模型,并且可以灵活地替换2D/3D模块/提取的特征。我们相信它不仅会促进HOI学习,还会促进与动作相关的任务,例如图像字幕、视觉推理。为了更好地评估处理2D歧义的能力,我们提出了一个名为Ambiguous-HOI的新基准,其中包括从现有数据集(如HICO-DET [9],V-COCO [20],Open-Image [28],HCVRD[65])中选择的模糊示例。我们在广泛使用的HOI检测基准和Ambiguous-HOI上进行了大量实验。我们的方法在2D-3D联合学习方面取得了显著的改进。主要贡献如下:1)我们提出了一种2D-3D联合表示学习范式来促进HOI检测。2)提出了一个新的基准Ambiguous-HOI来评估模型的消歧能力。3)我们在HICO-DET[9]和Ambiguous-HOI上取得了最先进的结果。02. 相关工作0人-物体交互检测。最近,在HOI检测方面取得了很大的进展。已经发布了大规模数据集[9, 20,28]来推动这个领域的发展。同时,已经提出了许多基于深度学习的方法[19, 17, 31, 51, 21, 58,48]。Chao等人[9]提出了一个多流框架,被证明是有效的,并得到了后续工作[17, 31]的跟随。不同的是,GPNN[51]提出了一个图模型,并使用消息传递来处理图像和视频的HOI检测。Gkioxari等人[19]采用动作密度图来估计交互对象的2D位置。iCAN[17]利用自注意力来关联人-物体和上下文。TIN[31]提出了一种显式的交互性学习网络,用于识别非交互式的人-物体对并在推理中抑制它们。HAKE[30]提出了一种基于人体的新颖的分层范式。0部分状态[38]。以前的方法主要依赖于视觉外观和人-物体空间相对位置,其中一些方法[31]还利用了2D估计的姿势。但是HOI中的2D歧义在之前没有得到很好的研究。基于3D姿势的动作识别。最近基于深度学习的3D姿势估计方法[26,14, 46]取得了重大进展。除了基于2D姿势的动作理解[31,29, 35, 10, 18, 59],许多工作还利用了3D人体姿势[54, 13,62, 63, 39, 49, 27, 33, 3, 34, 40, 57,24]。Yao等人[62]构建了一个带有2D外观和3D人体姿势的2.5D图,并选择了不同动作的示例图进行基于示例的动作分类。在[63]中,2D姿势被映射到3D姿势,并通过比较3D姿势相似性来对动作进行分类。Luvizon等人[39]在统一模型中估计了2D/3D姿势,并从图像和视频中识别动作。Wang等人[60]利用RGB-D数据获取3D人体关节,并采用动作集合方法进行HOI学习。最近,Pham等人[49]提出了一个多任务模型,可以同时从RGB视频中进行3D姿势估计和动作识别。大多数基于3D姿势的方法[3, 34, 40, 57, 33, 49, 60,13, 27,24]都使用了基于循环神经网络(RNN)的时空动作识别框架,但很少有研究关注如何从单个RGB图像中理解复杂的HOI。单视图3D人体恢复。最近,单视图人体捕捉和重建方法[45, 26, 42, 47,4]取得了很大的进展。借助深度学习和大规模扫描的3D人体数据库[11, 25,1]的帮助,它们能够直接从单个RGB图像中恢复3D人体形状和姿势。SMPLify-X[45]是一个全面而高效的模型,它将2D人体、面部和手部姿势作为输入,捕捉3D人体、面部和手部。为了获得更准确和逼真的身体形状,SMPLify-X[45]利用了在大规模MoCap数据集上训练的变分人体姿势先验(VPoser),其中包含了大量的人体姿势先验和知识。它支持我们从HOI图像中恢复3D详细的人体,并嵌入更多的身体姿势知识。03. 在3D中表示HOI0我们的目标是学习2D-3D关节HOI表示,因此我们首先需要在3D中表示HOI。给定一张静止图像,我们使用目标检测[52]和姿势估计[7]来获取2D实例框和人体姿势。接下来,我们采用3D人体捕捉[45]来估计具有上述2D检测的3D人体(第3.1节),并估计3D中的物体位置和大小以构建3D空间配置体积(第3.2节)。03.1. 单视角3D身体捕捉0粗糙的3D姿势不足以区分各种动作,尤其是与日常物体的复杂交互。101680面部形状0手部形状0面部0手部关节2D身体3D身体0(无)0(无)0(无)0(无)0(无)0(无)0图2. 我们采用了详细的人体信息。我们使用OpenPose[7]和SMPLify-X[45]来估计面部和手部的2D、3D姿势和形状。这些信息将在HOI学习中起到很大的帮助,特别是与面部和手部相关的动作。0因此,我们需要全面和细粒度的3D身体信息作为线索。为此,我们采用了一种全面的3D身体捕捉方法[45],从单个RGB图像中恢复出详细的3D身体。给定图像I的2D检测,即2D人体和物体框b_h和b_o,2D人体姿势θ_2D ={θ_2D_b,θ_2D_f,θ_2D_h}(图2中的主体关节θ_2D_b,颌关节θ_2D_f和手指关节θ_2D_h)。我们将它们输入到SMPLify-X[45]中,通过最小化身体姿势、形状目标函数来恢复3D人体估计,即将SMPL-X[45]模型拟合到I和θ_2D。然后,我们可以通过最小化身体姿势、形状目标函数来获得优化的形状参数{θ_3D,β,ψ},其中θ_3D0是姿势参数,θ_3D ={θ_3D_b,θ_3D_f,θ_3D_h},β是身体、面部和手部的形状参数,ψ是面部表情参数。最后,模板身体网格被混合和变形以适应图像中的目标身体姿势和形状。通过函数M(θ_3D,β,ψ):R |θ_3D|×|β|×|ψ|→R3N,我们可以根据从图像中估计的{θ_3D,β,ψ}直接生成3D身体网格,并在下一阶段中使用它,一些示例如图2所示。03.2. 3D空间配置体积0获得3D身体后,我们进一步在3D中表示HOI,即估计3D物体的位置和大小。为了鲁棒性和效率,我们不重建物体的形状,而是使用一个空心球来表示它。因此,我们可以避免在单视角和各种类别的情况下进行困难的6D姿态估计。我们的过程有两个阶段:1)根据相机透视投影在平面上定位球心,2)使用先验的物体大小和人物-物体距离来估计球的深度。对于每个图像,我们采用了从SMPLify-X[45]估计的相机参数,其中焦距f设置为固定值5000,不考虑相机畸变。为了澄清,相机光学中心在世界坐标系中表示为C(t1,t2,t3),物体球心为O(xO,yO,zO)。物体球心。如图3所示,我们假设O投影到物体框边界顶部的中垂线上,表示球心落在平面PABC上。我们假设最高和最低可见点的0(光学中心)0物体框顶部的中垂线0图像平面0图3.物体位置估计。给定先验半径r,我们可以通过解投影方程得到球体中心位置,该方程限制球体与平面P1和P2相切,并确保球体中心落在平面PABC上。0球体分别投影到物体框的底部和顶部边界。然后我们可以得到球体的两个切平面:P1(包含点B、C、E)和P2(包含点A、C、D),如图3所示。P1和P2与PABC相交,在PABC上限制了球体中心可能所在的区域。为了得到球体中心的深度,我们需要知道球体的半径,即r = |→OD| =|→OE|。物体球体半径。对于球体半径,我们通过考虑物体框相对大小(相对于2D人体框)和物体类别先验来确定。通过第一步的物体检测,我们可以获得物体类别j。因此,我们可以根据维基百科和日常生活经验设置一个粗略的物体尺寸。在实践中,我们为COCO80个物体[32]设置了适合HICO-DET设置[9]的先验尺寸。首先,对于小物体或在不同轴上尺寸相似的物体(例如球、桌子),我们定义了球体半径与人体肩宽之间的先验物体尺度比率。其次,对于通常只能部分看到或其投影严重受到6D姿态影响的物体(例如船、滑雪板),我们使用人体和物体框的相对尺度比率作为参考比率。估计的球体中心表示为ˆO(ˆxO,ˆyO,ˆzO)。球体的深度对半径非常敏感,可能使球体远离人体。因此,我们使用恢复的人体的最大和最小深度zmaxH,zminH来规范化估计的深度ˆzc。我们为COCO物体[32]定义了先验物体深度规范化因子Γ = {[γmini,γmaxi]}80i =1。具体来说,根据预定义的深度区间(非常接近、接近、中等、远、非常远),我们邀请来自不同背景的50名志愿者观看HOI图像,并选择物体相对深度与人体的程度。然后,我们使用他们的投票结果设置经验规范化因子Γ。对于估计的ˆO(ˆxO,ˆyO,ˆzO),如果ˆzO不在[γminjzminH,γmaxjzmaxH]范围内,我们将ˆO移动到(ˆxO,ˆyO,γmaxjzmaxH)或(ˆxO,ˆyO,γminjzminH),取决于哪个更接近ˆO。尺寸和深度先验可以有效限制误差边界。没有它们,3D体积将有很大偏差并降低性能。..…101690体积形式化。接下来,我们进行平移以对齐3D中的不同配置。首先,我们将坐标原点设置为人体骨盆。重力方向的估计与负z轴方向保持一致,两个人体肩关节之间的连线被旋转为与x轴平行。然后,我们对3D身体进行下采样,得到916个点,并在球面上随机采样312个点。空心球体可以在球体内保留与相互作用的身体部位的信息。然后,我们通过将单位长度设置为瞳孔关节之间的距离来对整个体积进行归一化。最后,我们可以获得一个包含3D身体和物体球体的归一化3D体积,它不仅携带了基本的3D动作信息,还携带了3D人体-物体的空间配置信息。04. 2D-3D联合学习0在本节中,我们旨在学习联合表示。为此,我们提出了详细的联合表示网络(DJ-RN),如图5所示。DJ-RN有两个模块:2D表示网络(2D-RN)和3D表示网络(3D-RN)。我们分别使用它们从两种模态中提取特征(第4.1节,第4.2节)。然后,我们将2D空间特征与3D空间特征对齐(第4.3节),并使用身体部位注意力一致性(第4.4节)和语义一致性(第4.5节)来指导学习。04.1. 2D特征提取02D-RN由人体、对象和空间流组成,遵循[9,17,31]。在每个流中,我们采用不同的块来接收具有不同属性的2D信息并提取相应的特征(图5)。人体/对象块。人体和对象流主要利用视觉外观。我们使用COCO[32]预训练的Faster-RCNN[52]从检测到的框中提取ROI池化特征。为了增强表示能力,我们采用iCAN块[17]通过相关联上下文和实例来计算自注意力,并获得人体特征f2DH和对象特征f2DO。空间块。尽管外观携带重要线索,但它还从各个视角导入噪声和误导性模式。因此,人体-对象空间配置可以额外提供区分特征[9,17,31]。空间流主要考虑2D人体-对象相对位置。我们将2D姿势图和空间图[31]输入到空间块中,该块由卷积和全连接(FC)层组成,用于提取空间特征f2Dsp。空间图由两个通道组成,人体和对象图,它们都是64×64,并且由人体和对象框生成。框内的值为1,其他地方为0。姿势图由来自OpenPose [7]的17个大小为64×64的关节热图组成。02D空间配置02D人体03D对象位置和大小03D空间配置体积,位置的语义03D身体0Word2Vec0“头部”“手”0“瓶子”“脚”0图4.3D空间配置体积。在3D身体捕捉后,我们使用2D框、估计的相机参数和对象类别先验来估计3D对象的位置和大小,然后将3D人体和对象放在一个归一化的体积中。我们还将3D位置与语义知识配对(第4.2节)。04.2. 3D特征提取03D-RN包含一个带有体积块的3D空间流,该块接收3D空间配置体积,并带有一个带有3D身体块的3D人体流来编码3D身体。体积块。在3D空间流中,我们采用Point-Net[50]来提取3D空间特征f3Dsp。我们首先对其进行预训练,以在生成的3D空间配置体积中分割人体和物体点。因此,它可以学习区分人体和物体的几何差异和形状。然后,我们使用它从3D空间体积点云中提取特征。为了进一步嵌入3D位置的语义信息,我们将空间特征与相应的语义配对,即对象或身体部位类别的词嵌入。我们首先将体积点云分成18组:17个部分组和一个对象球组。然后,对于部分组的特征,我们将其与部分名称(例如“手”)的PCA降维词嵌入[41]连接起来。类似地,对于球组的特征,我们将其与对象类别的词嵌入(例如“瓶子”)连接起来,如图4所示。连接的特征被用作f3Dsp。3D身体块。在3D身体块中,我们基于SMPL-X[45]参数提取特征:关节身体、面部和手部形状β,面部表情ψ和姿势θ3D,包括颚关节θ3Df、手指关节θ3Dh和身体关节θ3Db。对于身体形状和表情,我们直接使用它们的参数。对于姿势,我们采用VPoser[45]将3D身体编码为与{θ3Db,θ3Df,θ3Dh}相对应的潜在表示{f3Db,f3Df,f3Dh}。VPoser是一个使用大规模Mo-Cap数据集[11,25,1]训练的变分自编码器。因此,它学习了一个潜在空间,编码了物理上可行的姿势的流形,并有效地嵌入了3D身体姿势。我们将潜在表示、形状参数和面部表情连接起来,将它们馈送到两个大小为1024的全连接层,得到3D人体特征f3DH =FC3D({β,ψ,f3Db,f3Df,f3Dh)。HumanObjectSpatial Configuration�������������3D Spatial VolumeDetailed 3D BodySpatial Alignment����������Part Attention Consistency⊗⊗������HOI SemanticConsistency������Human BlockObject BlockSpatial BlockVolume Block3D Body Block�������������������������������⊗2D-RN3D-RNCCCCC⊗ProductSumConcatCWord2VecCFigure 5. Overview of DJ-RN. The framework consists of two main modules, named 2D Representation Network (2D-RN) and 3D Rep-resentation Network (3D-RN). They extract HOI representations from 2D and 3D information respectively. Hence, we can use spatialalignment, part attention consistency and semantic consistency to learn a joint 2D-3D representation for HOI learning.4.3. 2D-3D Spatial AlignmentIn view of that 2D spatial features lack robustness andmay bring in ambiguities, we propose the 2D spatial align-ment. 3D spatial features are more robust, thus we referthem as anchors in the spatial space which describes themanifold of HOI spatial configuration. Given the 2D spatialfeature f 2Dspof a sample, from the train set we randomlysample a positive 3D spatial feature f 3Dsp+ with the sameHOI label and a negative feature f 3Dsp− with non-overlappingHOIs (a person may perform multiple actions at the sametime). For a human-object pair, we use triplet loss [53] toalign its 2D spatial feature, i.e.,Ltri = [d(f 2Dsp , f 3Dsp+) − d(f 2Dsp , f 3Dsp−) + α]+(1)where d(·) indicates the Euclidean distance, and α = 0.5 isthe margin value. For 2D samples with the same HOIs butdifferent 2D spatial configurations, this spatial alignmentwill gather them together in the spatial space.4.4. Joint Body Part Attention EstimationBody parts are important in HOI understanding, but notall parts make great contributions in inference. Thus, adopt-ing attention mechanism is apparently a good choice. Dif-ferent from previous methods [12, 15], we generate bodypart attention by considering both 2D and 3D clues. Specif-ically, we use a part attention consistency loss to conductself-attention learning, as shown in Fig. 6. With the 2D and3D features, we can generate two sets of body attention.2D Attention. We concatenate the input f 2DH , f 2DO , f 2Dsp toget f 2D, and apply global average pooling (GAP) to getthe global feature vector f 2Dg. Then we calculate the innerproduct�f 2Dg, f 2D�and generate the attention map att2Dby att2D = Softmax(�f 2Dg, f 2D�).Because 2D posejoints can indicate the part locations, we use joint attentionto represent 2D part attention. If a joint location has highattention, its neighboring points should have high attentiontoo. Thus we can calculate the pose joint attention by sum-marizing the attentions of its neighboring points. We repre-sent the attention of 17 pose joints as A2D = {a2Di}17i=1,ˆa2Di=��101700u,v att2D(u,v) / (1 + d[(u, v), (u i, v i)])0u,v 1 / (1 + d[(u, v), (u i, v i)]),(2)0a2Di = ˆa2Di � 17i=1ˆa2Di,其中(u, v)表示任意点0在注意力图att2D上,(ui,vi)表示第i个关节的坐标(通过对图像上的关节坐标进行缩放计算)。d[∙]表示两点之间的欧氏距离。方程2的意思是:如果点(u, v)离(u i, v i)很远,则(u, v)的注意力值对(u i, vi)的注意力值的贡献较小;如果(u, v)靠近(u i, vi),则贡献较大。在总结和归一化之后,我们最终获得(u i, vi)的注意力,即a2Di。3D注意力。我们使用3D关节注意力表示3D身体部位的注意力。输入f3Dsp为[1228×384],f3DH为[1024]。我们首先将f3DH复制1228次,得到形状[1228×1024],然后将其与f3Dsp连接起来得到f3D([1228×1408])。然后我们对f3D应用GAP,得到一个[1408]的张量,并将其输入到两个大小为512的全连接层和Softmax中,最终得到17个关节的注意力,即A3D={a3Dj}17j=1。𝑓2𝐷𝑎𝑡𝑡2𝐷ො𝑎𝑖2𝐷 =σ𝑢,𝑣 𝑎𝑡𝑡 𝑢,𝑣2𝐷 /(1+𝑑𝑢,𝑣 , 𝑢𝑖,𝑣𝑖)σ𝑢,𝑣 1/(1+𝑑𝑢,𝑣 , 𝑢𝑖,𝑣𝑖)𝐽𝑜𝑖𝑛𝑡 𝑖: (𝑢𝑖, 𝑣𝑖)𝑓3𝐷𝐴3𝐷 = 𝑎𝑖3𝐷𝑖=117𝐿𝑎𝑡𝑡 = 𝑖=117𝑎𝑖2𝐷𝑙𝑛 𝑎𝑖2𝐷𝑎𝑖3𝐷𝑎𝑡𝑡3𝐷𝑓𝑔2𝐷GAP𝑓𝑠𝑝2𝐷∗𝑓𝑠𝑝3𝐷∗𝑓𝑠𝑝2𝐷𝑓𝑠𝑝3𝐷C𝑓𝐻2𝐷, 𝑓𝑂2𝐷C𝑓𝐻3𝐷𝑎𝑖2𝐷 =ො𝑎𝑖2𝐷σ𝑖=117 ො𝑎𝑖2𝐷 , 𝐴2𝐷 = 𝑎𝑖2𝐷𝑖=117concatrepair toasterpick up sports ballwhere m is the number of HOIs.Multiple HOI Inferences. Moreover, we concatenate thefeatures from the last FC layers in 2D-RN and 3D-RN asf joint (early fusion), and make the third classification toobtain the score Sjoint. The joint classifier is also com-posed of two 1024 sized FC layers and Sigmoids.Themulti-label classification cross-entropy losses are expressedas L2Dcls, L3Dcls, Ljointcls. Thus, the total loss of DJ-RN is:101710图6.身体部位注意力对齐。对于2D,我们对f2Dsp应用自注意力机制生成注意力图att2D和2D部位注意力A2D。对于3D,我们使用f3Dsp生成3D部位注意力A3D,并使用点云和关节之间的对应关系生成注意力图att3D。最后,我们使用A3D和A2D构建一致性损失Latt。att2D和att3D用于重新加权并生成f2D�sp和f3D�sp。0注意力一致性。然后,我们通过注意力一致性损失进行注意力对齐:0Latt =0i a2Di ln a2Di0一个3D i . (3)0其中a2Di和a3Di分别是第i个关节的2D和3D注意力。Latt是A2D和A3D之间的Kullback-Leibler散度,它强制两个注意力估计器生成相似的部位重要性并保持一致性。接下来,在2D-RN中,我们将f2Dsp乘以att2D,即Hadamard乘积f2D�sp = f2Dsp ◦att2D。在3D-RN中,我们首先为空间配置体积中的每个3D点分配注意力(总共n个点)。对于人类3D点,我们根据17个关节将它们分成不同的集合,每个集合对应一个身体部位。在第i个集合中,我们将身体部位注意力a3Di复制到每个点上。对于物体3D点,我们将它们的注意力都设为1。因为f3Dsp的每个元素都对应于空间配置体积中的一个3D点,我们将人类和物体3D点的注意力组织为大小为n×1的att3D,其中n是f3Dsp中元素的数量(Fig.6)。因此,我们可以计算Hadamard乘积f3D�sp = f3Dsp ◦att3D。经过部位特征重新加权,我们的模型可以学习忽略对HOI推理不重要的部分。04.5. 2D-3D语义一致性0特征提取和重新加权后,我们进行HOI分类。每个流中的所有分类器由两个大小为1024的全连接层和Sigmoid组成。2D-RN的HOI得分为S2D = (s2DH + s2DO) ◦s2Dsp,其中s2DH、s2DO、s2Dsp分别是人类、物体和空间流的得分。S3D = s3DH +s3Dsp表示3D-RN的最终预测。为了保持2D和3D表示的语义一致性,即它们对于相同的样本应该做出相同的预测,我们构建了:0图7. 来自模糊-HOI的模糊样本。02D和3D表示的语义一致性,即它们对于相同的样本应该做出相同的预测,我们构建了:0Lsem =0i ||S2Di - S3Di||2. (4)0Ltotal = λ1Ltri + λ2Latt + λ3Lsem + λ4Lcls. (5)0其中Lcls = L2Dcls + L3Dcls + Ljointcls,并且在实验中我们设置λ1 =0.001,λ2 = 0.01,λ3 = 0.01,λ4 = 1。最终得分为0S = S2D + S3D + Sjoint. (6)05. 实验0在本节中,我们首先介绍采用的数据集和评估指标。然后,我们描述了DJ-RN的详细实现。接下来,我们将DJ-RN与HICO-DET[9]和Ambiguous-HOI上的最新技术进行比较。最后,我们进行了消融研究,以评估DJ-RN中的模块。05.1. Ambiguous-HOI0现有的基准主要关注评估通用的HOIs,但没有专门检查处理2D姿势和外观模糊的能力。因此,我们提出了一个名为Ambiguous-HOI的新基准。Ambiguous-HOI由从HICO-DET[9]的测试集以及其他整个数据集(如V-COCO [20],OpenImage[28],HCVRD[65]和Internet图像)中收集的困难样本组成。我们从HICO-DET[9]中选择HOI类别,因为它具有设计良好的动词和对象。对于Internet图像,我们根据HICO-DET的设置标记HOIs。主要考虑2D姿势和空间配置的模糊性。首先,我们将所有图像和相应的标签放入候选池中,并手动为每个HOI选择一些模板2D姿势样本。然后,我们使用Procrustes变换[5]将样本的2D姿势对齐到模板上。接下来,我们对所有样本进行聚类以找到样本的聚类中心。对于距离聚类中心较远的样本,我们重复使用不同的模板进行聚类。将样本与多个聚类中心之间的平均距离记录为参考。同时,我们在HICO-DET训练集上训练一个以2D姿势和空间地图为输入的MLP。然后,我们将其用作模糊性探针,以找到最容易被错误分类的样本。结合上述两个参考,我们最终选择了8,996张图像,其中包含25,188个注释的人-对象对。Ambiguous-HOI最终包括87个HOI类别,由HICO-DET [9]中的48个动词和40个对象类别组成。示例如图7所示。S2D19.9816.9720.8822.5619.4823.48S3D12.4113.0812.2116.9517.7416.72SJoint20.6117.0121.6923.2119.6624.28DJ-RN21.3418.5322.1823.6920.6424.60101720远离聚类中心的样本,并根据不同的模板重复进行聚类。将样本与多个聚类中心之间的平均距离记录为参考。同时,我们在HICO-DET训练集上训练一个以2D姿势和空间地图为输入的MLP。然后,我们将其用作模糊性探针,以找到最容易被错误分类的样本。结合上述两个参考,我们最终选择了8,996张图像,其中包含25,188个注释的人-对象对。Ambiguous-HOI最终包括87个HOI类别,由HICO-DET[9]中的48个动词和40个对象类别组成。示例如图7所示。05.2. 数据集和评估指标0数据集。我们采用了广泛使用的HOI基准HICO-DET[9]和我们的新颖基准Ambiguous-HOI。HICO-DET[9]是一个实例级别的基准,包含47,776张图像(38,118张用于训练,9,658张用于测试)和600个HOI类别。它包含了来自COCO[32]的80个对象类别,117个动词和超过150,000个注释的HOI对。评估指标。我们使用[9]中的mAP指标来评估两个基准:真正的正样本需要包含准确的人体和物体位置(与参考框的IoU大于0.5),以及准确的交互/动词分类。05.3. 实现细节0对于3D人体恢复,我们首先使用OpenPose[7]检测身体、面部和手部的2D姿势。然后,我们将它们与图像一起输入到SMPLify-X[45]中,以获取3D人体。由于严重遮挡的情况可能导致3D恢复失败,我们仅为至少包含检测到的2D头部、骨盆、一个肩膀和一个髋关节的情况恢复3D人体。对于其余的情况,我们将它们分
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功