没有合适的资源?快使用搜索试试~ 我知道了~
基于视图一致性的无监督域自适应技术在3D关键点预测中的应用
基于视图一致性的周兴义1[0000−0002−0914−8525]、阿琼·卡尔普尔1[0000−0002−7568−3550]、甘闯2[0000−0003−4031−5886]、罗林杰3[0000−0001−6322−1175]、黄七星1号[0000−0001−6365−8051]德克萨斯大学奥斯汀分校2麻省理工学院-IBM沃森人工智能实验室3Snap Inc.{zhouxy,akarpur,huangqx}@cs.utexas.edu,ganchuang1990@gmail.com,linjie. snap.com抽象。在本文中,我们介绍了一种新的无监督域自适应技术的任务,从一个单一的深度扫描或图像的3D关键点预测。我们的核心思想是利用这样一个事实,即从相同或相似对象的不同视图的预测应该是相互一致的。这种视图一致性可以为未标记实例上的关键点预测提供有效的正则化。此外,我们引入了一个几何对齐项来正则化目标域中的预测。所得到的损失函数可以通过交替最小化来有效地优化。我们证明了我们的方法在真实数据集上的有效性,并给出了实验结果,表明我们的方法优于最先进的通用域自适应技术。关键词:3D关键点估计,多视图一致性,领域自适应,无监督学习1介绍一个新的时代已经到来,配备深度的传感器在各种形式的因素,从可穿戴设备和移动电话到车载扫描仪的扩散。这种不断增加的深度扫描量是一种宝贵的资源,然而,由于缺乏能够有效地处理、表示和理解它们的技术,这种资源在很大程度上仍未开发。可以从深度扫描推断的3D关键点是3D对象的紧凑但语义丰富的表示,其已被证明对许多任务有效,包括重建[10]、对象分割和识别[17]以及姿态估计[33]。尽管各种对象类别的深度扫描的广泛可用性[3],但缺乏对应的3D关键点注释,这对于在监督方法中训练可靠的关键点预测器是必要这部分是由于深度扫描本质上是底层对象的部分视图,这使得注释对象部分变得2周X Karpur A.,Gan,C.,罗L.黄Q图1:我们的方法改进了Redwood数据集的单次深度扫描的3D关键点预测结果[3]。对于每对:(左)在没有域自适应的情况下,来自模拟示例的预先训练的关键点预测器未能预测准确的3D关键点(蓝色)。(右)域自适应后的3D关键点预测(蓝色)得到显著改善。请注意,地面实况关键点以红色显示以进行比较。从视野中遮挡。人们可以通过利用使用深度扫描创建的在本文中,我们的目标是从单个原始深度扫描预测底层对象的3D关键点为了训练可靠的3D 关键点预测器,我们使用大型3D 模型库(如ShapeNet [2]和ModelNet [38])生成模拟深度扫描的大型数据集。来自这些存储库的3D模型上的3D关键点注释可以自然地延续到模拟深度扫描,以进行有效的监督训练。然而,在模拟的和真实的深度扫描域之间存在大的间隙。特别是,来自存储库的3D模型通常使用交互式工具设计,不可避免地导致具有不同比例的不准确几何形状。此外,真实深度扫描包含明显的测量噪声和背景对象,并且来自存储库的3D模型的类别分布和来自真实深度扫描的类别分布可能非常不同。为了缩小模拟深度扫描的源域与真实深度扫描的目标域之间的差距我们的方法是由特殊的空间属性的3D关键点和关键点分布的源和目标域之间的关系首先,来自相同3D模型的不同视图的关键点预测应该彼此一致,直到姿势变换。这允许我们制定视图一致性正则化以传播良好的预测,例如从预测更准确地适应的适定性视图到具有较不准确适应的挑战性视图为此,我们引入了一个潜在的关键点配置来融合来自同一对象的不同视图的关键点预测。此外,我们引入了一个姿态不变的度量来比较通过视图一致性实现3Gθ模拟的深度扫描I¯Keypoi ntlabe lsY实际深度扫描{Ii}潜在关键点M图2:方法概述。 我们训练端到端3D关键点预测,其中kGθ来自3D模型的扫描I和真实世界对象的未对齐和未对齐的真实深度扫描{Ii}。关键点预测,这使我们能够利用深度扫描,而无需相机姿势校准进行训练。其次,尽管源域和目标域之间存在明显差异然而,天真地对齐两个域之间的3D关键点分布是次优的,因为相同类型的对象的出现不同。为了解决这一挑战,我们提出了一种几何对齐正则化,其对对象的不同密度不敏感,以便对齐两个域的关键点分布。我们利用来自视图一致性正则化的目标域请注意,由于可能的关键点配置位于环境空间上具有低得多的维度的流形上,因此几何对齐可以提供有效的正则化。我们的最终公式将源域上的标准监督损失与视图一致性和几何对齐上的两个无监督正则化损失相我们的配方可以很容易地通过交替最小化优化,并承认一个简单的变量初始化策略。我们评估了从ModelNet [38]到来自合成ShapeNet [2] 3D模型数据集的渲染深度扫描以及来自Redwood Object Scans [3]和3DCNN Depth Scans[22]数据集的真实深度扫描的无监督域自适应方法实验结果表明,我们的方法可以有效地减少在线3D模型存储库和具有背景噪声的真实深度扫描之间的域差距。我们的方法明显优于没有域自适应的方法,并且优于通用域自适应技术,如ADDA [35]。我们还提供了消融研究,以证明我们的方法的每个组件的设计选择代码可在https://github.com/xingyizhou/3DKeypoints-DA上获得。2相关作品关键点检测。从单个RGB或RGB-D图像中检测关键点是计算机视觉中的基本任务我们参考[19,45,25,7]最近的一些关键点配置空间f对齐我源域(模拟)目标域(实数)f视图f标记……4周X Karpur A.,Gan,C.,罗L.黄Q关于这个话题的进展。虽然大多数技术都专注于开发新的神经网络架构来完成这项任务,但很少有工作专注于解决这个问题训练数据和测试数据之间的域偏移,例如,本文中描述的设置。在[45]中,作者介绍了一种用于野外3D人体姿势估计的域自适应技术。此外,对于人体姿态估计,[7]提出使用GAN损失来对齐源和目标标签分布。我们选择使用一个替代指标,提供更多的灵活性-解决域转移的能力。与我们的方法类似,[25]还利用多个视图的一致性来增强对目标域的监督。然而,该方法的输出是直接从来自源域的初始预测计算的。相比之下,我们的方法只使用初始预测来初始化最终预测。此外,我们还采用了一种用于同步来自多个视图的预测的帐篷配置,这避免了执行成对分析。多视角监督。RGB和RGB-D视频序列基本上由相同底层3D环境的不同视图组成在文献中,人们已经将这种弱监督用于各种任务,诸如3D重建、新颖视图合成和2D关键点预测,例如,[34、40、43、15、25]。我们的工作与大多数工作的不同之处在于,我们不假设相机之间的相对姿势是已知的。相反,我们引入姿态不变度量来比较关键点配置。与我们的工作同时,Helge等人[23]还为无监督3D人体姿势估计引入了类似的视点一致性项。然而,关节对象的多视图数据相反,我们对刚性对象使用视点一致性,其中视图与视频无关。来自3D大数据的监管。 由于ModelNet [ 38 ]和ShapeNet [ 2 ]等带注释的大3D数据的可用性,人们已经利用从3D模型生成的合成数据进行各种任务,包括图像分类[38],对象识别[26,21,27],语义分割[42],对象重建[28,4,32],姿态估计[29]和新视图合成[30,44]。这些方法的基本挑战是合成数据和真实RGB或RGB-D图像之间存在域移位。大多数现有的工作集中在改善模拟过程中,以缩小这一差距。相比之下,我们专注于开发一个无监督的域适应损失。域适应。针对各种视觉识别任务的域自适应[20,8,41,9,18,39,1,12,16,36,24]是计算机视觉中的一个活跃的研究领域,并且我们的问题属于域自适应的一般范畴。提供一个全面的文献综述超出了本文的范围,但是我们参考了最近关于这个主题的调查[6]。无监督域自适应的常见策略是对齐源域和目标域之间的输出分布,例如,或者通过明确的域映射或者通过使用GAN。相反,我们的正则化是针对我们考虑的特定问题定制的,即,视图一致性和由密度变化引起的域偏移通过视图一致性实现53问题陈述我们研究了从单个图像或深度扫描预测底层对象的完整3D关键点的问题。我们假设输入由一个标记的数据集I和未标记的数据集I。此外,未标记的数据集由N个子数据集组成,1≤i≤N,其中子数据集从不同视图收集相同对象的不同扫描/图像。这样的数据自然产生从RGB-D或RGB视频序列。标记数据集中的每个实例I∈I都拥有一个真实值标签Y(I)∈R3×d,它是一个矩阵,收集其列中有序关键点的坐标。在不失一般性的情况下,我们假设3D局部选择I的坐标系,使得Y(I)的质心位于原点:Y(I)1 = 0。(一)预期标记数据集的源域和未标记数据集的目标域是不同的(例如,源域由合成图像/扫描组成,而目标域由真实图像/扫描组成 我们的目标是训练一个神经网络Gθ:Rm×n→R3×d,该神经网络将来自目标域的图像作为输入,并通过利用bthela be ld data teldatat 我们将此问题定义为用于3D关键点预测的无监督域自适应。注意,我们不假设每个未标记子集的底层相机被校准,或者换句话说,不需要相同对象的不同视图之间的相对变换。虽然可以对齐深度扫描以获得相对变换,但我们发现,在存在连续扫描之间几乎没有重叠的扫描不连续性的情况下,这种对齐并不总是可靠的。相比之下,我们的配方处理相对相机构成的潜在变量,这是优化的网络参数一起。4方法在本节中,我们描述了我们用于3D关键点预测的无监督域自适应的详细方法我们首先在4.1节中引入了一个姿态不变的距离度量来比较关键点配置。这允许我们在不知道未校准数据集的相对变换的情况下比较不同视图中的预测然后,我们在4.2节中提出了我们的方法的公式。最后,我们将在4.3节讨论我们的优化策略。4.1姿态不变距离度量姿态不变距离度量比较两个关键点配置X,Y∈R3×d在不同坐标系中的描述由于每个关键点的平均值6周X Karpur A.,Gan,C.,罗L.黄QF我1我配置为零时,我们引入潜在旋转R来解释潜在的相对变换:r(X,Y)= minR∈SO(3) RX−Y其中·F表示矩阵Frobenius范数。显然,r(X,Y)独立于与X和Y相关联的坐标系,使其等价于特别适合于比较来自未校准视图的预测并对准源域和目标域。在下文中,我们将讨论r(X,Y)的几个关键性质。 在我们的方法中广泛使用。首先,r(X,Y)和梯度r(X,Y)关于它的每一个参数的闭形式表达式。以下两个命题概括了这些问题命题1r(X,Y)允许以下解析表达式:2个2.TΣr(X,Y)=XF+YF−2· traceR·(XY)其中R是从Y XT=Y X T的奇异值分解(或SVD)导出的。UΣVT:R= U diag(1,1,s)VT,s = sign(det(XY T))。(三)见[13]。⊔⊓命题2r(X,Y)关于X的梯度由下式给出:r(X,Y)=2(X-RTY),X其中R由Eq.(三)、Pr oof:Pee r ereferothesupplementalmarial.⊔⊓我们的优化过程还经常涉及以下优化-计算商空间R3×d/SO(3)中一组关键点配置Yi,1≤i≤n的加权平均值XΣnX= argminΣncir(X,Yi)=argminciminX−RTYiX∈R3×d i=1X∈R3×d i=1Ri∈SO(3)i F其中ci,1≤i≤n是常数。虽然Eq。(4)不允许封闭形式的解,它可以通过交替最小化容易地优化。具体地说,当X固定时,每个Ri都可以使用命题1独立计算。当Ri潜变量固定时,X简单地由RTYi的平均值给出,Σn也就是说,X= 0我ciRTYi. 为了使解唯一,我们总是设置R1=I3.i=1C通过视图一致性实现7源GT目标GT所有Pred。目标GT(a)(b)(c)图3:潜在分布和视图选择。此图提供了标签分布和视图选择的可视化,用于初始化椅子类别上从ModelNet(源域)到Redwood(目标域)的潜在配置所有可视化都是通过使用前两个主成分的2D投影完成的(a)源域和目标域的标签分布(b) 从不同视图中可视化所有预测(c)形象化每个物体的最佳预测。4.2制剂为了通过 kG0 ( ·) 来生成关键点,我们减少了损失项,即标 记项flabeled、视图一致性项fview和几何对准项falign。标记项flabeled将源域标记数据集I上的预测拟合到规定的地面实况标签。我们使用L2范数下的回归损失,其对于3D关键点预测任务很好地工作(参见图10)。[31、45]):1Σf=G(I)− Y(I)2。(五)标记|I|θFI∈I视图一致性术语fview在目标域上定义,以强制来自同一对象的不同视图的预测之间的一致性。换句话说,存在将预测从一个视图变换到另一个视图的成对旋转一种直接的方法是最小化r(Gθ(Iij),Gθ(Iij′)),其中reIij和Iij′ adifferentview s ofthesameo bect. 然而,我们发现这种方法引入了二次项数因为视图的数量增加并且很快变得难以处理。因此,我们为每个未标记子集Ii引入一个潜在配置Mi∈R3×d,它表征了规范框架中的基础事实然后,我们将视图一致性项定义为:1ΣNf视图=Ni=11|我我|ΣIij∈Iir(Gθ(Iij),Mi).(六)很明显,最小化fview会自动对齐不同视图的预测Eq的主要优点(6)过度执行成对视图一致性的原因是(i)项目的数量与视图的数量是线性的,以及(ii)如我们将立即看到,潜在配置{Mi}允许我们容易地用公式表示几何对准项falign。最佳预测目标GT8周X Karpur A.,Gan,C.,罗L.黄QF几何对准项f对准优先考虑潜在配置{Mi,1 ≤i≤N},其表征目标域上的预测,其与粗预测表{YI|I∈I}。这个术语在概念上类似于调整输出分布的想法无监督域自适应,但我们的公式是针对我们在本文中考虑的特定问题而定制的。一个简单的公式是使用{Mi,1 ≤i≤N}和{Y(I)}之间的地球移动器距离|I∈I},这基本上使两个相应的经验分布一致。但是,我们发现此策略会强制对齐关键点配置这是因为对象的相同子类型的重复计数在源域和目标域之间可能是不同的(参见图3(a))。为了解决这个问题,我们建议使用倒角距离进行对齐:f对齐= 1ΣNminr(Mi,Yi)+1Σminr(Mi,YI).(七)NI∈Ii=1|I| I∈I1≤i≤N直观地,Eq.(7)仍然对准源域和目标域,但是它对局部密度变化不敏感,并且提供了解决域偏移的有效方式我们将标记项flabeled、视图一致性项fview和几何对齐项falign组合成最终损失函数:最小化flabeled+λfview+μfalign。(八)θ,{Mi}在我们的实现中,我们设置λ = 1和µ = 0。1.4.3优化优化Eq.(8)在于对准项falign是高度非凸的事实。在我们的实验中,我们发现获得良好的网络参数和潜在变量的初始值对于实现高质量的关键点预测网络至关重要。在下文中,我们首先介绍有效的策略来初始化变量。然后,我们展示了如何使用交替最小化来细化变量。网络参数初始化。通过在源域标记数据集上进行预训练来初始化网络参数,即,Σθ(0)=minθI∈I<$Gθ(I)−YI<$2。(九)然后通过标准反向传播对其进行优化。潜在配置初始化。我们使用从初始化网络w或kGθ( 0)(Iij ),Iij∈Ii得到的预测来初始化一个可变量Mi。最后,我们为每个预测定义一个得分,并将Mi设置为具有最高得分的一个得分评分函数的动机是潜在变量通过视图一致性实现9我我我F我我我我期望与源域对齐,因此我们定义了一个未归一化的密度函数:p(M)= ΣI∈Iexp(−r(M,Y(I))2σ2),(10)其中reσ是r(Gθ(0)(Iij),Y(I))的一个表示,它由所描述的特征和它们最接近的标记实例组成。给定等式(10)、我们设置M(0)=argmaxp(M)。(十一)M∈{G θ(0)(I)|I∈I i}如图3(b-c)所示,该策略导致接近底层地面事实的初始配置。AlternatingMinimization。 给定初始化函数k参数θ ( 0)和初始化函数M( 0) ,1≤i≤N,则通过求解Eq来重新定义。 (8)Viaalternatingminimization。 其中M(k)和dθ(k)在迭代k处不具有这些值。在每个交替最小化步骤中,我们首先固定潜变量以优化网络参数。这导致了计算θ(k+1)=argminθ1|I|ΣI∈IGθ(I)−YI<$2λΣN+ Ni=11|我我|ΣI∈Iir(Gθ(I),M(k)).(十二)利用命题2,我们应用随机梯度下降通过反向传播求解方程。(十二)、然后,我们固定网络参数θ并优化潜变量{M(k+1)}。 在这种情况下,Eq。(8)减少到{M(k+1)}=argmin{Mi}µ|I|ΣI∈Imin1≤i≤N r(Mi,YI)1ΣN+ Ni=1.λ|我我|ΣI∈Iir(Gθ(k)(I),Mi)+μminr(Mi,YI)I∈IΣ.(十三)我们再次应用交替最小化来求解Eq.(13)。特别地,我们固定给定{M(k)}的最近点对:I(i)=argminr(M(k),YI),i(I)=argminr(M(k),YI). (十四)我I∈I我1≤i≤N给定这些最接近的对,我们可以将每个潜在配置优化为µ Σ1。 λ ΣΣargminM i|我| 我|i(I)= ir(Mi,YI)+N|我我|I∈Iir(Gθ(k)(I),Mi)+μr(Mi,YI(i)).(十五)当量(15)承认一种形式的方程。(4),并且我们应用上述程序求解Eq.(15)、在我们的实验中,我们通常每5个epoch应用内部交替最小化来训练网络参数θ。10周X Karpur A.,Gan,C.,罗L.黄Q5评价对于实验评估,我们首先在第5.1节中描述了实验装置。然后,我们提出了定性和定量的结果,并比较我们的技术与基线方法在第5.2节。我们还在第5.3节中介绍了一项消融研究,以评估我们方法的每个组成部分。最后,我们将我们的方法进一步扩展到3D人体姿势估计和RGB图像,分别在第5.4节和第5.5节中。5.1实验装置数据集。来自Model-Net [ 38 ]数据集的合成对象模型的渲染深度扫描作为我们的源域,我们在三个不同的目标域上测试我们的域自适应方法,即:ShapeNet [2](另一个合成大小的3D模型数据集)、Redwood Object Scans真实深度扫描数据集[3]和3DCNN真实深度扫描数据集[22]。我们将实验集中在椅子、摩托车和人类类上,但是我们提供了关于椅子的最详细的结果,因为它们在许多流行的3D模型和深度扫描数据集中无处不在。为了为我们的源域提供关键点标签,我们使用Meshlab [5]手动注释ModelNet中的训练样本。为了评估我们的系统的准确性,我们还在我们的目标域数据集上注释关键点。该注释通过从深度视频序列恢复每个对象的3D网格和每个帧的相机姿势来完成。我们只保留关键点的所有2D投影都在图像内的帧,并保留至少有20个有效帧的模型。我们实验中使用的四个数据集的总结见表3。作为一个自然的扩展,我们还测试了我们的方法在来自相同Redwood数据集的RGB图像上[3]。数据预处理。我们假设相机固有和对象的3D边界框在训练和测试深度图像中都是已知的,仅用于数据预处理。我们使用3D边界框的2D投影来裁剪每个深度图像。另外,输入深度图像以平均值为中心深度,并且深度值由3D边界框的对角线长度归一化。除了图像之外,所有关键点都在统一的坐标系中进行转换和给定一个配置,我们减去它们的平均值,并通过3D边界框的对角线长度进行归一化。评估方案。类似于[37],我们测量每个预测的关键点配置和相应的符号之间的平均距离误差(AE),并绘制每个方法的正确关键点百分比(PCK)相对于阈值的曲线图,以进行详细比较。我们还引入了一个新的度量,基于(2)的姿态不变平均距离误差(PAE),以更好地说明我们所提出的方法是如何AE和PAE以百分比示出,并且表示与3D边界框的对角线长度的相对比率基线方法。 我们考虑三种基线方法进行实验评估。通过视图一致性实现11– 基线I 我们首先在没有任何域自适应技术的情况下测试性能,即我们直接将在源域上训练的关键点预测器该基线用作访问域自适应技术的性能下限。– 基线II. 我们实现了[35]中描述的最先进的深度无监督通用域自适应技术,该技术通过微调目标域上的特征提取器来鼓励域混淆。– 基线三. 我们在目标区域上应用有监督的关键点预测。为此,我们从每个域注释了50个额外的模型,并在这些标记的实例上微调基线I。该基线用作访问域自适应技术的性能上限。在表1中,我们将这些基线与我们在Chair数据集上的方法进行了比较。此外,我们在表2中提供了摩托车和人的适应之前/之后的结果。我们还对Chair数据集进行了消融研究,以评估我们方法的每个组成部分(表4和图4)。实作详细数据。我们使用在ImageNet上预训练的ResNet50 [11]作为我们的关键点预测网络Gθ。为了使我们的深度扫描适合ResNet50输入(此外,为了允许自然扩展到RGB图像域),我们将深度通道复制三次。网络首先在源域I上训练120个epoch,然后在特定的目标域I上微调30个epoch。网络使用SGD优化器通过反向传播进行训练,学习率为0.01(在20个批量大小64,动量0.9和权重衰减1 e-4,这些都是Resnet 50 [11]中的默认参数。我们的实现在PyTorch中完成。5.2结果分析表1、表2、表4、图4和图5呈现了我们的方法的定量和定性结果。表1:在不同目标域上的域适应之后,我们提出的方法在椅子上测试的结果。平均距离误差(AE)和姿态不变平均距离误差(PAE)以百分比表示。对于这两个指标,越低越好。目标-度量默认值-AE ADDA-AE Ours-AE Supervised-AE默认值-PAE ADDA-PAE Ours-PAE Supervised-PAEModelNet [38]---5.56---4.76ShapeNet [2]6.976.986.605.825.775.895.324.77红木深度[3]16.0115.4412.768.6710.7310.138.275.683DCNN [22]11.6111.8110.606.738.158.197.254.98红木RGB [3]27.5926.1625.2411.9013.4412.3111.387.67定性结果。如图5所示,我们的方法产生与底层地面事实一致的关键点结构。即使在显著的背景噪声和不完整的观察下,我们的方法也会导致忠实的结构。例外情况包括涉及旋转的椅子类型12周X Karpur A.,Gan,C.,罗L.黄Q表2:定量结果-AE类别摩托车人类表3:数据集的统计。目标#训练模型#测试模型平均#帧ShapeNet [2]2500 100 Inf基地在这种情况下,预测的腿可以倾斜。这是预期的,因为在腿不直接落在座椅拐角下方的情况下,注释可能变得不可靠。定量评估。如表1所示,我们的方法在椅子对象类的两个真实深度扫描数据集Redwood [3]和3DCNN [22]中的平均偏差分别为对象边界框这转化为大约7-10 cm,这与椅子底座的半径相比是相当精确的。对摩托车类进行的附加实验产生类似的改进,如表2所示。对于摩托车训练过程,我们使用ShapeNet数据集作为源域,Redwood数据集作为目标域。不同数据集的性能分析。表1示出了我们的方法在所有三个目标深度域上给出了一致的性能改进。对于合成数据集ShapeNet [2],它与监督训练集的域偏移相对较小,我们的无监督项仍然是能够将错误率推到接近监督上限。我们提出的方法的优点可以在Redwood数据集[3]中最好地观察到,其中使用我们的完整误差项导致向监督性能上限迈进44%。此外,尽管可用模型非常有限且深度图像质量较差,但3DCNN数据集[22]的改进仍然不错性能分析增益 我们的性能提升可以归因于我们的网络学习了更合理的关键点配置形状,这得到了AE的改善总是接近于PAE。这是预期的,因为我们的无监督项是视点不变的,并且专注于改善关键点配置形状。与ADDA比较[35]。我们的方法优于关键点估计任务中最先进的无监督域自适应技术[35]ADDA的目标是通过对齐特征分布来跨越域间隙的源和目标域,这是我们的方法的标签空间上的约束的补充。我们认为,有更多的结构依赖于标签空间比刚性物体的特征空间。另一个重要因素是ADDA中没有包含视图一致性[35]。5.3消融研究我们目前的消融研究,以证明我们的方法的每个组成部分。我们将我们的研究限制在一个单一的对象类,椅子,并代表目标域,ShapeNet和红木对象扫描。适应前21.55%153.39mmModelNet[38]899100INF适应后18.92%135.56mm红木[3]20035150监督16.17%113.44mm3DCNN [22]9380通过视图一致性实现13默认我们的DropAlignDropView重新初始化ADDA监督表4:ShapeNet和Redwood Object Scans数据集上的椅子消融研究。 我们显示了每种方法的平均距离误差(AE)百分比,包括三个基线。80目标域ShapeNet(%)Redwood深度(%)我们的6.60 12.7660下降视图6.70 13.95下拉对齐6.67 12.9740重新初始化6.66 13.4320违约6.97 16.01ADDA [35]6.98 15.44监督下界5.82 8.6700.00 0.05 0.10 0.15 0.20平均距离误差阈值图4:基线&消融研究。我们的方法与Redwood深度数据集上的替代方法之间的比较[3]。该图显示了阈值下正确关键点(PCK)的百分比。删除视图一致性术语。我们测试了丢弃视图一致性项的影响。在这种情况下,我们只需将所有深度扫描的输出与源域的注释如表4和图4所示,与我们的完整术语相比,性能大幅下降,同时仍然保持比没有适应更好的性能因此,如果对大多数视图的预测彼此一致,则通过平均所有预测获得的关键点配置可以用作校正不良异常值的可靠指导。删除对齐项。在没有输出对齐的情况下,仅仅利用视图一致性项也可以显著减少测试误差。这可以被解释为网络在自我引导的过程中更新潜在变量。方式,完全基于不同观点之间的一致性潜在配置更新与重新初始化15、我们可以使用Eq。 11重新初始化潜在配置,这也与我们的训练框架一致。结果是更糟糕的比更新Mi通过最小化的视图一致性项,显示出我们的交替最小化方案的优势。5.4人体姿势此外,我们使用Human 3.6M数据集[14]对人类关键点进行实验。人类3.6M数据集[14]提供了来自4个不同相机视图的7个受试者(5个用于训练,2个用于测试)的我们使用5个训练对象中的3个作为监督(源)样本,剩余的2个训练对象作为无监督(目标)样本,使用所提出的多视图一致性和输出对齐约束进行训练结果示于表2和图5中。我们实现的监督性能上限是113。44 mm,这与仅3D数据的最新技术水平大致匹配[31]。关键点百分比14周X Karpur A.,Gan,C.,罗L.黄Q图5:定性结果。 我们使用我们的方法在不同的数据集上比较了之前(左)和之后(右)的3D关键点预测(蓝色)。对于每个模型,我们显示2个视图。参考地面实况为红色。5.5扩展到RGB图像我们的方法可以无缝地应用于从RGB图像的关键点估计。我们在表1中显示了我们的初步结果,这表明我们提出的方法能够在没有域自适应的情况下从基线减少AE如图5所示,当适应前的基线预测看似随机的点集时,我们的方法有助于正则化输出。6结论在本文中,我们介绍了一种无监督域自适应方法的关键点预测从一个单一的深度图像。我们的方法结合了两个特定于任务的正则化,即,源域和目标域的视图一致性和标签分布实验结果表明,我们的方法是显着优于没有域自适应,是优于国家的最先进的通用域自适应方法。此外,我们的多视图一致性和输出对齐条款使得它更容易利用大量的未标记的3D数据的3D任务,如视点估计和对象重建。谢谢。黄启兴感谢NSF DMS-1700234对本研究的支持、Snap Research的捐赠以及NVIDIA的硬件捐赠通过视图一致性实现15引用1. Bousmalis,K.,Silberman,N. Dohan,D. Erhan,D.,Krishnan,D.:无监督像素级域适应与生成对抗网络。在:IEEE计算机视觉和模式识别会议(CVPR)(2017年7月)42. Chang,A.X.,Funkhouser,T.A.,Guibas,L.J.,Hanrahan,P.黄,Q,Li,Z.,Savarese,S.,Savva,M.,Song,S.,Su,H.,肖,J.,Yi,L.,Yu,F. : Shapenet : 一 个 信 息 丰 富 的 3D 模 型 存 储 库 。 CoRR abs/1512.03012(2015)2、3、4、10、11、123. Choi,S.,Zhou,Q.Y.,Miller,S.,Koltun,V.:对象扫描的大型数据集。arXiv:1602.02481(2016)1,2,3,10,11,12,134. Choy,C.B.,徐,D.,Gwak,J.,Chen,K.,Savarese,S.:3d-r2 n2:用于单视图和多视图3D对象重建的统一在:欧洲计算机视觉会议(ECCV)(2016)45. Cignoni,P.,Callieri,M.,Corsini,M.,Dellepiane,M.,Ganovelli,F.,Ranzuglia,G.:Meshlab:一个开源的网格处理工具。在:Eurographics意大利章Conference. vol. 2008年,第2008页。1296. Csurka,G.:视觉应用程序的域适应:全面调查。CoRR abs/1702.05374(2017)47. 董玉玉,A.W.哈利Seto,W.,Fragkiadaki,K.:对抗逆图形网络:从非配对监督学习2d到3d提升和图像到图像的翻译。在:IEEE计算机视觉国际会议(ICCV)(2017年10月)3,48. Gebru,T.,Hoffman,J.,李菲菲:在野外的精细识别:一种多任务域自适应方法。在:IEEE计算机视觉国际会议(ICCV)(2017年10月)49. Gholami,B.,(Oggi)Rudovic,O.,Pavlovic,V.:Punda:Probabilisticunsupervised domain adaptation for knowledge transfer across visual categories.在:IEEE计算机视觉国际会议(ICCV)(2017年10月)410. 去吧S Ar bel'aez,P. 一、 Girshi ck,R. B、 Malik,J. :将3D模型光照到杂乱场景的RGB- D图像。计算机视觉与模式识别(CVPR)(2015)11. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习在:IEEE计算机视觉和模式识别会议论文集。pp. 第77012. Herath,S.,Harandi,M.,Porikli,F.:学习一个不变的希尔伯特空间域适应。在:IEEE计算机视觉和模式识别会议(CVPR)(2017年7月)413. Horn , B.K.P. : 用 单 位 四 元 数 求 绝 对 方 位 的 闭 式 解 。 J 〇urnalofthehepticalS〇cietyofAmericaA4(4),62914. 约内斯库角Papava,D.,Olaru,V.,Sminchisescu,C.:Human3.6m:大规模数据集和预测方法,用于自然环境中的3D 人体感知。IEEETransactions on Pattern Analysis and Machine Intelligence 36 ( 7 ) ( jul2014)1315. Kalogerakis,E.,Averkiou,M.,Maji,S.,Chaudhuri,S.:用投影卷积网络进行三维形状分割。CoRR abs/1612.02808(2016)416. Koniusz,P.,Tas,Y.,Porikli,F.:通过二阶或更高阶散射张量的比对的混合的域适应。在:IEEE计算机视觉和模式识别会议(CVPR)(2017年7月)416周X Karpur A.,Gan,C.,罗L.黄Q17. 李,Y.,Dai,A.,吉巴斯湖Nießner,M.:实时三维重建的数据库辅助对象检索。在:计算机图形论坛.卷三十四Wiley Online Library(2015)118. Maria Carlucci,F.,波尔齐湖Caputo,B.,Ricci,E.,Rota Bulo,S.:自动拨号:自动域对齐层.在:IEEE计算机视觉国际会议(ICCV)(2017年10月)419. Newell,A.,杨,K.,Deng,J.:用于人体姿态估计的堆叠沙漏网络。In:EC CV(8). LectureNotesinComputerrScience,vol. 9912,pp. 483-499 Springer(2016)320. Panareda Busto,P.,Gall,J.:开集域自适应。在:IEEE国际计算机视觉会议(ICCV)(2017年10月)421. 彭,X.孙湾,英-地阿里K Saenko,K.:从3d模型学习深度对象检测器。In:ICCV. pp. 1278- 1286年。IEEECommputerSociety(2015)422. Qi,C.R.,Su,H.,Nießner,M. Dai,A.,Yan,M.,Guibas,L.J.:用于三 维 数 据 对 象 分 类 的 体 积 和 多 视 图 cnn 。 In : Proceedings of theIEEEConferenceonComuterVis isinandPater nRecognitin. pp. 564823. Rhodin,H.,Sprri,J.,卡蒂奇奥卢岛Constantin,V.,Meyer,F.,Mller,E.,Salz-mann,M.,Fua,P.:从多视角影像学习单目3d人体姿态估计在:IEEE计算机视觉和模式识别会议(CVPR)(2018年6月)424. Sankaranarayanan,S.,Balaji,Y.,卡斯蒂略哥伦比亚特区切拉帕河:生成以适应:使用生成对抗网络对齐域。CoRR abs/1704.01705(2017)425. Simon,T. Joo,H.,马修斯岛Sheikh,Y.:使用多视图自举的单图像中的手关键点检测。在:IEEE计算机视觉和模式识别会议(CVPR)(2017年7月)3,426. Song,S.,Xiao,J.:用于深度图像中的3d对象检测的滑动形状In:ECCV(6). LectureNotesinComputerrScience,vol. 8694,pp. 634-651 03TheDog(2014)27. Song,S.,Xiao,J.:深度滑动形状用于RGB-D图像中的非模态3D对象检测(2016)428. Song,S.,余,F.,Zeng,A.,Chang,A.X.,Savva,M.,Funkhouser,T.:从单个深度图像的语义场景完成。第30届IEEE计算机视觉与模式识别会议论文集(2017)429. Su,H.,Qi,C.R.,李,Y.,Guibas,L.J.:为cnn渲染:使用用渲染的3d模型视图训练的cnn的图像中的视点估计。在:IEEE计算机视觉国际会议(ICCV)(2015年12月)430. Su,H.,王福,Yi,E.,Guibas,L.J.:三维辅助特征合成的新观点的一个 不 受 约 束 的 。 In : ICCV. pp.2677-2685 IEEEComm
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 彩虹rain bow point鼠标指针压缩包使用指南
- C#开发的C++作业自动批改系统
- Java实战项目:城市公交查询系统及部署教程
- 深入掌握Spring Boot基础技巧与实践
- 基于SSM+Mysql的校园通讯录信息管理系统毕业设计源码
- 精选简历模板分享:简约大气,适用于应届生与在校生
- 个性化Windows桌面:自制图标大全指南
- 51单片机超声波测距项目源码解析
- 掌握SpringBoot实战:深度学习笔记解析
- 掌握Java基础语法的关键知识点
- SSM+mysql邮件管理系统毕业设计源码免费下载
- wkhtmltox下载困难?找到正确的安装包攻略
- Python全栈开发项目资源包 - 功能复刻与开发支持
- 即时消息分发系统架构设计:以tio为基础
- 基于SSM框架和MySQL的在线书城项目源码
- 认知OFDM技术在802.11标准中的项目实践
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功