使用深度学习从单个RGB相机重建3D人体与服装

130 浏览量更新于2024-06-20 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"本文介绍了一种名为Octopus的深度学习模型，该模型可以从单个RGB相机的几帧图像中重建穿着衣物的人体3D形状，包括头发和衣服的细节。Octopus模型能够在10秒内完成预测，并且具有10mm左右的精度。这种方法的关键在于姿态不变的潜在代码学习和自下而上与自上而下的信息流结合，使得模型能处理不同的输入帧数。尽管训练数据主要依赖于合成的3D数据，但 Octopus 在三个不同数据集上的测试结果证明了其有效性。这种方法对于VR/AR、游戏、虚拟试穿等应用有重要价值，因为它能简化原本需要多视图或专业扫描设备的复杂过程。" Octopus模型的实现基于两个核心设计决策。首先，模型在标准化的T-pose空间中预测形状，这样可以让网络学习到姿态不变的特征表示，有效地融合了来自不同姿态的信息。其次，模型采用前馈预测和自下而上与自上而下的信息流相结合的方式，允许信息在多个视图之间交换，以提高预测的准确性，即使这些预测可能与输入图像不完全对齐。尽管单目RGB相机的设置带来了挑战，如缺乏深度信息，但Octopus模型通过深度学习技术克服了这些限制。它能够从少至一帧、多至八帧的图像中恢复3D人体模型，展示了其在实时应用中的潜力。此外，该模型不仅限于特定数量的输入帧，可以根据可用数据灵活调整。 Octopus的训练主要依靠合成的3D数据，这表明它能在没有大量真实世界数据的情况下学习。尽管如此，实验证明Octopus在真实世界的场景中也能表现良好，这是通过在三个独立的数据集上进行评估得出的结论。这些结果进一步巩固了Octopus作为高效、准确的3D人体形状和外观重构工具的地位，对于那些需要快速和精确人体建模的领域，如虚拟现实、增强现实、游戏开发以及零售业的虚拟试穿等，都是一个突破性的技术。最后，值得注意的是，Octopus模型的源代码已经公开，这对于研究人员和开发者来说是一个宝贵的资源，他们可以利用这个模型进行更深入的研究和开发，进一步推动单目RGB相机3D人体建模的技术边界。

资源详情

资源推荐

1178

CNN

形状

构成

我

，D

我

，t

，

（

）

，

（

，

）

（

，

）

图2.我们的方法概述：我们的新CNN预测3D人体形状的语义图像在一个规范的姿势连同每图像的姿势信息计算从2D关节检测

（左到中心）。姿态信息可以用于经由使用相同预测器（右到中心）的

“

渲染和比较

”

优化来细化形状

：

（

，

）

›→

（

，

）是一个

CNN

参数

化，

同样地，我们也可以将这些关节投影

到

NJ3D

上

到图像

网络参数

输入方式。人类的图像在外观上高度多样化，在深

度学习的背景下需要大量的注释图像数据集。因此，

为了提取尽可能多的信息，同时仍然保留形状和姿态

信号，我们在以前的工作[29，13]的基础上将每个

RGB图像简化为语义分割和2D关键点检测。这使我们

能够只使用合成数据来训练网络，并推广到真实数

据。

模型参数化。通过整合

SMPL+D

模型（第

3.1

）到

我们的网络公式中，我们可以在训练中使用它的网格

输出。具体地说，我们以三种方式监督预测的

SMPL+D

参数：直接在网格顶点

（

，

）

上，在预测的关节位置

（

）及其在图像上的投影

上，以及密集地在使用

差分渲染器[35]。

公式（

）中的

形（

（

）

）现在用以

下函数从语义图像

的集合预测

（

）

=T+

（

））

（

）

，

（

）

平面透视投影

：

（

，

）

（

，

））

（

）

所有这些操作都是可微的，我们可以方便地使用它来

制定合适的损失函数。

3.3.

损失函数

我们的架构允许两种监督来源：（i）3D监督（在

我们的实验中，来自通过将SMPL+D拟合到静态扫描

而得到的合成数据），以及（ii）仅来自视频帧的2D

监督。在本节中，我们将讨论

不同的损失函数用于训练预测因子

。

对于数据集

{

（

，

）

，

（

，

）

}

中的

配对样本，我们在估计模型

和地面实况模型

（

）扫描之间使用

•

正则T姿态0

中的每顶点损失。这种损失提供了一

个有用的3D监督形状独立的姿态：

（

）

−

（

，

）

二

（九）

其中

是

要学习的回归量。类似地，通过以下函数从

图像

I i

和

关节

J i

预测网格姿态

N3D

（

，

）：

（

，

）

（

，

）

，

（

））

，

（

，

）

，

W）

（

）

•

定态空间中的逐点损失。这种损失监督欧几里得

空间上的姿势和形状：

−

L = ||

（

，

i）

−

M（

，

）

（十）

w w

我

时

（

，

）=

（

）+

（

，

））

，

（

）

根据该模型，使用线性回归预测3D关节

•

轮廓重叠：

格雷索

尔

河

B25

：

−

(

（

，

i））

−

b（

）

第二

章，

（十

一）

（

，

i）=J

B25

（

，

i））

（

）

时

其中b（I

）是二进制分割掩码，并且

是

B25

已被训练为输出与BODY 25 [1]关键点排序一致的25

个关节位置。所估计的已设定姿势的网格N

可以用由相机c参数化的

渲染

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

使用深度学习从单个RGB相机重建3D人体与服装

基于单张照片的三维人脸重建

3DHPE:使用CNN从单眼RGB相机进行实时3D人体姿态估计

像素值和灰度图中单个rgb在数值上是否相等

RGBD相机和单个相机、多目相机在内参标定上有什么区别

matlab smpl

micrpython rgb矩阵怎么点亮单个

visio 中我的形状设置

deep depth completion of a single rgb-d image

open3d 深度图生成三维点云

gray2rgb函数matlab

推荐几个人体动作识别的算法

Maxwell3D瞬态磁场下使用场计算器导出单个周期体积力

echarts3d柱状图单个

matlab中rgb

labview rgb转灰度

bayer2rgb_ram_raw_rgb_xilinx_bayer

double srgb2rgb(double rgb, double gamma);

vio算法都适用于单目相机吗

用C#实现：将图像中单个像素点的RGB三个值，保存成一个四字节float值，而且要可以从float值还原

最新资源