没有合适的资源?快使用搜索试试~ 我知道了~
首页Pixel2Mesh(翻译).pdf
Pixel2Mesh(翻译).pdf
需积分: 50 523 浏览量
更新于2023-05-21
评论 1
收藏 634KB PDF 举报
我们提出了一种端到端的深度学习框架,它可以从单一色彩图像生成一个三角形网格的三维模型。大量的实验表明,与现有技术相比,我们的方法不仅可以定性的生成具有更好细节的网格模型,而且可以实现更高的三维形态的估计精度。
资源详情
资源评论
资源推荐

Pixel2Mesh:从单一 RGB 图片生成 3D 网格模型
摘要
我们提出了一种端到端的深度学习框架,它可以从单一色彩图像
生成一个三角形网格的三维模型。受限于深度神经网络特性的限制,
以前的方法通常是使用体积或点云的形式来表示三维形状,将他们转
换为更加易于使用的网格模型并非易事。不同于现有方法,我们的网
络在基于图形的卷积神经网络中表示 3D 网格,并通过利用输入图像
中提取的感知特征使椭圆体逐渐变形来产生正确的集合形状。我们采
用从粗到精的策略来使整个变形过程稳定,并定义了各种与网络相关
的损失函数,以捕获不同级别的属性,用来保证 3D 几何形状在视觉
上的吸引和物理上的精确。大量的实验表明,与现有技术相比,我们
的方法不仅可以定性的生成具有更好细节的网格模型,而且可以实现
更高的三维形态的估计精度。
介绍
从单一角度推断 3D 形状是人类视觉的基本功能,但对计算机视
觉而言却极具挑战性,最近,在使用深度学习技术从单色图像生成 3d
形状方面取得了巨大的成功。利用规则网格上的卷积层或多层感知,
把估计出的 3D 模型表示为体积(volume)或者点云作为神经网络的
输出。但是,两种表述都失去了重要的表面细节,这对于重建一个曲
面模型是非常重要的(如图 1),许多真的应用更加需要网格细节,因
为它是轻量级的,能够更加细节重建模型,容易变形动画等。
在本文中,我们沿着单色图像重建的方向发展,并提出了一种从
单色图像中提取 3D 三角形网格的算法。我们的模型不是直接合成,

而是学习将网格从平均形状变形为目标几何形状。这从多个方面使我
们受益。首先,深度网络更擅长预测残差,例如 空间变形而不是结
构化输出,例如 图;其次,可以将一系列变形加在一起,从而使形
状逐渐细化,它还可以控制深度学习模型的复杂性和结果质量之间的
权衡;最后,它提供了将任何先验知识编码到初始网格的机会,例如
拓扑。作为一项开拓性的研究,在这项工作中,我们专门研究可以通
过变形一个固定尺寸的椭球体来进行 3D 网格近似。实际上,我们发
现在这种情况下,大多数常见类别都可以很好地处理,例如 汽车,
飞机,桌子等。要实现这一目标,存在一些固有的挑战。
第一个挑战是如何在神经网络中表示本质上是不规则图形的网
格模型,并且能够有效地从 2D 规则网格表示的给定彩色图像中提取
形状细节。它需要整合从两种数据模式中学习到的知识。在 3D 几何
体方面,
我们直接构建基于全卷积网络的图(
GCN
),其中网格中的
顶点和边直接表示为图中的节点和连接。( 关 于 图 卷 积
https://mp.weixin.qq.com/s/WW-URKk-fNct9sC4bJ22eg
)
3D 形状的网
络要素编码信息保存在每个顶点上。通过前向传播,卷积层可以在相
邻节点之间交换特征,并最终使每个顶点的 3D 位置回归。在 2D 图
像方面,我们已使用 VGG-16 之类的架构来提取功能,因为事实证明
该功能可成功完成许多任务。为了连接这两者,我们设计了一个感知
特征池化层,该层允许 GCN 中的每个节点将其在图像上的二维投影
的图像特征进行池化,假设已知的摄像机内固有矩阵即可轻松获得这
些特征。使用更新的 3D 位置在多次卷积后启用感知特征池,因此来
自正确位置的图像特征可以有效地与 3D 形状集成。
给定图表示,下一个挑战是如何有效地向真实信息方向(ground
truth)更新顶点位置。在实践中,我们观察到,被训练成直接预测具
有大量顶点的网格的网络很可能在开始时出错,之后很难修复。一个
原因是,一个顶点不能有效地从其他有许多边的顶点检索特征,即有
限的接受域。为了解决这个问题,我们设计了一个图解池层,它允许
网络以较少的顶点开始,并在正向传播期间增加。在开始阶段使用较

少的顶点,网络将学习将顶点分布到最具代表性的位置,然后随着顶
点数量的增加而增加局部细节。除了图解池层之外,我们还使用了一
个由快捷连接增强的深度 GCN 作为架构的主干,它支持全局上下文
的大接受域和更多动作步骤。以图形表示形状也有利于学习过程。已
知的连通性使我们能够定义相邻节点之间的高阶损耗函数,这对于规
范 3D 形状很重要。具体来说,我们定义表面法向损耗(surface normal
loss)以使表面光滑。 边缘损失(edge loss),以鼓励网格顶点的均匀
分布,以提高召回率; 和拉普拉斯损失(laplacian loss),以防止网格
面彼此相交。所有这些损失对于生成高质量的吸引人的网格模型都是
必不可少的,没有图表示,它们都不能被简单地定义。
本文的贡献主要体现在三个方面。首先,我们提出了一种新的端
到端的神经网络架构,它可以从单一的 RGB 图像生成三维网格模型。
其次,我们设计了一个投影层,将感知图像特征融入到由 GCN 表示
的三维几何中。第三,我们的网络以粗糙到精细的方式预测三维几何,
更可靠,更容易学习。
相关工作
文献中对基于多视图几何的三维重建进行了深入的研究。主要的
研究方向包括用于大规模高质量重建的运动结构(SfM)和用于导航
的同步定位和地图绘制(SLAM)。 尽管它们在这些情况下非常成功,
但受到以下方面的限制
1)多个视图可以提供的覆盖范围;
2)要重建的对象的外观。
前者的限制意味着 MVG 无法重构对象不可见的部分,因此通常
需要很长时间才能获得足够的视图来进行良好的重构;后一种限制意
味着 MVG 不能重构非兰伯对象(如反射对象或透明对象)或无文本对
象。这些限制导致了求助于基于学习的方法的趋势。
基于学习的方法通常只考虑单个或少量图像,因为它很大程度上
剩余10页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0