随着元宇宙对3D创意工具需求的日益增长,三维内容生成(3D AIGC)领域正在经历一场革命性的变革。本文主要介绍了一项名为LGM(Large Gaussian Model,大型多视角高斯模型)的新研究,由北京大学、南洋理工大学S-Lab和上海人工智能实验室的专家共同提出。这项创新旨在解决现有3D生成模型在速度和质量上的挑战,特别是通过将生成时间从几分钟缩短至仅需5秒钟,实现了从单视角图片或文本输入到高分辨率、高质量3D物体的快速生成。
LGM的核心创新在于其使用了大型多视图高斯模型,这种模型灵感源于高斯溅射,通过非对称U-Net这一高效轻量级的骨干网络结构。它能够直接从四张不同视角的图片中预测高分辨率的高斯基元,这些基元在后续步骤中被融合,形成精细的3D模型。这种多视角的处理方式允许模型捕获物体的复杂几何细节,并且在保持速度的同时提升生成内容的精度。
该模型的工作流程包括以下几个关键环节:
1. **输入处理**:LGM接受单视角图片或文本提示作为输入,如用户提供的“sorcerer's spellbook”、“mushroom house”或“astronaut”等描述。
2. **高斯特征生成**:通过多视角的处理,模型生成一系列高斯分布,每个分布代表3D空间中的一个局部区域。
3. **特征融合**:这些高斯特征通过融合机制进行整合,形成一个统一的3D表示,这使得模型能够理解物体的全局形状和结构。
4. **渲染与输出**:经过融合的高斯特征被转换为任意视角下的高分辨率图像,用户可以直观地查看生成的3D模型。
LGM的优势在于它既能保持高效率,能够在5秒内生成高质量的3D内容,又能避免传统深度学习模型在训练时所需的密集计算,从而降低了生成过程中的计算成本。这种技术的进步对于推动3D内容创作、游戏开发、虚拟现实和增强现实等领域的发展具有重要意义,有望加速元宇宙的构建和应用。未来,研究人员可能会进一步探索如何扩展这种模型到更多的应用场景,并提高其在细节表现、光照模拟等方面的能力。