梦境神经渲染：多模态图像和文本合成多样3D对象

134 浏览量更新于2023-10-25 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

867可微基于梦境的零镜头文本引导对象生成Ajay Jain1，2本米尔登霍尔2乔纳森T。本·普尔2透射损耗不鼓励稀疏透射率神经辐射场增强渲染ViTL形夹标题：文本编码器图1.给定一个标题，我们学习一个梦境，这是一个物体几何形状和外观的连续体积表示，它是我们通过渲染来自随机相机姿势的对象的图像来优化Dream Field，这些相机姿势使用冻结的预训练图像和在Web图像和替代文本上训练的文本2D视图共享相同的底层辐射场，以实现一致的几何体。图2.从四个角度呈现的梦境示例。在右边，我们显示了最终透视图的透射率。我们使用语言的组合性来创建不同的输出;这些来自MSCOCO的标题描述了三种具有不同属性（如上下文和颜色）的插花摘要我们将神经渲染与多模态图像和文本表示相结合，仅从自然语言描述中合成各种3D对象。我们的方法，梦田，可以生成各种各样的对象的几何形状和颜色，而由于缺乏多样化的标题3D数据，现有方法仅从少数类别（如ShapeNet）中生成对象相反，我们使用在来自网络的标题图像的大型数据集我们的方法从许多相机视图中优化了神经辐射场，以便根据预训练的CLIP模型，渲染图像的目标标题得分很高为了提高保真度和视觉质量，我们引入了简单的几何先验，包括稀疏诱导透射率正则化，场景边界和新的MLP架构。在实验中，Dream Fields从各种自然语言标题中产生逼真的、多视图一致的对象几何形状和颜色1加州大学伯克利分校，2谷歌研究。在Google工作电子邮件：ajayj@berkeley.edu项目网址及代码：https://ajayj.com/dreamfields1. 介绍详细的3D对象模型将多媒体体验带入生活。游戏、虚拟现实应用程序和电影中的每一个都填充了数千个对象模型，每个模型都是用数字软件手工设计和制作的。虽然专业艺术家可以创作高保真的资产，但这个过程非常缓慢和昂贵。先前的工作利用3D数据集来合成点云，体素网格，三角形网格和隐式函数形式的形状，使用生成模型如GAN [4，21，57，65]。这些方法只支持几个对象类别，由于小标记的3D形状数据集。但是多媒体应用程序需要各种各样的内容，并且需要3D几何和纹理。在这项工作中，我们提出了梦想领域，一种方法来自动生成开放集的3D模型，从自然语言提示。与以前的工作不同，我们的方法不需要任何3D训练数据，并使用自然语言提示，很容易与一个富有表现力的界面来指定所需的对象属性。我们证明，语言的组合性允许灵活的形状，颜色和风格的创造性控制。梦场是神经辐射场（NeRF），其被训练以最大化关于两者的深度感知度量。L868场景的几何形状和颜色NeRF和其他神经3D表示最近已成功应用于新的视图合成任务，其中地面真实RGB照片可用。NeRF被训练为从多个视点重建图像。由于所学习的辐射场跨视点共享，NeRF可以在视点之间平滑且一致地插值由于其神经表示，NeRF可以以高空间分辨率进行采样，这与体素表示和点云不同，并且易于优化，这与网格等显式几何表示不同，因为它是无拓扑的。然而，当仅从描述中创建新对象时，现有的照片不可用。而不是G条件信息（潜在、姿势）(a) 类别特定生成器“a large blue bird standingnext(b) 神经辐射场(c) 梦田为了学习重构已知的输入照片，我们学习辐射场，使得其呈现与给定的文本提示具有高语义相似性我们使用预训练的神经图像-文本检索模型（如CLIP [46]）提取这些语义由于NeRF图1说明了我们的方法。在实验中，如果我们天真地用文本监督优化NeRF场景表示，而不添加额外的几何约束，Dream Fields就会学习到显著的伪影（图3）。我们提出了通用的先验，并证明他们大大提高了现实的结果。最后，我们定量评估开集生成每一个使用不同的对象为中心的提示数据集。我们的贡献包括：使用对齐的图像和文本模型优化NeRF，无需3D形状或多视图数据，Dream Fields，一个简单的、受约束的3D表示，具有神经指导，支持从零镜头字幕生成各种3D对象，以及简单的几何先验，包括透射率regularization，场景边界，和一个MLP架构，共同提高保真度。2. 相关工作我们的工作主要受到DeepDream [34]和其他通过在图像空间中优化来可视化神经网络的首选输入和特征的方法的启发[36，37，39]。这些方法使得能够从预先训练的神经网络生成感兴趣的图像，而无需生成模型的额外训练。与我们的工作最接近的是[35]，它研究了风格转移背景下的可微图像参数化我们的工作用图像-文本数据集上的对比表示学习的进展实现的图像-文本丢失来取代那个时代的基于样式和内容的丢失[12，26，46，60]。图像-文本模型的使用使得能够通过文本提示设计轻松灵活地控制所生成图像的样式和内容。我们优化几何和颜色，图3. 文本到3D合成的挑战：（a）有限的3D数据集的泛化能力差：大多数3D生成模型都是在特定对象类别的数据集上学习的，如ShapeNet [7]，并且（b）神经辐射场在没有多视图监督的情况下过于灵活：NeRF学习从场景特定的多视图数据表示几何形状和纹理然而，当只有源字幕而不是多视图图像可用时，NeRF产生显著的伪像（例如，近场遮挡）。（c）梦境：我们引入了一般的几何先验，保留了NeRF的大部分NeRF提供的可微分体积渲染和场景表示，而[35]仅限于固定几何形状和优化纹理。这些优点共同实现了一种全新的功能：开放式文本引导生成对象几何形状和纹理。与Dream Fields同时，一些早期的作品使用CLIP [46]来合成或操纵3D对象表示。CLIP-Forge [49]使用CLIP嵌入条件归一化流模型和在ShapeNet类别上训练的仅几何解码器尽管如此，CLIP-Forge在ShapeNet类别之外的生成效果很差，需要地面实况多视图图像和体素数据。Text2Shape[9]学习文本条件Wasserstein GAN [1，19]来合成新颖的体素化对象，但仅支持单个ShapeNet类别的有限分辨率生成在[10]中，对象几何形状从单个视图中进化优化以获得高CLIP分数，然后手动着色。ClipMatrix [25]编辑人类SMPL模型[31]的顶点和纹理，以创建风格化的可变形人类模型。[44]创建了一个交互式界面来编辑局部区域中的符号距离字段，尽管它们不会优化纹理或合成新的形状。对现有对象进行基于文本的操作是对我们的补充。对于图像，利用CLIP来指导图像生成的工作激增。数字艺术家Ryan Murdock（@advadnoun）使用CLIP来指导SIREN网络的权重学习[52]，类似于NeRF···869. ΣΣΣΣγ(x)=cos(2x),sin(2x) ,(5)ǁ ǁ ǁǁ我θ我我θ我但是没有体绘制并且集中于图像生成。凯瑟琳·克劳森（@rivershavewings）CLIP与VQ-GAN代码的优化[16]，并使用扩散模型作为图像先验[14]。最近的工作从其中σ和c被假定为大致恒定：C（r，θ）T（1−exp（−σ（r（t））δ））c（r（t））（3）我Mario Klingemann（@quasimondo）和[43]已经展示了如何使用CLIP来指导像StyleGAN [27]这样的GAN模型一些工作已经优化了矢量图形的参数，这表明CLIP指导是高度通用的[17，23，50]。这些方法突出了图像-文本模型所学到的惊人能力及其在指导2D生成过程中的实用性近年来，使用生成模型的直接文本到图像合成也有了很大的改进[48，61]，但需要在大规模数据集上训练大型生成模型，这使得这种方法难以直接应用于不存在此类数据集的文本到3D。生成模型也取得了越来越大的进展，基于NeRF的生成器仅从2D图像中训练。然而，这些模型是特定于类别的，并且在大部分面向前的场景的大型数据集上进行训练[5，20，38，51，66]，缺乏开集文本条件模型的灵活性形状不可知先验已用于3D重建[2，58，64]。3. 背景我们的方法结合了神经辐射场（NeRF）[33]第46话，一个人的故事。我们首先讨论了这些现有的方法，然后详细介绍了我们改进的方法和方法，使高质量的文本对象生成。3.1. 神经辐射场NeRF [33]使用多层感知器（MLP）参数化场景在我们的简化模型中，NeRF网络接受3D位置x并输出用于发射-吸收体绘制模型的参数：密度σθ（x）和颜色cθ（x）。可以通过根据体积渲染方程针对每个像素沿着适当的射线r（t）∫tfC（r，θ）=T（r，t）σθ（r（t））cθ（r（t））dt，（1）tnTi=exp−j< iσθ（r（tj））δj，δi=ti−ti−1. （四）对于给定的MLP参数θ和姿态p的设置，我们为每个像素确定适当的光线，计算渲染颜色C（r，θ）和透射率，并收集结果以形成渲染图像I（θ，p）和透射率T（θ，p）。为了使MLP更快地学习高频细节[55]，输入x在被传递到网络之前通过正弦位置编码γl lL−1l=0其中L被称为位置编码的“级别”的数量在我们的实现中，我们专门应用mip-NeRF中提出的集成位置编码（IPE）来对抗混叠伪影[3]，并结合随机傅立叶位置编码基础[55]，其中频率分量根据下式采样：ω= 2ud，其中u<$U[0，L]，d<$U（S2）.（六）3.2. 图文模型与相关文本配对的大规模图像数据集已经能够训练大规模模型，这些模型可以准确地评估图像和相关标题是否可能对应[12，26，46]。这些模型由图像编码器g和文本编码器h组成，它们将图像和文本映射到共享的嵌入空间中。给定句子y和图像I，这些图像-文本模型产生标量分数：g（I）Th（y），当te xt是图像的良好描述时，g（I）Th（y）高请注意，嵌入g（I）和h（y）通常是归一化的，即g（I）=h（y）=1。训练通常使用对称版本的InfoNCE损失[40，45]进行，其目的是最大化图像和文本之间互信息的变分下限先前的工作表明，一旦经过训练，图像和文本编码器对于许多下游任务都是有用的[46，60]。在[48]中，图像和文本编码器用于对生成图像模型的输出与目标字幕的对应性进行评分[48]。我们通过优化体积来产生高分图像，而不仅仅是重新排名。其中T（r，θ，t）=exp.−不σθ（r（s））dstn.（二）4. 方法在本节中，我们开发了Dream Fields：一种只给出自然语言标题的零镜头对象合成方法积分T（r，θ，t）被称为t. 在实践中[33]，这两个积分通过将射线分解为更小的段[ti-1，ti）来近似，4.1. 对象表示在NeRF 场景表示（第3.1节）的基础上，DreamField用参数θ优化了MLP，该参数θ产生表示差分的输出σθ（x）和cθ（x）。∫Σ870LLL····不在每个3D点x处的场景的体积密度和颜色。此字段通过密度网络表示对象几何体我们的对象表示只依赖于3D坐标，而不是相机的观看方向，因为我们没有发现它有好处。给定相机姿态p，我们可以渲染图像I（θ，p）并通过（4）使用N个分段计算透射率T（θ，p）。片段以大致相等的间隔间隔隔开，并且沿着射线随机抖动。分段的数量N确定渲染的保真度。在实践中，我们在优化过程中将其固定为192。4.2. 目的我们如何训练一个梦域来代表一个给定的帽子？如果我们假设一个对象在从任何角度观察时都可以被类似地描述，我们可以随机采样姿势，并尝试强制渲染图像在所有姿势下都与标题我们可以通过使用CLIP网络来实现这个想法，以测量给定参数θ和姿态p的标题和图像之间的匹配：LCLIP （ θ ， posep， captiony ）=−g（ I（ θ，p））h（y）（七）其中g（）和h（）是图像和文本语义的对齐表示，并且I（θ，p）是来自相机姿态p的场景的渲染图像。每次训练迭代，我们从先验分布中采样一个姿势p，渲染I，并相对于梦场MLP的参数θ最小化 CLIP。等式（7）测量图像和所提供的字幕在特征空间中的相似性。我们主要使用来自CLIP [46]的图像和文本编码器，其具有Vision Transformer图像编码器g（）[15]和掩码Transformer文本编码器h（）[56]，这些编码器在400M标题2242图像的大型数据集上进行对比训练我们还使用了来自[60]的基线锁定图像-文本调整（LiT）ViTB/32模型，该模型通过与CLIP相同的程序在数十亿高分辨率（2882）标题图像的更大数据集上进行训练。LiT训练集是按照简化版本的ALIGN网络替代文本数据集收集过程[26]收集的，包括嘈杂的字幕。图1显示了我们的方法的高级概述DietNeRF [24]基于“推土机从任何角度看都是推土机”的想法，为NeRF提出了一个相关的语义一致性该方法计算了渲染图像和真实图像的相似性。相比之下，（7）比较渲染图像和标题，允许在没有对象照片时在零拍摄设置中使用。4.3. CLIP指南由于其灵活性，神经辐射场能够在多视图一致图像的监督下在各种各样的真实世界场景上进行高保真新颖视图合成。当有足够多的输入图像可用时，它们的重建损失通常会学习去除伪影，如伪密度。但我们4K迭代8K迭代24K迭代100K（最终）图4.为了鼓励连贯的前景对象，Dream Fields使用3种类型的背景增强进行训练：模糊高斯噪声，纹理和棋盘。在测试时，我们使用白色背景进行渲染。提示：“一个公鸡的雕塑。”发现NeRF场景表示在从离散的视点集合单独使用CLIP（7）训练时太不受约束，导致严重的伪影满足CLIP，但根据人类视觉不兼容（参见图3b）。NeRF学习高频和近场[62]伪像，如部分透明的它还填充整个摄影机视口，而不是生成单个对象。几何是不现实的，尽管纹理反映了标题，让人想起了深梦功能可视化中的工件[34，39]。4.4. 姿态采样在DeepDream [34]和相关工作中，图像数据增强（如随机裁剪）图像增强只能使用平面内2D变换。Dream Fields通过在每次训练迭代中对不同的相机姿态extrinsics进行采样来支持3D数据增强。我们在场景周围的360度范围由于底层场景表示是共享的，因此可以提高对象几何体的真实感例如，在窄间隔中采样方位角倾向于创建平坦的广告牌几何体。相机仰角、焦距和与被摄体的距离也可以增加，但我们认为这不是必要的。相反，我们在优化过程中使用固定的相机焦距，该焦距按mfocal=1缩放。2.将物体放大20%。渲染成本在焦距上是恒定的。4.5. 通过稀疏性鼓励相干对象为了去除近场伪影和伪密度，我们对梦场渲染的不透明度进行了正则化。我们最好的结果最大化的平均透射率的光线通过体积的目标常数。透射率是光线沿光线r在穿过点t和近平面tn（2）时不被参与介质我们将沿着射线的总透射率近似为根据下式的光穿过射线的N个离散段的联合概率：871- ∝当量（四）、然后，我们定义以下透射率损失：LT=−min（τ，mean（T（θ，p）（8）Ltotal=LCLIP+λLT（9）这鼓励梦场将平均透射率增加到目标透明度τ。我们在实验中使用τ = 88%。在500次迭代中，τ从τ = 40%开始退火，以平滑地引入透明度，这改善了场景几何形状，并且对于防止完全透明的场景至关重要。缩放1τ f2/d2保留不同焦距和物距的物体横截面积。当在训练期间将渲染与简单的白色或黑色背景进行alpha合成时，我们发现平均透射率接近τ，但随着优化填充背景，场景是用随机背景图像增强场景导致相干对象。梦境使用高斯噪声、棋盘图案和[35]中的随机傅立叶纹理作为背景。这些都是平滑的高斯模糊随机采样的标准偏差。背景增强和训练期间的渲染如图4所示。我们定性地比较（9）与图5中的基线稀疏正则化器。我们的损失受到[35]使用的乘法不透明度门控的启发。然而，门控损耗在实践中部分地由于其非凸性而具有优化挑战。简化的附加损失更稳定，并且两者都比Spar的先前方法明显更尖锐模拟神经辐射场4.6. 定位对象和边界场景当神经辐射场被训练来重建图像时，场景内容将以一致的方式与观察结果对齐Dream Fields可以将密度放置在远离场景中心的位置，同时仍然满足CLIP损失，因为CLIP训练数据中的自然图像在训练过程中，我们保持对3D对象的原点的估计，并相应地原点通过渲染密度的质心的指数移动平均来跟踪。为了防止物体漂移太远，我们通过屏蔽密度σθ将场景限制在立方体内。4.7. 神经场景表示体系结构在[33]中提出的NeRF网络架构用恒定宽度的简单8层MLP来参数化场景密度我们使用一个剩余的MLP架构，而不是在每两个密集层周围引入剩余连接。在残差块内，我们发现在开始时引入层归一化并以瓶颈方式增加特征维度是有益的层规范化提高了优化的挑战性提示。缓和渐变消失图5.我们的透射率损失和背景增强是互补的。上图：在没有背景增强的情况下，透射率的先验（右三列）不能去除低密度结构. NeRF的密度扰动改善了相干性，但仍存在浑浊的伪影。底部：当对象在训练期间与随机背景进行Alpha合成时，CLIP会使用不透明材质填充场景以隐藏背景。然而，门控和我们简化的附加透射规则器都成功地限制了体积的不透明度，并导致更清晰的对象。插图描绘了透射率。提示：“葡萄藤上的南瓜插图。”为了解决高度透明场景中的问题，我们用Swish [47]替换ReLU活动，并用softplus函数校正预测密度σθ我们的MLP架构每个场景使用280K参数，而NeRF使用494K参数。5. 评价我们评估生成的对象与它们的标题和场景表示的重要性的一致性，然后显示定性的结果和测试是否梦场可以概括成分。消融分析调节器、CLIP和摄像机姿势。最后，补充材料有更多的例子和视频。5.1. 实验装置3D重建方法通过将所学习的几何结构与地面实况参考模型进行比较来评估，例如，使用倒角距离。像LLFF [32]和NeRF这样的新型视图合成技术没有地面实况模型，但是将渲染与来自具有PSNR或LPIPS（一种深度感知度量）的保持姿势的像素对齐地面实况图像进行比较[63]。由于我们无法访问各种标题3D模型或标题多视图数据，因此使用基于几何和图像参考的方法对DreamFields进行评估具有相反，我们使用文本到图像生成文献中的CLIP R-Precision度量[41]来衡量渲染图像与真实标题的对齐程度在文本到图像合成的上下文中，R-Precision测量检索模型与用于生成图像的标题相关联的生成图像的比例与NeRF评估一样，图像从没有扰动密度=regularizersoftplus（f（x+））Beta损失门控T* CLIP添加剂CLIP+ T增强的白色背景872↑方法×LL摆出的姿势Dream Fields使用30◦仰角的摄像机进行优化，并在45◦仰角进行评估。对于定量指标，我们在训练期间以1682的分辨率渲染，如[24]所示。对于数字，我们使用2522的高50%的分辨率进行训练。我们收集了一个以对象为中心的标题数据集，其中有153个基线位置R-精密度CLIP B/32 LiTuu B/32COCO GT图像77.1±3.4 75.2±3.5简化NeRF 31.4±2.710.8±1.8+ mip-NeRFIPE 29.7±2.612.4±1.9标题作为上下文中的公共对象的子集（COCO）数据集[28]（详见补充）。对象编码+高频傅立叶特征24.2±2.510.5±1.8中心示例是具有单个边界框注释的示例，并且被过滤以排除具有诸如“极端特写”之类的某些短语的标题的示例。 COCO包括每个图像有5个字幕，但只有一个用于生成。针对来自评估集的一组20-74个不同字幕的感知质量手动调整超参数补充资料中包含其他数据集详细信息和超参数稀疏，增大场景参数。+随机作物25.8±2.510.5±1.8+透过率损失23.7±2.4 7.6±1.5+背景aug.44.1±2.826.1±2.5+ MLP架构52.0±2.927.8±2.6+场景边界65.4±2.738.9±2.8+轨道原点59.8±2.834.6±2.7+ LiTuu ViTB/32 59.5±2.85.2. 分析检索指标在缺乏3D训练数据的情况下，Dream Fields使用缩放+ 20K迭代，2522次渲染68.3±2.7几何先验来约束生成。为了评估每种提出的技术，我们从主要遵循[33]的简化基线神经辐射场开始我们使用不同的种子为每个COCO标题生成两个对象，总共306个对象。利用CLIP ViT B/16引导的168 168个渲染图像的10 K次迭代来合成Ob-1，为了计算效率，对对比模型的输入分辨率进行双线性上采样。R-Precision使用CLIP ViT B/32 [46]和LiTuu B/32 [60]计算，以测量世代与源标题的对齐。表1报告了结果。最显著的改进来自稀疏性、场景边界和架构。作为一个预言，与以对象为中心的COCO字幕相关联的地面实况图像具有高R精度。NeRF表示收敛性差，并引入了别名和带状伪影，部分原因是其使用轴对齐的位置编码。相反，我们将mip-NeRF的集成位置编码与随机傅立叶特征相结合，这提高了定性结果，并消除了对轴对齐结构的偏见。然而，对精度的影响是中性或负面的。透射率损失T与背景增强相结合，显着提高反演精度+18%和+15.6%，而透射率损失本身是不够的。这是定性显示在图5中。我们的MLP架构具有残差连接、归一化、校验式特征尺寸和平滑非线性，进一步提高了R精度+8%和+2%。将场景绑定到立方体可以提高检索率+13%和+11%。附加边界明确地屏蔽密度σ并沿着每条射线集中样本。我们还通过优化在更大的标题数据集上训练的图像-文本模型来扩大Dream Fields，表1.当一起使用时，几何先验提高字幕检索精度。我们从NeRF场景表示的简化版本开始，每次添加一个先验，直到所有先验都结合使用。使用CLIP的ViT B/32从所生成的对象的呈现图像中检索字幕除了在缩放实验中，我们使用更高分辨率的LiTuuB/32模型进行实验外，对象都是在预训练的CLIP ViT B/16的CLIP指导下生成的。3.6B图像来自[60]。我们使用ViT B/32模型，图像和文本编码器从头开始训练。这对应于来自[60]的 uu配置，遵循CLIP训练过程以对比学习两个编码器。在我们的实验中使用的LiTuu ViT编码器采用更高分辨率的2882图像，而CLIP是用2242输入训练的。尽管如此，LiTuu B/32比CLIP B/16计算效率更高，因为第一层中的补丁大小更大。在优化低分辨率渲染的Dream Fields时，LiTuu对R-Precision没有显著帮助，可能是因为用于评估的CLIPB/32模型在与前几行中的CLIP B/16模型相同的数据集上进行了使用更高分辨率优化更长时间2522渲染缩小差距。LiTuu提高了视觉质量和清晰度（附录A），表明多模态图像-文本模型的改进转移到3D生成。5.3. 成分生成在图6中，我们显示了非cherrypicked世代，这些世代测试了Dream Fields的组成概括，以从[48]的网站中获取的标题中的细粒度变化。我们独立地改变生成的对象和风格描述符，如形状和材料。DALL-E [48]也有一个显着的能力，结合概念的提示出分布，但仅限于2D图像合成。873LLLbetaL L−鳄梨脑珊瑚甜甜圈冰川葫芦莲藕兰花桃法棍罗勒甜菜根玉米煎饼卷心菜蛋糕鱿鱼辣椒羊角面包黄瓜图6.组合对象生成。Dream Fields允许用户通过详细的标题表达特定的艺术风格上两行：与[48]中的文本到图像实验类似，我们生成标题为“鳄梨形状的扶手椅”的对象。模仿鳄梨的扶手椅”下图：一只蜗牛的质地因世代而异。标题遵循模板“一个蜗牛做的法棍面包。一个蜗牛与法式面包的质地“结果不是樱桃采摘。方法损失或参数化R-Prec.无正则化器CLIP（7）35.3扰动σ[33]σ= softplus（fθ（x）+f θ） 47.7[30]第100话我的世界门控T[35]−mean（T（θ，p））·LCLIP34.6Clipped gatedT−LT·LCLIP（11）62.1剪切加性TLCLIP+λLT（9）62.1表2. 解释稀疏正则化器。优化是针对使用LiT uu ViT B/32和背景增强以168 2分辨率进行10 K迭代，并且检索使用CLIP ViT B/32。为为了消融，我们每个字幕运行一个种子（153次运行）。Dream Fields在3D中生成概念的组合，并支持跨几类对象的提示中的细粒度变化。然而，一些几何细节并不例如，生成的蜗牛的眼柄连接到它们的外壳而不是身体，并且生成的绿色花瓶是模糊的。5.4. 模型消融当我们正则化平均透射率时，其他稀疏性损失是可能的。我们比较了未正则化的梦场，对密度σ的扰动[33]，在透射率上具有beta先验的正则化[30]，T的乘法门控版本和图5中的加法T正则化器。在现实世界的场景中，NeRF在校正之前将高斯噪声添加到密度的网络预测中作为正则化器。这可以鼓励更清晰的边界定义，因为小密度通常会被扰动归零之前的测试版0.95=0.9=0.75=0.5=0.25图7.目标透射率τ影响生成的对象的大小。插图描绘了透射率。来自Object Centric COCO的提示：“一个顶部有白色糖霜花和巧克力中心的蛋糕。”神经网络[30]鼓励射线穿过体积或完全被遮挡：总=CLIP+λ平均值（logT（θ，p）+log（1T（θ，p）（十）乘法损失受到[35]的不透明度缩放的启发，用于特征可视化。我们通过限幅平均透射率来缩放CLIP损失：Ltotal=min（τ，平均值（T（θ，p）·LCLIP（11）表2比较了正则化器，表明密度扰动和β先验分别提高了R精度+12.4%和+15%。具有剪切平均透射率正则化的场景与其标题最佳对齐，比基线高出+26.8%beta先验可以用不透明的材料填充场景，乘法门控在被裁剪到目标并且具有背景增强时工作良好，但是也是非凸的并且对超参数敏感。图7示出了在附加损耗的情况下改变目标透射率τ的效果茶壶扶手椅874··L检索型号R-Precision优化型号CLIP B/32 CLIP B/16 LiTuu B/32COCOGT 77.1±3.4 79.1±3.375.2±3.5夹子B/32 [46]（86.6±2.0）74.2±2.542.8±2.8夹子B/16 [46] 59.8±2.8（93.5±1.4） 35.6±2.7LiTuuB/32 59.5±2.8 66.7±2.7（88.9±1.8）表3.用于优化Dream Fields的对齐图像-文本表示根据保持的检索模型影响其定量验证R-Precision。所有的对比模型产生高的检索精度，虽然定性CLIP B/32产生过于平滑和简化的对象。我们在1682分辨率下优化了10K次迭代。（斜体）度量在保持的姿势下使用优化模型，并指示Dream Fields过拟合。正视图右视图后视图左视图改变图像-文本模型我们比较了CLIP（7）中使用的不同图像和文本表示h（），g（）和检索度量。表3显示了结果。 CLIP B/32、B/16和LiT uuB/32都具有很高的检索精度，表明它们可以合成与所提供的字幕基本一致的对象。 CLIP B/32的性能最好，超过了计算密集型的CLIP B/16 模型。这些架构在提供给Transformer主干的每个令牌中编码的像素数量上有所不同，即ViT贴片大小。由于渲染的分辨率较低，较大的补丁大小可能就足够了：将1682裁剪为1542，然后上采样为CLIP的输入大小224 2。在质量方面，使用LiTuu B/32的训练产生了最详细的几何形状和纹理，这表明开集评估具有挑战性。在每次训练迭代中，Dream Fields都会对相机姿态p进行采样以渲染场景。在实验中，我们对相机的方位角使用了完整的360°采样范围图8示出了当以较小的方位角范围进行优化时鸟的多个视图在最左边的列中，示出了来自中心方位角（正面）的视图，并且对于所有训练配置都是现实的从更极端的角度（右，左，后视图列）的看法优化了窄方位角范围。使用不同相机进行训练对于视点泛化非常重要。6. 讨论和限制梦境中有很多限制生成需要迭代优化，这可能是昂贵的。对于大多数对象，2K-20 K迭代就足够了，但是当优化时间更长时，会出现更多的细节。元学习[54]或摊销[42]可以加速合成。我们在所有透视图中使用相同的提示符。这可能导致在对象的多个侧面上重复图案目标字幕可以在不同的摄像机姿势中变化我们测试的许多提示都涉及多个主题，图8.使用离散采样相机姿势进行训练可提高视图间的泛化能力。在顶行中，我们从单个视点采样相机方位角。从同一视角（左列）渲染的视图是真实的，但从其他角度看，对象结构很质量结果随着更大的采样间隔，最好的结果从360毫米采样。但我们不以复杂场景生成为目标[6，8，11，13]，部分原因是CLIP对空间关系的编码很差[29，53]。场景布局可以在后处理步骤中处理。我们用来对渲染进行评分的图像-文本模型即使在地面实况训练图像上也我们对预训练模型的依赖继承了它们的有害偏见。如果这些方法对大规模资产生成有用，那么确定可以检测和消除这些偏差的方法7. 结论我们的工作已经开始解决从文本生成对象的难题。通过将可伸缩的多模态图像-文本模型和多视图一致的可重构神经渲染与简单的对象先验相结合，我们能够跨各种各样的真实世界文本提示合成3D对象的几何形状和颜色。语言界面允许用户控制结果的样式和形状，包括对象的材料和类别，并提供易于编写的提示。我们希望这些方法能够为艺术家和多媒体应用程序提供快速的资产创建。875引用[1] 马丁·阿乔对ky，苏米特·钦塔拉和Le'onBottou。Wasser-stein生成对抗网络。ICML，2017. 2[2] 乔纳森·T.巴伦和吉坦德拉·马利克形状、照明和着色的反射率。TPAMI，2015。3[3] 乔纳森·T. Barron，Ben Mildenhall，Matthew Tancik，Peter Hedman ， Ricardo Martin-Brualla ， and Pratul P.Srinivasan. Mip-NeRF：抗混叠神经辐射场的多尺度表示ICCV，2021年。3[4] Ruojin Cai 、 Guandao Yang 、 Hadar Averbuch-Elor 、Zekun Hao 、 Serge Belongie 、 Noah Snavely 和 BharathHariharan。学习形状生成的梯度场ECCV，2020年。1[5] Eric Chan ， Marco Monteiro ， Petr Kellnhofer ， JiajunWu，and Gordon Wetzstein.pi-gan：用于3d感知图像合成的周期性隐式生成CVPR，2021年。3[6] Angel Chang、Will Monroe、Manolis Savva、ChristopherPotts和Christopher D.曼宁文本到三维场景生成，具有丰富的词汇基础。ACL-IJCNLP，2015. 8[7] Angel X Chang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimming Li ， SilvioSavarese ， Manolis Savva ， Shuran Song ， Hao Su ， etal.Shapenet：一个信息丰富的三维模型库。arXiv预印本arXiv：1512.03012，2015。2[8] Angel X Chang ， Manolis Savva 和 ChristopherDManning。学习从文本到3D场景生成的空间知识。EMNLP，2014年。8[9] Kevin Chen ， Christopher B. 放大图片作者： ManolisSavva，Angel X.作者：Thomas A. Funkhouser和SilvioSavarese。Text2shape：通过学习关节嵌入从自然语言生成形状。CoRR，abs/1803.08495，2018。2[10] 埃里克·朱。生成的3d对象的不断发展的唤起2d视图。NeurIPS创意和设计研讨会，2021年。2[11] 鲍勃·科因和理查德·斯普罗特Wordseye：一个自动的文本到场景转换系统。计算机图形学与交互技术，2001。8[12] Karan Desai 和 Justin Johnson VirTex ： Learning VisualRepresentations from Textual Annotations.CVPR ， 2021年。二、三[13] 放大图片创作者：Robert W.Taylor和Joshua M.苏斯金利用局部条件辐射场的无约束场景生成。arXiv，2021。8[14] 普拉富拉·达里瓦尔和亚历克斯·尼科尔。扩散模型在图像合成中优于gans。arXiv：2105.05233，2021。3[15] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词：用于大规模图像识别的变形金刚。ICLR，2021年。4[16] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。CVPR，2021年。3[17] Kevin Frans，Lisa B.索罗斯和奥拉夫·维特科夫斯基。Clipdraw：通过语言图像编码器探索文本到绘图的合成CoRR，2021年。3876††[18] 加布里埃尔·吴、尼克·卡马拉塔、切尔西·沃斯、单·卡特、迈克尔·彼得罗夫、路德维希·舒伯特、亚历克·雷德福和克里斯·奥拉。人工神经网络中的多模态神经元。截止到2021年。https://distill.pub/2021/multimodal-neurons. 13[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014. 2[20] Jiatao Gu ， Lingjie Liu ， Peng Wang ， and ChristianTheobalt. Stylenerf：一个基于样式的3d感知生成器，用于高分辨率图像合成，2021年。3[21] 库纳尔·古普塔和曼莫汉·钱德拉克神经网格流：通过同构流生成三维流形网格，2020。1[22] Jonathan Heek ， Anselm Levskaya ， Avital Oliver ，Marvin Ritter，Bertrand Rondepierre，Andreas Steiner，and Marc van Zee.Flax ： A neural network library andecosystem for JAX，2020. 12[23] Ajay Jain VectorAscent：从文本描述生成矢量图形，2021年。3[24] Ajay Jain Matthew Tancik和Pieter Abbeel。把nerf放在一个饮食：语义一致的少数镜头视图合成。ICCV，2021年。四、六[25] 尼古拉·杰切夫Clipmatrix：3d纹理网格的文本控制创建，2021年。2[26] Chao Jia，Yinfei Yang，Ye Xia，Yi-Ting Chen，ZaranaParekh，Hieu Pham，Quoc Le，Yun-Hsuan Sung，ZhenLi，and Tom Duerig.通过噪声文本监督扩展视觉和视觉语言ICML，2021年。二、三、四[27] Tero Karras

下载后可阅读完整内容，剩余1页未读，立即下载