基于c-CRF的变分AE：提升图像着色的多样性和结构一致性

17 浏览量更新于2024-06-20 收藏 1.36MB PDF 举报

本文主要探讨了一种基于条件随机场的变分自动编码器（Conditional Gaussian Mixture Variational Autoencoder，简称c-GM-VAE）在图像着色任务中的应用，旨在解决现有方法在结构一致性与多样性之间的平衡问题。传统图像着色方法往往倾向于单一的着色解决方案，忽略了色彩的模糊性和多模态特性，这在实际应用如媒体和广告中显得不足。作者团队针对这一挑战，提出了一种新型框架，通过结合条件随机场的概率模型和变分自动编码器的潜在变量建模，实现了对给定灰度图像的多样化着色的同时保持结构一致性。 c-GM-VAE的核心优势在于其能够捕捉到数据集中的颜色分布多样性，同时还考虑到了颜色分配的全局结构。不同于传统的预测模型，如使用有限数据集的单色输出，该方法允许生成多个可能的合理着色版本，比如衬衫的不同部分具有不同的颜色，或者汽车表面的斑点效果。这种结构一致性在生成的结果中显得尤为关键，确保了图像的自然性和连贯性。为了验证其性能，研究者在LFW（Labeled Faces in the Wild）、LSUN-Church和ILSVRC-2015等大型数据集上进行了实验，结果表明，与先前的基线方法如c-GAN [16]、MLN-GAN [19]、BicycleGAN [20]、PIC [18]、VAE-MDN [15]相比，他们的方法在保持多样性的同时，显著提高了着色的结构一致性。此外，文章还介绍了可控制性机制（nism），允许用户根据自己的需求和约束来调整着色结果，进一步提升了算法的实用性。本文的贡献在于提出了一个新颖的深度学习框架，不仅解决了图像着色任务的模糊性和多模态问题，还兼顾了结构一致性，为图像处理领域的自动着色提供了更为先进和精细的解决方案。通过实验结果，证明了c-GM-VAE在实际应用中的潜力，为媒体和广告行业的着色任务带来了新的可能性。

Safa Messaoud、David Forsyth和Alexander G. Schwing

不同的像素然而，在大型输出空间上定义的经典马尔可夫随机场中推断

最可能的配置需要大量计算[34

高斯马尔可夫随机场[38]代表了允许有效和精确推理的情况之一。它

们对数据的联合分布进行建模，例如，将图像的两个颜色通道的像素值

作为多变量高斯密度。高斯马尔可夫随机场过去已用于不同的计算机视

觉应用，包括语义分割[39-41]，人体部位分割和显著性估计[40，41]，图

像标记[42]和图像去噪[43，44]。在[8]中提出了一个用LEARCH框架训练

的稀疏高斯条件随机场用于着色。与这种方法不同的是，我们使用完全

连接的高斯条件随机场，并使用深度网络端到端地学习其参数。除了结

构的一致性，我们的目标是共同建模的模糊性，这是一个固有的一部分

的着色任务。为此，我们利用变分自动编码器。

变分自动编码器：变分自动编码器（VAE）[21]和条件变体[45]，

即，条件性VAE（CVAE）已被用于在各种任务中对歧义进行建模

[46，47]。它们基于流形假设，该流形假设陈述了高维数据点

（诸如彩色图像）可以基于低维嵌入

和一些辅助数据

（

诸如灰

度图像）来建模。形式上证明了低维嵌入

空间的存在性和通过条件

（

）的变换

，

）。给定包含条件信息

和期望输出

对的数据

集D，即，给定D ={（

，

）}，CVAE表示条件对数

似然

lnp

（x

）的最大化

g），由θ参数化，通过考虑以下恒等式：

（

）

−

K L

（

，

）

，

（

，

））

（

1）

−

K L

（

，

）

，

（

））

（

，

）

[

（

，

）

]

。

因此

，

DKL

（

，

）

不存在两个分布的

Kull-bac

-Lei

ble

（

）

分布，且

（

，

）用来逼近难以处理的后验

（

，

）的深度网，该深度网

对条件

（

）进行建模

，

）。后部的近似，即，

（

，

）被

称为编码器，而用于重构的深层网，即，为了模拟条件

（

，

）通

常称为解码器。

由于KL散度是非负的，我们得到了数据对数似然

lnp

（x

）的一

个下界

g）当考虑等式中给出的恒等式的右手侧时，1.一、CVAE最小

化该下限的否定版本，即，

K L

（

，

）

，

（

））

−

，

（

，

）

，

（2）

其中期望E

（

，

）

通过

个样本z

（z

）来近似

，

g）。为了简

化说明，我们忽略了数据集

中的样本的求和，并提供了用于训练单

个对（x

，

g）的目标。

接下来，我们将讨论如何将这些成分结合起来，以实现多样化、

可控但结构连贯的着色。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

基于c-CRF的变分AE：提升图像着色的多样性和结构一致性

基于条件随机场和图像分割的显著性检测

基于条件随机场的图像分割算法研究_耿晓欢.caj

【Java数据结构全解析】：掌握从数组到高级树结构的优化技巧

【CART决策树的Python实现】：使用scikit-learn构建决策树

springboot167基于springboot的医院后台管理系统的设计与实现.zip

XGigE IP GigE Vision Streaming Protocol VHDL源码 有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程 流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备

springboot174基于springboot的疾病防控综合系统的设计与实现.zip

SIGIR'22-减少虚假新闻检测中的实体偏差-论文复制_ ENDEF_glj.zip

SpringBoot3+Vue3教程

最新资源

XGigE IP GigE Vision Streaming Protocol VHDL源码有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备