源内风格增强：提升深度学习模型的领域泛化能力

64 浏览量更新于2024-06-20 收藏 2.22MB PDF 举报

"本文介绍了一种名为‘源内风格增强’(Intra-source Style Augmentation, ISSA)的方法，旨在改进领域泛化能力，特别是针对语义分割任务和深度学习模型在自动驾驶等应用中的表现。这种方法基于StyleGAN2的反演，通过一个新型的掩蔽噪声编码器学习重建图像并保留其语义布局。通过随机掩蔽噪声，模型能够实现风格混合，即在不改变图像语义内容的前提下改变全局外观，从而增加训练数据的多样性，减少虚假相关性。实验结果显示，ISSA可以在不同数据偏移条件下提升驾驶场景语义分割的性能，如地理位置变化、恶劣天气和日夜转换，平均精度提升1.4%。此外，ISSA方法与模型无关，适用于卷积神经网络(CNN)和Transformer，并能增强其他领域泛化技术，如提升RobustNet在Cityscapes到DarkZurich数据集上的性能3%。" 1. 引言深度学习模型在自动驾驶等实际应用中面临着多样化环境条件带来的泛化难题。光照变化、天气因素和不同地理环境导致模型需要具备良好的泛化能力。由于在训练时往往只能获取有限或有偏差的源域数据，因此如何基于这些数据训练出能够在未见过的域中有效工作的模型显得至关重要。现有的研究多关注于利用训练数据的多样性来促进模型的泛化性能，例如自然分布转移。 2. 源内风格增强方法 ISSA的核心是通过StyleGAN2的反演学习，利用掩蔽噪声编码器来预测并忠实重建图像，同时保持语义布局不变。通过随机掩蔽噪声，模型可以独立改变图像的风格而不影响其内容，这样就能生成多样化的风格-内容组合，从而增强训练数据集。这种方法有助于打破模型对特定样式或特征的依赖，降低过拟合风险，提升模型在新域中的表现。 3. 实验与结果实验部分展示了ISSA在多种数据偏移场景下的效果，特别是在处理如雪天等极端环境时，模型的语义分割能力显著提升。此外，将ISSA与其他领域泛化技术结合，如与RobustNet结合，可以进一步提升模型的泛化性能。 4. 结论与未来工作通过源内风格增强，研究者们成功地提高了深度学习模型在未知领域的泛化能力，为自动驾驶等应用提供了更可靠的解决方案。未来的研究可能包括进一步优化ISSA的性能，以及探索将其应用于更多类型的模型和任务，以解决更广泛的泛化问题。 5. 应用前景随着自动驾驶技术的发展，模型的泛化能力将直接影响系统的安全性。ISSA的提出为提升模型在各种现实世界条件下的鲁棒性提供了新的思路，有望推动自动驾驶以及其他领域中深度学习模型的广泛应用。

511

[76]第76话我的世界，

我的世界

图

2. Cityscapes

上

StyleGAN2

反演方法的定性结果（彩色和放大的最佳视图），即，

pSp

†

，双模式编码器

[76]

和我们的掩蔽噪声

编码器。注意，pSp

†

是我们引入的pSp [57]的改进版本。pSp

†

可以重建场景的粗略布局，但仍难以保留细节。尽管双模式编码

器具有更好的重建质量，但它不能忠实地重建小对象（例如，行人）和一些物体（例如，车辆、自行车）相当模糊。我们的掩

蔽噪声编码器具有最高的图像保真度，保留反转图像中的更精细细节。更多的可视化示例，包括原始

pSp

结果，可以在图中找

到。

S.2

中的

Sup

。材料

需求（见图）（七）.我们的ISSA也是一种基于样式的

数据增强技术。受益于最先进的GAN的使用，它可以

生成看起来自然的样本，仅改变原始图像的风格，同

时保留其内容，从而能够重新使用地面实况标签地

图。

GAN反演。GAN反演在人脸编辑等应用中取得了良好

的效果 [1，2，87]，图像恢复[54]和数据增强-

tation [21，53]. StyleGAN [37然而，存在已知的失真-

可编辑性权衡[64]。因此，为特定用例实现精心策划

的性能是至关重要的

GAN反演方法可以分为三组：基于优化的方法[1，

2，13，15，23，35]，

基于编码器的模型[5，57，64，71，76]方法，和hy-

[3，9，18，58].优化方法通常具有较差的可编辑性，

并且需要对每个输入进行穷举因此，在本文中，我们

使用基于编码器的方法来实现我们的风格混合目的。

基于工作pSp编码器的代表性编码器[57]将输入图像嵌

入StyleGAN的扩展潜在空间

中。e4e编码器[64]提高

了pSp的可编辑性，同时牺牲了细节保留。为了提高重

建质量，嵌入式编码器[76]进一步用特征图预测替换

较低的尽管取得了很大进展，但大多数先前的工作仅

展示了以单个对象为中心的数据集上的应用程序，例

如FFHQ [38]，LSUN [78]。它们在更复杂的场景中仍

然失败，因此

限制其在实践中的应用。我们的掩蔽噪声编码器可以

满足保真度和风格混合能力的要求，使自己非常适合

语义分割的数据增强。据我们所知，我们的方法是第

一个GAN反演方法，可以有效地应用于复杂场景的语

义分割的数据增强。

方法

我们将在第二节介绍源代码内风格增强（ISSA）。

3.1，它依赖于GAN反演，可以提供图像的忠实重建和

风格混合为了实现更好的风格-内容解纠缠，我们提出

了一个掩蔽噪声编码器，用于在第二节中进行GAN反

转。3.2.其详细的训练损失在第二节中描述。三点三

3.1.

源内风格增强（ISSA）

训练集中数据多样性的缺乏和虚假相关性的存在往

往导致领域泛化能力差为了减轻它们，

ISSA

旨在修改

训练样本的样式，同时保留其语义内容。它采用GAN

反演来随机化训练集中的风格-内容组合。在这样做的

过程中，它使源训练集多样化，并减少虚假的风格-内

容相关性。因为图像的内容被保留并且仅样式被改

变，所以地面实况标签图可以被重新用于训练，而不

需要任何进一步的注释工作。

ISSA

建立在基于编码器的GAN反演流水线之上，具

有快速推理能力。GAN，如Style-GAN [37

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

源内风格增强：提升深度学习模型的领域泛化能力

语义分割与生成模型：半监督学习与强外域泛化.docx

一种基于改进YOLO v3的古文字及字体识别方法.docx

ChatGPT技术的对话风格迁移与针对性表达方法.docx

在面临计算机视觉中的域转移问题时，如何设计和应用领域泛化技术以提升模型在未见数据分布上的识别与分割性能？

在计算机视觉任务中，如何通过领域泛化技术提高模型对新环境的适应能力？

领域自适应和领域泛化的区别

如何利用领域泛化技术提升计算机视觉模型在新环境下的适应性，尤其是在对象识别和图像分割任务中？

如何在跨域目标检测中应用端到端学习框架，并结合图像风格迁移提升模型泛化能力？

在面对OOD泛化场景时，如何结合因果推断技术来提升模型的适应性和泛化能力？请提供相应的技术细节和操作建议。

faster r-cnn改进

最新资源