ACE：一种适应环境变化的框架工作方法

133 浏览量更新于2023-10-13 收藏 960KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1吴祖轩1，王欣2，王建民3，王建民4.第一名，第二名，第三名.戴维斯11马里兰大学2加州大学伯克利分校摘要当深度神经网络在相同的数据分布上进行训练和测试时，它们表现出异常的准确性然而，神经分类器往往是非常脆弱的，当面对域转移的变化，随着时间的推移发生的输入分布。我们提出ACE，一个框架工作的语义分割，动态适应不断变化的环境随着时间的推移。通过将来自原始源域的标记训练数据的分布与移位域中传入数据的分布对齐，ACE根据其所看到的环境合成标记训练数据。然后，使用这种风格化的数据来更新分割模型，使其表现良好在新的环境中。为了避免忘记过去环境中的知识，我们引入了一个存储器，存储来自以前见过的域的特征统计数据。这些统计数据可以用于重放任何先前观察到的域中的图像，从而防止灾难性的遗忘。除了使用随机梯度下降（SGD）的标准批量训练在SYNTHIA的两个数据集上进行了大量的实验，实验结果证明了该方法在适应多种任务时的有效性1. 介绍当计算机视觉系统部署在现实世界中时，它们会暴露在不断变化的环境和非平稳输入分布中，这构成了重大挑战。例如，使用在晴朗的晴天收集的图像优化的深度网络可能在不同照明条件下的夜间严重失败。事实上，最近已经观察到，即使在输入数据的微小变化下，深度网络也表现出严重的不稳定性[12]，更不用说面对动态变化的信息流时了。通过收集足够的训练数据来覆盖测试时发生的所有可能的输入分布，可以避免域偏移的问题。然而，图1：框架的概念概述。ACE将一个在源任务上训练的模型适应于一系列目标任务。这是通过将来自源任务的标记图像的特征统计与目标任务的传入图像这种对齐在目标域中产生标记的图像，其可用于更新分割模型。记忆单元还便于重放来自过去看到的域的图像，以防止遗忘。收集和手动注释数据使得这在许多应用中是不可能的。这对于像对象检测和语义分割这样的细致的视觉理解任务尤其如此，其中图像注释是劳动密集型的。值得注意的是，人类能够“终身学习”，即利用过去积累的知识分析新的任务和环境。然而，在深度神经网络中实现相同的目标并非易事，因为（i）新的数据域实时进入而没有标签，以及（ ii ）深度网络遭受catastrophic遗忘[33]，其中在优化新任务时，预学习任务的性能下降我们考虑终身学习的问题，适应一个预先训练的模型，以动态变化的环境，其分布反映不同的照明和天气条件。特别是，我们假设访问来自原始源环境的图像标签对，并且仅访问来自新目标环境的未标记图像，这些图像在训练数据中未此外，我们考虑了随着时间的推移学习所带来的困难，其中目标环境按顺序出现。我们专注于语义段的具体任务2121任务存储器任务：任务：源任务2122这是由于其在自动驾驶中的实际应用，其中视觉识别系统被期望处理变化的天气和照明条件。该应用程序使我们能够利用图形渲染工具从不同分布中收集数据的便利性[43，42]。为此，我们引入了ACE，这是一个框架，它将预先训练的分割模型适应于以顺序方式到达的新任务流，同时将历史风格信息存储在紧凑的内存中以避免丢失（参见图2的概述）。特别是，给定一个新的任务，我们使用一个图像生成器来对齐（标记的）源数据的分布与（未标记的）传入的目标数据在像素级的分布。这将产生具有紧密反映目标域的颜色和纹理属性的标记图像，然后直接用于在新目标域上训练分割网络。风格转移是通过重新规范化源图像的特征图来实现的，因此它们具有与目标图像匹配的一阶和二阶特征统计[19，60]。这些重新规范化的特征图然后被馈送到生成器网络中，生成风格化的图像。ACE的独特之处在于其终身学习的能力。为了防止遗忘，ACE包含一个紧凑而轻量级的存储器，用于存储不同风格的特征统计信息这些统计数据足以重新生成任何历史风格的图像，而无需存储历史图像库的负担。使用记忆，历史图像可以重新生成并用于整个时间的训练，从而阻止灾难性遗忘的有害影响。整个生成和分割框架可以通过SGD以联合端到端的方式进行训练。最后，我们考虑使用自适应元学习的主题，以促进更快地适应新的环境，当他们遇到。我们的主要贡献概述如下：（1）我们提出了一个轻量级的语义分割框架，它能够使用简单而快速的优化来适应传入的分布流;（2）我们引入了一个存储特征统计数据的模型，用于有效的风格重放，这有助于对新任务的泛化，而无需获取学习到的知识;（3）我们考虑元学习策略来加快对新问题域的适应速度;（4）我们对S YNTHIA的两个子集进行了广泛的实验[44]，实验证明了我们的方法在适应具有不同天气和光照条件的一系列任务时的有效性。2. 相关工作无监督域自适应。我们的工作涉及无监督域自适应，其目的是在不访问标签的情况下测试新分布时提高预训练模型的泛化能力现有方法沿着这条线的研究旨在减少特征或像素级的域特别地，特征级自适应集中于对准用于目标任务的特征（例如，分类或分割）。这种距离概念可以是最大平均离散度（MMD）[31，4]、协方差[54]等形式的显式度量;或隐式估计，以使用对抗性损失函数（如反向梯度[8，9]，域混淆[57]或Gen）使特征域不变。交互对抗网络[58，16，17，45，18]等。另一方面，像素级自适应通过使用减少纹理和照明不一致性的映射将来自不同域的图像转换为看起来好像它们是从相同分布中绘制的[3，52，55，29]。最近还有一些方法试图同时对齐像素级和特征级表示[15，62，69]。此外，Zhanget al.提出一种使用全局标签分布和局部超像素分布进行适应的课程策略[68]。Saleh等人在处理域移位时使用检测方法处理前台类[46]。我们的框架与以前的工作不同，因为我们正在适应顺序到达的测试域流，而不是单个固定域，这是具有挑战性的，因为它要求网络在当前和所有以前的域上都表现良好。请注意，虽然我们主要关注像素级对齐，但我们的方法可以进一步受益于分割网络中的特征级对齐，但代价是保存原始图像，而不仅仅是特征统计。此外，我们的方法还与[63，2，14]相关，该方法通过在特征级对齐来执行分类任务的顺序适应，而我们的方法则专注于在像素级对齐的语义分割。图像合成和风格化。人们对使用生成对抗网络（GANs）合成图像的兴趣越来越大[65，38，29]，它被公式化为生成器和代理之间的最小-最大游戏[11]。为了控制生成过程，已经包含了大量的附加信息，包括标签[36]，文本[41]，属性[49]和图像[21，25]。GAN也被用于图像到图像的转换，它使用循环一致性[71]或映射到共享特征空间[28，20]将图像的风格转换为参考图像的风格。在不知道域的联合分布的情况下，这些方法试图从每个域学习具有边缘分布的分布。然而，用GAN生成高分辨率图像仍然是一个困难的问题，并且是计算密集型的[23]。相比之下，用于神经风格转移的方法[10，19，59，37，22]通常避免生成建模的困难，并且简单地匹配Gram矩阵的特征统计[10，22]或执行均值和方差的通道对齐[27，19]。在我们的工作中，2123i=0时我我......任务池当前任务：...源图像预测横图像从当前任务固定权重关于VGG存储器熵AdainKL散度横熵分割网络合成图像预测图像从源任务图像生成器图2：拟议框架概览。给定一个传入的任务，ACE合成新的图像，这些图像保留来自源任务的图像内容，但具有目标任务的样式。这通过将样式信息从输入图像转移到源图像上或者通过从存储器单元采样样式信息来完成。通过这些不同风格的合成大小的图像，分割网络被训练成在不忘记过去学习的知识的情况下推广到新的任务在样式转移时，以来自当前任务的图像的样式合成新图像，同时保留源图像的内容。终身学习。我们的工作也与终身学习或持续学习有关，即利用过去积累的知识逐步学习并适应新的任务。现有的工作重点在学习新任务时减轻灾难性遗忘[24，67，40，50，51，32，5]。最近的几种方法建议在新任务到达时动态增加模型容量[66，64]。我们的工作重点是如何适应3. 方法ACE的目标是适应分割模型从一个源任务到一些顺序呈现的目标任务与不同的图像分布。该方法将已标记的源图像转换到目标区域，为分割模型创建综合训练数据，同时对风格信息进行分类，用于风格回放，防止遗忘。更正式地说，让T0表示源任务，{Ti}T表示按顺序到达的T个目标任务我们毛皮-用X0={（x0，y0），· · ·，（x0，y0）}1表示1 1N N以无监督的方式学习分割模型，新任务流，每个任务的图像分布与最初用于训练的图像分布不同。此外，为了避免忘记过去学过的知识，N个图像及其对应的标签用于源任务。标签y0包含图像x0中每个像素的独热标签向量;我们表示第i个图像样本为x0∈R3×H ×W，y0∈ {0，1}C×H ×Wrep-我我使用他们的特征统计来表示和编目。是-因为这种表示比原始图像小得多，所以框架是可伸缩的。元学习。元学习[48，56]，也称为学习学习，是一种设置，其中代理摄取一组任务，每个任务都是自己的学习问题，然后执行。表示相应的标签映射，其中H和W为分别为高度和宽度，C表示类的数目。对于每个后续的目标任务，我们假设只访问图像，而不是像源任务中那样访问图像-标签对。我们进一步将目标任务的数量表示为T，使用Xt={xt，···，xtt}，其中t∈[1···T]表示建立了一个模型，可以快速适应看不见的1Nt来自同一分布的任务。元学习者分为三类：（i）基于模型的外部分类[47，34];（ii）基于度量[61];（iii）基于优化[7，35]。现有的方法主要集中在少数第t个传入任务的图像集，其中N 图像与源数据相同的分辨率。ACE包含四个关键组件：编码器、生成器、存储器和分段网络。编码器网络将源图像x0转换为表示的特征，镜头分类、回归和强化学习0i问题，而我们的方法侧重于如何有效地适应分割模型锡伊站（在我们的例子中，一堆512个输出特征图）。[1]为了便于记法，我们在这里省略了T2124J我我我我我Σ我J我伊伊根生成器网络将特征表示z转换为图像。可以通过在z被交给生成器之前修改z的统计数据（每个特征图的平均值和标准偏差）来控制/操纵所得到的图像的风格。存储器单元记住每个图像样式/域的特征统计（每个样式1024个标量值，对应于512个特征图中的每一个的平均值和标准偏差）源图像可以通过从存储器单元检索相关的样式统计数据、重归一化源图像的特征图以具有相应的统计数据、然后将重归一化的特征交给生成器以创建图像而被风格化到任何先前看到的域中。通过编码器和发生器程式化。当呈现新任务时，通过将源图像（及其伴随标签）传送到目标域，在新任务域中创建标记图像为此，我们联合训练一个生成器网络，用于生成目标风格化的图像，以及一个分割网络，用于处理目标域中的图像。图像生成管道从编码器开始，编码器从图像中提取特征图。我们使用预训练的VGG19网络[53]作为编码器，从relu4中提取输出来定义fenc。[26，19]之后，这里，第一项（内容损失）测量所生成的图像的特征与源图像的对准特征之间的差异，目的是保留源图像的内容。剩下的两个项通过匹配每个通道的特征图的均值和方差来迫使生成的图像进入xt请注意，一些作者匹配Gram矩阵[10，62]以使样式一致。我们匹配特征图的均值和方差，如[27，59]所示，因为这些统计数据很简单优化并包含足够的信息以获得良好的风格化。与使用几个层进行对齐[27，19]相比，我们简单地匹配来自VGG编码器的一层特征图，这更快但足够了。更重要的是，这便于轻量级风格的重放，如下面将描述的。分割网络。将新合成的图像x∈0=fde c（z∈;f∈ n）交给分割网络工作器f seg，由权重f seg参数化。该网络产生一个标签向量p0=fse g（x0;fse g）的映射，并通过最小化像素上的多类交叉熵损失来训练。此外，由于合成图像可能会丢失原始图像的某些细节，这可能会降低分割网络的性能，因此我们进一步将来自分割网络p_0的合成图像x_p_0的输出限制为接近预处理图像x_p编码器的权重在训练期间被冻结以提取i0 0i固定表示fenc（x0）=z0和fenc（xt）=zt在风格化之前原始图像xi的文字pi这i ijj是通过测量这些之间的KL分别来自图像x0和xt两个人，都是知识分子。图像生成器fgen，权重参数化将特征映射反卷积为图像。输出图像的样式可以通过AdaIN [19]从目标图像中借用，AdaIN [ 19 ]可以重新规范化特征图lation [13]，其中来自原始图像的输出充当教师。分割损失采取以下形式：（即，通道）z0具有与所选目标图像zt的映射相同的平均值和标准偏差：拉塞格（seg）=−高×宽m=1CKL.0i，m0i，m（三）0 0+100log（p<0 ）。z0=AdaIN（z0，zt）=σ（zt）zi−µ（zi）+µ（zt）。（一）我，MC我，MCi i jjσ（z0）jc=1最后，组合Eqn.2和Eqn.3、我们有以下几点--在这里，σ（z）和μ（z）计算z的每个通道。标准化特征可以将映射Z_i_o馈送到生成器中以合成降低目标函数：0吨0 0吨我ne wimagex0=fgen（z0;）的情况。如果参数为L（λ）=E（x0，y0）X0xtXtn（x，x）+n（x，y，x），（4）经过适当的调整，所产生的图像将具有con-x0的帐篷，但样式为xt。其中k={k_seg，k_gen}表示我们训练生成器，使其作为编码器;编码器应该将解码图像（approximate）映射到产生它的特征上我们通过最小化以下损失函数来实现这一点：gen（网络请注意，分段丢失隐式地取决于生成器参数，因为分段是在生成器的输出上执行的。记忆单元和风格回放。优化等式4可以减少源任务和目标任务Ij+<$σ（z<$）−σ（zt）<$2，（二）任务，但目前还不清楚如何不断调整模型，以适应一系列传入的任务，其中包含潜在的不同其中z∈=fenc（fde c（z∈0;gen））。图像分布，而不会忘记在p¨¨pΣ2125JK不不不过去一种简单的方法是存储以前任务中的历史图像库，然后随机抽取图像样本算法1使用自适应元学习的1：输入：X0={（x0，y0），···，（x0，y0）}11NN学习新任务时，可以从库中重新播放。怎么-这需要大的工作存储器，这可能是不可行的，特别是对于分割任务，其中图像通常具有高分辨率（例如，1024×2048城市景观中的图像[42]）。幸运的是，在Eqn. 1仅使用源图像以及来自目标图像的特征图中的每个通道的均值和方差来合成来自目标分布的图像。因此，我们认为，我们只需要在存储器M中保存特征统计量（对于均值和方差都是512-D）以用于有效重放。第二章：预先训练的分割模型，其参数为第三章：内存初始化为空M←[]4：对于t = 1，. . . 没做5：初始化Dt=06：当|Dt|

下载后可阅读完整内容，剩余1页未读，立即下载