使用AutoML改进视差估计的AutoDispNet方法

33 浏览量更新于2023-10-12 收藏 12.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

imageLimageRAutoDispNet-CSSDispNet-CSSDispNet [51] halved the error [36]. Other works on dispar-ity estimation found other tweaks that also improved the ac-curacy [43, 16, 65]. While effective, this common practiceof manual architecture and parameter search contradicts theparadigm of machine learning, namely to replace manualoptimization by numeric optimization.AutoML [34] in general and automated neural architec-ture search (NAS [24]) in particular promise to relieve usfrom the manual tweaking effort. In principle, an indepen-dent validation set is enough to optimize the architectureand the hyperparameters of the learning method. Unfortu-nately, many of these AutoML methods have extreme com-putational demands. For this reason, they have been mostlyapplied to rather small-scale classiﬁcation tasks, preferablyon CIFAR, where a single network can be fully trainedwithin a few hours. Even on such small tasks, some ap-proaches report hundreds of GPU days to ﬁnish optimiza-tion.For large-scale encoder-decoder networks, such asDispNet, this is prohibitive.However, there are also more efﬁcient AutoML ap-proaches.Although they have not yet been applied toencoder-decoder architectures, they have the potential to doso. One of them, on which we will build in this paper, isDARTS [46]. Its main idea is to have a large network that18120AutoDispNet：使用AutoML改进视差估计0Tonmoy Saikia Yassine Marrakchi Arber Zela Frank Hutter Thomas Brox0德国弗莱堡大学0{saikiat，marrakch，zelaa，fh，brox}@cs.uni-freiburg.de0摘要0计算机视觉中的许多研究工作都花费在优化现有网络架构上，以在基准测试中获得更多的百分点。最近的AutoML方法承诺解放我们的努力。然而，它们主要设计用于相对较小规模的分类任务。在这项工作中，我们展示了如何使用和扩展现有的AutoML技术，以高效地优化大规模的类似U-Net的编码器-解码器架构。特别是，我们利用基于梯度的神经架构搜索和贝叶斯优化进行超参数搜索。所得到的优化不需要大规模计算集群。我们展示了在视差估计上的结果，明显优于手动优化的基线，并达到了最先进的性能。01. 引言0与20年前的计算机视觉状态相比，机器学习使得更通用的方法能够应用于各种任务，而不仅仅是一个玩具问题。卷积神经网络可以在各种分类问题上进行训练，而具有跳跃连接的卷积编码器-解码器网络可以用于大量高分辨率计算机视觉任务，例如语义分割、光流、超分辨率和深度估计等等。有了这个通用方法，为什么每个计算机视觉会议都有5000多个提交？它们有什么贡献？实际上，这种方法并不像乍一看那么通用。虽然标准的编码器-解码器网络可以为所有这些问题提供合理的解决方案，但通过调整此设计的细节，包括详细的架构和几个训练超参数（如学习率和权重衰减），结果可以得到显著改善。例如，在视差估计的背景下，手动优化原始的DispNet[51]架构使误差减少了一半[36]。其他关于视差估计的工作发现了其他改进精度的调整[43，16，65]。虽然有效，这种手动架构和参数搜索的常见做法与机器学习的范式相矛盾，即通过数值优化取代手动优化。AutoML [34]总体上和自动神经架构搜索（NAS[24]）特别是承诺解放我们的手动调整工作。原则上，独立的验证集足以优化学习方法的架构和超参数。不幸的是，许多这些AutoML方法具有极高的计算需求。因此，它们主要应用于相对较小规模的分类任务，最好是在CIFAR上，其中一个网络可以在几个小时内完全训练。即使在这样的小任务上，一些方法也报告了数百个GPU天来完成优化。对于像DispNet这样的大规模编码器-解码器网络，这是不可行的。然而，也有更高效的AutoML方法。尽管它们尚未应用于编码器-解码器架构，但它们有潜力这样做。其中之一是我们将在本文中构建的DARTS[46]。它的主要思想是有一个大型网络，它0图1：我们提出了AutoDispNet-CSS，这是一个使用最先进的AutoML技术构建的视差估计网络，它在手动调整的DispNet-CSS架构上有了显著改进。18130通过优化，包括所有架构选择和选择此网络的最佳部分。这可以放宽为一个连续优化问题，结合常规网络训练，导致一个双层优化问题。由于其基于梯度的优化，DARTS非常高效。然而，DARTS只允许优化架构而不是训练超参数。对于后者，我们建议使用一种称为BOHB的高效黑盒优化方法[26]，它建立在贝叶斯优化的高效变体上，用于对搜索空间进行知情采样。虽然它比DARTS稍微昂贵，但它对于超参数搜索空间完全灵活。我们建议在DARTS优化的架构上运行BOHB，以使用最佳超参数进行训练。我们将优化后的网络与已经调整良好的DispNet[36]版本进行比较，以研究谁在调整方面更成功：学生还是数值优化过程。02. 相关工作0编码器-解码器架构在几个计算机视觉任务中取得了显著的改进，如语义分割[47, 58, 3, 29, 18, 19]和光流估计[21, 35, 36, 55,67]。将学习应用于视差估计的开创性工作包括将经典方法（如SGM[30]）与由CNNs学习的度量相结合[72, 49,61]。视差估计的第一个端到端网络是DispNet [51]，它基于FlowNetC[21]构建。基于校正的立体图像，相关层计算成本体积，网络进一步处理该体积。[36]和[53]扩展了DispNetC以获得更好的性能。这些扩展主要包括堆叠多个网络并以残差方式连接它们。这些网络共享编码器-解码器架构。第一个模块，编码器，通过逐渐下采样特征图提取高级信息，而解码器逐渐产生增加分辨率的输出。为了减少设计神经网络的工作量，神经架构搜索（NAS）是近年来的一个研究热点[24]。早期的尝试是训练一个循环神经网络，它作为元控制器使用强化学习技术[4,80]。它通过探索预定义的搜索空间来学习生成编码潜在架构的序列。许多后续工作也采用了相同的策略[6, 13, 14, 68, 77, 78,81]。或者，一些工作依赖于进化算法[66, 45, 52, 56, 57,69]。通过迭代变异候选架构的种群来提取最佳架构。不幸的是，这两种策略都需要数百到数千个GPU天。这限制了它们在较小网络上的使用，并且研究进展受到大型计算集群的可用性的限制。加速技术，如超网络，网络形态和共享权重，可以大大减少搜索成本。超网络[10,74]为候选网络生成权重，并在不训练它们直到收敛的情况下对它们进行评估。网络形态学[12, 14, 23,25]利用先前学习的权重来初始化新的候选架构，从而加速性能估计过程。在潜在网络之间共享权重[54]可以将搜索时间减少两个数量级。多重逼真度优化也被应用于NAS[5, 26, 42,73]，通过利用部分训练的架构来进行噪声评估。或者，一些工作[7, 15,46]通过训练包含所有候选架构的大型图来重新设计优化问题。在[7]中，子网络以概率采样，并在预定义的迭代次数内进行训练。在正交方面，通过梯度下降使架构决策（如分支模式[1]和每层通道数[60]）可学习。在DARTS[46]的情况下，通过标准梯度下降共同训练实值架构参数和权重参数。Cai等人[15]提出了一种内存高效的实现，类似于DARTS，通过添加路径二值化，而[70]从一组编码架构搜索空间的一位热随机变量中进行采样，并通过将架构分布与具体分布[50]进行松弛，利用梯度信息进行架构更新。尽管NAS方法在图像分类和目标检测方面多样化，但在密集预测任务中的扩展仍然受限。为了将NAS应用于语义分割，Chen等人[17]将搜索限制在网络的小金字塔池化组件中，并占用370个GPU一整周。在一项并行工作中，Liu等人[44]也利用DARTS来找到具有较低搜索成本的语义分割的最佳架构。然而，他们的方法不能处理U-Net类似架构的跳跃连接。0相对较小的网络，研究进展受到大型计算集群的可用性的限制。加速技术，如超网络、网络形态和共享权重，可以大大减少搜索成本。超网络[10,74]为候选网络生成权重，并在不训练它们直到收敛的情况下对它们进行评估。网络形态学[12, 14, 23,25]利用先前学习的权重来初始化新的候选架构，从而加速性能估计过程。在潜在网络之间共享权重[54]可以将搜索时间减少两个数量级。多重逼真度优化也被应用于NAS[5, 26,42,73]，通过利用部分训练的架构来进行噪声评估。或者，一些工作[7, 15,46]通过训练包含所有候选架构的大型图来重新设计优化问题。在[7]中，子网络以概率采样，并在预定义的迭代次数内进行训练。在正交方面，通过梯度下降使架构决策（如分支模式[1]和每层通道数[60]）可学习。在DARTS[46]的情况下，通过标准梯度下降共同训练实值架构参数和权重参数。Cai等人[15]提出了一种内存高效的实现，类似于DARTS，通过添加路径二值化，而[70]从一组编码架构搜索空间的一位热随机变量中进行采样，并通过将架构分布与具体分布[50]进行松弛，利用梯度信息进行架构更新。尽管NAS方法在图像分类和目标检测方面多样化，但在密集预测任务中的扩展仍然受限。为了将NAS应用于语义分割，Chen等人[17]将搜索限制在网络的小金字塔池化组件中，并占用370个GPU一整周。在一项并行工作中，Liu等人[44]也利用DARTS来找到具有较低搜索成本的语义分割的最佳架构。然而，他们的方法不能处理U-Net类似架构的跳跃连接。03. 超参数搜索0使用传统的超参数优化（HPO）[8, 9, 33, 63, 64,27]对密集预测任务进行优化是计算上昂贵的。相反，我们使用一种名为BOHB的最先进的HPO方法[26]，它结合了贝叶斯优化[62]和Hyperband[42]的优点，Hyperband是一种动态分配更多资源给有希望的配置的多臂赌博策略。BOHB使用便宜的评估近似函数˜f(∙,b)来近似目标函数f(∙)（例如验证错误），其中所谓的预算b∈[b min, b max]决定了近似的强度。对于b = bmax，我们恢复了真实的18140目标函数，即˜f(∙, b max) =f(∙)。在我们的应用中，我们使用训练迭代次数作为预算，提前终止对性能较差的超参数的评估，类似于基于学习曲线预测的方法[20,5]。Hyperband重复调用连续半数（SH）子程序[37]，将在较小预算上评估的有希望的配置推进到较大预算上。SH首先在最便宜的预算bmin上评估一定数量的配置。在这些评估之后，最好的η-1个配置的分数0配置（基于˜f(∙, b min)）前进到下一个预算η∙bmin；这里，η是默认设置为3的参数。此过程重复，直到达到最昂贵的预算bmax，只剩下少量配置需要评估。虽然Hyperband以均匀随机的方式选择要评估的配置，但BOHB用贝叶斯优化替代了这种选择。具体来说，它使用多变量核密度估计器（KDE）来建模最佳和最差性能配置的密度，并使用这些KDE来选择在超参数空间中评估的有希望的点。有关BOHB的更多详细信息，请参见补充材料。04. 差分架构搜索0虽然BOHB原则上也可以用于优化架构参数[73,59]，但随着搜索空间的维度增加，其性能会下降。BOHB还会从头开始评估不同的架构，而不是利用权重共享，增加了大规模视觉架构的神经架构搜索的计算负担，使其变得难以承受。因此，我们不使用BOHB来处理神经架构搜索，而是使用基于梯度的方法DARTS[46]。它结合了权重共享和一阶优化，以比暴力黑盒优化方法快几个数量级的速度进行架构优化，后者可能需要数千个GPU天[56,81]。我们建议将昂贵的架构搜索留给DARTS，然后通过BOHB在事后步骤中优化其他重要的超参数，这些超参数无法集成到DARTS中。在第5节中，我们将介绍DARTS方法的组成部分，并将其调整为完整的编码器-解码器架构的上下文。04.1. 搜索空间0与其他架构搜索方法[45, 56,81]类似，DARTS优化网络架构的相对较小、重复的部分，称为细胞。学习的细胞堆叠起来以生成用户定义的整体网络架构。细胞是一个由N个节点组成的有向无环图（DAG）。节点可以分为输入、中间和输出节点。0中间节点和输出节点。每个节点x(i)表示一个特征图，每个边(i, j)表示一个操作o(i,j)，它转换x(i)。DARTS假设一个细胞有两个输入节点和一个输出节点。输入节点是前两个细胞的输出。输出节点是通过连接所有中间节点的输出获得的。每个中间节点的输出计算如下：0x(j) = 0i

下载后可阅读完整内容，剩余1页未读，立即下载