没有合适的资源?快使用搜索试试~ 我知道了~
imageLimageRAutoDispNet-CSSDispNet-CSSDispNet [51] halved the error [36]. Other works on dispar-ity estimation found other tweaks that also improved the ac-curacy [43, 16, 65]. While effective, this common practiceof manual architecture and parameter search contradicts theparadigm of machine learning, namely to replace manualoptimization by numeric optimization.AutoML [34] in general and automated neural architec-ture search (NAS [24]) in particular promise to relieve usfrom the manual tweaking effort. In principle, an indepen-dent validation set is enough to optimize the architectureand the hyperparameters of the learning method. Unfortu-nately, many of these AutoML methods have extreme com-putational demands. For this reason, they have been mostlyapplied to rather small-scale classification tasks, preferablyon CIFAR, where a single network can be fully trainedwithin a few hours. Even on such small tasks, some ap-proaches report hundreds of GPU days to finish optimiza-tion.For large-scale encoder-decoder networks, such asDispNet, this is prohibitive.However, there are also more efficient AutoML ap-proaches.Although they have not yet been applied toencoder-decoder architectures, they have the potential to doso. One of them, on which we will build in this paper, isDARTS [46]. Its main idea is to have a large network that18120AutoDispNet:使用AutoML改进视差估计0Tonmoy Saikia Yassine Marrakchi Arber Zela Frank Hutter Thomas Brox0德国弗莱堡大学0{saikiat,marrakch,zelaa,fh,brox}@cs.uni-freiburg.de0摘要0计算机视觉中的许多研究工作都花费在优化现有网络架构上,以在基准测试中获得更多的百分点。最近的AutoML方法承诺解放我们的努力。然而,它们主要设计用于相对较小规模的分类任务。在这项工作中,我们展示了如何使用和扩展现有的AutoML技术,以高效地优化大规模的类似U-Net的编码器-解码器架构。特别是,我们利用基于梯度的神经架构搜索和贝叶斯优化进行超参数搜索。所得到的优化不需要大规模计算集群。我们展示了在视差估计上的结果,明显优于手动优化的基线,并达到了最先进的性能。01. 引言0与20年前的计算机视觉状态相比,机器学习使得更通用的方法能够应用于各种任务,而不仅仅是一个玩具问题。卷积神经网络可以在各种分类问题上进行训练,而具有跳跃连接的卷积编码器-解码器网络可以用于大量高分辨率计算机视觉任务,例如语义分割、光流、超分辨率和深度估计等等。有了这个通用方法,为什么每个计算机视觉会议都有5000多个提交?它们有什么贡献?实际上,这种方法并不像乍一看那么通用。虽然标准的编码器-解码器网络可以为所有这些问题提供合理的解决方案,但通过调整此设计的细节,包括详细的架构和几个训练超参数(如学习率和权重衰减),结果可以得到显著改善。例如,在视差估计的背景下,手动优化原始的DispNet[51]架构使误差减少了一半[36]。其他关于视差估计的工作发现了其他改进精度的调整[43,16,65]。虽然有效,这种手动架构和参数搜索的常见做法与机器学习的范式相矛盾,即通过数值优化取代手动优化。AutoML [34]总体上和自动神经架构搜索(NAS[24])特别是承诺解放我们的手动调整工作。原则上,独立的验证集足以优化学习方法的架构和超参数。不幸的是,许多这些AutoML方法具有极高的计算需求。因此,它们主要应用于相对较小规模的分类任务,最好是在CIFAR上,其中一个网络可以在几个小时内完全训练。即使在这样的小任务上,一些方法也报告了数百个GPU天来完成优化。对于像DispNet这样的大规模编码器-解码器网络,这是不可行的。然而,也有更高效的AutoML方法。尽管它们尚未应用于编码器-解码器架构,但它们有潜力这样做。其中之一是我们将在本文中构建的DARTS[46]。它的主要思想是有一个大型网络,它0图1:我们提出了AutoDispNet-CSS,这是一个使用最先进的AutoML技术构建的视差估计网络,它在手动调整的DispNet-CSS架构上有了显著改进。18130通过优化,包括所有架构选择和选择此网络的最佳部分。这可以放宽为一个连续优化问题,结合常规网络训练,导致一个双层优化问题。由于其基于梯度的优化,DARTS非常高效。然而,DARTS只允许优化架构而不是训练超参数。对于后者,我们建议使用一种称为BOHB的高效黑盒优化方法[26],它建立在贝叶斯优化的高效变体上,用于对搜索空间进行知情采样。虽然它比DARTS稍微昂贵,但它对于超参数搜索空间完全灵活。我们建议在DARTS优化的架构上运行BOHB,以使用最佳超参数进行训练。我们将优化后的网络与已经调整良好的DispNet[36]版本进行比较,以研究谁在调整方面更成功:学生还是数值优化过程。02. 相关工作0编码器-解码器架构在几个计算机视觉任务中取得了显著的改进,如语义分割[47, 58, 3, 29, 18, 19]和光流估计[21, 35, 36, 55,67]。将学习应用于视差估计的开创性工作包括将经典方法(如SGM[30])与由CNNs学习的度量相结合[72, 49,61]。视差估计的第一个端到端网络是DispNet [51],它基于FlowNetC[21]构建。基于校正的立体图像,相关层计算成本体积,网络进一步处理该体积。[36]和[53]扩展了DispNetC以获得更好的性能。这些扩展主要包括堆叠多个网络并以残差方式连接它们。这些网络共享编码器-解码器架构。第一个模块,编码器,通过逐渐下采样特征图提取高级信息,而解码器逐渐产生增加分辨率的输出。为了减少设计神经网络的工作量,神经架构搜索(NAS)是近年来的一个研究热点[24]。早期的尝试是训练一个循环神经网络,它作为元控制器使用强化学习技术[4,80]。它通过探索预定义的搜索空间来学习生成编码潜在架构的序列。许多后续工作也采用了相同的策略[6, 13, 14, 68, 77, 78,81]。或者,一些工作依赖于进化算法[66, 45, 52, 56, 57,69]。通过迭代变异候选架构的种群来提取最佳架构。不幸的是,这两种策略都需要数百到数千个GPU天。这限制了它们在较小网络上的使用,并且研究进展受到大型计算集群的可用性的限制。加速技术,如超网络,网络形态和共享权重,可以大大减少搜索成本。超网络[10,74]为候选网络生成权重,并在不训练它们直到收敛的情况下对它们进行评估。网络形态学[12, 14, 23,25]利用先前学习的权重来初始化新的候选架构,从而加速性能估计过程。在潜在网络之间共享权重[54]可以将搜索时间减少两个数量级。多重逼真度优化也被应用于NAS[5, 26, 42,73],通过利用部分训练的架构来进行噪声评估。或者,一些工作[7, 15,46]通过训练包含所有候选架构的大型图来重新设计优化问题。在[7]中,子网络以概率采样,并在预定义的迭代次数内进行训练。在正交方面,通过梯度下降使架构决策(如分支模式[1]和每层通道数[60])可学习。在DARTS[46]的情况下,通过标准梯度下降共同训练实值架构参数和权重参数。Cai等人[15]提出了一种内存高效的实现,类似于DARTS,通过添加路径二值化,而[70]从一组编码架构搜索空间的一位热随机变量中进行采样,并通过将架构分布与具体分布[50]进行松弛,利用梯度信息进行架构更新。尽管NAS方法在图像分类和目标检测方面多样化,但在密集预测任务中的扩展仍然受限。为了将NAS应用于语义分割,Chen等人[17]将搜索限制在网络的小金字塔池化组件中,并占用370个GPU一整周。在一项并行工作中,Liu等人[44]也利用DARTS来找到具有较低搜索成本的语义分割的最佳架构。然而,他们的方法不能处理U-Net类似架构的跳跃连接。0相对较小的网络,研究进展受到大型计算集群的可用性的限制。加速技术,如超网络、网络形态和共享权重,可以大大减少搜索成本。超网络[10,74]为候选网络生成权重,并在不训练它们直到收敛的情况下对它们进行评估。网络形态学[12, 14, 23,25]利用先前学习的权重来初始化新的候选架构,从而加速性能估计过程。在潜在网络之间共享权重[54]可以将搜索时间减少两个数量级。多重逼真度优化也被应用于NAS[5, 26,42,73],通过利用部分训练的架构来进行噪声评估。或者,一些工作[7, 15,46]通过训练包含所有候选架构的大型图来重新设计优化问题。在[7]中,子网络以概率采样,并在预定义的迭代次数内进行训练。在正交方面,通过梯度下降使架构决策(如分支模式[1]和每层通道数[60])可学习。在DARTS[46]的情况下,通过标准梯度下降共同训练实值架构参数和权重参数。Cai等人[15]提出了一种内存高效的实现,类似于DARTS,通过添加路径二值化,而[70]从一组编码架构搜索空间的一位热随机变量中进行采样,并通过将架构分布与具体分布[50]进行松弛,利用梯度信息进行架构更新。尽管NAS方法在图像分类和目标检测方面多样化,但在密集预测任务中的扩展仍然受限。为了将NAS应用于语义分割,Chen等人[17]将搜索限制在网络的小金字塔池化组件中,并占用370个GPU一整周。在一项并行工作中,Liu等人[44]也利用DARTS来找到具有较低搜索成本的语义分割的最佳架构。然而,他们的方法不能处理U-Net类似架构的跳跃连接。03. 超参数搜索0使用传统的超参数优化(HPO)[8, 9, 33, 63, 64,27]对密集预测任务进行优化是计算上昂贵的。相反,我们使用一种名为BOHB的最先进的HPO方法[26],它结合了贝叶斯优化[62]和Hyperband[42]的优点,Hyperband是一种动态分配更多资源给有希望的配置的多臂赌博策略。BOHB使用便宜的评估近似函数˜f(∙,b)来近似目标函数f(∙)(例如验证错误),其中所谓的预算b∈[b min, b max]决定了近似的强度。对于b = bmax,我们恢复了真实的18140目标函数,即˜f(∙, b max) =f(∙)。在我们的应用中,我们使用训练迭代次数作为预算,提前终止对性能较差的超参数的评估,类似于基于学习曲线预测的方法[20,5]。Hyperband重复调用连续半数(SH)子程序[37],将在较小预算上评估的有希望的配置推进到较大预算上。SH首先在最便宜的预算bmin上评估一定数量的配置。在这些评估之后,最好的η-1个配置的分数0配置(基于˜f(∙, b min))前进到下一个预算η∙bmin;这里,η是默认设置为3的参数。此过程重复,直到达到最昂贵的预算bmax,只剩下少量配置需要评估。虽然Hyperband以均匀随机的方式选择要评估的配置,但BOHB用贝叶斯优化替代了这种选择。具体来说,它使用多变量核密度估计器(KDE)来建模最佳和最差性能配置的密度,并使用这些KDE来选择在超参数空间中评估的有希望的点。有关BOHB的更多详细信息,请参见补充材料。04. 差分架构搜索0虽然BOHB原则上也可以用于优化架构参数[73,59],但随着搜索空间的维度增加,其性能会下降。BOHB还会从头开始评估不同的架构,而不是利用权重共享,增加了大规模视觉架构的神经架构搜索的计算负担,使其变得难以承受。因此,我们不使用BOHB来处理神经架构搜索,而是使用基于梯度的方法DARTS[46]。它结合了权重共享和一阶优化,以比暴力黑盒优化方法快几个数量级的速度进行架构优化,后者可能需要数千个GPU天[56,81]。我们建议将昂贵的架构搜索留给DARTS,然后通过BOHB在事后步骤中优化其他重要的超参数,这些超参数无法集成到DARTS中。在第5节中,我们将介绍DARTS方法的组成部分,并将其调整为完整的编码器-解码器架构的上下文。04.1. 搜索空间0与其他架构搜索方法[45, 56,81]类似,DARTS优化网络架构的相对较小、重复的部分,称为细胞。学习的细胞堆叠起来以生成用户定义的整体网络架构。细胞是一个由N个节点组成的有向无环图(DAG)。节点可以分为输入、中间和输出节点。0中间节点和输出节点。每个节点x(i)表示一个特征图,每个边(i, j)表示一个操作o(i,j),它转换x(i)。DARTS假设一个细胞有两个输入节点和一个输出节点。输入节点是前两个细胞的输出。输出节点是通过连接所有中间节点的输出获得的。每个中间节点的输出计算如下:0x(j) = 0i
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)