没有合适的资源?快使用搜索试试~ 我知道了~
1732基于ODE的单幅图像超分辨率网络设计何翔宇1,2张,莫子涛1,2张,王培松1,刘扬4,杨明远4,程建1,2,3R1NLPR,中国科学院自动化研究所,中国2中国科学院大学,中国3中国科学院脑科学与智能技术卓越中心,北京4中国杭州阿里巴巴集团{何翔宇,zitao.mo,peisong.wang,jcheng}@ nlpr.ia.ac.cn摘要单图像超分辨率是一个高维结构化预测问题,其目标是在低分辨率样本下表征图像的细粒度信息。卷积神经网络的最新进展被引入到超分辨率中,并推动了该领域的进展。目前的研究通过人工设计深度残差神经网络取得了令人印象深刻的性能,但过度依赖于实践经验。本文提出了一种基于常微分方程(ODE)的单幅图像超分辨率设计方案它不仅是对超分辨率的解释,而且为网络设计提供了可靠的指导。以常微分方程的数值格式为蓝本,导出了两种网络结构:LF-块和RK-块,它们分别对应于常微分方程数值解中的蛙跳法和龙格-库塔法我们在基准数据集上对我们的模型进行了评估,结果表明我们的方法在保持可比参数和操作的同时超越了最先进的方法。1. 介绍超分辨率(SR)是深度学习的最新进展一般来说,超分辨率可以应用于许多应用,包括医学图像处理[19],卫星和航空成像[46],面部图像改善[28]等。尽管从一个或多个低分辨率样本中获得高分辨率图像可能是一个不适定问题,但卷积神经网络为这一领域提供了动力,[2]这些作者对这项工作的贡献是相等的产生的图像自然和详细。在本文中,我们专注于单图像超分辨率(SISR)。鉴于卷积神经网络(CNN)在图像分类等高级计算机视觉任务中的经验成功,Dong et al.[11]提出了一种基于CNN的SR算法。从那时起,卷积神经网络已经成为超分辨率领域的主流[29,20,22,12,31]。尽管通过巨大的努力,性能正在改善,但仍存在一些局限性:1)以前的研究往往不太关心计算开销,而是引入更深的卷积神经网络来提高性能。庞大的计算量使得将该算法应用于现实世界的应用变得棘手2)另一个副作用是,随着深度的增加,需要更多的训练技巧。否则,训练过程在数值上变得不稳定[35,31]。3)超分辨率不同于高级视觉任务,例如图像分类,其经由卷积神经网络提取相反,超分辨率预测像素级的细粒度信息。直接采用最先进的CNN并不一定会导致最佳解决方案。为了缓解这些问题,我们建议将ODE启发的计划应用于超分辨率网络设计(OISR)。首先,我们采用动力系统的观点重新审视了前向欧拉方法和剩余结构的相似性,指出我们可以利用常微分方程进行SISR网络设计。其次,我们设计了两种构造块,分别对应于数值常微分方程中的蛙跳法和龙格-库塔法。据我们所知,这是第一次尝试将ODE启发的方案直接引入到单在这项工作中,轻量级和深度网络都是使用建议的构建块生成的。台架实验结果-1733Mark数据集表明,我们的方法优于最先进的方法,这表明在性能和计算成本之间有更好的权衡。最后,我们在保持相对稳定的计算量的情况下探索不同的模块G结果表明,我们的深度网络在没有额外训练技巧的情况下迅速收敛。2. 相关工作2.1. 单幅图像超分辨率单图像超分辨率是一个经典的计算机视觉任务。从低分辨率图像到高分辨率图像的映射函数的学习是大量文献中的研究热点。这些算法将传统的机器学习技术应用于图像超分辨率,包括P-CA [3],核方法[4],学习嵌入[8],稀疏编码[43]等。另一类是利用图像的自相似性,而不需要外部数据库。[14]利用片冗余来获得超分辨率图像。Freedman等人[13]再进一步,开发一个局部搜索算法。Huang等人[18]通过使用检测到的透视几何形状来引导补丁搜索过程来扩展该方法。SISR的最新进展利用了卷积神经网络的强大表示能力。Dong等人。[11]介绍了SISR的SRCNN,他们将CNN中的隐藏层解释为提取,非线性映射和重建,对应于稀疏编码中的这些步骤[43]。DRCN [23]更进一步,首先将LR图像内插到所需大小,这会导致Kim等人。[20,22]遵循使用双三次插值将图像上采样到所需大小的相同设计模式,但他们采用了深度残差卷积神经网络来获得更好的表示。从那时起,已经提出了几种更深的基于CNN的超分辨率模型以实现卓越的性能,包括DRNN [36],LapSRN [24],SRResNet [27]等。然而,更深层次的架构带来了更大的计算量,在基准数据集上取得了令人印象深刻的进展。 为了解决这个问题,Dong et al.[12]去除SRCNN中的双三次插值,并在FSRCNN的末尾引入反卷积层。它们还采用更小的滤波器尺寸和更深的网络结构。为了进一步减少参数,DRRN [37]引入了递归和残差块的组合,同时牺牲了运行时速度。最近,CARN [1]提出了一种基于剩余网络的级联机制为了利用多尺度因子的相互关系,[31]提出了一种MSRN模型,以鼓励不同上采样因子的特征重用。MSRN [29]是一种类似的多尺度方法,ResNet [16],他们进一步提出了一种分层特征融合架构,以利用不同尺度的特征。虽然基于CNN的超分辨率方法的经验成功是令人鼓舞的,但大多数最先进的网络都是根据经验设计的。很显然,这个手工制作的过程需要很多技巧和尝试。2.2. 用ODEResNet [16]及其变体[17,41,35]已在广泛的应用中流行,包括超分辨率等低级视觉任务。受其启发,许多关于网络拓扑的研究应运而生,并推动了这一进程。Zhang等人[45]提出了Poly- Inception模型,增强了算法的泛化能力. Larsson等[26]利用分形网络的自相似性和发展分形网络。这些网络通过在不同层之间建立多个连接来共享相似的特征融合思想,这被证明是有效的。许多好的努力试图弥合良好的性能和对残余连接的有效性来源的理解不足之间的差距。这些研究主要从寻找相似的结构入手,期望能利用这些成熟的理论。Liao和Poggio [30]表明,深ResNet相当于浅RNN。[40]的作者首先观察了ResNet和ODE之间的关系。他们将深度神经网络视为离散动力系统,识别ResNet和ODE离散化之间的相似性。Chang等人[5]做得比解释更好。他们利用数值常微分方程来构造可逆神经网络,并进行稳定性分析。Lu等人[32]专注于常微分方程的离散化方案。他们分析了几种网络结构和数值常微分方程之间的相似性,并提出了一种LM结构,该结构源于线性多步法。尽管这些研究可能无法完全确定ResNet成功的真正根源3. 基于ODE的SISR网络设计单图像超分辨率的最新进展归功于深度学习的进步,这使得SISR能够采用强大的端到端框架。一般来说,基于CNN的方法将低分辨率输入映射到高分辨率图像。从动力系统的角度来看,它定义了一个映射,使输入状态在相空间中向前x个时间单位。在CNN语义中,时间范围x对应于可以自适应选择的层,而最终状态受标签限制。然而,问题在于,如何设计一个能够实现这一目标的网络[40]描述了它作为一个可控性问题,并探讨了简化的一维情况下,给出了存在这样一个映射产生的常微分方程,如果1734这个问题已经足够平滑了。由于SISR是一个低层次的视觉问题,具有输入和输出之间高度相似的约束,因此它倾向于直观地接近条件。因此,鼓励我们从动力系统的角度出发,将常微分方程中丰富的知识应用到SISR中。3.1. 将数值常微分方程映射到积木在本节中,我们首先回顾了前向欧拉方法和ResNet之间的相似性,以实现清晰性和自包含性。我们考虑可以描述为常微分方程的动力系统,定义为:Dy=f(x,y).(一)Dx这个系统给出了一个地图Φ(y0,x)=y(x;y0)(2)应该注意的是,公式(4)是数值常微分方程中的一阶高阶方法应该带来一些优点,达到更准确的解决方案。我们受到启发,部署其他数值方法更精细的块。LF-Block:LeapFrog 方法是一种二阶线性二步法,是前向Euler格式的一种改进通过将时间间隔h加倍,我们将y′的近似重写为y′(yn+1−yn−1)/2h的形式,然后导出以下等式yn+1=yn−1+ 2hf(xn,yn),(7)其可以使用公式(6)中的定义直接解释为CNN图。为了保持灵活性并获得块架构,将上述每三个公式分组为块,初始状态为y∈Rd. 假设p(y)是分布yn−1=yn−3+ 2hf(xn−2,yn−2)(8)0岁=y+ 2hf(x(9)输入特征y0在一个域上,如果我们考虑CNN-基n n−2n−1n−1SISR作为这样一个动态系统,那么我们应该最小化∫L=<$Φ(y0,x)−y<$dp(y0)(3)Ω其中Φ是应该在SISR中学习的映射,并且它也与方程(1)的解相当系统是非线性时,在许多情况下,没有简单的公式来描述映射,我们不得不求助于数值方法。如文献[6]所述,前向欧拉方法y n+1=y n−1+ 2hf(x n,y n)。(十)因此,我们获得了如图1(b)所示的有趣结构。与ResNet不同,G被定义为ReLU和卷积的某种组合,我们不将G限制为固定模块,除了它的非线性。详情见第3.2节。RK 2-Block:为了进一步探索这种设计方案,我们现在考虑在数值分析中广泛使用的Runge-Kutta族利用梯形公式yn+1=yn+hf(xn,yn)(4)提供了一个近似值,它可以被看作是一个数字。yn+1=ynH+(f(xn2 ,yn)+f(xn+1个,yn+1))(11)使用对y′在宽度为h的区间上的积分的近似来计算常微分方程:yn+1− yn <$hy′。残差块的形式类似于用它的一阶近似(4)代替yn+1,我们将得到以下方程1yn+1 =yn +G(yn)的情况。(五)yn+1=yn+2(G1+G2)(12)G1=hf(xn,yn)(13)这个公式表明了关系[40,32,7,9],我们能够通过定义G ( yn ) = hf ( xn , yn ) ,(6)因此将前向欧拉映射到残差块。1735在本文中,我们考虑监督SISR问题,其中提供训练数据来学习从低分辨率图像到高分辨率目标的映射Φ。它可能需要许多步骤才能达到最终状态,每一步都对应于一个CNN块。增加步数或细化每个步的运动有助于实现目标,对应于增加块数和设计更精细的块。G2= hf(xn+ h,yn+ G1).(十四)在数学上,这些公式被称为Heun为了将其映射到CNN块,我们使用前面提到的G。图1(c)进一步说明了这些公式的解释。与ResNet相比,RK 2-block中有多个分支,这是最近流行的网络中常用的。RK3块:数值常微分方程的知识表明,高阶方法(例如,具有阶P)获得较小的局部截断误差(例如,O(hp+1))。这一事实启发我们探索更高阶段的龙格库塔方法。1736G1×2G× 22× 3× −1G1×61×6此外此外addit离子G此外YN-3恩恩恩ynyn+1yn+1yn+1yn+1(a) 残余嵌段(b)LF嵌段(c)RK2嵌段(d)RK3嵌段图1. (a)残差块在以前的工作中被广泛使用,例如,EDSR [31];(b)LF-块来自蛙跳方法,我们将三个蛙跳步骤合并到CNN块中以补偿公式(7)中缺失的项yn;(c)RK 2块是从二阶Runge-Kutta方法(也称为Heun方法)导出的;(d)RK 3块是由三阶Runge-Kutta方法导出的。在所有受ODE启发的块中,我们不约束G的特定形式(在3.2节中详细介绍)。形式上,显式迭代龙格-库塔方法可以通过使用以下公式扩展到任意n个阶段Σny对应于特征映射,CNN中x的语义是隐式的。它可以被授予时间快照,指示G在深度神经网络中的位置。的yn+1 =yn+i=1γiGi(十五)初始状态y0∈Rd是第一个OISR块的输入特征图。y(X;y0)∈Rd指的是G1=hf(xn,yn)(16)Σi−1Gi=hf(xn+αi h,yn+βij kj)(17)=1特别地,具有三阶的3阶段Lunge-Kutta可以被描述为:具有固定时间范围X的最后OISR块(即,给定有限深度)。d=C×H×W其中C、H和W分别是通道数、特征图的高度和特征图的宽度 注意,我们保持输入并输出G不变的特征图。这使我们能够完成ODE和CNN之间的桥梁。1yn+1=yn+6(G1+ 4G2+G3)(18)G1=hf(xn,yn)(19)H1G2=hf(xn+2,yn+2G1)( 20)G3=hf ( xn+h , yn−G1+ 2G2 ) 。( 二十一)(如果您不熟悉数值常微分方程,请参阅附录中关于α、β、γ的推导)。将这些方程映射到CNN块是直接的:我们只需要用上面定义的模G代替G1,G2,G3。RK3-block的分支较多,这是因为3步Runge-Kutta方法采用了复杂度较高的计算模式通常,高阶方法倾向于生成更复杂的块。应当注意,在(13)、(14)和(19)中,G被定义为具有两个变量的函数较G× 2此外Gyn此外Gyn× 2此外G× 2此外yn-2GG11××22此外此外身份连接…Conv OISR块ConvConv Pixel-Shuffle1737图2.提出的ODE启发的超分辨率网络(OISR)的整体架构。 对于×2/×3超分辨率,我们使用PixelShuffle ×2/×3。在×4模型中,上采样器改为两个“Conv+Shuffle×2”模块的级联。我们遵循EDSR [31]中的相同设置,因为标准残差块被广泛使用。显然,OISR可以很容易地与注意机制和密集连接相结合,以进一步提高性能。1738ReLConvReLReLConvConvReLeLUConvONV3.2. OISR的总体架构整体架构是一个卷积-PixelShuffle框架,如图2所示我们强调,设计方案的灵感完全来自于常微分方程的数值方法,我们所要做的就是将数值方案映射到CNN块中。根据[1,31,29,37]中的设置,我们不使用批量归一化层。 严格地说,等式(4)采用以下形式:yn+1= yn+ h n f(xn,yn)。 通过自适应地选择h n(在这种情况下,参数化ReLU [15]中的学习参数α),可以同时提高算法的效率和稳定性[25]。而且五、004.第一章754.第一章504.第一章254.第一章003 .第三章。753 .第三章。503 .第三章。253 .第三章。00100 200 300 400 500 600 700 800时代α的小初始值对应于数值常微分方程的精度与步长hn有关的事实。如果图4.训练后的OISR-LF-s(1.37M Pa.参数)和×2 OISR-RK 3(42 M参数)。我们的深度模型易于训练,并且具有与浅网络相似的收敛速度。表1. G(·)的消融研究。报告了DIV2K验证集上2×SR的PSNR(db)。”-s” denotes the single scale baseline of EDSRand the small-scale version of方法G(·)PSNR参数EDSR-s Conv+ReLU+Conv 34.64 1.37M Conv +PReLU 34.64 1.37M(a) 原始(b) G(c)G-v2(d)G-v3OISR-LF-sOISR-RK2-sPReLU + Conv34.671.37M(PReLU+ Conv)x2 34.661.37MConv + PReLU 34.621.37M PReLU +Conv 34.59 1.37M(PReLU + Conv)x234.631.37M图3.模块G的不同结构。(a)是EDSR中使用的原始G。(b)和(c)由一个参数化ReLU和一个卷积模块组成(d)定义了一个增广的G,其计算成本与(a)相同。G(·):存在一个较大的搜索空间来搜索G。在这里,我们只选择三种不同的形式来说明一般的有效性ODE启发计划。这一切成功都设计中至少保留了一个激活函数和一个卷积层,从而保证了非线性。 在fac- t中,不同的数值方法(在这种情况下,ODE启发的块)总体上描述了不同的近似策略,而不同的G决定了每个步骤中的局部行为。高阶方法或精化G都倾向于提高性能。对于每个G,我们使用LF-块和RK 2-块构建小规模网络。由于不同形式的G在计算开销方面有所不同,因此这些网络使用不同数量的构建块来开发,但保持可比的计算和参数。这确保我们与其他轻量级模型进行公平比较。然后,我们使用LF块和RK2块开发中等规模模型,其大小和计算成本与最先进的MSRN [29]相似。这也使我们能够验证,per-turbus不会降低网络变得更大。最后,我们使用RK 3-block设计了一个深度网络。由于3阶Runge-Kutta法是一种三阶方法,假定在近似精度方面优于低阶方法。为了公平比较,我们保持RK3模型的总体参数与EDSR [31]几乎相同,因为残差块只有一个G模块,而RK3由三个G模块组成。4. 实验4.1. 数据集根据[31,42,1,29]中的设置,我们在DIV2K [39]中的第1个第800个训练图像上训练我们的模型,并在四个标准基准数据集上评估我们的模型:[2]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[14]、[15]、[16]、[17]、[18]、[19]。 的在DIV2K数据集的100个验证图像上确定G(·)的消融研究我们报告了峰值信噪比(PSNR)和结构相似性指数(SSIM)在Y通道上(即,亮度),并忽略与边界缩放相同数量的像素[31,29]。具体来说,对于DIV2K验证集,我们在全RGB通道上测量PSNR,并去除P UConvReLPReL UConPReL U转换PReLUConvOISR-RK3OISR- LF-sReLConvConvL1损失1739( 6+ 比 例 ) 像 素 从 每 个 边 界 , 使 公 平 的 比 较 与EDSR。升级系数:×2、×3、×4用于训练和测试。1740表2.我们的模型与设计良好的轻量级方法在基准数据集(PSNR(dB)/SSIM)上的定量比较红色表示最佳性能,蓝色表示次佳性能。 ”MAC” denotes the number of multiply-accumulate operations ( 小规模网络设计的后缀为我们假设生成的SR图像为720P(1280 × 720)。方法规模ParamsMacSet5产品14B100Urban100PSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMFSRCNN [12]×20.01M6.0G37.000.955832.630.908831.530.892029.880.9020DRRN [37]×20.30M6796.9G37.740.959133.230.913632.050.897331.230.9188MemNet [38]×20.68M623.9G37.780.959733.280.914332.080.897831.310.9195SelNet [10]×20.97M225.7G37.890.959833.610.916032.080.8984––CARN[1]×21.59M222.8G37.760.959033.520.916632.090.897831.920.9256OISR-RK2-s×21.37M316.2G37.980.960433.580.917232.180.899632.090.9281OISR-LF-s×21.37M316.2G38.020.960533.620.917832.200.900032.210.9290MSRN [29]×25.89M1356.8G38.080.960533.740.917032.230.901332.220.9326OISR-RK2×24.97M1145.7G38.120.960933.800.919332.260.900632.480.9317OISR-LF×24.97M1145.7G38.120.960933.780.919632.260.900732.520.9320FSRCNN [12]×30.01M5.0G33.160.914029.430.824228.530.791026.430.8080DRRN [37]×30.30M6796.9G34.030.924429.960.834928.950.800427.530.8378MemNet [38]×30.68M623.9G34.090.924830.000.838528.960.800127.560.8376SelNet [10]×31.16M120.0G34.270.925730.300.839928.970.8025––CARN[1]×31.59M118.8G34.290.925530.290.840729.060.803428.060.8493OISR-RK2-s×31.55M160.1G34.430.927330.330.842029.100.805328.200.8534OISR-LF-s×31.55M160.1G34.390.927230.350.842629.110.805828.240.8544MSRN [29]×36.08M621.2G34.380.926230.340.839529.080.804128.080.8554OISR-RK2×35.64M578.6G34.550.928230.460.844329.180.807528.500.8597OISR-LF×35.64M578.6G34.560.928430.460.845029.200.807728.560.8606FSRCNN [12]×40.01M4.6G30.480.862827.490.750326.900.710124.520.7221DRRN [37]×40.30M6796.9G31.680.888828.210.772027.380.728425.440.7638MemNet [38]×40.68M623.9G31.740.889328.260.772327.400.728125.500.7630SelNet [10]×41.42M83.1G32.000.893128.490.778327.440.7325––CARN[1]×41.59M90.9G32.130.893728.600.780627.580.734926.070.7837OISR-RK2-s×41.52M114.2G32.210.895028.630.782227.580.736426.140.7874OISR-LF-s×41.52M114.2G32.140.894728.630.781927.600.736926.170.7888MSRN [29]×46.33M365.1G32.070.890328.600.775127.520.727326.040.7896OISR-RK2×45.50M412.2G32.320.896528.720.784327.660.739026.370.7953OISR-LF×45.50M412.2G32.330.896828.730.784527.660.738926.380.79534.2. 培训详情在训练阶段,我们使用来自低分辨率图像的大小为48×48的RGB输入补丁以及相应的高分辨率补丁。所有的图像通过减去DI-V2 K数据集的平均RGB值进行预处理,然后用随机水平增强。翻转和90度旋转[31]。 我们将minibatch大小设置为16,并使用ADAM优化器以β1= 0的设置来训练我们的模型。9,β2= 0。999,= 10−8。 学习率初始化为0。0001,每250个时期减半训练在800个时期终止训练OISR的目标是流行的损失函数。4.3. 基准数据集我们首先做消融研究的实施 ofG.如表1所列v2适用于LF-块,RK 2-块应配备G-v3。如前所述,在过去的工作-s [1,31,29],深度模型很难训练。致-为了检验ODE启发的方案的有效性,我们进行了看似不合理的行为,将OISR-RK 2中性能最差的G-v2应用于我们的深度模型OISR-RK 3。然后,我们比较我们的结果与其他国家的最先进的两个常用的指标PSNR和SSIM。如表2所示,我们的小规模模型在不同的尺度放大因子和数据集上的表现优于其他方法,除了在Urban100上稍微落后,因子×2。此外,我们将我们的中尺度模型与MSRN进行了比较。我们的网络超过了MSRN,在B100和Urban100 SSIM上有两个例外,当放大系数为2时。这些结果表明,我们的方法更好地克服了性能增强的困境,1741表3.我们的模型与手工制作的深度残差SISR网络在基准数据集(PSNR(dB)/ SSIM)上的定量比较。红色表示最佳性能,蓝色表示次佳性能。我们假设生成的SR图像为720P(1280×720)。方法规模ParamsMacSet5产品14B100Urban100PSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIM[24]第二十四话×20.81M29.9G37.520.958133.080.910931.800.894930.410.9112VDSR [21]×20.67M612.6G37.530.958733.030.912731.900.896030.760.9140DRCN [23]×21.77M小行星17974G37.630.958833.040.911831.850.894230.750.9133MDSR [31]×26.92M1592.2G38.110.960233.850.919832.290.900732.840.9347RDN [42]×222.12M 5096.2G38.240.961434.010.921232.340.901732.890.9353EDSR [31]×240.73M 9384.7G38.110.960133.920.919532.320.901332.930.9351OISR-RK3×241.91M 9656.5G38.210.961233.940.920632.360.901933.030.9365VDSR [21]×30.67M612.6G33.660.921329.770.831428.820.797627.140.8279DRCN [23]×31.77M小行星17974G33.820.922629.760.831128.800.796327.150.8276MDSR [31]×37.51M768.1G34.660.928030.440.845229.250.809128.790.8655RDN [42]×322.31M 2281.2G34.710.929630.570.846829.260.809328.800.8653EDSR [31]×343.68M 4469.5G34.650.928230.520.846229.250.809328.800.8653OISR-RK3×344.86M 4590.1G34.720.929730.570.847029.290.810328.950.8680[24]第二十四话×40.81M149.4G31.540.885528.190.772227.320.728025.210.7553VDSR [21]×40.67M612.6G31.350.883828.010.767427.290.725125.180.7524DRCN [23]×41.77M小行星17974G31.530.885428.020.767027.230.723325.140.7510MDSR [31]×47.88M480.4G32.500.897328.720.785727.720.741826.670.8041RDN [42]×422.27M 1309.2G32.470.899028.810.787127.720.741926.610.8028EDSR [31]×443.10M 2894.5G32.460.896828.800.787627.710.742026.640.8033OISR-RK3×444.27M 2962.5G32.530.899228.860.787827.750.742826.790.8068和计算开销。对于表3中当前最先进的深度残差方法,OISR-RK 3在大多数情况下实现了最佳性能。虽然我们将OISR-RK 2中性能最差的G应用到OISR-RK 3中,但仍然取得了显著的效果。此外,图4还展示了OISR-LF-s和OISR-RK 3之间的收敛速度比较,这表明与小得多的OISR-LF-s相比,更深的OISR-RK 3不难训练。这些结果从经验上验证了常微分方程启发设计方案的有效性,不同数值常微分方程的截断误差阶数不同,OISR的行为也不同4.4. ODE启发的设计方案在这项工作中,我们已经开发了一个ODE启发计划SISR。通过将数值常微分方程引入CNN来设计新的架构。表1,3表明,在计算和参数相当的情况下,OISR-LF和OISR-RK优于EDSR [31]。这些结果表明我们的方法的优越性。在这里我们从常微分方程的角度展开讨论。如第3.1节所述,残差块、LF块和RK2块可以被视为数值常微分方程的映射。EDSR使用与一阶前向欧拉方法相关的残差块我们建议使用RK-块和LF-块来构建我们的网络,对应于数值常微分方程中的高阶方法实验结果表明,高阶方法往往会提高性能。类似的事实适用于表3所示的深度网络,三阶方法RK3比一阶EDSR表现更好。如果我们从动力系统的角度来看,高阶方法倾向于在局部对映射进行更好的近似,这使它们能够以较小的全局(截断)误差接近最终目标,并在所有步骤中保持。表1给出了不同G.我们的小规模模型优于EDSR为每个G相同的参数和计算成本。这些结果表明,ODE启发的计划是普遍有效的SISR。注意,对于OISR-RK 2和OISR-LF,性能最好的G是不同的。OISR-LF倾向于采用简单的G-v2,而OISR-RK 2更喜欢扩充的G-v3。通过采用动力系统的观点,由于我们保持了可比的计算,具有G-v2的网络允许更多的步骤来产生目标(较小的hn),而具有G-v3的网络提供了更好的局部近似。为了控制计算量,增广的G和更多的积木就成了一枚硬币的两面在不考虑计算开销的情况下,可以通过设计更精细的G或使用更多的构建块来提高性能,这是深化我们的网络的两种策略。1742HR双三次CarnMSRN(PSNR/SSIM)(22.01分贝/0.8284)(24.07 db / 0.8990)(23.97 db /0.8929)来自BSDS100的58060EDSROISR-RK3OISR-LF-sOISR-LF(24.49 db /0.9099)(24.50分贝/0.9105)(24.19分贝/ 0.9019)(24.31分贝/0.9047)HR双三次CarnMSRN(PSNR/SSIM)(18.21分贝/0.5209)(18.84分贝/ 0.6274)(18.53分贝/0.5912)img073来自Urban100 EDSROISR-RK3OISR-LF-sOISR-LF(19.13分贝/0.6565)(19.94分贝/0.6812)(18.75分贝/ 0.6287)(18.62分贝/0.6356)图5.定性比较我们的方法与其他国家的最先进的×2超分辨率(上)和×4超分辨率(下)。OISR可以重建更详细的图像,模糊更少。总体而言,这些结果不仅说明了ODE启发设计方案的有效性,而且表明了ODE观点的合理性。5. 结论在本文中,我们提出了应用ODE启发的计划来设计用于SISR的CNN。通过引入动力系统的概念,可以在C-神经网络和数值常微分方程之间建立起一座桥梁.这种联系使我们能够设计LF-块,RK 2-块,和RK 3-块的启发,蛙跳方法和龙格库塔方法在数值分析。实验结果表明,该方法在保持计算量相当的前提下,性能优于现有方法为了充分验证该方法的有效性,我们设计了几个不同G.实验结果表明,ODE启发的方案在大多数情况例这一发现为SISR网络的设计提供了一个相对可靠的指导。6. 确认本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目(No.61876182,61872364)和中国科学院重大科技攻关项目(No.XDB32050200)的部分资助引用[1] Namhyuk Ahn、Byungkon Kang和Kyung-Ah Sohn。使用级联残差网络实现快速、准确、轻量的超分辨率。在计算机视觉- ECCV 2018 -第15届欧洲会议,慕尼黑,德国,2018年9月8日至14日,会议记录,第X部分,第256-272页1743[2] MarcoBevilacqua,AlineRoumy,ChristineGuillemot,Marie-Line Alberi-Morel.基于非负邻域嵌入的低复杂度单幅图像超分辨率1744在英国机器视觉会议,BMVC 2012,英国萨里,2012年9月3-7日,第1-10页[3] David P. Capel和Andrew Zisserman。使用学习的图像模型从多个视图获得超分辨率。在2001年IEEE计算机协会计算机视觉和模式识别会议(CVPR 2001)中,具有CD-ROM,2001年12月8-14日,第627-634页[4] Ayan Chakrabarti,A.N. 拉贾哥帕兰和拉玛·切拉帕基于核主元分析先验的人脸图像超分辨率。IEEE Trans.Multimedia,9(4):888[5] Bo Chang,Lili Meng,Eldad Haber,Lars Ruthotto,David Begert,and Elliot Holtham.任意深度残差神经网络的可逆结构。在第32届AAAI人工智能会议(AAAI-18),第30届人工智能创新应用(IAAI-18)和第8届AAAI人工智能教育进展研讨会(EAAI-18)的会议记录中日,第2811- 2818页[6] 张波,孟丽丽,Eldad Haber,Frederick Tung和DavidBegert。从动态系统观点看多层剩余网络。CoRR,abs/1710.10348,2017。[7] 张波,孟丽丽,Eldad Haber,Frederick Tung和DavidBegert。从动态系统观点看多层剩余网络。CoRR,abs/1710.10348,2017。[8] Hong Chang,Dit-Yan Yeung,and Yimin Xiong.通过邻域嵌入实现超分辨率在2004年IEEE计算机协会计算机视觉和模式识别会议(CVPR 2004),CD-ROM,2004年6月27日至7月2日,美国华盛顿特区,2004年第275-282页[9] Tian Qi Chen,Yulia Rubanova,Jesse Bettencourt,andDavid K.杜弗诺神经元常微分方程在神经信息处理系统的 进 展 31 : 2018 年 神 经 信 息 处 理 系 统 年 会 ,NeurIPS2018,2018年12月3日至8日,加拿大蒙特利尔。,第6572-6583页[10] 崔载锡和金文彻 很深的回旋-具有超分辨率选择单元的人工神经网络。在2017年IEEE计算机视觉和模式识别研讨会会议上,CVPR研讨会,檀香山,HI,美国,2017年7月21日至26日,第1150-1156页[11] Chao Dong , Chen Change Loy , Kaiming He , andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。在计算机视觉- ECCV 2014 -第13届欧洲会议,苏黎世,瑞士,2014年9月,第184-199页[12] Chao Dong,Chen Change Loy,and Xiaoou Tang.加速超分辨率卷积神经网络。InComputer Vision - ECCV 2016 -14thEuropeanConference,Amsterdam,TheNetherlands,October 11-14,2016,Proceedings,PartII,pa
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功