没有合适的资源?快使用搜索试试~ 我知道了~
2291展开快门:CNN纠正运动失真Vijay Rengarajan1岁,Yogesh Balaji2岁,A.N.Rajagopalan31,3印度理工学院马德拉斯2马里兰大学电子邮件:ee.iitm.ac.in摘要CMOS相机中存在的逐行曝光延迟是在相机运动下成像时被称为卷帘快门(RS)效应的偏斜和曲率失真的现有的遥感影像校正方法往往采用多幅影像或根据具体场景定制校正方案。我们提出了一种卷积神经网络(CNN)架构,它可以自动从单个RS图像中学习基本的场景特征,以估计行方向的相机运动,并将RS失真恢复到第一行执行的时间。我们采用长矩形内核来专门学习逐行曝光产生的效果。实验结果表明,我们提出的架构比传统的CNN采用方形内核。我们的单图像校正方法即使以逐帧的方式与基于视频的方法相比也表现良好,并且即使在具有挑战性的情况下也比场景特定的校正方案表现更好1. 介绍CMOS相机中传感器阵列的第一行和最后一行之间的曝光开始延迟(总线延迟)在存在相机运动的情况下,每一行经历不同于全局快门相机的不同相机姿势,这导致所记录的图像中的偏斜和弯曲。不管拍摄的是图像还是视频,摄像机的运动都不可避免地会导致失真;尽管失真的类型取决于曝光持续时间以及总的线延迟,这导致需要不同的校正方法,如图所示1(顶部)。短曝光时间只会导致RS效果,而中长曝光也会导致运动模糊。在这项工作中,我们研究了短曝光的情况。虽然大多数现有的作品[8,14,3,10]处理短曝光设置中的视频RS校正,但该任务非常复杂。[2]这项工作是在第二作者在马德拉斯理工学院学习时完成的D干扰 类型 的 运动 扭曲 和 校正方法可用于估计摄像机运动的信息类型图1. 各种图像捕获和曝光设置的校正技术概述。这对于仅包括单个图像的数据匮乏的情况是具有挑战性的。考虑到使用移动电话的普遍手持移动成像,可以利用相机中的其他信息源来促进这种数据废弃的由陀螺仪提供的运动信息可以用于捕获后的RS校正,但是其受到短曝光内的陀螺仪样本的稀疏性的严重限制 , 特 别 是 对 于 单 图 像 校 正 。 电 子 图 像 稳 定 器(EIS),如目前在谷歌像素手机相机需要多个帧,使其不适合单一的图像捕捉。光学图像稳定器(OIS),如iPhone相机,只能处理小的运动,其主要应用是在视频和长曝光图像。为了处理RS运动失真,人们需要理解人类可视化的不安来自哪里。在视频中,它是由于沿时间轴(通过帧)的局部结构变化;在模糊图像中,它是由于边缘的不清晰而产生的,而在单个RS失真图像中,它是由于与人类对场景的预先设想的印象相比的结构变化而产生的。因此,如图所示。1(底部),不同类型的信息可以用于这些不同的2292图2.上图:使用手机拍摄的卷帘快门扭曲图像底部:使用我们基于CNN的方法校正的图像校正方法帧到帧的对应关系用于视频校正,而在模糊的情况下使用局部模糊内核。在我们的方法中,对于单张图像的RS校正,没有其他额外的信息可用,我们选择了人类的感知作为我们的效用。视频校正方法:在这些作品中,帧之间的抖动效果被校正和稳定,以获得更好的视觉输出。重要的工作包括[8]的分块光流模型,[6]的分块七参数模型,[14]的基于运动插值的模型,[3]的基于同态混合的模型和[10]的基于样条的模型。所有这些模型都利用帧间对应关系(基于[8]和[6]中的强度,以及其他模型中的特征)来估计相机轨迹和配准帧。它们还利用了视频帧之间摄像机运动的连续性和平滑性。图像校正方法:很少有作品确实研究RS从一个单一的图像。[19]的RS去模糊工作使用局部模糊内核来拟合连续的相机运动。在不存在模糊的情况下,[4]的工作使用面部关键点作为特征来校正来自面部图像的RS失真,并且限于偏斜型RS失真。利用城市场景的类似灵感,[13]的方法使用曲线作为特征来校正来自城市图像的RS效应。这两种算法方法是针对特定图像类别定制的,因此严重依赖于它们各自的场景特定特征的拟定方法:在这项工作中,我们使用卷积神经网络(CNN)自动学习场景类的特征,以从单个受RS影响的图像中估计潜在的相机运动,并最终校正失真。与场景特定方法中的特征的手动选择和提取(其可能是徒劳的练习)相比,CNN可以自己学习对校正特定类别的失真至关重要的期望特征。到目前为止,已经使用CNN研究了导致运动模糊的相机运动失真。除了进行非盲去模糊的工作[16,15,22]之外,[20]的工作采用了模糊核估计的分类方法,最近,[2]的工作直接回归模糊核。所有这些方法都是从局部图像块中学习模糊信息,同时学习运动轨迹,在没有任何模糊的情况下导致RS效果,需要从图像的不同部分提取和组合信息。没有使用神经网络研究过有或没有运动模糊的RS的效果。在我们的工作中,场景结构和行式摄像机运动之间的相互作用是使用采用长内核特征的神经网络来学习的。我们的设计首先使用平方卷积层提取基本的图像特征,然后是两组采用行核和列核卷积的特征交互层,以提取沿水平和垂直方向的属性,特别是解决RS效应的性质。最后,这些方向性的功能相结合,使用完全连接的层,以达到在RS运动。我们训练网络使用合成的RS图像回归的图像内摄像机运动。我们不直接在图像上回归,例如使用生成网络[12,9],因为我们不寻求更好或新的信息,而只是几何解扭曲。一旦我们训练的网络预测到运动,我们就使用局部扭曲来校正RS图像。图2显示了我们使用移动电话捕获的失真图像的校正输出。在所有这些示例中,倾斜和曲率失真都得到了校正。主要贡献– 一种方法,纠正滚动快门效果从一个单一的图像没有定制的提取特定的场景特征和相机参数的知识。– 一种新的CNN架构,专为滚动快门相机中的曝光机制而设计,它可以学习面向行和面向列的功能。我们忽略深度相关的运动和镜头失真。2. 滚动快门模型静态CMOS滚动快门相机捕获与使用全局快门相机捕获的图像相同的这被称为全局快门图像IGS。当相机在曝光期间移动时,由于逐行采集导致局部图像扭曲,传感器的每行经历不同的相机姿态观察到的畸变图像被称为卷帘快门图像IRS。2293令 [tx ( y ) , ty ( y ) , tz ( y ) , rx ( y ) , ry(y),rz(y)]表示由RS图像的行y观察到的相机轨迹向量,其中t表示平移,并且r表示旋转。为了校正来自具有M行的RS图像的失真,我们需要估计对应于每行的六个相机姿态的6M个我们问的问题是什么类型的运动信息可以提供一个单一的图像,以及什么进一步的限制不知道相机的内在的假设导致。为了回答这些问题,我们观察了不同类型的相机运动对单个图像产生的RS效应由摄像机运动产生的RS效应图3示出了由不同类型的RS运动产生的局部失真。虽然每种运动类型都会产生自己的扭曲,但它们之间存在一些相似之处在单次曝光内,来自/朝向场景的反射必须非常高,以产生明显的曲率。考虑RS校正的运动直线度的干扰是视觉上不愉快的,如果它违背了人类的先入之见。 我们根据它们的不可取性将四种扭曲排列如下:[三]、[一]、[二]、[四]。人类是对垂直和水平曲率[I,III]的反应比垂直拉伸/收缩[II]的反应在单个图像捕获期间的光轴平移会产生不可避免的失真,因此,[IV]可以安全地忽略。对于未知的摄像机内禀函数,我们也将由于ry引起的效果近似为由tx引起的效果。因此,我们在模型中只考虑运动tx和rz,我们将从IGS上的2D点xGS到IRS的行y上的点xRS的映射写为2D点变换:一些突出的影响如下:xRS=ΣΣcosrz(y)−sinrz(y)sinrz(y)cosrz(y)xGS+ΣΣtx(y) 、0没有运动没有运动tx[I]rx[II][II]ry[I]tz[IV]rz[I][III]R(y)xGS+t(y),(1)其中R(y)是行y的2D z轴旋转矩阵,t(y)是具有零 y 轴 运 动 的2D平移向量. 注意,tx(y)的单位是(1)中的像素,并且不依赖于相机固有矩阵。从这一点开始,平移是指tx,旋转是指rz。重要的是要注意,(1)中的2D运动模型实际上是逐行的,并且因此它甚至可以对高视觉失真建模,而不仅仅是简单的仿射变换图3.不同类型的相机产生的卷帘快门效果摄像机运动[I] 垂直曲率:平移tx(沿水平轴)和旋转ry(绕垂直轴)产生类似的RS效果,水平平移行上的点。这表现为垂直线的弯曲。对于tx,一行上的所有点移动相同的量,而对于ry,它根据相机焦距略有变化。对于高焦距,一行上的所有点移动几乎相同的量。[II] 垂直拉伸/收缩:沿着同样的路线,ty和rx产生类似的RS效应,垂直移动点,导致垂直结构的拉伸或收缩。注意房子在垂直方向上的伸长量。[III] 水平曲率:平面内旋转rz会弯曲垂直线和水平线。重要的是要注意,相同的rz根据它们与旋转中心的距离不同地影响同一行上的点。因此,不同的垂直线由于rz而产生不同的曲率,这与tx不同,t x以相同的方式影响所有垂直线,而不管它们的列位置如何。[IV] 垂直比例尺变化:光轴平移tz使位于垂直轴两侧的垂直线仅略微倾斜,因为摄像机运动远离如全局2D运动的情况。运动轨迹模型为了表示通过行曝光的相机轨迹,我们将相机运动定义为两个矢量,每个矢量用于平移和旋转,由下式给出:. .,tx(M)]和p2=[rz(1), rz(2),. . . , rz(M)]。对于一个行y∈[1,M]的dis-对于扭曲的图像,相机姿态是[tx(y),rz(y)],并且因此,每个扭曲的图像IRS与具有2M个值的相机轨迹张量P =[p1,p2]相关联为了通过撤销运动来校正失真,需要从单个图像估计2M个未知数,或等效地M由于从单个图像估计M个姿势是非常不适定的,我们利用我们操作的短曝光时间设置来通过多项式轨迹对相机运动进行为了验证这一假设,我们使用[7]的人类记录的握手轨迹数据集在文献[7]中,我们用一个n次多项式拟合tx和rz图4(顶部)示出了两个样本轨迹图,其中蓝色圆圈表示曝光期间记录的相机姿态,红色虚线表示拟合的多项式轨迹。我们将不同次数的多项式拟合到记录的姿势样本,并观察到平均拟合误差在n=3之后几乎收敛,如图所示。4(底部)。因此,我们对平移和旋转轨迹进行建模-作为关于行号的多项式的存储区。的22940-0.5-1-1.50 50100时间(ms)0-1-2-30 50 100时间(ms)[4]仔细选择RS校正所需的面部关键点,而对于城市场景的校正,[13]选择曲线和线条作为特征。RS校正实质上是消除几何畸变的局部图像变形;没有新的或更好的图像信息(在诸如去噪和10500 2 4 68多项式次数0.30.20.1002 4 6 8多项式次数超分辨率)。因此,我们回归到相机的运动,而不是直接在图像上。此外,诸如一般对抗网络[12,9]等可以直接学习输出未失真图像的生成模型通常受到图像输出的视觉质量的限制在我们的方法中,我们对畸变图像进行几何校正图4.真实相机震动数据集的多项式轨迹拟合相机在每行索引y∈[1,M]处的姿态,我们有使用CNN的运动估计。我们没有学习估计每一行的相机姿态,而是只将K个等距行的运动作为CNN输出,因为运动位于较低维度的空间中,如前所示。每个采样ps的大小,龙之岛1pi(y)=αi0+j=1αij((y−1)/M)j,i=1,2,(2)p2是K,使得输出相机轨迹的长度图中CNN的张量P当N= 2K时,在我们的CNN中,输入是256×256×3RGB图像,输出是其中p1(y)=tx(y),p2(y)=rz(y),αij是第i个运动的j次多项式系数,n=3。3. 卷帘快门校正图5提供了我们的方法的概述。有三个模块:神经网络用于摄像机运动估计、轨迹拟合以得到行式运动、以及使用估计的摄像机运动的图像校正。我们的方法的输入是一个单一的RGB RS失真的图像,输出是相应的校正图像。图5. 滚动快门校正概述。3.1. 基于CNN的摄像机运动估计在这项工作中,我们将摄像机运动估计问题视为回归问题之一,其中我们训练并使用一个函数f(IRS; θ)来预测摄像机轨迹张量P*,其中θ表示系统的权重(参数)。30- 长度运动矢量(对应于K = 15)。VanillaCNN我们在这项工作中提出了两种CNN架构:第一个是VanillaCNN,如图所示。6(顶部)。它使用标准的卷积和池化层,其中方形内核从RS图像中提取并组合局部信息以推断相机运动。在七层中,前四个卷积层由方形滤波器组成,其输出被传递到ReLU单元然后在2×2非重叠单元上进行最大池化最后三个是完全连接的层;第三次使用Tanh,第二次使用HardTanh,最后一次,没有。RowColCNN从图像的不同部分获取和组合局部信息是学习RS运动的一个关键方面。我们对新架构的动机源于以下观察:(i) 时间运动信息沿着图像列呈现,(ii) 来自图像行的信息有助于增强逐行运动恒定性,(iii) 如果较早地提取来自图像行的信息,则可以更好地估计旋转,因为它不同地影响图像行的左因此,我们将VanillaCNN从初始的平方卷积层中提取特征后分支为两个库。P=(I;θ)(3)列内核银行采用过滤器,其有效支持跨越更长的沿列,而行内核,所提出的方法的能力和复杂性是在它基于CNN,从图像中提取信息以输出相机运动。CNN允许我们摆脱费力的人工算法设计,以选择图像中失真的场景的正确特征,以帮助相机运动估计。对于面部图像,NEL组采用面向行的滤波器。这两个库都提取局部定向的信息,并将它们组合在自己的全连接层中,然后将 它 们 传 播 到 最 终 的 全 连 接 层 , 这 些 层 具 有 与VanillaCNN相同的首先将来自库的两个4096向量相加,然后传递到非线性函数,记录的相机姿势拟合多项式平移拟合误差旋转拟合误差平移(mm)Avg.误差(像素)旋转(度)Avg.误差(度)记录的相机姿势拟合多项式Rs2295RS行2GS第2VanillaCNN架构RowColCNN架构图6.卷帘快门运动估计的建议架构所有卷积层都使用有效的像素卷积,所有maxpooling层都使用步长为2的2x2窗口。earity导致在最终完全连接层的开始处的单个4096向量。我们称之为建筑行-我们找到一个y {\displaystyle y {\displaystyley}},对于它,使用P{\displaystyle P}(y{\displaystyley})对x {GS}进行扭曲,将其带到具有最接近y{\displaystyley}的行坐标的x {\displaystyle x}RS[13]:图中所示的ColCNN。6(底部)。训练给定一组S个标记的图像{(Ii,Pi)},y=arg min [x]−[R(y)xy+t(y)](5)(3)中模型的参数θ计算预测轨迹矢量P_n和哪里 R(y)为 的 旋转 矩阵 对应于r(y)和t(y)=[t(y),0]T. 最后,强度在Z x如(4)中给出的地面实况轨迹向量P我们使用均方误差作为我们的损失函数,在我们的训练过程中初始化权重的均匀分布。我们使用随机梯度下降进行训练,学习率为0.05。GS图像上的像素xGS是从RS图像的RT(y)(xRS−t(y))4. 实验实验部分安排如下:(i)将─θ*=arg minθ1小时Si=1ǁψ(Ii; θ)−Piǁ2(四)比较方法的描述,(ii)训练和测试数据集的创建,(iii)定量结果和比较,以及(iv)视觉结果和比较。3.2. 预测和校正在运动预测阶段,输入的RS图像通过训练好的网络转发,输出K长度的平移和旋转矢量(N个值)。然后使用三次多项式拟合这两个向量,获得每行的估计运动值4.1. 比较方法CNN模型我们在两种建议的网络架构-我们使用不同的指标来评估这两种架构在不同数据集上的有效性。在基于非学习的方法中,我们首先1 2如在(2)中。然后,估计的轨迹张量由下式给出:P=[p,p]。比较了两种现代RS视频校正方法,[14]和[3]的ods由于我们的方法是基于单个图像1 2一旦估计了完整的相机轨迹,RS im-年龄必须及时校正回到第一行曝光(即,全局快门图像)。我们首先从所有行的姿势中减去第一行的姿势,从而导致第一行的恒等变换,并且所有剩余的行都具有相对于它的扭曲使用前向映射来完成去扭曲或失真校正,其中对于校正(GS)图像的每个像素坐标,我们从失真(RS)图像中拾取强度 对于每个像素xGS,我们不能直接使用这些视频方法进行比较。因此,为了进行定量比较,我们将参考未失真的GS和失真的RS图像作为输入。然后,我们使用我们自己的两个图像实现他们的框架来纠正RS图像。这两个基于参考的校正方案被用作我们实验中的对于视觉视频比较,我们采用我们的方法逐帧对他们作品中使用的视频进行比较,并与他们的输出进行比较。2296单图像模型我们还与[13]和[4]进行了比较,这两个模型分别解决了城市场景和人脸的RS校正我们将图像发送给[13]的作者,并得到了他们的结果。我们使用自己的实现[4]。我们将这两种方法的输出和我们的方法与前一段所述的基于参考的基线输出进行比较。4.2. 数据集创建我们使用256×256作为输入和输出图像的大小。我们在下面描述了合成的RS相机运动以及为三类图像创建训练和测试数据集。对于每个类,我们的CNN都是单独训练的。相机运动我们使用随机三次多项式作为合成相机轨迹来生成训练和测试数据。每个轨迹是一组两个256长度的矢量(行式运动),每个平移和旋转。我们将平移限制在[-40,40]像素范围[1][2][3][4][5][6][7][8][9][ 10]4.3. 定量分析我们首先描述我们用于定量分析的指标,然后显示我们的结果。我们使用以下三个指标:[P1]真实图像和校正图像之间的PSNR(dB),[E2]真实图像和预测运动之间的均方根误差(RMSE)(对于平移的像素和对于旋转的度数),以及[E3]像素中的曲率残差。高P1、低E2和E3表示更好的性能。为了测量特定于棋盘类的曲率残差,我们首先从校正后的输出中提取水平和垂直曲线,然后计算曲线与地面实况线之间的距离(在所有行和列位置)。所有曲线的该距离值的RMSE给出E3。合成运动我们现在展示使用合成相机运动建立的测试数据的RS校正的性能。棋盘类:表1显示了基于P1,E2,8 8棋盘类我们采取不同的水平和/或一个16格棋盘的垂直平移版本,年龄是我们的基本数据。然后,我们在这些图像上应用合成RS运动来填充我们的完整训练集。为了帮助定量分析,仅针对棋盘类,我们针对三种运动模型进行训练:仅平移(仅T)、仅旋转(仅R)和组合平移和旋转(T+R)。对于这三个模型中的每一个,我们生成一个训练集大小为7014(14幅基本图像×500个随机运动+14幅无运动的基本图像)。CNN出来-对于仅平移和旋转模型,放置向量长度为N=15,对于组合模型,放置向量长度为N=30(平移和旋转各15)。我们为这三个模型中的每一个训练Vanil- laCNN和RowColCNN。城市场景类我们通过结合Sun [21],Oxford [11]和Zurich [18,17]数据集中的建筑物图像来构建干净的城市场景数据。每个干净的图像都被150个随机的摄像机轨迹扭曲,给我们大约300,000个标记的图像。在应用运动失真之前,我们还随机地左右翻转原始图像为了测试,我们从[21],[11]和[18,17]的组合数据集中挑选新图像,不用于训练,并综合应用随机运动来生成200个测试图像。我们还从加州理工学院的建筑数据集[1](在训练中根本没有使用任何图像)以类似的方式生成RS效果。我们使用来自Labeled Faces in the Wild(LFW)人脸数据集[5]的人脸图像训练集由5000个人的面部组成,每个面部上施加有50个动作,从而使训练数据的大小为250,000。我们选择了200张脸(与训练的脸不同)进行测试,每个人都有不同的相机运动。在E3。很明显,我们的CNN与基线视频校正方法(使用参考帧进行运动估计)的性能相当。我们的单图像方 法 的 性 能 与 这 些 基 线 方 法 相 匹 配 。 我 们 在RowColCNN中使用长内核,与传统的基于方形内核的VanillaCNN 相 比 , 性 能 更 好 。 在 所 有 情 况 下 ,RowColCNN 的 PSNR ( P1 ) 1 在 所 有 情 况 下 都 高 于VanillaCNN,并且E2和E3在大多数情况下都较低。特定于城市的方法[13]将强制曲线变成水平线和垂直线的硬约束,并且它为棋盘类提供了优势。对于仅T运动,[13]的性能优于我们的方法;但是在存在旋转的情况下,它不能正确地校正曲率。它甚至在R和T+R情况下与VanillaCNN相比也表现不佳。城市场景类:与其他方法相比,我们的网络在结合建筑和测试的加州理工学院城市数据集上的校正性能如表2所示。我们观察到RowColCNN在两个数据集中的表现都优于VanillaCNN,并且与基线方法相当。它的性能优于 [13]的城市特定RS校正方法,其中辅助运动估计的适当曲线检测是关键步骤,并且错误的曲线检测可能导致错误的解决方案。因此,它在城市场景中的表现不如棋盘类。面部分类:表2还总结了面部分类的矫正率。我们观察到CNN1PSNR的范围(36这是由于棋盘的性质2297表1.合成棋盘数据集上的定量比较使用仅T仅限RT+R方法类型参考?P1E2tE3hE3vP1E2rE3hE3vP1E2tE2rE3hE3v林加比[14]基线是的40.840.650.680.8936.841.310.741.8536.911.861.320.692.05格伦德曼[3]基线是的38.760.920.761.1236.991.181.122.1937.031.631.410.721.93RowColCNN测试没有38.011.780.811.9737.830.420.881.1637.411.520.430.881.60香草CNN测试没有37.521.851.322.0437.770.530.991.1237.301.480.921.331.86Rengarajan [13]测试没有39.751.750.722.0235.582.903.812.0533.6412.402.683.323.18T:平移,R:旋转,P1:PSNR(dB),E2t:运动RMSE(像素),E2r:运动RMSE(度),E3h:水平曲线残差,E3v:垂直曲线残差表2.城市场景和人脸数据集的定量比较使用组合建筑数据集Caltech建筑数据集LFW人脸数据集方法类型参考?P1E2tE2rP1E2tE2rP1E2tE2r林加比[14]基线是的32.863.031.0732.674.321.3934.751.871.43格伦德曼[3]基线是的32.573.341.1732.074.761.8234.571.921.53RowColCNN测试没有32.253.761.1532.505.071.4134.142.171.67香草CNN测试没有32.193.841.2932.366.221.6834.012.961.82Rengarajan [13]测试没有29.8211.893.5829.1515.763.26–––赫夫林[4]测试没有––––––29.3218.03–P1:PSNR(dB),E2t:运动RMSE(像素),E2r:运动RMSE(度)在这里也有很好的表现。即使基线方法的性能比我们的好,它们也只是比我们好一点点. RowCNN的性能优于[4]的面部特定校正方法,因为它仅适用于几乎正面的面部姿势。此外,[4]仅估计偏斜参数,因此我们仅计算了表2最后一行中的PSNR(P1)和平移误差(E2t)值。人类相机抖动数据集为了测试我们训练的网络在真实相机运动上的能力,我们采用了[7]的数据集,该数据集包含40个被要求拍摄照片的人类的真实相机抖动轨迹。相对较长的曝光时间。由于长时间曝光会导致运动模糊,这不在本工作的范围内,因此我们使用记录轨迹的 一 小 段 来 引 入 RS 效 果 ( 从 上 到 下 的 行 延 迟 为38.4ms)。我们产生了200个这样的RS图像棋盘和城市场景类随机剪切运动段的40个轨迹。我们使用RowColCNN的预测运动纠正了它们。表3显示了平移和旋转的RMSE,以及干净图像和校正图像之间的PSNR由于人类握手,两个类的误差都很低,PSNR都很高,这表明RowColCNN具有良好的RS校正。这证实了我们的三次多项式假设的有效性,在曝光期间的相机运动的兴趣。4.4. 视觉比较我们首先比较了两种CNN在扭曲棋盘图像上的输出,然后展示了与现有方法的其他视觉比较。CNN模型图7(a)显示了具有严重旋转和平移的RS图像。垂直线和水平线都VanillaCNN和RowCol- CNN的校正如图1A和1B所示。7(b)和(d)。香草-表3. RowColCNN在camerashake数据集上的性能[7]。PSNR(dB)平移RMSE旋转RMSE类P1 E2t(像素)E2r(度)棋盘37.23 2.8074 0.35城市景观32.19 3.9677 0.76laCNN在很大程度上纠正了失真;但是,与RowColCNN相比,它在校正图像中的边缘与原始网格的偏差如图1A和1B所示。7(c)和(e)。(a) RS(b,c)VanillaCNN和残差(d,e)RowColCNN和残差图7.棋盘图像的畸变校正。在RowColCNN中,初始的平方卷积层为后续的定向组提供低级信息图8示出了针对城市场景训练的第一层的方形滤波器,其主要是不同角度(不仅是水平和垂直)的定向梯度。行和列内核银行结合这些不同的方向特征,在其各自的方向,以提取运动图。图8.RowColCNN第一层的训练过滤器2298(a) RS视频帧(b) 视频校正[14](c) 视频校正[3](d) 通过RowColCNN进行图9.我们的RowColCNN与现有视频校正算法的视觉比较。视频方法我们将我们的逐帧RS校正与[14]和[3]的视频校正方法视频方法采用一批相邻帧来估计摄像机的轨迹,而我们的方法只需要一帧。我们还在我们的逐帧校正输出之间相对于校正的第一帧(其本身绝不能校正偏斜和曲线)进行全局平面内运动配准。图9显示了来自[14]的标志杆的RS视频的一些帧,以及我们的方法和两种视频校正方法的相应输出帧。我们的方法在几乎所有的帧中恢复了极点的直线度,类似于[14]的校正。文[3]的修正对这种重运动并不理想.该视频是作为补充材料提供的。在图10中,我们展示了与特定场景校正方法的视觉对比。[13]中用于城市场景的运动估计方案在很大程度上取决于图像中合适曲率的选择,因此,当存在错误检测或自然曲率时,它无法校正失真在第二列中,[13]试图使倾斜的台阶手柄垂直,由于树枝的存在,它在第三和第四个例子中失败了。类似地,[4]仅估计从几乎正面面部提取的眼睛和眼睛特征点的偏斜类型在所有这些不同的例子中,RowColCNN正确地纠正了失真。人类感知评级我们调查了50名用户,以提供对30个图像集的偏好,这些图像集包括干净的GS、RS、RowColCNN校正图像和[13]或[4]校正图像,基于他们的视觉感知。 这些套装包括各种各样的遥感图像,从没有到严重的运动。图11显示了RowColCNN相对于竞争方法的性能。参与者认为我们的输出至少等于或优于比较方法的输出遥感畸变图像[13]第十三届全国人大代表选举由RowColCNN图10.与[13](城市场景)和[4](人脸)的现有场景特定单一图像方法进行视觉比较图11. [13]和[4]的CNN输出的人工评级。75%的时间用于城市和面部校正(两个图中的与RS图像相比,我们的方法在至少90%的时间内同样或更好地补充材料提供了更多信息。在图2中,我们显示了使用RowColCNN对捕获图像的校正结果。这些都是使用摩托罗拉MotoG2手机相机拍摄的,无论是握手还是从移动的车辆。捕获的图像被调整大小并裁剪为256×256(没有任何会影响行曝光的图像旋转然后用我们的方法进行校正。这种方法能很好地消除各种场景中的倾斜和曲率畸变.补充材料中提供了更多的例子5. 结论我们提出了一种基于长直角核的新CNN架构我们将相机运动建模为平移+旋转多项式,而无需任何相机校准,并且它被证明适用于用手机捕获的真实图像。我们的单图像方法与使用多个图像的现有视频校正算法不相上下。CNN的学习能力消除了现有基于非学习的单图像作品所采用的手动特征选择和提取的困难。2299引用[1] M. Aly,P.Welinder,M.Munich和P.佩洛娜图像族的自动大 规模 发现。 IEEE第二届 互联 网视觉 研讨 会,CVPR,2009年6月。6[2] A.查克拉巴蒂盲运动去模糊的神经方法。在计算机视觉-施普林格国际出版社,2016年。2[3] M. Grundmann,V. Kwatra,D.卡斯特罗和我。艾萨免校准卷帘快门拆卸。在国际计算摄影会议(ICCP)上,第1-8页。IEEE,2012。一、二、五、七、八[4] B. Heflin,W. Scheirer和T. E.博尔特基于人脸特征检测的CMOS传感器卷帘快门畸变校正.在生物识别国际会议上:理论应用和系统,第1-6页。IEEE,2010。二四六七八[5] G. B. Huang,M. Ramesh,T. Berg和E.学习米勒。在野外贴上标签的脸:研究无约束环境下人脸识别的数据库。技术报告07-49,马萨诸塞大学,阿默斯特,2007年10月。6[6] Y.-- G.金,V.R. Jayanthi和我S.奎恩手持设备中cmos图像传 感器 视频稳 定的 系统级 芯片 解决方 案。 IEEETransactionsonCircuitsandSystemsforVideoTechnology,21(10):1401-1414,2011。2[7] R. Kohler,M. 赫希湾,巴西-地 Mohle r,B. Scho¨lk opf,以及S. 伤害。 相机抖动的记录和回放:用真实世界的数据库对盲反卷积进行基准测试。在计算机视觉-施普林格柏林海德堡。三、七[8] C.- K.梁湖,澳-地W. Chang和H. H.尘卷帘快门效应的分析与补偿。IEEE Transactions on Image Processing,17(8):1323-1330,2008。一、二[9] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺 度 视 频 预 测 。 国 际 学 习 表 征 会 议 ( InternationalConference on Learning Representations , ICLR ) ,2016。二、四[10] A. Patron-Perez,S. Lovegrove和G.西布里一种用于传感器融 合和 卷帘 快门 相机 的基于 样条 的轨 迹表 示。International Journal of Computer Vision(IJCV),第1-12页,2015年。一、二[11] J. Philbin,O. Chum,M. Isard,J. Sivic,and A. 齐塞-曼。具有大词汇量和快速空间匹配的对象检索在IEEE计算机视觉和模式识别(CVPR)的会议记录中,2007年。6[12] A.拉德福德湖,澳-地Metz和S.钦塔拉使用深度卷积生成式对抗网络进行无监督表示学习。国际学习表征会议(International Conference on,2016。二、四[13] V. Rengarajan,A. N. Rajagopalan和R. Aravind从弓到箭:城市场景的卷帘校正。在IEEE计算机视觉和模式识别(CVPR)会议记录中,2016年。二、四、五、六、七、八[14] E. Ring g aby和P.- E. 给你。有效的视频整流和稳定的手机。International Journal Computer Vision(IJCV),96(3):335-352,2012. 一、二、五、七、八[15] 联合施密特角Rother,S.Nowozin,J.Jancsary和S.罗斯鉴别 非盲 去模糊 。在IEEE计算 机视 觉和模 式识 别(CVPR)会议录中,第604-611页,2013年。2[16] C. Schuler,H. Burger,S. Harmeling和B. Scholkopf一种用于非盲图像去卷积的机器学习方法。在Proceedings ofthe IEEE Computer Vision andPattern Recognition(CVPR),第1067-1074页,2013中。2[17] H.邵氏T. Svoboda,T. Tuytelaars和L. V.Gool Hpat索引用于基于局部应用的快速对象/场景识别。在第二届图像和视频检索国际会议的会议录,CIVR柏林,海德堡,2003年。史普林格出版社6[18] H.邵氏T. Svoboda和L.范古尔Zubud 6[19] S. Su和W.海德里希滚动快门运动去模糊。在IEEE计算机视觉和模式识别(CVPR)会议录中,第1529-1537页,2015年。2[20] J.孙,W.曹,Z. Xu和J. Ponce.学习卷积神经网络以去除非均 匀运 动模糊 。在IEEE计算 机视 觉和模 式识 别(CVPR)会议录中,第769-777页,2015年。2[21] J. Xiao,J. Hays,K. A. Ehinger,A. Oliva和A.托拉尔巴Sun数据库:从修道院到动物园的大规模场景识别。在IEEE计算机视觉和模式识别(CVPR)会议录中,第3485-3492页。IEEE,2010。6[22] L. 徐,J.S. 伦角,澳-地Liu和J.贾用于图像去卷积的深度卷积神经信息处理系统会议(NIPS),第1790-1798页,2014年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功