没有合适的资源?快使用搜索试试~ 我知道了~
3565基于级联细化的单幅图像反射消除李超1,杨义晓1,何坤1,林志颖2,杨伟东1,杨伟东1。霍普克罗夫特31华中科技大学计算机科学与技术学院2微软亚洲研究院3康奈尔大学计算机科学系brooklet60@hust.edu.cn摘要我们解决了从通过玻璃表面捕获的单个图像中去除不期望的反射的问题,这是一个不适定的,具有挑战性的,但实际上是重要的照片增强问题。受社交网络中隐藏社区检测的迭代结构约简的启发IBCLN是一个级联网络,它以一种可以相互提高预测质量的方式迭代地修正透射层和反射层的估计,并且使用LSTM传输级联步骤之间的信息直觉认为,传递是强的、主导的结构,而反射是弱的、隐藏的结构。它们在单个图像中彼此互补,因此在一侧上从原始图像更好地估计和减少导致在另一侧上更准确的估计为了便于在多个级联步骤上进行训练,我们使用LSTM来解决消失梯度问题,并提出残余重建损失作为进一步的训练指导。此外,我们创建了一个具有反射和地面实况传输层的真实世界图像数据集,以减轻数据不足的问题综合实验结果表明,与现有的反射去除方法相比,该方法能有效去除真实图像和合成图像中的反射1. 介绍在真实世界的照片中,玻璃的不良反射经常发生。它不仅会显著降低图像质量,还会影响目标检测和语义分割等下游计算机视觉任务的性能。由于反射去除问题是不适定的,早期的工作主要是用多个前两个作者贡献相等。†通讯作者。ple input images [24,19,16,32,6,23,5,7].最近,研究人员试图解决单个输入图像的更常见和实际重要的场景[14,15,16,17,28,22,1,25]。对于单图像反射去除(SIRR),研究人员已经观察到,一些手工制作的先验可能有助于区分单个图像中但由于成像条件不同,这些先验往往不能很好地适用于不同类型的反射和场景近年来,研究人员通过深度卷积神经网络应用数据驱动学习来取代手工制作的先验知识有了丰富的标记数据,可以训练网络在广泛的场景中有效地执行。然而,由于诸如有限的训练数据、不同的成像条件、变化的场景内容、对该问题的有限的物理理解以及各种模型的性能限制等复杂性,基于学习的单图像方法仍有很大的改进空间。在这项工作中,受社会网络中隐藏社区检测的迭代结构缩减方法的启发[8,9],我们引入了一个用于传输和反射分解的级联神经网络图1显示了我们模型中的级联结果,其中传输和反射在迭代过程中逐渐细化。据我们所知,以前的反射消除工作没有使用级联细化方法。虽然一些方法(如BDN [33])在一系列子网络上获得预测,但它们不会迭代地细化估计,而是进行短暂的交替优化,例如,通过估计来自输入图像和初始传输层的反射,然后估计来自输入图像和估计的反射层的传输。对于SIRR的级联模型,一种简单的方法是利用一个网络生成预测传输,作为下一个网络的辅助信息然而,随着时间的推移,由于3566Τ0Τˆ1Τˆ2Τˆ3r10的R1R2R3级联结果不R~地面实况图1.在所提出的模型中的两个子网络的不同级联步骤的结果的可视化传输和剩余反射的估计随着它们通过级联的进展而更多的结果在Suppl. 材料消失梯度问题和每一步有限的训练指导为了解决这个问题,我们设计了一个卷积LSTM(长短期记忆)网络,它保存了上一次迭代的信息(即,时间步长),并允许梯度保持不变。在我们的模型中,两个子网络使用相同的卷积LSTM架构,一个用于传输预测,另一个用于反射预测。它们使用前一个时间步的输出来共享输入信息,以提高彼此在这里,我们提出了一个残余重建损失作为进一步的训练监督在每个级联步骤。为了简化重建损失,我们定义了一个新的剩余反射概念,将在第2节中描述。三点四分。虽然已经提出了一些具有地面真实性的真实世界数据集[26,34],但由于劳动密集型工作,SIRR的真实世界数据为了帮助解决现实世界训练数据的不足,我们还收集了一个真实的数据集,在不同的成像条件和不同的场景中具有密集标记的地面实况。我们的主要贡献如下:• 我们提出了一种新的网络架构,级联网络,与损耗组件,实现国家的,对单个图像反射去除问题的真实世界基准的最新定量结果。• 我们设计了一个剩余重构损耗,它可以与线性合成方法形成一个闭环,用反射来调整图像的大小,以扩大合成方法在整个网络中的影响。• 我们收集了一个新的真实世界数据集,其中包含具有密集标记的地面实况的图像,这些图像可以作为未来研究的基线数据。2. 相关工作从数学上讲,SIRR对捕获图像I进行操作,捕获图像I通常被假设为透射层T和反射层R的线性组合。目标是推断没有反射的传输层T。在这项工作中,我们专注于基于深度学习的SIRR,它已经产生了最先进的结果。先前的多图像方法[32,6,16,23,19,5,24,7]和基于单图像先验的方法[15,17,14,22,1,28,16、25、这里不考虑。由于神经网络在鲁棒性和性能方面的优势,将神经网络应用于SIRR的研究引起了人们的兴趣。Fan等人[4]提供了第一个神经网络模型来解决这个不适定问题。他们提出了一种线性的方法来合成图像的反射训练,并使用边缘图作为辅助信息来指导反射消除。Wan等人[27]开发两个协作子网络,其同时预测传输层强度和梯度。这两项工作[4,27]都利用了捕获层I的边缘或梯度信息,其动机是反射层通常没有聚焦,因此与透射层相比模糊。根据捕获图像I的边缘信息,透射图像T的边缘图被预测并用于估计透射结果。相反,BDN[33]预测反射层,然后将其用作后续网络中的辅助信息以估计传输。在最近的几种方法中,提出了改进的目标函数公式。这些包括采用感知损失[11]来解释低级和高级图像信息[3,10,34]。在这些作品中,图像被馈送到在ImageNet上预先训练的深度网络,并根据提取的多个图像进行比较3567˜舞台特色对抗性损失也被应用,特别是为了提高预测传输层的真实性[34,13,31,30]。另一个研究方向集中在训练数据集上。超越[4]和[34]中线性综合方法的改进,Wenet al. [31]将训练数据与更好地模拟真实世界成像条件的学习的非线性阿尔法混合掩模合成。这些掩模还用于形成引导传输层的预测的重构损失。为了处理密集标记训练数据的不足,Weiet al. [30]提出了一种利用未对准的真实世界图像作为训练数据的技术,因为它们比对准的图像采集起来不那么麻烦,并且比合成图像更真实3. 该方法3.1. 动机这项工作的动机是对社交网络中隐藏结构的He等人[8,9]如果大多数成员也属于其他更强的社区,则将一组他们提出了一种迭代提升方法来分离一组强的,占主导地位的社区和另一组弱的,隐藏的社区,并提高双方的检测精度。关键思想是,当它们使用基本算法检测到近似的主导社区集合,并削弱它们与整个图的平均连接的内部连接时,主导结构被减少以提高对隐藏社区集合的检测,反之亦然。在SIRR的情况下,一个有用的技巧是采用子网络来学习辅助信息,可以促进传输层预测。现有工作中使用的辅助信息类型包括边缘信息[4,27]和预测反射[33]。理想的辅助信息将是传输层的地面真实无反射版本,这是我们试图预测的。由于这在推理时不可用,因此我们改为使用预测传输形式的地面实况传输的近似值作为辅助信息。 虽然肯定没有地面真相有用,然而,它提供了强有力的指导,特别是随着传输预测的改进。关键问题是如何使传输估计越来越接近地面实况。参考Heet al. [8,9]中,我们认为透射层是强的、主导的结构,而反射层是弱的、隐藏的结构。通过迭代减少更准确的版本的对应,我们可以提取更准确的近似的两层图像。我们的模型包含两个子网络,它们可以协作,并通过减少输出来提高彼此从原始图像中提取一面的信息,作为另一面的这种主导图像(透射)和弱图像(反射)的协同级联细化对于神经网络的训练是新颖的。3.2. 一般设计原则我们使用两个卷积LSTM网络分别生成预测的传输层和预测的反射层。每个子网络的输入包括传输子网络和反射子网络两者的输出。此外,两个子网络的输出合并在一个重建损失内,以监督整个模型在每个时间步。两个子网络之间的协同作用导致其预测的相互促进,从而导致辅助信息的逐步改进和对传输的为了确保传输子网络和反射子网络生成互补的输出,我们实施重建损失,其中期望从估计的传输和反射合成的图像SNRI与输入图像I匹配。在RmNet [31]中采用了相关的约束,它从没有反射的地面真实传输层、用于产生玻璃反射的反射层和阿尔法混合掩模合成图像IW.因此,I=W<$T+(1−W)<$R,其中<$表示元素乘法然后,将重建的图像I与合成输入图像I进行比较。然而,他们的alpha混合模型仅近似于形成具有反射的实际输入图像所涉及的复杂物理机制,因为它不对空间变化模糊和Gamma校正等效应进行建模[2],Gamma校正用于校正相机捕获内容的方式与我们的视觉系统处理光线的方式之间的差异这将限制真实世界输入图像的重建质量,从而降低预测结果,如我们从表1中报告的实验中发现的。为了避免RmNet遇到的问题,我们使用尺度参数α代替逐元素掩码矩阵W,并且我们直接通过I−α·T计算剩余反射R。通过这种方式,我们不需要对形成中所涉及的复杂物理过程进行建模。我们的表现不会因该综合模型的缺陷而受损。预测残余反射而不是用于产生玻璃反射的反射层的好处是图像重建变得简单,仅仅是预测透射和预测残余反射的总和此外,与RmNet不同,我们所有的线性操作都是在线性颜色空间中完成的,去除了Gamma校正[2]。3568˜图2. IBCLN的体系结构。级联网络由具有跳跃连接的传输生成子网络GT和反射生成子网络GR组成,这两者都是卷积LSTM网络。两个子网络在每个时间步生成的图像将在下一个时间步反馈整个网络以端到端的方式进行训练3.3. 网络架构所提出的网络的架构如图21所示。IBCLN由两个子网组成: 传输预测网络GT和反射预测网络GR。这两个子网络都是卷积LSTM网络,具有相同的架构,但目标不同。前者旨在学习传输T,而后者旨在学习剩余反射R,因此它们学习完全不同的权重参数。每个子网络由一个具有11个Conv- relu块的编码器,从输入图像中提取特征,一个卷积LSTM单元[20]和一个具有8个卷积层的解码器组成,用于生成预测的传输层或预测的残余反射层。每个卷积层之后都是ReLU激活,除了LSTM层之后是Sigmoid激活或Tanh激活。在每个子网络中,在编码器和解码器之间存在两个跳过连接以防止模糊输出。卷积层和跳过连接类似于上下文自动编码器[18]。与以前的工作不同,我们的目标函数包括建议的残余重建损失和多尺度感知损失。图3从不同的角度说明了IBCLN。图中所示的所有GT都我们在相邻的时间步将GT与卷积LSTM单元连接起来,这些卷积LSTM单元保存来自1代码和型号:https://github.com/JHL-HUST/IBCLN/。图3.用增加的时间步长来表征IBCLN标记为GT的所有块指示一个子网络,并且标记为GR的所有块指示另一个子网络。 时间步t-1的输出作为时间步t的输入。 T1,T2,..., TN是预测的传输。 R1,R 2,.,RN是预测的剩余反射上一个时间步长。在实际模型中,卷积LSTM单元位于子网络的中间,并与卷积层连接。卷积LSTM单元有四个门,包括输入门、遗忘门、输出门以及单元状态。单元状态编码将被馈送到下一个LSTM的状态信息LSTM的输出特征被馈送到下一个卷积层。更多细节可以在ConvLSTM [20]中找到。在时间步t,两个子网络都采用九个通道的输入,具体地说,是合成图像的级联I,预测的透射率Tt−1和残余反射率R<$ t−1在时间步长t−1(1t≤N)预测T0设置为对于所有条目,将合成图像I和R0传输预测网络GT在最终时间步长N处的输出用作最终结果。许多以前的作品认为辅助信息,不多尺度感知损失1/2LVGGΤˆ1/4跳过连接ΤˆLSTM我GT跳过连接I+RRLSTMGR剩余重建损失Coµcp$@µp$joµLSTMLSTMΤ0GTΤˆ1GTΤˆ2GTGT陈我我我r10的GRR1LSTMGRR2LSTMGRGRRNConv+ReLUConv+ReLUConv+ReLUConv+ReLUConvConvConv+ReLU级联Conv+ReLUConv+ReLUConv+ReLUConv+ReLUConv+ReLU级联级联3569N˜˜˜V千兆克˜˜对预测无反射传输层很重要其中T,R 和预测的传输,预-ers[4,33,27,31],因为它向网络指示remo val应该集中在哪里。 在我们的工作中,Tt−1和Rt−1被用来作为步骤t(1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功