「HDR视频重建：粗到精的深度学习框架及真实世界数据集」

71 浏览量更新于2023-10-14 收藏 21.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

......125020HDR视频重建：一个粗到精网络和一个真实世界基准数据集0陈冠英1,2 陈超峰1 郭石2,3 梁哲通2,30黄坤仪1 张磊2,301香港大学计算机科学系 2阿里巴巴达摩院 3香港理工大学计算机系0摘要0从交替曝光的序列中重建高动态范围（HDR）视频是一个非常具有挑战性的问题。现有方法通常使用光流在图像空间中对齐低动态范围（LDR）输入序列，然后合并对齐的图像以产生HDR输出。然而，图像空间中的准确对齐和融合由于过曝光区域中的缺失细节和欠曝光区域中的噪声而变得困难，导致不令人满意的幽灵伪影。为了实现更准确的对齐和HDR融合，我们引入了一个粗到精的深度学习框架用于HDR视频重建。首先，我们在图像空间中进行粗对齐和像素混合，以估计粗糙的HDR视频。其次，我们在粗糙的HDR视频的特征空间中进行更复杂的对齐和时间融合，以产生更好的重建结果。考虑到目前没有公开可用的用于HDR视频重建方法的定量和全面评估的数据集，我们收集了这样一个基准数据集，其中包含97个静态场景序列和184个动态场景的测试对。大量实验证明我们的方法优于先前的最先进方法。我们的代码和数据集可以在https://guanyingc.github.io/DeepHDRVideo找到。01. 引言0与低动态范围（LDR）图像相比，高动态范围（HDR）图像可以更好地反映场景的明亮和暗区域的视觉细节。尽管在使用多曝光图像进行HDR图像重建方面取得了显著进展[22,57,59]，但HDR视频重建这个更具挑战性的问题仍然较少研究。与HDR图像重建不同，HDR视频重建必须为每个输入帧恢复HDR（参见图1），而不仅仅是单个帧。0EV+2 EV-2 EV+0 EV+20Kalantari[23]0图1.从具有三个交替曝光的序列中重建HDR视频。第1行显示四个输入LDR帧。第2-3行是重建（色调映射）的HDR帧。0参考帧（例如，中间曝光图像）。现有的成功HDR视频重建技术通常依赖于昂贵和专门的硬件（例如，扫描线曝光/ISO或内部/外部分光镜）[55, 30,62]，这阻碍了它们在普通消费者中的广泛应用。低成本HDR视频重建的一个有希望的方向是利用使用交替曝光的视频序列（例如，具有周期性曝光的视频{EV-3，EV+3，EV-3，...}）。这是实际可行的，因为许多现成的相机在录制过程中可以交替曝光。0沿着这个方向的传统重建流程通常包括两个步骤[25]。在第一步中，使用光流将具有不同曝光的相邻帧对齐到当前帧。在第二步中，合并对齐的图像以产生HDR图像。然而，对于具有不同曝光的LDR图像，准确的对齐和融合很难实现，因为过曝光区域中存在饱和像素值，欠曝光区域中存在噪声。最近，Kalan- tari和Ramamoorthi[23]提出使用深度神经网络估计光流，并使用另一个网络25030用于合并对齐图像的融合权重的工作。尽管相对于传统方法[24, 38, 25,32]取得了改进的结果，但他们的方法仍然依赖于光流对齐和像素混合的准确性，并且在具有大运动区域（见图1的第二行）的区域中存在幽灵伪影。从交替曝光的序列中重建无幽灵HDR视频仍然是一个具有挑战性的问题。最近，可变形卷积[8]已成功应用于视频超分辨率中的特征对齐[56,54]。然而，它们并不适用于具有不同曝光的LDR图像。受到观察到不同曝光的LDR图像之间的准确图像对齐困难以及可变形特征对齐在具有恒定曝光的视频中的成功的启发，我们引入了一个两阶段的粗到精的框架来解决这个问题。第一阶段，称为CoarseNet，使用图像空间中的光流对齐图像并混合对齐图像以重建粗糙的HDR视频。这个阶段可以从输入的LDR图像中恢复/去除大部分缺失的细节/噪声，但在大运动区域中存在一些伪影。第二阶段，称为Re�neNet，使用可变形卷积[8]和时间注意力在粗糙的HDR视频的特征空间中执行更复杂的对齐和融合。这种两阶段的方法避免了从具有不同曝光的图像中估计高度准确的光流的需求，因此降低了学习的难度并消除了最终结果中的幽灵伪影。由于没有公开可用的带有真实HDR的真实世界视频数据集进行评估，因此很难对不同方法进行全面比较。为了缓解这个问题，我们创建了一个包含静态和动态场景的真实世界数据集，作为定量和定性评估的基准。总之，本文的主要贡献如下：0•我们提出了一个两阶段的框架，首先在图像空间中进行图像对齐和HDR融合，然后在特征空间中进行，用于从交0•我们创建了一个以交替曝光方式捕获的真实世界视频数据集，作为评估这个问题的基准。0• 我们的方法在合成和真实世界数据集上取得了最先进的结果。02. 相关工作0HDR图像重建合并多曝光LDR图像是重建HDR图像的最常见方法[9,39]。为了处理动态场景，采用图像对齐来减少幽灵伪影[51,20, 48, 36]。最近的方法应用深度神经网络来合并多个0曝光图像[22, 6, 57, 59, 60,47]。然而，这些方法依赖于固定的参考曝光（例如，中间曝光），不能直接用于从交替曝光序列重建HDR视频。爆发去噪技术[35, 18,33]也可以通过去噪低曝光图像来生成HDR图像。然而，这种技术不能利用高曝光图像中存在的更清晰的细节，并且难以处理极暗场景。有一些方法可以从单个LDR图像中重建HDR。传统方法通过应用图像处理操作（例如，函数映射和滤波）来扩展LDR图像的动态范围[1, 2, 3, 4, 21,29]。这些方法通常无法恢复剪切区域中的丢失细节。最近的方法提出采用CNN进行单图像重建[10, 11, 31, 61, 44,41, 34,50]。然而，这些方法侧重于产生过饱和区域的幻像，不能处理低曝光图像中暗区域的噪声。最近，Kim等人提出了解决联合超分辨率和逆调制问题的方法。他们的目标不是像以前的HDR重建方法那样重建线性亮度图像，而是将标准动态范围（SDR）图像转换为HDR显示格式（即从BT.709到BT.2020）。0HDR视频重建许多现有的HDR视频重建方法依赖于专用硬件。例如，逐像素曝光[46]，扫描线曝光/ISO[16, 19,7]，内部[55,30]或外部[42]分光镜可以将光分到不同的传感器上，模块化相机[62]和神经形态相机[17]。专用硬件的要求限制了这些方法的广泛应用。最近的方法还探索了光学编码器和基于CNN的解码器的联合优化问题[43,53]。有关从交替曝光序列重建HDR视频的工作。Kang等人通过首先使用光流将相邻帧对齐到参考帧，然后将对齐的图像合并成HDR图像[25]。Mangiat和Gibson通过基于块的运动估计和细化阶段改进了这种方法[37,38]。Kalantari等人引入了一种基于块的优化方法，该方法在每个图像上合成缺失的曝光，然后重建最终的HDR图像[24]。Gryaditskaya等人通过引入自适应测光算法改进了[24]，该算法可以调整曝光量以减少由运动引起的伪影。Li等人将这个问题形式化为最大后验估计。最近，Kalantari和Ramamoorthi引入了一个端到端的深度学习框架，其中包含用于对齐的流网络和用于像素混合的权重网络。ConvConvReLUConvStride=1Conv Stride=2Deconv Stride=2ResBlock𝐹!𝐹!"#𝐹!$#𝐿!"%𝐿!"#𝐿!𝐿!$#𝐿!$%#𝐹!"# #𝐹!#𝐹!$#𝐻!"#&𝐻!&𝐻!$#&𝐻!'𝜔#, … , 𝜔&25040输入LDRs010个ResBlocks0可变形对齐0特征融合0对齐特征0重建分支0特征提取器0精细的HDR0�05个ResBlocks0�0�0�0粗糙的HDR0粗糙网络0粗糙网络0粗糙网络0图2. 用于两个交替曝光视频的粗到细框架的网络架构。0空间。与[23]不同，我们的粗到细网络在图像空间和特征空间中依次执行对齐和融合，以获得更好的重建效果。03. 提出的粗到细框架03.1. 概述0给定一个使用交替曝光拍摄的LDR视频{˜Li | i =1，...，n}，我们的目标是重建相应的HDR视频{Hi | i =1，...，n}，如图1所示。预处理根据以前的方法[24，32，23]，我们假设原始输入图像˜Li的相机响应函数（CRF）[14]F已知。在实践中，可以使用线性方法[9]稳健地估计相机的CRF。与[23]一样，我们用固定的伽马曲线替换输入图像的CRF，即Li =（F-1（˜Li））1 / γ，其中γ =2.2。这可以统一不同相机或配置下的输入视频。然后使用相似变换进行全局对齐，以补偿相邻帧之间的相机运动。流程由于存在噪声和缺失的细节，不同曝光的图像之间的准确对齐是困难的。为了克服这些挑战，我们引入了一个两阶段的框架，用于更准确的图像对齐和融合（见图2）。为简单起见，我们在本文中说明了处理两个交替曝光视频的方法，并在补充材料中描述了如何扩展我们的方法以处理三个曝光。第一阶段称为CoarseNet，使用光流对图像进行对齐，并在图像空间中执行HDR融合。它以三个帧作为输入，并为参考（即中心）帧估计一个3通道的HDR图像。该阶段可以恢复/去除参考LDR图像的大部分缺失细节/噪声。给定五个连续的LDR0例如，曝光可以按照{EV-3，EV+3，EV-3，...}或{EV-2，EV+0，EV+2，EV-2，...}的顺序交替进行。0� !"# � !0� !,!%#0� !,!"#0Warp0Warp0$� !%#,!0$� !"#,!0C C0权重网络0� !0� !%#0� !"#0连接C0图3. CoarseNet的概述。0通过使用两个交替曝光的帧集{Li | i = i-2，...，i +2}，我们的CoarseNet可以顺序地为中间三个帧（即Hci-1，Hci和Hci +1）重建粗糙的HDR图像。第二阶段称为Re�neNet，它以这三个粗糙的HDR图像作为输入，为参考帧（即Hri）产生更好的HDR重建。它在特征空间中使用可变形卷积和时间融合进行更复杂的对齐。03.2. 图像空间中的粗糙重建0CoarseNet遵循[23]的设计，包含一个光流估计网络，称为流网络，和一个混合权重估计网络，称为权重网络（见图3）。主要区别在于我们的CoarseNet具有较少的特征通道，因为它只执行粗糙的HDR重建。它首先使用光流将两个相邻帧对齐到中心帧，然后通过混合对齐的图像重建HDR图像。网络细节可以在补充材料中找到。损失函数由于HDR图像通常在色调映射后显示，我们在色调映射的HDR空间中计算损失。根据[22, 57, 59, 23]，我们采用可微分的μ-law函数：0Tci = lo0log(1 + µ)，(1)250!F!"#0!F!0!F!$#0S10参考0特征0相邻特征0学习得到的偏移量可变形卷积0连接0连接0连接0连接0对齐的特征0S20S30F!F!"#0!F!"#0�0�0�0卷积0步长=10�0逐元素0乘积0连接0!F0图4. （a）可变形对齐模块和（b）时间注意力融合模块的结构。0其中Tci是曝光调整后的HDR图像，µ是控制压缩级别的参数，设置为5000。我们使用L1损失Lc = ∥Tci -˜Ti∥1来训练CoarseNet，其中˜Ti是真实的曝光调整后的HDR图像。由于流网络和权重网络都是可微分的，因此可以端到端地训练CoarseNet。03.3. 特征空间中的HDR细化0通过使用由CoarseNet估计的三个粗糙HDR图像（即Hci-1，Hci和Hci+1）作为输入，Re�neNet在特征空间中执行对齐和融合，为中心帧生成更好的HDR重建结果，因为在第一阶段中已经在很大程度上解决了缺失内容或噪声的问题（参见图2的右侧）。我们的Re�neNet首先使用共享权重特征提取器为每个输入（即Fi-1，Fi和Fi+1）提取64个通道的特征。然后使用可变形对齐模块[8，56]将相邻帧的特征对齐到中心帧。使用时间注意力融合模块对对齐的特征进行融合，得到最终的HDR重建结果。可变形特征对齐可变形卷积[8]最近成功应用于视频超分辨率问题的特征对齐（例如EDVR[56]和TDAN[54]）。可变形特征对齐的核心思想如下。给定两个特征（例如Fi-1和Fi）作为输入，偏移预测模块（可以是通用卷积层）预测一个偏移量：0∆pi-1 = f([Fi-1, Fi])。 (2)0通过学习得到的偏移量，可以使用可变形卷积[8]将相邻特征Fi-1对齐到参考帧Fi：0˜Fi-1 = DConv(Fi-1, ∆pi-1)。 (3)0我们采用金字塔、级联和可变形（PCD）对齐模块[56]，该模块执行可变形对齐操作。0（a）0低曝光00.15 1 L01 m 低0（b）高曝光00 0.9 L01 m 高0图5.计算低曝光和高曝光参考图像的权重曲线。L是参考LDR图像的像素值。0在三个金字塔级别中进行对齐，作为我们的特征对齐模块（参见图4（a））。这个对齐过程是隐式学习的，以优化最终的HDR重建结果。多特征融合给定对齐的特征（˜Fi-1，˜Fi和˜Fi+1），我们提出了一个时间注意力融合模块，用于抑制不对齐的特征并合并互补信息，以获得更准确的HDR重建结果（参见图4（b））。每个特征与参考特征连接后作为两个卷积层的输入，用于估计与特征大小相同的注意力图。然后，每个特征根据其对应的注意力图进行加权。最后，三个加权特征被连接并使用一个卷积层进行融合。HDR重建分支以融合的特征作为输入，并回归HDR图像（Hri）。添加了两个跳跃连接，将编码器特征与具有相同维度的解码器特征连接起来。请注意，我们的Re�neNet旨在改善CoarseNet在曝光不良区域的结果。对于低曝光图像，我们经验性地定义像素值小于0.15的区域为曝光不良区域，而对于高曝光图像，像素值大于0.9的区域为曝光不良区域[24]。最终预测的HDR计算公式如下：0Hi = Mi ⊙ Hci + (1 − Mi) ⊙ Hri, (4)0其中Mi是指示参考帧i的曝光良好区域的掩码，⊙是逐元素乘积。图5显示了如何计算低曝光和高曝光参考图像的Mi。例如，低曝光参考图像Li的曝光良好掩码计算如下：0Mi =01，如果Li >= 0.15 (Li / 0.15) 2，如果Li< 0.15 (5)0损失函数我们采用L1损失和感知损失来计算Re�neNet的损失，即Lr = Lr l1 + Lr perc。L1损失定义为0Lr l1 = ∥ Ti − ˜Ti ∥ 1 / ∥ 1 − Mi ∥ 1, (6)0其中Ti是Hi的调色图像。损失通过未曝光像素的数量进行归一化。感知损失定义为Lr perc =0k ∥ φk(Ti) − φk(˜Ti) ∥ 112345625060表1. 我们的数据集与Kalantari13数据集[ 24]的比较。帧数显示图像编号。2-Exp和3-Exp分别表示具有两个和三个曝光的视频。0静态场景w/GT 动态场景w/GT 动态场景w/o GT 6 - 9 帧 5 - 7 帧 50 - 200 帧数据大小 2-Exp 3-Exp 2-Exp 3-Exp 2-Exp 3-Exp0[ 24 ] 1280 × 720 - - - - 5 4 我们的 4096 × 2168 49 48 76 108 50 500,其中φk(∙)从VGG16网络的第k层中提取图像特征[ 52]。我们使用三个层{relu1_2，relu2_2，relu3_3}来计算损失。04. 真实世界基准数据集0在本节中，我们介绍一个用于定性和定量评估的真实世界基准数据集。现有的真实世界视频数据集目前，还没有带有地面真实HDR的基准数据集。唯一的公共真实世界数据集是Kalantari13数据集[ 24]，它由RGB图像格式的9个动态场景视频组成。然而，由于缺乏地面真实HDR，以前的工作只能在该数据集上定性评估他们的方法。此外，该数据集太小，无法用于未来可能的半监督或无监督学习。数据集概述为了便于对真实数据进行更全面的评估，我们捕获了一个真实世界数据集并生成了可靠的地面真实HDR进行评估。我们使用一台现成的BasleracA4096-30uc相机在各种场景中（包括室内、室外、白天和夜晚场景）捕获了具有交替曝光（即两个和三个曝光）的视频。捕获的视频帧率为26fps，分辨率为4096×2168。捕获了三种不同类型的视频数据，即具有GT的静态场景（Dgts），具有GT的动态场景（Dgtd）和没有GT的动态场景（Dd）。表1比较了我们的数据集和Kalantari13数据集的统计数据。具有GT的静态场景对于静态场景，我们捕获了49个两曝光和48个三曝光序列，每个序列有15-20帧。静态场景的地面真实HDR帧通过合并多曝光图像[ 9]生成。我们首先对具有相同曝光的图像进行平均以减少噪声，然后使用类似于[ 22]的加权函数合并多曝光图像。对于每个场景，我们将发布6-9个捕获的帧和生成的HDR帧。具有GT的动态场景为动态视频生成逐帧地面真实HDR非常具有挑战性。遵循用于捕获动态HDR图像的策略[ 22 ]，我们提出创建由两个02 GT是地面真实HDR的缩写0静态帧0GT HDR0（调色图）0合并HDR0输入LDR（三帧）0参考0帧0图6.生成两曝光场景（3帧）的LDR-HDR对的示例。第1行显示所选图像序列。第2行和第3行分别是低曝光和高曝光参考帧的两个样本对。0图7. 没有GT的动态场景中的示例帧。0输入LDR帧和中心帧的HDR。我们考虑了静态环境，并使用人体模拟视频中的运动。对于每个场景，我们首先要求被试保持静止1-2秒，这样我们就可以找到2个连续的静止帧（或3个连续帧）而不会有运动，以生成该时间戳的HDR图像。然后我们要求被试前后移动（例如挥手或行走）。我们选择一个图像序列，其中心帧是静止帧，并将此序列排列为适当的LDR-HDR对（参见图6的示例）。对于每个具有GTHDR的参考帧，我们还创建了一个具有更大运动的对，通过在帧间隔为2的帧中采样相邻帧，这样可以使配对数量翻倍。总共，我们分别为两曝光（5个输入帧）和三曝光（7个输入帧）的情况创建了76个和108个配对。没有GT的动态场景我们捕获了一个包含不受控制的动态场景的大规模数据集进行定性评估（示例见图7）。具体来说，我们捕获了50个两曝光和50个三曝光序列，每个序列包含约100帧。这个数据集也可以用于未来的半监督或无监督训练。数据处理我们保存了捕获视频的原始数据，并进行了去马赛克、白平衡、颜色校正和伽马压缩（γ=2.2）的处理，使用记录的元数据将原始数据转换为RGB数据。在本文中，我们将图像重新缩放为1536×813进行评估。捕获的原始数据和处理后的图像都将被发布。25070表2. 合成数据集上的平均结果。02-曝光 3-曝光方法 PSNR HDR-VDP2 HDR-VQM PSNR HDR-VDP2 HDR-VQM0Kalantari13 [24] 37.53 59.07 84.51 30.36 56.56 65.90 Yan19 [59] 39.05 70.6171.27 36.28 65.47 72.20 Kalantari19 [23] 37.48 70.67 84.57 36.27 65.51 72.58我们的方法 40.34 71.79 85.71 37.04 66.44 73.3805. 实验0在本节中，我们在合成和真实数据集上进行实验，以验证所提方法的有效性。我们将我们的方法与Kalan- tari13[24]、Kalantari19 [23]和Yan19 [59]进行了比较。Kalan-tari13[24]是一种基于优化的方法，我们使用公开可用的代码进行测试。请注意，Yan19[59]是一种用于多曝光HDR图像重建的最先进方法，我们通过改变网络输入将其适应于视频重建。我们重新实现了[23,59]并使用与我们方法相同的数据集进行训练。我们使用PSNR（在µ-law调制域中）、HDR-VDP-2 [40]和HDR-VQM[45]评估估计的HDR。HDR-VQM用于评估HDR视频的质量。实验中的所有视觉结果都使用Reinhard等人的方法[49]进行了调制，遵循[23, 24,25]。此外，还进行了用户研究[5]（即配对比较测试）。05.1. 训练数据集和细节0合成训练数据集由于没有公开可用的具有交替曝光和其真实HDR的真实视频数据集，我们采用合成数据进行训练。按照[23]的方法，我们选择了21个HDR视频[12,30]来合成训练数据集。由于HDR视频数据集的大小有限，我们还采用了高质量的Vimeo-90K数据集[58]作为源视频。更多细节请参阅我们的补充材料。数据增强由于训练数据是从干净的HDR视频生成的，所以生成的输入序列中的低曝光图像缺乏噪声。为了弥补这个差距，我们在输入的线性域中随机添加了零均值的高斯噪声（σ=10^-3）。我们还使用伽马函数（γ=exp(d)，d∈[-0.7,0.7]）扰动参考图像的色调，以模拟可能不准确的CRF [23,13]。应用了随机的水平/垂直翻转和旋转。从中裁剪出大小为256×256的补丁作为网络输入。实现细节我们使用Adam优化器[28]进行训练，使用默认参数。我们首先使用批量大小为16训练CoarseNet10个时期，然后使用批量大小为8训练Re�neNet15个时期。对于两个网络，学习率最初设置为0.0001，并在每5个时期减半一次。我们0重叠输入 Kalantari13 Kalantari19 我们的 GT HDR0图8. 合成数据集上的视觉结果。0重叠输入 Kalantari13 Kalantari19 我们的 GT HDR0图9.静态场景上通过随机全局运动增强的视觉结果。第1行是两曝光场景，第2行是三曝光场景。0然后，我们对整个网络进行了端到端的微调，使用学习率为0.00002，进行了2个epoch。05.2. 合成数据集上的评估0我们首先在使用两个HDR视频（即POKERFULLSHOT和CAROUSEL FIREWORKS）[ 12]生成的合成数据集上评估了我们的方法，这两个视频都没有用于训练。每个视频包含60帧，分辨率为1920×1080。在低曝光图像上添加了随机高斯噪声。表2清楚地显示了我们的方法在该数据集上的所有指标都优于以前的方法。图8可视化了我们的方法可以有效地去除重建的HDR中的噪声（顶部行）和幽灵伪影（底部行）。05.3. 真实数据集上的评估0为了验证我们的方法在真实数据上的泛化能力，我们在引入的真实世界数据集和Kalantari13数据集[ 24]上评估了所提出的方法。在静态场景上的评估我们在D gts上评估了我们的方法，通过随机全局运动增强（即每帧的随机平移范围为[0,5]像素）。我们没有对所有方法的输入帧进行预对齐，以研究它们对具有不准确全局对齐的输入的鲁棒性。表3（a）显示了我们的方法在两曝光场景中取得的最佳结果，以及在三曝光场景中取得的最鲁棒的结果。尽管Kalantari13 [ 24]在三曝光场景中的平均PSNR值略高（即39.77 vs.39.75），但它在过曝光区域存在幽灵伪影（见图9）。在动态场景上的评估表3（b）总结了D gtd上的结果，我们的方法表现最好Kalantari13 [24]40.0073.7040.0470.0840.0271.8976.2239.6173.2439.6773.2440.0167.9039.7770.3779.55Yan19 [59]34.5480.2239.2565.9636.9073.0965.3336.5177.7837.4569.7939.0264.5737.6670.7170.13Kalantari19 [23]39.7981.0239.9667.2539.8874.1373.8439.4878.1338.4370.0839.6067.9439.1772.0580.70Ours41.9581.0340.4171.2741.1876.1578.8440.0078.6639.2773.1039.9969.9939.7573.9282.87Kalantari13 [24]37.7374.0545.7166.6741.7270.3685.3337.5372.0336.3865.3734.7362.2436.2166.5584.43Yan19 [59]36.4185.6849.8969.9043.1577.7978.9236.4377.7439.8067.8843.0364.7439.7570.1287.93Kalantari19 [23]39.9486.7749.4969.0444.7277.9187.1638.3478.0441.2166.0742.6664.0140.7469.3789.3625080表3. 引入的真实数据集上的定量结果。显示了每个曝光和所有曝光的平均结果。红色文本表示最佳结果，蓝色文本表示第二好的结果。0(a) 在带有GT的静态场景上的结果 ( D gt s ) ，通过随机全局运动增强。02-曝光 3-曝光0低曝光高曝光全曝光低曝光中曝光高曝光全曝光方法 PSNR HDR-VDP2 PSNR HDR-VDP2 PSNR HDR-VDP2 HDR-VQM PSNR HDR-VDP2 PSNR HDR-VDP2 PSNR HDR-VDP2 PSNR HDR-VDP2 HDR-VQM0(b) 在带有GT的动态场景上的结果 ( D gt d )。02-曝光 3-曝光0低曝光高曝光全曝光低曝光中曝光高曝光全曝光方法 PSNR HDR-VDP2 PSNR HDR-VDP2 PSNR HDR-VDP2 HDR-VQM PSNR HDR-VDP2 PSNR HDR-VDP2 PSNR HDR-VDP2 PSNR HDR-VDP2 HDR-VQM0我们的方法 40.83 86.84 50.10 71.33 45.46 79.09 87.40 38.77 78.11 41.47 68.49 43.24 65.08 41.16 70.56 89.560重叠的修补Kalantari13 [ 24 ] Yan19 [ 59 ] Kalantari19 [ 23 ] CoarseNet CoarseNet+Re�neNet0图10.动态场景的视觉结果与GT（两个曝光场景）。0所有指标。与我们的方法相比，Kalantari13 [ 24]在动态场景中的性能下降得很快，因为该数据集包含更具挑战性的局部运动。图10显示了在图像空间中执行对齐和融合的方法[ 24 , 23]在运动边界周围产生不良伪影。相反，我们的两阶段粗到精的框架能够实现更准确的对齐和融合，因此对于具有大运动的区域具有鲁棒性，并且对于具有两个和三个曝光的场景产生无幽灵的重建。0在Kalantari13数据集上的评估然后我们在Kalantari13数据集上评估了我们的方法。请注意，Kalantari19 [ 23]对于该数据集的结果是由作者提供的。图11比较了来自THROWING TOWEL2EXP场景的三个连续帧的结果，我们的方法在视觉结果上取得了显著更好的效果。对于高曝光参考帧，我们的方法可以恢复过曝区域的细节而不引入伪影（见第1行和第3行）。相比之下，基于光流对齐和图像融合的方法[ 24 , 23]在过曝区域产生伪影。对于低曝光参考帧，与Kalantari13 [24 ]相比，我们的方法可以去除噪声并保持结构0对于暗区域（见第2行）。更多定性比较请参考我们的补充材料。0用户研究我们还对动态场景数据集（3-Exp）进行了用户研究，以进一步证明我们结果的视觉质量（见图12）。我们邀请了33名参与者对36对图像进行了偏好选择。请注意，参考中也显示了GTHDR。总体上，76％和78％的用户更喜欢我们的方法的结果，而不是Kalantari13 [ 24 ]和Kalantari19 [ 23]的结果，这再次证明了我们方法的有效性。05.4.网络分析0我们首先讨论了网络参数和运行时间，然后对所提出的方法进行了消融研究。参数和运行时间表4比较了三种方法的参数和运行时间。请注意，Kalantari19 [ 23]和我们的方法是在NVIDIA V100 GPU上运行的，而.25090（a）输入参考帧（b）Kalantari13 [ 24 ]（c）Kalantari19 [ 23 ]（d）我们的方法0图11. Kalantari13数据集中THROWING TOWEL 2EXP场景的视觉比较0表4.生成不同分辨率HDR帧的模型参数和运行时间。02-Exposure 3-Exposure方法 # 参数 1280×720 1920×1080 1280×720 1920×10800Kalantari13 [ 24 ] - 125s 185s 300s 520s Kalantari19 [ 23 ] 9.0M 0.35s 0.59s 0.42 0.64我们的方法 6.1M 0.51s 0.97s 0.64 1.09s0Kalantari13 [ 24]是在CPU上运行的。我们的模型包含了610万个参数，其中CoarseNet有310万个参数，Re�neNet有300万个参数。我们的方法在大约1秒钟内生成一个分辨率为1920×1080的HDR帧，与Kalantari19 [ 23 ]相当，并且比Kalantari13 [ 24]快得多。0粗到精的架构为了验证我们粗到精的架构的设计，我们将我们的方法与两个基线进行了比较。第一个是CoarseNet，它在图像空间中执行光流对齐和融合（类似于[ 23]）。第二个是Re�neNet†，它直接将LDR帧作为输入，在特征空间中执行对齐和融合。表5中ID为0-2的实验结果显示我们的方法在三个数据集上取得了最好的结果，证明了我们粗到精的架构的有效性。0Re�neNet的网络设计为了研究可变形对齐（DA）模块和时间注意力融合（TAF）模块的效果，我们训练了两个变体模型，一个没有DA模块，一个在特征串联后用卷积替换TAF模块。表5中的ID2-4的实验表明，删除任何一个组件都会导致性能下降，验证了Re�neNet的网络设计。0表5.对两个交替曝光的数据集进行消融研究。CNet和RNet分别代表CoarseNet和Re�neNet。0合成数据集 D gt s D gt d ID Method PSNR HDR-VDP2 PSNR HDR-VDP2 PSNR HDR-VDP200 CNet 39.25 70.81 40.62 74.51 44.43 77.74 1 Re�neNet † 39.69 70.95 37.61 75.30 43.70 78.9702 CNet + RNet 40.34 71.79 41.18 76.15 45.46 79.0903 CNet + RNet w/o DA 39.72 71.38 40.52 74.79 45.09 78.24 4 CNet + RNet w/o TAF 40.0371.66 40.80 76.12 45.17 78.9906. 结论0我们提出了一种从交替曝光序列中重建HDR视频的粗到精的深度学习框架。我们的方法首先在图像空间中进行粗糙的HDR视频重建，然后在特征空间中对粗糙的预测进行改进，以消除幽灵伪影。为了在真实数据上进行更全面的评估，我们为这个问题创建了一个真实世界的基准数据集。对合成和真实数据集的大量实验证明，我们的方法明显优于先前的方法。0目前，我们的方法是在合成数据上进行训练的。由于我们已经捕捉到了大规模的动态场景数据集，我们将来将研究自监督训练或使用真实世界视频进行微调。07. 致谢0本工作得到阿里巴巴达摩学院、香港研究资助局RIF基金（R5001-18）和香港研究资助局GRF基金（项目编号17203119）的支持。25100参考文献0[1] Ahmet Oˇguz Akyüz，Roland Fleming，Bernhard ERiecke，Erik Reinhard和Heinrich HBülthoff。HDR显示器支持LDR内容吗？心理物理评估。TOG，2007年。20[2] Francesco Banterle，Kurt Debattista，AlessandroArtusi，Sumanta Pattanaik，Karol Myszkowski，PatrickLedda和AlanChalmers。用于生成HDR内容的高动态范围成像和低动态范围扩展。在计算机图形学论坛中，2009年。20[3] Francesco Banterle，Patrick Ledda，KurtDebattista和AlanChalmers。反向色调映射。在第四届澳大利亚和东南亚计算机图形和交互技术国际会议论文集中，2006年。20[4] Francesco Banterle，Patrick Ledda，KurtDebattista和AlanChalmers。将低动态范围视频扩展到高动态范围应用中。在第24届计算机图形学春季会议论文集中，2008年。20[5] MarceloBertalmío。高动态范围和宽色域成像的视觉模型：技术和应用。Academic Press，2019年。60[6] Jianrui Cai，Shuhang Gu和LeiZhang。从多曝光图像中学习深度单图对比度增强器。TIP，2018年。20[7] Inchang Choi，Seung-Hwan Baek和Min HKim。使用联合学习重建交错高动态范围视频。TIP，2017年。20[8] J. Dai，H. Qi，Y. Xiong，Y. Li，G. Zhang，H. Hu和Y.Wei。可变形卷积网络。在ICCV，2017年。2，40[9] Paul E Debevec和JitendraMalik。从照片中恢复高动态范围辐射图。在SIGGRAPH，1997年。2，3，50[10] Gabriel Eilertsen，Joel Kronander，Gyorgy Denes，Rafał KMantiuk和JonasUnger。使用深度CNN从单个曝光中重建HDR图像。TOG，2017年。20[11] Yuki Endo, Yoshihiro Kanamori, and Jun Mitani.深度逆色调映射. TOG, 2017. 20[12] Jan Froehlich, Stefan Grandinetti, Bernd Eberhardt, SimonWalter, Andreas Schilling, and Harald Brendel.为评估色调映射算法和HDR显示器创建宽广色域HDR视频. InDigital Photography X, 2014. 60[13] Raquel Gil Rodríguez, Javier Vazquez-Corral, and MarceloBertalmío.关于相机流水线的常见假设问题及其对多曝光HDR成像的影响.SIAM Journal on Imaging Sciences, 2019. 60[14] Michael D Grossberg and Shree K Nayar.相机响应函数的空间是什么？ In CVPR, 2003. 30[15] Yulia Gryaditskaya, Tania Pouli, Erik Reinhard, KarolMyszkowski, and Hans-Peter Seidel.用于HDR视频的运动感知曝光括号. In Computer GraphicsForum, 2015. 20[16] Saghi Hajisharif, Joel Kronander, and Jonas Unger.自适应双ISO HDR重建. EURASIP Journal on Image and VideoProcessing, 2015, 2015. 20[17] Jin Han, Chu Zhou, Peiqi Duan, Yehui Tang, Chang Xu,Chao Xu, Tiejun Huang, and Boxin Shi.神经形态相机引导的高动态范围成像

下载后可阅读完整内容，剩余1页未读，立即下载