没有合适的资源?快使用搜索试试~ 我知道了~
具有控制失真率的神经视频编解码器
5365一种具有空间率失真控制的神经视频编解码器NoorFathima,JensPetersen,GuillaumeSautie` re,Auk eWiggers,RezaPourrezaQualcomm AI Research{mohamedg,jpeterse,gsautie,auke,pourreza} @ qti.qualcomm.com摘要14.25NIQE on DAVIS valVMAF on DAVIS val94神经视频压缩算法在率失真性能和主观质量方面几乎可以与手工编解码器然而,许多神经编解码器是不灵活的黑盒,并且使用户几乎无法控制重构质量和比特率。在这项工作中,我们提出了一个灵活的神经视频编解码器,结合了可变比特率编解码器和基于感兴趣区域的编码的想法。通过将我们的模型设置在全局率失真折衷参数和14.0013.7513.5013.2513.0012.750.05零点一0.150.200.25零点半BPP9290888684820.050.100.150.200.25零点半BPP感兴趣(ROI)掩模,我们获得了动态控制每帧的比特率和重建质量的ROI在测试时间。所得到的编解码器实现了实际使用情况,例如在具有固定ROI质量的比特率约束下进行编码,同时在性能上对固定速率模型的影响可以忽略不计。 我们发现,我们的编解码器在具有复杂运动的序列上表现最好,在感兴趣的区域中 , 我 们 的 性 能 大 大 优 于 非 ROI 编 解 码 器 ,Bjøntegaard-Delta速率节省超过60%。1. 介绍有损压缩算法旨在以两种方式压缩给定数据:识别冗余,并选择性地省略部分数据。这些算法旨在找到比特率之间的折衷,即,传输压缩表示所花费的比特数,以及失真,即原始数据与其重构之间的差异。基于神经网络的视频编解码器学习从示例数据中识别冗余,在率失真(R-D)性能方面有很大的进步[23,15,1,34,42,33]。然而,只有少数神经编解码器可以实际部署在现实的视频压缩设置中,因为它们是不灵活的:通常一种模型仅支持平均以特定比特率进行编码,并且比特率根据数据的复杂度而变化。此外,大多数神经方法不区分视频的语义重要区域和背景区域,这可能Qualcomm AI Research是Qualcomm Technologies,Inc.图1:DAVIS val上的VMAF(↑)和NIQE(↓)用于节省比特而没有感知质量降级。为了克服这些问题,最近的工作旨在提高其灵活性。一方面,可变比特率编解码器通过使用控制参数控制每帧比特率来在固定比特率约束下实现编码[13,25,34另一方面,基于感兴趣区域(ROI)的编解码器[20,8,47,31,38]通过在帧内重新分配比特来实现对语义重要区域的高精度编码。在这项工作中,我们介绍了一个多速率的ROI为基础的视频编解码器,统一这两个概念。这里的主要挑战是缺乏视频压缩数据集的可用ROI掩模,以及时间不一致的影响。影响重建质量的ROI掩模中的重叠我们解决这两个问题的人工ROI掩模生成过程的Perugachi-Diaz等人。[31 ]第30段。然而,与[31]不同的是,每个权衡点训练一个模型,我们训练一个模型来覆盖多个比特率和ROI质量权衡点。最终结果是一个多速率的基于ROI的编解码器,一个参数控制全局速率,另一个参数控制ROI和非ROI之间的相对失真和比特分配两者都可以在测试时动态调整,从而提高灵活性。我们相信我们是第一个提供这种测试时间灵活性的视频编解码器。我们在DAVIS上评估了我们的编解码器,DAVIS是一个具有公开可用语义注释的视频数据集[32],并表明与单速率和多速率基线相比,ROI的质量得到了大幅改善,超过60%我们的=29.91我们的=17.56我们的=3.02我们的 =1.7多频率(基线)NIQEVMAF5366LL−Bjøntegaard-Delta率(BD率)[5]在投资回报率方面的节省。此外,我们提取标准视频压缩数据集的ROI掩码,以便使用在MS-COCO(一种现成的分割网络)上训练的HRNet [43我们在具有高运动内容的视频上观察到最大的成功,例如体育场景和摇摄相机的视频,并且 看 到 感 知 指 标 的 改 善 , 例 如 VMAF [21]和 NIQE[29],如图所示。1.一、然而,将我们的方法与用于ROI保真度的朴素控制器一起应用于背景是静态的视频(诸如视频会议)效果不太好。我们提供的证据表明,这可以使用更智能的率保真度控制算法来解决,例如通过提高序列中第一帧的非ROI质量。总之,这项工作的贡献是:(a) 第一个基于ROI的多速率神经视频编解码器,可以动态控制和调整本地(帧内)和全局(每帧)比特率分配。(b) 对常见视频数据集进行定性和定量评估,证明感兴趣区域的R-D性能大幅提高,BD速率节省高达60%。(c) 有证据表明,像电话会议这样的用例并不能从简单的ROI编码中受益,并且可以在具有高运动内容的视频中实现更大的增益,并通过使用更智能的速率保真度控制算法。2. 背景和相关工作2.1. 神经数据压缩基于神经网络的数据压缩已应用于许多领域,包括图像[41,40,3,35,28]和视频[23,36,15,14,1,34,18]设置。与手工设计的编解码器(诸如HEVC [39])相比,神经编解码器学习从示例数据中权衡比特率和失真。该折衷由损失函数中的超参数βL=E[βLrat e(z)+Ldis t(x,x∈)].(一)这里,z是从编码器r获得的量化的潜在变量,并且x是通过使z通过解码器网络获得的重构通过使用上下文模型或先验pθ学习它们的分布p(z),使用熵编码进一步压缩潜在变量。z的量化通常使用量化噪声、可区分的弛豫或两者的组合来执行[3,40]。在给定的比特率下,训练编解码器的失真损失dist确定了所得到的重建看起来像什么。Mean Squared Error(MSE)这是一种常见的选择,因为它直接与峰值信噪比(PSNR)评估指标相关。其他成熟的手工指标包括结构 相似 性指 数测 量( SSIM) [44]及 其多 尺度 变体(MS-SSIM)[45]。率损失率=logpθ(z)是在先验下的量化潜在的负对数似然,并且通常以每像素比特来测量。2.2. 可变比特率压缩神经编解码器通常被训练用于单个R-D权衡,即,一个模型用预定义的折衷参数β训练。使用Eq的损失。1,编解码器将平均达到折衷点。然而,具有很少冗余或不可预测的运动的视频内容通常将需要比平均值更多的比特。这对实际设置造成了问题,其中最大允许比特率由带宽确定,对于更有挑战性的帧,不能超过带宽为了支持此用例,必须部署多个单速率模型,从而导致内存开销。尽管存在允许训练编解码器满足目标比特率的解决方案[37],但更常见的解决方案是部署多速率编解码器,其在单个模型中支持一系列比特率[9,11,13,25,31,38,25]。一些可变比特率方法通过潜在缩放来改变量化策略。该方法通过在传输前用因子s缩放预量化潜伏期来改变量化仓宽[9,13,25,31]。这种方法的主要优点在于,理论上,单速率编解码器可以通过仅训练潜伏缩放辅助网络而转变为可变速率编解码器。一个限制是缩放因子s必须与潜在z一起传输,但该成本通常分摊在传输数据的大小训练这种模型的另一种常见方法是提供R-D权衡参数β作为模型输入。在训练期间,从预先指定的范围中采样不同的β参数,并且从Eq. 1已相应更改。这种方法的示例可以在图像[11,38]和视频[34,49]设置中找到在这项工作中,我们使用β-条件反射。2.3. 基于ROI的压缩基于ROI的压缩,有时被称为基于对象的编码或语义压缩,描述了能够以高保真度对指定的感兴趣区域进行编码的算法。与在“全局”级别(例如,在每帧的基础上)权衡速率和失真的可变比特率方法不同基于神经ROI的编解码器通常通过提供空间图作为指示感兴趣区域的模型的输入来实现这一点[2,8,22,38],尽管潜在缩放已经被实现。5367−不--不⊙ROI2DistBGαDist也是为了这个目的[25]。改变损失以激励模型强调ROI中的保真度,例如通过强调非ROI的速率项[47]或通过不强调非ROI的失真项[31]。一些神经图像编解码器提取ROI作为压缩算法的一部分。Cai等人[8] Liet al.[20]隐式地学习ROI,用编码器生成的空间映射来此外,存在通过在编解码器内部执行前景-背景分离来同时提取ROI并压缩数据的视频工作[46,17]。虽然这是一个直观的选择,因为前景可能对感知质量很重要,但我们选择在这项工作中分离ROI提取和压缩以保持灵活性。这也使得optimiz-如[38]中所示,为下游任务设置ROI掩码。与我们的工作关系最密切的是Perugachi-Diaz等人。[31],他们介绍了两种基于比例空间流(SSF)模型的基于ROI的架构[1]。我们相信,(1)架构和培训计划以及(2)我们的评估中的细节使我们的工作与众不同。对于(1),虽然我们的基础模型类似于[31]的隐式ROI SSF,但我们动态地以α和β为条件,而[31]为每个α和β训练一个模型。我们的改变导致更实用的编解码器,并且能够对全局和局部速率权衡进行彻底的调查,特别是通过图1中的ROI与非ROI BD速率图。3.第三章。此外,对这些参数的调节实现了类似于标准编解 码 器 ( 如 H.265 [39] ) 的 速 率 控 制 功 能 。 对 于(2),我们提供了比[31]更广泛的评估,包括对标准视频压缩数据集UVG和HEVC-E2的定性和定量分析。后者允许我们测试基于ROI的编码对电话会议的适用性的假设,这是该领域许多工作的主要动机之一[10,16,26]。我们相信,我们的研究结果表明,天真的ROI编码可能不太适合静态场景,如电话会议。3. 方法3.1. 损失函数类似于Perugachi-Diazet al. [31],我们使用通过因子β显式控制全局比特率的损失,并通过因子α和给定的ROI掩码m控制ROI与非ROI的保真度。这相当于设置以下失真损失(为简洁起见,我们省略了损失项的参数):L=EβL率+LROI+1LBGβ(2)这里,表示元素级乘积,m包含二进制值0,1。高α对应于背景保真度不太重要的设置,而α=1对应于前景和背景在预期中同等重要的情况3.2. 架构我们模型的出发点是Agustsson等人的SSF模型。[1]我们在这里简单解释一下。SSF由I帧和P帧编解码器组成。序列中的第一帧x0使用I帧编解码器传输,其余帧由P帧编解码器传输。对于每个时间步长t >1,使用P帧流模型来传输重建x_t>1与地面实况帧x_t之间的运动,并且使用运动补偿来获得初始预测x_t_w_arp然后,使用P帧残差模型来计算和发送该预测帧与目标帧之间的残差。我们修改SSF,使全球和本地比特率控制。我们的编解码器的可视化如图所示。二、对于每个帧,一个全局权衡参数βt、局部权衡参数αt和ROI掩模mt被输入到模型。ROI掩模和α被组合以形成加权ROI掩模mα。虽然αt没有显式地发送到接收器,但βt被发送,因为它用于调节接收器端的解码器。我们称由此产生的架构多速率多失真SSF(MR-MD-SSF)。我们强调,SSF不再提供最先进的性能,但它是一个经过充分测试的基线,使我们能够证明我们的多失真方法的好处。重要的是,有一个既定的开源实现[4],而最近的架构,如ELF-VC没有提供一个。我们最初试图复制ELF-VC作为基础模型,但没有设法以稳定的方式训练它。尽管如此,我们相信我们的发现应该可以应用到其他的结构上,如条件反射块(见图1)。2)可以添加到任何卷积层。全局比特率控制:该模型使用条件卷积以速率折衷参数β t为条件[11]使用缩放和移位参数来调制特征图,如图2所示2在右边具体而言,对于网络中的每个激活,条件块输出每个通道的尺度和偏移。我们采用常用的one-hot嵌入表示进行调节[11,34],在此表示为βt,其中范围被离散化为固定值箱数不是将βt四舍五入到最接近的匹配-在bin中,使用插值来获得软嵌入向量。尽管没有根本的原因,一个-热嵌入应该优于简单地提供βt作为Ldist(x,x<$,m)=m<$(x−x<$)(3)一个标量输入,我们发现这会导致更容易的训练,实践 对于所有的实验,我们使用一个独热嵌入Ldist(x,x<$,m)=(1−m)<$(x−x<$)(四)具有4个仓的向量,并且βt作为16位整数传输。25368不-×−-⊙图2:MR-MD-SSF架构。每个编码器和解码器中的激活基于βt进行缩放和移位,使用右侧所示的条件块。βt作为16位整数发送到接收器。本地比特率控制:失真折衷参数α被提供给视频序列中的所有帧。当α在等式中使用时2为了权衡ROI和非ROI区域中的失真,它影响在因此,α间接影响ROI和非ROI区域的比特率分配。我们将α和ROI掩模mt结合起来,为每个时间步mα创建加权ROI掩模。该掩码作为输入提供给I帧和P帧编解码器中的每个编码器。早期的实验表明,使用条件卷积层以类似于β的方式对α进行调节并没有比当前方法带来好处。3.3. 训练方法采样α和β因子:期间培训速率折衷参数β从范围[0. 0001,0。对于该批中的每个视频序列。我们从偏态分布中对β进行采样,使得低β比高β更频繁地被采样该过程是首先从偏态均匀分布U(0,1)γ中采样uβ,并使用映射uβ→β,如下所示:log2β=(log2(β max))log2(β min))uβ+log2(βmin)(五)对于所有实验,我们使用γ=3。在对β进行采样之后,使用上述嵌入方案来嵌入它,以创建调节β的模型。这种调节在编码器和接收器侧都使用。ROI权衡参数α的采样类似于β:uα从U(0,1)中提取,并且到α的转换遵循等式:5,但使用1uα作为输入,使得最大uα对应于最小α。后者是在范围[1,60],并且对每个视频序列采样一个α。我们将ROI掩模m和采样的uα值组合以创建加权的ROI掩模mα=(1m)uα+m,其作为输入提供给编码器。注意,我们为模型提供了值uα,其范围在[0,1]内,而损失(等式2)为:2)用范围[1,60]中的α加权。通过仅将掩模作为输入提供给编码器而不是使用单独的模型,编解码器可以学习何时传输α和ROI掩模或者何时省略它们。损失函数确保ROI掩模不会被忽略。当α=1时,即uα=1时,调节掩模m在任何地方都是1,这与不使用ROI的设置完全一致这种设计选择可以轻松与非ROI编解码器进行比较,因为我们可以将α=1的评估直接与不考虑ROI的基线进行比较。4. 实验4.1. 数据集除非另有说明,否则我们使用Vimeo90K数据集[48]来训练我们的模型和SSF基线。它包含89,800个不同的场景和动作序列。接下来[31],我们使用柏林噪声[30]生成时间上一致的ROI掩模。请注意,这些掩码与底层数据没有为了进行评估,我们使用DAVIS [32](val子集),这是一种用于视频分割的常见基准,因为它具有高质量的注释。由于注释对于压缩基准数据集不可用,因此我们使用HRNet [43]的开源实现来预测UVG [27]和HEVC类E2的掩码。有关面罩生成的更多详细信息,请参见App。B.2.P帧编解码经纱扭曲预测10%$$#$+里河残余解码器流译码器(t(t(美(tW$流量编码器(t-残余编码器雷亚第一重建第0个后续重建#tI帧编解码器I译码器(0条件块FCz0FC+(0I编码器Conv一热式(第不加权ROI掩模帧输入0加权ROI掩模不帧输入不加权不ROI掩膜5369= 1.0= 26.5BD率(ROI)×L42.52040.0037.535.02032.54030.027.5600.0 0.1 0.2 0.30.442.540.037.535.032.530.027.50.0 0.1 0.2 0.30.40 1002003004005006002002040600.0 0.1 0.2 0.30.442.540.037.535.032.530.027.50.0 0.1 0.2 0.3 0.4 0 1002003004005006002002040600.00.10.20.30.40.00.10.20.30.40100200300400500600BPPBPPBD率(非ROI)图3:左侧和中间:α = 1和α = 26时的R-D。五、右:相对于SSF的ROI和非ROI BD率4.2. 培训和评估详情我们的模型是从SSF [1]模型温启动的,该模型针对单速率和失真权衡(β=0)进行训练。0001,α=1。0)进行1M次迭代,然后使用我们的架构增强和ROI感知损失ROI对额外的30万次迭代进行微调。我们裁剪3个时间步长的视频片段,大小为256 256。我们使用亚当优化器[19],前150k次迭代的学习率为10−4,其余迭代的学习率降低到10−5为了进行公平的比较,所有基线SSF模型都以相同的方式进行微调。我们在RGB颜色空间中计算每帧分数,然后对每个视频的帧进行平均,最后对所有视频进行平均,以获得给定数据集的分数我们报告的结果是基于12的图像组(GOP)大小,以与其他神经压缩工作保持一致[24,31,33],即,一个I帧之后是11个P帧。5. 结果5.1. 定量结果我们总结了我们的编解码器的性能图。3.第三章。在左列和中列中,我们展示了α=1,α=26。五、低α对应于ROI和非ROI同等重要的情况,我们看到我们的模型与使用单速率和单失真目标训练的基础SSF模型表现相似。这是一个重要的sanity check:这意味着我们的训练方法和体系结构增强使ROI编码不会对常规编码性能产生重大影响。高α对应于ROI PSNR被认为比非ROI PSNR更重要的情况。对于DAVIS和UVG数据集,ROI PSNR大幅提高,但代价是非ROI PSNR。由于ROI通常仅覆盖这些数据集的帧的一小部分,因此总PSNR主要取决于非ROI PSNR并且也下降。为了便于比较α值,我们将Bjøntegaard-Delta率(BD率)[5]相对于SSF基线绘制在图3的最右边一列。3.第三章。BD速率是两条R-D曲线之间的距离的度量,在单个标量中求和。在此可视化中,ROI BD率和非ROIBD率相互绘制,以显示α如何影响两个轴上的性能。在这些图中,曲线上的每个点对应于一个uα我们的SSF全帧ROI非r0i多失真(我们的)单失真UVG-ROI公司简介DAVIS val 720p峰值信噪比(dB)峰值信噪比(dB)峰值信噪比(dB)BD率(ROI)BD率(ROI)5370Ours(Vimeo训练)Ours(戴维斯训练)OBIC SSFPerugachi等人⟨⟩联系我们--⟨−⟩↑↓40.037.535.032.530.027.5DAVIS val720p40.037.535.032.530.027.5UVG-ROI40.037.535.032.530.027.5公司简介25.00.000.05零点一0.150.20零点二五零点半BPP8025.00.000.05零点一0.150.20零点二五零点半BPP8025.00.000.05零点一0.150.20零点二五零点半BPP8060 60 6040 40 4020 20 200 0 020 20 2040 40 4060 60 60800 25 50 75 100125150BD率(非ROI)800 100 200 300400BD率(非ROI)800 100200300400500600BD率(非ROI)图4:Vimeo(人造面具)与DAVIS(Real Semantic Masks)模型。BD速率x轴不共享。线性范围1的值。0,. . .、0. 1(对应于α1。0,…39岁8),较大的标记大小表示较大的α(较小的uα)。为了获得一个点,我们相对于SSF基线分别计算ROI和非ROI曲线的BD率。结果是一条曲线,其特征在于ROI和非ROI质量之间的权衡为了提供进一步的直观性,x=0,y=0意味着在R0I和非R0I两者中,每平方根完全等于SSF,x=+50,y=50意味着在非R0I中BD速率增加50%,以便在R0I中节省〜 50%的BD速率。正BD率对应于更差的性能。我们提出以下意见。首先,α控制所有数据集的ROI和非ROI之间的权衡。与针对单个α训练的基于ROI的模型(显示为橙色十字)相比,我们的模型表现相似,表明一个模型可以在性能没有实质性影响的情况下进行权衡。其次,对于低α,SSF的性能要好得多,ROI和非ROI中高达第三,性能随着α的增大而进一步提高,直到达到一个拐点。然后,性能大幅下降。总之,尽管α控制着预期的权衡,但选择它可能需要经验评估。我们的ROI方法对于DAVIS和UVG数据集中的自然视频比对于HEVC E2数据集更成功,HEVC E2数据集的内容类似于视频会议。对于HEVC E2的ROI质量的有限增益的直觉是,当背景是静态的时,甚至SSF也自动地充当ROI编解码器,因为大部分比特将花费在动态前景区域上,并且背景区域的编码是廉价的。的主要原因对于我们的ROI编解码器,非ROI保真度差是I帧保真度:当α = 26时,非ROI模糊。5,并且子PDP帧继承该低质量背景。我们在SEC中进一步分析。5.6,其中我们表明可以使用更好的I帧α控制来提高性能。最后,我们在图1中的DAVIS-val数据集上显示了感知失真评分VMAF [21]()和无参考质量度量NIQE [29]()。1.一、虽然多速率基线匹配或优于我们的α=1模型,但我们具有更高α值的模型在整个比特率范围内获得更好的分数。换句话说,在ROI上花费更多的比特确实提高了整体感知质量,正如这些指标所捕获的那样5.2. 与文献的我们首先比较图1中的ROI视频编码文献。4.第一章我 们 展 示 了 LearntOBIC ROI 图 像 编 解 码 器 [47] 和Perugachi-Diaz等人的“隐式ROI SSF”视频编解码器的基于SSF的变体。[31 ]第30段。我们从[31]中获取这些数字,这意味着两个基线都是在DAVIS- train上训练的。虽然我们优于OBIC,但隐式ROI SSF击败了我们的编解码器。由于我们的架构设计类似于隐式ROI SSF,我们怀疑差异可能是由数据集过拟合引起的。这一点得到了我们在SEC中的泛化研究的5.3,这表明在DAVIS-train上训练导致DAVIS-val上更好的整体性能。此外,在图5.我们将我们的模型与Song等人的模型进行了ROI编码能力的比较。[38],ROI可变速率图像编解码器。我们在全帧内设置中评估我们的MR-MD-SSF,其中视频序列中的每个帧被编码为全帧ROI非r0iBD率(ROI)峰值信噪比(dB)5371Song et al.Ours at =1.Song et al.Ours at =1.BD率(ROI)DAVIS Val -720 p(全帧内模式)40HEVC - E2(全帧内模式)100381038203636303440345032603230700.2 0.4 0.60.8BPP0.10.20.30.40.50.6BPP0 20 40 60 80 100 120 140BD率(非ROI)图5:我们的模型和Song等人的率失真性能。[38]在全帧内模式下。一个I型框架我们在DAVIS Val和HEVC-E2上测量R-D性能。自从1999年的任务不可知评估以来,[38]使用均匀质量掩模完成,ROI和非ROI区域之间没有区别,我们通过设置α=1以类似的方式处理帧。我们在较低的比特率下观察到我们的模型具有更好的PSNR。与非ROI编解码器文献的扩展比较可以在App. D.1.5.3. 合成ROI掩模Perugachi-Diaz等人[31]报告称,使用人工ROI掩模进行训练与使用真实语义注释进行训练一样有效我们无法完全重现这一发现,并请读者参阅App。B.1了解更多详情。毫无疑问,合成掩码允许使用更大的未注释数据集(如Vimeo)进行训练,这应该会导致更好的泛化。为了评估泛化性能,在图。4,我们展示了我们模型的两个版本的性能:第一个是在Vimeo数据集上训练的,带有人工掩码(蓝色),第二个是在DAVIS上训练的,带有真实掩码(或- ange)。我们发现,在DAVIS-val上进行评估时,两种模型的性能相似,DAVIS训练的模型略优于Vimeo训练的模型。然而,当 在 UVG-ROI 和 HEVC-E2 上 评 估 这 两 个 模 型 时 ,DAVIS训练的模型表现出显着的性能下降,这意味着Vimeo训练的模型泛化得更好。我们假设,Vimeo训练模型的性能提高和泛化可能是由于数据集大小更大,因为在DAVIS上使用arti-masks进行训练会导致性能下降,我们在App中讨论了这一点。B.1.5.4. 测试时我们使用官方的开源预训练HRNet-OCR[43]在COCO-Stuff [ 7 ]上训练,以提取UVG [27]和HEVC-E2 [6]序列的掩码(参见App.详情见B.2)。为了了解ROI掩模生成的质量图6:DAVIS-val上的BD-速率曲线实线表示地面实况掩码,虚线表示预测掩码。我们使用HRNet-OCR来提取10个DAVIS值序列的掩码,并使用预测的掩码而不是地面实况注释来评估我们在这些序列上的模型。我们在DAVIS上训练一个带有地面实况注释的模型,在Vimeo90k上训练一个带有合成掩码的模型我们在DAVIS-val上评估这两个模型,使用地面实况掩码或使用HRNet-OCR预测的掩码我们在图中显示了BD率(相对于SSF)。六、对于这两种模型,我们观察到,对于小的α值,地面真实掩码和预测掩码的性能相似。然而,在高α下,当使用预测掩模时,非ROI BD率总之,我们的模型对“噪声”掩码中等敏感尽管如此,这个结果证实了在测试时提取高质量的ROI掩模对于产生高保真度的重建至关重要。5.5. 定性结果在图7中,我们将SSF基线与我们的模型在DAVISval的“Soapbox”序列上进行了比较。每个列对将SSF(左)与我们的模型(右)进行比较。最右边的一对列的速率是左边的一半。我们表明,虽然比特率减半,但我们的模型(最右列)将ROI中的PSNR保持在33dB左右,而SSF(倒数第二列)则从33 dB显著下降到30 dB。如果你把注意力集中在中间一行的特写中的字母“S O”上,这种区别就特别明显我们的模型模糊了非ROI区域(底行),这不像它已经遭受运动模糊那样明显。我们在App中展示了其他定性示例。C.5.6. 非ROI中的误差传播我们观察到,电话会议视频很少包含极端的场景变化,而背景(即,注意人/脸)占据帧的显著部分。因此,在我们的MR+MD SSF模型的情况下,总是传输低质量的背景会损害性能,因为在Vimeo 90 k + perlin noise上训练在DAVIS-train + GT面罩 上训 练使用 GT面罩使用HRNet掩码进行评估峰值信噪比(dB)5372SSF(单一费率,=0.0016)我们(多速率,= 1.0,=0.0017)SSF(单一费率,=0.0064)我们(多速率,= 26.5,=0.0017)BPP = 0.240PSNR = 35.05dBPSNR(ROI)= 33.34dBPSNR(non-ROI)=35.45dBBPP = 0.243PSNR = 34.71dBPSNR(ROI)= 33.22dBPSNR(non-ROI)=35.04dBBPP = 0.106PSNR = 31.67dBPSNR(ROI)= 30.06dBPSNR(non-ROI)=32.04dBBPP = 0.103PSNR = 28.18dBPSNR(ROI)= 33.05dBPSNR(non-ROI)=27.68dB图7:DAVIS val的“Soapbox”序列的第50帧重建的特写ROI掩模以红色勾勒。42.540.037.535.032.530.027.50.0 0.1 0.2 0.30.4BPP1050510755025 0BD率(非ROI)6. 结论在这项工作中,我们介绍了一个可变比特率,区域的兴趣为基础的神经视频编解码器。据我们所知,这是第一个可以动态调整全局(每帧)和局部(帧内)比特分配的神经视频编解码器。这是通过引入两个控制参数来实现的,一个控制现有多速率模型中使用的速率惩罚,另一个控制ROI和非ROI区域中失真惩罚之间的权衡所得到的编解码器能够实现速率和质量,图8:左:HEVC E2上的R-D。HQ I帧编码α = 1的I帧,LQ I帧使用α = 26。5,所有P-帧使用α=26。五、右:ROI与HQ I帧相对于LQ I帧的非ROI BD速率。I-帧传播到P帧。我们提出了一个简单而有效的解决方案来缓解这个问题。我们发送高质量的I帧(在α=1处),随后是在适当的α处的P帧。这确保了第一帧的背景以尽可能最好的质量传输,这提高了后续P帧中的非ROI PSNR。在图8中,我们展示了该策略在HEVC-E2上的有效性,其中这种简单的改变允许在非ROI中提高高达80%的BD速率节省,而在ROI中仅略微增加5%的BD速率。App中的其他数据集也提供了类似的分析。D.4.在精细分辨率下的亮度控制,这有可能实现实际用例,例如以最小ROI质量以固定速率编码。我们在感兴趣的区域展示了大量的BD利率节省,在某些情况下节省了60%以上我们还发现,在电话会议设置中,天真的基于ROI的编码的好处是有限的,我们提供了如何缓解这个问题的直觉。影响声明学习编解码器可能对数据中的偏差敏感,这可能导致对几乎没有支持的数据的低质量此外,语义感知编解码器可能在监视设置中被误用另一方面,基于ROI的神经编解码器有可能提高对场景重要的视频的突出区域的保真度。= 26.5我们的(HQ I型框架)我们的(LQ I型框架)全框架ROI非r0i峰值信噪比(dB)BD率(ROI)5373引用[1] Eirikur Agustsson 、 David Minnen 、 Nick Johnston 、Johannes Balle、Sung Jin Hwang和George Toderici。用于端到端优化视频压缩的尺度空间流。在2020年IEEE计算机视觉和模式识别会议上[2] Hiroaki Akutsu和Takahiro Naruko。端到端学习ROI图像压缩。在2019年IEEE计算机视觉和模式识别研讨会上。[3] JohannesBalle´ , DavidMinnen , SaurabhSingh ,SungJinHwang,and Nick Johnston.变分图像压缩与尺度超先验。在2018年国际学习代表会议上[4] JeanBe'gaint,FabienRacape',SimonFeltman,andAkshayPushparaja.CompressAI:用于端到端压缩研究 的 PyTorch 库 和 评 估 平 台 。 arXiv 预 印 本 arXiv :2011.03029,2020。[5] 吉赛尔·比昂特加德rd曲线之间的平均psnr差异的计算。VCEG-M33,2001年。[6] Frank Bossen 等人 常见 测试条 件和 软件参 考配 置。JCTVC-L1100,12(7),2013年。[7] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可 可 - 东西:上下文中的事物和东西类。在计算机视觉和模式识别(CVPR),2018年IEEE会议上。IEEE,2018年。[8] Chunlei Cai , Li Chen , Xiaoyun Zhang , and ZhiyongGao.端到端优化的roi图像压缩。IEEE Trans- actions onImage Processing,2020。[9] 童晨和展玛。可变比特率图像压缩与质量缩放因子。在ICASSP 2020 - 2020 IEEE声学,语音和信号处理国际会议(ICASSP),第2163-2167页[10] 陈振中、韩俊伟、颜王。多视频对象编码的动态比特分配。IEEE Transactions on Multimedia,2006。[11] Yoojin Choi,Mostafa El-Khamy,and Jungwon Lee.使用条件自动编码器的可变速率深度图像压缩在IEEE/CVF计算机视觉国际会议论文集,第3146-3154页[12] 亚历克斯·克拉克枕头(叉子)文档,2015年。[13] Ze Cui,Jing Wang,Bo Bai,Tiansheng Guo,and YihuiFeng.G-Core:一个连续可变速率的深度图像压缩框架。arXiv预印本arXiv:2003.02012,2020。[14] AdamGolin'ski,RezaPourreza,YangYang,GuillaumeSauti e're和TacoS。 科恩视频压缩反馈递归自动ACCV,2020年。[15] Amirhossein Habibian 、 Ties van Rozendaal 、 Jakub MTom-czak和Taco S Cohen。使用率失真自动编码器的视频 压 缩 。 IEEEInternational Conference on ComputerVision,2019。[16] 孙许汉和努诺·瓦斯康塞洛斯用于图像压缩的基于对象的感兴趣区域。数据压缩会议,2008年。[17] Trinh Man Hoang和Jinjia Zhou RCLC:基于ROI的联合传 统 和 学 习 视 频 压 缩 。 arXiv 预 印 本 arXiv :2107.06492,2021。[18] 胡志豪,郭璐,徐东。FVC:一种新的特征空间深度视频压缩框架。在IEEE/CVF计算机视觉和模式识别会议上,第1502-1511页,2021年[19] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。ICLR,2014.[20] 慕丽、左望梦、古书航、赵德斌、张大卫。学习卷积网络用于内容加权图像压缩。Proceedings of the IEEEconference on Computer Vision and Pattern Recognition,2018.[21] Zhi Li , Anne Aaron , Ioannis Katsavounidis , AnushMoorthy,and Megha Manohara.走向实用的感知视频质量度量。Netflix技术博客,6(2),2016年。[22] JonasLo¨hdefink,AndreasBa¨r,NicoMSchmidt,FabianH u¨ge r,PeterSchlicht,andTimFingscheidt.将学习的图像压缩集中在2020年IEEE智能车辆研讨会(IV),第1641-1648页,10月。2020年。[23] Guo Lu,Wanli Ouyang,Dong Xu,Xiaoyun Zhang,Chunlei Cai,and Zhiyong Gao.Dvc:一个端到端的深度视频压缩框架。在IEEE计算机视觉和模式识别会议集,2019年。[24] Guo Lu , Xiaoyun Zhang,Wanli Ouyang ,Li Chen ,Zhiyong Gao,and Dong Xu.视频压缩的端到端学习框架。IEEE Transactions on Pattern Analysis and MachineIntelligence,43(10):3292[25] Yadong Lu,Yinhao Zhu,Yang Yang,Amir Said,andTaco S Cohen.使用嵌套量化和潜在排序的渐进神经图像压缩。arXiv预印本arXiv:2102.02913,2021。[26] Marw aMeddeb , MarcoCagnazzo , andBe' atricePesquet-Popescu.在有损网
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功