基于学习的多模态图像和视频压缩探索及优化

94 浏览量更新于2023-10-25 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6083--基于学习的多模态图像和视频压缩郭璐1、钟天雄1、景庚1、胡强2、董旭31北京理工大学，sdluguo，gmail.com，janegeng@bit.edu.cn2上海科技大学，huqiang@shanghaitech.edu.cn3悉尼大学，dong. sydney.edu.au摘要多模态（即，多传感器）数据被广泛用于各种视觉任务中以获得更精确或鲁棒的识别。然而，数据模式的增加给数据存储和传输带来了新的挑战。现有的数据压缩方法通常对每种模态采用单独的编解码器，而没有考虑不同模态之间的相关性。这项工作提出通过利用交叉模态冗余，用于红外和可见光图像对的多模态压缩框架。具体地，给定参考模态中的图像（例如，红外图像）时，我们使用通道对齐模块来产生基于仿射变换的对齐特征。然后将对准的特征用作用于以当前模态压缩图像的上下文信息（例如，可见图像），并且相应的仿射系数以不可接受的代价被有损压缩。此外，我们引入了基于变换器的空间对齐模块，以利用不同模态的解码过程中中间特征之间的相关性我们的框架是非常灵活的，易于扩展的多模态视频压缩。实验结果表明，我们提出的框架优于传统的和基于学习的单模态压缩方法的FLIR和KAIST数据集。1. 介绍在几个实际视觉应用中（例如，自动驾驶），来自不同模态的相机（诸如可见光或红外成像相机）通常通过利用互补特性而联合用于各种计算机视觉任务。例如，可见光（RGB）摄像头通常可以提供连续的高分辨率彩色图像，但可能无法很好地用于极低照明场景，而这正是红外摄像头可以提供的帮助。同时，红外摄像机容易受到异常热源的干扰，而使用可见光摄像机可以弥补这一缺点。然而，这些多种形式景庚为通讯作者。图1.视频压缩、立体声压缩和多模态压缩的比较。我们的多模态压缩方法使用跨模态红外图像，以促进可见光图像的压缩。视觉分析方法[10，13，25，26，47，48]将增加存储和传输成本，因为来自不同模态的更多图像被传输到解码器侧用于视觉分析。因此，如何设计一种高效的多模态视觉数据压缩方法是一个新的具有挑战性的研究课题。在过去的几十年中，已经提出了许多传统的和基于学习的压缩方法[1，3，5，6，9，30，32，34，36然而，现有的工作大多集中在单模态图像压缩没有考虑不同模态之间的相关性。由于不同模态的图像之间存在很强的相关性，我们不能使用现有的单模态压缩方法来充分利用压缩冗余。立体图像压缩是一个重要的研究课题，它利用不同的视点对齐方法来消除视点间的冗余。然而，与具有相似分布的立体图像相比，不同模态图像的强度可能有很大差异（见图1）。因此，常用的对齐技术，如基于块的运动/视差估计[19]或单应性变换[14]，对于多模态压缩来说不够可行。此外，考虑到像红外和可见光图像对这样的多模态数据以不同的视角表示相同的场景，来自大多数现有估计方法的逐像素运动/视差信息的压缩将消耗大量的比特以用于6084压缩，这太昂贵了。因此，开发用于多模态数据压缩的新框架是不平凡的。在本文中，我们提出了一个基于学习的多模态压缩框架的红外和可见光图像对，利用跨模态冗余的特征空间。考虑到不同模态的显式对齐是非常困难的，估计的运动/视差信息也需要大量的传输比特率，我们使用有效的仿射变换和attention机制来实现通道和空间方向的特征对齐，分别。具体地说，采取可见图像的压缩过程（即，以RGB图像为例，基于从解码后的红外和原始可见光图像中提取的特征，估计仿射变换系数，以边际带宽代价将其然后，利用仿射变换实现了通道间的特征对齐，并将相应的红外模态变换后的特征作为压缩可见光图像的条件上下文。此外，我们通过空间对齐模块在解码过程中利用来自不同模态的中间特征的相关性。我们的模块被集成到可见光图像解码器中，并将从参考模态空间扭曲中间特征以生成对齐特征，该对齐特征用于进一步减少跨模态冗余。所提出的框架是非常灵活的，从一个模态的图像可以很容易地被用作从另一个模态的图像压缩的参考。它也可以很容易地扩展为多模态视频压缩。实验结果表明，该方法在多个基准数据集上取得了比单模态图像和视频压缩方法更好的压缩性能我们框架的贡献总结如下，• 我们提出了一个基于学习的框架，通过利用跨模态冗余来压缩来自不同模态的图像对。据我们所知，它是第一个端到端的优化框架来压缩可见光-红外图像对。• 我们的框架引入了通道方向和空间方向的对齐模块，以有效地利用特征空间中不同模态之间的• 所提出的框架是非常灵活的，可以扩展到多模态视频压缩。在多个数据集上的实验结果证明了所提出的多模态图像/视频压缩框架的有效性。2. 相关作品图像和视频压缩。在过去的几十年中，提出了几个有代表性的压缩标准[1，9，34，36，37，42]，并在许多实际应用中广泛使用。最近，基于学习的图像和视频压缩方法吸引了越来越多的关注[3并且显示出与最新的图像或视频压缩标准相当或甚至更好的性能[9，37]。尽管将这些方法扩展到红外图像或视频压缩是可行的[16，24]，但现有标准只能减少单一模态中的冗余，而不能利用跨模态信息。考虑到存储和传输多模态数据（如深度图、红外图像或光流图）的需求不断增长，有必要提出一种新的多模态数据压缩框架。立体图像和视频压缩。立体图像压缩的目的是对来自不同视点的一对图像进行压缩。为了利用这种视图间冗余，已经基于传统的单视图图像/视频方法提出了几种多视图图像/视频压缩标准，如MV-HEVC [19]或MVC [41]。除了现有的帧间补偿之外，这些方法还使用基于运动补偿的运动补偿[35最近的工作也试图采用深度神经网络进行立体图像压缩[14，27]。 Liu等人引入了参数跳过函数来利用来自参考视图的视差补偿特征。在[14]中，估计单应性矩阵以将左视图图像扭曲到右视图图像，这减少了视图冗余。然而，这些学习的立体图像压缩方法仍然用于由具有稍微不同的位置的立体相机使用不同的相机捕获多模态数据，诸如可见和红外配对图像。这些图像的内部特征是相当不同的，和现有的技术，如单应性变换是不可行的。因此，有必要开发一个多模态图像压缩框架.多模态数据压缩。多模态或多传感器信息广泛用于各种计算机视觉任务[10，13，25，26，47，48]，特别是3D视觉任务。例如，Liang等人 [25]利用图像和点云信息来提高3D对象检测精度。Zhang等人。 [47]从不同模态中提取特征，并将这些特征融合用于对象跟踪。近年来，已经提出了一些多模态数据压缩方法[8，11，40]然而，这些方法是基于手工制作的编解码器，并且大多数是为多视图图像加上深度图像或中等深度图像而设计的。6085×JJ·JJ图2. （a）我们的多模态压缩框架工作，其中解码的红外图像X1被用作压缩可见图像X2的参考。采用现有的图像压缩方法[30]对红外图像进行压缩。(b)通道特征对齐模块的网络架构。‘Conv(C,K,S)’ represents the convolution operation with kernel size输出通道数为C。我们在实现中使用空间平均池化层。(c)解码端基于Transformer的空间对齐模块的说明。将来自红外模态中的第j个解码解决方案层的输出特征y_i打包到可见模态，并与特征y_v级联以提高压缩性能。校准图像和信号。因此，对可见光-红外线对的压缩研究尚属空白。3. 方法3.1. 概述我们的多模态压缩方法的整体架构如图所示。第2段（a）分段。在这里，我们使用重建的红外图像x_i作为交叉模态参考，以提高可见光图像x_v的压缩性能。我们的方法是灵活的，并且重建的可见光图像x∈v也可以用于压缩xi。如图2（a），我们首先利用现有的图像压缩方法[30]对红外图像进行Xi. 然后，利用特征编码模块对可见光图像xv和重建后的红外图像xvi进行特征提取，该模块采用多个卷积层实现在提取特征的基础上，引入通道特征对齐模块，- 逐通道仿射变换系数β和γ，以将红外模态的特征与可见模态对准。在我们的框架中，β和γ被有损地传输到解码器侧。之后，对齐的特征f¯v被馈送到可视图像编码器网络中作为上下文信息。在这里，我们遵循[30]中的网络设计来实现图像编解码器。最后，可见光解码器的输出fv与对齐的特征fv以通过特征解码器产生重构帧xmaxv考虑到不同模态中的特征之间的空间相关性在逐通道对齐模块中没有被充分利用，我们进一步利用可见光解码器中的空间对齐模块的来自不同模态的中间特征如图所示。在图2（c）中，y_i和y_v分别表示红外和可见光解码器中的第j个去卷积层的输出。我们的空间特征对齐模块使用基于transformer的机制来空间地将中间特征从红外模态弯曲到可见模态，并且在解码过程中使用弯曲特征。更多详情见第3.3节。由于由于篇幅有限，在补充资料中给出了特征编码器/解码器和可见光/红外编解码器（编码器和解码器）的网络结构。通过使用以下速率失真损失函数来优化用于可见图像的压缩网络，λD+R=λd（xv ，x<$v ）+H （y<$v ）+H （γ）+H（β）（一）其中d（xv ，xv）表示输入图像xv和重构图像xv 之间的失真。H（）表示用于对表示进行编码的比特数。在我们的框架工作中，通过使用[30]中的熵模型对潜在表示y_v进行编码，并且6086∈×J×JJJJJJ以可忽略的带宽成本以浮点格式直接存储和传输逐信道仿射变换系数γ、β。λ是用于控制率失真折衷的超参数。与视频压缩任务或立体图像压缩任务相比，多模态压缩中的图像对不共享相似的强度分布，并且现有的对准方法如光流是不可行的。因此，我们同时采用通道和空间的特征空间对齐方法。此外，考虑到不同模态的图像对通常表示相同的场景，为了更好的率失真折衷，我们仅对紧凑的仿射系数β和γ进行3.2. 逐行对齐模块在我们提出的框架中，我们在特征空间中使用通道对齐来减少重建的红外图像xi和可见光图像xv之间的冗余。我们的通道对齐模块的网络架构如图所示. 第2段（b）分段。给定从可见光图像和重建的红外图像中提取的特征fv和fi，我们将它们馈送到几个卷积层。然后，我们使用空间平均池来生成仿射变换系数γ、βR64×1×1。然后，来自解码的红外图像与可见模态对准如下，f<$v=γ×f<$i+β（2）其中，和+分别表示逐通道乘法和加法。而f¯v是对齐的特征图。在编码器侧，对齐的特征f¯v和原始特征f v被连接作为以下编码器网络的输入。此外，其他替代解决方案-图3.我们的空间特征对齐模块的实现。 y=v和y=i表示用于可见光图像和红外图像的解码器中的第j个去卷积层的输出中间特征。y'v是从热模态到可见模态的对齐特征我们遵循[28]中的设计来实现LayerNorm和MLP网络。的空间对准模块中所示的图。3 .第三章。受Swin-Transformer [28]的启发，我们使用基于Transformer的机制来利用解码过程中来自红外图像xi和可见光图像xv的具体地说，设y∈R192×H×W，y∈v∈R192×H×W像编码f<$v和fv之间的残差这样的操作也是j j在我们的框架中是可行的，我们在第4.4节中提供了更多的实验结果。在解码器侧，接收到的仿射变换系数表示图中xi和xv的解码器网络的第j个反卷积层的输出。2所示的序列。首先，我们要做一个pP补丁嵌入操作通过使用卷积层，并生成相应的EM。使用角β和γ来产生对准特征f′v，贝迪迪埃奇∈R96×H×W且e∈R96×H×W，其中p其将与解码器的输出连接以通过特征解码器获得最终的重构帧xmaxv考虑到这些系数是紧凑的，我们不执行任何压缩，并且它们以可忽略的成本无损地发送到解码器侧。3.3. 空间对准模块由于逐通道对齐模块仅通过逐通道变换来利用跨模态冗余，因此未充分利用不同模态中的特征之间的空间相关性我们的可见光解码器使用空间啪啪啪啪J J设置为2。然后，将ei和ev馈送到LayerNorm和Multi-headCross Attention（MCA）模块，其中来自不同模态的特征用于计算注意力矩阵，并且对红外嵌入ei进行包装以生成对应的对齐特征ev。之后，我们使用LayerNorm和MLP网络来进一步增强特征变换[28]。此外，添加剩余连接以帮助训练过程，并且该基于Transformer的块被公式化如下，ev=MCA（LN（ev），LN（ei））+ev特征对齐模块，用于在空间上扭曲特征，j j j j（三）e<$v=MLP（LN（e<$v））+e<$v红外到可见模态，基于这两个特征之间的相似性。整个网络架构j j j在我们的实现中，我们使用两个Transformer块6087不∈不不p2M 2Jp2M 2JJ图4.我们的多模态视频压缩框架的框架。由于空间的限制，我们只保留了残差解码器等红外视频压缩的相关组件。对于可视视频压缩，运动补偿特征f<$v，m和通道方向对准的热特征f<$v，a融合在一起作为预测特征f<$v以计算残差。此外，本发明还提供了一种方法，tt我们还将空间对准模块集成到残差解码器网络中用于可见视频压缩，并进一步利用来自红外视频的交叉模态信息。并且嵌入在第二变换器块之前移位。最后，生成的嵌入ev为3.4. 多模态视频压缩恢复到中间特征Vj在自动驾驶等实际应用中，y'j通过使用反卷积层，这是补丁嵌入的逆过程，丁我们在解码器端使用三个空间特征对齐模块，并且来自我们模块的输出将被馈送到下一个解卷积层，如图所示。第2段（c）分段。传感器通常为下游分析任务捕获多模态视频信息。由于我们的方法是非常灵活的，我们还扩展了多模态视频压缩的建议框架。总体管线如图所示4，xiandxv repre-多头交叉注意。多头十字AT-TT张力模块将从红外图像产生对齐的嵌入。具体地说，输入的嵌入特征被划分成不重叠的M×M窗口形状为HW×M2×96，其中HW表示分别在时间步长t发送重构的红外帧和待编码的可见帧在这里，我们重新实现现有的基于学习的视频压缩方法FVC作为我们的基线方法[21]。FVC遵循混合代码-ing框架，并采用可变形卷积，窗口的数量，并且M被设置为4。然后，modULE计算红外模态和可见模态的窗口之间的局部注意。取第n次局地风owev（n）和ei（n）∈RM 2×96，在可见光和红外线上，估计用于后续运动补偿和残差编码的运动信息。在我们的多模态视频压缩方法中，首先利用FVC对红外视频序列进行压缩。为以红外图像嵌入为例，查询、键和值矩阵Q、K和VR M2×96/h×h被计算为除了基于先前重构帧的原始运动补偿之外，我们还产生来自可见视频序列的每个帧feature¯v，at−1我在Q=ev（n）PQ，K=ei（n）PK，V=ei（n）PV（4）ft基于重建的红外图像j j j其中，h是多头关注中的头的数量，其被设置为3，PQ、PK和PV是在空间特征对准模块中共享的投影矩阵，同样的时间步。这里，我们使用第3.2节中讨论的通道对齐模块将红外模态中的特征与可见模态中的特征对齐然后我们使用一个卷积层来融合运动补偿，前一个可见帧xxxx v的饱和特征f<$v，m和Windows. 然后从红外线产生的值V特色F不从红外帧it−1如下将图像特征与可见特征对准v，a不xt，并生成A= SoftMax（QKT/T）d+B）V（5）最终预测特征f¯v，将通过使用下面的残差压缩模块。由于自动编码器网络也用于基于学习的视频通信，其中B是可学习的相对位置编码，d=96/h是每个头中的通道数。A是对于局部风Ow∈i（n）的多头交叉注意（MCA）输出，并且被认为是从红外图像到可见光图像的对齐嵌入结果。压缩系统，如FVC，压缩残差和运动信息，我们的空间对齐模块可以很容易地集成到现有的框架，具有更好的压缩性能。在我们的实现中，我们将利用6088×××××KAIST数据集40KAIST数据集24KAIST数据集3836340.1 0.2 0.3BPP222018160.2 0.3 0.40.5BPP806040200.1 0.2 0.3BPP图5.可见光图像压缩的结果从不同的方法在KAIST数据集上的PSNR，MS-SSIM和FID。KAIST数据集464442400.10 0.15 0.200.25BPPKAIST数据集222018160.10 0.15 0.200.25BPP17515012510075KAIST数据集BPG（4：4Minnen：4）我们0.10 0.15 0.20 0.25BPP图6.红外图像压缩的结果从不同的方法在KAIST数据集上的PSNR，MS-SSIM和FID。来自不同模态的残差解码器网络由于篇幅所限，我们在补充资料中提供了更多的多模态视频压缩的实现细节。虽然我们使用FVC [21]作为示例来更好地介绍所提出的多模态压缩框架，但任何其他基于学习的视频压缩方法都具有运动补偿和表1.在FLIR和KAIST数据集上，将我们的方法和Minnen的方法的BDBR [7FLIR KAIST可见红外可见红外电话：+86-21 - 8888888传真：+86-21 - 88888888我们的-30.226-21.621-18.639-21.289残差编码也可以集成到我们提出的框架.4. 结果4.1. 实验装置FLIR Thermal Dataset [2]它包含超过10K对8位红外（热）图像和24位可见光图像，包括人，车辆，自行车和其他物体在白天和夜晚的场景。红外图像的分辨率为640 512，而相应的可见光图像的分辨率从720480变化到2048 1536。在我们的实验中，我们将每个可见图像的大小调整为1280 1024。默认的FLIR训练数据集被用作我们的训练数据集，并且从FLIR验证集中随机选择20个颜色-热对作为测试数据集。KAIST多光谱行人数据集[22]该数据集由95K色热对（640 480，20 Hz）组成，包含来自12组的41个序列。我们使用10组多模态视频训练，同时使用其他两个集合（集合06和集合10）中每个序列的前100帧此外，从KAIST数据集中选择了18个颜色-热对作为另一个测试数据集的多模态图像压缩和红外图像的大小被调整为320×240。BPP（bit per pixel）是衡量压缩过程中平均比特消耗的指标除了PSNR和MS-SSIM [43]之外，我们还使用与人类感知更一致的FID [20]度量来测量重建图像与地面真实可见光/红外图像之间的失真实现细节当我们使用红外图像作为参考来编码可见光图像时，我们首先训练红外数据压缩网络，然后通过冻结红外图像压缩来优化网络用于可见光数据压缩这些网络基于PyTorch实现，支持CUDA，并在V100GPU卡上训练。具体地，对于多模态图像压缩，我们设置不同的λ值（λ我们（四四四）enBPG明尼苏达明嫩我们的G（4：4：4）BPBPG（4：4：4）en明尼苏达我们我们：4）BPG（4：4Minnen明嫩我们的：BPG（4：4峰值信噪峰值信噪MS-SSIM（dB）MS-SSIM（dB）FIDFID方法6089图7.BPG [1]、Minnen [30]和我们的可见光图像压缩结果的视觉质量比较= 256，512，1024，2048，4096），并通过将初始学习率β1和β2分别设置为1 e-4，0.9，0.999来使用Adam优化器[23在1.8M步之后，当损失变得稳定时，学习率降低到1 e-5。小批量大小设置为4。培训阶段大约需要8天。对于多模态图像压缩，我们首先在FLIR数据集上训练我们的模型，并在KAIST训练数据集上微调预训练模型，以评估KAIST测试数据集的结果。对于多模态视频训练，我们首先通过遵循其默认设置[21]在Vimeo-90 k数据集上训练FVC模型，并在KAIST数据集上微调模型另外50万步。4.2. 实验结果多模态图像压缩为了证明我们方法的有效性，我们将我们的方法与传统的单模态图像压缩方法BPG [1]和Minnen等人提出的学习图像压缩方法进行了比较。[30]在FLIR和KAIST测试数据集上。此外，为了公平比较，我们的模型和基线方法[30]都使用基于MSE的相同多模态数据进行了优化（即，、PSNR）度量。BDBR结果见表1。图5显示了KAIST数据集上可见光图像压缩的不同压缩方法的率失真曲线。与单独优化的单模态压缩方法[30]相比，我们使用红外图像作为参考的方法可以在KAIST数据集上将压缩性能提高0.7dB以上此外，我们的方法也取得了更好的压缩性能比传统的图像压缩方法BPG。补充资料中提供了更多关于FLIR数据集的结果对于图6中的红外图像压缩也可以观察到类似的结果，其中我们使用可见光图像作为参考。我们的多模态压缩方法KAIST数据集（视频）414039383736350.10 0.15 0.20 0.25 0.30BPP图8. KAIST数据集上不同视频压缩方法的实验结果。与没有交叉模态参考的基线方法[30]相比，改善了近0.7dB。多模态视频压缩在图。8，我们比较了我们的方法与传统的单模态编解码器H.265 [37]和基于深度学习的方法FVC [21]。KAIST测试数据集的GoP大小设置为10。与图像压缩类似，我们的模型和基线模型[21]在相同数据集上的MSE指标上进行了优化。此外，我们按照[21]中的设置，给出了H.265的结果。实验结果表明，该方法利用红外图像的互补信息对可见光序列进行压缩，与FVC和H.265相比，分别实验结果表明，该框架具有很好的通用性，可以应用于多模态图像和视频压缩任务。4.3. 消融研究在图9中，我们提供了可见光图像压缩的KAIST数据集这里我们的FVCH265峰值信噪6090−××KAIST数据集4039383736350.10 0.15 0.20 0.25 0.30BPP图9. 消融研究。我们的（CA）和我们的（SA）分别代表仅使用通道对齐模块和空间对齐模块时的模型。我们的是完整的模型。我们的（Res）表示我们的模型编码残差信息，mationfvfv。Ours（Cat）表示简单地连接xv并且xi作为可见图像压缩的输入我们的（CA）和我们的（SA）代表我们提出的方法，只使用通道方向对齐模块和空间方向对齐模块，分别。Ours表示我们实现中的完整模型。观察到，通道方向对齐模块，即。我们的（CA），可以提高超过0.4dB的压缩性能时，与基线方法相比。同时，通过使用空间对准模块，它带来了近0.3dB的增益（参见我们的（SA））。此外，我们的整个模型有超过0.7dB的改善基线方法，通过整合通道和空间方向的对齐模块。实验表明，利用互补的跨模态信息进行多模态数据压缩是4.4. 模型分析在我们的实施例中，我们估计通道式仿射变换系数。在这里，我们还提供了实验结果时，使用逐元素仿射变换。具体而言，我们通过移除图2（b）中的空间方向平均池化层来考虑到逐元素压缩将消耗大量比特，我们进一步引入另一个自动编码器网络来对这些系数进行有损压缩。实验结果表明，这种新的设置将使压缩性能提高6dB以上。率失真曲线是在补充材料中提供的，因为它的性能比基线方法差得多。一种可能的解释是，逐元素仿射系数将消耗更多的比特率，这导致更差的率失真性能。输入多模态图像的连接。我们还提供了一个简单的解决方案，通过连接红外和可见光图像作为输入，以重建可见光图像的多模态压缩。实验结果表明，这种直接的解决方案（Ours（Cat））的性能改善不大，不能有效地减少跨通道冗余。残差压缩在我们的框架中，通道特征对齐模块的输出与可见特征连接作为上下文信息。此外，我们还尝试压缩对齐特征和可见特征之间的残差，发现性能下降了0.14dB（参见图9Ours（CA）和Ours（Res））。换句话说，尽管不同模态之间存在一定量的跨模态冗余，但难以压缩相应的残差信息。定性结果在图7中，我们还提供了定性结果，并且观察到我们的方法提供了更直观的结果。例如，与BPG [1]或Minnen方法[ 30 ]相比，我们方法的第一行图像中的联合优化我们还尝试以端到端的方式联合优化红外图像压缩和可见光图像实验结果表明，它只带来0.02db的改善，因此我们不使用它，因为我们更喜欢一个简单而有效的解决方案。运行时间和复杂度我们的框架和基线方法的模型我们用配对的1280来评估我们的框架1024可见光图像和640512红外图像在一个单一的V100机器。我们帧的编码速度-工作原理和基本型号基本相同，解码速度分别为340ms和67ms。5. 结论在这项工作中，我们提出了一个多模态压缩框架，可见光和红外图像对。为了利用互补信息，我们引入了通道和空间特征对齐模块。在多个基准数据集上的实验结果证明了我们的多模态图像和视频压缩方法的有效性。此外，我们的框架还可以扩展用于彼此接近的其他多模态数据在未来，我们将研究新的压缩方法来压缩更具挑战性的多模态数据。致谢本工作得到国家自然科学基金62102024的资助.Ours Ours（CA）Ours（Res）Ours（SA）Ours（Cat）Minnen峰值信噪比（dB）6091引用[1] F.Bellard，bpg图像格式。http://bellard.org/bpg/. 访问时间： 2018-10-30。一、二、七、八[2] Flir热数据集。https：www.flir.com/oem/adas/adas-dataset-form/.访问时间：2020-11-11。6[3] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Mrs. fte ， LucaBenini，and Luc V Gool.用于端到端学习可压缩表示的软到硬矢量量化。在NIPS，第1141- 1151页，2017年。一、二[4] Eirikur Agustsson 、 David Minnen 、 Nick Johnston 、Johannes Balle、Sung Jin Hwang和George Toderici。用于端到端优化视频压缩的尺度空间流。在IEEE/CVF计算机视觉和模式识别会议的论文集，第8503-8512页，2020年。2[5] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利端到端优化的图像压缩。第五届国际学习表征会议，ICLR，2017年。一、二[6] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。第六届国际学习表征会议，ICLR，2018。一、二[7] 吉赛尔·比昂特加德rd曲线之间的平均psnr差异的计算。VCEG-M33，2001年。6[8] 卜拉希米，拉比·巴奇，雷吉斯·弗尼和阿明·纳伊特-阿里。一种改进的多模态信号图像压缩方案及其在自然图像和生物医学数据中的应用 Multimedia Tools andApplications，76（15）：167832[9] Benjamin Bross，Ye-Kui Wang，Yan Ye，Shan Liu，Jianle Chen，Gary J Sullivan，and Jens-Rainer Ohm.通用视频编码标准及其应用综述 IEEE Transactions onCircuits and Systems for Video Technology，2021. 一、二[10] Ricardo Omar Chavez-Garcia和Olivier Aycard。运动目标检测与跟踪的多传感器融合与分类。IEEE Transactionson Intelligent Transportation Systems ， 17 （ 2 ）： 525-534，2015。一、二[11] 陈思琪，刘琼，杨有。自适应多模残差网络用于压缩失真多视点深度视频增强。 IEEE Access ， 8 ： 97072-97081，2020。2[12] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。学习使用离散高斯混合似然和注意力模块进行图像压缩在IEEE/CVF计算机视觉和模式识别会议论文集，第7939-7948页2[13] 邓欣和皮尔·路易吉·德拉戈蒂。用于多模态图像恢复和融合的深度卷积神经网络IEEE Transactions on PatternAnalysis and Machine Intelligence，2020。一、二[14] Xin Deng，Wenzhe Yang，Ren Yang，Mai Xu，EnpengLiu，Qianhan Feng，and Radu Jingfte.用于高效立体图像压缩的深度单应性。InProceedings ofIEEE/CVF计算机视觉和模式识别会议，第1492-1501页，2021年。一、二[15] Abdelaziz Djelouah，Joaquim Campos，Simone Schaub-Meyer，and Christopher Schroers.用于视频编码的神经帧间压缩。在IEEE/CVF计算机视觉国际会议论文集，第6421- 6429页，2019年。2[16] Marek Fidali和Wojciech Jamrozik。基于自聚集算法的高动态红外图像测量自动化监控，63，2017。2[17] Adam Golinski，Reza Pourreza，Yang Yang，GuillaumeSautiere和Taco S Cohen。视频压缩的反馈循环在亚洲计算机视觉会议论文集，2020年。2[18] 放大图片作者： AmirHossein Habibian ， Ties vanRozendaal，Jakub M.汤姆扎克和塔可科恩。使用率失真自动编码器的视频压缩。2019年IEEE/CVF计算机视觉国际会议， ICCV 2019 ，第 7032- 7041 页。 IEEE ，2019。2[19] Miska M Hannuksela ， Ye Yan ， Xuehui Huang ， andHouqiang Li.多视点高效视频编码标准综述。2015年IEEE图像处理国际会议（ICIP），第2154IEEE，2015年。一、二[20] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。6[21] 胡志豪，郭璐，徐东。Fvc：一个新的框架，面向特征空间的深度视频压缩。在IEEE/CVF计算机视觉和模式识别会议上，第1502-1511页，2021年。二五六七[22] Soonmin Hwang ， Jaesik Park ， Namil Kim ， YukyungChoi，and In So Kweon.多光谱行人检测：基准数据集和基线。在IEEE计算机视觉和模式识别会议论文集，第1037-1045页，2015年。6[23] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[24] 李进，姚福，李国宁，刘子龙基于非均匀压缩感知的可见 / 近红外遥感图像压缩。 IEEE Journal of SelectedTopicsinAppliedEarthObservationsandRemoteSensing，11（12）：4932-4938，2018。2[25] 梁明，杨斌，陈云，胡瑞，拉奎尔·乌塔孙.三维目标检测的多任务多传感器融合。在IEEE/CVF计算机视觉和模式识别会议论文集，第7345-7353页，2019年。一、二[26] Ming Liang ， BinYang ， Shenlong Wang ， and RaquelUrtasun.多传感器三维目标检测的深度连续融合在欧洲计算机视觉会议（ECCV）的会议记录中，第641-656页一、二[27] Jerry Liu，Shenlong Wang，and Raquel Urtasun.深度立体图像压缩。IEEE/CVF论文集6092计算机视觉国际会议，第3136- 3145页，2019年。2[28] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang ， Stephen Lin ， and Baining Guo. Swintransformer：层次视觉Transformer，使用移位的Win-10.arXiv预印本arXiv：2103.14030，2021。4[29] 郭璐，欧阳万里，徐东，张晓云，蔡春雷，高志勇.DVC：端到端深度视频压缩框架。在IEEE计算机视觉和模式识别会议论文集，CVPR，第11006-11015页，2019年。2[30] D a vidMinnen，JohannesBal le'，andGeo r geDToderici. 联合自回归和分层先验的学习图像压缩。神经信息处理系统进展，第10771-10780页，2018年一二三六七八[31] OrenRippel ， AlexanderGAnderson ， KedarTatwawadi ， San-jay Nair ， Craig Lytle ， and LubomirBourdev.Elf-vc：高效学习的灵活速率视频编码。arXiv预印本arXiv：2104.14335，2021。2[32] Oren Rippel和Lubomir Bourdev。实时自适应图像压缩。ICML，2017。一、二[33] Oren Rippel ， Sanjay Nair ， Carissa Lew ， SteveBranson，Alexander G. Anderson，and Lubomir D.布尔德夫学过视频压缩。2019年IEEE/CVF计算机视觉国际会议，ICCV 2019，第3453IEEE，2019。2[34] Heiko Schwarz Detlev Marpe和Thomas Wiegand。概述了h. 264/avc 标准。 IEEE Transactions on circuits andsystems for video technology ，17 （ 9 ）：1103-1120，2007. 一、二[35] Heiko Schwarz和Thomas Wiegand多视图视频译码中的运动数据的视图间2012年图片编码研讨会，第101-104页。IEEE，2012。2[36] Athanassios Skodras，Charilaos Christopoulos和TouradjEbrahimi。jpeg 2000静止图像压缩标准。IEEE信号处理杂志，18（5）：36-58，2001年。一、二[37] Gary J Sullivan ， Jens-Rainer Ohm ， Woo-Jin Han ，Thomas Wiegand等，高效率视频编码（hevc）标准概述。TCSVT，22（12）：1649-1668，2012。一、二、七[38] 作者：George Toderici ，Sean M. O'Malley 、Sung JinHwang 、 Damien Vincent 、 David Minnen 、 ShumeetBaluja、Michele Covell和Rahul Sukthankar。基于递归神经网络的可变速率图像压缩第四届国际学习表征会议，ICLR，2016。一、二[39] George Toderici、Damien Vincent、Nick Johnston、SungJin Hwang、David Minnen、Joel Shor和Michele Covell。基于递归神经网络的全分辨率图像压缩在CVPR中，第5435-5443页，2017年。2[40] Karthik Mahesh Var

下载后可阅读完整内容，剩余1页未读，立即下载