视频语义分割不确定性：基于时间聚合的高效估计方法

79 浏览量更新于2024-06-20 收藏 1.93MB PDF 举报

“基于时间聚合的视频语义分割不确定性估计方法” 在深度学习领域，尤其是在视频语义分割的应用中，不确定性估计已经成为一个关键的研究方向。传统的深度学习模型通常只能提供单一的预测结果，而忽略了预测的可靠性，这在某些高风险应用如自动驾驶或医疗诊断中显得尤为不足。因此，如何有效地估计模型的不确定性变得尤为重要。本文主要介绍了黄博宇、徐婉婷、邱春月、吴廷凡等研究人员提出的一种名为“基于区域的时间聚合”（RTA）的方法，该方法针对视频数据的特点，利用时间序列信息来模拟采样过程，以实现高效且准确的不确定性估计。这种方法特别针对了贝叶斯神经网络中常见的蒙特卡罗dropout（MC dropout）技术存在的推断速度慢的问题。MC dropout在每次前向传播时通过随机关闭部分神经元来模拟多个采样，但这需要重复多次运算，不适合实时应用。 RTA方法引入了一种新的框架，它结合了视频的时间连续性，通过时间上的聚合减少所需的采样次数，从而提高了推断效率。实验表明，RTA方法在保持与MC dropout相当的不确定性估计性能的同时，速度提升了约10倍。这一改进对于需要快速响应的实时应用，如自动驾驶系统，具有显著的优势。关键词涉及的方面包括：不确定性估计、图像分割、视频处理以及高效计算。作者们指出，深度学习模型的不确定性估计是提升模型信任度的关键，尤其是在那些需要即时决策和高度可靠性的应用中。尽管已经有一些方法，如贝叶斯神经网络，用于估计不确定性，但它们通常伴随着更高的计算成本。RTA方法则在降低计算复杂性的同时，提供了与MC dropout相当的不确定性估计质量，为实时视频语义分割任务提供了一个更具吸引力的解决方案。通过RTA方法，研究者能够有效地融合不同时间步长的信息，增强模型对时间和空间变化的敏感性，从而更好地捕捉视频中的动态特征。这对于视频语义分割任务至关重要，因为它允许模型在连续的视频帧中维持一致性，并能适应环境的变化。这项工作为深度学习在视频分析领域的应用开辟了新的路径，特别是在追求实时性和效率的场景下，RTA方法显示出了巨大的潜力。

黄博宇，徐婉婷，邱春月，吴廷凡，孙敏

2.2

语义分割

近年来，使用卷积神经网络的语义图像分割已经这是一个逐像素标记

任务，将每个像素分类到定义的类中。Long等人[24]，推广CNN架构，

用于没有任何完全连接层的密集预测。这种方法允许为任何大小的图

像生成分割图，并且与补丁分类方法相比Ronneberger等人[30]提出了U-

net，这是一种编码器-解码器架构，专注于提高更准确的边界。Howard

等人[15]将深度可分离卷积的思想与UNet相结合，建立了一个高速、低

参数的语义分割模型。PSP-Net [34]使用ResNet作为主干，并利用金字

塔层的全局信息来提供更准确的语义。DeepLab [5]将完全连接的CRF

（条件随机场）替换到CNN的最后一层，以提高性能。在这项工作

中，我们选择贝叶斯SegNet [1]和Tiramusi [18]来证明我们的想法。这两

种方法都是编码器-解码器架构。提拉米苏是CamVid数据集的最新技

术。

2.3

利用时间信息

以前，一些作品利用超像素[4，13]、补丁[8，29]、对象建议[28]、光

流[17，27]作为时间信息来降低计算复杂度。此外，基于时间信息的

视频分割也得到了显著的改进。在所有这些时间信息中，最近的工作

严重依赖于光流。Srivastava等人[33]使用一个流中的图像和另一个流

中的光流来识别视频中的动作。Simonyan等人[32]同时预测视频中逐

像素对象分割和光流Cheng等人[6]在帧级而不是最终框级强调时间信

息以提高检测精度。为了增强参考特征图，他们利用光流网络（Zhu

等人的工作）。[35]以估计邻近帧和参考帧之间的运动。然后，他们

聚合的特征图扭曲从附近的帧到参考帧根据流动运动。简单地说，所

有这些工作都在视频任务中适当地利用了光流。据我们所知，我们是

第一个工作，使用光流作为时间信息，以加快不确定性估计。

方法

我们首先在第二节中简要介绍了具有蒙特卡罗丢弃（MC）的贝叶斯

神经网络3.1.接下来，我们介绍我们的时间聚合蒙特卡罗辍学（TA-

MC）在第二节。3.2. 最后，我们提出了一个基于区域的时间聚集蒙

特卡罗丢弃（RTA-MC），它可以进一步提高精度和不确定性的估计

在第二。三点三

剩余15页未读，继续阅读

cpongm

粉丝: 6

视频语义分割不确定性：基于时间聚合的高效估计方法

基于深度学习的点云语义分割研究综述.pdf

OpenCV中的图像分割方法综述

基于概率模型的聚类算法：高斯混合模型（GMM）

立体匹配中的语义信息应用：提升匹配质量的新视角

YOLOv8图像分割与深度学习：基础知识与技术融合，构建图像分割的坚实基础

注意力机制在道路分割中的运用：焦点定位技术探究

【深度学习解锁】：计算机视觉中的图像分割进阶指南

YOLOv5图像分割赋能自动驾驶：感知与决策的秘密武器

【数据清洗与预处理】：提升数据质量的5种有效方法

YOLOv8多尺度检测方法：复杂场景下的速度与精度提升

最新资源