H.264压缩域Biased-SVM算法: 实现高效镜头边界检测

需积分: 0 1 下载量 171 浏览量 更新于2024-09-08 收藏 683KB PDF 举报
本文主要探讨了在H.264压缩域中利用Biased-SVM(不平衡支持向量机)进行镜头边界检测的研究方法。随着基于内容的视频检索技术的发展,准确快速地识别镜头边界变得至关重要,因为镜头边界的变化反映了视频内容的转换。H.264/AVC编码标准因其高效的压缩性能和良好的网络兼容性,被广泛应用在视频编码中。 传统的镜头边界检测方法可以分为像素域和压缩域两种。像素域方法虽然能提供更丰富的特征信息,但解码过程复杂,速度较慢;而压缩域方法通过直接操作压缩后的数据,无需完整解码,具有更快的速度,但需要针对不同编码标准设计特定算法。针对H.264压缩域的特性,研究者们提出了一种新的方法,即利用帧类型(如I帧、P帧和B帧)、宏块类型、运动矢量以及帧内预测模式等多种压缩特征,来提取可能表示镜头边界变化的信号。 论文中提到,例如文献[5]和[6]分别使用I帧的帧内宏块预测模式和宏块比率作为特征,对镜头边界进行初步筛选。然而,由于镜头边界帧在视频中的数量显著少于总帧数,这导致了类别不平衡问题。因此,作者提出采用Biased-SVM,一种特别设计用于处理类别不平衡问题的支持向量机,来区分突变帧(即快速切换)、渐变帧(有平滑过渡)和非镜头边界帧。 该算法的优势在于能够在H.264压缩域内高效处理特征,减少解码负担,并通过优化处理不平衡类别的样本,提高检测的精确性和鲁棒性。实验结果显示,与之前H.264压缩域的其他检测算法相比,这种方法在TRECVID视频集上的表现更为出色,显示出在实际场景中的优越性能。 这篇论文深入研究了如何在H.264编码的视频中有效地利用Biased-SVM来检测镜头边界,对于提升视频检索的效率和准确性具有重要意义。这项工作不仅有助于推动视频分析技术的发展,也为未来在大规模视频数据处理中寻找更高效、更适应H.264编码标准的解决方案提供了新的思路。

The human visual cortex is biased towards shape components while CNNs produce texture biased features. This fact may explain why the performance of CNN significantly degrades with low-labeled input data scenarios. In this paper, we propose a frequency re-calibration U-Net (FRCU-Net) for medical image segmentation. Representing an object in terms of frequency may reduce the effect of texture bias, resulting in better generalization for a low data regime. To do so, we apply the Laplacian pyramid in the bottleneck layer of the U-shaped structure. The Laplacian pyramid represents the object proposal in different frequency domains, where the high frequencies are responsible for the texture information and lower frequencies might be related to the shape. Adaptively re-calibrating these frequency representations can produce a more discriminative representation for describing the object of interest. To this end, we first propose to use a channel-wise attention mechanism to capture the relationship between the channels of a set of feature maps in one layer of the frequency pyramid. Second, the extracted features of each level of the pyramid are then combined through a non-linear function based on their impact on the final segmentation output. The proposed FRCU-Net is evaluated on five datasets ISIC 2017, ISIC 2018, the PH2, lung segmentation, and SegPC 2021 challenge datasets and compared to existing alternatives, achieving state-of-the-art results.请详细介绍这段话中的技术点和实现方式

2023-05-29 上传