数据驱动的感知视频编码：从ImageNet到QoE优化

需积分: 9 41 浏览量更新于2024-07-15 收藏 6.34MB PDF 举报

《面向QoE的感知视频编码》由徐迈（Mai Xu）在北航撰写，主要探讨了在海量图像和视频数据的背景下，如何利用数据驱动的方法优化视频编码技术，以提升用户体验（Quality of Experience, QoE）。文章的背景部分追溯到2005年和2013年，这两个时间点标志着互联网上的视觉内容激增，特别是图像数据的增长迅速，如ImageNet数据库的构建与发展。ImageNet，从2009年的1400万张图片和21000个类别发展到2017年的超过1.4亿张图片，这为机器学习在视觉识别领域的应用提供了丰富的训练数据。随着全球移动数据流量的爆炸性增长，特别是视频数据，预计从2016年的504EB（Exabyte，1EB=1024PB）增长到2021年的1,910EB，视频的需求成为无线网络的关键瓶颈。这促使作者思考如何利用这种海量数据来推动视频编码技术的革新，使之更加感知用户需求，即实现“QoE-driven Perceptual Video Coding”。文章中提到的数据驱动视频 saliency detection（注意力检测）和perception-inspired video coding（基于感知的视频编码）技术，是解决这一挑战的重要策略。通过模仿人类视觉系统的感知特性，编码器能够更高效地压缩和解码视频，减少数据传输中的质量和延迟问题，从而改善用户的观看体验。此外，论文还特别提到了360度视频编码，这是随着全景视频内容兴起的另一个研究方向。徐迈的研究关注的是如何通过深度学习模型，从这些海量的图像和视频数据中提取出压缩编码的规律，以提高编码效率和适应不同场景下的视觉质量要求。随着社交媒体平台的实时分享，每分钟产生的图像数量达到了惊人的水平，这为训练模型提供了充足的数据资源。然而，稀缺的带宽资源和高清晰度视频的需求间的矛盾，使得QoE成为视频编码研究的核心议题。《面向QoE的感知视频编码》探讨了利用大数据驱动的技术手段，解决视频传输中的效率和质量问题，旨在通过模拟人类视觉感知来优化视频编码，以适应移动互联网时代下不断增长的视频流量需求，提升用户的在线视频体验。