数据驱动的感知视频编码:从ImageNet到QoE优化

需积分: 9 5 下载量 41 浏览量 更新于2024-07-15 收藏 6.34MB PDF 举报
《面向QoE的感知视频编码》由徐迈(Mai Xu)在北航撰写,主要探讨了在海量图像和视频数据的背景下,如何利用数据驱动的方法优化视频编码技术,以提升用户体验(Quality of Experience, QoE)。文章的背景部分追溯到2005年和2013年,这两个时间点标志着互联网上的视觉内容激增,特别是图像数据的增长迅速,如ImageNet数据库的构建与发展。ImageNet,从2009年的1400万张图片和21000个类别发展到2017年的超过1.4亿张图片,这为机器学习在视觉识别领域的应用提供了丰富的训练数据。 随着全球移动数据流量的爆炸性增长,特别是视频数据,预计从2016年的504EB(Exabyte,1EB=1024PB)增长到2021年的1,910EB,视频的需求成为无线网络的关键瓶颈。这促使作者思考如何利用这种海量数据来推动视频编码技术的革新,使之更加感知用户需求,即实现“QoE-driven Perceptual Video Coding”。 文章中提到的数据驱动视频 saliency detection(注意力检测)和perception-inspired video coding(基于感知的视频编码)技术,是解决这一挑战的重要策略。通过模仿人类视觉系统的感知特性,编码器能够更高效地压缩和解码视频,减少数据传输中的质量和延迟问题,从而改善用户的观看体验。此外,论文还特别提到了360度视频编码,这是随着全景视频内容兴起的另一个研究方向。 徐迈的研究关注的是如何通过深度学习模型,从这些海量的图像和视频数据中提取出压缩编码的规律,以提高编码效率和适应不同场景下的视觉质量要求。随着社交媒体平台的实时分享,每分钟产生的图像数量达到了惊人的水平,这为训练模型提供了充足的数据资源。然而,稀缺的带宽资源和高清晰度视频的需求间的矛盾,使得QoE成为视频编码研究的核心议题。 《面向QoE的感知视频编码》探讨了利用大数据驱动的技术手段,解决视频传输中的效率和质量问题,旨在通过模拟人类视觉感知来优化视频编码,以适应移动互联网时代下不断增长的视频流量需求,提升用户的在线视频体验。