深度学习驱动的图片与视频压缩技术综述:从神经网络到GAN

需积分: 5 0 下载量 176 浏览量 更新于2024-07-05 收藏 5.33MB PPTX 举报
本资源是一份关于神经网络在图片压缩领域的自用PPT资料,由主讲人WM提供。内容涵盖了从早期的感知机到深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)的发展历程。以下是关键知识点的详细介绍: 1. **图片压缩概述**: - 图片压缩是一个综合过程,包括变换、量化和编码,其目的是减小图片数据的存储和传输需求,同时保持视觉质量。 2. **多层感知机(MLP)**: - MLP是基本的神经网络架构,通过多层非线性函数(如ReLU和Sigmoid)来提高模型的表达能力。它们可用于图片分类任务,并通过反向传播计算梯度进行训练。 3. **自动编码器(AutoEncoder)**: - 自动编码器是一种无监督学习模型,用于图片压缩,通过瓶颈层压缩图像数据,然后通过重建网络恢复原始图像。然而,它们对未见过的图片纹理可能表现不佳。 4. **卷积神经网络(CNN)**: - CNN在图片压缩中发挥重要作用,利用卷积层、池化层和全连接层,能够检测和提取图像中的局部特征。但量化模块可能导致CNN在训练过程中遇到梯度消失的问题,如Ballé等人的工作引入了量化损失模拟解决方法。 5. **循环神经网络(RNN)**: - RNN用于处理序列数据,如视频或连续图像帧。Toderici等人使用RNN进行图片压缩,但同样面临梯度计算的挑战,通过引入二值化器和递归网络组件来优化。 6. **生成对抗网络(GAN)**: - GAN在图片压缩中引入了生成器和鉴别器的竞争,生成器学习生成逼真的图像,鉴别器负责区分真实和生成图像。训练过程中交替更新两者参数,以达到更好的压缩效果。 总结来说,这份PPT资料深入剖析了神经网络在图片压缩中的应用和挑战,展示了如何通过不同类型的神经网络架构(如MLP、CNN、RNN和GAN)进行有效的图片压缩,同时也揭示了在实际应用中所遇到的技术难题及其解决方案。