PixelPlayer：无监督视觉音频分离与定位系统

167 浏览量更新于2024-06-20 收藏 3MB PDF 举报

像素声音：使用视听学习分离和定位图像的声音在机器学习和计算机视觉领域中，像素声音是一种新的研究方向，它结合了视觉和听觉信息来学习和分离图像中的声音。PixelPlayer是一个系统，它可以通过大量的未标记的视频，学习定位图像区域，产生的声音和分离输入声音到一组组件，代表每个像素的声音。 PixelPlayer的关键技术是跨模态学习，它可以学习共同解析声音和图像的模型，而不需要额外的人工监督。这种方法可以学习视觉中的声音，从而实现独立调整声源音量等应用。像素声音的应用前景非常广阔，例如在视频编辑、音频处理、机器人感知等领域都可以应用。像素声音可以学习视觉中的声音，从而实现独立调整声源音量等应用。在像素声音中，视觉和听觉信息是紧密相连的。PixelPlayer可以学习视觉中的声音，并将其分离出来，从而实现独立调整声源音量等应用。像素声音的优点是可以学习共同解析声音和图像的模型，而不需要额外的人工监督。这使得PixelPlayer可以应用于各种场景中，例如视频编辑、音频处理、机器人感知等领域。像素声音的挑战是如何学习视觉中的声音，并将其分离出来。这需要PixelPlayer具有强大的学习能力和处理能力。像素声音的未来发展方向是如何将PixelPlayer应用于更多的领域中，例如视频编辑、音频处理、机器人感知等领域。同时，也可以探索像素声音在其他领域中的应用前景，例如医疗、教育等领域。像素声音的研究意义是非常重要的，它可以解决机器人感知、视频编辑、音频处理等领域中的许多挑战。像素声音可以学习视觉中的声音，从而实现独立调整声源音量等应用。像素声音的技术难点是如何学习视觉中的声音，并将其分离出来。这需要PixelPlayer具有强大的学习能力和处理能力。像素声音的应用前景非常广阔，例如在视频编辑、音频处理、机器人感知等领域都可以应用。像素声音可以学习视觉中的声音，从而实现独立调整声源音量等应用。像素声音的研究方向是如何将PixelPlayer应用于更多的领域中，例如视频编辑、音频处理、机器人感知等领域。同时，也可以探索像素声音在其他领域中的应用前景，例如医疗、教育等领域。像素声音的挑战是如何学习视觉中的声音，并将其分离出来。这需要PixelPlayer具有强大的学习能力和处理能力。像素声音是一种非常有前途的技术，它可以学习视觉中的声音，从而实现独立调整声源音量等应用。PixelPlayer是一个非常有前途的系统，它可以应用于各种场景中，例如视频编辑、音频处理、机器人感知等领域。

赵航

等

图二.生成像素的声音的过程：像素级视觉特征通过在应用于T帧的扩张

ResNet的输出上的时间最大池化来提取。输入的音频频谱图通过一个U-

Net，其输出是K个音频通道。每个像素的声音由音频合成器网络计算音频

合成器网络输出要应用于输入频谱图的掩模，该掩模将选择与像素相关联

的频谱分量最后，将逆STFT应用于针对每个像素计算的频谱图以产生最

终声音。

自然数据我们的模型同样是自我监督的，但使用自我监督来学习在视

觉中分离和接地声音。

音视频源分离与定位

在本节中，我们将介绍PixelPlayer的模型架构，以及建议的Mix-and-

Separate训练框架，该框架可以根据视觉学习分离声音。

3.1

模型架构

我们的模型是由一个视频分析网络，一个音频分析网络，和一个音频

合成器网络，如图所示。二、

视频分析网络。视频分析网络从视频帧中提取视觉特征。它的选择可

以是用于视觉分类任务的任意架构。在这里，我们使用ResNet-18模型

的扩张变体[15]，将在实验部分详细描述。对于大小为T×H×W×3的输

入视频，ResNet模型提取大小为T×（H/16）×（W/16）×K的每帧特

征。在时间池化和S形激活之后，我们获得具有大小K的每个像素的

视觉特征

（

，

）。

音频分析网络。音频分析网络采用U-Net [35]架构的形式，将输入声

音拆分为K个分量

=（1

，…

）。我们根据经验发现，使用音频

频谱图

视频分析网络

音频合成器网络

输入视频帧（

）

∑

（

，）

k=1

扩展的

ResNet

扩展的

ResNet

扩展的

ResNet

个图像

通道

像素的声音

iSTFT

（，）

音频分析网络

输入音频

估计音频

质

量

(one

每个

，

位置）

STFT

声音频谱图

个音

频通道

音频U-Net

…

时间最大池化

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

PixelPlayer：无监督视觉音频分离与定位系统

利用声音进行定位的算法实现

基于深度学习的数字图像处理pptx.pptx

显示/光电技术中的Brillian推出600万像素LCOS高清电视

视频信号详解：从模拟到数字，逐行到隔行

"彩色电视机新技术简介：显示、信号、伴音通道新技术，多功能增强

视频编码中的图像降噪技术

色彩校正和调色技术：提升视频影像质量

多媒体技术与应用：Photoshop软件高级功能探秘

一款高效的Vue 3低代码表单，可视化设计，一键生成源码

Python第八周作业

最新资源