基于扩展起始网络和U-Net的语音分离模型

143 浏览量更新于2023-12-09 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志23（2022）121基于扩展起始网络和U-Net的Ghada Dahy Mohammed A.A.Refaey，Reda Alkhoribi，M.Shoman埃及开罗大学计算机和人工智能学院阿提奇莱因福奥文章历史记录：2022年1月7日收到2022年5月15日修订2022年9月4日接受2022年9月29日网上发售保留字：基于短时傅立叶变换倒谱系数的对数滤波器组能量与谱子带质心视听言语A B S T R A C T本文提出了一种从其他说话人的语音组合中分离出目标说话人的语音的视听模型。它可以用于语音分离，自动语音识别系统（ASR），也可以用于创建单个说话人的语音数据库。语音分离是一个复杂的问题，它只利用音频信息，所以要结合视觉和听觉信号来完成分离过程。该模型由四个模块组成，两个用于音频信号，一个用于视觉特征，最后一个用于连接前三个模块产生的特征，以生成分离的信号。与以前的作品相比，我们提出的模型提高了11%的短时客观可懂度（STOI），24%的语音质量感知评价（PESQ）和16%的它还提高了Csig©2022 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍语音数据在当今社会中扮演着重要的角色，语音通信变得越来越频繁，如使用软件发送语音消息和控制手机设置和应用程序。在现实环境中，语音与声学干扰同时发生，作为背景噪声。干扰通常会影响言语感知，导致言语成绩下降.语音分离是音频处理领域中的一个重要问题，它是指在噪声环境中，将目标说话人的声音集中起来，而将其他说话人和背景的语音变异*通讯作者：埃及开罗大学计算机与人工智能学院助教。电子邮件地址： g.fci-cu.edu.eg （ G.Dahy ）， m.fci-cu.edu.eg（M.A.A.Refaey），r. fci-cu.edu.eg（R.Alkhoribi），m.essmael@fci-cu.edu. 例如M. Shoman）。开罗大学计算机和信息系负责同行审查。噪声它也被认为是在一个给定的混合语音信号中提取所有干扰语音源随着语音技术的不断发展，如Apple Siri和Amazon Alexa，语音分离问题变得越来越重要和有趣。实际上，语音分离被认为是一个预处理阶段，用于许多语音应用，如从语音信号中分离噪声，ASR和创建语音数据库。实际上，机器在噪声环境中不能很好地识别语音，在拥挤的声音环境中识别性能会有很大的提高。语音分离领域的进展在很大程度上依赖于开发适当的语音数据库。人类的听觉系统具有通过经验从复杂的混合信号中区分声音尽管在这一问题上取得了重大进展，但这是一个被广泛认为是挑战的问题。本文的主要目标是从混合背景信号中恢复出质量较好的目标说话人语音我们希望在未来有助听器和耳塞，能够消除音频源，我们由于人的声音的时频特性，很难对语音分离过程进行有效的建模https://doi.org/10.1016/j.eij.2022.09.0011110-8665/©2022 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comG.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121122差别很大。在像鸡尾酒会这样的声学环境中，很难在其他扬声器存在的情况下跟随一个扬声器和背景噪音。研究表明，在噪声环境下，将音频信号之外的视觉流作为分析混合声音的辅助因素，具有很大的优势。由于我们的资源有限，很难使用具有数百万录制视频的数据集来训练所提出的模型，因此从TheOxford-BBC LRS 2数据集中提取了一个子集样本。大多数语音分离系统都是基于短时傅立叶变换（STFT）的，研究者们试图从频域分析语音，因此我们采用STFT分量来分析输入的音频信号。近年来，人们非常关注如何根据短时傅里叶变换的结果，提出新的网络结构或使用新的损失函数来提高语音分离系统的精度。在本文中，我们介绍了一种新的解决方案的语音分离，取得了一个有趣的性能与其他旧的方法相比。提出的解决方案结合视觉和听觉信号来完成分离的过程。所选择的视觉特征用于指导分离所需扬声器的音频并提高分离过程的质量。除了视觉特征和短时傅立叶变换（STFT）分量外，还引入了Mel倒谱系数、对数滤波器组能量和子带谱中心等音频特征，可以提高分离语音的质量。该算法由四个模块组成，其中两个模块用于分析音频信号，一个模块用于学习视觉特征，最后一个模块用于将前三个模块的特征进行拼接以生成分离的信号。为了完成分离过程，我们构建了一个由15，625个样本组成的数据集，分为14，063个用于训练，1562个用于测试。使用U-net和Inception网络深度学习结构来支持我们提出的模型来学习目标说话人的声音。本文的主要贡献在于建立了两个平行说话人的音频分离模型，在分离过程中以视觉特征为指导，对音频信号进行更深层次的分析，以提高分离声音的性能。本文的其余部分组织如下。我们首先在第2节中回顾了几种相关的语音分离方法。然后，我们在第3节中详细阐述了我们提出的声音分离模型在第4节中，我们描述了实验装置，报告了实验结果，并讨论了我们的发现。最后，我们将在第5节中结束2. 相关作品有许多研究人员试图只使用音频信息来解决这个问题Yannan等人[1]证明了非监督同信道语音分离。他们提出的DNN框架可以很好地将语音从两个不同性别的未被看到的说话者的混合物中分离出来，因为相同性别的说话者之间的距离小于不同性别的说话者之间的距离他们使用对数功率谱作为DNN的输入他们在MMSE标准下实现了该系统，该标准最大限度地减少了DNN输出与女性和男性说话者的参考干净特征他们的系统实现PESQ优于GMM（高斯混合模型）。有一些研究人员试图使用目标说话人的参考音频来分离声音。QuanWang等人[2]提出了一种新颖的系统，该系统通过利用来自目标说话人的参考信号将目标说话人的语音从多说话人信号中分离出来。他们通过训练两个独立的神经网络实现了这一点。他们的系统分别由两组件、扬声器编码器和VoiceFilter。扬声器编码器从目标扬声器的音频样本产生扬声器嵌入。第二个系统是专门为语音增强而开发的VoiceFilter系统。他们的网络可以生成目标说话人的幅度谱图;他们直接将噪声相位添加到估计的幅度上，最后应用ISTFT得到最终结果。他们的网络经过训练，以最大限度地减少掩蔽幅度谱图和目标谱图之间的差异。在VoiceFilter中，他们需要每个目标的干净参考话语来计算说话人嵌入，因此他们从VCTK数据集生成数据集他们随机选择了99名演讲者进行培训，10名进行测试。为了评估他们的系统的性能，他们使用了两个指标：语音识别单词错误率和源失真率。该系统将单词错误率降低到23.4%。利用目标说话人面部肌肉的表情信息作为视觉Ariel Ephrat等人[3]设计并训练了一个扩展卷积神经网络模型，该模型将混合声音的音频与视频中每帧的所有检测到的面部作为输入，并将混合声音分为所有检测到的扬声器的单独音频集。该模型使用视觉嵌入功能来提高源分离质量，并支持其模型跟踪视频中的所有扬声器。他们的模型从用户标记的脸的目标说话人，他/她想要分离作为在分离过程中的指导。他们引入了一个新的数据集，其中包括从网络上录制的数千小时的视频。为了生成训练数据，他们混合了两个不同扬声器的干净音频。他们提出的网络是通过使用TensorFlow实现的。与其他以前的视觉方法相比，当在其数据集上训练时，它具有较高的SDR。他们表明，他们的音频系统对同一性别的不同声音具有鲁棒性。他们提出了视觉信息在提高系统精度方面的重要性，即使它很小。有用于音频源分离的端到端学习方法直接在时域中操作，并且也可以在频域中使用，如时间音频分离网络（TAS-Net）[4，5]，U-Net[6，7]，多分辨率网络[8]和WaveNet[9]。TAS-Net依赖于从用户获取原始数据并将其分离为未混合的信号。TAS-Net在基于音频或视听信息的语音分离中的应用受到了广泛的关注。U-Net包含两条路径。第一个路径是压缩路径（也称为编码器），用于捕获音频中的上下文。编码器只是一个传统的卷积和最大池层堆栈。第二条路径是对称扩展路径（也称为解码器）。U-net只关注音频信息来分离信号。它工作在时域和频域。大多数与U-net相关的研究都是在时域上进行的，并且依赖于从背景噪声中分离歌曲鼓和吉他。在频域中有研究利用U-网进行语音增强和背景噪声分离。多分辨率网络主要由编码器和解码器两部分组成。编码器由一组卷积层和一组应用于每层的滤波器组成，之后将来自每层的结果特征图连接起来，以在对它们应用激活函数之后生成下一层的输入。解码器使用编码器的反向操作来生成最终输出。大多数研究使用多分辨率网络是在频域，但我们可以受益于滤波器组的思想，通过使用不同的分辨率分析声音，提高时域信号的准确性。 InceptionModules[10]用于卷积神经网络，以实现更高效的计算和更深入的网络。G.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）1211233. 视听语音分离模型该模型引入了一个说话人列表时的语音分离结构，其中说话人的数量在本文中是两个。它被认为是一种视听模型，它相对于每个说话人的面部嵌入特征来分离语音。它可以实现更好的性能，即使使用有限大小的数据集。该模型由四个模块组成。它将检测到的人脸和混合音频的视觉嵌入特征作为输入，并生成与每个说话者相关的压缩复频谱图R t;f，如图1所示。相对于目标的混合语音Yt;ft;和干净语音的STFT分量，计算每个说话者M t; ft;的复扬声器St;fasin Eq.（一）.从视频帧中检测到的说话人对于视觉流模块，预先训练的人脸识别模型用于为每个检测到的人脸在输入视频中生成每帧的人脸嵌入，称为用于人脸识别和聚类的统一嵌入它在许多基准人脸数据集上取得了很高的人脸识别准确率，如Youtube Face Labeled Facesin the Wild数据集。它直接学习从面部图像到紧凑的欧几里得空间的映射，其中距离直接对应于面部相似性的度量[15]，然后所提出的模块使用与初始网络中的滤波器分解相同的思想来学习视觉特征，这使得我们能够通过使用多种类型的滤波器来分析输入，这些滤波器被级联并转发到下一个块或层，而不是仅使用一个滤波器。Inception块的设计方式需要更少的计算量，Mt;fSt;fYt;f1 -e-0：1Mð1Þ与仅使用一个滤波器相比，具有更高的计算复杂度和更少的参数。该模块由四个初始块组成，其中每个初始块由三个卷积神经网络（CNN）和MaxPooling2D的级联组成电话：+86-10-1-00-01-02-01其中t和f分别是时间和频率的索引。该模型通过实现两个音频模块、一个视频模块和第四个特征拼接模块来完成分离过程。视觉流是另一个具有不同数量过滤器的Inception网络是用于训练音频流分析模块，该模块将混合声音的梅尔频率倒谱系数、对数滤波器组能量和频谱子带质心作为输入。利用类U-网卷积算法计算混合信号的短时傅里叶变换，训练短时语音频率分析模块Fig. 1.所提出的模型的结构，其中包括四个模块，以隔离目标说话人的语音。¼G.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121124NN. U-net用于医学图像分割，其结构非常浅和简单，因为它重复CNN，Relu和maxPooling的块用于解码和编码路径，因此非常容易实现。该算法在各种基准测试中都取得了很高的分割性能将其应用于语音分离和语音增强中，具有较好的性能通过将学习到的视觉嵌入特征和音频特征相结合来创建视听架构，然后通过使用双向长短期记忆BLSTM能够从后到前和从前到后分析输入序列，使网络能够生成输入的上下文，其中网络能够连接到过去和未来。网络的输出是视频中所有检测到的说话者的复杂频谱图掩码，然后乘以输入音频的信号，最后，它们被转换回波形以得到每个检测到的说话者的孤立语音。3.1. 学习视觉流模块该模块用于在分离过程中指导概览模型，因为该模型将基于他/她的面部特征检索目标说话人的语音。首先，对记录的在这一步中，一个预先训练好的FaceNet网络将从输入图像中检测到的人脸作为输入，输出是一个1792个值的向量，这些值代表了每个人脸最重要的特征在机器学习中，这个向量被称为嵌入特征向量，然后所提出的模块将75x1792X说话者数量的人脸嵌入特征的级联作为输入，因为输入视频中的帧数为75帧，FACENET网络为每帧获得1792个人脸嵌入特征。该模块利用不同尺度卷积核构建的初始块进行训练，最后进行接触融合。它依赖于扩张卷积神经网络，以允许在每个块中使用不同的扩张因子进行更有效的计算。扩张卷积称为带扩张滤波器的卷积它可以通过在其连续元件之间设置孔来扩展输入它像卷积一样工作，但使用像素跳过以从输入覆盖大的区域并且容易地发现输入的元素之间的关系。经典的CNN消耗太多的计算资源，但扩张的CNN可以减少12.09%的训练时间[11]，并且在图像分类和分割方面具有更好的性能。主要在这个模块中，我们通过构建由四个初始块组成的架构，其中每个初始块具有不同的膨胀因子，从而受益于初始块和膨胀卷积的优点。该模块仅使用四个块，因为来自FACENET的更新版本用于提取面部的输入特征，并且增加膨胀因子的过程将对从FACENET检索的小嵌入特征有害[12]。每个块由三个扩张卷积神经网络和大小为N1XM1的MaxPooling2D层的级联组成，第一个扩张CNN使用大小为N2XM2的N个滤波器，第二个扩张CNN使用大小为N3XM3的M个滤波器，第三个扩张CNN使用大小为 N4XM4 的 L 个滤波器，然后前四个层被级联，Batchnormalization和relu激活函数被应用于级联特征，如图2所示。最大池是作为初始块的一部分来完成的，以通过提供表示的抽象形式来减少过度拟合。每个起始块具有不同的扩张率，以支持感受野背景中的指数扩张，这不会导致分辨率损失最后，将具有K个滤波器的CNN层应用于最后一个inception块的Batchnormalization层3.2. 学习音频流模块为了改善语音分离的过程，输入音频的梅尔频率倒谱系数、对数滤波器组能量和频谱子带质心的级联为302 X 65，因为梅尔频率倒谱系数的数量为302 X 13，对数滤波器组能量为302 X 26，频谱子带质心为302 X 26。对这些特征进行了分析，并论证了它们在分离过程中的重要性.所提出的模块将这些特征的级联作为输入到具有不同膨胀率的六个起始块，因为输入特征的宽度为65，这意味着，如果起始块的数量增加到六个以上，则最后一个将始终扫描边界在分析音频特征的过程中，使用扩张CNN，在每个初始块中具有不同的扩张因子，图二. Inception Block层。G.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121125图三.基于U-Net网络的短时语音分析模块。见图4。联合视听模块。图五. 两个说话者的混合语音。G.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121126将一个重要的过程归结为输入的解析和上下文。每个块由三个扩张的CNN和MaxPooling2D层的级联组成。第一个扩张的CNN使用N个滤波器，大小为表1Inception Network的过滤器。N2× M2 1×1 1 × 1N3× M3 3×1 3 × 3N4× M4 5×1 5 × 5扩张率[1，2，4，7][1，2，4，8，16，32]N2XM2，第二个扩张的CNN使用大小为N3XM3的M个滤波器，第三个扩张的CNN使用大小为N3XM4的L个滤波器和大小为N1XM1的MaxPooling2D该模块使用不同的滤波器核大小来分析和跟踪不同尺度的音频特征。3.3. 短时语音分析模块该模块将输入视频中记录的音频数据转换到频域后，利用音频文件的实部和虚部进行分析和理解该模块的输入是由STFT产生的304X256x2的实分量和虚分量频率分量被馈送到U-Net中以学习音频特征。UNet是一种卷积神经网络架构，它是通过在CNN架构中进行少量更改来扩展而构建的，对于生物医学图像分割，AS在O Ana中具有很大的效果，该算法对不同大小的特征进行了分解和跟踪，在语音分离中也U-net架构是表2Unet网络的过滤器。块层[过滤器大小= 5x5]输入大小输出大小它是对称的，由两个主要部分组成：收缩路径、扩展路径、收缩路径和扩展路径之间的卷积过程（名为Con_Block）以及卷积层En_Block1CNN1CNN2MaxPoolingEn_Block2CNN1CNN2MaxPoolingEn_Block3CNN1CNN2MaxPoolingEn_Block4CNN1CNN2MaxPooling304×256 × 2304×256 × 64304×256 × 64152×128 × 64152×128 × 128152×128 × 12876×64 × 12876×64 × 25676×64 × 25638×32 × 25638×32 × 51238×32 × 512304×256 × 64304×256 × 64152×128 × 64152×128 × 128152×128 × 12876×64 × 12876×64 × 25676×64 × 25638×32 × 25638×32 × 51238×32 × 51219×16 × 512如图所示，在扩展路径之后应用名为Out_Block的方法。 3. 左半部分称为收缩路径，由四个进程组成，分别命名为 En_Block1 、En_Block2、En_Block3和En_Block4。每个过程由两个2D卷积和最大池化过程组成，将输入特征的大小减半。右部分称为扩展路径，由四个过程组成它将把前一个过程的特征放大放大输入要素的大小，然后将放大的要素与相应的fea连接起来从收缩路径中提取，以生成级联的FEA。Con_BlockCNN 19× 16× 512 19×16 × 1024De_Block4上采样CNN1CNN2De_Block3上采样CNN1CNN2De_Block2上采样CNN1CNN2De_Block1上采样CNN1CNN219×16 × 102438×32 × 51238×32 × 51238×32 × 51276×64 × 25676×64 × 25676×64 × 256152×128 × 128152×128 × 128152×128 × 128304×256 × 64304×256 × 6438×32 × 51238×32 × 51238×32 × 51276×64 × 25676×64 × 25676×64 × 256152×128 × 128152×128 × 128152×128 × 128304×256 × 64304×256 × 64304×256 × 64在具有两个2D卷积层的同一过程中，将其作为下一层的输入，并且最后准备将所得图像作为输入以开始下一过程。3.4. 联合视听模块特征拼接是一种能够将分离列中的特征转换为一列特征向量的方法这是一个必要的和必要的过程，控制分离过程的新功能集。在本模块中，输出块CNN 304× 256× 64 304×256 × 2学习视频流，学习音频流和短时间图第六章确认损失Ariel of Ephrat et al.[3]的第11段。参数学习视频流模块学习音频流模块N5025M5050L100100K256–N1 ×M13 ×13 ×3G.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121127你好。Σð Þ语音分析模块通过组合前三个模块的特征图来连接，然后将BLSTM应用于连接的特征上，随后是三个密集层。该模块的输出是说话人的压缩复掩码。我们的实验结果都依赖于CRM来分离目标说话人的音频片段。为了检索目标说话人的语音，首先通过使用等式（3）对由模型产生的预测CRM进行解压缩，然后计算解压缩的CRM的ICRM。每个说话者的最终语音是通过使用ICRM的ISTFT计算的，如图11所示。四、D R1log10-R30：1 10分其中D是由模型产生的解压缩CRM，ICRM是解压缩的逆，（R）是压缩的CRM。4. 实验和结果为了将我们的结果与之前工作的视听模型进行比较，我们实现了Ephrat等人的[3]语音分离模型，我们使用我们提出的模型中的相同数据集对其进行训练和测试。表3我们比较了我们的语音分离结果，在使用实验1和实验2与鸡尾酒会模型[3]训练我们提出的网络的情况下，使用短时客观可懂度（STOI），语音质量的感知评估（PESQ）和频率加权分段SNR（fwSNRseg）来比较模型的质量。训练/测试STOIPESQfwSNRsegAriel Ephratet al. [3]第一章0.721.7510.90实验10.771.8511.95实验20.802.1712.59表4使用培训/测试Csig）CovlAriel Ephrat et al.[3]3.17 2.40实验1实验二为了生成我们的双说话者数据集，从BBC（LRS2）数据集中获取了250个视频[13]。 BBC数据集由BBC电视台的数千个口语句子组成。每句话都是向上的见图7。实验1验证损失。见图8。实验2验证损失。G.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121图。Speaker-1的声谱图和幅度谱128þ到100个字符的长度。视频片段的长度在3秒和10秒之间。数据集是通过组合来自不同视频的两个说话者的干净语音来构建的：组合语音=说话者1说话者2其中说话者1和说话者2是干净语音，如图1所示。五、我们的数据集中生成的总样本为15，625个样本，分为14，063个用于训练，1562个用于测试。该模型以视觉嵌入和音频特征作为输入。OpenCV库用于检测输入视频中的说话人面部。OpenCV是最流行的计算机视觉库。它最初是用C/C++编写的，现在提供了Python的绑定[14]。音频文件被重新采样到16 kHz，然后STFT计算输入视频的3秒音频片段每个G.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121见图10。Speaker-2的声谱图和幅度谱129因为它们被用作训练模型的输入。STFT是使用长度为25 ms、跳长为10 ms、FFT大小为512的汉恩窗口对输入音频文件计算的。我们使用python_speech_features[16]库计算3秒输入片段的Mel频率倒谱系数、对数滤波器组能量和频谱G.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121130L-1;P -1;P- 2; P-在本文中，我们提出了组合架构，合并，然后用作我们提出的模型的输入。我们使用压缩的干净频谱图和增强的频谱图之间的均方误差（L）来训练我们提出的模型，如等式（4）中所示。PNAi-Pi2-0： 1PNAi-P jS如表3和表4所示。与实验1和Ariel Ephrat等人相比，每个说话人的声谱图和[3]如图所示。 9和10的5. 结论其中A是压缩的干净频谱图，P是增强的频谱图，N是扬声器的数量，S是CRM的大小我们有两个实验是使用Ten- sorFlow实现的。为了评估我们的实验，我们使用Python语音增强性能测量（质量和可理解性）项目作为助手[17]，语音失真的预测评级和整体质量项目[18]。4.1. 实验1该模型以目标说话人的视觉流和混合语音的短时傅立叶变换分量作为输入，输出为目标说话人的压缩CRM。采用视频流、语音频谱分析和联合视听模块相结合的方法，构建了整个系统的体系结构。视觉流模块使用初始块的组合，其中每个初始块使用表1中的可学习参数的级联，其由50个大小为1X1“的滤波器组成表2示出了与语音频率分析模块中的每一层相关的UNet滤波器，其中编码器和解码器路径中的每个块由具有相同数量的滤波器的两个卷积层和大小为2x2的maxpool-ing 2D组成，以将输入特征减半。在这个实验中，一个批量大小为6个样本和亚当opti-用2343批的混合器完成分离过程，学习率为1 × 10- 5据观察，实验1与Ariel Ephrat等人[3]相比，具有更好的验证损失。与Ariel Ephrat等人[3]相比，它具有更好的语音增强性能，语音失真预测等级和整体质量。每个说话人的声谱图和幅度谱都优于Ariel Ephrat等人。[3]的第11段。4.2. 实验2在这个实验中，所提出的模型采取倒谱系数，对数滤波器组能量和频谱子带质心作为输入特征旁边的视觉流和STFT组件。它是在实验1中所提到的三个模块的基础上，使用音频流分析模块的级联来在音频流分析模块中，每个起始块由25个大小为1x1的滤波器级联组成，然后当滤波器的大小增加时，滤波器的数量被复制，因此音频模块使用50个大小为3x3的滤波器和100个大小为5x5的滤波器。该模块中的每个初始块都使用大小为3x3的maxPooling，如表1所示。这实验使用亚当优化器与学习率1 × 10-5，批量等于2。它具有更好的验证损失与以前的工作和实验1，如图1和2所示。六比八讲话与以前的工作和实验相比，语音失真的增强性能预测等级被认为是最佳值语音和音频数据进行语音分离，与以前的工作相比，具有更好的性能。我们使用来自（LRS2）数据集的250个视频生成一个新的数据集，其中包含可见的说话人和干净的语音。该模型使用由u-net和inception网络组成的深度神经网络结构来学习分离过程。我们提出的模型包括两个模块的音频，一个用于视觉流和第四个特征级联，其中每个扬声器的视觉流数据是从扬声器的检测到的脸，和音频流数据是从混合的扬声器的语音在输入音频。为了评估其性能，我们使用python语音增强性能指标作为短时客观智能度、语音质量的感知评估和频率加权分段SNR以及语音失真的预测评级和整体质量的预测评级。实验结果表明，与以往的方法相比，我们提出的模型使STOI提高了11%，PESQ提高了24%，fwSNRseg提高了16%与其他视觉模型相比，它还将Csig'提高了13%，'Covl'提高了18%。在我们看来，我们将承诺未来的发展方向包括通过将来自该系统的结果信号作为语音增强系统的输入来提高目标说话人的语音质量竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用[1] YannanWang ， Jun Du ， Li-Rong Dai ， Chin-Hui Lee ， Unsupervised singlechannel speech separation via deep neural network for different gendermixtures ， in ： Proceeding in Asia-Pacific Signal and Information ProcessingAssociation Annual Summit and Conference （ APSIPA ）， Jeju ， Korea ， 13-15December 2016.[2] 王泉，汉娜·穆肯赫恩， Prashant Sridhar， Zelin Wu ， John Hershey ， RifA.Saurous， Ron J. Weiss， Ye Jia ， Lopacio Lopez Moreno ， VoiceFilter ：Speaker-Conditioned Spectrogram Masking的目标语音分离，国际语音通信协会INTERSPEECH会议，奥地利格拉茨，2019年9月15日至19日。[3] Ariel Ephrat ， Inbar Mosseri ， Oran Lang ， Tali Dekel ， Kevin Wilson ，Avinatan Hassidim，William T. Freeman，Michael Rubinstein，Looking toListen at the Cocktail Party ： A Speaker-Independent Audio-Visual Modelfor Speech Separation，ACM Trans. Graph.期刊，期刊：37，第4期，PP：112：1-112：11，2018。[4] 罗毅，梅斯加拉尼·N. Conv-TasNet：超越理想的语音分离时频幅度掩蔽。IEEE/ACM TransAudio SpeechLang Process 2019;27（8）：1256-66.[5] 吴健，徐勇，张世雄，陈连武，于猛，谢磊，于东，时域视听语音分离，第20届国际语音通信协会INTERSPEECH 2019年会论文集，奥地利格拉茨，9月15日至19日。2019年。[6] Tomasz Grzywalski，Szymon Drgas，递归U-net架构在语音增强中的应用，2018年信号处理：算法，架构，安排和应用（SPA），波兰波兹南，2018年9月19日至21日。[7] Daniel Stoller，Sebastian Ewert，Simon Dixon Wave-U-Net：用于端到端音频源分离的多尺度神经网络，第19届国际音乐信息检索会议（ISMIR 2018），法国巴黎，2018年9月23日至27日。[8] Emad M.放大图片作者：Mark D. Plumbley，使用多分辨率卷积自动编码器的原始多通道音频源分离，2018年第26届欧洲信号处理会议（EUSIPCO），意大利罗马，2018年9月3日至7日。[9] Dario Rethage ， Jordi Pons ， XavierSerra ， A wavenetforspeechdenoising，Proceedings in IEEE International Conference on Acoustics，Speech andSignal Processing，Calgary，AB，Canada，April 15-20，2018。ð4ÞG.穆罕默德？达希雷费河Alkhoribi等人埃及信息学杂志23（2022）121131~[10] Christian Szeged ， Wei Liu ， Yangqing Jia ， Pierre Sermanet ， Scott Reed ，DragomirAnguelov ， DumitruErhan ， VincentVanhoucke ， AndrewRabinovich，Going deeper with convolutions，Proceedings in 2015 IEEE Conferenceon Computer Vision and Pattern Recognition（CVPR），Boston，MA，USA，7-12June 2015.[11] 雷X，潘H，黄X.用于图像分类的扩张CNN模型。IEEEAccess 2019;7：124087-95.[12] Ryuhei Hamaguchi，Aito Fujita，Keisuke Nemoto，Tomoyuki Imaizumi，Shuhei Hikoji，有效使用扩张卷积分割遥感图像中的小对象实例，2018年IEEE计算机视觉应用冬季会议（WACV），美国内华达州太浩湖，2018年3月12日至15日。[13] www.robots.ox.ac.uk/vgg/data/lip_reading/lrs2.html最后访问时间：2021年2月20日。[14] 《 Mastering Computer Vision with TensorFlow 2.x ： Build AdvancedComputer Vision Applications Using Machine Learning and Deep LearningTechniques》一书。[15] Florian Schroff，Dmitry Kalenichenko，James Philbin，FaceNet：用于人脸识别和聚类的统一嵌入，计算机视觉和模式识别（CVPR）E EE会议论文集，波士顿，MA，美国，2015年6月7日至12日。[16] https://github.com/jameslyons/python_speech_features库最后访问时间：2021年10月22日。[17] https://github.com/schmiph2/pysepm最后访问时间：2021年10月11日。[18] https://github.com/usimarit/semetrics/blob/master/README.md 最后访问10/11/2021。

下载后可阅读完整内容，剩余1页未读，立即下载