深度视觉音频去噪模型：鸟鸣降噪方法及实验结果

180 浏览量更新于2023-10-16 收藏 853KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2248鸟鸣降噪：鸟叫声的深度视觉音频去噪Youshan ZhangYeshiva University，NYC，NYyoushan. yu.edu李嘉璐康奈尔大学，伊萨卡，纽约jl4284@cornell.edu图1：我们提出的深度视觉音频去噪模型（DVAD）的总体进展摘要音频去噪已经使用传统和基于深度学习的方法探索了几十年。然而，这些方法仍然限于手动添加的人工噪声或较低的去噪音频质量。为了克服这些挑战，我们收集了一个大规模的自然噪声鸟声数据集。我们是第一个将音频去噪问题转化为图像分割问题，并提出了深度视觉音频去噪（DVAD）模型。共有14，120幅音频图像，我们开发了一个音频Im-ageMask工具，并建议使用少量的泛化策略来标记这些图像。大量的实验结果表明，该模型达到了最先进的性能。我们还表明，我们的方法可以很容易地推广到语音去噪，音频分离，音频增强和噪声估计。1. 介绍随着技术的发展，音频信号越来越多地被用作信息传输的主要来源[17]，例如电话会议[14]、社交媒体中的语音转文本功能[32]、用于疾病诊断的肺音[22]和心音[15]、仪器独奏识别[11]和助听器[37，27，33]等。因此，保持信号传输的质量并保留尽可能多的有用信息非常重要。然而，由于实际环境中存在噪声，音频信号的传输，包括语音和我们打算收集的其他音频去噪可以显著提高音频质量，有助于更好的信息传输效果.近年来，音频去噪一直是一个热门的研究领域，不同的方法已被应用于减少噪声和分离音频，包括传统的统计方法[5，28，12，19]和深度学习方法[5，28，12，19[27，26，2，24，16].虽然在这些模型中遇到了一些困难。在本文中，我们专门使用来自自然环境的样本，这对所提出的研究模型提出了更多的挑战。为什么自然音频去噪很难？首先，最常见的困难是培训资源有限。基于深度学习的模型需要干净和嘈杂的音频样本进行训练。然而，在现实中，音频信号带有噪声，无法分离以产生所需的训练样本[14]。其次，用于模型训练的大多数噪声音频样本都是人工编译的，例如白高斯噪声（WGN）[30，39]，其组成与自然噪声不同此外，我们仍然可以在人工噪声音频中观察到干净的信号模式，而在真实噪声音频中很难观察到干净的信号模式，如图1所示1（最左和最右信号）。因此，与实验相比，训练模型的降噪性能在真实环境中可能表现不佳。这两个挑战是音频去噪领域经常遇到的，我们使用深度视觉音频去噪模型（DVAD）来解决它们。在本文中，我们首先收集直接从自然环境中获取的音频样本该模型可以处理更复杂和自然的噪声相比，以前的模型。我们提供三个主要贡献：我们提出了一个基准的鸟的声音去噪数据集的目标是推进国家的最先进的自然噪声背景下的• 据我们所知，我们是第一个·2249音频去噪转化为图像分割问题。通过去除音频图像中的噪声区域，实现音频去噪的目的。我们开发了一个音频ImageMask工具来标记收集的数据集，并应用少量泛化策略来加速数据标记过程。我们还证明，我们的模型可以很容易地扩展到语音去噪，音频分离，音频增强和噪声估计。2. 相关工作音频去噪已经得到了广泛的探索，许多方法已经从传统的估计噪声和干净音频统计之间差异的方法[37]发展到采用深度学习方法[3]。传统的音频去噪方法可以追溯到20世纪70年代。Boll [5]提出了一种使用在非语音环境中计算的谱噪声偏差的谱减法的噪声抑制算法[28]中提出的另一种统计方法是一种更全面的算法，将先验信噪比（SNR）的概念与早期典型的音频增强方案（如维纳滤波[6，18]，频谱减法或最大似然估计）相结合。在频域算法中，除维纳滤波外，基于最小均方误差（MMSE）的方法是主流方法Hansen等人[12]提出了一种在听觉增强方案中应用广义MMSE估计器的听觉掩蔽阈值增强方法。在[19]中，MMSE估计器用于通过估计噪声和干净语音的离散傅立叶变换（DFT）系数来增强短时频谱系数其中一个主要的问题是，传统的噪声分离和降噪方法的性能会随着自然噪声的存在而下降，这与实验中应用的人工噪声有很大的小波变换方法是为克服低信噪比信号研究的困难而发展起来的，其性能优于滤波方法。Zhao等人[41]使用改进的阈值去噪方法，克服了硬阈值去噪的不连续性，减少了软阈值去噪的永久性偏差。Srivastava等人[30]开发了一种基于小波收缩的小波去Pouyani等人[22]提出了一种基于离散小波变换和人工神经网络的噪声环境下肺音信号自适应滤波方法。Kui等人[15]还将小波算法与CNN相结合，以更高的精度对心音信号的对数梅尔频谱这些组合方法优于单一的小波变换方法。深度学习方法后来被引入到非线性系统中，dio去噪领域，补充了传统方法的缺点，并展示了更强的学习数据和特征的能力，只需少量样本[37]。基于深度神经网络（DNN）的音频增强算法在捕获具有复杂非线性函数的数据特征的能力方面显示出巨大的潜力[16]。Xu等人。[38]介绍了一种用于自动语音去噪的深度学习模型，以检测静音间隔并更好地捕获具有时变特征的噪声模式。Saleem等人[27]使用基于深度学习的方法来增强伴随复杂噪声的音频。在训练和测试期间使用理想二进制掩码（IBM），并且训练的DNN用于估计IBM。Xu等人。[39]提出了一种基于DNN的监督方法，通过找到噪声和干净音频样本之间的映射函数来增强音频在训练和其他技术期间使用大量噪声数据集的混合物，包括全局方差均衡和丢弃和噪声感知训练策略。Saleem等人[26]还开发了一种基于监督DNN的单声道音频增强算法，并将较不积极的维纳滤波作为附加DNN层。Vuong等人[34]描述了基于深度学习的音频增强方法的调制域损失函数，应用额外的可学习频谱-时间感受野来增强音频质量和可理解性的客观预测。然而，DNN的语音去噪应用中的一个问题是，有时模型很难在多个训练扬声器中跟踪目标扬声器，这意味着DNN不容易处理长期上下文[33，16]。因此，探索了深度学习方法，例如基于卷积神经网络（CNN）和基于递归神经网络（RNN）的模型。Alamdari等人[2]应用全卷积神经网络（FCN）进行仅含噪声样本的音频去噪，该研究显示了新模型与传统监督方法相比的优越性。 Germain 等人 [10] 使用深度特征丢失训练FCN，用于声学环境检测和国内音频标记。研究表明，这种新方法对于具有最侵入性背景噪声的音频特别有用。Kong等人。[14]提出了一种使用预训练音频神经网络的音频增强方法，该方法Raj等人。[24]提出了一种用于音频信号去噪的多层基于CNN的自动编解码器，使用梅尔频率倒谱系数，提供良好的编码和高安全性。Abouzid等人[1]将卷积和去噪自动编码器组合成卷积去噪自动编码器，用于抑制噪声和压缩音频数据。在单一类型的深度学习方法之上，Tan et·2250∫{}Mt=1t=1i=1i=1不- -{M}等人[33]提出了一种递归卷积网络，通过将卷积编码器-解码器和长短期记忆（LSTM）结合到卷积递归神经网络（CRN）架构中来解决实时音频增强问题。该方法优于现有的基于LSTM的模型，具有更少的可训练参数。Gao等人[8]和[9]分别将渐进式学习框架应用于基于DNN和基于LSTM的音频增强，以提高模型性能并降低复杂度。Li等人。[16]将渐进式学习框架与因果CRN相结合，以进一步减少可训练参数并提高音频质量和可懂度。该方法产生了接近CRN的性能。许多深度学习方法都是在时频域中实现的，使用短时傅立叶变换（ STFT ）和短时傅立叶逆变换（ISTFT）[36]。一些方法通过时域算法解决音频增强，将音频增强视为滤波问题[40]。Yu等人。[40]提出了一种用于音频增强的基于DNN的卡尔曼滤波算法。DNN用于估计KF中的线性预测Sonning等人[29]研究了用于语音去噪的时域网络的性能，解决了基于STFT/ISTFT的时频方法最初无法捕获短时变化的问题，并发现其在实时设置中的有用性。Wang等人。[36]提出了一种用于时域中端到端音频去噪的两级Transformer神经网络，包括编码器，两个(a) 音频信号（b）音频图像图2：通过取STFT的绝对值从音频信号（a）转换为音频图像（b）。(b)是对称的图像，并且大多数噪声区域集中在图像的中心（浅白色水平线）。信息和干净的信号（鸟的声音）主要在于明亮的白色图案。更多噪声信号区域请参考补充资料。在图2b中，我们可以发现在噪声和干净信号区域之间存在显著差异因此，如果能够分割出干净的信号区域，就我们进一步将音频去噪处理为图像分割问题。3.3. 初步3.3.1短时傅立叶变换STFT用于分析非平稳信号的频率成分如何随时间变化。级Transformer模块、掩蔽模块和解码器。他们的模型优于许多时域或频域模型，复杂性更低。STFTx （t，f）=∞x（t）ω（t−τ）e−j2πftdt（1）−∞3. 方法3.1. 问题给定噪声音频信号{xt}T，我们的目标是提取其中STFT x（t，f）是STFT的系数。STFT是一个它是时间（t）和频率（f）的函数，它显示了信号x（t）的频率f如何随时间t变化。ω是窗函数，τ是短时间，j是-1。在我们的模型中，我们的目标是将信号转换为频率干净的音频Tt=1域，并获得每个鸟的声音的原始图像。y tt=1通过学习映射。音频去噪的目标是使去噪后的音频之间的近似（xt）T和干净的音频ytT。在我们的DVAD模型中，我们将音频去噪转换为图像分割问题。给定基于音频信号X ={xi} n的音频图像I={I i}n及其3.3.2短时傅里叶逆变换STFT是可逆的，即通过逆STFT，可以从变换重构原始信号。其定义为：地面真值标记掩码M={m i}n，我们建议i=1最小化任何图像段的预测之间的误差站模型F（I）和M.x=∞∞STFT（t′，f′）ω（t−t′）e−j2πf't'dt′df′.−∞ −∞（二）3.2. 动机现有的一些深度音频去噪模型虽然利用了音频信号的幅度图像，但它们只是过滤掉图像的某些区域来实现去噪的目的。这些图像的细节较少探索。我们的DVAD模型深入研究音频图像，以找到噪声和干净信号区域之间的如图所示在我们的模型中，我们的目标是重建的基础上分割的鸟的声音图像的鸟的声音3.4. 方法为了将音频去噪问题形成为图像分割问题，我们首先需要以图像格式表示音频。在使用Eq.（1），令X2251不·- ×i=1S=STFTx（t，f），我们可以在下面的等式中定义音频图像（I）I=abs（S），（3）应用ISTFT以如下重建去噪音频。x<$=<$∞<$∞S′ω（t−t′）e−j2πf't'dt′df′。（六）−∞ −∞其中abs取来自复频域S的绝对值。如图2，我们将一秒的鸟声音频转换为它的音频图像。我们观察到噪声区和干净声音区的模式是可区分的。如果我们在音频图像中分割干净的声音区域，那么我们可以从频域S中去除噪声。如图3b，我们可以在等式中应用ISTFT。（2）在得到去噪后的音频图像后，重建去噪后的音频信号。因此，我们可以将音频去噪问题转化为图像分割问题。(a) 掩模图像（b）分割图像图3：图3中信号的掩码（a）和分段音频图像（b）。二、（a）是清洁信号区的掩模，如图4a，我们可以在使用等式4去除噪声音频之后得到去噪音频。（五）、我们还在图中显示了原始信号与去噪信号4b.蓝色信号的其余部分（噪声区域）从红色去噪信号中去除。(a)去噪音频（b）重叠信号图4：使用我们的DVAD模型（a）的去噪音频以及原始信号（蓝色）和去噪音频信号（红色）的重叠。3.5. DVAD整体算法考虑到SEC中的所有步骤。3.4，我们提出的DVAD模型的方案如图所示1和整体算法在Alg.1.一、图2b和（b）是通过去除音频图像中的音频图像来噪音区。为了实现图像分割任务，我们需要训练一个分割模型F来分割干净的音频信号算法1深度视觉音频去噪（DVAD）。 B（）表示小批量训练集，I是迭代次数。1：输入：音频信号X={x i}n 和标记掩模区在我们的DVAD模型中，我们训练分割模型图像输入i=1使用骰子损失如下。音频。M={m}i=1，其中n是Diceloss=1 2m²m²，（4）m+m第二章：输出：降噪音频信号3：生成音频图像I={Ii}n使用等式（三）其中，m是地面真实掩码，并且m=F（I）是给定输入图像I的分割模型的预测掩码。在掩码中，我们使用1表示干净的音频区域，使用0表示噪声区域在训练F之后，我们可以预测任何音频图像的分割掩模接下来，我们的目标是重建去噪音频。由方程式（2），给定密钥输入频域S，我们可以恢复原始x（t）。为了去除噪声音频，我们需要在给定预测掩码的情况下过滤掉S分割模型。我们在以下等式中定义新的频域S′S′=S，且S′[m≠1]=0，（5）其中S′[m<$1]=0的目的是将所有噪声区域用0代替，以达到去除噪声区域的目的然后我们还可以2252我我4：iter=1toIdo5：从和M中导出B（）和B（M）6：使用等式6优化任何分割模型F。（四）第七章：端8：使用等式（1）获得干净的频域。（五）9：使用等式（1）输出去噪音频信号。（六）4. 数据集4.1. 数据收集我们的数据来自xeno-canto网站，这是一个分享世界各地鸟类声音的公共网站。我们首先收集了15,300种鸟的声音，从1秒到15秒。与许多音频去噪数据集不同，1https://xeno-canto.org/explore2253i=1--图5：四个示例图像和掩码。在每个样本中，左边是音频图像，右边是其标记的掩码。每个样本的宽度取决于音频的长度。较长的音频将产生较宽的音频图像。我们所收集的鸟鸣声中包含自然界的声音，包括风声，瀑布声，雨声等。然后，我们在Eq中应用STFT。（1）将鸟声转换到频域，并使用等式（1）得到音频图像。（三）、有些音频有两个音轨（左和右音轨）。因此，我们得到更多的图像比收集的音频。由于我们已经将音频去噪转换为图像分割问题，因此需要为音频图像提供掩码因此，我们的下一个任务是标记这些音频图像。4.2. 数据标注图像掩模标记是耗时的，繁琐的，和昂贵的。然而，为了训练任何机器学习算法，我们必须提供足够的标记数据集以实现良好的鉴于没有专门的软件用于音频图像标记，我们还开发了一个音频图像掩码工具。ImageMask软件有三个关键功能。（一）.它可以打开一个音频图像和标签，它创建一个面具，并显示原始音频图像和标记面具之间的重叠。（二）、我们可以保存创建的面具和去噪音频。该软件还支持人工验证。所有接受的去噪音频将保存在“接受”文件夹中。该文件夹包含另外四个子文件夹：原始音频、去噪音频、音频图像和音频掩码。（三）、我们还可以将地面真实掩码与来自任何分割模型的预测掩码进行从头开始，我们首先手动标记100个音频图像作为训练图像， 40 个图像作为测试图像。我们选择DeepLabV3 [7]作为分割模型，并使用这140个标记图像训练DeepLabV3模型，以获得基本模型F。然后，我们可以通过F（I）来预测粗糙掩码。给定任何未标记的音频图像Ii，我们可以得到所有预测的粗糙掩码为F（Ii）n。最后，可以使用我们开发的音频ImageMask工具进一步修改这些粗掩模。在使用所提出的少样本泛化策略后，整个数据集在一个月内由四位专家标记。4.3. BirdSounds去噪数据集在使用Sec. 4.2，我们可以保存所有接受的标记音频以创建Bird-SoundsDenoising数据集（请注意，在标记过程中会删除一些低质量的音频）。 Bird-SoundsDenoising数据集包含14，120个音频图像，并有三个文件夹：培训、验证和测试。在每个文件夹中，还包括另外四个子文件夹：原始音频、去噪音频、图像和掩码。选项卡. 1显示了每个文件夹的统计数据。如图5，我们列出了四个音频图像和它们的标记掩码。这些音频图像是变化的，并且干净信号区域也是不同的。更长的音频可以产生更长的图像。在实验中，我们将使用训练和验证数据集微调模型，并在测试数据集上报告结果。表1：BirdSoundsDenoising数据集以验证模型的性能。的更多细节我们开发的音频ImageMask工具可以在补充材料中找到。少炮综合虽然我们开发了一个特定的音频去噪软件，它需要大约5分钟来标记一个音频图像。我们有15,000多个音频图像，给所有图像加标签仍然为了加速标记过程，我们建议利用少数镜头生成来首先预测音频图像的粗掩码。然后，我们可以验证和更新这些粗糙的面具，以获得更好的面具。少样本学习的目的是基于少量标记样本学习一个鲁棒的模型，从而提高新数据集的性能。为了简化图像标记的过程，数据集培训验证测试样本数量10，000 1，400 2，7204.4. 数据集创建详细信息在STFT中，将音频信号转换为音频图像，我们首先使用128点Hamming作为窗函数，重叠样本数=64，DFT点数=1024，将鸟的声音转换到频域S，并使用Eq.（三）、在少量泛化中，我们利用DeepLabV3作为基本分割模型来生成粗糙的音频图像掩码。在140张图像的训练过程中，我们设置批量大小= 16，训练迭代I=100，学习率= 0.0001，使用Adam opti。2254××2×|| ||RTX A6000 GPU上的mizer。DeepLabV3模型的输入图像大小为[512 512 3]。我们排除了没有鸟的声音或极端嘈杂的背景的音频图像。5. 实验为了评估我们提出的DVAD模型的性能，我们在我们创建的BirdSoundsDenoising数据集上进行了测试。我们首先训练六种不同的最先进的分割模型，以展示不同分割的效果。MTUNet为12个，Segmenter2为32个。为了显示DVAD模型的优越性，我们还将所提出的模型与三种音频去噪方法进行了比较[21，13，20]。5.2. 结果5.2.1评估指标我们使用三个度量（F1，IoU和Dice）来评估图像分割的性能，如下所示。对音频去噪性能的影响。这六个选定的分割模型具有编码器-解码器架构。编码器的目的是提取重要的特征，TPF1=TP+1（FP+FN），（七）年龄（例如，边缘），并且解码器学习如何将这些低分辨率特征映射到像素级的预测。IoU=mmm+mD冰=2mm，m+m1. SegNet [4]：编码器网络使用VGG16中的层，解码器网络后面是逐像素分类层。SegNet的解码器可以使用在相应编码器的最大池化步骤中计算的池化索引对其较低分辨率的输入特征图进行上采样，2. U-Net [25]：它有一个称为膨胀卷积的结构U-Net架构包括一个捕获上下文的收缩路径和一个实现精确定位的对称扩展路径。3. DeepLabV3 [7]：它使用扩张卷积和全连接条件随机场来实现atrous空间金字塔池（ASPP），这是SPP的atrous版本，可以考虑不同的对象尺度并提高准确性。4. U2-Net [23]：它能够从不同尺度捕获更多的上下文信息，并在剩余U块中混合不同大小的感受野5. Segmenter [31]：它利用Vision Transformer（ViT）作为编码器对所有图像块进行编码。逐点线性解码器应用于补丁编码。它还包括一个解码器与掩码Transformer，以进一步提高性能。6. MTU-Net [35]：它提出了一种新的Transformer模块，称为Mixed Transformer Module（MTM）。该算法利用局部-全局高斯加权自注意（LGG-SA）算法有效地计算自仿射。它还使用外部注意力（EA）挖掘数据样本之间的相互联系。5.1.实现细节六种不同分割方法的训练设置与Sec相同4.4除了我们使用批量大小其中TP是真阳性的数量，FP是FN是假阴性的数量。对于音频去噪，我们使用信号失真比（SDR）来评估我们的DVAD模型。这四个指标越高，细分模型就越好。M2SDR=10log10||m−m||第二（8）条5.3.性能比较我们首先在图中显示了六种不同分割模型的比较。六、DeepLabV3模型的分割掩模优于其他五个模型。同样，我们可以观察到DeepLabV3在Tab中具有最高的F1 ， IoU 和 Dice 分数二、因此，我们可以推断DeepLabV3模型是所有六个分割模型中最适合我们的BirdSoundsDenoising的分割模型。此外，我们还报告了验证和测试数据集中所有鸟类声音的平均SDR。如Tab.所示。2、以DeepLabV3为分割模型的DVAD模型的SDR得分达到最高值。值得注意的是，三种音频去噪方法（R-CED，Noise 2Noise和TS-U-Net）的性能水平相对低于所有其他分割模型。原始鸟音频、真实标记的去噪音频和来自其他模型的去噪音频的比较如图所示。7.第一次会议。DVAD（使用DeepLabV3）的去噪信号也更接近标记的去噪信号。因此，我们的DVAD架构是有效地提高音频去噪性能。6. 讨论我们比较了六种不同的最先进的分割模型和三种深度音频去噪方法。我们的模型的一个明显的优势是它比其他方法更好的性能。特别是我们的DVAD的不同变体2BirdSoundsDenoising数据集和代码可在github.com/YoushanZhang/BirdSoundsDenoising2255F1IoU Dice SDR F 1IoU Dice SDR[23]第二十三话[35]第三十五话分段器[31]U-Net [25]SegNet [4]DeepLabV3 [7]60.8 45.2 60.6 7.8569.1 56.5 69.0 8.1772.6 59.6 72.5 9.2475.7 64.3 75.7 9.4460.2 44.8 59.9 7.7068.3 55.7 68.3 7.9670.8 57.7 70.7 8.5274.4 62.9 74.4 8.9277.5 66.9 77.5 9.5576.1 65.3 76.2 9.4382.6 73.5 82.6 81.6 72.3 81.6 9.96噪声2噪声[13]−2.40− −1.96- − −2.38−1.93TS-U-Net [20]−2.48− − 1.98图6：分割结果比较。最左边的列是原始音频图像。Ground truth是带标签的掩码。图7：去噪结果比较。原始音频是原始的噪音音频。Ground truth是带标签的掩码。在SDR得分方面，模型明显优于三种音频DVAD模型的引人注目的优势在于图像分割部分。我们可以通过分段掩模来保持关键的干净信号，如图所示。六、给定分段掩模中的干净区域，干净信号将在ISTFT过程期间被保留。因此，将音频去噪转化为图像分割问题可以成为进一步提高音频去噪性能的新方向7. 结论在本文中，我们首次将音频去噪转换为图像分割问题。然后，我们提出了一个深度视觉音频去噪（ DVAD ）网络，以从更大规模的BirdSoundsDenoising数据集中去除噪声。此外，我们设计了一个音频ImageMask工具，并建议使用少量镜头生成来标记所有数据集。广泛表2：不同方法（F1、IoU和骰子分数乘以100。 “网络验证测试实验结果表明，所提出的DVAD模型优于许多现有的方法。至于未来的工作，可以开发一种新的分割模型，以进一步提高音频去噪性能。22568. 广泛影响我们提出的DVAD模型的应用并不局限于鸟声去噪。它可以很容易地扩展到现实生活中的应用程序的以下任务。8.1. 适应语音去噪随着语音成为日常交流的主要媒介和技术进步的主要方面，语音去噪变得越来越重要我们使用鸟的声音作为我们模型的训练样本，但我们的模型也可以应用于人类语音去噪甚至其他非音频信号。我们应用预先训练好的DeepLabV3模型对语音音频图像进行分割，然后对分割后的图像进行转换，得到去噪后的语音音频。如图8、可以显著降低人类语音音频中的噪声。因此，我们的DVAD模型在人类语音音频去噪中表现出高质量的性能图8：语音去噪示例。左边是带有噪声的原始语音，右边是去噪语音音频。8.2. 音频分离音频分离任务在许多情况下都很重要，例如高质量会议视频制作、监控系统使用、音频识别等。在鸟鸣声去噪任务中对于音频分离，我们可以把它看作是一个多类图像分割问题.如图9、我们可以区分两种不同的鸟叫声。我们还在补充材料中加入了单独的鸟叫声我们的模型的这因此，我们的DVAD模型可以很容易地应用到音频分离问题。图9：音频分离示例。左边是音频图像，右边是音频图像与两个不同的分段鸟面具的叠加。黄色是一种鸟，蓝色是另一种鸟。8.3. 音频增强音频增强一直是一项具有挑战性的任务，因为如果我们不这样适当去除噪声信号。这一挑战存在于许多为语音增强而设计的模型中。在我们的DVAD模型中，我们只保留干净的信号掩码。因此，可以实现更高质量的音频增强。在去噪音频x_t中，我们可以通过用lx_t放大去噪信号来增强音频，其中l是放大信号的次数。如图10，我们可以将纯鸟信号增强l = 200倍。在补充材料中也可以找到一个增强的音频示例音频增强有着广泛的应用，如助听器、录音制作、蜂窝通信等远距离信号传输等。图10：音频增强示例。蓝线是原始噪声信号，红线是去噪信号。右边是左边红线内200倍信号的增强信号x和y轴分别表示信号的长度和幅度。图11：噪声估计的两个示例蓝色是噪声音频，青色是估计的噪声。8.4. 噪声估计和音频识别在去噪后的音频中，由于噪声信号很难被完全去除，所以我们仍然可以偶尔听到噪声。如果我们可以学习噪声的模式，那么噪声估计将是有用的，然后我们可以进一步从去噪音频中去除噪声。如图11，我们可以通过使用原始噪声音频减去干净的去噪信号来估计噪声信号。对这些提取的噪声进行采样可以用于进一步提高去噪信号的质量。噪声估计对于模型训练特别有用，它也可以扩展到音频识别。一种情况下的噪声可能成为其他情况下的预期信号[38]。由于每个音频信号具有其自己的模式，因此学习不同音频信号的模式对于将预期信号与训练集中的信号进行匹配可能是有用的该应用在医学应用中是从常规声音模式中识别疾病可能的声音模式。2257引用[1] Houda Abouzid，Otman Chakkor，Oscar Gabriel Reyes，and Sebastian Ventura.使用卷积去噪音频编码器和神经深度学习进行信号语音重建和噪声去除。 AnalogIntegrated Circuits and Signal Processing，100（3）：501-512，2019。2[2] Nasim Alamdari Arian Azarang和Nasser Kehtarnavaz通过noisy2noisy信号映射改进深度语音去噪应用声学，172：107631，2021。一、二[3] 阿里安·阿扎朗和纳赛尔·凯塔纳瓦兹多目标深度学习语音去噪方法综述。语音通信，122：1-10，2020。2[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis andmachineintelligence，39（12）：2481-2495，2017。六、七[5] 史蒂文·波尔利用谱减法抑制语音中的声学噪声。IEEETransactionsonAcoustics ， Speech ， andSignalProcessing，27（2）：113-120，1979. 一、二[6] Jingdong Chen ， Jacob Benesty ， Yiteng Huang ， andSimon Doclo. 噪声降低维纳滤波器的新见解。 IEEETransactionsonaudio ， speech ， andlanguageprocessing，14（4）：1218-1234，2006. 2[7] Liang-Chieh Chen ，Yukun Zhu ，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。五、六、七[8] 高田，杜军，戴丽蓉，李金惠。基于信噪比渐进学习的深度神经网络语音增强。InInterspeech，pages 3713-3717，2016. 3[9] 高田，杜军，戴丽蓉，李金惠。用于基于lstm的语音增强的密集连接渐进学习。在2018年IEEE国际声学、语音和信号处理会议上，第5054- 5058页IEEE，2018年。3[10] Francois G Germain，Qifeng Chen，and Vladlen Koltun.深度特征损失的语音去噪。 arXiv 预印本 arXiv ：1806.10522，2018。2[11] 胡安·S·戈麦斯、贾克·奥布·阿贝瑟和埃斯特·法恩·卡诺。使用卷积神经网络、源分离和迁移学习进行爵士独奏乐器分类在ISMIR，第577-584页，2018年。1[12] John HL Hansen ， Vinod Radhakrishnan ， and KathrynHoberg Atelyart.基于广义最小均方误差估计和听觉掩蔽特性的语音增强IEEE Transactions on Audio，Speech，and Language Processing，14（6）：2049-2063，2006.一、二[13] MadhavMaheshKashyap，AnujTambwekar，KrishnamoorthyManohara和S Natarajan。没有干净训练数据的语音去噪：Noise2Noise 方法。Proc. Interspeech2021，第2716-2720、2021页。六、七[14] Qiuqiang Kong，Haohe Liu，Shijiang Du，Li Chen，RuiXia，and Yuxuan Wang.基于音频集弱标记数据的语音增强arXiv预印本arXiv：2102.09971，2021。一、二[15] 奎浩然，潘嘉华，宗荣，杨洪波，王伟连。基于对数梅尔频谱系数特征和卷积神经网络的心音分类。生物医学信号处理和控制，69：102893，2021。一、二[16] Andong Li ， Minmin Yuan ， Chengshi Zheng ， andXiaodong Li.基于渐进学习的卷积递归神经网络语音增强。应用声学，166：107347，2020。一、二、三[17] 李冰冰。一种基于主成分分析的语音去噪方法。2018年国际虚拟现实和智能系统会议（ICVRIS），第429-432页。IEEE，2018年。1[18] Jae Soo Lim和Alan V Oppenheim。带噪语音的增强与带宽压缩。Proceedings of the IEEE，67（12）：1586-1604，1979. 2[19] 雷纳·马丁。基于最小均方误差估计和超高斯先验的语音增强。IEEE语音和音频处理，13（5）：845一、二[20] 埃洛伊·莫利纳和维萨·维阿里·马基。用于历史记录的高保真去噪的两阶段u网络在ICASSP 2022- 2022 IEEE声学、语音和信号处理国际会议（ ICASSP ）中，第841IEEE，2022年。六、七[21] 朴世林和李镇元用于语音增强的全卷积神经网络。Proc.Interspeech 2017，pages 1993-1997，2017. 六、七[22] 莫日德·菲罗齐·普亚尼，曼苏尔·瓦利，还有莫罕·马德·阿明·加塞米.基于离散小波变换和人工神经网络的肺音信号去噪。生物医学信号处理和控制，72：103329，2022。一、二[23] 秦学斌、张梓晨、黄晨阳、Masood De-hghan、Osmar RZaiane和Martin Jagersand。U2-net：使用嵌套的u结构进行更深入的显着对象检测。模式识别，106：107404，2020。六、七[24] Shivangi Raj，P Prakasam和Shubham Gupta。基于多层卷积神经网络的自动编解码器，用于使用梅尔频率倒谱系数的音频信号去噪。神经计算和应用，33（16）：10199 一、二[25] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预，第234施普林格，2015年。六、七[26] Nasir Saleem 、 Muhammad Irfan Khattak 、 MuhammadYousaf Ali和Muhammad Shafi。用于监督单通道语音增强的深度神经网络。Archives of Acoustics，44，2019.一、二[27] Nasir Saleem和Muhammad Irfan Khattak用于复杂噪声环境中语音增强的深度神经网络2020. 一、二[28] Pascal Scalart et al.基于先验信噪比估计的语音增强。在1996年IEEE声学、语音和信号处理国际会议论文集，第2卷，第629-632页中IEEE，1996年。一、二2258[29] 塞缪尔·桑宁、克里斯蒂安·舒尔德、哈坎·埃尔多根和斯科特·维思迪.用于实时语音去噪的卷积时域音频分离网络在ICASSP 2020-2020 IEEE声学，语音和信号处理国际会议（ICASSP），第831IEEE，2020年。3[30] Madhur Srivastava，C Lindsay Anderson和Jack H Freed。一种新的小波去噪分解层数和噪声阈值选择方法IEEE访问，4：3862一、二[31] Robin Strudel ， Ricardo Garcia ， Ivan Laptev ， andCordelia Schmid. Segmenter ：用于语义分割的TransformerIEEE/CVF计算机视觉国际会议论文集，第7262-7272页，2021年。六、七[32] 田村圭一，秋田大狩，桥田秀一。语音转文本转录神经网络对音频对抗性样本的新防御方法。2019年IEEE第11届计算智能和应用国际研讨会（IWCIA），第115-120页。IEEE，2019。1[33] 谭克和王德良卷积递归神经网络用于实时语音增强。InInterspeech ， volume 2018 ， pages 3229-3233 ， 2018.一、二、三[34] Tyler Vuong，Yangyang Xia和Richard M Stern。基于神经网络的实时语音增强的调制域损失。在ICASSP 2021-2021 IEEE声学、语音和信号处理国际会议（ICASSP）第6643-6647页中。IEEE，2021。2[35] Hongyi Wang ， Shiao Xie ， Lanfen Lin ， YutaroIwamoto，Xian-Hua Han，Yen-Wei Chen，and RuofengTong.用于医学图像分割的混合变换u-网。在ICASSP2022-2022 IEEE 声学、语音和信号处理国际会议（ICASSP）中，第2390IEEE，2022年。六、七[36] Kai Wang，Bengbeng He，and Wei-Ping Zhu. Tstnn：基于两级Transformer的时域语音增强神经网络.在ICASSP

下载后可阅读完整内容，剩余1页未读，立即下载