环境声音分类研究：特征提取、深度神经网络及未来方向

154 浏览量更新于2023-12-10 收藏 898KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用16（2022）200115环境声音分类：文献Anam Bansal*，1，a，Naresh Kumar Garg2， b旁遮普技术大学工程与技术学院GZS校园计算机科学与工程研究学者天气-旁遮普，印度b印度旁遮普邦辛达，旁遮普技术大学Maharaja Ranjit Singh GZS工程技术学院计算机科学与工程教授A R T I C L EI N FO保留字：环境声分类特征提取特征选择机器学习分类器深度神经网络A B S T R A C T传统的环境声音分类研究主要集中在语音和音乐信号上，因此环境声音自动分类（ESC）是一个新兴的研究领域。对环境声音进行分类，如玻璃破碎，直升机，婴儿哭声等等，可以帮助监视系统和刑事调查。在本文中，大量的文献在ESC领域阐述了从各个方面，如预处理，特征提取和分类技术。研究人员已经使用各种噪声去除和信号增强技术来预处理信号。本文阐述了最近研究中使用的大量数据集以及出版年份和数据集达到的最大准确度。深度神经网络超越了传统的机器学习分类器。最后提出了该领域未来的研究方向和面临的挑战。由于最近没有关于ESC的综述，这项研究将为某些商业应用和安全系统开辟新的途径。1. 介绍基于音频的上下文识别是当前最流行的研究领域之一。声音，技术上称为声学，有助于识别环境（Fan等人，2020），演讲（Bhat等人，2020年），和音乐（埃尔比尔和艾登，2020年），维尔塔宁和他l'en。声学可用于识别事件和场景。声学场景识别（Plata，2019）正在识别和分类办公室（Hossain和Muhammad，2018），公园，医院和公共汽车等场景。声学事件分类（Sharan和Moir，2019）正在识别正在进行的声学场景中的临时变化，例如狗叫声，枪声，敲门声和引擎声。ESC是声事件分类，其中识别和分类周围环境中的各种活动，以便可以激活某些应用。过去大多数关于声学的研究主要集中在语音和音乐上。在一项研究中（Duan等人，2014年），语音，音乐和环境声音的标记技术进行了调查。与语音和音乐分类相比，ESC是复杂的（Mushtaq等人，2021年）。其背后的主要原因是环境声音是非静态的，没有特定的结构。语音识别模型把复杂的单词分解成音素。环境音没有语音结构。此外，与音乐不同，环境声音没有固定的方面，如节奏和旋律（Chachada和Kuo，2014）。环境声音具有低信噪比，因为麦克风或捕获声音的源没有被放置在声音产生的附近。环境场景由许多重叠的声音组成，这给ESC带来了问题（Chandrakala和Jayalakshmi，2019）。虽然视频摄像机也可以用于环境场景识别，但摄像机不像麦克风那样是全向的。与摄像机相比，音频不太容易出错（Crocco等人， 2016年）。在ESR的研究已经大大增加了集中在ESR的不同方面。ESC涉及数据收集、预处理、特征提取、特征选择和数据分类（图1）。自定义ESC中的任何阶段并引入新方法可以帮助显着提高性能。研究人员在他们的研究中主要使用的标准数据集很少。预处理是必不可少的，以消除背景噪声和处理的形式，它可以用于特征提取的数据。研究人员研究了不同类型的特征，如时间，光谱，* 通讯作者。印度旁遮普邦兰辛达旁遮普技术大学工程技术学院GZS校园计算机科学与工程研究学者。联系电话：8437800233。电子邮件地址：anambansal19@gmail.com（A. Bansal），naresh2834@rediffmail.com（N.K.Garg）。1 研究学者2名教授https://doi.org/10.1016/j.iswa.2022.200115接收日期：2022年4月12日;接收日期：2022年8月4日;接受日期：2022年8月14日2022年8月20日在线提供2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsA. Bansal和N.K. Garg智能系统与应用16（2022）2001152Fig. 1. 环境声音分类的阶段。和动态时间缠绕特征。可以选择重要的特征以减少特征的数量。研究人员使用各种特征选择方法。最后，不同的研究表明，机器学习分类器，如支持向量机（SVM），K-最近邻（K-NN），决策树和隐马尔可夫模型（HMM）用于ESC。近年来，新型神经网络在电子自旋共振中得到了广泛应用。卷积神经网络（CNN）、多层感知器（MLP）、深度神经网络和递归神经网络（RNN）为ESC打开了新的大门1.1. 动机识别环境声音可以在几个应用中提供帮助。智能家居（Vafeiadis等人，2017年），可以开发可以帮助老年人留在家里（Saraubon等人，2018年）。音频监控系统在环境声音识别（ESR）的概念下工作（Chandrakala和Jayalakshmi，2019; Rabaoui等人，2008年）。ESR还应用于机器人导航（ Aziz 等人， 2019; Tsunoda 等人， 2019;Yamakawa等人，2011年）。ESR可定制用于检测犯罪活动，并可用于各种其他安全系统。野生动物监测，如鸟类分类（Tuncer等人，2021）、动物（Kim等人，2020）、青蛙（Brodie等人，2020）和蝙蝠（Mac Aodha等人，2018年，使用ESR。ESR可以被结合以开发噪声监测系统，使得可以制定操作策略（Mydlarz等人， 2017年）。最近，蜂巢声音的频谱时间分析有助于监测蜂巢健康（Soares等人，2022年）。1.2. 调查工作的重大贡献Cowling 和 Sitte 是第一个调查 ESC 技术的人（ Cowling 和 Sitte ，2003）。最近一次ESR调查是Chachada和Kuo（2014）在2014年进行的。据我们所知，没有其他与ESC相关的调查文章。ESC领域的综述文章没有区分ESC不同阶段使用的技术。本文的研究对ESC过程中的各个阶段进行了详细的阐述。所使用的数据集，用于预处理的技术，不同的特征提取技术和音频特征，以及研究人员在过去使用的分类技术在不同的部分中进行了说明。最近对ESR的研究是使用频谱图，数据增强（Mushtaq等人， 2021年）。本文综述了电渣重熔和电渣重熔领域的最新技术和研究进展。第二部分描述了现有的数据集和研究者在过去的研究中使用的数据收集技术。第三节介绍了预处理技术。第四节和第五节分别关注研究人员使用的不同类型的特征和各种特征选择技术。第六节详细介绍了分类器和以往研究中的实验结果。最后，第七节分析了主要文献在工作中使用的不同参数。最后，提出了未来的挑战和结论。2. 数据集ESC的第一阶段是数据采集。在本节中，讨论了研究人员用于ESC的公共和自我收集的数据集。大多数研究人员使用了三个公开可用的数据集 - ESC- 10 （ Piczak ， 2015 b ）， ESC-50 （ Piczak ， 2015 b ）和UrbanSound 8 k（Sala-mon等人，2014年）。ESC-10数据集包括10个类别的400个记录（狗叫声、雨、海浪、婴儿哭声、时钟滴答声、人打喷嚏、直升机、电锯、公鸡、火噼啪声）。每节课有40段录音，每段录音5秒。ESC-50数据集包括来自50个不同类别的2000个记录。50个类别分为5大类-动物，自然音景和水声，人类非言语声音，室内/家庭声音和外部/城市噪音。每节课有40个录音，每个录音5秒。ESC-10是ESC-50的一个子集。UrbanSound 8 k数据集由8732个标记的声音记录组成，来自10个类别-空调，汽车喇叭，儿童玩耍，狗叫，钻孔，发动机怠速，枪声，手提钻，警笛和街头音乐。每次录音的持续时间不超过4秒。这些声音来自免费的声音库（Font等人，2013）进行过滤和手动标记，以生成ESR 的 urbansound8k 数据集。ESR 的另一个数据集是 BDLib ，由Boundourakis等人（2015）从Sony Pictures Sounds Effect Series，BBC完整的声音效果库，和一个免费的声音库（Font等人，2013年）。BDLib数据集包含10个类别的120个记录。每个类有10个音频文件，每个10秒。在Zhang等人（2017）中，使用了CICESE数据集，其中包含7类持续时间为14分钟的室内声音事件。很少有其他研究人员使用包含不同数量录音的自我收集数据集。研究人员需要联系数据集所有者进行进一步的研究。收集了22个记录的数据集，以使用可穿戴设备从背景环境声音中检测人类活动（Zhan和Kuroda，2014）。在Uzkent等人（2012）中，来自七个不同类别的258个非语音录音被用于监视。从互联网录音和BBC音效库等来源收集组织成8 类的数据集（Ntalampiras 等人，2010年）。这些类别是火车（82），摩托车（79），雷声（60），风（66），飞机（110），人群（60），汽车（81）和喇叭（194）。Gencoglu等人（2014）使用了属于61个不同类别的1325个记录的数据库。该数据库首次在Mesaros等人（2010）中引入。在研究中（Rabaoui等人，2008）和（Zhang等人，2015）、1015（9节课）和4000个音频文件分别自录。Valero和Alías（2012 a）的研究人员使用了一个自记录的数据集，其中包含来自15个不同类别的3500个样本，分为5类。很少有其他研究人员使用来自10个类的1000个音频文件（Muhammad等人，2010年）和128个音频文件从六个类（韩和黄，2009年）。表1列出了ESC领域ESR中的问题是，标杆从表1中可以清楚地看出，大多数数据集都具有有限的样本，因此深度神经网络无法获得良好的准确性。几种数据增强技术用于人为地增加音频样本的数量（Mushtaq和Su，2020; Mushtaq等人，2021年）。在过去的研究中，时间拉伸，线性插值，基音偏移，动态范围压缩（DRC）和背景噪声A. Bansal和N.K. Garg智能系统与应用16（2022）2001153表1文献中使用的数据集表1（续）258（Uzkent等人，数据集数据集出版年份数据论文获得最高精度来自7个不同国家的录音2012年第10期）ESC-10 2015 40010类录音（Ahmed等人，二○二○年;Boddapati等人，二〇一七年;坎帕里亚例如，2019年;Li等人，2018;MushtaqandSu，2020;Mushtaq等人，2021;Piczak，2015a;99.04%（Mushtaq等人，2021年）来自互联网资源和BBC音效库的类（玻璃休息，狗叫，枪声，尖叫，引擎，雨，餐厅）2010 7328类录音（Ntalampiras等人，（2010年）百分之九十三ESC-50 2015 2000来自50个班级的录音UrbanSound8k 2014 873210类录音托科兹等人，（2017年）（Ahmed等人，二○二○年;博达帕蒂例如，2017;Chi等人，二〇一九年;坎帕里亚例如，2019年;Li等人，2018;MushtaqandSu，2020;Mushtaq等人，2021; Piczak，2015 a;TokozandHarada，2017;托科兹例如，2017年;Yao等人，2019年;Zhang等人，（2017年）（Ahmed等人，二○二○年;博达帕蒂例如，2017;Chi等人，2019;Dai等人，2017;Demir等人，2017年07月07日07月08日09月09Mushtaq等人，2021年）99.49%（Mushtaq等人，2021年）收藏2010 1325来自61个班级的录音，10159个班级的录音4000录音从50类3500来自15个不同班级的样本自收集2010 1000音频来自10个类的文件Self Collected 2009 258 audio6类文件（Gencoglu例如，2014;Mesaros等人，（2010年）Alías，2012年a）（Muhammad等人，（2010年）（HanandHwang，2009）2016年02月03日02：00 -01：00（Gencoglu等人，2014年度）百分之九十六86.09%BDLib 2015 120录音2020年; Li等人，2018年;门多萨例如，2018;Mushtaq andSu，2020;Mushtaq等人，2021; Piczak，2015 a;Salamon和Bello，2017;Sang等人，2018; Su等人，二〇一九年;托科兹等人，2017年;Zhang等人，（2017年）（Bountourakis等人，（2015年）54.01%自行收集2008自行收集2015自行收集2012（Rabaoui等人，（2008年）百分之九十六点八九（Zhang等人，（2015年）百分之九十七点五三（瓦莱罗和91.00%A. Bansal和N.K. Garg智能系统与应用16（2022）2001154（BG）用于生成假数据以防止过拟合（Salamon和Bello，2017; Zhang等人，2017年）。使用数据增强技术，可以提高深度 NN 的准确性（ Salamon和Bello，2017）。3. 预处理需要进行预处理以去除噪声或增强和平滑音频信号。收集环境声音时的复杂性在于可能存在可以记录的某些噪声。由于噪声的影响，ESC的精度受到影响。因此，需要对音频信号进行预处理，以便它们准备用于特征提取或分类。在本节中，讨论了ESC领域研究人员采用的预处理技术。无声被认为是噪声和基于幅度的无声检测CICESE 2017收藏201412班14分钟7类室内项目2222个人和社会活动的录音（Zhang等人，（2017年）（Zhan和Kuroda，2014）87.10%百分之九十六点九算法用于预处理声音信号（Ntalampiras等人，2010年）。降低视错觉（Van Der Maaten等人，2009）是用于减小任意长的谱图的大小的预处理技术。使用这种预处理技术对频谱图进行平滑和去噪（Zhang等人，2015年）。通过使用某些信号增强技术来去除噪声。在Wang等人（2008）中，使用感知滤波器组和基于子空间的方法来增强音频信号。4. 特征提取2012年自行收集88.70%特征是的不同特性的的听起来的A. Bansal和N.K. Garg智能系统与应用16（2022）2001155提取并馈送到机器学习分类器。这是ESC中最重要的步骤之一。在文献中，使用不同的特征提取技术。本节详细说明了研究人员用于ESC研究的不同特征和特征提取技术。ESR的性能在很大程度上取决于提取的特征类型。各种研究人员详细研究了音频特征（Alías等人，2016年;Mitrov i'c等人，2010;Sharma等人， 2020年）。用于声音分类的特征基本上被表征为四个类别-倒谱特征（Aziz等人，2020; Bansal等人，2018），时间特征（Yang和Krishnan，2017），光谱特征（Ma等人，2018）和基于图像的特征（Amiriparian等人， 2017年）（图。 2）。4.1. 倒频谱特征梅尔频率倒谱系数（MFCC）已广泛用于音乐领域中的音频分类（Logan等人，2000）、演讲（Palo等人，2018）和环境（Sharma等人，2019年; Zhang等人，2015年）。通过首先计算音频信号的傅里叶变换、将功率映射到梅尔尺度、计算功率的对数以及对梅尔对数尺度应用离散余弦变换来计算MFCC。这些频谱的振幅称为MFCC。音频信号使用MFCC倒谱表示。MFCC广泛用于ESC中（Chu等人， 2006; Gencoglu等人， 2014; Ntalampiras等人，2010; Sigtia等人，2016年）。在Wang等人（2008年）中，使用了称为独立分量分析（ICA）转换的MFCCS的MFCC变体，并且它们提供了可持续的性能增益。研究人员声称，如果音频信号是嘈杂的，则MFCC是不能够的（Ahmed等人，2020）和MFCC不能反映环境声音的非平稳特性（Uzkent等人，2012年）。代码E X引用的基于线性预测（CELP）的特征优于ESC的MFCC（Tsau等人，2011年）。基于CELP的特征和MFCC的组合有助于实现95.1%的准确性。4.2. 时间特征时间特征也称为时域特征。这些都是直接从声音中提取出来的。过零率（ZCR）、自适应、线性预测编码、能量熵（EE）、短时能量（STE）和均方根（RMS）是属于时域的一些特征。ZCR是信号符号变化的频率ZCR、能量范围应用于ESR域，如研究中所述（Chu等人，2006年）。与MFCC和离散小波系数相比，窄带自相关特征（NB-ACF）可以获得更高的准确性（Valero和Alías，2012 a）。线性预测编码（LPC）是音频信号的线性表示，其未能考虑音频信号的非线性方面（Ahmed等人，2020年）4.3. 基于图像的功能：频谱图是音频样本的时间-频率表示。基于图像的特征已被证明是有效的ESC，因为所有的神经网络模型应用于图像分类任务可以工作在音频。在Zhang等人（2015）中，使用了光谱图和交叉重现图（CRP）。声谱图表示在不同频率下的音频信号。CRP使两个动力系统中的状态同时发生的时间可视化（Boddapati等人，2017）与MFCC相比，Log MelSpectrogram特征（LMS）表现良好。通过简单地计算音频信号的傅立叶变换来计算LMS特征，然后计算这些频率的对数并映射到梅尔尺度以生成频谱图。为每个音频剪辑生成LMS（Ahmed等人，2020; Khamparia等人，2019; Mu等人，2021年）。与仅使用LMS的情况（81.00%）相比，LMS可以与对数伽马能谱图连接以实现83.80%的良好准确度（Chi等人，2019年）。LMS与原始波形输入特征融合，并且对于ESC实现了准确度的显著提高（Li等人，2018年）。静态delta log mel特征和静态log mel特征作为卷积神经网络（CNN）的输入，准确性得到提高（Tokozdom和Harada，2017）与现有技术的静态delta log mel CNN相比（Piczak，2015a）。4.4. 光谱特征光谱特征是通过将时间特征暴露于某些变换而从时间特征导出的。可以应用的不同变换是离散线性调频波变换、离散曲波变换、离散希尔伯特变换以及快速傅立叶变换。在工作中（Han和Hwang，2009），使用变换实现了86.09%的准确度。某些光谱特征，例如光谱对比度（Gencoglu等人，2014）、光谱质心、光谱带宽、光谱不对称性、光谱平坦度（Chu等人，2006），光谱动态特征（Karbasi等人，2011）、MPEG-7特征集（Ntalampiras等人，2010）在ESC中被广泛使用。使用三个MPEG-7音频特征-频谱扩展、频谱质心和频谱平坦度，达到85.10%的准确度（Wang等人，2006年）。所选择的MPEG-7特征连同MFCC表现良好（Muhammad等人，2010年）。MPEG-7音频功能首先使用Fisher判别比，然后将PCA应用于前30个MPEG-7特征以获得13个特征。这13个功能与ESC的MFCC相结合。4.5. 其他域功能某些其他特征，诸如感知域特征-色度和色调也用于ESC中（Gencoglu等人， 2014年）。三种不同的特征-MFCC、对数梅尔能量、梅尔能量被用于实验，其中梅尔能量已被证明对于具有NN的ESC是最有效的（Gencoglu等人，2014年）。很少有图二. 环境声音分类中使用的特征。A. Bansal和N.K. Garg智能系统与应用16（2022）2001156=在2-D人脸检测的情况下，使用不同的特征用于类似于haar的声音特征，这些特征是由haar滤波启发的（Zhan和Kuroda，2014），恒定Q变换（CQT）特征（Mendoza等人，2018）、基于音高范围（PR）的特征集（Uzkent等人，2012），Gammatone小波特征（Valeroand Alías，2012 b）。将标签平滑（LS）方法和附加余量softmax损失（AM-softmax）相结合，并提取深度特征，以获得VGG风格深度神经网络的81.90%的准确度（Yao等人， 2019年）。特征提取不包括在使用深度神经网络的ESC中作为步骤，因为特征是隐式提取的。虽然深度神经网络充当黑盒并且可以直接对声音进行分类而不提取特征，但是提取特征减少了要训练的参数的数量（Khamparia等人， 2019年度）5. 特征选择可以从音频样本中提取几个特征，但并非所有特征都能为每个应用提供信息。不同的应用程序需要不同的功能集。需要选择特征的最佳子集，使得可以降低计算复杂度（Liu等人，2010年）。高维特征的计算导致计算时间的增加。对分类没有贡献的特征或相关的特征可以被丢弃。研究人员已经尝试了ESC的不同功能集。本节讨论了值得注意的特征选择技术和特征组合的研究人员在过去的ESC。主成分分析可以用于特征选择（Rabaoui等人，2008）Bountourakis et. Al已经试验了三个功能集。MFCC、LPCC、SFM、SCF、ZCR、频谱质心、频谱扩展、频谱滚降、频谱偏度、频谱锐度和频谱平滑度的组合使用分类器k-NN、SVM和ANN给出了最高的分类准确性（Boundourakis等人，2015年）。在一项研究中（Su等人，2019），从五个听觉特征创建两个特征集：对数梅尔频谱图（LM），MFCC，色度，频谱对比度和音调（CST）。将Log-mel谱图和CST特征组合（LMC特征集），以及将MFCC和CST特征组合（MC特征集）。这两个特征集分别帮助达到95.20%和95.30%的准确率。在Rabaoui et al. 04 The Dog（2008）选择向量集而不是特征集。6. 分类在特征提取和选择之后，音频样本被分类为不同的类别。存在着无数的分类方法。图3描述了文献中ESC中使用的主要分类器。在本节中，将回顾用于ESC的各种机器学习和深度神经网络分类器。6.1. 传统机器学习分类器研究人员试图比较几种用于城市声音分类的机器学习算法（Boundourakis等人，2015; Jekic和Pester，2018; da Silva等人，2019年）。6.1.1. 支持向量机SVM是用于声音应用的最流行的监督机器学习分类器根据所使用的内核，有某些不同类型的SVM-二进制，线性，多项式，RBF和高斯内核。SVM也可以分为多类SVM和单类SVM。SVM有助于在ESC的各种过去研究中获得高准确度（Chu等人，2006; Theodorou等人，2015; Zhang等人， 2017 年）。在一项研究中（Uzkent 等人，2012），使用RBF和高斯核进行实验。在SVM中，称为C的参数是变化的，这是最小化模型复杂度和训练误差之间的权衡。利用c 2实现了87.30%的分类率（Bountourakis等人， 2015年）。多类SVM用于Wang et al. （二零零八年）图三. 环境声音分类中使用的分类算法。准确率达91.10%。Rabaoui等人将一类SVM用于ESC。（2008年）。SVM与KNN组合以使用MPEG-7特征集的三个低级音频描述符胜过用于ESC的HMM（Wang等人，（2006年）6.1.2. K-近邻分类器K-NN主要用于模式识别。这里k是最近邻的个数。新的音频样本被分配给大多数最近邻居所属的类。K-NN广泛用于ESC中（Chu等人，2006年）。研究人员试图改变k的值。当k值为8时，分类正确率最高，为87.52%（Boundourakis例如，（2015年）6.1.3. 人工神经网络人工神经网络是一种分类器，其工作原理类似于生物神经元。它由一组神经元组成。最初，输入层被馈送随机权重和输入。将输出与所需输出进行比较。如果两者不同，则调整权重。在ANN中，学习率（LR）是变化的。LR调整偏差和权重变化，以便算法充分学习。通过设定阈值，识别率达到87.30LR的值= 0.5（Boundourakis等人， 2015年）。6.1.4. 隐马尔可夫模型HMM已经成功地用于ESR（Ntalampiras等人，2010年）。在这项研究中（Zhan和Kuroda，2014），研究人员声称HMM提供了良好的分类准确率（96.90%），并且与其他算法相比消耗更少的功率。与神经网络相比，基于高斯混合的HMM为ESC提供了较低的准确性（54.80%）（Gencoglu等人，2014; Su等人， 2011年）。在一项研究中（Zhang等人， 2015年）、A. Bansal和N.K. Garg智能系统与应用16（2022）2001157研究人员指出，用于ESC的基于MFCC的HMM模型在有噪声的音频样本的情况下失败。6.1.5. 高斯混合模型（GMM）GMM是一种参数分类器。GMM是一种模型由多个高斯分量组成的方法。GMM已被证明对ESC有效（Barchiesi等人，2015; Chu等人，2006年;穆罕默德例如，2010; Ntalampiras等人， 2010年）。6.2. 深度神经网络模型神经网络（NN）在ESC中表现良好。如Gencoglu等人所述，双层NN优于基于GMM的HMM。（2014年）。6.2.1. 卷积神经网络（CNN）CNN是深度学习神经网络。不同的提出的CNN已经超过了ESR中的分类准确性（Chi等人，2019年）。CNN的第一次使用是由PiczackCNN完成的（Piczak，2015 a; Zhang等人，2015年），其中证明CNN优于基于MFCC的机器学习模型。不同的超参数，如填充，最大池化层的大小和步长，都被改变，以找到最佳组合并获得良好的准确性。通过使用CNN在UrbanSound8k上获得92.90%的准确度（Ahmed等人，2020年）。在研究中（Mendoza等人，2018），使用顺序，并行和端到端CNN，并行CNN的准确率最高（83.79%）。提出了用于ESR的具有决策级融合的双流CNN（TSCNN-DS）模型（Su等人，2019年）。将这两个特征集作为两个CNN的输入，然后使用Dempster Shafer（DS）证据理论将两个CNN的softmax层的输出组合起来，获得了97.20%的准确率。DS证据理论还提高了端到端学习CNN和基于LMS的CNN相结合时的准确性（Li et al.，2018年）。双层CNN在ESC-10和ESC-50数据集上分别给出了77.00%和49.00% 的准确度（ Khamparia 等人， 2019 年）。端到端 CNN（64.00%）与静态对数梅尔CNN或静态增量对数梅尔CNN相结合，以实现高准确性（分别为69.30%和71.00%）。Abdoli等人（2019）的作者使用一维 end-to-end CNN 这学习直接从音频代表性，并提供了89.00%的准确性。作者声称，与2-D表示和2-D CNN相比，这种架构使用较少数量的参数在2021年进行的另一项研究中（Ragab等人，2021），一维端到端CNN与贝叶斯优化和集成学习一起使用。该模型直接从音频表示中学习特征，而不是手工制作的特征。在研究中（Zhang等人， 2017），激活函数（ReLu，PReLu，SoftPlus，LeakyReLu，ELU）是不同的，以确定ESC的最佳激活函数。Leaky Relu使用扩张滤波器提供最高的分类准确性，因为卷积层的感受野将存储更多的上下文信息。具有多达34个权重层的非常深的CNN将准确度提高到71.80%，这比具有2个权重层的CNN高15.56%（Dai等人，2017年）。当深度CNN在增强数据上工作时，观察到准确性（79.00%）的显著提高（Salamon和Bello，2017）。作者在Fang et al. （2022 ），提出了资源自适应CNN（RACNN），它可以降低传统CNN的硬件要求，提高速度和准确性。6.2.2. 张量深度堆叠网络（TDSN）TDSN类似于深度堆叠网络（DSN），但与DSN的顺序隐藏层相比，它在每个模块中具有并行隐藏层。TDSN在ESC-10数据集上实现了56.00%的准确度（Khamparia等人， 2019年度）6.2.3. 卷积递归神经网络CNN与用于ESC的递归神经网络（RNN）相结合（Sang等人，2018年）。使用CNN提取特征，并通过RNN完成提取特征的时间聚合。CRNN拥有对ESC有效在该研究中（Bahmei等人， 2022），使用深度卷积生成对抗网络提取特征，并使用CRNN进行进一步分类。6.2.4. 图像识别网络最初为图像分类开发的非常深的CNN可以用于ESC。在一项研究中（Boddapati等人， 2017年），AlexNet和GoogLeNet用于ESC的基于图像的特征，并获得了相当大的准确性。使用VGG风格的深度神经网络（Yao等人， 2019年）。6.2.5. 深度信念神经网络（DBNN）：DBNN之所以流行，是因为传统DNN存在学习速度慢、需要大量训练数据等问题。对于ESC，DBNN超过了基于GMM的HMM和具有两层或五层的NN（Gencoglu等人，2014年）。某些其他分类器，诸如自组织地图（Sitte和Willets，2007）、基于自监督学习的深度分类器（Tripathi和Mishra，2021）和贝叶斯信念网络（Tsau等人，2011年）由研究人员研究ESR。表2描述了ESC的文献综述。在ESC的文献中使用了许多分类器。选择合适的分类器变得很有挑战性。像特征提取这样的分类中存在性能和计算成本之间的折衷。没有研究比较过去研究中使用的所有分类器的性能。在一项研究中（Sigtia等人，2016年），三种分类算法-深度学习神经网络，SVM和GARCH在ESR的性能和计算成本方面进行了比较。深度学习神经网络提供了相当高的精度，但需要很高的计算成本。SVM提供了准确性和计算成本之间的折衷。甘精胰岛素以较低的计算成本提供可接受的精度。为了选择分类器，可以考虑以下参数计算复杂度一个好的分类器应该具有更低的计算复杂度。计算复杂度代表分类器所需的时间和消耗的功率。分类器产生结果所需的时间应该更少。分类器应该消耗更少的功率。识别精度分类器应该具有高精度。它应该能够准确地对特征向量进行分类。对噪声的一个好的分类器对噪声是鲁棒的。它应该忽略由音频信号中的幅度或带宽缩放7. 主要参考在选择要使用的算法之前将许多算法应用于任务是不切实际的。比较使用的机器学习算法在幼儿研究中，我们从以下几个方面进行分析。读者可以根据自己的数据集和任务选择合适的算法。通过对以往文献的分析，找到了一些参数。可以根据数据集和任务考虑以下方面来选择算法。1. Zhang et al.（2021）：本文使用44.1 kHz的采样率和0.8的动量。使用64个段和300个时期的批量大小，学习率为0.01。学习率通过每100个epoch除以10来降低。本文考虑了以下参数(a) 缩放函数：实验使用两个缩放函数-softmax和sigmoid进行。结果发现，sigmoid函数具有更好的准确性，因为softmax函数专注于具有较大权重值的帧。(b) 在CRNN的不同层上施加注意力：将注意力施加到从层12到层110的CRNN的不同层。是A. Bansal和N.K. Garg智能系统与应用16（2022）2001158表2ESC文献综述作者，年份技术/方法确认标准/措施数据集优点/缺点Zhang等人（2021年）CRNN帧级注意机制ESC-50和ESC-10优点：语义相关的框架是重点。缺点：对噪声的鲁棒性Chu等（2006年）Uzkent等人（2012年）使用leave-one-out的SVM交叉验证使用高斯的SVM内核和新功能集该模型没有被研究。自我收集的优点：专注于环境的全球特性。缺点：它没有关注定位和各种声源对识别的影响。它对新环境的可扩展性和鲁棒性自我收集的优点：提出了新的特征集，并研究了SVM缺点：它不适用于语音环境声音。Bountourakis等人（2015年）SVM，K-NN，ANN，Logistic回归，朴素贝叶斯精确度、召回率、F测量BDLib优点：还比较了构建模型所需的时间。缺点：工作只集中在离散的声音事件。Ntalampiras等人（二零一零年）新的MPEG-7功能集以及HMM和GMM使用混淆矩阵的准确性Self-CollectedMerit：提出了一种新的后处理算法。缺点：不能分离重叠信号。ZhanandKuroda（ 2014）具有HMM识别精度的一维Haar特征，计算成本自我收集的优点：它优于其他分类器。缺点：记录的数量很少（22）。Gencoglu等人（二零一四年）深度神经网络与GMM和HMM的结合识别准确率自集成绩：分析了预训练的效果和特征变化的效果。缺点：没有检查训练参数和网络拓扑对性能的影响。Su等人2011年：Local Discriminant Bases（LDB）提出了一种识别环境声的判别性时频子空间的方法，即隐马尔可夫模型分类精度自集优点：LDB和MFCC相结合，精度高。缺点：数据库没有标准化。Barchiesi等人（2015年）MFCC与HMM最大似然准则自我收集的优点：未对不同数据集进行测试。缺点：不考虑等级分类。Piczak（2015a）使用混淆矩阵的CNN准确性ESC-10，ESC-50，UrbanSound 8 k优点：首次将CNN用于ESC。缺点：它不探索CNN的合奏。Chi等人（2019）两张光谱图连接在一起-采用对数-梅尔谱图和对数-γ谱图以及细胞神经网络进行分类使用adam优化器和64批次大小的分类精度ESC-50和UrbanSound 8 k数据集优点：更高的达到。缺点：可以提取更多有用的特征。Zhang等人（2015年）频谱图被馈送到CNN噪声频谱图的图像特征（SIF）时间跨度和频率分辨率对性能的影响从Real Word Computing Partnership（RWCP）Sound Scene Database inReal Acoustic Environments（Nakamura）中例如，（1999年）优点：在噪音损坏的条件下工作最好，在这种情况下第一次工作。缺点：它只适用于基于图像的功能。Ahmed等（2020年）Mendoza等人（2018年）对数梅尔频谱图被馈送到CNN恒定Q变换（CQT）特征被馈送到并行和顺序CNN精度计算更改填充和优化器连续、并行和端到端CNNESC-50、ESC-10和UrbanSound 8 kMerit：详细的精度在基准数据集上进行了测试。缺点：对频率和信噪比变化的声音样本无效。计算成本很高。UrbanSound8k优点：系统在节点数量方面具有灵活性和可扩展性。缺点：由于传感器节点的连续使用，该模型不节能。SalamonandBello（2017）UrbanSound8k数据集优点：与没有增强数据的CNN。缺点：未应用类条件数据扩充。坎帕里亚等人（2019年）环境声音的频谱图图像被馈送到CNN和TDSNN分类精度ESC-10和ESC-50优点：该系统适用于关键领域。缺点：该系统适用于压缩图像，而不是高清晰度图像。Sang等人（2018年）原始波形被馈送到CRNN分类精度UrbanSound8k优点：系统时间序列波形为输入音频分类并提供良好的准确性。缺点：它只

下载后可阅读完整内容，剩余1页未读，立即下载