深度学习鸟声分类CNN算法在森林火灾预警系统中的应用

57 浏览量更新于2024-01-18 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于卷积神经网络算法Silvester Dian Handy Permanaa，Sunday，Gusti Saputraa，Budi Arifitamaa，Yaddarabullaha，WahyuCaesarendrab，Sunday，Robbi Rahimc，da印度尼西亚雅加达特里洛吉大学创意产业和电信学院信息学系b文莱达鲁萨兰国大学综合技术学院，Jalan Tungku Link BE 1410，文莱达鲁萨兰国c马来西亚玻利斯大学计算机与通信工程学院，马来西亚d印度尼西亚棉兰Sekolah Tinggi Ilmu Manajemen Sukma信息管理系阿提奇莱因福奥文章历史记录：2021年3月27日收到2021年4月13日修订2021年4月26日接受2021年5月5日网上发售保留字：鸟声分类CNN深度学习森林火灾预警系统A B S T R A C T印度尼西亚是一个热带国家，每年都会发生森林火灾。森林火灾的发生是由于夏季的延长.在印度尼西亚经常发生的森林火灾的主要影响是呼吸障碍和生活在森林周围的人们可能经历的浓烟造成的视力损害。马来西亚、新加坡和文莱达鲁萨兰国等邻国也经历了森林大火蔓延到更大土地或地区时产生的森林烟雾的影响。森林是许多动物的栖息地，鸟类就是其中之一。鸟类能够通过声音与它们的群体交流。在与群体交流时，鸟的声音可以是呼叫、婚姻邀请和森林火灾危险或威胁的警告的形式。本文提出了使用深度学习（DL）算法之一，即卷积神经网络（CNN）方法进行鸟声分类研究。CNN方法用于在两种情况下对鸟的声音进行分类：（1）在正常情况或条件下，以及（2）在受到威胁或恐慌的情况下。本研究中使用的鸟声数据是从印度尼西亚当地的鸟类中收集的。基于CNN方法的两种鸟鸣声的分类结果达到了96.45%。本文是基于鸟鸣声的森林火灾版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍印度尼西亚是一个热带国家，每年都会发生森林火灾。印尼的森林火灾持续增加，2019年的火灾比2018年增加了200.94%（KLHK，2019）。由于森林火灾，其中之一是呼吸系统疾病。风吹森林火灾产生的烟雾也危害到印度尼西亚周边的国家，如马来西亚、新加坡和文莱达鲁萨兰国。森林火灾是由自然和人为因素引起的夏天的长度*通讯作者。电子邮件地址：handy@trilogi.ac.id（S.D.H.Permana），gustisap@trilogi.ac.id（G.Saputra），budiarif@trilogi.ac.id（B.Arifitama），yaddarabullah@trilogi.ac.id（Yaddarabullah），wahyu.ubd.edu.bn（W.Caesarendra），zoho.com（R.Rahim）。沙特国王大学负责同行审查制作和主办：Elsevier是导致森林火灾的原因之一（Sheldon和Sankaran，2019）。蔓延范围过广的森林火灾给森林消防员灭火带来困难。印度尼西亚森林的范围也使得森林警卫经常不知道森林火灾的迹象。这片森林是许多动物的栖息地，其中一种是鸟。鸟类是能够用声音与它们的殖民地交流的动物。鸟类发出的声音有几个目的，即呼叫群体，在繁殖过程中吸引异性，以及在受到威胁时发出危险警告（Zhanget al.，2019年）。声音需要更深入地研究，以便根据条件区分。当鸟类感到受到威胁时，特别是当它们看到热点和烟雾时受到威胁时，它们的声音可以作为森林火灾的早期预警。本研究使用4种鸟类进行两个投票方案。第一种方案是在正常情况下记录声音，第二种方案是在鸟类感到受到威胁时记录声音。将记录的四种鸟类是Aegit-hina tivalus（ Cipoh ）、 Prinia familiaris （ Prenjak ）、 pcinonotus goiavier（ Merbah cerucuk ）和 zosterops palpebrosus （ Pleci ）（ Ayat ，2011）。https://doi.org/10.1016/j.jksuci.2021.04.0131319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4346研究中使用的鸟类声音主要是在苏门答腊岛和加里曼丹岛的农林中发现的鸟类。这两种类型的声音是基于每种鸟类的计划，训练和测试，以便能够区分其特性，然后根据方案的条件进行分类。深度学习是一种自动化预测和分类数据的方法（Stowell et al.，2018年）。输入数据、处理和呈现数据的过程将由机器自动完成。本研究的正面价值在于减少了必须操作它的专业人力资源，提高了工作效率。最简单和最常用的深度学习方法是卷积神经网络（ CNN）（Florentin et al.，2020年）。CNN是一种可以对图像形式的数据进行分类的方法。同时，在CNN中对声音进行分类是将作为数字信号的声音改变为频谱图图像以使得其可以由CNN分类的程序。CNN不能直接处理声音，因为CNN的算法没有语音学习的功能。但是，我们可以采取一种方法，可以通过将数字信号转换成图像频谱图来学习声音。由此产生的频谱图图像可以通过CNN进行研究，并通过CNN本身的特征进行分类。CNN方法在以往的图像或声音类型分类研究中得到了广泛的应用。在（LeBien et al.，2020年）。BP-ANN是一种模拟人类神经细胞工作的计算算法，该神经细胞由连接在网络中的神经元组成。这种学习算法的本质是改变权值以响应错误。权重的变化旨在最小化网络错误的数量，从而实现期望的输出。本研究使用CNN方法和监督方法来训练收集到的鸟叫声。将获得的鸟声数据转换成声谱图图像或数字信号。CNN方法基本上只能处理图像或视觉形式的数据。通过将声音转换为频谱图，声音已被转换为视觉形式或图像形式（ Song 和Li ，2019）。然后将测试训练数据以基于正在执行的方案（即正常状态方案和受威胁状态方案）进行分类。所得到的声波差异将是区分这两种鸟声的主要参数。将对分类结果进行测试和评价，以百分比形式衡量分类的准确性。准确度的高值将为数据分类中应用的方法提供结论（Zottesso等人， 2018年）。在Koh等人进行的研究中， 2019），标题为“使用卷积神经网络进行鸟类声音分类”，讨论了卷积神经网络（CNN）方法，用于使用声谱图特征基于声音对鸟类进行分类。重点保护的研究包括在这个BirdCLEF竞争。其中有659种鸟类和50000种鸟类的记录。本研究采用两种最近被广泛使用的架构，即ResNet和inception模型。所采取的步骤包括预处理，其中使用MEL尺度对数幅度谱图技术将获得的声音转换为谱图，之后完成ResNet用于鸟声识别的应用，之后继续实施初始架构，在4次或更多次之后获得研究结果，表明在添加高斯噪声之前在验证集中的评估会更好由于缺乏对过去最好研究的回顾，使得同一研究中使用的最新架构方法（ResNet和inception模型）的有效性变得不那么明显这个研究表明CNN仍然是鸟类语音识别的最佳分类方法。然而，研究人员缺乏高质量的录音可能会降低研究结果的准确性。使用适当的设备独立进行录音可能会使鸟类录音的音质更加清醒。一个好的录音将使CNN的研究过程更容易，并产生更高的准确性。在（Zhang，2021 ）进行的题为“通过新型深度学习架构诊断COVID-19肺炎”的研究中，开发了一种新型深度学习架构，以应对COVID-19诊断并防止深度神经网络过度拟合。本研究以Alex Net方法为架构基础，加入批次规格化。它用于减少内部协方差变化，并加速准备。在本研究中，AlexNet中的完全连接层被三个随机神经网络取代：SNN，ELM和RVFL。由于这项研究，发明并测试了用于COVID-19患者胸部CTI检测的DL系统。他们的邀请模型具有高灵敏度（0.8568），高特异性（0.9613），精密度（0.9570）和准确度（0.9091）。在（Sulyok，2019）进行的一项研究中，研究标题为“使用卷积神经网络进行鸟类声音识别”，讨论了使用卷积神经网络（CNN）方法基于声音对鸟类的物种和类别进行分类。本研究中使用的短时傅立叶变换（STFT）方法可以很容易地改变输入线索，通过调整频率时间，从而计算出修剪对于CNN中的预处理非常有用，以便在处理之前统一输入数据。然而，使用STFT直接记录数据并不好，因为当使用片段时它无法读取。CNN训练分两个不同的步骤进行。在彩色谱图数据集上进行训练在黑白光谱数据集上。已经用CNN分类的两个数据将被保存为冻结的推理图作为测试数据。与灰色相比，使用彩色光谱图时的结果稍好。然而，这需要具有更深层次和更长时间训练的CNN架构。在需要更快分类结果的情况本研究将通过研究已经拥有的数据集，基于该方案对鸟类声音进行分类。学习成果将用准备好的测试数据进行测试。希望本研究能对护林员从鸟鸣声中了解森林火灾的可能性有所帮助。在本文的其余部分是第2节的材料和方法的解释将被使用，第3是实施的情况下，该方法的结果，第4节是一个简短的讨论的情况下，本文讨论的方法和第5节是一个结论，从整个研究进行。2. 材料和方法本研究的方法包括数据收集、数据处理、培训、测试和评估，如图1所示。本研究中使用的主要方法是卷积神经网络（CNN）方法。CNN是深度学习中经常使用的一种方法，用于自动分类图像形状。研究题为“手工制作的功能和后期融合与深度学习的鸟的声音分类”作者（LeBien等人，2020）讨论了鸟类监测对优化保护政策和增加鸟类数量的重要性。自动分类有助于大规模时空监测S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4347Fig. 1. 基于CNN方法的鸟声分类方法的一般流程图。环境.在这项研究中，结合使用声学或声音方法，视觉或图像方法和深度学习的鸟类物种分类。本研究旨在最大化鸟类分类的性能，以达到最佳的效果。在这项研究中使用的方法是CNN研究一般特征和减少的维度和完全连接层将分类鸟类物种。对14种鸟类进行的实验显示，单独使用声学方法的结果为88.97%，而视觉方法的结果为88.87%，当它们与深度学习相结合时，结果为94.36%。这表明，将两种方法与深度学习相结合具有最高的结果。CNN作为一种使用的方法，通过将声音分类以图像的形式进行调整，在调整声音分类方面发挥了很好的作用。然而，这项研究并没有解释使用每种方法的最大优势，以及所使用的方法是否在课堂上处于相同的位置。通过解释这些事情可以提供重要的信息，传统方法在自动完成时会更好，除了使用户更容易（见图1和图2）。 2至4）。研究呈现于（Berger等人， 2018年）讨论了来自野外的新声音实验，看看投票是否得到了预期的评估结果。这项研究收集了DCASE2018中有关鸟类声音记录的数据，DCASE 2018是标记鸟类声音记录的门户之一使用的声音有3种不同的条件，即不同的时间、不同类型的麦克风和不同的录音持续时间。该研究使用CNN方法和基线方法进行研究结果在这种情况下，CNN有足够的层来解决复杂的问题。每一层都是相关的，这样流程就可以更好地学习。该研究对DCASE 2018记录以外的声音进行了测试，结果显示，从0到1的值范围内，平均准确度为0.81该研究使用的鸟类较少用来自自然界的声音进行测试将更有说服力地证明研究的成功。因为，基本上这项研究已经间接地处于直接用真实数据进行测试的阶段。2.1. 数据收集本研究中使用的数据是来自4种鸟类的记录的鸟类声音在这项研究中使用的四种类型的鸟类是Cipoh，Prenjak，Merbah cerucuk和Pleci。这些鸟类通常在苏门答腊岛和加里曼丹岛的农业森林中发现（Berger等人，2018年）。啁啾将直接对4种鸟类进行两种投票方案。鸟鸣和鸟鸣中的音节是两回事。啁啾是一系列音节音节是鸟类一口气发出的声音。本研究使用了580个鸟类声音样本，其中包括480个使用智能手机语音记录介质采集的声音，采样率为48 kHz，以及从Xeno-Canto网站下载的100个评估声音480种声音是4种鸟类的声音，即Cipoh，Prenjak，Merbah cerucuk和Pleci。每种类型和每种投票方案的声音组成为60票，正常时投票方案，受到威胁时投票计划中的受威胁情况将通过使用火把和模拟火灾产生的烟雾来模拟火灾，使鸟类感到受到威胁。这样做是为了模拟森林火灾推测鸟类在受威胁状态下发出的鸣叫与正常状态下这种差异将使用CNN方法进一步研究。所集鸟鸣之声，是一声鸟鸣一只鸟发出的一首歌通常被称为音节（Fanioudakis和Potamitis，2017）。音节是作为数据集使用的鸟类声音记录音节是鸟一击发出的声音记录的鸟声数据将被处理，使得其可以使用监督学习的CNN方法来处理所获得的声音将被转换成图像，并命名为声谱图图像。这项研究使用了四种类型的鸟类：Cipoh，Prenjak，Mer- bahCerucuk和Pleci。这种鸟原产于苏门答腊和加里曼丹的热带森林。在这项研究中，将使用两种声音方案，即正常情况下的鸟类声音和危险情况下的鸟类声音。鸟所发出的正常声音是鸟在被给予食物和饮料并得到适当照顾时发出的声音。一只鸟在危险中的声音是一只鸟被周围的火吓到的声音。在获取声音时，使用了智能手机设备的附加麦克风介质。使用的麦克风是一种单向麦克风，这种麦克风能够捕捉单向声音或仅从一个方向聚焦，使得声音记录过程可以更集中于鸟的声音并且减少其他声音干扰。每个投票方案每种鸟类60票中收集到480票。每只鸟的总票数为120票，来自 4 个鸟种和 2 个投票方案的 480 票。获得的声音以格式（sequence）（bird type）. wav命名。Example. 1Prenjak.wav.声音被收集在一个文件夹中，文件夹位置中的名称\Users\（username）\clean。2.2. 预处理根据每种鸟类的声音收集方案，来自鸟类录音的数据估计约为60个，因此，图二. chirping的例子S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4348×ΣΣ¼þðÞ图三. bird syllable见图4。用于训练数据的CNN架构。共采集了480条持续时间小于等于1 s的鸟鸣声，其中4种鸟类的正常声数据为60条，每种鸟类的受威胁声数据为60从4种鸟类中收集的2种方案的鸟类声音记录将被削减到每个方案240种声音。有480种鸟叫声。将480种声音分为训练数据集和测试数据集，其中480种鸟的声音的80%进入训练数据集，480种鸟的声音的20%进入测试数据集。训练数据集用于在系统中进行训练或学习，以获得最终结果中的高精度结果数据集测试用于测试从现有训练数据中“学习”的系统的准确性（Cakir等人， 2017年）。已共享的数据将与待处理的需求和系统需求同步。两种类型的数据，训练数据集和测试数据集都被截断，以便将信号维度调整为相同的持续时间（Qian等人，2017年）。例如，训练数据集中记录的鸟鸣声录音的持续时间为0.33秒至2.5秒。0.4 S.数据被截断为0.33秒以产生类似的数据大小。这是因为，CNN方法只能处理相同大小的图像。执行频谱图中频率图像的对齐以满足CNN方法的要求（Küc Küktopcu等人，2019年）。通过两个过程来进行调整数据：（1）去除信号中被识别为非鸟声的部分，以及（2）切断信号的顶部或末端以获得相似或统一的数据集。如果信号谱仪能有效地识别出目标，将提高训练和测试过程的准确性没有模糊信号或来自噪声干扰的信号以及统一的数据大小。此外，预期外部声音不会产生较大的声波贡献，因为它会影响测试时的准确度值（Xie和Zhu，2019）。2.3. 培训数据训练阶段是用于研究已经提供的图像的系统的阶段。在训练阶段中使用的数据是已经从数字频谱转换的频谱图数据。鸟在记录时发出的声音。频谱图数据将用于CNN中的训练过程已经准备好的训练数据集将通过卷积和ReLu阶段一遍又一遍地进行训练（Niemi和Tanttu，2018）。ReLu或Rectified Linear Unit是CNN方法中可用的激活层，公式函数f（x）= max（0，x）（Xieand Zhu，2019）。ReLu对于阈值设置或使小于0的值变为0非常有用。Relu激活如图所示。五、ReLu是在输入数据经过卷积或滤波计算后完成的。应用的卷积方程如以下函数中所示。X输入2.0填充2.0-内核11步幅其中是输出或输出值，enter是输入矩阵的大小，填充处理数据外部的许多元素，如图五. ReLU激活。S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报43494××××××××如图5所示，内核是指定内核的大小，步幅是矩阵计数过程的移动次数，如图2.5所示，值1是成本值。随着计算的进行，计算图像的形状将变得更小。已经卷积并使用ReLu方程计算的数据的结果将汇集以减小矩阵的大小，以便加速计算，然后使一些预期的特征更准确一点（参见图1A和1B）。 6和7）。卷积函数的示例计算，如果输入数据为227 227 3，则使用卷积大小96 11执行卷积113.有一个stride [44]和padding [00]。点是227227 3是输入数据的维数矩阵，然后11113是确定的内核大小并重复96次，而[44]是进行计算时的大量移动，[00]是计算的矩阵边缘值。将该值输入公式如下。电话：+86-21-5555555传真：+86-21-55555555基于计算值（2），可以如下计算层中包含的参数：55x55x96是结果输出值，其中55是计算结果，96是重复次数。参数值从55× 55× 96= 290400个神经元的乘积各有11× 11× 3 = 363个权重+ 1个偏倚。此层为290400× 364 = 105,705,600个参数。卷积是根据需要进行的CNN方法的专家进行的研究下一个过程是进入全连接层。完全连接是为分类处理的数据结果的转换阶段（Song和Li，2019）。在分类处理之前，鸟声数据被转换成一维数据，通常称为平坦化处理。Softmax激活是用于两个以上类别的分类步骤（Berger等人， 2018年）。处理已经收集的鸟声数据以进行学习。本研究中的学习旨在识别正常条件下和受威胁或恐慌条件下的鸟类学习过程使用阶段计算-CNN方法。源自二维数据的阶段被处理成相互连接的层，以识别特征。字符识别是用于对输入数据进行分类的学习的结果本研究中的分类仅显示了正常和受威胁时的鸟类声音。将对分类结果进行验证或测试，以评估真实性或准确性值。2.4. 测试数据测试是确保已经完成的学习的真实性的阶段（Cakir等人，2017年）。使用96个测试数据进行测试该测试是使用收集到的鸟声数据进行的见图6。服装双见图7。大步走S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4350-在第2.1节中，并在前一小节中构建的系统上进行测试。对学习成果进行测试，以评估准确度（%）。输入的测试数据是在学习或培训时从未使用过的数据。测试的结果是由所执行的分类产生的决定。如果试验数据是正常鸟声类型，则判定必须是正常从测试中收集的决定将以百分比形式呈现。百分比显示了已经完成的学习测试的准确性值。百分比值通常会随着每个测试的执行而动态移动，百分比是测试成功收集的平均值2.5. 评价CNN模型最初使用从Xeno-Canto鸟类语音门户网站收集的真实数据进行评估，然后应用于印度尼西亚当地的鸟类。有超过1500种不同类型的鸟的声音可在网络链接（xeno-canto：：分享来自世界各地的鸟的声音）。收集的声音是与本研究中收集的鸟类类型相同的鸟类的声音。这一阶段的目的是推广已经用不同质量的鸟叫声制成的系统。评价过程将在试验过程中使用每个物种的30票数据进行。此阶段与测试阶段的区别在于，收集到的选票尚未被确定为正常或受威胁，但所有声音都将被测试两次。所有来自Xeno-Canto的数据的第一次测试将具有正常的语音身份，而所有来自Xeno-Canto的数据的第二次测试将被赋予受威胁的身份。评估测试过程如图所示。8.第八条。图8呈现了使用来自Xeno-Canto的数据的示例评估过程的流程图。成功百分比（%）使用以下公式计算。一x¼b100千分之三在上面的等式中分类决策结果的获得，而b是大量数据用于评价测试。本章还得出了结论。从每个步骤中得出结论，以确定所用方法在当前情况下的适用性。在得出结论时，将解释所进行的研究结果的弱点和优点。结论是根据本评价第2.4分章和其他分章的研究结果得出的。3. 结果在这一阶段，我们将讨论卷积神经网络方法在深度学习中的应用，以分类森林火灾早期预警的鸟类声音（见表1）。3.1. 相似性数据见图8。评价进程。从4种鸟类和2个声音收集方案收集的声音最初被合并成一个录音，每个录音持续1-2分钟。在这项研究中，鸟类的声音采取使用额外的麦克风媒体的能力，频率响应100赫兹16千赫。然后将图9中呈现的一个鸟声信号的示例转换成如图10中呈现的频谱图。 10个。表1鸟声探测和分类的精选文章摘要没有标题相异性相似性缺点创意开发1‘‘Bird附加步骤卷积递归神经网络研究并没有使用许多类型的用来自大自然的声音进行测试，2检测- DCASE2018”。（Berger等人， 2018年）手工特征当提取语音数据时作出神经网络（CNN）方法作为一种方法的声音分类在这项研究使用监督卷积因此，输入的数据只能是与训练和测试这项研究并没有解释更有说服力的研究成果。因为，基本上这项研究已经间接地处于直接用真实数据进行测试的阶段卷积神经网络和后期融合深度学习声音分类视觉比较和水生神经网络方法，结合视觉和水生方法应用于深度学习，三种K-近邻方法对于视觉分类，Mel-能够以更好的方式将水上和视觉方法结合起来，更准确的结果，（Sulyok，2019）用三种不同的方法。用声谱图识别和分类用于水生分类的频率倒谱系数和用于深度学习的卷积神经网络在其类别中具有相同的位置。精度因此，视觉方法和人工认证可以适应CNN方法，以支持其性能。S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4351×见图9。相似性数据之前的信号。数据采集是为了减少每个音节的鸟声持续时间。使用附加应用程序Audacity进行切割。在切割音节之前，还可以减少录音背景噪音。如图所示，声音的截段已转换成频谱图。十一岁3.2. 标记数据在CNN计算之前，记录的鸟声信号被标记为以下文件名：（数据收集序列）_（鸟类）.wav，例如1Prenjak.wav。所有数据名称将在号码处理应用程序中注册为一个列表Excel）。名称和标签列表在数字处理应用程序中完成，其中正常鸟类声音数据将具有正常标签，而受威胁鸟类声音数据将具有受威胁标签。名称和标签列表示例见表2。名称列表存储为“instruments.csv”，以便可以在深度学习中用于处理多个数据。名称列表将用于训练系统识别数据，这些数据将用于分发数据集，训练数据和测试深度学习中的数据。名称列表存储在文件夹位置C：\Users\（username）\中。以下是本研究中使用的数据组成（见图1）。 12）。3.3. 预处理数据预处理数据阶段对于准备有用的（即，统一的）数据进行处理。一直以来的声音所获取的节拍将被同步到与可用音节的最小节拍相同的持续时间在所收集的投票中，最小的音节长0.9秒，最长的音节长1.2 S.所有声音将使用Audacity统一调整大小，持续时间为0.9 s，用于训练和测试过程，以提高鸟类声音分类的准确性。统一的声音将被分为两个，即训练数据集和测试数据集。导入数据后，下一步是将数据分为训练数据集和测试数据集（见表3）。将数据集分为80%作为训练数据集，20%测试数据集。数据存储在每个创建的变量中。X是矩阵中的行的整数，y是矩阵中的列。X_train变量存储已共享的总数据集中的训练行数据集，X_test变量存储已共享的总数据集中的测试数据集。同样，对于变量y中的数据，它是数据集矩阵中的一个列。一个数据表示的例子，包括变量和分类标签，如图所示。 13岁3.4. 培训训练过程使用包含在X_- train和y_train中的训练数据集训练的输出是从两个不同的数据集（正常条件和威胁条件）的学习分类在训练过程中，卷积或滤波过程使用具有滤波器16、32、64和128以及核大小3x3的2维卷积。卷积使用带有1x1步幅和填充的ReLu激活。输入维度的维度汇总在9 13的变量“input_shape”中CNN处理隐藏层，以便不显示许多计算，例如过滤，池化，扁平化和完全连接。隐藏层有几个层，因此输出显示计算结果和尺寸，用作有关所用过滤器大小的信息，执行哪些阶段以及每个阶段的权重或参数。训练的输出如图所示。十四岁根据图中的训练结果， 14在前9层上，获得9 × 13 × 16谱图图像尺寸见图10。相似性数据之前的信号频谱图的形状。见图11。相似性数据后的信号。S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4352××××××××表2标签数据集。Fname标签1Cipoh.wav正常2Cipoh.wav正常3Cipoh.wav正常4Cipoh.wav正常5Cipoh.wav正常6Cipoh.wav正常7Cipoh.wav正常8Cipoh.wav正常9Cipoh.wav正常参数为160参数值由计算公式（（过滤器宽度尺寸 * 过滤器高度尺寸）+1）* 过滤器编号。其中，1是CNN中使用的偏置值的成本值。第一层中的参数值160计算如下：（（3*3）+ 1）*16 = 160。对于第二层，尺寸为9 × 13 × 32，参数值4640通过以下计算获得：（（12*12）+1）*32 = 4640。下一层尺寸为91364和参数值18，496通过以下计算获得：（（16*16）+1）*64 = 18496. 在最后一个过滤层，尺寸为其中参数值73，856从如下计算获得：（（24*24）+ 1）*128 =73,856。接下来是合并、丢弃和平坦化的过程，该过程没有参数值的结果。第三个过程是维度变化的过程。池化将图像的维度从9 13更改为4 6或小于先前维度的50%的一半，因为维度只能是整数而不能是小数。丢弃是分离在训练期间未使用的神经元的过程。展平过程是通过将先前维度的维度乘以4*6*128 = 3072来将3维数据转换为1维的过程。下一阶段是致密的，这是用于添加完全连接层的阶段。密集参数值的结果是通过将密集大小与平坦化加偏置后处理的数据值相乘获得的，128*（3072 + 1）= 393344。第二层中的致密化过程通过将非均匀致密尺寸乘以该层中的致密尺寸加上1的偏差（128 + 1）*64 = 8256来完成。对于最后一层，进行与第二层密集中相同的乘法，（64 + 1）*10 =650。在卷积或过滤过程之后，池化过程，平坦化过程和全连接过程，训练验证过程进行了50个epoch，结果如图所示。十五岁这些结果可以用表4所示的表格形式进行解释。根据表4中给出的训练精度结果，在epoch上获得最高精度值0.9735在epoch上验证值的最高精度为0.973540.平均准确度值为0.9276，准确度验证的平均值为0.9121。根据表4中给出的拟合模型的结果，可以绘制两个曲线形状图，如图4所示。十六岁表4显示了Loss和Acc列，其中Loss是程序进行训练时的未命中值，Acc是程序进行训练时的同时，对于Val_Loss列或ValidationLoss列，是在测试测试数据集时程序未命中时获得的值，Val_Acc或Validation Accuracy是在测试测试数据集时程序成功时获得的值第一条曲线上的值是Acc列值，名称为Train，Val_Acc列值名称为Test。第二条曲线是“Loss”列中的值的曲线，该列的名称为Train，Val_Loss列的值的名称为Test。在图中的两条曲线中。 16可以得出结论，更多的时期或更多的数据训练进行将有一个积极的影响准确性的结果。与损失结果成比例的增量曲线上的训练是使用数据集训练进行训练，并使用测试进行验证，这意味着使用数据集测试。这项研究使用epoch多达50次，以改善系统程序的体验，以便能够在测试阶段进行预测表3数据表。没有数据名标签总数据11Cipoh.wav正常60261Cipoh.wav恐慌6031Prenjak.wav正常60461Prenjak.wav恐慌6051Merbah.wav - 60Merbah.wav正常60661Merbah.wav恐慌6071Pleci.wav正常60861Pleci.wav恐慌60总480见图12。相似性数据后的信号频谱图的形状。S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4353图十三. (a)数据集X_train;（b）数据集X_test;（c）数据集y_train;以及（d）数据集y_test。见图14。培训结果。图十五岁验证结果使用训练和测试数据集。S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4354表4培训结果。时代损失ACC确认_损失确认_访问0.71070.59660.58190.66740.49330.72780.42660.77230.41000.78830.38070.80140.35180.82650.33300.83620.32040.84070.31150.84750.28620.85990.28360.85960.26320.87460.25520.87780.24190.88740.25330.88090.22840.89440.22790.89140.21160.90380.23180.8942.. .. . .0.0665. . .0.9727. ......你好。0.1730.. .0.9451最大值0.71070.97350.58190.9482Min值0.06490.59660.15600.6674是说0.15520.92760.21300.91213.5. 测试在系统对研究中使用的数据有了经验之后，接下来就是测试过程。在此阶段，将使用X_test和y_test变量中可用的测试数据集对系统进行测试，该数据集使用在前一阶段的训练预测结果将以表格数据的形式显示在“prediction.csv”中，该文件存储在C：\ Users \（用户名）文件夹中。以下是使用数据集测试的测试过程中的预测结果，用于已构建的系统程序的体验。表5列出了CNN节目预测的一些结果。“正常”和“恐慌”列中的值是程序使用Softmax激活进行分类时获得的值。Softmax激活显示的值范围为0到1。数字1中的值越接近，它就越接近真理，反之亦然，当值接近0时。如果预测的声音在“正常”列中的值大于0.5，则该声音是带有“正常”标签的声音，也适用以恐慌列值。所提供的数据是以每种分类可能性的准确值的形式。例如，1 Cipoh.具有正常标记的WAV得到具有正常标记0.9772的准确度值和威胁0.0227的标记准确度值，则预测判定是正常的。计算这些预测决策以评估所做程序系统的准确率。应用卷积神经网络（CNN）方法的结果由[25]进行，得到95.3%的值和85.5%的评估值。关于卷积递归神经网络（CRNN）法，评分为95.7%，评价值为88.5%。可以得出结论，CRNN在整体价值和评估时更好。不幸的是，这项研究在确保CRNN在语音识别中是一种更好的方法方面仍然犹豫不决。因为，所包含的评估数据不足以作为所有类型数据集的评估结果而被击中。CNN作为CRNN的基本方法，由于CRNN的评价过程需要针对不同质量的数据进行，因此在应用上较为简单。为了最大化它，CRNN会更好，对于简单的情况，CNN会在研究中更好地实现。然而，[26]进行的两种类型分类的最高产量相当于白尾鹰物种的0.9993和海鸥物种的0.9496。结果表明，数据增强和CNN是基于图像的鸟类分类的潜在方法。不幸的是，这项研究在其应用中需要相当大的成本。所使用的设备必须能够在高图像捕获速度下以良好的图像质量捕获130 m距离内的鸟类图像。使用CNN作为识别自动化的方法是适当的，加上额外的方法来促进要处理的数据输入，以加快其性能。测试的输出以CSV格式的表格数据的形式。每个数据集都被用来生成经验和预测。分类程序在此阶段完成，然而，在本研究中，将进行评估，以测试程序的经验与相同类型的鸟的声音数据从几个人上传Xeno-Canto.orgXeno Canto或www.xeno-canto.org是一个许多人用来发送和获取鸟类声音记录在Xeno Canto中，有各种鸟的声音，从“在这项研究中，使用来自4种鸟类的25种鸟的声音来评估。下载用于评估的鸟的声音的数量是100个具有“A”质量的鸟的声音试验的总体结果见随附文本。总体预测结果总结见表6。根据系统程序的经验进行的测试过程的结果，测试的准确度值为96.45%在这个阶段，可以得出结论，所提出的方法能够以96.45%的准确率基于两只鸟的状况对鸟的声音进行3.6. 评价评估过程的执行方式与系统测试的方式类似，不同之处在于所使用的数据是来自www.xeno-canto.org网站门户的语音数据（xeno-canto：：分享来自世界各地的鸟叫声）。把声音放低-图16. (a)模型拟合精度曲线（b）模型拟合损失曲线。S.D.H. 佩尔马纳湾萨普特拉湾Arifitama等人沙特国王大学学报4355表5测试结果。表6预测测试结果。表7示例标签数据集2.表8第一次评估预测的结果。从Xeno-Canto门户网站加载的是与研究中使用的鸟类型相同的鸟的声音，即，具有科学名称Aegithinativalus的Cipoh、具有科学名称Priniafamiliaris 的 Prenjak 、具有科学名称 Pycnonotusgoiavier 的Merbacerucuk和具有科学名称Zosterops的Pleci（参见表7）。收集到的鸟类声音将来自4种不同的鸟类，共计100种声音。每种鸟类将有25票，一个未知的标签。已下载的噪音将被执行降噪效果，以最大限度地提高使用的声音质量。对于根据（Iora，2020）上传的数据下载的学名为Aegithina typhia的Cipoh鸟的声音，根据（Bulbul，2020）上传的数据下载了学名为Pycnonotus goiavier的鸟的声音，根据（White-eye，2020）上传的数据下载了学名为Zosterops的pleci鸟的声音，并根据（Prinia，2020）从Xeno-Canto.org网站上传的数据下载了学名为Prinia familiaris的prenjak鸟的声音。以下是降噪前后来自Xeno-Canto的数字声音信号的示例（见表8）。噪声最小的声音将是阈值，以便可以使用CNN方法将其处理为DL算法[27]。在阈值化之前，执行标记。标签是通过在一个名为“eval.csv”的数字处理应用程序中列出新数据来完成的，而对于临时标签，99个数据的正常标签和1个标签被威胁作为分类和预测的条件。标签列表的一部分如下图所示。给出了一个规则，将速率值除以10，并通过使最小数据周期为1来确定阈值，数据将存储在“teval”文件夹中。这些阶段的数据集表示如图所示。十七岁图18的内容的共同之处在于，当程序根据源代码4.5对行18至23进行阈值化时

下载后可阅读完整内容，剩余1页未读，立即下载