基于改进神经网络的无人机洪水视频分割研究

43 浏览量更新于2023-12-09 收藏 942KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

可在www.sciencedirect.com在线获取ScienceDirectICTExpress 8（2022）347www.elsevier.com/locate/icte基于改进高效神经网络的无人机遥感洪水视频分割Naili Suri Inthizamia，M.Anwar MaAlhamidia，Ahmad Gamalb，Ronni Ardhiantoc，Kurnianingsihd，Wisnu Jatmikoaa印度尼西亚Depok印度尼西亚大学计算机科学系b印度尼西亚Depok印度尼西亚大学工程学院c葡萄牙。Pangripta Geomatika Indonesia（UAV LiDAR Specialist），雅加达，印度尼西亚d印度尼西亚三宝垄，三宝垄国家政治学院电气工程系接收日期：2021年1月21日;接收日期：2021年9月19日;接受日期：2022年1月28日2022年2月4日在线提供摘要在洪水监测系统中，可以利用语义分割对无人机拍摄的视频数据进行分析。准确的分析可以帮助救援队评估和减轻洪水灾害。提出了一种改进的高效神经网络结构，用于洪灾无人机视频的分割该方法由作为编码器的atrous可分离卷积和深度可分离卷积组成作为解码器。实验结果表明，该方法优于高效神经网络版权所有2022作者。出版社：Elsevier B.V.代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：Atrous可分离卷积;深度可分离卷积;高效神经网络;语义分割1. 介绍2020年1月，雅加达因大规模洪灾而重新成为焦点。据报道，约有61人死亡，约27，971人流离失所[1]。高降雨量是这次洪水的主要因素。除了降雨量增加外，由于准备不足也可能发生洪水。洪水监测系统对于帮助相关方应对灾害，减少人员伤亡和损失至关重要。洪水监测可以使用无人驾驶航空器（UAV）进行结果可以通过语义分割方法进行分析[2]。语义分割是指为每个图像像素提供标签的过程，也称为场景标记[3]。语义分割的目的是将图像中的区域划分为预定的类别[4]。语义分割包括检测异常，检测对象，自动驾驶等[5]。*通讯作者。电子邮件地址：naili. ui.ac.id（N.S.Inthizami），muhammad_anwar@cs.ui.ac.id（M.A.Maui.ac.idAlhamidi），ahmad.eng.ui.ac.id（A.Gamal），ronni. pangripta.com（R.Ardhianto），kurnianingsih.k.id @ ieee.org（Kurnianingsih），wwwwisnuj@cs.ui.ac.id（W。Jatmiko）。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2022.01.016语义分割任务有一些挑战。第一个是类别标签的数量必须始终遵循图像或视频中对象的数量。此外，几个物体在它们的一些视觉外观上显示出高度的相似性。这可能是由于噪声或照明，这会影响对象另一个挑战是视频的语义分割不同于图像。对思想进行了语义切分研究，取得了较好的效果。但是当在视频中实现时，它不会产生相同的结果，并且往往是错误的。这是由语义分割引起的，语义分割是在一个帧和多个帧上进行的，时间限制（截止日期），因此所使用的方法有时无法正确执行语义分割[6]。本研究的主要贡献是通过考虑其精度和计算时间来构建更高效的高效神经网络（ENet）架构。我们提出ENet的卷积架构使用Atrous可分离卷积和深度可分离卷积，在不降低精度性能的情况下加快过程并减少参数。该模型以后可以应用于资源有限的设备，例如无人机上的单板计算机2405-9595/© 2022作者。由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。N.S. Inthizami，硕士夫人Alhamidi等人ICT Express 8（2022）347348××××2. 该方法2.1. 数据集图1.一、提出了高效的神经网络架构，（a）编码器（b）解码器。保持其原有的代表性。输入数据两层这项研究使用了2020年1月2日使用大疆无人机拍摄的无人机视频数据集。这段视频显示了2020年初雅加达洪水灾害的样子。有三个场景具有不同的位置和特点。第一个场景的持续时间为5秒，有150帧，类别数为5，代表树、建筑物、洪水、水/河流和道路。第二幕有8秒的持续时间，240帧，类别的数量为6，代表树、建筑物、洪水、道路、汽车和人。第三个场景的持续时间为10秒，具有300帧，并且类别的数量为7，代表树、建筑物、洪水、水/河流、道路、汽车和人。第三幕，在是路中间的一座桥作为障碍。整个场景都是手动标记的。为了进行比较，我们还使用了剑桥驾驶标签视频数据库（CamVid）的数据。CamVid数据集是从驾驶汽车的角度拍摄的，与我们从鹰眼角度拍摄的无人机数据集2.2. 高效神经网络高效神经网络（ENet）是一种卷积神经网络（CNN）方法，专注于实时语义分割[7]。ENet提供了语义分割的计算速度和低成本。它的架构有两个主要模块，即初始块和瓶颈。初始块的任务是执行下采样，降低输入数据的空间分辨率，结果将被合并，并以特征图的形式产生输出，这些特征图将被输入下一个模块。下一个模块是瓶颈模块。由于采用ResNet（残差神经网络）[8]，该模块分为两个分支：主分支和侧分支。瓶颈模块由三个卷积层组成。第一层是负责降低维度的11卷积层。第二层是3 3主卷积层，最后一层是1 1扩展的卷积层。2.3. 编解码器ENet实现了编码器-解码器结构，因此架构大致分为两个阶段。编码器由三个阶段组成，专注于下采样和生成特征图，而解码器由两个阶段组成，专注于上采样。上采样与下采样相反，下采样通常用于放大图像。ENet中的编码器负责获取包含输入信息的特征映射。解码器从编码器获取结果，并将其与所需的输出进行匹配。图1示出了所提出的高效神经网络架构的图示。2.4. 深度可分离卷积DSC是一种卷积形式，通过制作标准的标准卷积分为两部分，即更深的卷积N.S. Inthizami，硕士夫人Alhamidi等人ICT Express 8（2022）347349图二. 深度可分离卷积说明。图3.第三章。膨胀率的 Atrous卷积图示。（深度卷积）和另一种称为逐点卷积的卷积。在分解部分，输入图像将与大小为nx mx 1的滤波器进行卷积，以产生小于原始（1）的输入图像。这与普通卷积不同，普通卷积使用滤波器nx mx（输入图像通道）。然后，对于逐点，来自depth的输入图像然后与滤波器1x 1x（输入图像通道）进行卷积，以产生大小为Nx Mx 1的输出图像，N是图像的行像素，M是列像素。图图2示出了深度方向可分离卷积过程的图示。2.5. Atrous可分离卷积Atrous可分离卷积（ASC）是DeepLab v3 + [9]中使用的一种卷积层。这个卷积层是atrous卷积和深度可分离卷积的组合。与depth略有不同，atrous有一个名为rate的参数，它的功能是查看更广泛的上下文，但成本最低这里的上下文是将被卷积的输入图像。这样，从这个过程中获得的参数比传统卷积小，但仍然可以产生与传统卷积相同的感知。图 3显示了一个atrous卷积过程的说明。3. 结果和讨论在本节中，我们将介绍所提出的方法的结果。评估以两种方式进行：视觉上查看分割结果，并比较评估指标，如准确度，精度，召回率，f1 分数，inter-section overunion（IoU），参数数量，最后每秒帧数，以确定计算时间。比较也看到了拟议的架构的可靠性。我们比较了我们提出的方法与现有的几种架构，如ENet与编码器和解码器DSC，ENet与编码器和解码器ASC，ENet与编码器DSC和解码器ASC，和ENet基线。我们没有比较所提出的架构与几个基于CNN的方法，因为我们的目标是创建一个有效的架构，可以在一个设备中实现的计算限制的ENet。图4显示了所提出的方法和其他方法之间的视觉比较。从视觉上可以看出，与其他方法相比，所提出的方法的分割结果更接近地面实况。这解释了使用atrous卷积的编码器可以以最小的成本看到更广泛的信息，而不会丢失信息的原始感知，并且使用depressive解码器可以挖掘更深的信息，然后将其恢复为原始形式。可以说，在这里，atrous卷积的作用是加快进程，deprous卷积是提高性能。表1显示了我们提出的方法与其他方法在三个场景中的平均性能比较。什么是指ENet，其中En = DSC，Dc =DSC是使用依赖卷积作为编码器和依赖卷积作为解码器以及其他配置的ENet架构。我们可以看到，我们提出的方法优于其他方法从各个方面的评估，包括计算看到从帧每秒（fps）。这意味着使用正确的编码器和解码器配置将提高性能，同时最大限度地减少计算成本。我们还将我们提出的方法与最先进的方法TDNet [10]进行了比较。我们在233 CamVid数据集上进行了在图5中的视觉比较中可以看出;与现有技术的方法相比，我们提出的方法仍然给出了有竞争力的结果。从数量上看（表2），N.S. Inthizami，硕士夫人Alhamidi等人ICT Express 8（2022）347350图四、所提出的方法的定性结果与其他配置在每个场景：（a）场景1，（b）场景2，和（c）场景3。所提出的方法在平均准确度和平均IoU方面与最先进的方法有4%的差异。与基线ENet相比，所提出的方法在平均准确度上提高了8%，在平均IoU上提高了16%4. 结论提出了一种改进的高效神经网络结构用于洪灾无人机视频分割。该方法的性能显着优于现有的基线方法，并提供竞争力的结果相比，国家的最先进的方法。所提出的方法也给出了快速的计算时间从fps。这意味着如果在诸如无人机/UAV的低计算能力设备中实现，则所提出的方法将提供更有效的结果。CRediT作者贡献声明Naili Suri Inthizami：概念化，方法论，软件，验证，调查，数据管理，写作-原始草稿，可视化。M. AnwarMa'sum：验证，形式分析。马赫穆德河Alhamidi：写作-原始草案，写作-审查编辑，可视化&。Ahmad Gamal：验证、资源、监督。罗尼 ·阿迪安托：资源，监督 .Kurnianingsih：验证，N.S. Inthizami，硕士夫人Alhamidi等人ICT Express 8（2022）347351表1图五、所提出的方法与Ca mVid 数据集上预训练的TDNet [10]的视觉比较。确认所提出的方法的性能评价比较Dc= DSCENet与拟议会议En=编码器; Dc=解码器。表2CamVid数据集中的性能评估比较方法mAcc（%）mIoU（%）TDNet PSP 1880.272.6TDNet PSP 5083.476.0ENet基线68.351.3该方法76,768,3想象力。Wisnu Jatmiko：概念化，写作竞合利益作者声明，他们没有已知的可能影响本文所报告工作这项工作得到了印度尼西亚国家研究和创新机构2020年的支持，编号：NKB-2879/UN2.UNI/HKP.05.00/2020.引用[1] BNPB，Banjir，Bencana alam mematikan hingga agustus 2020，2020.[2] Y. 元、X. 陈，J. 小王，对象上下文语义分割的表示，2019，http://dx.doi.org/10.1007/978-3-030-58539-6_11，arXiv。[3] H. Yu等人，语义分割的方法和数据集：评论，神经计算（2018）http://dx.doi.org/10.1016/j.neucom。2018.03.037。[4] G.美国，M.P.M.M.，联合Verma，R.M. Pai，使用卷积神经网络对无人机空中视频进行语义分割，在：2019年IEEE第二届人工智能和知识工程国际会议，AIKE，2019年6月，pp。21 http://dx.doi。org/10.1109/AIKE.2019.00012。[5] H. Zhu，F. Meng，J. Cai，S. Lu，Beyond pixels：A comprehensivesurveyfrombottom-uptosemanticimagesegmentationandcosegmentation ， J. Vis. Commun. 图像表示。（ 2016 ）http://dx.doi.org/10.1016/j.jvcir.2015.10.012.[6] Y. Zhang，X. Chen，J. Li ，C. Wang，C. Xia，J. Li ，Semanticobject segmentation in taged videos via detection，IEEE Trans. PatternAnal.马赫内特尔（2018）http://dx.doi.org/10.1109/TPAMI.2017.2727049。[7] A. Paszke，A. Chaurasia，S. Kim，E. Culurciello，ENet：{A}用于实时语义分割的深度神经网络架构， 2016 ， CoRR ，abs/1606.02147 ， [ 在线 ] 。可通过以下网址获得：http://arxiv.org/abs/1606。02147[8] K.他，X。Zhang，S. Ren，J. Sun，Deep residual learning for imagerecognition，2016，http://dx.doi.org/10.1109/CVPR.2016.90。[9] L.C. Chen ， Y. Zhu ， G. 帕潘德里欧 F. Schroff ， H 。 Adam ，Encoderhttp://dx.doi.org/10.1007/978-3-030-01234-2_49[10] Ping Hu等人，用于快速视频语义分割的时间分布式网络，在：IEEE/CVF计算机视觉和模式识别会议论文集，2020年。方法预RecF1ACCIOU#参数FPSeNet78.26 87.482.83 86,16 44,53 353 37616基线ENet与82.32 88.73 85.86 91,41 54,34 162 45215En= DSCENet，En=ASC81.43 88.43 84,93 89,61 52,19 169 68418Dc= ASCEn= DSC80.38 80.19 80.28 87,49 47,52 211 91019Dc= ASCHOD 86,31 92.14 89.22 93.29 56，61211 91020

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于改进神经网络的无人机洪水视频分割研究

最新资源