底栖动物自动识别的神经网络模型方法

145 浏览量更新于2023-12-09 收藏 983KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 8（2022）640www.elsevier.com/locate/icte底栖动物自动识别的神经网络模型方法Ravail Singha， Varun Mumbarekarba印度综合医学研究所，印度查谟运河路bVishwakarma Institute of Technology，411037，Pune，India接收日期：2020年8月28日;接收日期：2020年11月22日;接受日期：2021年3月10日2021年3月23日在线提供摘要最繁琐和忙碌的工作是在显微镜下花费数千小时来识别微小的底栖动物，因为所有的动物都需要计数，分类、挑选并永久固定在载玻片上用于分类鉴定。所有动物区系鉴定需要大量的预处理，并且识别单个样本消耗大量的时间。因此，为了降低许多此类程序的复杂性，结合识别更大数据集的愿望，我们提出了基于人工智能的新软件，该软件可以通过显微图像自动识别底栖动物。在本文中，我们提出了一种机器学习方法，通过底栖动物的图像进行自动视觉识别。为此，我们提出了一个神经网络模型，在那里我们证明，所提出的方法基于图像区分动物群。然而，它可以很好地处理大量的图像数据和大量的计算资源。c2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：机器学习;模型;自动识别;底栖生物1. 介绍个体的识别对于基本了解生物多样性的组成部分及其保护和可持续利用极其重要。最经典的鉴定方法是根据标本的形态特征[1然而，形态学和分子分类学分类有许多缺点，因为它更容易发现两个较大的生物体之间的差异，如骆驼和牛，但很难区分微观昆虫或蠕虫[4]。经典分类学的另一个缺点是需要大量的努力来确定一个个体在分类群之间有很大的差异。有许多形态学特征可以显着地促成差异，包括动物身体不同部位的形状、大小和颜色。然而，对于大型底栖动物、大型底栖动物、小型底栖动物和微型底栖动物等小型和脆弱的底栖蠕虫标本，则更加困难[5]。为了进一步确定一个需要审查所有∗ 通讯作者。电子邮件地址： ravail. iiim.res.in（R. Singh）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2021.03.003形态特征，如嘴形，角质层，刚毛，尾形），而且需要了解整个分类学术语，以提供精确的观察具体字符。因此，整个过程消耗大量的时间和人力。许多这样的过程的复杂性，结合识别更大数据集的愿望，对机器学习等替代方法的需求不断增长[6，7]。为了最大限度地减少这一冗长的程序，长期以来一直存在开发用于识别的自动化基于图像的系统的需求。最近，机器学习已经成为通过图像进行自动识别的潜在解决方案[8]。机器学习和计算机视觉就像一种算法或手动程序，从生物体的图像中提取相关特征进行识别在本文中，我们专注于利用计算机视觉自动识别小型和大型底栖动物。在这里，我们准备了从印度西海岸的海洋区域收集的大型和小型底栖生物的大型图像数据库。我们训练并测试了一个机器学习卷积神经网络（CNN）模型，该模型可以使用图像数据库对底栖动物进行分类，并提供准确性评分。这些图像甚至可以代表不同的观点、角度、身体2405-9595/2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。R. Singh和V. MumbarekarICT Express 8（2022）640641×表1训练模型的查全率和查准率指标组名称Num个训练图像测试图像的数量召回精度FP率FN率端足150300.98330.97250.0050.003双壳150301.001.0000等足150300.97220.98310.0030.005Nematoda150301.000.97290.0050多毛类150300.99441.0000.001纽梅尔泰亚150300.97781.0000.004零件图像或生命阶段-CNN自动为手头的任务找到相关的特征集本文件的目的如下建立底栖生物自动识别程序，对底栖生物进行即时识别，以类群为目标，再进行更高分类单元的识别。为了提取生态信息，多样性，丰度，存在的年轻人，成年人和性别比例的动物，这是重要的生态学家有适当的科学解释？2. 数据库创建为了创建数据库，我们使用数字显微镜收集了各种底栖动物群的大量图像（图1）。图像是从我们自己的样本中提取的，这些样本是从印度西海岸的沿海地区收集的。一开始，我们还使用了来自其他网页的图像，如nemys.ugen.de，北海的大型底栖动物-多毛类，海洋门户网站。用于该活动的数字显微镜是连接到个人桌面的Olympus双目显微镜（BX-63）。在这项工作中，我们使用了多个图像的标本从不同的角度。我们从每组/科/属/种中收集了近150张图像。表1中给出了包括训练图像和测试图像数量的总图像的结果，以及它们的召回率和精确率指标。在这项研究中，我们收集了两个不同的数据集，一个是实验的第一步“物种分类器”。另一个数据集是专门为“物种检测”（或定位）收集的。该分类器将在给定的图像中预测其置信水平的物种。而检测器将定位并在物种周围绘制一个边界框并正确标记它。检测器是实验的第二步，专门用于检测单个图像中的多个物种并标记（即直接观察）。为了训练检测器，积累第二组图像数据。该数据集的沉积物含有多个物种及其相应的位置。对于检测器，我们手动记录每个图像中每个物种的位置，以便在训练期间可以提供位置数据以及相关图像。不需要收集用于训练分类器的位置信息，因为分类器的目标只是预测给定图像中存在哪些物种，而不是定位物种的位置。但是提供位置数据对于训练检测器模型是强制性的，因为模型的输出将提供两个参数，即检测到的物种的位置和预测图1.一、用于分类器和检测器的每个生物体的样本图像。物种名称在这个位置。在训练时，检测器模型将尝试学习所提供的位置和物种名称的模式和特征，并且最终在训练后将正确地检测和定位。图像特征：分类器的大部分图像数据集使用数字显微镜捕获。所有采集的图像都有一个统一的背景（黑色），具有高对比度。从前面提到的网页中提取的其他图像也具有高对比度和均匀的背景。第二个数据集，用于检测器模型，包含放置在沉积物上的多个目标物种。通过从不同角度捕获每个生物体的图像来改进数据集。预处理：图像数据集包含所有三种颜色通道（红色、绿色和蓝色）。大多数图像被旋转以使数据集鲁棒。由于VGG16模型的输入是形状224 224，因此所有图像的大小都被调整为这个尺寸。由于所有的图像都有不同的长宽比，R. Singh和V. MumbarekarICT Express 8（2022）640642××××图像会在训练时引起失真或引入偏差，并可能妨碍实际准确性。为了保持长宽比，我们计算了图像的平均尺寸（平均高度和宽度）。然后调整大小，使得所有图像的一个维度将是平均大小。因此，另一个维度要么被裁剪，要么用计算的像素值插值，以便将其调整为所需的维度。训练和测试集：图像数据集分为2个子集用于训练和测试。测试图像与总图像的比率为1：10。因此，图像数据集的九个部分用于训练过程，剩下的一个部分用于验证准确性。完成测试和训练图像的分离，使得类别的比例在测试和训练集中相同。2.1. 模型分类器：为了构建分类器，我们通过更改最后一层使用了预训练的InceptionV3模型。但在直接移动到这个模型之前，最初，我们在本地构建的分类器上进行了一些实验，最初，我们从2层卷积层开始，然后是一个完全连接的层。对于这个分类器，即使对于训练数据，我们也没有达到很高的准确率。此外，我们添加了更多的卷积层，然后是maxpooling层。所有这些实验的结果都添加在后面的章节中。新层的增加测试准确度没有增加到80%以上。训练总共运行了50个epoch，测试准确率达到100%，在训练过程中，注意到在几个epoch之后，测试损失逐渐增加。这是训练数据过拟合的指示。该模型过度拟合训练样本，因此开始预测新的未知数据的不准确输出。为了克服这个问题，在神经网络中加入了辍学，这在一定程度上减少了过拟合。在训练过程中，dropout试图随机忽略神经网络中的一些神经元，这使得训练变得嘈杂，并使某一层的某些神经元或多或少地负责输入。除此之外，我们使用Keras库执行图像增强，其中增强是在不改变存储在内存中的数据集的情况下实时执行的。在实施上述技术后，过拟合问题得到了解决。虽然现在模型的性能有所提高，但并没有使测试精度提高多少。使用TensorFlow，可以轻松地修改预训练模型的某些层，并针对特定分类对其进行重新训练。我们使用了InceptionV3模型，这是一个48层的深度神经网络。而不是使用完整的架构，混合层（' mixed7 '）的输出预训练模型的权重在训练过程中被冻结，因为这些层已经被训练过。只有自定义神经网络图二、神经网络模型架构。网络被训练来学习问题陈述。实现是使用 Keras 和TensorFlow后端完成的。向模型的输入提供具有所有3个颜色通道的150 × 150图像。输出层（具有77768的形状，然后在将其输入到完全连接的层[9]。其中最后一层提供了几个通道，这些通道等于要分类的类的数量。softmax层使用下面提到的基本softmax公式规范化输出向量。否则，所有卷积块都使用ReLU激活函数（见图1）。 2）。使用InceptionV3模型进行特征提取，并在其中一个中间层中添加一个新的全连接层检测器：对于检测器，我们使用mobilenet作为基本特征提取器和SSD（单镜头多盒检测器），用于检测单个图像中的多个类。使用mobilenet作为特征提取器的原因是为了获得更快的速度。与其他模型相比，mobilenet在计算方面是轻量级的它通过用“dependable separable convolutions”代替正常卷积来优化计算常规卷积将卷积核应用于所有通道，并对输入通道上的内核所覆盖的像素进行加权求和。因此，基本上，任何数量的输入通道都会转换为单通道输出（实际上，我们应用多个内核，因此输出具有多个通道）。在mobilenet架构中，只有第一层使用标准卷积。其他层使用依赖可分离卷积。这是图3所示的dependency卷积和逐点卷积的组合。与标准卷积不同，它不合并通道，而是单独对每个通道执行卷积。如图3所示，具有3个通道的输入图像将输出具有3个通道的图像，每个通道具有其自己的权重集合。这种去卷积的工作原理类似于输入通道的滤波。这之后是逐点卷积，其类似于具有11个核的正常卷积。这将所有通道相加（加权和）。逐点卷积的主要目的是通过组合深度卷积的输出通道来创建新的特征标准卷积在一次执行中执行但是标准卷积必须执行更多的计算，因为它需要调整更多的权重。R. Singh和V. MumbarekarICT Express 8（2022）640643×××××图3.第三章。 33标准卷积和Depressive Separable卷积（Depressive卷积后接逐点卷积）。等效3 - 3可分离卷积的速度比标准3 - 3卷积快9倍. 因此，为了更快地提取特征，我们决定使用mobilenet模型和检测器技术作为SSD。要使用SSD，需要更改mobilenet的最后几层mobilenet基础网络的实际最终层是7 × 7像素，后面是全局池化层，11之后是分类softmax层。相反，对于SSD实现，我们不仅从基础模型的最后一层获取输出，还从多个先前的层获取输出，并将其馈送到SSD层。mobilenet模型将图像像素转换为特征，然后SSD使用这些特征来精确定位查看特征的对象。所以这里mobilenet被用作特征提取器。从这样的输出层提供到SSD的输入，所述输出层将提供高级特征，所述高级特征将使检测器准确地预测感兴趣区域。由于对象检测比分类复杂得多，SSD检测器增加了更多的卷积层的基础mobilenet层的顶部。SSD利用其置信度分数预测图像中存在的多个类别。3. 结果和讨论近年来，像CNN这样的机器学习技术的进步为计算机视觉的发展做出了巨大贡献[11]。在这项研究中，我们的目标是开发程序，通过它我们可以做底栖生物的自动分类鉴定。此外，该软件还可以测量其他重要参数，如计数，多样性，丰度，年轻人，成年人和性别比例的存在，这对生态学家进行适当的科学解释很重要。通过机器学习识别动物群是一个非常复杂的过程，因为我们必须提供图像的所有特征，这使得机器学习算法更容易区分对象。这是第一个用于自动识别底栖动物的机器学习方法。虽然，在其他领域的自动识别似乎是非常有用的，虽然他们已经使用了相机陷阱图像[12]。分类图像集使用标准视图是非常然而，在我们的程序中，我们还用沉积物颗粒数据训练了软件，这些数据总是与生物图像保持一致。如果图像更加异构，就像我们的数据集一样，人们预计需要更多的训练数据来实现相同的识别准确度。每个类别使用大约150张图像，我们实际上实现了更好的异质识别精度。这是在我们的数据集中观察到的，因为在一开始识别更高的群体特别具有挑战性，因为模型在线虫和纽形虫之间变得混乱。然而，在提供了相当数量的图像后，模型报告了>92%，这是相当令人印象深刻的，特别是考虑到训练集中每个类别的图像数量很少。因此，该模型需要实现更高的分类群的诊断功能的一个很好的理解。最佳模型在识别时的误差率为0.1%图四、各组的得分水平和模型的执行过程。R. Singh和V. MumbarekarICT Express 8（2022）640644图五. 应用dropout和图像增强之前和之后的训练损失曲线。鉴定率达99%的有硬足纲、等足纲、端足纲。4）。一个值得注意的离群值是Polycheata家族，鉴于样本量（90张图像），其识别准确度意外低（85%）。另一个突出的例子是双壳类（80%的准确率）和少量的例子（55张图片），这可能很难带来准确性。应用dropout和图像增强后，过拟合问题得到解决（图1）。第五章）据观察，对于InceptionV3模型，每类至少32个样本足以在订单（分类法）之间具有更高的分类准确度。尽管如此，我们已经使用了每个类150张图像的鲁棒性，并在验证数据（看不见的数据）上实现了99.9%的准确率。图1和图2中所示的图像。6和7与具有不同方向的训练数据有很大不同。端足类的剪切图像被认为是正确的预测，因为主要的特征在图像中仍然可见4. 结论据我们所知，我们提出了第一个将强大的神经网络架构与张量流相结合的方法。这个程序可以快速地将数百万见图6。训练InceptionV3模型的准确度和损失图。InceptionV3网络的精度曲线在较少的时期达到最大值。见图7。从互联网上下载的一些有趣的未见过的图像的分数。这是一个重大突破，生态学和分类学领域。该模型也可用于其他物种的分类鉴定。其优点是不需要为每个对象集手动提供形态学特征，机器本身将识别每个类的唯一特征集。因此，使用这种方法，在创建分类器时会有更少的开销，并且可以很容易地增加类的数量而无需进行重大修改。我们的一些结果仍然显示出变化中的纠缠。目前，该软件可以工作到组级别，但随着图像大小的增加，它可以很容易地在属/种级别进行分类。R. Singh和V. MumbarekarICT Express 8（2022）640645竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认作者在此感谢导演 D. Srinivasa Reddy ，主任， IIIMJammu，为开展工作提供设施引用[1] Paul Hebert，T. Ryan Gregory，DNA条形码对分类学的承诺，Syst。Biol. 54（5）（2005）852[2] A. Valentini，F. Pompanon，P. Taberlet，生态学家的DNA条形码，TrendsEcol. 评价24（2009）110[3] H.R. Taylor，W. E.哈里斯，一个新兴的科学在无关紧要的边缘：回顾过去8年的DNA条形码，分子。Ecol. Resour. 12（2012）377-388。[4] C.M.G. Oliveira，R.A.蒙泰罗Blok，植物寄生线虫的形态学和分子诊断：共同努力完成鉴定，Trop. 植物病理学36（2011）65[5] V. Savolainen 等人， Towards writing the Lessepaedia of Life ：AnIntroduction to DNA Barcoding，Philos. B 360（1462）（2005）1805-1811，Web.[6] Y.莱昆湾，巴西-地本焦湾，澳-地Hinton，Deep learning，Nature521（2015）436-444.[7] J. Schmidhuber，神经网络中的深度学习：概述，神经网络。61（2015）85-117。[8] M.A. Tabak，M.S. Norouzzadeh，D.W. Wolfson，S.J. Sweeney，K.C. Vercauteren ， N.P. Snow ， R.S. Miller ， Machine learning toclassifyanimal species in camera trap images ： Applications inecology，MethodsEcol. 评价10（2019）585[9] C. Szegedy，V. Vanhoucke，S.作者：J. Wojna，重新思考-ingthe inception architecture for computer vision ， 2015 ， CoRR ，abs/1512.00567.[10] G. 安德鲁，Z.霍华德·梦龙，陈波，K.Dmitry，W.卫君：T. Weyand，M. Andreetto，H. Adam，MobileNets：用于移动视觉应用的高效卷积神经网络，2017，CoRR，abs/1704.04861。[11] P. Mamoshina，A.维埃拉，E。Putin，A. Zhavoronkov，深度学习在生物医学中的应用，Mol。药剂师。13（2016）1445[12] M. Valan，K.Makon yi，A.Maki，D.Vondrácek ，F.Ronquist ，使用卷积网络的有效特征转移以专家级精度自动分类识别昆虫，系统生物学。68（2019）876-895。

下载后可阅读完整内容，剩余1页未读，立即下载