没有合适的资源?快使用搜索试试~ 我知道了~
竞争多层神经网络用于微小目标检测的深度学习
××智能系统与应用18(2023)200217基于竞争多层神经网络的网络(TOD-CMLNN)Sachin Chirgaiya*,Anand RajavatShri Vaishnav Vidyapeeth Vishwavidyalaya,印度A R T I C L EI N FO保留字:竞争多层神经网络计算机视觉微小物体检测深度学习A B标准微小目标检测是计算机视觉中的一个基本而又困难的任务。目前最先进的检测器,如RCNN,Fast RCNN,Faster RCNN,SSD和YOLO,无法使用单阶段或多阶段方法找到小物体。随着深度学习的指数增长,一些研究人员已经注意到微小物体检测方法的进步。提出了一种小目标检测竞争多层神经网络(TOD-CMLNN,Tiny ObjectDetectionCompetitive Multi-Layer Neural Network)结构,该结构由三个子组件组成:竞争多层网络、辅助TOD和多级连续特征聚合,用于精确检测小目标。目标检测的竞争学习是所提出的体系结构的基础。与现有的RCNN,Fast RCNN,Faster RCNN,SSD和YOLO的比较研究表明结果有显着改善。TOD-CMLNN在mAP方面的准确度为72.46%,与最先进的检测器相比,这是令人印象深刻的。1. 介绍边界框的完成和对象的标记根据Feng et al. (2020),建立对象所属的组,并且从输入图片标记各个项目的位置。小物体检测技术的评估对于TOD的研究是重要的,因为它可以提高自动驾驶等应用的可靠性(Huang et al.,2021),安全中的人员检测(Haziq等人,2022),农业中的动物检测(Brown等人, 2022)和医疗保健中的医学特征检测(Huang et al., 2022; Ahmed等人,2022年)。基于从重要数据库如上下文中的公共对象(COCO)(Lin等人,2014)和模式统计分析建模和计算学习(PASCAL VOC-2007)(Mark等人,2015年),目前的工作调查表明,对象检测在最近的训练研究中得到了很大的改进。根据Liu等人(2021)的研究,这些数据集通常包含占据图像中较大区域的对象,其中较小对象的数量较少,导致不同大小和形状的对象之间的数据差异以及对数量较少小或微小物体的概念是指一个物体在照片中所占的比例、大小或像素通过边界框识别微小物体可能覆盖较少占图像面积的1%以上。Kumari等人(2022)提出了一个绝对大小为16 × 16像素的(USC-GRAD-STDdb)数据集,这是一个小尺寸或小于通常在数据集中观察到的标准32×32像素TOD被定义为确定给定类别的任何微小对象是否存在于图像中的过程,并且它返回每个出现的空间位置和范围。从本质上讲,本地化和分类是TOD必须完成的两个过程。TOD中包括的七种方法是:(a)超分辨率(SR),(b)基于上下文(CB),(c)多尺度,(d)锚方法,(e)训练策略,(f)数据增强,和(g)损失函数。微小对象的分类受益于广泛的语义信息(Huang,Chen等人,2022; Huang等人,2022年)。卷积神经网络(CNN)中的深层特征和基于语义上下文的信息都有很多语义丰富的信息,这可以帮助我们将小东西分类。另一方面,如果没有大量的空间信息,就不可能找到小物体。使用浅层CNN特征和超分辨率方法,可以捕获更多关于小物体的信息,从而更容易找到小物体的位置。为了定位它,锚机制和关于它在空间中的位置的信息也非常重要(Kong等人, 2020年)。* 通讯作者。电子邮件地址:sachin. gmail.com(S. Chirgaiya),directorsviit@svvv.edu.in(A.Rajavat)。https://doi.org/10.1016/j.iswa.2023.200217接收日期:2022年9月20日;接收日期:2023年2月17日;接受日期:2023年3月21日2023年3月23日在线提供2667-3053/© 2023由Elsevier Ltd.发布这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表智能系统及其应用杂志首页:www.journals.elsevier.com/intelligent-systems-with-applicationsS. Chirgaiya和A. 拉贾瓦特智能系统与应用18(2023)20021722. 综述文献Fig. 1. TOD-CMLNN架构。通过将融合的特征与初始输入特征融合,证明了识别困难的小脸的成功除上述EXP对象识别系统通常采用鲁棒的骨干模型,如ResNet(Haque等人,2019)、沙漏(Zhao等人, 2019)和ResNeXt(Afif et al.,2020年)。Liang et al.(2018)对于颈部建模,理想情况下使用基于金字塔网络的拓扑结构。Faster-RCNN byRen et al.(2015)、Mask-RCNNbyHe et al.(2017)和Cascade-RCNN byCai et al.(2018)是过去研究过的多阶段头部模型的例子。R-CNN使用区域推荐网络(RPN)来更快地获得想法。R-CNN mask扩展了R-CNN,可以更快速地同时执行分割和检测。RetinaNet(Lin等人,2014)、SSD(Cai等人,2022)、YOLOv3(Masurekar等人,2020)和GFL(Li等人,2020)都是单级检测器表示的示例。几个层次的自底向上的特征映射被组合成一个一套网络设计。较低级别的特征被L2标准化,缩小到较高级别特征的大小,然后连接。使用双线性插值来缩放高级特征图,并且使用最大池化来缩减低级特征图。为了同时连接特征池化和去卷积,通过池化使低级特征图更小,使得它们可以与高级特征图耦合,而通过去卷积使高级特征图更大,使得它们可以与低级特征图混合。Zhu等人(2017)使用反向连接将高级语义特征数据从后面的网络层发送回前面的网络层。Zhu等人(2018)通过以下方法应用了非线性特征图修改:同时考虑到全球和本地数据。在非线性变换过程中,对特征图进行修改,生成基于局部和全局特征的新特征图,然后对各层进行更新,生成检测结果。但是这种方法存在冗余特征。Tian等人(2019)提出了一种改进的迭代特征图创建技术,以克服冗余特征创建的问题。最后的特征同样产生了列出的方法(Samangouei等人,2018)使用基于ROI的块归一化层来提供组合的底层和顶层特征,并提高了小物品识别的准确性。You等人(2022)定期遍历网络以构建特征图创建方法。Yu等人(2020)结合迭代深度聚合(IDA)和层次深度聚合(HDA)来合并地理和语义数据。虽然HDA线性地将几个CNN特征合并到一个树结构中,但IDA非线性地混合了两种不同的特征。目前的方法无法集中在语义数据的基础上的 特 征 生 成。 Zhang 等 人 ( 2019 ) 解 决 了 这 个问 题 , Brown 等 人(2022)通过使用第二个分割模块来包含额外的语义数据。Umer等人(2019)将骨干网络的特征映射传输回网络的初始阶段,以便为小项目提取更多的语义数据。 Yang等人(2019); Liu等人(2019); Li等人(2019)和Yan等人(2021)使用“编码器解码器“架构。Zoph等人(2020)提出了一种自动寻找可接受的特征金字塔设计的搜索方法,可以使人类设计过时。用于将任何两个输入特征与求和或池化操作相结合的控制器是递归神经网络(RNN)。Pang等人(2019)使用了两层特征金字塔融合程序;它为全局信息创建了一个图像金字塔,并集成了原始SSD结构层次。将前一层和当前层的特征结合起来,以提供当地的空间数据。Luo等人(2019)通过双线性上采样将较低级别的数据与周围特征相结合。Li等人(2020)提出了一种基于自动编码器和高保真照明的人脸识别系统。Bosquet等人(2021)开发了一种使用STDnet精确定位高分辨率 特 征 图 的 技 术 。郭等 人 (2020 ) 提 出 了 基 于 残 留 特征 增 强(AugFPN)的第一个建议。Adarsh等人(2020)提出的基于YOLOv3的小目标检测技术。Luo等(2021)报道S. Chirgaiya和A. 拉贾瓦特智能系统与应用18(2023)2002173图二. (a)CMLConv和(b)FMDFusion的具体结构。浅层特征融合和基于语义信息的TOD。Dai等人(2021)创建了独特的特征提取方法,称为注意力特征融合。针对交通信号灯小目标提出了注意力特征融合策略和改进的YOLO算法。Song等人(2022)和Zhang等人(2021)描述了一种多尺度注意特征融合策略,该策略采用YOLOv4来识别水面下的物品。根据Lu等人(2021),使用基于语义分割的多尺度注意力特征融合来识别对象。 Dai等人(2021)描述了一种用于精确定位小目标的注意力局部对比方法。Huang等人(2022)使用MSFF来定位内部的微小物体。Huang等人(2022)首次引入了基于语义增强的对象识别概念。Zhang等人(2022)推荐的一阶特征图和有效的整体聚合用于识别对象。Sun et al.(2022)FPN在局部和全局范围内结合了浅层和深层特征地图特征,以提供流量统计数据。Ma等人(2022)开发了用于对象识别的特征分割-合并-增强。Yang等人(2022)提出了QueryDet来改进基于特征金字塔的对象识别的推理时间,而Zeng等人(2022)引入了MSFF技术用于缺陷检测。Noh等人(2019)提出了一种基于GAN的微小目标特征增强方法,以解决目标特征弱的问题增强对象识别准确性由Chen等人提出。(2022)解决问题小东西的分布不均匀。提出了一种语义分割的度量方法,在提高小目标实例分割精度的同时,有效地增加了小目标对整体损失的贡献。这些方法试图识别小物体,但它们无法解决问题微小物体探测的能力3. 建议的体系结构本文提出的结构称为TOD-CMLNN,它从以下几个方面检测图像特征:为了同时完成小目标识别和微小物体检测,我们首先提出了两套网络框架。其次,我们结合了从各个层次获得的特征,使用竞争性多层神经网络架构作为每个网络的核心结构。最后,充分利用各卷积模块的基本单元的层特征,采用全局池化的方法确定各层的全局接受度,并发现各层对最终特征的贡献。然后,我们根据学习结果评估特征权重的标签。图1描绘了TOD-CMLNN架构。3.1. 竞争性多层特征响应第一个模块称为竞争多层网络,其中每一层都像人眼一样工作,每个特性。这提醒人们,特征地图中的各种特征层可能对微小物体的识别具有独特的影响。FLVQ提出了一种多层评估的模糊隶属度融合(FMDFusion ) 和 一 种 具 有可 比 性 的 多 层 卷积 ( CMLConv ) 。CMLConv和FMDFusion的层映射如图所示。 二、每个基本卷积单元CMLConv的核心结构是模糊自组织层。在此基础上,我们添加第二个分支,S. Chirgaiya和A. 拉贾瓦特智能系统与应用18(2023)2002174× ×WH()下一页KK(∑∑..)的情况)×Of,i=1作为模糊自组织层与累加和X′之间的权重存储空间。其中,(n)是对于具有宽度(w)和高度(h)的图像的全局池化阶段的输入no,并且生成到下一层的输入为11 n.全局特征由n个实数定义根据以下公式,从Eq.(七)、表1训练和测试数据集的类和子集列表w hW k=1∑ ∑F k(i,j),k = 1,2,.....,n(1)第k层的特征值根据坐标(i,j)由Fki,j在全局池化之后,我们添加了2个完全链接的层,以正确地捕获每个层之间的连接,以便TOD-CMLNN集中在贡献最大的层上。 添加LeakyReLU层以确保架构是非线性的,并且每层增加Oi定义为从高层特征具有与上层相同的全连通点数。从小区域产生,以融合最终的P。重量w′ 作为最后一层的输出,由聚合对应接收。融合反应重量(w)。Ok=fk×W′,k=1,2,.....,n(2)当网络中的订单模块(O)被该动作匹配时。FMDFusion部分基本布局类似于CMLConv部分除了生成相似大小的特征图外,另一个阶段为ADAPTRIX.竞争性抽样过程用于收集主成分的输入。上述CMLConv和FMDFusion与小区域检测部分中使用的基本工作相同。根据等式(1)融合技术结合多层次、多网络的特点,充分利用3.3. 多级特征第三个模块称为多层连续特征聚合模块。多层特征响应CMLConv是卷积层的基本构建块,我们在第二节中描述了它。3.1. 为了创建四个对应级别的特征映射,输入图片首先经过四个级别的CMLConv层。 在每个层次上,我们在3.1节中定义的CMLConv是特征融合模块。针对TOD区段创建的特征图由Qi指定,并且然后使用等式(1)融合。(五):O i= U。(Qi,Oi+1),2i),i=1,2,图像综合信息,提高了网络Oj=Convni=1(O1,O2,O3,O4),δi)(5)3.2. TOD辅助第二个模块被称为TOD辅助,它最大限度地提高了微小物体的复杂性,并从明确建模其特性中受益。另一方面,高级特征图通常具有广泛的接受域,并且无法专注于目标的细节。低级特征图可用于增强对象细节。因此,我们考虑到低层次的方面。经了解其中,Eq. (5)与Eqs中的相同。(3)和(4)。CMLNN用作使用卷积层和多层特征响应CMLConv的主干的主模型,这在第3.1节中介绍。在上一节中,我们看到我们的模型结合了CMLConv和FMDFusion的三个模块,每个模块都有自己的层,通过使用Qi将特征映射目标显示到每个层。目标图像。多特征融合的最终产物Z f如下在等式(1)中:(6):重要特征图Pj,我们利用相同的融合过程。采用两层CMLConv结构进行特征提取。以下是计算过程:(∑n .)的情况)Pf2=U(P1,4),Pf1=U((P1,P2),2)(三)4. 执行其中(U*,Δ)表示对特征图的竞争采样,Δ是对多层特征融合操作的竞争采样操作功。我们使用以下协调方法集成两个特征图:nP融合=ConvPf1,Pf2,δi(4)i=1其中Conv代表在特征图上执行的逐层卷积过程。参数δi使用卷积层进行训练。我们模仿以前的信息在传统的技术和提高小区域的权重,以有效地检索小目标的微小物体。现在,为了突出微小区域的重要性以接收最终的P融合,我们采用高级特征图作为先前的图。通过应用从前几层接收的先验知识,从小目标中提取微小目标在此阶段,小区域的权重逐渐增加,4.1. 环境在训练阶段,我们使用MSCOCO数据集作为训练集。该系列包含15,000张高质量的微小物体照片,这些照片被注释到piX el级别。我们进一步从PASCAL数据集中随机选择了7000张图像来扩展我们的训练集。在训练阶段不使用验证集。我们需要扩展数据集,因为我们的训练使用了原始的地面实况地图和很少的目标监督。使用Labelme工具,我们在地面实况地图的目标上执行边界框我们只剩下11,000张照片,在PIXEL级别上几乎没有对象注释对于我们的实现,我们使用PyTorch深度学习框架。相同的环境和GPU用于训练和测试目的:Ubuntu 18.04.4 LTS,3.10 GHz CPU,Tesla P100 GPU,16 GB RAM。i=1j=1Zf=Conv数据集子集类图像对象PascalPASCAL VOC_0515329529PASCAL VOC_102022315893PASCAL VOC_201829707867PASCAL VOC_252010702313CocoCOCO_0515587529COCO_102021896571COCO_201830294589COCO_252035002803TodTOD_515372890TOD_102018702314TOD_201822953200TOD_252030716489(六S. Chirgaiya和A. 拉贾瓦特智能系统与应用18(2023)2002175()=()=()-=r表2子类对象的精度。方法骨干杯板电话。遥控时钟瓶锅罐T。博X地图YOLO暗网-19 21.95 37.85 4.6560.7528.65 12.45 18.75 9.15 36.35 23.5229.35 37.65 3.7561.1533.65 13.85 23.95 10.05 27.45 25.01暗网-53 30.22 48.8 12.2861.44 44 16.62 31.38 16.1 49.05 31.2731.73 49.54 12.2166.83 48.8718.84 31.87 15.57 47.31 34.09ResNet-50 25.53 38.3 1.8555.1819.22 14.5 20.43 10.79 36.43 23.1828.67 42.3 3.2262.8130.03 15.79 20.89 11.04 36.76 26.492019年10月17日星期一上午10:00-下午11:0030.54 46.24 10.8763.1334.19 16.28 24.53 14.19 39.922019年12月15日星期一2019年12月15日星期一2019年12月15日星期一2019年12月15日星期一27.76 46.19 661.9532.61 13.77 23.32 13.3 40.74 27.57SSDResNet-101 7.25 10.75 1.45 26.45 6.95 5.25 0.65 5.45 18.95 9.24VGG16 10.85 18.75 1.45 27.05 9.95 9.85 0.65 5.45 17.45 10.15VGG16 10.85 18.75 1.45 43.95 9.95 9.85 9.75 10.05 8.35 12.31SPP ResNet-50-FPN 32.45 50.95 3.4566.4522.15 16.85 9.15 13.85 26.45 24.29ResNet-101-FPN 32.35 50.35 8.5565.6520.85 16.65 12.45 11.65 39.45 26.09ResNeXT-101-32 8d-FPN37.25 56.65 13.55 67.4524.7519.15 10.4517.15 54.4530.99R-CNN RPN prop. +VGG16 33.65 32.95 5.6557.7531.95 10.05 14.85 17.35 30.15 25.79Alexnet,7,300亲34.15 28.85 6.5557.8528.85 10.55 14.25 13.35 36.35 24.89VGG16,7,300亲39.05 31.95 8.6561.5542.35 16.55 22.15 14.65 34.05 29.39ContextNet Alexnet,7)34.45 28.45 6.0557.3527.15 10.65 13.55 13.15 34.75 24.494.2. 数据集在三个广泛使用的基准数据集上,我们在定性和定量层面上评估了现有的方法及其结果。MSCOCO数据集中的15,000张复杂图像中的每一张都包含各种各样的小项目。从PASCAL VOC数据集,1000张自然图片组成PASCAL数据集。也来自于TOD数据集。使用三个不同性质、不同规模、不同领域的数据集对TOD-CMLNN进行了测试。表1显示了不同版本的数据集,包括其来源。4.3. 算法通过下面的伪代码对开发过程进行了更形式化的描述:对于每个对象,将其提交给TOD-CMLNN进行识别;//初始化参数以调用TOD-CMLNN第一步:建立一个具有多融合竞争层的神经网络,并将所用层//为向量生成步骤2:将对象向量v呈现给层r的输入,其中Trint[0,1];//FLVQ用于神经元评估步骤3:在数据集X上应用FLVQ并评估每个神经元i(i= 1,.,sr)的当前层;//在此步骤中,对象求值完成步骤4:评估对象o对当前层神经元所代表的//实现阈值调整以用于最终目标检测步骤5:通过Tr-1+(r-1)δri(ork)调整Tr;//多级特征融合的最终聚合在这一步完成。步骤6:评估标签Lr(o);//用于Pfusion的TOD辅助模块第七步:-* 最终标号为L(o)=Lr(o);–* 增量r(r =r +1);* 评估drmaxmax dr1,max,max drll1,* 如果层r是最后一层:* L o arg dr,max;* 否则:* 转到步骤3;//接收到最终输出第8步:返回L(o)。Fast RCNNResNet-50-C434.1547.957.9566.7539.1520.8525.9517.5552.7532.69ResNet-50-FPN39.1548.958.7569.8547.5521.7532.7518.0546.6534.29ResNet-101-FPN41.0551.9512.0569.2547.9521.1533.9519.5552.1536.49ResNeXT-101-32 8d-FPN49.2556.4511.7572.7554.8522.1535.0522.6554.2539.69Faster R-CNNVGG1625.5139.39.4854.9517.0112.6315.7710.0538.0422.91ResNet-50-FPN37.4551.558.7569.3549.7519.5530.2515.6554.0534.79ResNet-101-FPN41.5550.856.3569.1547.8519.2530.3514.9552.9534.69ResNeXT-101-32 8d-FPN51.5558.2512.8573.0557.1523.9537.6521.7559.4541.49TOD-CMLNNCMLNN49.5442.2866.8348.8758.8431.8726.149.0534.0945.27CMLNN10.8518.7511.4543.959.959.859.7510.0518.9515.95CMLNN37.2556.6513.5567.4524.7519.1512.4517.1554.4533.65CMLNN39.0532.958.6561.5542.3516.5522.1517.3536.3530.772CMLNN49.2556.4512.0572.7554.8522.1535.0522.6554.2542.161CMLNN51.5558.2512.8573.0557.1523.9537.6522.6559.4544.061CMLNN65.5258.7568.8175.0564.0551.8787.7579.0569.3072.46S. Chirgaiya和A. 拉贾瓦特智能系统与应用18(2023)2002176∑表3图三. mAP亚类的比较结果。特别是对于小物体的检测,即(遥控器,笔,杯子和具有F1的P-R曲线和ROC曲线的AUC。与YOLO和Faster R-CNN相比,TOD-CMLNN有很大的改进。在远程类别中,得分低于Faster R-CNN,S.号方法F1-测量AUC F1-测量AUC F1-测量AUC然而,它在其他类别中高于Fast R-CNN。结果见表3。 和图 3表明TOD-CMLNN具有良好的检测性能1.电话:+86-021 - 8888888传真:+86-021 - 888888882.R-CNN 0.889 0.969 0.914 0.967 0.922 0.9643.更快R-0.911 0.974 0.921 0.970 0.927 0.973性能,特别是对于微小物体。4.4.1. 损失函数CNN4.快速R-CNN0.908 0.951 0.930 0.971 0.940 0.966网络的前半部分初始值的主要参数5.0.900 0.972 0.931 0.976 0.933 0.9756.0.973 0.839 0.839 0.931使用交叉熵损失函数,我们计算损失的差异在特征图和真相图之间。 的计算7.TOD-0.903 0.956 0.928 0.972 0.942交叉熵损失函数和SoftMax函数如下:CMLNN如Eq. (十三):4.4. 结果除了TOD-CMLNN,其他方法如YOLO,SSD,SPP,esii=es1 +es2D(十三)R-CNN、Fast RCNN和Faster R-CNN在相同的环境和GPU中测试。根据精密度结果显示,评价结果一致。根据表2,多阶段方法的表现优于单阶段方法,准确度约为8具有相同主干的Faster R-CNN的多阶段方法获得了最高的mAP。在TOD-CMLNN中,接收到的mAP也是意义上有显著变化的微小对象数据集。通过对具有相同主干的Fast RCNN进行轻微升级,Faster RCNN表现良好,仅比ResNeXT主干的Fast RCNN强1-2%,其余部分与Fast RCNN相似。Fast RCNN的准确率从16.7%到39.05%不等。更快的RCNN,收益在30.1% 到 41.2% 之 间 。 然 而 , YOLO 在 一 阶 段 方 法 中 优 于 SSD 和RetinaNet。另一方面,YOLO得分最高,为34.1分,而SSD和SPP分别获得10.15%。一般而言,该数据集上的所有mAP比较结果显示大量组占主导地位,这是由于图像和实例之间的数据不平衡。虽然TOD-CMLNN的准确性优于其他方法,但它的准确性确实不同。图3表明,微小的物体有更多的选择。微小的物体可能出现在图片中的任何地方,导致检测器经常对可识别的外观进行错误检 测 , 如图3.第三章。CEloss(L ω)= -x i log(E i)i= 1其中si代表通过维向量(D)并且基础真值由值xi表示。D代表2,是权重相关分量,用于区分背景和前景。该网络从我们那里获得了40个培训期。当使用随机梯度下降优化方法训练网络时,将条件设置为0.9,并且在每五个时期之后,我们将学习率降低50%损失,权重减少0.00005。TOD-CMLNN在我们的PC上可以达到 12 fps4.4.2. 评估指标工作的评估是通过考虑受试者工作特征(ROC)作为曲线下的面积(AUC)和主要精度(P)和召回率(R)通过(P-R)曲线来实现的,最后,我们观察了用于评估TOD-CMLNN有效性的五个常用指标下的F-测量。我们根据预定义的阈值构建了一个特征图,并将其与地面实况进行了比较。F测量值的计算方法如等式(1)所示。(13 a):从图3中可以看出,YOLO、SSD、SPP、R-CNN、Fast RCNN、Faster R-CNN中的每一种都可以提高检测精度,但TOD-CMLNN精确度(P)×召回率(R)精确度(P)+召回率(R)(13a)在mAP方面取得领先的表现,YOLO位居第二。 从图3中可以看出,在PASCAL VOC 2007测试集上检测某些项目的各种方法的有效性,TOD-CMLNN对9种不同对象类别的mAP通常是最好的。我们在不同的定义阈值下可视化P-R和F-测量,并且还从下面的等式获得真阳性率(TPR)和假阳性率(FPR)。(14).EF=2 ×S. Chirgaiya和A. 拉贾瓦特智能系统与应用18(2023)2002177见图4。 (a)MSCOCO(b)PASCAL(c)TOD的P-R曲线图五、( a)MSCOCO(b)PASCAL(c)TOD的ROC曲线。图六、在图像MSCOCO中,大对象的 外观与占 用 非常小的 外观。图7.第一次会议。 实际微小物体的外观微小取自PASCAL和TOD。S. Chirgaiya和A. 拉贾瓦特智能系统与应用18(2023)2002178TPR= |FM F1|,FPR = |FM-2000|(十四)基于生成的原型的训练集拟议的TOD-GTGT-CMLNN被证明是强大的微小目标检测任务的应用,公知基准数据集上的阳离子结果结果还其中特征图被定义为FM,GT用于地面实况,GT-是否定GT5. 不同方法我们的分析将TOD-CMLNN与其他七个进行了比较。图4显示了一些数据集的P-R曲线,图5显示了ROC。使用这三个数据集,我们比较了模型5.1. 定量比较下面是P-R和ROC曲线,上面提到的三个广泛使用的数据集的值,以及相关实验的结果。表3显示了F1测量的感兴趣的(P-R)曲线的定量结果,以及MSCOCO、PASCAL和TOD的ROC曲线的AUC。5.2. 定性比较图图6和图7比较了TOD-CMLNN与各种情况下的替代检测技术的有效性。我们的图像来自上述数据集。一个快速的比较表明,我们的方法是更有效地细化将被测试的小目标,因为它明确地建模的小物体的形状。此外,成功地实现了小目标的总体一致性。6. 讨论使用模拟数据,TOD-CMLNN的效率进行了测量。为了强调TOD-CMLNN的性能,我们将其与更标准的YOLO和Faster R-CNN进行了该模型现在具有更高的查全率、查准率和每秒帧数(fps),即0.91、0.93和53,表明它在检测方面更可靠和有效。如果损耗较低,则该设计在映射所提供的输入和所需输出之间的连接方面我们的平均损失从最初的YOLO下降了0.07倍召回率是检测器找到所有阳性案例的程度与YOLO相比,我们的召回率增加了1%,导致召回率为93%,而原始设计为90%。我们的主要目标是提高mAP平均精度和召回率。由于较高的查全率表明检测器可以找到所有阳性案例,因此可以合理地假设更好的检测器将找到所有阳性案例。增加FPS将加快检测速度,因为检测器可以更快地处理输入针对所有类别确定的AP的平均值值mAP@0.5表示它是在IOU阈值0.5下计算的。FPS受许多变量的影响,包括输入大小、处理能力和图片质量。该模型使用较小的输入大小进行训练以提高FPS,然而,尽管我们增加了FPS,但召回率下降了。我们准确性和F1分数随着回忆的下降而增长,因为有一个典型的在精确度和召回率之间存在一个权衡7. 结论深度学习的发展鼓励研究人员专注于提高计算机视觉任务的效率,其中一个引起他们注意的任务是检测极小的物体。本文提出了一种具有自动定义层和神经元的TOD-CMLNN。找到训练算法的最佳参数很容易。所提出的TOD-CMLNN的每一层都是一个经过FLVQ训练的竞争神经网络。在演示如何简单地找到其训练算法的最佳设置。尽管最近的技术进步使我们发现物体的能力有了显著的提高,但是在发现大物体和小物体的能力上仍然存在很大的差异。未来,我们可以使用额外的标准算法和数据集来测试所开发的算法在各种不同任务中的鲁棒性,这些任务包括检测微小物体,以及图像字幕和视觉问答。信贷作者声明两位作者都有同样的功劳。竞争利益我们声明,我们与其他人或组织没有任何可能不适当地影响我们工作的财务和个人关系。数据可用性文章中描述的研究未使用任何数据引用Adarsh,P.,Rathi,P.,&库马尔,M。(2020年)。YOLO v3-Tiny:使用一阶段改进模型的对象检测和识别。2020年第六届先进计算和通信系统国际会议(ICACCS)。687-694)。美国电气与电子工程师协会。Afif,M.,Ayachi河,说,Y.,PissalouX,E.,&阿特里,M。 (2020年)。retinanet应用于盲人及视障者室内目标侦测辅助导航之评估。Neural Processing Letters,51(3),2265-2279.艾哈迈德岛,Jeon,G.,&Chehri,A.(2022年)。一个物联网智能医疗系统,用于筛查COVID-19,具有多层功能融合和选择。计算机,1-18。Bosquet,B.,Mucientes,M.,&Brea,V. M.(2021年)。STDnet-ST:用于小物体检测的时空ConvNet。 模式识别,116,第107929条。布 朗 , J. , Jiao , Y. , 中 国 科 学 院 , 克 拉 克 角 Lomax , S. , Rafique , K. ,&Sukkarieh,S.(2022年)。空间分辨率条件变化时的自动空中动物检测。农业计算机和电子,193,第106689条。蔡志,&Vasconcelos,N.(2018年)。Cascade r-cnn:深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议论文集(pp. 6154-6162)。蔡杰,Makita,Y.,郑宇,高桥,S.,郝,W.,&Nakatoh,Y.(2022年)。单次拍摄多波X射线探测器蜜蜂检测。计算机和电气工程,104,第108465条。陈玉,张,P.,Kong,T.,李,Y.,张,X.,齐,L.,孙,J.,&Jia,J.(2022).具有动态训练的目标检测尺度感知自动增强 IEEETransactions on Pattern Analysisand Machine Intelligence,1。https://doi.org/10.1109/http://www.example.com戴,Y.,Gieseke,F.,Oehmcke,S.,吴,Y.,&巴纳德湾(2021年)。注意力特征融合。在IEEE/CVF计算机视觉应用冬季会议上, 3560-3569)。冯,Y.,王,X.,Xin,Y.,张,B.,刘杰,Mao,M.,… (2020年)。微小目标检测中有效的特征增强和模型集成策略。 在欧洲计算机视觉会议上(pp。324-330)。史普林格Guo,C.,中国农业科学院,范湾,英-地张,Q,Xiang,S.,中国科学院,&潘角,澳-地(2020年)。Augfpn:改进用于对象检测的多尺度特征学习。在IEEE/CVF计算机视觉和模式识别会议上, 12595-12604)。哈克,M。F.、Lim,H.是的,&康氏D. S.(2019年)。基于VGG和ResNet网络的目标检测。2019年国际电子、信息和通信会议(ICEIC)第1-3段)。美国电气与电子工程师协会。Haziq,M.一、&阿卜杜拉河(2022年)。基于物联网的智能住宅安全系统。JournalofApplied Technology and Innovation(e-ISSN:2600-7304),6(1),18.他,K., Gkio X ari,G., Dol la'r,P.,吉&希克河(2017年)。 屏蔽r-CNN。InProceedingsoftheIEEE International Conference on Computer Vision(IEEE国际计算机视觉会议) 2961-2969)。黄湖,加-地陈春,Yun,J.,Sun,Y.,田,J.,郝,Z.,余,H.,&Ma,H.(2022年)。多尺度特征融合卷积神经网络室内小目标检测。神经机器人学的前沿,16。https://doi.org/10.3389/fnbot.2022.881021黄湖,加-地Dai,S.,&他,Z。(2022年)。结合语义增强和语义原型对比学习的少镜头目标检测。知识系统,252,第109411条。https://doi.org/10.1016/j.knosys.2022.109411S. Chirgaiya和A. 拉贾瓦特智能系统与应用18(2023)2002179++Huang,S.,(1996年),中国科学院,他,Y.,&Chen,X. A.(2021年)。M-YOLO:结合Mobilenet v2和YOLO v3的夜间车辆检测方法。1883年物理学杂志:会议系列。IOP出版,文章012094。Kong,T.,孙,F.,刘洪,江,Y.,Li,L.,&Shi,J.(2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功