扰动熵：简单有效的数据质量评价方法

150 浏览量更新于2023-12-09 收藏 457KB PDF 举报

在线获取

神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectICTExpress 8（2022）309www.elsevier.com/locate/icte扰动熵：一种简单的数据质量评价方法杨莉a，b，赵学伟a，刘晓波，塞宰·尔齐斯利ca石河子大学机电工程学院，中国石河子b中国天津天津大学电气与信息工程学院c土耳其埃尔祖鲁姆阿塔图尔克大学农学院园艺系接收日期：2021年12月22日;接收日期：2022年1月10日;接受日期：2022年1月13日2022年1月25日在线提供摘要从信息价值的角度出发，提出了一种简单有效的数据质量评价方法--扰动熵。具体地，考虑到图像分类任务，每个类别的现有样本被统计地表示为像素原型，用来干扰看不见的样本。然后，基于预测概率计算扰动图像的熵。无论是数字并进行了视觉实验以显示效果。在数据预算相同的情况下，基于所选货物的性能比较而坏数据是重要的和一致的。这项工作试图深入了解数据质量和冗余。版权所有2022作者。出版社：Elsevier B.V.代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：神经网络;数据中心计算;信息熵1. 介绍如今，人工智能（AI）技术发展迅速，并在各个领域[1农业、工业和商业。众所周知，深度学习目前是AI驱动应用的主要实现方式，其严重依赖于大量数据。然而，为各种应用收集大量数据变得昂贵，甚至不可能。在某些特定情况下，只有很少的数据，例如，军事场景、罕见疾病和濒危物种。因此，最近出现了少量学习方法[6尽管少样本学习正在努力减少数据需求，但其目前的研究重点主要集中在模型水平[12，13]，很少关注数据质量。具体地说，现有的少数拍摄作品是基于从预先准备的数据集中随机选择的少数样本进行的。但从我们的观点来看，*通讯作者。电子邮件地址：liyang328@shzu.edu.cn（Y.Li），sherry_chao@shzu.edu.cn（X.Chao），sercisli@gmail.com（S.Ercisli）。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2022.01.006从好的和少的数据中进行有效的学习更有意义，这可能是实现可持续机器学习的一种方式。为了识别好的和坏的数据，需要进行质量评估相关的研究。在现有文献中，除了少数研究集中在面向任务的数据质量评估[14然而，考虑到人工智能驱动的图像分类任务的性能，很明显，只有视觉或像素评估是远远不够的。需要关注数据质量的新视角。在本文中，农作物害虫数据集包括六个类，采用了每个类的现有样本在统计上表示为像素原型，然后用看不见的数据。然后，将受干扰图像输入模型，计算预测概率的熵，称为受干扰熵，作为数据质量得分。分数越高，信息贡献越大。数值实验和可视化实验结果均表明，该方法能够从信息价值的角度区分好数据和坏数据。因此，本研究可以指导数据收集和高质量数据集的建立，即在保持模型性能的同时减少数据冗余2405-9595/© 2022作者。由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。Y. Li，X.Chao和S.埃尔奇斯利ICT Express 8（2022）309310表1数值实验结果。准确度（%）第一组第二组第三组高d-e低d-e高低d-e d-e高d-e低d-e基本数据82.682.670.870.870.170.1加入1088.384.378.376.373.272.6加入2088.684.583.483.679.173.4加入3091.184.590.886.189.674.4加入4091.485.591.886.790.685.2加入5092.385.892.187.991.885.3Fig. 1. 扰动熵方法的工作流程。2. 材料方法2.1. 农作物病虫害数据集以农作物病虫害识别为例，这是智慧农业中必不可少的分类任务。所使用的农作物害虫图像数据集由六类组成，每类1000幅图像，统一大小为224*224*3。为了进行数据质量评估，将数据集分为基本集、池集和测试集。详细地，基本集合是指现有数据，即，在这项工作中，每类50个样本;池集代表等待评估的未见过的数据，即，在这项研究中，每个类750个样本;测试集包括每个类200个样本，以测试模型具体而言，数据质量评估工作是在池集上进行的。选择的好的和坏的数据将被添加到基集中。此外，分类模型将基于更新的基集再次训练，并在测试集上进行测试。2.2. 扰动熵法在本节中，我们提出了一种新颖而简单的数据质量评估方法，称为干扰熵，其工作流程如图所示。1.一、总的来说，工作流可以被看作是一个循环选择。首先，对基集中每个类别的样本进行平均以形成代表统计表示的像素原型。第二，池集合中的不可见样本受到以下干扰：对像素原型进行等权融合，生成扰动第三，将扰动图像馈送到模型，例如，ResNet-18，根据预测概率分布计算信息熵。然后，根据计算出的干扰熵较大的情况，选取未知样本加入到基础数据中。最后，通过添加选择的好数据来更新基础数据，并用于重新训练模型;进一步，通过测试数据来验证基于选择的数据添加的模型性能的改善3. 结果3.1. 数值实验结果实验基于GPU（NVIDIA TITAN Xp）硬件和具有TensorFlow、Keras和Numpy库的XNUYTER Notebook软件进行。基础数据用于训练初始模型并提供基线精度。值得注意的是，数据集的不同分割将产生不同的基础数据，因此将存在不同的基线精度，这也反映了数据质量的重要性。为了验证所提出的扰动熵方法的正确性，我们进行了三组对比实验。特别是，数据集的分裂在三个组中不同，因此基线精度不同。然后，根据干扰熵的高低，选择数据加入到基集中。最后，通过固定测试集对精度进行了评估，数值实验结果如表1所示，其中符号熵在表1中，每一行都是通过将前一行加10来迭代的具体来说，实验结果表明，所提出的扰动熵方法可以有效地区分好数据和坏数据。这里，好数据指的是具有高干扰熵的数据，其对任务的贡献更大。三组实验的趋势基本一致，高干扰熵样本的加入显著提高了测试性能。但是，那些被选中的低干扰熵数据不能像预期的那样工作，称为坏数据。因此，在人工智能驱动的图像分类任务中，干扰熵可以被视为一种可靠和有效的数据质量评估指标。3.2. 目视实验结果在特征空间中根据高、低扰动熵对选取的数据进行比较和可视化，直观地显示了不同数据质量的样本分布情况。特征维数为2，如果大于2，则需要进行额外的降维工作.具有高干扰熵和低干扰熵的所选数据的特征可视化在图1和图2中示出。分别为2和3在图2中，具有不同颜色的点表示不同类别的基础数据。与此同时，Y. Li，X.Chao和S.埃尔奇斯利ICT Express 8（2022）309311图二、高扰动熵样本的可视化。图3.第三章。低扰动熵样本的可视化。具有不同颜色是指根据不同类别中的高干扰熵选择样本。结果表明，所选数据位于所有类别的中心区域，与模型的决策边界重叠因此，这些选定的良好数据应具有很大的不确定性，即，信息熵的概念，这对于提高模型的性能和补充知识是非常有帮助的图3中的符号与图2中的符号相同，即，不同颜色的点表示不同类别的基础数据。而不同颜色的五角星则是根据低扰动熵选取的样本。结果表明，所选数据几乎与现有的基础数据重叠。事实上，这类样本并不能为改进模型的性能和补充知识提供有用的信息因此，从信息价值的角度来看，具有低干扰熵的样本可以被视为坏数据。4. 讨论我们从两个方面讨论这项研究：解释的有效性的扰动熵方法和限制在目前的工作。4.1. 解释数据质量评估是数据驱动智能应用的关键和必要条件。大量冗余、低质量的数据不仅增加了数据采集和传输的成本，而且无助于任务性能的提高。所提出的干扰熵方法旨在从其与现有数据的融合干扰中评估新样本，即，pixel prototype在这个工作中如果扰动后的熵更高，则意味着神经网络并不依赖于从这个样本中学习到的知识。也就是说，该样本仍有信息需要进一步探索和学习，因此属于中部地区，所有类别。一个直观的解释是，模型不能自信地知道它属于哪个类别，因此它被认为是很好的数据，可以为当前的图像识别任务补充知识。通过添加这些样品，性能将得到显著改善，参见图2和表1。但是，如果新数据受到像素原型的则融合后的图像具有低信息熵，这意味着新数据不能带来太多新信息，即，部署的模式对它已经非常熟悉，因此它的扰动变化也可以很好地识别。因此，这类数据应该落在每个类别中的重叠区域中，被视为冗余数据。添加冗余数据的增加无助于性能的提高，而且增加了数据采集和标注的成本，参见图。 3和表1。4.2. 限制目前的研究采用像素原型作为现有基础数据的统计表示。然而，在其他情况下，这种表示可能有点粗糙。因此，探索更多其他形式的潜在统计表示，比较和讨论与像素原型的差异将是有趣的。此外，本研究以多类图像识别为例，但人工智能任务有许多其他分支，进一步考虑其他人工智能任务并验证或改进所提出的扰动熵方法将是有意义的。5. 结论在这项工作中，我们提出了一个简单的数据质量评估方法，在信息值水平，称为干扰熵，区分好与坏的数据。与现有的视觉质量评估研究不同，这项工作旨在提高人工智能驱动的图像分类任务的性能。针对不同的数据集分割情况，进行了三组实验，验证了算法的有效性和鲁棒性。结果表明，该方法具有较好的识别能力数据质量评估，即，扰动熵与贡献正相关。具体地说，所选择的好数据具有高干扰熵，位于中心位置，Y. Li，X.Chao和S.埃尔奇斯利ICT Express 8（2022）309312地区因此，本文的工作可以为后续的数据质量评估和数据集优化研究工作提供一定的启示，也为追求好数据的实际应用做出了积极的尝试。CRediT作者贡献声明杨力：参与了构思和设计研究。赵学伟：主持实验，撰写原稿。Sezai Ercisli：进行数据分析，修订手稿。竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢本工作得到了国家自然科学基金（No.32101612）和新疆生产建设兵团重大科技项目（No.2021AA006）的所有作者均阅读并批准了最终手稿。引用[1] 不适用Okafor，Y. Alghorani，D.T. Delaney，使用数据融合和机器学习方法改善环境监测网络中低成本物联网传感器的数据质量，ICT Express 6（3）（2020）220-228。[2] L.傅，Y。Feng，J. Wu，et al.，基于改进YOLOv 3-tiny模型的果园猕猴桃快速准确检测。22（3）（2021）754-776.[3] Y. Li，X. Chao，基于人工神经网络的农业连续分类，农业10（5）（2020）178。[4] J. Yang，S. Xiao、肖氏A. Li等人，MSTA-Net：基于多尺度自纹理注意的伪造检测方法。Circ. 系统维德31（2021年）。[5] B.W. Dionova，M.N. Mohammed，S. Al-Zubaidi等人，使用模糊推理系统进行环境室内空气质量评估，ICTExpress 6（3）（2020）185-194。[6] Y.杨，Z. Zhang，W. Mao等人，基于小样本学习的雷达目标识别，多媒体系统。27（2021）1[7] Y.李俊，杨建，棉花害虫识别与终端实现，计算机辅助设计。电子学。农业169（2020）105240.[8] Y. Li ， J. Yang ， Meta-learning baselines and database for few-shotclassification in agriculture ， Comput. 电子农业 182 （ 2021 ）106055.[9] J. Ma，S.H. Fong，Y. Luo等人，少次学习创建了从高通量筛选转化而来的药物反应预测模型对个别病人来说纳特癌症2（2021）233[10] Y. Li，X. Chao，半监督少拍学习方法用于植物病害识别，植物方法17（1）（2021）1-10。[11] X.曹湖，加-地张，基于数据增强的少镜头不平衡分类，多媒体系统。27（2021）1[12] Y.王，英-地姚，J.T. Kwok等人，从几个例子中概括：关于少数学习的调查，ACM Comput。监视器53（3）（2020）1-34。[13] Y. Li，J. Nie，X. Chao，我们真的需要深度CNN来识别植物病害吗？Comput. 电子学。农业178（2020）105803.[14] Y.李俊，杨俊，温俊，基于熵的冗余分析与信息筛选，Digit。Commun. 网络7（2021年）。[15] Y. Li ， X. Chao ， Toward sustainability ： Trade-off between dataqualityand quantity in crop pest recognition ， Front 。植物科学 12（2021）811241.[16] Y. Li，X. Chao，距离熵：选择信息数据的有效指标，Front。植物科学1（2022）818895。[17] K.沈，J.杨，W. Lu等人，MaD-DLS：图像质量评价的深度和局部相似性的平均值和偏差，IEEE T。多媒体22（2020）.[18] J. Yang，Z. Bian，J. Liu，B.姜，W. Lu、X. Gao，H.宋，基于视觉边缘模型和AdaBoosting神经网络的屏幕内容图像无参考质量评估，IEEE图像处理。30（2021）6801-6814。[19] Y. Zhao，J. Yang，Y.沈，物联网背景下的立体视频质量评估，IEEE Consum。电动M. 10（2021）。[20] J. Yang，Y. Zhao，B.姜，W. Lu、X.高，基于时空纹理的立体视频无参考质量评价，IEEET。多媒体22（10）（2019）2635[21] K.沈，J.杨，W. Lu等人，基于双目语义和质量通道的盲立体图像质量评价器，IEEE T. 多媒体23（2021）.

下载后可阅读完整内容，剩余1页未读，立即下载