没有合适的资源?快使用搜索试试~ 我知道了~
Intelligent 智能Systems 系统同Applications 17( 2023 年 )200172咨询operational 操作精确 度of基于 CNN image 图像班级 Finers using 使用年 OracleSubrogate安东尼奥扇区a,∗,迈克尔R . Lyu b,Roberto Pietrantuo a,Stefano俄罗斯aa那不勒斯 腓特烈 二世 大学 University of Napoli Federico II Italyb The Chinese University of Hong Kong 香港 中文 大学 香港KongA R T I Cl Ei n n n n F oA B S R R A C TKeywords:Image class 文件 系统Learning 学习神经 网络 准确 性Convolutional Neural NetworksAccuracy评估Oracle 的问题context:根据机器学习(ML)系统对任意(未绑定)输入的图像类定义的精确度进行评估。此 分类 上 一篇 :This is two to the Oracle 的 问题因为 它 影响 了 自动 判断 的 能力 , 所以 当 没有 机器 可读 时 , 它 会 影响 评估 的 准确 性 。系统 .Objective :我们 建议 The图像 分类 Oracle Surrogate ICOS : 自动 评估 准确 性 的 技术以operation of image 图像班级 Finers based 基础on常规 型神经Networks( CNNs ) 。Method:To establish whether the class defication of an arbitrary image is correct or not,ICOS leverages threeknowledge sources:operational input data,training data,and the ML algorithm(ICOS知识源:操作输入数据,训练数据和机器学习算法)。知识是通过表达的5.不变量—properties which should not be violated bycorrect classitions.如果你不应该被正确的类所侵犯。Icos Infors and Filters Invariants to improve the correctdetection of discrimination of disc相信相信的错误的检测,减少错误的数量。We evaluate ICOS experimentallyon twelve CNNs using the popular MNIST,CIFAR 10,CIFAR 100,and ImageNet(使用人口MNIST,CIFAR100,and ImageNet)datasets。 we比较it to two Alternative 替代战略 性 ,namely 名字交叉 引用And自我 检查 。结果 :E X实验 结果 显示 , ICOS 表现 优于 其他 策略 在 术语准确 、Showing 介绍higher稳定 性over a变量ofCNN And Datasets同在 splier Complexity 的And size .Conclusions: ICOS likely invariants are shown to be e in automatically detecting magnola defications by CNNsused in image class defication tasks when the expected 产 出 是 未 知 的 ; ICOS ultimately yields faithfulassessments of their accuracy in operation. ICOS预期输出是未知的,自动检测到CNNs的magnifications定义。Knowledge about data input can also be manually incorated into ICOS 数据 输入 可以 手动 合并 到 ICOS 中 ,toincrease坚固 性Against Unexpected 未 预期phenomena以operation ,像label 标签Shift |1. introduction介绍机器学习(ML)系统是今天整体部分的多个ap—plications 2到他们的 能 力 , 以 reaching the same level or of even outperforming humanbeings(Kühl et al.)2020他 et al ,2015关于 Silveret al.,2017 formany tasks , like in the image class defication ( IC ) domain . ( 很多任务 , 就 像 图像 类 的 定义 一样 )机器学习系统是“is a softwaresystem including one or more components that learn how to perform atask from a given data set”(软件系统包含了一个或更多的组件,学习如何执行一项任务)。2020).学习组件是基于ML模型。The mainperformance indicator of such models是成功的主要表现指标精确度namely the num—ber of correctly class defined images out of the total.(英文)把所有的图像都删掉。The Accuracy of准确的ML模型在复数因素上的中继,就像数据分析一样 The训练程序ITSELF ,And The真正 的 银过程 。◎ ◎ Corresponding作者 |1、解析函数y的最大值为(操作准确性Operational Accuracy任意大数据集(英语:Arbitrary large set of operational data(操作数据集),并依赖于模型。However , the correct labels for operational data aregenerally unknown , and the most reliable approach to de infne theground truth is still manual labeling - this is because of the well known .( However , the correct labels for operational data are generallyunknown , and the most relivable approach to do the ground truth isstill manual labeling - this is because of the well known ) ( 因为 众所周知 , 是 对 地面 的 正确 处理 标签 ) 。Oracle 的 问题( 墨菲 等 )al. ,2007).Evaluating ML—based IC systems with a large number of arbitraryin—put images without an automatic oracle—thus , by manuallychecking that each image is correctly class defined—is clearly expensive.评估基于ML—based IC系统的大型图像不在自动图像—thus范围内,通过手动检查图像正确定义—is clearly expensive.文学界有两个主要战略地址这个问题:a)sam—pling a conveniently small subset from theoperational dataset,accord—ing to a certain belief(sam—pling从操作数据集得出的方便的小子集,concord—ing to a certain belief),2.选择所有运营数据集的更多代表性样本(Selecting those samples morerepresentative of the whole operational dataset)2019( 1 ) 选 择 领导者Failing样品( 扇区 )ET al. , 2021))And then manually LA -Contents lists available 相关at scienceDirect智能 系统 与Applications日记homepage :www.journals.elsevier.com/intelligent-systems-with-applicationsE-mail 地址 :安东尼奥 · 勇士unina.it( A .扇区 ( Warrior ) ,lyu@cse.cuhk.edu.hk( M . R 。( Lyu ) ,罗伯托 . 梵蒂冈@unina.it( R 。( Pietrantuo ) ,史蒂芬 · 罗素unina.it( S 。 俄语 ) 。https://doi.org/10.1016/j.iswa.2022.200172获得28七 月2022 年 ?获得以Revised形式25 November 十一 月2022 年 ?接受24 12 月2022Available 可用online 4月20232667—3053/© 2022 The Author(s)。出版 社 : 2017 年度 第 12 届 中国 移动 通信 技术 有限 公司 (http://creativecommons.org/licenses/by-NC/4.0/).A. 扇区 ,m.r. Lyu ,R . Pietrantuo ET艾尔 。智能 系统 与 应用 17 ( 2023 )2001722beling only such inputs to get an estimate of the expected accuracy onthe whole operational dataset(仅运行数据集);(B)解释MLalgorithms和stati—tical techniques自动检测输入图像的故障是类定义的。我们对牛奶战略的工作重点,以及对未来的承诺 cost of manual标签选 择 样 本 A common approach for such a strategy is to build oraclesthrough cross—reference , like in mul—tiple implementation testing.(一种策略的通用方法是通过交叉引用来构建Oracle,就像在mul—tiple实现测试中。2018) , 则 f ?detecting class定义为多数投票的失败。The various techniques of this type of a way by which multiple modelsare derived:one can,这是一个衍生的技术,因为多个模型可以派生。4.为实例,Sirisakaokul et al.,Splicerent models on the same set,2018Pei et al. , 2017 中 间 模 式 训 练 ( Intermediate Models DuringTraining ) , 王 等人 2020).A sort of cross-referencing Oracle is also used by ( 引用 Oracle 的 一件 事 是 很 常用 的 )SelfChecker 相关1 . 深度 神经 网络 ( Deep NeuralNetworks , DNN ) 2021 英 文 名 称 : Monitors DNN Outputs andTriggers an Alarmif the internal layer features of the model areinconsistent with the definual prediction . ( 如果 模型 内部 层 特征 与定义 预测 不 一致 , 那么 e = 在 自动 化 中 检测 到 可 接受 的 虚假 比率的 故障 - - 可能 是 trickiest issue )oracles 的他们的论文题目是《关于在训练集和/或模型内部结构中编码的知识》(Single neurons or layers out)。However , in operation , well-known phenomena like ( 英 语 : However , in operation , well-known phenomena like ) ( However , in operation , well-knownphenomena like )曲名 : Draft( Tsymbal ,2004) ,Distribution Shift分配And标签 : Shift( Garg et al. )2020( 1 ) 可以 strugly 影响 模型的 准确 性 , 直到 模型 被 调用 来 操作 那些 从 他们 的 训练 中 偏离 的假设 。在 那些 案例 中 , such knowledge becomes less 并且 as asource to build年automatic Oracle ,as we show 显示以The实验 |针对 这个 问题 , 新兴 的 ML 系统 生命 周期 就 像 MLOPS&阿达里 , 2021 foresee specialized teams , volving both software andoperations engineers 。They have to ensure the correct behavior tak -ing into account the characteristics of the actual execution environmentand of the operational domain knowledge , collected during active mon- itoring and exploited to contrast the above-mentioned ( 他们 必须 正确 地 执行 环境 和 操作 域 知识 的 特性 , 收集 并 利用 积极 地 与above-mented 的 对抗 )Phenomena 。1,则cos(图像分类Oracle Surrogate(重定向自A Technique toAddress)Oracle的问题当评估基于ML的IC系统的运行准确性提供时。itconsists of an 是 Oracle 代 孕 that judges if the IC program under testcorrectly class defines an arbitrary in—put image whose label isunknown.(如果IC程序正确地测试下的类定义为输入图像,则标签未知 ) The ICOS automatic oracle aims to strong to operational changesby:i )考虑多个信息源,包括,besides the training set和the MLalgorithm,操作域知识;(二)首页〉外文书〉人文〉心理励志〉setting the knowledge in the training set more robust to changes in orderto balance the occurrence offalse 的positive 的And maximize 的The号码of true positives 。ICOS Derives A Set Of系列5.不变量representing properties that allcorrect outputs should preserve,利用所有正确的结果应该保留知识来源:• 输入 数据操作 输入 的 不变 ( 英语 : The Invariants from theoperational input ( called ) )输入 - 数据 依赖 性 不 变量( 1 )encode the operational domain knowl - edge as rules de defined bydomain experts on the input and provided to the ML model ; theresulting invariants are then automatically checked for . )强奸 。• 训练 数据:训练 数据 依赖 性 不 变量自动 将 数据 从 训练 数据 中删除 , 以便 给 ML 模型 期待 的 角色行为 者 。• 算法 ML Algorithm:algorithm dependent 不 变量获取 信息 - Actionabout 关 于 how 如 何 The OUTPUT is Computed From The mlAlgorithm 算法When any invariant is violated,ICOS labels the test export(当任何不变性被侵犯时,ICOS实验室的测试输出)Fail作者Otherwise通过. ICOS的实现在GitHub上已公开可用。1A Recent Work from Google 强调 了 需求和 重要 性of参domain 域知识 Knowledge as a Set of规则to Improvetrain1https://github.com/ICOS-OAA/ICOS.git.A. 扇区 ,m.r. Lyu ,R . Pietrantuo ET艾尔 。智能 系统 与 应用 17 ( 2023 )2001723( Choudhary ) ,2022).在与此相关工作的联机中,使用input—dependent—invariants,we integrate into ICOS the domain knowledgeto assess CNNs operational accuracy.目标 是 创造 一 个 自动 化 的 甲骨文 更多 e 意义 比 预测 准确 性 的 国家 的 最 先进 的 艺术 资产of TheCNN During The operation 。WeevaluateICOSontwelveconvolutionalneuralnetworks(CNNs),the most popular and performing基于ML的IC solutions(Sharma et al.),2011年,美国2018). 1 . 实施 例 ( 例 : _2018)and to SelfChecker ( Xiao et al. ) ( 肖 等人 ) ,2021).实验 数据 集是 MNIST ( LeCun ) &Cortes ,2010 CIFAR 100 ( Krizhevsky )2009) , 并 想象 ( Deng et al. ,2009在 IC 中 使用 widely 。 Westudy the accu - racy estimation considering the contribution of aquentierent types of invariants , the sensitivity to invariant selectioncriteria , and the ro-bustness ( ACCRAY estimation 考虑 变量 的 各种类型 , 敏感 性 来 保持 不变 的 选择 标准 , 以及 风险 评估 )of TheOracle Subrogate以出席of label 标签Shift |显示该ICOS是可以faithfully估计精确提供由CNNs在操作环境,最终表现CRO和SelfChecker。所有三种类型的不变量都有助于检测不信值,但是a finne selection of the invariant in fluu—ences the obtained results.在结果中,我们看到,通过选择更多的不变因素,正确检测到的错误增加的数量,但付出—在虚假的积极性条款中。最 后 , performanceis shown to be more robust than the baselines with respect tounexpected phenomena like label shift , with an error reduction inpresence of shift ranging of two orders . 最 后 , 性能 比 基准 更加 危险 , 尊重 没有 预期 的 现象 , 就 像 标签 移位 一样 , 存在 误差 减少在 两 个 命令 之间 快速 转换 的 瞬间of magnitude以The best Cases 。2. Related 相关WorkWe analyze related research on the operational accuracy assess—ment of ML systems , with spec reference to CNNs for image clas—sification.我们分析与操作准确性评估—ML系统的评估相关的研究,以及特定的指涉数据到图像序列CNNs。Sign research and sumort has been deduted in recent years toquality evaluation of ML systems.(IBM研究和数据统计系统最近几年对ML系统的质量评估进行了投入。2020) , yet few worksconcern the assessment of the accuracy provided in the operationalenvironment . ( 将 工作 结合 在 一起 , 对 操作 环境 中 准确 性 进行 评估 。 以事实 ,研究 员初级聚焦on testing 测试of ml sys -tems , with the main aim of exposing ( sys - ems , with the mainaim of exposing )错误 预测英文 名称 : Namely of Spotting asMany Failing Behaviors as Possible 2019, Juefei-Xu , 等 。2018张et al. , 2018 , 但 是 , 张 , 薛 , 等 。 2018 关 于 Odena&Goodfellow ,2019).输出此类型的故障—定义测试(和调试—操作)过程是一个改进的模型,具有更高的准确性。此分类上一篇:This re—Sembles What IsCalled Debug测试4.在传统的测试文字(Frankl et al.)1998). Clearly,as in the traditional清晰地,传统地Debug测试软件检测结果并不需要与操作中的准确性相关,并且无法用于操作准确性评估,因为测试数据可能不代表当前的操作上下文。本事件发生时,测试数据是gener—ated 艺 术 定 义 ( 如 相 反 的 examples generation ) 或 when they arenatural but di sign from input observed in the define. 这 是 一 个 典型的 例子 : The resulting number of exposed mispredictions and/or thecoverage achieved only an " indirect " indirect indication of the expectedaccuracy in operation , and ultimately of the with the firm that can beplaced in the system . ( 无法 预测 的 错误 和/或 覆盖 完成 只 会 导致“ 间接 ” 索引 操作 中 预期 的 准确 性 , 以及 最终 的 可能 被 放置 在 系统 中 。但是NO quantitative 数量估计is吉 芬为了估计The精确 度以operation ,two main战略are :• sampling a subset of the operational input dataset to bemanually labeled,and then use it to estimate the accuracy.对操作性输入数据集进行人工化,并将其用于预测准确性。The ideais to select 的 意思年as Much小as可能 的参of Inputs 的Fromwhich 什么年 准确And稳定 性( 注 : e.e. , 小变量 )估计is看过( 李et al. ,2019战士 , et al 。2021 Zhao et al. ,2022).这镜 子 operational 操 作 testing 测 试 为 常 规 ( Not 基 于 ML )Systems 系统穆萨 ( Musa )1996关于 Pietrantuono&俄罗斯 ,2016).• 利用 ML 算法 和 统计 技术 来 自动 化 - CallyDetect饰 Failures以operation 。 The 主 意 is to 饰 Evaluate The 英 文 名 称 :Automatically , namely to implement an oracle , so to avoidthe need of manually labeling the inputs 2020).A. 扇区 ,m.r. Lyu ,R . Pietrantuo ET艾尔 。智能 系统 与 应用 17 ( 2023 )2001724As the cost of manual labeling can be high and is not scalable,this workfocuses on the second solution,which also allows an online evaluation(当手工标签的成本高且无法扩展时,这一工作就实现了第二次解决方案,而这一切都是在线评估)of the operational accuracy操作准确性。首页 > 外 文书 > 青 少年 文学 > 小说 > The Rest of the SectionFocuses on the Liter : ature on automatedoracles 的Automated Oracle 自动 化本文 标题 : 《 中国 IT 产业 发展 史 上 的一 个 难题 》 ( The Oracle Problem in ML Testing is one of the mainchallenges tackled by researchers Zhang et al. )2022).提案 ( OftenThe Proposed )解决 方案are饰 Tailored为 ,或at Least Evaluated 的on ,image 图像类 - 确定 。A common strategy to build an automatic oracle is to use(建立自动化甲骨文的共同战略正在发挥作用)Cross ref—erencing交叉参考如:such as multiple—explementation testing ( MIT ) ( Srisakaokul etal.),2018).麻省理工学院是由Srisakaokul等人提议测试监督学习—软件。A test input's pro测试输入X y oracle is derived from the majority—voted out of multiple implementations of the same algorithm.(y oracle isderived from the majority—voted out of multiple implementation of thesame algorithm),是从大量算法衍生出来的。多个实施的成本是明确的高。On the other hand,the solution is able to obtain a feedbackabout the results of any arbi,trary input submitted to the system undertest.在另一个人身上,解决方案是可以接受任何arbi输出的反馈。技术要求 不 要求任何 Any prior知识 Knowledge about 关于The图像实验 室Pei et al. adopt多个深度学习(DL)系统在他们的深度—Xplore框架为white—bo X测试(Pei et al.)2019).他们,a neuron coveragemetric to measure the parts of the sut exercised by test inputs.(一个神经元覆盖测量方法来测量通过测试输入进行的SUT部分。DL 系统 是 作为 交叉 引用 的 Oracle 用于 avoid 手册checking .10 . wang et al. (2020使用 DISSECTOR - - A Fault ToleranceApproach 进行 容错 容错 控制区别输入可能导致机器学习系统失败。输入验证是通过前训练模型之巅的训练子模型进行的,hence usingsub—models for cross—reference. The common characteristic among thethree presented techniques is the source of knowledge used to set up theoracle as cross—reference.(三个呈现的技术都是知识的来源,用来建立Oracle作为交叉引用。 在所有案例中,ML系统的输出都是基于知识编码的训练集Training Set. Splicerent ML models or the same ML modelbut sentierent architecture or sub—models trained from the same mainmodel ML.是一个多个ML模型,或者是由另一个ML模型训练而来的。the training set to perform a majority voting based on that knowledge.(以知识为基础进行投票)。These techniques are strictly a sulted bybiases in the training set.(在训练集中,他们是严格的。when the训练历are Not代表 性of The operational 操作环境 ,ThePerformance 业绩of that oracles退化这 意味 着 Cantly 。cobo et al. (2019他 提出 了 基于 真实 类 概率 ( TCP ) 的 CNNs 故障 预测 标准 。 标准是通过建立一个类定义模型的定义网络(使用确定网络)学习的。TCP is shown 在 执行 故障 预测 上 的 类 - - 定义 和 分割问题 |Currently , automatic oracles are of great interesting also inmisbehavior prediction of DNNs in autonomous driving ( Jahangirova等,英语:Jahangirova)2021). Stocco et al.建议SelfOracles检测不支持的驾驶场景—ios基于DNN运行时间行为者(Stocco等。 2020). 基于训 练 集 中 的 图 像 , autoencoders are used to compute for eachoperational image a reconstruction error.(自动编码器正在使用计算)此 分类 上 一篇 : The higher the error , the higherThe概率of失败onThe考虑 到样品 |19 . xiqiqiq (2021最近 建议 的 自动 驾驶 检查 器 ( SC ) 对 CNNs和 自主 驾驶 系统 的 机器 人 故障 检测 。SC检测在部署中失败,当测试下模型内部飞机的输出与定义预测不一致时。在这种情况下,内部layers的输出被用于交叉引用。Besides的失效检测,SC also建议替代预测。SC—最佳成绩国家的最先进的技术(DISSECTOR(王et al。2020与FIDNET ( Corbiere )ET al. , 2019),And SelfOracle 介绍( Stocco )ET al. , 2020)).该软件是介于三个(MIT,DeepXplore,and DIS—SECTOR)和最后三个(Con FIDNet,SelfOracle,and SC)之间的技术是知识如何从培训集中提取。在 Particular , The菲里斯 特三 个approaches 的TRY在 “ 软 ”Model Learning 学习From The Same source , Exploiting theensemble , 以及 以及 Complect 。The last three techniques com—pute metrics to exploit the knowledge encoded in each training image.(最后三个技术com—pute metrics来利用each training image中的知识编码。此 策略 是 粒子 和 sc , which 结果 处于 失败 状态 - of - the -art techniques预言 .A. 扇区 ,m.r. Lyu ,R . Pietrantuo ET艾尔 。智能 系统 与 应用 17 ( 2023 )2001725The discused techniques do not account for the possible deviationsof the operational context from the pre—deployment one.(讨论的技术不会账号,因为运营环境中的可能偏差)Hence,they are
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功