没有合适的资源?快使用搜索试试~ 我知道了~
3185R-CNN在人机协同搜索中的性能评估阿图罗·德扎加州大学圣巴巴拉分校deza@dyns.ucsb.edu阿米特·苏拉纳联合技术公司联合技术研究中心suranaa@utrc.utc.com米格尔·P埃克斯坦心理学和脑科学加州大学圣巴巴拉分校eckstein@psych.ucsb.edu摘要随着由深度学习驱动的现代专家系统的出现,补充了人类专家(例如放射科医生,皮肤科医生,监控扫描仪),我们分析了这些专家系统如何以及何时在细粒度小目标视觉搜索任务中增强人类的表现。 我们建立了一个2会话析因实验设计,其中人类在有和没有深度学习(DL)专家系统的情况下视觉搜索目标。我们评估人类的目标检测性能的变化和眼睛运动中存在的DL系统。我们发现DL系统的性能改进(通过具有VGG 16的更快R-CNN计算)与观察者灵敏度)。 主要结果包括:1)DL系统降低了高/低灵敏度观察者组的平均每幅图像的虚警率;2)只有高灵敏度的人类观察者的表现优于DL系统,而低灵敏度组不超过个体DL系统的表现,即使在DL系统本身的辅助下; 3)试验次数的增加和观看时间的减少主要是由DL系统驱动的,仅对于低灵敏度组。4)DL系统通过第三注视帮助人类观察者注视目标,潜在地解释了性能的提升 这些结果提供了深度学习系统的优势和局限性的见解,这些系统与人类合作或竞争。1. 介绍视觉搜索是一种无处不在的活动,人类每天都在从事大量的任务。 其中一些搜索场景是明确的,例如:在我们的桌子上找钥匙;而其他则是隐含的,例如在驾驶时寻找街道上的行人[13]。视觉搜索也可以如在先前的示例中那样是微不足道的,或者可能需要更强程度的搜索。这些专家拥有多年积累的专业知识,例如放射科医生在乳房X光片中寻找肿瘤,以及军事监视操作员或TSA特工,他们必须在最短的时间内完成大量图像的收集。事实上,深度学习系统的成功已经被证明可以与皮肤科医生[17]以及放射科医生[35]竞争癌症肿瘤检测。大多数专家系统的工作已经在医学成像领域,更具体地说,在放射学。 Litjens等人 [29]汇编了300篇应用于医学成像的深度学习论文的概述。在Kooi等人的工作中,CNN他们发现,深度学习系统可以与放射科专家相媲美,正如Rajpurkar等人最近的论文一样。Arevalo等人将CNN大多数研究已经通过经典计算机视觉或端到端深度学习架构与人类参见Litjenset al. [29]查看应用于医学成像的300篇深度学习论文的 概 述 。关于计算机视觉任务中的协作人机场景的其他工作包括:图像注释[39],机器示教[40,25],视觉会话代理[6]、认知优化[12]和细粒度分类[4]。相反,最近也有一种趋势,在某些任务中将人类这些比较已经在物体识别[20,14,34],感知辨别[16]和视觉注意力[10]中完成在许多应用中,混合DL和人类团队可能是专家系统取代人类专家之前的下一步[26,17,12,42,33]。给定3186图1.潜在DL益处的评估。左图:原始图像,目标用红色圈出。中间:洋红色框是观察者在目标位置上的点击。右:蓝色框表示非目标检测,红色框表示DL系统的目标检测。中间和右边:扫视凝视模式以青色绘制。当前计算机视觉技术的范例依赖于边界框候选区域的建议和多个感兴趣区域的评估[31],就像从HOG [9]和R-CNN [18]到Faster R-CNN [38]和YOLO[36]的模型一样,它们与人类的视觉搜索系统结合得如何?我们感兴趣的是评估DL系统对人类行为的影响,在自然场景中对小目标进行视觉搜索时(见图1)。也许人机协作最相关的工作是Kneusel Mozer[26]。这种深入的研究调查了用于指示可能的目标位置的智能系统的线索的可视化对人类表现目标存在我们的主要贡献是补充性的:1)我们认为人类观察者的表现水平和智能系统的表现水平在决定其对决策的影响时是相互作用的; 2)我们提出了眼动跟踪分析,以评估Faster R-CNN对固定策略和错误类型的影响:目标未固定(固定错误)与目标固定和错过(识别错误)。在本文中,我们关注这些问题,因为该领域仍在就使用专家深度学习系统补充人类专家进行辩论。2. 主要实验为了分析人机在视觉搜索任务中如何协同工作,我们设计了一个实验,主要有两个条件:人+深度学习(Human + Deep Learning)。搜索任务是在没有武器的个人群体中找到持有武器的个人。人们置身于一个复杂的场景中.在下面的小节中,我们详细描述了实验(刺激,实验设计装置)。我们评估了Faster-RCNN在视觉搜索期间对以下人类行为测量的影响:1. 目标探测性能。2. 受试者工作特征(ROC)曲线。3. 查看时间和试验次数。4. 眼球运动的模式。2.1. 刺激的产生我们从Deza等人的数据集中选择了120张没有目标的基本图像。[12]包含各种渲染的户外场景,具有不同的杂乱程度和三个缩放级别。然后,我们在每张图像中随机选取20个位置(均匀分布)来定位目标(携带武器的个人)和干扰者(没有武器的个人)。我们运行了一个Canny边缘检测[5]过滤器来计算每个图像中的主要边缘,例如墙壁,树木和其他结构。如果先前随机选择的位置之一落在边缘上,我们将从图像中的任何位置均匀地重新采样,直到找到无边缘的位置。我们的图像生成模型还将重新采样候选日期位置,如果它们与先前的人位置重叠。一旦验证了20个位置,我们就生成了相同背景图像的4个不同版本,使得每个版本具有k ={0,1,2,3}个目标(总共4 ×120),其余候选位置具有非目标(也称为目标)。朋友或没有武器的人)。我们在每个位置上使用泊松混合[32]将插入的个体混合到背景场景中。每张图像都以1024× 760 px渲染。低变焦条件的示例场景可以在图2中看到,其中试图找到目标(带武器的人)的难度相当高。2.2. 实验设计我们的主要实验采用2× 2析因设计,以分离DL系统和人类学习带来的改善在实验设计中,每个观察者以以下顺序之一参加两个连续的会议:[H,H](人类,人类),[H,H+DL](人类,人类+深度学习),[H+DL,H](人类+深度学习,人类)和[H+DL,H+DL](人类+深度学习,人类)。+ 深 度 学 习 ) 。 比 较 Human 、 Human + DeepLearning与人的条件允许确定性能提高是由于DL系统还是仅仅由于人的学习效果。此外,我们感兴趣的是解剖学习和排序效果,因为它可能是这样的情况下,在第二次会议的性能差异是独立的DL系统的使用。3187图2.在我们的实验中使用的一系列刺激的例子,相同的图像用不同的数字渲染,目标(从左到右)该图在放大时看起来更好,并说明了视觉搜索的难度。目标是持有武器的个人,为了可视化目的,他们已经用红色突出显示为了在DL系统和人类之间进行直接比较观察者还通过点击随后呈现的图像上检测到的目标个体的位置来空间定位目标,该图像这种评估范例是很好地匹配DL系统,它也定位目标,没有先验知识,有多少目标存在于图像中。使用截尾泊松分布随机选择每个图像的靶数量,其中:k−α在每个实践试验结束时,类似于提供监督信号。测试:指导观察员优化两个一般目标:第一个是最大限度地增加每次20分钟的试验次数。第二个是在进行视觉搜索时最大化他们的表现。 我们强调,他们必须最大限度地实现这两个目标,这样他们就不应该匆忙完成试验,做得很差,但他们也不应该过多地关注每一张图像的搜索时间。每次试验结束时都没有反馈。实验流程见图33.2. 深度学习系统:训练和测试Pk=P(X=k)=α e(一)k!我们训练了一个更快的R-CNN对象检测框架[38],它使用VGG-Net [41]进行对象检测。我们固定α= 1的值,它代表平均值每个试验的靶点数量,使得P0= 0。375;P1= 0。375; P2 = 0. 1875,P3 = 0。0625.2.3. 装置使用EyeLink 1000系统(SR Research以1000 Hz的频率收集眼动追踪数据。每个参与者与伽马显示器上的LCD屏幕的距离为76 cm,因此每个像素对着0的视角。022度/像素所有图像均以1024 ×760像素(22. 5度×16。7度)。速度超过22度/秒、加速度超过4000度/秒2的眼球运动被归类为扫视。每次试验都从中心固定十字开始,每个受试者必须固定十字,公差为1度。3. 人与机器的培训与测试3.1. 人力:培训和测试共有120名观察员分成四组,分别进行[H,H]、[H,H+DL]、[H+DL,H]、[H +DL,H+DL]会话培训:每个观察员在每次会议开始时参加3次模拟试验。已提供和候选地区提案。我们选择了更快的R-CNN而不是YOLO [36],SSD [30],R-FCN [8]根据Huang等人的实验, 他们表明Faster-RCNN在性能方面优于其他模型[24]。虽然在本实验中运行多个对象检测器会丰富我们的评估,但我们受到每个DL系统需要运行多个对象的事实的限制我们没有选择YOLO而不是Faster-RCNN的另一个此外,YOLO在检测小物体方面可能不如Faster-RCNN [37] 。 最 后 , VGG-Net 和 Faster-RCNN的广泛传播使它们成为我们实验的理想候选者。训练:我们在tensorflow [1]上训练了网络超过5000次迭代,如图4所示,在ImageNet的图像集合上预先训练了70000次迭代,实现了标准的识别性能。输入到网络中进行训练的图像是420 =7 × 20 × 3图像,包括7个旋转的旋转版本和20个人输入(10/10朋友/敌人),用于3个目标尺寸中的每一个。小旋转,作物,镜像和翻译用于3188(a)条件[H]:人类观察员。(b)条件[H+DL]:人类观察者+深度学习系统。没有目标的帮助或提示在试验结束时,地面实况在这种情况下,候选目标由DL系统提示,人的位置(以黑色着色)在图像中与颜色编码的边界框重叠颜色:红色是一个潜在的敌人,协助观察员确定潜在目标的位置。蓝是个潜在的朋友图3.在多目标搜索实验中测试的2种条件的概述,我们评估了DL系统在人类视觉搜索中的优势,以及在速度,准确性和眼球运动方面可能增加的优势这些图像中的目标显示为0。45× 0。90 d.v.a.收集条件[H,H];[H,H+DL];[H+DL,H];和[H+DL,H+DL]的数据数据扩充用于测试的图像从未从网络中看到过,并且是由随机抽样的个人在有和没有武器的情况下从数据集中呈现的。learning_rate=0.00110(计算机以及给定NMS); 2)人类和DL系统都具有从其选择目标位置的可能位置的有限集合此外,该实验是自由回忆的人类,因为他们被允许报告任何数量的目标,每一个图像没有先验信息。DL系统具有相同的标准,因为经由区域建议网络(RPN)的目标位置的计算不依赖于在图像中看到的目标的数量的任何先验。0.20.01.00.50.00 10000 20000 30000 40000 50000迭代次数4. 结果本文中显示的结果集中在试验的子组上,这些试验显示了小目标,因为人和机器都很难检测到观察者敏感性:我们量化了图4.在50 k次迭代后训练的Faster-RCNN的训练损失我们使用经过5000次迭代训练的模型来避免过度拟合。拥有一个相对高性能(但不完美)的系统是理想的,可以将观察者分为高灵敏度组和低灵敏度组进行事后分析。测试:系统开发的候选边界框总是覆盖在可能的人员位置上,而不管个人是否携带武器。因此,DL系统从未产生位置驱动的假警报,系统传递的所有错误都是基于识别/分类的。边界框候选的阈值低于η= 0。丢弃8个,并使用非最大抑制(NMS)去除重叠边界框(双)在这些配置下,DL系统和人类都容易做出相同类型的判断和错误。举例来说:1)人类不允许点击同一位置超过两次在不同的观察者群体之间的DL系统,找到目标的能力(命中率)。 我们根据敏感性(命中率)将[H,H+DL]条件下的参与者分为两组:第一组是高敏感性组,第一次治疗组的命中率高于DL系统,第二次治疗组为低敏感组,命中率低于DL系统。我们进行了非配对t检验,以验证确实存在性能差异,并发现显著差异t(27)=3。64,p= 0。0011高敏感组(MH= 83。16 ± 2。低敏感组(ML= 65 . 00%)。52 ± 4。04%)。该效应在所有其他条件下均可见:[H+DL,H],其中t(28)= 3。40,p= 0。0020,(MH= 89. 34 ± 2。15%),(ML= 73. 66 ± 3。67%); [H,H],其中t(27)= 3。96,p<0. 001,(MH= 85. 68 ± 2。06% ) , ( ML= 65. 75 ± 3 。 46% ) ; 和 [H+DL ,H+DL] , 其 中 t ( 27 ) = 2 。 21 , p= 0 。 0351 ,(MH= 85. 24 ± 3。68%),(ML= 71. 79 ±2。百分之四十五)。RPN箱损失RPN类总损失损失3189每个图像的错误警报未识别率未识别率高灵敏度低灵敏度高灵敏度低灵敏度1.00.90.80.70.60.50.40.30.20.10.01.00.90.80.70.60.50.40.30.20.10.00.70.60.50.40.30.20.10.00.70.60.50.40.30.20.10.0高灵敏度低灵敏度高灵敏度低灵敏度1.21.00.80.60.40.20.01.21.00.80.60.40.20.00.70.60.50.40.30.20.10.00.70.60.50.40.30.20.10.0图5.观察者性能的划分由灵敏度(命中率)高于或低于机器给出。显示每组的命中率、每个图像的误报警、未搜索率和未识别率 会话颜色代码:蓝色:无DL的人类;橙色:DL患者; Ocre:第一届会议DL;紫色:DL第二次会议。4.1. 目标可探测性在下面的小节中,我们描述了分析中使用的指标集合,这些指标来自信号检测理论文献[22]和医学成像/放射学(搜索和识别错误)[28]。我们根据每个观察者的敏感性对这些指标进行分组,并在图5中绘制这些值。1. 每图像命中率(HR):正确选择的目标总数除以图像中的目标总数。2. 每幅图像的误报(FA):误报总数(没有武器的干扰者被错误地标记为目标)。3. 每幅图像的未命中率(MR):1.0-每幅图像的命中率我们将未命中率分为两种类型:• 每幅图像的搜索错误率(SER):未被聚焦和错过的目标总数除以图像中的目标总数。对于机器,我们将这些视为边界框 , 其 中 输 出 概 率 不 超 过 置 信 阈 值(η),因为人们可以以其他方式争辩说,机器在任何时候都是正确的。• 每个图像的识别错误率(RER):被聚焦但被错误地视为朋友(当他们实际上是敌人时)的目标总数除以图像中的目标总数应该注意到RER和SER应该加起来等于每个图像的未命中率。我 们 在 条 件 内 进 行 了 两 组 混 合 因 子 设 计ANOVA: [H] 和 [H+DL];条 件 之 间 : 顺 序 效 应[H,H+DL]和[H+DL,H];以及受试者之间。分别对高和低灵敏度组进行每个混合我们发现了以下结果:每个图像的误报警:对于高灵敏度组和低灵敏度组,DL系统的存在对减少误报警的主要影响:FH(1,24)=7. 23,p = 0。01,且FL(1,24)= 4。93,p = 0。03.检索错误率:条件之间的检索错误率无显著差异尽管我们确实发现,高敏感度组的平均搜索错误率较低:不成对,双尾,t(116)=-3。633,p<0。0001.识别错误率:高灵敏度组的识别错误率没有降低,但在DL系统F L(1,32)= 3的情况下,低灵敏度组的识别错误率降低的边际主效应。85,p=0。058,以及边际排序效应(先显示[H+DL]或[H])FL(1,32)= 3。96,p = 0。055.4.2. 人和机器接收操作特性的评估与Esteva等人的工作类似。[17],我们决定研究与人类相比,人类的表现如何。命中率每个图像的错误警报HH+DLHCVH+DLCVHH+DLHCVH+DLCVH+DLH+DLCVHCVH+DLH+DLCVHCVHHHCVHCVHHHCVHCVH+DLH+DLH+DLH+DLH+DLH+DL命中率HH+DLHCVH+DLCVHH+DLHCVH+DLCVH+DLH+DLCVHCVHHHCVHCVH+DLH+DLCVHCVHHHCVHCVH+DLH+DLH+DLH+DLH+DLH+DL未命中搜索率HH+DLHCVH+DLCVHH+DLHCVH+DLCVH+DLH+DLCVHCVH+DLH+DLCVHCVHHHCVHCVHHHCVHCVH+DLH+DLH+DLH+DLH+DLH+DL未命中搜索率HH+DLHCVH+DLCVHH+DLHCVH+DLCVH+DLH+DLCVHCVH+DLH+DLCVHCVHHHCVHCVHHHCVHCVH+DLH+DLH+DLH+DLH+DLH+DL31901.00.80.60.40.21.00.80.60.40.2[H,H+DL][H+DL,H] [H,H][H+DL,H+DL]0.02 0.04 0.060.02 0.04 0.060.02 0.04 0.060.02 0.04 0.06假阳性率假阳性率假阳性率假阳性率图6. ROC图,比较人类和DL系统单独和协同工作的性能。图按高/低灵敏度和实验条件划分:[H,H+DL]、[H+DL,H]、[H,H]和[H+DL,H+DL]。 ocre和紫色的ROC分别独立地示出了第一会话和第二会话的DL系统性能。十字表示沿曲线在η= 0处的工作点。8. 对于人类观察者来说,圆是第一个会话,第二次会议的广场蓝色和橙色表示在进行视觉搜索时存在DL系统当系统沿着其整个受试者工作特性(ROC)曲线(包括其在η = 0处的工作点)单独执行时的DL系统。8.我们可能发现,即使对于高灵敏度组,DL系统总体上也比人类观察者表现得好得多,因为更高的灵敏度也可能意味着高的误报警率,从而意味着更少的辨别能力。这是一种通常可以在信号检测理论的背景下解释的效应[22]。如果有或没有辅助的人类观察者的ROC点在DL ROC曲线之外(分别针对2个会话中的每个会话的ocre和紫色),那么我们可以说人类观察者总体上比机器表现得更好。为了计算每个图像的ROC曲线,我们需要每个 图 像 的 TPR ( 真 阳 性 率 ) 和 FPR ( 假 阳 性率)。请注意,FPR不是与图5中绘制的每个图像的误报警混淆。如果h是观察者在图像上执行的命中次数,f是限制在点击的边界框位置的 假 警 报 次 数 : 我 们 将 计 算 TPR=h/G 和FPR=f/(N-G),其中N = 20是观察者必须从中选择以选择目标存在的可能边界框的总数,G是图像中真实目标的数量(0,1,2或3)。对这些统计数据进行平均,以使机器绘制整个ROC曲线,并使人类观察者绘制ROC点,如图6所示。为了分析观察者行为和决策策略的可变性,我们将使用目标可检测性(d′)和决策偏差(λ)s. t的估计d′=Φ−1(TPR)−Φ−1(FP R)(2)和λ=−Φ−1(FPR)( 3)其中reΦ−1是累积正态分布的ive。在接下来的小节中,我们将重点关注根据前面提到的指标相互比较两种类型的条件。这些主要是:[H,H+DL]对[H,H],以研究观察者ROC在第二会话中如何随着DL系统的存在而改变,以及[H + DL,H]对[H + DL,H+DL],其还研究观察者ROC的信号确定性和标准是否作为在第二会话中丢弃/继续DL系统的函数而改变。可检测性(d′):我们在第二个疗程中进行了非配对t检验,比较了[H,H+DL]与[H,H]以及[H+ DL,H]与[H +DL,H+DL],未发现d′的任何统计学显著性变化。决策偏倚(λ):当在第二个疗程中移除DL系统时,只有高灵敏度组显示偏倚差异t(24)=2 。 62 , p=0 。 01.λ_H+D_L=2 。 09±0.05vsλλH+DL=1。79±0。12在[H,H+DL]vs[H,H]条件。我们最后总结了所有观察者的可检测性和偏倚评分,汇总了两次会议的结果,低灵敏度高灵敏度真阳性率真阳性率3191并按灵敏度和条件[H]与[H+DL]进行划分,并将其与表1中的机器进行比较:可检测性y(d′)偏倚(λ)[H][H+DL][H][H+DL]高低二、84 ±0。10二、42 ±0。103 .第三章。13 ±0。09二、62 ±0。081 .一、82±0。051 .一、83±0。031 .一、95±0。04二、00 ±0。03DL二、78 ±0。041 .一、96 ±0。02表1.人体与DL系统性能很明显,当去除会话顺序的任何学习效果时,只有具有高灵敏度的人类观察者表现得比DL系统更好,而低灵敏度组即使在DL系统本身的帮助下也不会超过个体DL系统的性能2520151050120100806040200高灵敏度低灵敏度25201510501201008060402004.3. 查看时间和试验次数的分析观看时间:我们发现高敏感性组在每次试验花费的观看时间上具有显著的排序效应F(1,24),p = 0。05,但没有发现DL系统的存在有任何影响。然而,我们确实发现了DL系统F(1,24)= 24的序和存在的相互作用。00,p<0. 0001. 对于低敏感性组,我们没有发现排序效应F(1,32)= 0。74,p= 0。40,而不是在DL系统的存在下发现了一个主要的影响F(1,32)= 10。56,p= 0。003.这种效果在图7中显示为观看时间的减少。此外,我们还发现了DL系统F(1,32)= 5的序和存在的相互作用。6,p = 0。02.也许值得强调的一个惊人的和违反直觉的差异是,当系统独立于命令打开时,低灵敏度组比高灵敏度组花费更少的时间查看每个图像虽然这是可以理解的,因为我们的分裂是由观察者在其第一次会话上的表现驱动的,而与DL系统的存在与否无关。一般来说,表现不佳的观察者很可能会比在检查图像时更仔细的高表现观察者更快地检查图像事实上,为了解释分裂的差异,我们进行了未合并的t检验,以比较高敏感性组和低敏感性组中的所有[H+DL]会话(在所有顺序中),并发现平均观看时间(VT)差异为V TH= 14。35±1。37秒,V TL= 9。05±0. 67秒,t(117)= 3。84,p<0. 0001.试验次数:当分析试验次数时,我们发现的观看时间的所有结果都是类似的,并且具有统计学意义-因为实验中每次会话的总时间限制为20分钟,并且这两个量彼此成反比。图7显示了这种等效性以及低观看时间通常如何在所有条件下转化为大量试验。图7.查看按高敏感度和低敏感度观察者划分的试验时间和次数。蓝色代表人类观察者[H],橙色代表人类和深度学习系统一起工作[H+DL]。 1星表示p 0的双尾独立t检验<。05,而2星代表p<0。01.4.4. 眼动分析性能指标可能会随着DL系统的功能以及每个会话而变化,但人类行为如何根据这些条件而变化?在本小节中,我们决定研究眼动在决策中的作用,以及它们如何与绩效水平相关。更具体地说,我们计算了欧氏距离的视觉观察者的注视位置f和所有可能目标中最近的目标t '之间的角度第四章:[D(f,t<$)=min(||)(4)||)(4)我为了研究这个问题,我们决定创建前5个注视点的箱形图,所有观察者在每一个观察条件下分裂,也通过敏感度。这可以在图8中看到,图8表明,通常,当DL系统打开时被增强的观察者通 过 第 三 注 视 注 视 目 标 ( 视 存 在 的 目 标 而定)。因此,我们看到DL系统如何以更少的眼球运动增强对目标的注视。在图9中可以观察到对此的定性和补充图,其中我们显示了在所有这些条件下执行搜索时观察者的样本注视和扫描路径在开启DL系统的情况下,首先注视目标的均匀性最能说明问题的是,这一结果可以解释来自高灵敏度组或低灵敏度组的大多数观察者如何实现目标可探测性d'的提升,如前表1所示。- 我的天啊**我的天**我的天我不知道观看时间(s)试验次数的HH+DLHH+DLH+DLHH+DLHHHHHH+DLH+DLH+DLH+DL观看时间(s)试验次数的HH+DLHH+DLH+DLHH+DLHHHHHH+DLH+DLH+DLH+DL3192[H,H+DL][H+DL,H] [H,H][H+DL,H+DL]30252015105030252015高灵敏度组的性能优于DL系统,而低灵敏度组不超过单独的DL系统性能,即使在DL系统本身的辅助下也是如此。3. 查看时间和试验次数:深度学习系统只增加了低敏感度组的试验次数。4. 眼球运动模式:DL系统通过第三次注视鼓励注视目标,与其他因素无关。6. 讨论105012345123451234512345虽然在深度学习系统的成功方面已经有了很大的成熟,固定次数固定次数图8.到第一个目标中心凹的注视距离的箱形图,专家系统通过第三次注视(橙色条形图)帮助人类将目标固定在0.01度。这种视觉搜索策略仅在专家系统独立于会话顺序时存在图9.可视化当DL系统在所有条件下打开时视觉搜索策略如何青色的线表示从中心开始的扫视轨迹。蓝色框是DL系统对好友的检测,红色框是对目标的检测。绿色的框显示了目标的地面实况位置,洋红色的圆圈表示人类观察者在这个图中所有的刺激只有一个目标。放大后可更好地查看图形。5. 分析的主要结论1. 目标探测性能:DL系统降低了高/低灵敏度观察者组中每幅图像的平均误报率。2. 接收操作员特征:我们发现只有人类观察者尽管在目标检测中存在许多限制,例如:对抗性示 例 [21] , 细 粒 度 检 测 [23] , 小 对 象 ( 目 标 )[15]。对抗性示例已经清楚地暴露了当前深度学习系统的重要局限性,虽然在有和没有对抗性示例的情况下进行视觉搜索的实验设置会很有趣,但这不是我们工作的重点。结果是可以预测和保证的:人类的识别率会比计算机更高,但我们并没有放弃这样一种可能性,即在存在对抗性图像的情况下进行类似于我们的研究是相关的,应该在未来的工作中进行探索。另一方面,在存在类似人类的对抗性示例的情况下,关于在视觉搜索中整合人类和机器的未来工作[16]也可能会引起极大的兴趣,正如Finlayson等人 [19]最近应用于医学图像的工作中所探索的那样。因此,在本文中,我们集中精力研究一个更真实和适用的问题,即使用有限数量的训练样本进行细粒度小对象检测和分类,该样本使用通常部署的预训练VGG16 [41]。我们发现,对于当前的DL系统,其对人类搜索性能的影响与观察者的主观能动性是一致的。这突出了DL系统与人类专家集成的复杂性。这些交互可能还取决于DL系统的性能水平以及观测器对DL系统的传输。随着最近DL系统应用于医学成像的激增,我们相信这些实验性的见解将被转移到这样的和其他人机协作领域。致谢本工作由合作生物技术研究所通过与美国的合同W 911 NF-09-0001提供支持。陆军研究室。302520151050302520151050高灵敏度第二场会议目标距离目标距离低灵敏度第二场会议目标距离目标距离在d.v.a在d.v.a在d.v.a在d.v.a3193引用[1] M. 阿巴迪山口Barham,J.Chen,Z.Chen,中国山核桃A.Davis,J.迪恩M. Devin,S.盖马瓦特湾Irving,M. Isard等人张量流:一个大规模机器学习系统。[2] E. Akbas和M. P. Eckstein通过使用中央凹视觉系统的搜索进行目标检测PLOS计算生物学,13(10):1[3] J. Arevalo,F. A.冈萨雷斯河Ramos-Pollán,J. L. Oliveira和M. A. G.洛佩兹用卷积神经网络进行乳房X线摄影肿块病变分类的表示学习。生物医学中的计算机方法和程序,127:248 -257,2016。[4] S.布兰森湾范霍恩角Wah,P. Perona,and S.贝隆吉无知的人被瞎子领着:一种用于细粒度分类的人机混合视觉 系 统 。 InternationalJournalofComputerVision,108(1-2):3[5] J·坎尼边缘检测的计算方法。 计算机视觉阅读,第184-203页。爱思唯尔,1987年。[6] P. Chattopadhyay,D.Yadav,V.Prabhu、A.阿布拉塞卡兰,A.达斯,S。Lee,D. Batra和D.帕里克通过人机合作游戏 评 估 视 觉 对 话 代 理 。 arXiv 预 印 本 arXiv :1708.05122,2017。[7] B. Cheung,E. Weiss和B.奥尔斯豪森视觉场景中中央凹图 像 采 样 的 出 现 。 arXiv 预 印 本 arXiv :1611.09430,2016年。[8] J.戴,Y. Li,K. He和J. Sun. R-fcn:通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展,第379-387,2016年[9] N. Dalal和B. Triggs 用于人体检测的定向梯度直方图。计算机视觉与模式识别,2005年。CVPR 2005。 IEEE计算机协会会议,第1卷,第886-893页。IEEE,2005年。[10] A. Das,H.阿格拉瓦尔湖Zitnick,D. Parikh和D.巴特拉视觉问答中的人类注意力:人类和深度网络会关注相同的区域吗?计算机视觉和图像理解,163:90[11] A. Deza和M. P. Eckstein外围表示可以改善复杂场景的杂波度量吗?在神经信息处理系统,2016年。[12] A. Deza,J.R.彼得斯湾S.泰勒,A. Surana和M. P. Eckstein视 觉 搜 索 的 注 意 力 分 配 辅 助 工 具 。 arXiv 预 印 本arXiv:1701.03968,2017。[13] M. P. Eckstein 视觉 搜索: 回顾展 。视觉 杂志, 11(5):14-14,2011。[14] M. P. Eckstein,K.克勒湖E. Welbourne和E.阿克巴人类,而不是深度神经网络,经常错过场景中的巨大目标。当代生物学,27(18):2827[15] C. Eggert,D. Zecha,S. Bambum和R.利恩哈特 改进公司徽标检测的小对象建议。在2017年ACM国际多媒体检索会议上,第167-174页。ACM,2017。[16] G. F. Elsayed,S.尚卡尔湾Cheung,N. Papernot,A.库拉金岛。Goodfellow,andJ. Sohl-Dickstein.欺骗人类和计算机 视 觉 的 对 抗 性 例 子 。 arXiv 预 印 本 arXiv :1802.08195,2018。[17] A.埃斯特瓦湾库普雷尔河A. Novoa,J. Ko,S. M. 斯威特H. M. Blau和S. Thrun.使用深度神经网络对皮肤癌进行皮肤科医生级别的分类。Nature,542(7639):115,2017.[18] P. F.费尔岑斯瓦尔布河B. Girshick,D. McAllester和D. Ramanan使用区分性训练的基于部分的模型进行对象检测 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,32(9):1627[19] S. G.芬莱森岛S. Kohane和A. L.梁 针对医学深度学习系统 的 对 抗 性 攻 击 。 arXiv 预 印 本 arXiv :1804.05296,2018。[20] R. 盖霍斯湾 H. Janssen,H. H. Schütt,J. Rauber,M. Bethge和 F. A. Wichmann 比较深新-针对人类的种族 网 络 : 当 信 号 变 弱 时 , 物 体 识 别 。 arXiv 预 印 本arXiv:1706.06969,2017。[21] I. J.Goodfellow、J.Shlens和C. 赛格迪解释和利用对抗性的例子。arXiv预印本arXiv:1412.6572,2014。[22] J. GREEN DAND SWETS.信号检测理论与心理物理学,1988年。[23] B.哈里哈兰山口阿贝拉埃斯河Girshick和J.马利克使用超列的对象实例分割和细粒度定位。 IEEE transactionson pattern analysis andmachine intelligence , 39(4):627 -639,2017。[24] J. Huang,V.拉托德角孙,M。Zhu,中国茶青冈A.科拉提卡拉A.法特希岛Fischer,Z. Wojna,Y.宋,S. Guadarrama等人现代卷积对象检测器的速度/精度权衡。[25] E.约翰斯岛Mac Aodha和G. J·布罗斯托成为专家-交互式多类机器教学。CVPR,2015。[26] R. T. Kneusel和M. C.莫泽用软高亮技术改进人机协作视觉 搜 索 ACM Trans-actions on Applied Perception(TAP),15(1):3,2017。[27] T. Kooi,G.利延斯湾van Ginneken,A. 古伯恩-梅里达,C. I.桑切斯河Mann,A. den Heeten和N.卡斯梅杰大规模深度学习用于计算机辅助检测乳腺造影病变。医学图像分析,35:303-312,2017。[28] E. A.克鲁平斯基医学图像感知的当前前景。Attention,Perception , &Psychophysics , 72 ( 5 ) :1205 - 1217 ,2010.[29] G. Litjens,T.库伊湾E. Bejnordi,A.A. A. Setio,F.Ciompi,M. Ghafoorian,J. A. van der Laak、B. van Ginneken,以及C. I.桑切斯深度学习在医学图像分析中的应用。医学图像分析,42:60[30] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角,澳-地Y. Fu和A. C. 伯格。Ssd:单发多盒探测器。欧洲计算机视觉会议,第21施普林格,2016年。[31] J. Malik,P. Arbeláez,J.卡雷拉湾弗拉基亚达基河吉 尔 - 希 克 , 吉 尔 。 Gkioxari , S. 古 普 塔 湾Hariharan、A.卡尔,和S. Tulsiani计算机视觉的三个R:重组、重建和重组。Pattern Recognition Letters,72:4[32] P. Pérez,M. Gangnet和A.布莱克 泊松图像编辑。ACMTransactions on graphics(TOG),22(3):313-318,2003。[33] J. R. Peters,V. Srivastava,G. S.泰勒,A.苏拉纳湾P.Eckstein和F.布洛机器人团队的人类监督控制:将认知建模与工程设计相结合。IEEE控制系统,35(6):57[34] R. Pramod和S.阿伦计算模型与人类物体感知系统不同吗?法律程序中IEEE计算机视觉和模式识别会议,第1601-1609页[35] P. Rajpurkar,J.Irvin,K.Zhu,B.Yang,H.Mehta,T.段D. Ding , 中 国 茶 条 A. 巴 古 尔 角 Langlotz , K.Shpanskaya等人Chexnet:使用深度学习在胸部X光片上进行放射科医生级别的肺炎检测。arXiv 预印本arXiv:1711.05225,2017。[36] J.雷德蒙,S.迪夫拉河,巴西-地Girshick和A. 法哈迪。你只看一次:统一的实时物体检测。arXiv 预印本arXiv:1506.02640,2015年。3194[37] J. Redmon和A.法哈迪。Yolo9000:更好,更快,更强。[38
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功