基于顺序固定的深度强化学习视觉聚焦模型在物联网细粒度识别中的应用

75 浏览量更新于2023-10-12 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于顺序固定的成本感知物联网细粒度识别Hanxiao Wang，Venkatesh Saligrama，Stan Scaroff，VitalyAblavsky Boston University{hxw，srv，sclaroff，ablavsky}@ bu.edu摘要我们考虑的问题，细粒度分类的边缘相机设备，具有有限的功率。边缘设备必须谨慎地与云交互以最小化通信比特以节省功率，并且云在接收到边缘输入时返回分类标签。为了处理细粒度的分类，我们采用了顺序固定的观点与一个foveated视野来模拟云边缘的相互作用。我们提出了一种新的基于深度强化学习的视觉聚焦模型DRIFT，它可以顺序生成和识别混合敏锐度图像。DRIFT的训练仅需要图像级类别标签，并鼓励固定包含任务相关信息，同时保持数据效率。具体来说，我们训练一个foveation演员网络与一个新的深度决定性的政策梯度条件批评和教练（DDPGC 3）算法。此外，我们建议在每次固定后塑造奖励以提供信息反馈，以更好地指导RL训练。我们通过对五个细粒度分类基准数据集的评估，证明了DRIFT在这一任务上的有效性，并表明所提出的方法实现了最先进的性能，传输像素减少了3倍以上。1. 介绍虽然将物理世界连接到云的边缘相机物联网设备正在彻底改变许多消费者和商业应用中的数据收集对于低功率物联网设备，传输能量主导着所有其他形式的电池使用[11，17]，因此，我们有理由将边缘云交互的数量视为电池使用的替代品。我们的目标是最大限度地减少传输的像素，同时确保与经过充分训练的最先进的深度神经网络1（可以访问整个图像）相当我们的原型-典型的设置是一个边缘设备，节省传输IM-1标准Inception-V3输入尺寸的最小像素量约为299×299，以实现良好的精度。现代高分辨率相机拍摄的照片通常比这个尺寸大。年龄区域到配备有丰富计算资源的云服务器（例如，aInception-V3网络[37]），以解释接收到的输入2。细粒度分类在物联网设置中带来了根本性的挑战，并突出了准确性和成本之间的根本困境：一方面，除非云看到最具区分力的部分，否则无法对实例进行准确分类。另一方面，边缘设备既不能由于带宽/功率约束而传输整个图像，也不能由于缺乏计算资源而在本地识别那些部分。在这种情况下，我们不得不采用一种新的交互式边缘云模型。我们的方法是一种新的基于深度再增强学习的视觉聚焦模型DRIFT，它顺序地生成和识别混合敏锐度图像。边缘设备不是一次发送全部细节，而是首先发送初步的粗略缩略图，例如，30×30，发送到服务器，然后服务器主动但谨慎地与边缘设备交互，以寻找有价值(see图1），仅基于过去接收的输入。总而言之，我们的方法（1）对分辨率在图像上变化的混合敏锐度输入进行操作，并且更重要的是，（2）基于低敏锐度输入，主动地和顺序地确定哪些这是我们人类自然进行的一个过程。虽然现有的经过训练的深度网络架构是一种选择，但它们从根本上不适合这种分布式任务，并且它们的变体，即基于注意力的方法需要整个高清晰度图像预先可用。我们的DRIFT模型由三个神经网络组成：（1）主干CNN，用于从低/混合敏锐度输入图像中提取视觉特征;（2）产生一系列注视动作的注视动作网络;以及（3）预测最终类别标签的图像分类网络。我们支持-2这种边缘云设置是物联网中的传统模型（参见[31]）。[3]当我们人类看到一个新奇的场景时，我们不会立刻感知到它的全部复杂性，而是会产生错觉在这样做的过程中，我们的大脑处理来自高敏锐度中央凹区域和较粗分辨率周边的信息。处理混合敏锐度输入并主动“选择”注视位置的能力12521253（d）其他事项骨干网分类网络FoveationActorNetwork（b）第（1）款t=0高清晰度图像（由边缘设备捕获）边缘传输像素服务器查询t=T时的混合敏锐度图像（在服务器上维护）DRIFT模型（在服务器上维护）图1. (a)由低功率边缘设备捕获的原始高灵敏度图像;（b）物联网情景：在t= 0处，边缘设备仅传输具有极低分辨率的缩略图，例如，30×30，服务器。然后，服务器计算下一个注视点（位置和大小），以从边缘设备查询更多的高敏锐度像素;（c）混合敏锐度图像，其包括到目前为止在t = T处接收到的所有像素; 3 .第三章。提出一种新的强化学习（RL）奖励来指导训练，使模型专注于导致高准确度的区域，同时限制总传输的高敏锐度像素。给定从远程边缘设备传输的低敏锐度图像，具有DRIFT的云服务器能够预测最具区别性的视觉线索的位置，并通过进一步与边缘设备交互来主动查询和合并这些视觉细节。由于固定动作的空间（位置和大小）很大，因此离散化/枚举该空间在实践中将是易处理的。因此，我们提出在连续空间中求解，并使用新的深度确定性策略梯度通过条件批评与教练（DDPGC 3）算法来训练foveation策略与原始DDPG算法[20]相比，进行了若干修改：首先，DDPG训练一个评论家来近似一个行动价值函数[43]来评估学习到的策略，并使用评估结果来指导强化学习。虽然这个动作值函数在[20]中的所有状态-动作对中全局共享，但我们发现这个全局函数在我们的视觉聚焦问题中很相反，我们提议训练评论家近似一个条件状态值函数，该函数在每个RL事件上都是唯一定义的其次，[20]中的演员网络参数完全基于评论家的评价进行更新然而，在早期的训练阶段，一个有缺陷的批评者很容易误导更新。因此，我们建议通过教练来更新演员网络[13]，即，通过批评者的策略评估以及由启发式预言生成的动作。我们观察到我们对DDPG的改进稳定了训练过程。贡献：（1）提出了一种主动图像敏锐度探索模型DRIFT ，用于需要高效数据传输的物联网应用。DRIFT能够从低敏度图像中顺序推断注视点，并基于混合敏度输入进行分类;（2）引入了一种新的奖励函数，使得所提出的DRIFT模型可以使用弱图像级类别标签而不是位置和大小的更细粒度标签进行训练;（3）我们支持基于图像通过（I）近似于在每个输入图像上条件化的唯一状态值函数的条件化评论家，以及（II）将评论家的评价与训练预言相结合的教练机制，对注视点演员网络进行姿势训练;（4）在五个细粒度分类数据集上的实验表明，与标准深度CNN模型相比，DRIFT以更少的像素实现了具有竞争力的性能。（5）此外，由于DRIFT发现了有区别的视觉特征，因此它还可以用于生成硬注意力，这提高了现有深度CNN模型的最后，尽管我们证明了所提出的模型2. 相关工作虽然有许多作品涉及边缘计算，但无线传感器网络（见[46，17，31]）和资源受限学习（参见[29，52，4，12，38，41]），这些工作的重点往往是一次性的，并且不考虑云和边缘设备之间的交互DRIFT是第一个提出顺序决策过程的组织，通过该过程，具有计算资源的云与带宽有限的边缘设备进行交互这种相互作用是细粒度分类问题所必需的。最近，已经提出了各种注意力模型[45，10，18，34，24]，使CNN能够关注多个视觉任务的特定图像区域。尽管如此，这些方法被优化用于导致低效数据传输的中心凹交互。特别地，它们仍然在单个高敏锐度水平输入上操作，并且不能从低/混合敏锐度输入顺序地推断注意力。因此，所有的图像细节必须作为输入被揭示，先验的，而不是一系列固定的积累。我们的研究与眼凹有关Deng等[9]发现，人类能够通过在严重模糊的图像上仅显示少数高清晰度区域（此处称为固定）来正确识别物体。因此，他们建议众包收集这样的位置注释（（边缘设备远程服务器t=1t=21254∞∞I=t并在这些区别性特征上训练检测器以提高分类精度。Matzen等人[25]扩展了这一概念，并通过初始化每个图像的数百个随机注视，并迭代地优化以基于它们对应的中央凹图像的分类分数来调整每个注视，这些蛮力方法需要每个图像传输太多的固定区域，因此与IoT设置不兼容。与采用低敏度输入的[9，25]不同，Almeidaet al. [2]和Recasens等人。[33]提出从具有标准输入大小的图像生成注意力地图，以向下采样背景[2]或向上采样前景[33]。生成注意力图的方法属于更广泛的注意力模型家族，其主要应用于图像分类[27，3，49，10，50]，分割[18]，视觉问题[[34][35][36][37][38][39]与深度CNN的情况一样，这些注意力模型需要传输完整的高敏锐度图像，并且它们的性能在低敏锐度输入上显著下降（参见第二节）。4）.相反，我们的论文侧重于从极低的敏锐度自动推断注视输入（例如30 ×30）。我们采用顺序和加法方法：所提出的DRIFT模型能够累积知识，递归地改进其注视点，并最终产生针对分类精度以及数据效率而优化的注视点位置。DRIFT学习避免穷举搜索，因此优于[25]中的蛮力在我们的RL公式中，注视被建模为由注视演员模型生成的动作序列，这在精神上类似于一些基于RL的对象检测工作，例如。[24、32、15、6、7]。然而，我们的工作有显著的不同，因为：（1）所提出的DRIFT在不对对象位置进行任何监督的情况下学习注视动作，因此它对大规模数据更具可扩展性;（2）我们的动作空间是无限的，而在[32，15，6，7]中，动作只能在一个限制列表中选择，这限制了模型输出的多样性;以及（3）在这些检测方法中，与全分辨率输入图像相比，我们的低敏锐度输入使用少得多的信息。3. 方法3.1. 物联网的视觉聚焦I高到云服务器，这导致分类精度高，但传输I高是昂贵的。我们对物联网管道的foveation定义为：（1）边缘设备将Ilow作为初始输入发送到云服务器。(2)服务器上的视觉聚焦模型推断固定点，其定义小圆形图像区域的坐标和半径。然后将坐标和半径(3)边缘设备仅在由注视点指定的I高(4)服务器将新接收的高敏锐度像素合并到Ilow，更新其后验，并且如果不确信则请求新坐标。直观地说，良好的视觉聚焦模型应该在准确性和传输效率之间达到平衡，即，它应该专注于最具区别性的图像区域，使得可以实现良好的分类结果，同时将整体传输的高敏锐度像素保持在非常低的量。我们将这种视觉聚焦管道视为马尔可夫决策问题（MDP）的一个实例我们采用RL来训练foveation模型，因为除了优化传输效率和分类准确性的目标之外，最佳foveation策略不应该在任何显式监督的情况下学习。因此，很难通过标准的监督学习来定义这种损失，但在RL中，这个训练目标可以很容易地通过奖励函数来反映。3.2. 马尔可夫决策过程公式我们认为物联网的视觉聚焦是一个顺序决策问题，其中视觉聚焦模型在离散时间步与动态环境E交互在每个时间步t，视觉聚焦模型接收观察状态st，采取动作at，并接收标量奖励rt=r（st，at）。这个MDP过程可以正式建模通过：动作空间A，状态空间S，从s t到s t+1，以及奖励函数r（s t，a t）。聚焦模型实现了一个策略函数π，它将状态映射到动作的分布：S→ P（A）。时间步t的收益率定义为折现后的收益率之和。真实奖励Rt=γ（i-t）r（si，ai），有折扣因子γ∈[0，1]。注意，回报Rt取决于所采取的行动，因此取决于策略π。目标RL的目的是找到最大化ex的最佳策略预期收益E r，s E，aπ[γ（t）r（s，a）]。接下来我们t t tt=0t t虽然我们的方法是一般的，具体来说，我们认为，sider图像分类的背景下的foveation我们假设任何场景/对象都有两种类型的表示：具有有限视觉细节的低敏锐度图像I低，以及高敏锐度图像I 高。例如，我高可以有标准的Inception-V3输入大小299×299，而Ilow是一个降采样版本，大小为30×30。一个低电量的边缘设备可以直接传输所有的细节，详细解释我们的MDP的每个组成部分情节：为了模拟物联网场景，我们拍摄标准输入大小的图像（例如，Inception-V3为299×299）作为I高电平，并将其降采样为I低电平（例如30×30）。因此，Ilow只留下非常有限的视觉细节（见图1）。（五）。在t=0时，边缘设备发送I低电平。在接收到Ilow时，服务器端环境E将其内插回输入大小，并将其用作视觉聚焦的初始输入1255不不不演员评论环境图2.我们的RL管道插图。评论家Qθ是在第二节解释。三点四分。模型（It=（Ilow）4，t=0）;在每个时间步长t∈{0，1，···，T-1}其中T是预定义的发作长度，视觉聚焦模型基于以下来预测注视动作at：其中t指定小的圆形图像区域的位置和大小;在接收到t时，边缘设备仅需要进一步发送由tin I high指定的新像素。然后，环境E通过用新接收的高敏锐度像素替换由t指定的It上的区域内的低敏锐度内容来将I t+1渲染到视觉聚焦模型。最后，在每个片段结束时，视觉聚焦模型基于所有累积的像素I T来预测类别标签。动作空间：由视觉聚焦模型生成的注视动作a包括小的圆形图像区域的预测空间位置和大小具体地说，a=（x，y，l），x，y，l∈[−1，1]，（1）其中（x，y）是指水平和垂直坐标。3.3. 相对比较密集奖励我们的目标是在t=T时用中心凹图像实现高准确度，通过其注视动作探索最小的高敏锐度内容。例如（图。1），要识别吉娃娃，好的注视点应该集中在吉娃娃的特征上，比如它的脸和耳朵。一个简单的策略是在每集结束时检查IT是否可以被g正确分类。然而，这种类型的奖励仅提供稀疏且陈旧的情节级反馈，因此难以与单个动作相关联（信用分配问题[30]）。作为解决方案，我们提出了一个稠密的奖励函数定义在每个时间步t。具体地说，给定动作at，观察从It变为It+1，由at指定的高敏锐度区域显露出来。给定当前事件的地面真值标签y，我们计算两个交叉熵损失1=XE （ g （ f （ It ））， y ）和 2=XE （ g （ f（It+1）），y）。Intu-t t固定中心的nates和l是半径。以促进训练时，动作被归一化为[-1，1]，而不是因此，一个好的固定应该增加分类模型<准确度-t tin real真实pixels像素.假设原始图像大小为（h，w），最小和最大的注视点半径是预先确定的。由B1和B2定义。对于动作a=（x，y，l），实数因此，Ward是通过相对比较给出的：ra= 1 −1 −2（三）固定点的位置和大小可以通过以下方式获得：（（1+x）w，（1+y）h，b1+（1+l）（b2−b1））。t t t此外，我们希望限制整体的高敏锐度CON-2 2 2状态空间：如图所示。1，我们有一个骨干网络f和一个分类网络g，其中f提取任何给定输入图像的视觉特征，g将提取的特征映射到分类预测。在时间步长并防止暴力固定。设pt表示通过预定义的阈值I（·）指示函数，在t处显示的高敏锐度像素的总量，我们的传输效率奖励是：t，观测It的状态st由下式给出st=[f（It），f（It−1），f（Ilocal），ht]，（2）re= −I（t=T，pt> thr）（4）回报rt则由以下总和定义：rt=ra+λre，其中t t其中f（It）和f（It−1）是曲线的特征向量rent和last step observations; f（I local）是最新注视点a t −1周围I t上的局部图像块（调整为输入大小）的特征向量; h t∈ R dim（a）×T是动作历史向量，由过去动作[a0，a1，···，a t−1，O]的串联表示，未来动作用零填充。初始状态：在t=0时，状态s0被初始化为[f（I0），O]，其中f（It−1），f（Ilocal），ht由零填充λ是控制精度和传输效率之间的权衡的超参数。3.4. 条件性批评者与教练的DDPG深度确定性策略梯度最近由Lillicrap等人提出。[20]，DDPG算法训练深度神经网络在高维连续动作空间中学习策略，因此适用于我们的问题。1256tlem。DDPG的关键见解是应用一个演员-评论家4.（·）是指线性插值。设置[35]。具体地说，我们假设策略π被建模为1257不不高高不不ttK不tt通过由w参数化的行动者网络，其输出连续的确定性策略a=πw（s）。为了优化策略，本文提出了一种典型的策略评估和改进方案.策略评估使用状态值函数Q（st，at）来评估当前策略其中Q（st，at）=E ri≥t，si>t <$E，ai>t <$π（Rt|s t，a t）。这里状态值函数用一个评价网络来近似由θ参数化，表示为Qθ，它只用于训练演员网络，并在测试期间被丢弃。策略改进使用批评者的估计来改进当前策略模型，使得可以达到更形式上，评论家网络被训练以优化Bellman方程的时间差（TD）项：Jθ= minEs，a，r<$β[（Qθ（st，at）−qt）2]，（5）不t tθ其中qt=rt+γQθ′（st+1，at+1），β是存储在重放缓冲器中的非策略（st，at，rt，st+1，at+1）样本的分布，Qθ′是用于生成TD目标qt的单独目标网络。目标网络的权重通过让它们缓慢地跟踪学习过的网络来更新：θ′=τθ+（1−τ）θ′，其中τ≠1。重放缓冲区和目标网络最初都是在[28]中引入的，关联训练样本并稳定训练过程。在[20]中，训练演员网络的目标是简单的，尽量提高评论家J w= max E st，at，rt<$β[Q θ（st，π w（st））].（六）W我们观察到，DDPG未能培养出一个好的眼凹演员。我们的分析如下：第一，全局状态值函数Q（st，at）太难用评论网络Qθ（st，at）来近似。直觉，给定（st，at），在原始公式中（等式5），期望评论家网络估计Rt，其反映了奖励rt。rt取决于地面实况标记y和g因为批评者没有权限根据定义，对于{Ihigh，g，y，rt}中的任何一个，t是困难的。针对这一问题，我们建议培训一名图3.我们的评论家（左）和演员（右）网络架构。FC：全连接层。BN：批归一化层。神经元：神经元的数量。括号：激活函数。为了解决这个问题，我们利用教练的想法[13]并引入了一个低成本的启发式oracle5，如[51]，它提供了一个比随机猜测更好的策略，也可以用于指导早期演员训练。演员教练培训目标定义为：Jw=maxEs，a，r，a′<$β，Ck<$β[（1−<$）Qθ（st，πw（st）|（Ck）W--|π w（s t）− a′|第2段]、第（8）段其中a'是给定st的启发式预言机所采取的动作，并且k是相对于训练进度呈指数递减的因子我们指的是这个演员-评论家RL训练策略与Eq。7-8作为条件批评与教练（DDPGC 3）的DDPG。使用之前的最终特征图f中的空间池化，我们与地面实况类的分类器执行1×1卷积然后，我们根据m的值对位置（x′，y′）进行（x′，y′，l′）来构造a′。即使我们天真的a'只有t t有条件的评论家，其近似为每个情节k定义的唯一状态值函数，Q（st，a t|C k），其中提供了一个粗略的线索，分类器低敏度观察It，它仍然有助于加速和稳定，Ck= [f（Ik），yk]是条件，Ikyk表示通过显著节省花费的精力，高清晰度图像和地面实况标签的第k个插曲通过在 Eq 中替换条件批评设 qt=rt+γQθ′（st+1，at+1|C），并作为事件的分布，我们有一个新的目标，批评家培训：J θ=minE s，a，r∈β，Ck∈[（Q θ（st，at|C k）−q t）2]，（7）θ第二，在Eq。6.演员网络由于批评者网络参数θ是随机初始化的，因此批评者这大大减缓了培训进程，阻碍了对行动者培训的统一关于由有缺陷的评论家在早期训练可以访问GT标签的oracle仅在训练期间使用，并在测试时丢弃。3.5. 实施、培训和部署实现我们使用张量流实现了我们的模型[1]。对于骨干f 和分类网络g ，我们采用了Inception-V3 架构[37]，即f输出一个2048-d的特征向量，g是一个全连接层[5]我们使用启发式这个术语，因为如果不对大的动作空间进行彻底搜索，就不可能实现真正的预言。FC1[无]FC300[Relu]FC400[Relu]BNFC3BNFC300[Relu]BNFC400[Relu]BN1258不数据集（%）幼崽acc pix汽车acc pix狗acc pix飞机acc pix食品101acc pix随机30.115.044.115.033.215.038.415.040.815.0中心59.315.055.315.058.415.069.615.042.315.0显著性37.515.529.714.839.816.133.615.428.112.2关注44.415.651.514.946.414.863.614.935.514.8BubbleNet65.5-------56.1-漂移74.410.182.811.571.614.186.714.475.511.4Ilow13.91.07.81.017.11.06.61.08.91.0我高81.6100.091.2100.081.8100.087.2100.085.0100.0漂移E80.132.688.533.678.035.688.035.881.933.6数据集（%）幼崽汽车狗空气食品双线性[21]84.191.3-84.1-美国有线电视新闻网[10]85.392.587.388.2-FCAN [22]84.391.588.9-86.3GP [44]85.892.8-89.885.7MAMC [36]86.292.884.8--DFL-CNN [42]87.493.1-91.7-inception-V381.691.281.887.285.0漂移I83.792.282.990.786.6ResNet-5083.292.285.789.885.8表1.IoT分类设置。DRIFT优于其他视觉聚焦方法，表2。标准分类设置。漂移一致性-而需要传输的像素基本上更少。明显提高基线的性能。7然后是softmax。我们的演员网络πw和评论家网络Qθ的架构如图所示3 .第三章。对于具有默认输入大小的给定主干，例如，对于Inception-V3为299×299，我们将Ihigh定义为标准输入图像，并通过将Ihigh下采样为30×30来生成Ilow(only保留1%像素）。我们把最小和最大的注视半径b1、b2~ 15和75，发作长度T~ 5，数据效率回报权衡λ为5。0，阈值thr为I高像素的25%，折扣因子γ为0。9，目标网络更新速率τ为1e-4。与[20]一样，我们将Ornstein-Uhlenbeck噪声[39]添加到我们的参与者策略中进行探索。训练我们首先用标准的分类损失在Ihigh上预训练g_bref 然后，我们通过Pro训练πw和QθDDPGC3算法（Sec.3.4）60个epoch，使用SGD优化器，批量大小为32，固定学习率为1e-4。对于开始的50个时期，我们冻结f和g，然后在剩余的时期中，f和g由a更新来执行细粒度的分类。为此，我们证明了DRIFT实现了最先进的性能，相对于能够访问完整高分辨率图像的经过充分训练的DNN模型，其高分辨率像素显著减少。在五个细粒度分类数据集上进行实验：CUB-200-2011 [40]，斯坦福汽车[16]，狗[8]，飞机[23]和食物-101 [5]。我们选择这些数据集是因为类别之间的区别是微妙的和高度局部的，这需要一个视觉聚焦模型来固定最具区分力的区域来对图像进行分类。表3总结了这些数据集的详细统计数据。只有图像级别的类别标签用于训练，而不使用边界框和部件等额外的注释。标准分类损失与中央凹图像IT为输入. RL的经验重放缓冲区β的大小为50，000。Eq.中用于指导的递减因子8被设置为0。7初始和衰减0。每1000次培训更新96次在训练期间，（st，at，a′，rt，st+1，at+1）个样本首先被推入重放缓冲区，然后被随机采样以更新演员和评论家。训练结束后，删除评论家网络。部分[f，πw，g]被维护在云服务器处。一旦接收到低敏锐度图像，πwf网络可以用于生成顺序的注视点，并且gf可以用于对所得到的中央凹图像进行分类。因此，πw和g都取fea。由共享骨干网生成的隧道。在需要服务器计算效率的现实部署中，我们看到我们没有限制πw使用廉价的特征，而g可以使用昂贵的特征，以便在数据和计算效率之间达到平衡。4. 实验我们的目标是物联网设置，由资源贫乏的边缘摄像头设备组成，将数据传输到云服务器7在表1和表2中，空白标记（-）表示结果不可用。表3.细粒度数据集的统计4.1. 物联网设置设置我们首先比较了在物联网场景下提出的DRIFT，如第2节所述。第3.1条具体地说，以低视敏度图像为初始输入，使用DRIFT算法生成不同视觉中心凹策略下的注视点，从边缘设备中获取更多高视敏度像素，最后使用训练好的fbg对视觉中心凹图像进行分类。对于此IoT设置，考虑两个标准：（1）分类准确度，和（2）高灵敏度像素的透射百分比。一个好的视觉聚焦模型应该实现高的分类精度，同时需要更少的高灵敏度像素。输入显著性注意我们的图4.混合视敏度中心凹图像的比较。数据集幼崽汽车狗空气食品#类别200196120100101#火车5,9948,14412,0006,66775,750测试次数5,7948,0418,5803,33325,2501259图5.所提出的DRIFT模型的定性结果每个单元格包含4个图像，从左到右：（重新缩放的）低敏锐度图像I低（输入），高敏锐度图像I高，DRIFT的中央凹图像I T，以及通过固定点周围的最紧密边界框（以绿色显示）缩放的高敏锐度图像。在IT上，固定动作也用红色圆圈表示。比较了七种物联网聚焦策略：（一）随机：固定在随机位置（均匀分布）;（2）中心：固定在图像中心;（3）显著性：给定一个输入图像，我们首先获得一个类别预测y_x，生成一个类别响应显著性y图，然后基于图值对固定位置进行采样。该过程重复T步;（4）注意力：我们用T部分训练了一个多注意力模型MA-CNN [50]。给定输入图像Ilow，它生成T个注视图，从该注视图采样T个注视位置(5) BubbleNet：BubbleNet [25]每个图像包含128个固定位置，迭代优化每个固定并基于预测熵选择最佳固定位置我们报告其公布的结果与相同的Inception架构;(6) DRIFT ：使用所提出的模型来生成顺序注视;（7）DRIFT E：在该策略中，如果我们的I T上的预测熵高于阈值，则我们改为探索I high中的所有高敏锐度像素。阈值是控制，使只有25%的测试图像是在全I高使用。对于（1-2），我们控制注视半径，以便探索15%的高敏锐度像素以便于比较。对于（3-4），我们随机抽样固定半径。8结果结果如表1所示。我们还提供了使用I低和I高作为上下文的直接分类结果。首先，观察DRIFT始终优于其他五种视觉聚焦策略。在传输类似数量或更少的高敏锐度像素的同时，DRIFT通过我们的固定方法实现了更高的准确性。例如，在飞机上[23]，我们达到86。7%的准确度，仅传输14。4%的高清晰度像素，只有0.5%，低于全高敏度图像的结果（87。2%）。此外，使用DRIFT E，我们能够获得更高的精度（88. 0%）。这表明DRIFT五、以具有有限信息的低敏锐度图像作为输入，它成功地固定在感兴趣的对象上（例如，黑狗），或辨别性视觉部分8.建议的DRIFT模型需要更少的高灵敏度像素，因此比较是公平的（见表1）。①的人。一个对象（例如，宝马的前灯和格栅）。其次，表1中的结果表明，像显着性[51]和注意力[50]这样的方法无法从低敏锐度输入中推断出良好的注视（图1）。4），faring worse than Center Fixations.这是因为（a）它们不是设计来在低/混合敏锐度输入上操作的，并且（b）它们不能识别先前的注视以通知未来的动作（DRIFT通过其提出的状态表示和由密集奖励引导的RL这是因为这些数据集是由具有中心偏差的人类人工构建的。对于中心优先不再成立的真实部署中的映像，我们可以预期DRIFT和中心固定之间的性能差距更大。4.2. 标准制定在验证了DRIFT在优化物联网数据传输方面的能力后具体地说，如图5、我们可以在DRIFT的注视点周围安装一个绑定框。该框类似于硬注意力，唯一的区别在于它是经由顺序视觉聚焦过程从低敏锐度输入图像生成的。在这种设置中，我们简单地将DRIFT视为硬注意力模型，并验证它是否可以在标准细粒度分类设置下提高任何基线分类模型的分类结果。具体来说，我们使用DRIFT的硬注意力来放大原始图像（图1）。（五）。给定一个基线模型，我们只需通过DRIFT的注意力将其预测融合到原始图像和缩放图像上我们测试了两个基本模型：Inception-V3 [37]和ResNet-50 [14]。对于所有五个数据集，它们都在ImageNet上进行了预训练[8]，并使用RMSProp优化器和32个批量大小进一步训练了30个epoch学习率初始化为0。01和衰减0。每4个时期96个。Inception-V3和ResNet-50 的输入大小分别为 299 和 448 。我们使用DRIFTI和DRIFTR来表示相应的1260命中次数+未命中次数图6.注视动作中的视觉模式每个单元格包含属于同一聚类的四个示例注视贴片数据集幼崽汽车狗空气随机8.034.825.611.9中心36.289.161.232.9漂移44.391.563.250.9累积（%）DDPG+ con. 评论家+教练漂移幼崽51.057.167.074.4汽车48.361.476.682.8狗53.858.566.671.6表4.本地化导致命中率。分类结果使用我们的硬注意力与Inception-V3和ResNet-50基线模型。结果表2显示了我们的结果。我们观察到DRIFT的注意力选择对分类准确率有明显的正效应。特别地，平均DRIFT I为1。绝对精度比Inception-V3高9%，而DRIFTR为2。比ResNet-50高1%，并且已经实现了比现有技术更好或相当的性能。这再次证明了DRIFT的能力，专注于区分区域和过滤掉背景杂波。请注意，要比较纯粹在表之间的准确性。1和2没有意义，因为表中的漂移和漂移E。1使用的像素少得多，分别只有约10%和30%的像素传输，同时实现的精度非常接近表中报告的最新技术水平。二、4.3. 讨论及分析DRIFT在哪里固定？首先，受[47]的启发，我们使用命中率来评估本地化性能。特别是，采用由DRIFT生成的框，如在Sec.在图4.2中，当框与地面实况框9的交集大于其自身面积的90%时，我们将框计数为命中，否则计数为未命中，然后测量#命中。本地化性能如表4所示。我们还展示了随机生成的盒子和位于中心的1/2图像大小的盒子的DRIFT显然，DRIFT其次，我们的目标是发现和可视化DRIFT的固定中的常见模式，以更好地理解其学习的视觉聚焦策略。具体来说，我们收集每个固定动作指定的局部图像块，并对其视觉特征进行k均值聚类（k=50 的最受欢迎的集群如图所示六、它是邪恶的-DRIFT在修复过程中执行隐式部件检测9CUB，汽车，狗和飞机提供地面实况边界框。表5.对中心凹图像的消融分析结果状态。本实验也展示了DRIFT在视觉发现中的潜在“C3”能提供多少增益？在保持所有其他设置不变的同时，我们用三种不同的策略重新训练了视觉聚焦演员网络π w：DDPG，DDPG +条件批评，和DDPG +教练。表5显示了其中央凹图像的分类结果（详细测试设置见第4.1）。DDPG [20]中的原始演员-评论家训练方案在我们的视觉聚焦问题中失败了，原因在第二节中分析。3.4，即，全局状态值函数难以由批评者近似，并且由随机初始化的批评者提供较少通过在每个训练片段上调节评论器，平均准确率提高了8。0%以上的三个数据集。此外，通过指导演员使用从启发式预言中采样的策略，减少探索工作，平均19。0%的性能增益。最后，完整的DRIFT模型，与建议的DDPGC 3算法训练，带来了25。绝对准确度平均提高2%;显然DDPGC 3训练了更好的视觉聚焦策略。5. 结论我们考虑了物联网场景，其中将高清晰度图像从边缘设备传输到云的成本超过了传输/功率预算。我们的解决方案是DRIFT，这是一种新颖的深度RL方法，用于生成具有中央凹视野的顺序注视。DRIFT避免了离散化状态-动作空间，这将是昂贵的，而是解决了连续控制问题。作为我们解决方案的一部分，我们引入了一种新的使用条件批评和教练策略，我们还提供了一个例子，塑造奖励功能，以加速收敛。实验结果表明，该方法在具有挑战性的分类任务上具有较高的准确率和数据效率。最后，虽然我们证明了所提出的模型1261引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。5[2] 安娜·菲利帕·阿尔梅达，鲁伊·菲格雷多，亚历山大·贝尔纳迪诺和何塞·桑托斯·维克多。人类视觉注意力的深度网络：使用中央凹视觉的混合模型。在伊比利亚机器人会议上，第117-128页。Springer，2017. 3[3] Jimmy Ba、Volodymyr Mnih和Koray Kavukcuoglu。具有视觉注意的多目标识别。 arXiv 预印本 arXiv ：1412.7755，2014。3[4] Tolga Bolukbasi，Kai-Wei Chang，Joseph Wang ，andVenkatesh Saligrama.资源受限的结构化预测。在2017年第31届AAAI人工智能会议上。2[5] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年欧洲计算机视觉会议6[6] 米里亚姆·贝尔和他的妻子，Xa vierGiro'-iNieto，费兰·马尔库和乔迪·托雷斯。具有深度再增强学习的分层对象检测。DeepLearningforImageProcessingApplications，31：164，2017。3[7] Juan C Caicedo和Svetlana Lazebnik。使用深度强化学习的主动对象定位。在IEEE计算机视觉国际会议论文集，第2488-2496页，2015年。3[8] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。六、七[9] Jia Deng，Jonathan Krause，and Li Fei-Fei.细粒度的众包实现细粒度的识别。在 Proceedings of the IEEEconference on computer vision and pattern recognition，第580-587页，2013年。二、三[10] 傅建龙，郑和良，陶梅。近看才能看得更清楚：用于细粒度图像识别的循环注意力卷积神经网络。在CVPR，第2卷，第3页，2017年。二、三、六[11] Malka N Halgamuge ， Moshe Zukerman ， KotagiriRamamo- hanarao，and Hai Le Vu.传感器能量消耗的估计电磁学研究进展B，2009年。1[12] ManjeshHanawal ， CsabaSzepesvari 和 VenkateshSaligrama。无监督顺序传感器采集。第20届人工智能和统计国际会议论文集，第803-811页。PMLR，2017年。2[13] He He，Jason Reynner和Hal Daume。通过指导进行模仿学习。神经信息处理系统，第3149-3157页，2012年。二、五[14] Kaiming He，Xiangyu Zhan

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于顺序固定的深度强化学习视觉聚焦模型在物联网细粒度识别中的应用

深度学习和物联网在废物管理中的应用

MATLAB模型在物联网中的应用：连接万物

大模型在物联网与智慧城市建设中的应用探索

深度学习在物联网工程专业的研究中的应用

基于图神经网络的物联网射频指纹识别方法研究

物联网 深度学习 场景识别 农业工程

基于图神经网络的物联网射频指纹识别方法研究，应该使用什么算法以及模型

基于图神经网络的物联网射频指纹识别方法研究，具体研究方法以及详细的过程

物联网在校园中的应用，包括相关文献

物联网在企业中的应用场景

基于区块链+物联网的产业链金融应用白皮书.pdf

可以把AI语言模型与物联网结合起来吗

物联网的感知识别层在日常生活中的运用

你可以就 多模态AI技术 强化学习和自我学习的发展 人工智能和物联网的融合三个方面进行一些论述吗

物联网文本检索基于文字的模型应用

联邦学习在物联网中的应用

物联网在生活中的应用场景

基于深度学习的花卉识别系统经济方面的可行性

物联网 深度学习 农业工程

最新资源

物联网深度学习场景识别农业工程

你可以就多模态AI技术强化学习和自我学习的发展人工智能和物联网的融合三个方面进行一些论述吗

物联网深度学习农业工程