高效的二值化目标检测器：BiDet

159 浏览量更新于2023-10-25 收藏 19.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20490BiDet: 一种高效的二值化目标检测器0王子威 1,2,3 , 吴子毅 1 , 卢吉文 1,2,3, � , 周杰 1,2,3,401 自动化系，清华大学，中国 2 智能技术与系统国家重点实验室，中国 3北京国家信息科学技术研究中心，中国 4 清华大学深圳国际研究生院，中国0{ wang-zw18, wuzy17 } @mails.tsinghua.edu.cn; { lujiwen,jzhou } @tsinghua.edu.cn0摘要0本文提出了一种名为BiDet的二值化神经网络学习方法，用于高效的目标检测。传统的网络二值化方法直接对具有受限表示能力的一阶或二阶检测器中的权重和激活进行量化，因此网络中的信息冗余导致大量的误报并且显著降低性能。相反，我们的BiDet通过冗余消除充分利用了二值化神经网络的表示能力进行目标检测，从而通过减少误报来提高检测精度。具体而言，我们将信息瓶颈（IB）原理推广到目标检测中，其中限制了高级特征图中的信息量，并最大化特征图与目标检测之间的互信息。同时，我们学习稀疏的目标先验，以便后验概率集中在具有信息的检测预测上，从而消除无关的误报。在PASCALVOC和COCO数据集上进行了大量实验证明，我们的方法在目标检测方面优于最先进的二值化神经网络。01. 引言0基于卷积神经网络（CNN）的目标检测器[7, 10, 22, 24,32]由于其强大的判别能力和泛化能力而取得了最先进的性能。然而，基于CNN的检测方法需要大量的计算和存储资源才能实现理想的性能，这限制了它们在移动设备上的部署。因此，开发具有轻量级架构和少量参数的检测器是可取的。为了降低深度神经网络的复杂性，0� 通讯作者 1 代码:https://github.com/ZiweiWangTHU/BiDet.git0图1. 在PASCAL VOC上使用二值化SSD检测器预测的对象示例。(a)和(b)分别通过Xnor-Net和我们提出的BiDet展示了检测结果，我们的方法显著减少了误报。(c)和(d)分别显示了训练集和测试集的信息平面动态，其中水平轴表示高级特征图与输入之间的互信息，垂直轴表示对象与特征图之间的互信息。与Xnor-Net相比，我们的方法去除了冗余信息并充分利用了网络的容量以实现更高的性能。（最佳观看效果为彩色）。0已经提出了几种模型压缩方法，包括修剪[12, 27,45]，低秩分解[16, 20, 28]，量化[9, 19, 41]，知识蒸馏[3,40, 42]，架构设计[29, 34, 44]和架构搜索[37,43]。在这些方法中，网络量化可以降低网络参数和激活的位宽，以实现高效的推理。在极端情况下，将神经网络的权重和激活二值化可以分别减少存储和计算成本32倍和64倍。然而，在目标检测中部署具有受限表示能力的二值化神经网络会导致大量的误报，因为网络中存在信息冗余。20500本文提出了一种BiDet方法，用于学习包括骨干部分和检测部分的二值化神经网络，以实现高效的目标检测。与现有方法直接对一阶或二阶检测器中的权重和激活进行二值化不同，我们的方法通过冗余消除充分利用了二值化神经网络的表示能力进行目标检测，从而通过消除误报来提高检测精度。具体而言，我们将信息瓶颈（IB）原理应用于二值化目标检测器的学习中，同时限制高级特征图中的信息量，并最大化目标检测与学习特征图之间的互信息。同时，在IB中利用了学习到的稀疏目标先验，以便后验概率集中在具有信息的预测上，并消除无关的误报。图1（a）和（b）分别显示了通过Xnor-Net[30]和我们的BiDet获得的预测正例的示例，后者显著减少了误报。图1（c）和（d）分别描述了训练集和测试集的信息平面动态，其中我们的BiDet去除了信息冗余并充分利用了网络的表示能力。在PASCAL VOC [6]和COCO[23]数据集上进行了大量实验证明，我们的BiDet在各种架构的目标检测中优于最先进的二值化神经网络。此外，BiDet可以与其他紧凑的目标检测器集成，以获得更快的加速和更少的存储。我们的贡献包括：0•据我们所知，我们提出了第一个包含骨干和检测部分的二值化网络，用于高效的目标检测。0•我们采用信息瓶颈原理进行冗余去除，充分利用二值神经网络的容量，并学习稀疏目标先验，将后验集中在信息丰富的检测预测上，从而提高检测准确性并消除误报。0• 我们在PASCALVOC和大规模COCO数据集上评估了提出的BiDet，与最先进的二值神经网络在目标检测方面进行了全面比较。02. 相关工作0网络量化：由于存储和计算的高效性，网络量化近年来得到了广泛的研究。现有的方法可以分为两类：权重和激活以一位或多位表示的神经网络。二值神经网络由于极高的压缩比显著降低了模型复杂性。Hubara等人[14]和Rastegari等人0[30]将神经网络中的权重和激活都二值化，并用xnor和bitcount操作代替乘积累加运算，其中应用了直通估计器来放松非可微的符号函数以进行反向传播。Liu等人[25]在连续卷积块之间添加了额外的快捷连接，以增强网络的表示能力。他们还使用自定义梯度来优化非可微网络。由于表示能力较低，二值神经网络在复杂任务（如目标检测）上的表现较差，因此提出了多位量化策略。Jacob等人[15]提出了一种用于目标检测推理的8位量化模型，他们的方法可以与高效的架构集成。Wei等人[42]应用知识蒸馏从大型全精度模型中学习8位神经网络，使其体积更小。Li等人[19]提出了四位全量化神经网络，并进行了硬件友好的实现。同时，通过提出的技术克服了训练过程中的不稳定性。然而，多位神经网络仍然面临存储和计算成本高的问题。在目标检测中直接应用具有受限表示能力的二值神经网络会导致大量误报，并严重降低性能，因为网络中存在信息冗余。0目标检测：目标检测由于其广泛的应用而引起了计算机视觉领域的广泛关注。现代基于CNN的检测器分为两阶段和一阶段检测器。在前者中，R-CNN[8]是最早的基于CNN的检测器之一，具有边界框回归和分类的流程。为了提高效率和效果，不断提出了改进方法。Fast R-CNN[7]在检测框架中引入了ROI池化，以实现更高的准确性和更快的推断速度。Faster R-CNN[32]提出了区域建议网络，有效地生成区域建议而不是手工制作的建议。FPN[21]引入了自顶向下的架构，具有横向连接和多尺度特征，以整合低级和高级特征。在后者方面，SSD [24]和YOLO[31]直接预测边界框和类别，而不需要生成区域建议，因此可以在GPU上实现实时推断，并具有竞争性的准确性。RetinaNet[22]提出了焦点损失来解决前景-背景类别不平衡的问题。然而，基于CNN的检测器的存储和计算成本较高，因此它们的部署受到限制。0信息瓶颈：信息瓶颈（IB）原理最早由[38]提出，其目标是从输入中提取与任务相关的信息，因此IB原理广泛应用于压缩中。信息瓶颈原理强制执行相互信息20510骨干部分0�0�0头部0一阶段检测器0检测部分0两阶段检测器0�0�0类别位置0类别位置0�0图2.基于信息瓶颈的检测器的流程，包括骨干部分和检测部分。实线表示网络中的前向传播，虚线表示从参数化分布Φ中进行采样。高级特征图F是从由骨干网络参数化的分布中采样得到的。我们的BiDet的检测部分可以同时采用一阶段和两阶段检测器框架。对于一阶段检测器，头网络参数化对象类别和位置的分布。对于两阶段检测器，区域建议网络（RPN）参数化位置的先验分布，后验由细化网络参数化。（最佳观看效果为彩色）0输入和学习特征之间的互信息最小化，同时最大化特征和任务的真值之间的互信息。Louizos等人[26]和Ullrich等人[39]利用最小描述长度（MDL）原则，相当于信息瓶颈，对深度神经网络进行随机量化。此外，他们使用稀疏马蹄铁和高斯混合先验进行权重学习，以减少量化误差。Dai等人[5]通过变分信息瓶颈修剪单个神经元，通过在一部分神经元中聚合有用信息来最小化相邻层之间的冗余。除了网络压缩，信息瓶颈还用于紧凑特征学习。Amjad等人[1]提出了随机深度神经网络，其中信息瓶颈可以用于学习高效的分类表示。Shen等人[35]将信息瓶颈应用于现有哈希模型，以生成有效的二进制表示，从而充分利用数据语义。在本文中，我们将信息瓶颈原则扩展到二进制检测网络中，以减少冗余，减轻误报，并显著提高检测精度。03. 方法0在本节中，我们首先将信息瓶颈原则扩展到目标检测中，以消除信息冗余。然后，我们介绍了学习稀疏对象先验的细节，该先验将后验集中在具有误报消除的信息预测上。最后，我们提出了高效的二进制目标检测器。03.1. 目标检测的信息瓶颈0信息瓶颈（IB）原则直接与压缩相关，最佳假设是数据不匹配和模型复杂性应同时最小化。0优化压缩模型，使与任务无关的冗余信息在压缩模型中被排除，轻量级模型的容量得到充分利用。目标检测可以被视为具有以下马尔可夫链的过程：0X → F → L, C (1)0其中，X表示输入图像，F表示骨干部分输出的高级特征图，C和L分别表示对象的预测类别和位置。根据马尔可夫链，信息瓶颈原则的目标可以写成如下形式：0min φb,φd I(X;F) - βI(F;C,L) (2)0其中，φb和φd分别是骨干和检测部分的参数。I(X;Y)表示两个随机变量X和Y之间的互信息。最小化图像和高级特征图之间的互信息约束了检测器提取的信息量，最大化高级特征图和目标检测之间的互信息则强制检测器保留与任务相关的更多信息。因此，与目标检测无关的冗余信息被去除。图2展示了基于信息瓶颈的检测器的流程，信息瓶颈原则可以应用于传统的一阶段和两阶段检测器。我们根据互信息的定义重新写出了（2）式的第一项：0I(X; F) = Ex � p(x)Ef � p(f|x)log p(f|0p(f) (3)0prior distribution of x and f respectively, and E representsthe expectation. p(f|x) is the posterior distribution of thehigh-level feature map conditioned on the input. We pa-rameterize p(f|x) by the backbone due to its intractability,where evidence-lower-bound (ELBO) minimization is ap-plied for relaxation. To estimate I(X; F), we sample thetraining set to obtain the image x and sample the distribu-tion parameterized by the backbone to acquire the corre-sponding high-level feature map f.The location and classiﬁcation of objects based on thehigh-level feature map are independent, as the boundingbox location and the classiﬁcation probability are obtainedvia different network branches in the detection part. Themutual information in the second term of (2) is factorized:p(ci) = IMi · cat(1n + 1 · 1n+1) + (1 − IMi) · cat([1, 0n])20520图3.优化前后的检测到的物体及其对应的置信度得分（a）和（b）。通过最小化交替目标，不同检测到的物体之间的置信度得分对比显著增加。由于NMS消除了置信度低于阈值的正样本，因此获得了稀疏的物体先验，并且强制使后验集中在信息丰富的预测上。（最佳观看效果为彩色）。0I(F; C, L) = I(F; C) + I(F; L) (4)0类似于（3），我们将高级特征图和类别之间的互信息重写为：0I(F; C) = Ef � p(f|x)Ec � p(c|f)log p(c0p(c) (5)0其中c是包括背景类在内的物体类别标签。p(c)和p(c|f)分别表示特征图给定时的类别先验分布和后验类别分布。与(3)的计算方式相同，我们利用检测部分的分类分支网络对分布进行参数化。同时，我们将图像划分为多个块以进行多目标检测。对于SSD等单阶段检测器，我们将高级特征图单元投影到原始图像以获得块划分。对于0对于FasterR-CNN等两阶段检测器，我们将ROI缩放到原始图像以进行块划分。c ∈Z1×b表示图像中b个块的物体类别。我们将ci定义为c的第i个元素，表示位于图像第i个块中心的物体的类别。如果块不包含任何groundtruth物体的中心，则将块的类别分配给背景。由于定位包含锚点的偏移参数和缩放参数，我们将物体位置和高级特征图之间的互信息重写为：0I(F; L) = Ef � p(f|x)El1 � p(l1|f)El2 � p(l2|f)log p(l1|f)p(l2|f)0p(l1)p(l2)0其中，l1 ∈R2×b表示图像中b个块中锚点的水平和垂直偏移量，l2 ∈R2×b表示锚点的高度和宽度缩放偏移量。对于中心坐标为(x,y)位于第j个块中，高度为h，宽度为w的锚点，偏移量会按照以下方式改变边界框：(x, y) → (x, y) + l1,j，(h, w) → (h,w) ∙exp(l2,j)，其中l1,j和l2,j表示l1和l2的第j列。基于特征图的偏移量的先验和后验分别表示为p(l1)和p(l1|f)。类似地，缩放偏移量具有基于特征图的先验和后验分别表示为p(l2)和p(l2|f)。我们利用检测部分的定位分支网络对分布进行参数化。03.2. 学习稀疏对象先验0由于BiDet中的特征图是二值化的，我们利用具有相等概率的二项分布作为高级特征图 f的先验。我们以以下形式分配对象定位的先验：p ( l 1 ,j ) = N ( µ 0 1 ,j , Σ 0 1 ,j ) 和 p ( l 2 ,j ) = N ( µ 0 2 ,j , Σ 02 ,j ) ，其中 N ( µ , Σ ) 表示具有均值 µ 和协方差矩阵 Σ的高斯分布。对于一阶段检测器，对象定位的先验 p ( l 1 ,j) 和 p ( l 2 ,j )假设为二维标准正态分布。对于两阶段检测器，区域建议网络（RPN）输出高斯先验的参数。由于二值检测网络中出现了大量的误报，学习检测部分的稀疏对象先验可以使后验集中在具有信息的检测预测上，并消除误报。对象分类的先验定义如下：0其中 I x 是指示函数，I 1 = 1，I 0 = 0，M i 是块掩码 M的第i个元素，M ∈ { 0 , 1 } 1 × b 。cat ( K )表示具有参数 K 的分类分布。1 n 和 0 n分别是n维全1向量和全0向量，其中 n是类别的数量。具有相等概率的多项分布minsi − 1mm�i=1si log si(6)min J = J1 + J2= (�t,slog p(fst|x)p(fst)− βb�i=1log p(ci|f)p(l1,i|f)p(l2,i|f)p(ci)p(l1,i)p(l2,i))− γ · 1mm�i=1si log si(7)20530如果 M i等于1，则在第i个块中，类先验被用于类别分布。否则，对于先验类别分布，背景类的概率为1，其他类的概率为零。当 M i等于零时，根据(5)，检测部分明确地预测第i个块中的对象分类为背景。为了获得具有较少预测正样本的对象分类的稀疏先验，我们最小化块掩码 M的L1范数。由于不可微性，我们提出了一种优化 M的替代方法，目标函数如下所示：0其中 m = || M || 1 表示图像中检测到的前景对象的数量，si 是第i个预测前景对象的归一化置信度得分，满足 m i =1 si = 1。如图3所示，最小化(6)增加了不同预测对象之间置信度得分的对比度，并且通过非极大值抑制（NMS）算法将置信度得分较低的预测对象分配为负样本。因此，块掩码变得更加稀疏，预测对象更少，并且后验集中在具有信息的预测上，消除了无信息的误报。03.3. 高效的二值化目标检测器0本节首先简要介绍具有二值权重和激活的神经网络，然后详细说明我们的BiDet的学习目标。设 W l r为第l层给定L层检测模型中的实值权重，A l r为全精度激活。在前向传播过程中，通过符号函数对权重和激活进行二值化：W l b = sign ( W l r ) 和 A l b = sign( W l r ⊙ A l b ) 。sign表示逐元素的符号函数，将大于零的数映射为1，否则映射为-1，⊙表示由xnor和bitcount操作组成的逐元素二值乘积。由于符号函数的不可微性，我们使用直通估计器（STE）来计算近似梯度并在反向传播阶段更新实值权重。提出的BiDet的学习目标如下所示：0其中 γ是一个超参数，用于平衡假阳性消除的重要性。后验分布0假设 p ( c i | f ) 是分类分布 cat ( K i ) ，其中 K i ∈ R 1 × (n +1) 是参数，n是类别数。我们假设位移和尺度偏移的后验分布遵循高斯分布：p ( l 1 ,j | f ) = N ( µ 1 ,j , Σ 1 ,j ) 和 p ( l 2 ,j | f ) = N (µ 2 ,j , Σ 2 ,j )。二值高级特征图中第 s 行和第 t列的元素的后验分布 p ( f st | x ) 被分配给二项分布 cat ([ pts , 1 - p ts ])，其中 p ts 是 f st为1的概率。所有的后验分布都由神经网络参数化。J 1表示在目标检测中使用的信息瓶颈，其目标是消除信息冗余并充分利用二值神经网络的表示能力。J 2的目标是使目标先验稀疏化，以便后验分布集中在具有信息量的预测上，并消除假阳性。在学习目标中，二项分布中的p ( f st ) 是一个常数。同时，通过 J 2强制施加稀疏目标分类先验，使得 p ( c i )也被视为一个常数。对于单阶段检测器，常数 p ( l 1 ,i ) 和p ( l 2 ,i ) 遵循标准正态分布。对于两阶段检测器，p ( l 1 ,i) 和 p ( l 2 ,i )由RPN参数化，通过目标函数进行学习。输出二值高级特征图参数的骨干网络的最后一层在训练中是实值的，用于蒙特卡洛采样，在推理过程中使用符号函数进行二值化。同时，用于对象类别和位置分布的参数输出层保持实值，以实现准确的检测。在推理过程中，我们舍弃了位置偏移的协方差矩阵的网络分支，并将所有位置预测分配为均值以加速计算。此外，对象类别的预测设置为具有最大概率的类别，以避免耗时的随机采样。04. 实验0在本节中，我们对两个目标检测数据集PASCAL VOC[6]和COCO[23]进行了全面的实验评估。我们首先描述了我们的BiDet的实现细节，然后通过消融研究验证了IB和稀疏目标先验对二值化目标检测器的有效性。最后，我们将我们的方法与目标检测任务中的最先进的二值神经网络进行了比较，以展示所提出的BiDet的优越性。04.1. 数据集和实现细节0我们首先介绍我们进行实验的数据集和数据预处理技术：PASCAL VOC：PASCALVOC数据集包含来自20个不同类别的自然图像。我们在VOC 2007和VOC2012的trainval集上训练了我们的模型，这些集合包含大约16k张图像，然后我们评估了我们的方法20540在VOC2007测试集上进行了评估，包括约5k张图像。我们使用平均精度均值（mAP）作为评估指标，按照[6]的方法。COCO：COCO数据集包含来自80个不同类别的图像。我们在2014年的COCO目标检测赛道上进行了实验。我们使用训练集的80k张图像和从验证集中采样的35k张图像（trainval35k[2]）组合训练了我们的模型，并在验证集中剩余的5k张图像（minival[2]）上测试了我们的方法。按照标准的COCO评估指标[23]，我们报告了IoU ∈[0.5:0.05:0.95]的平均精度（AP），表示为mAP@[.5,.95]。我们还报告了AP 50、AP 75以及AP s、AP m和APl，以进一步分析我们的方法。我们使用SSD300[24]和Faster R-CNN[32]检测框架作为BiDet的骨干网络，其骨干网络分别为VGG16 [36]和ResNet-18[11]。按照[14]中的二值神经网络实现，我们保持了检测网络中的第一层和最后一层为实值。在使用SSD300和FasterR-CNN检测框架训练BiDet时，我们使用了[24]和[32]中的数据增强技术。在大多数情况下，骨干网络在图像分类任务中预训练于ImageNet[33]。然后，我们联合微调骨干部分并训练目标检测部分。批量大小设置为32，并应用Adam优化器[17]。学习率从0.001开始，在第6和第10个epoch时乘以0.1进行衰减，共训练12个epoch。超参数β和γ分别设置为10和0.2。04.2. 消融研究0由于信息瓶颈原则消除了二值化目标检测器中的冗余信息，并且学习到的稀疏目标先验将后验集中在具有假阳性缓解的信息预测上，检测精度得到了显著提高。为验证信息瓶颈原则和学习到的稀疏先验的有效性，我们进行了消融研究，评估了我们的BiDet在目标函数的超参数β和γ方面。我们采用了SSD检测框架和VGG16主干的BiDet在PASCALVOC数据集上。我们分别报告了mAP、高级特征图与目标检测I（F；L，C）之间的互信息、假阳性的数量和假阴性的数量与β和γ的关系如图4（a）、（b）、（c）和（d）所示。根据结果，我们观察到信息瓶颈原则和学习到的稀疏目标先验的影响如下。通过观察图4（a）和（b），我们得出结论，mAP和I（F；L，C）呈正相关关系，因为它们分别表示检测性能和相关信息的数量。中等β提供了提取信息和表示能力之间的最佳权衡。0图4.关于超参数β和γ的消融研究，展示了（a）mAP的变化、（b）高级特征图与目标检测I（F；L，C）之间的互信息、（c）假阳性的数量和（d）假阴性的数量（最佳观看颜色）。0小β未能利用网络的表示能力，因为通过正则化高级特征图限制了提取信息的数量，而大β则强制网络学习冗余信息，导致严重过拟合。同时，中等γ提供了最佳的稀疏目标先验，使得后验集中在最具信息量的预测上。小γ无法稀疏化预测的目标，而大γ则使后验无法表示具有过度稀疏性的信息对象。通过比较假阳性和假阴性与β和γ的变化，我们知道中等β最显著地减少了假阳性的数量，而改变β并不明显地改变了假阴性的数量，这意味着冗余消除仅减轻了无信息的假阳性，而保持了有信息的真阳性不变。同时，小γ未能约束假阳性，而大γ明显增加了假阴性的数量，这两者都显著降低了性能。04.3. 与最先进方法的比较0在本节中，我们将提出的BiDet与PASCALVOC和COCO数据集上的最先进二进制神经网络进行比较，包括BNN [4]、Xnor-Net [30]和Bi-Real-Net[25]。作为参考，我们报告了包含DoReFa-Net [46]和TWN[18]的多位量化网络以及轻量级网络MobileNetV1[13]的检测性能。SSD300300 × 300VGG16−32/32100.28MB31, 75072.4MobileNetV130.07MB1, 15068.0VGG1620550表1. 在PASCALVOC数据集上，将参数大小、FLOPs和mAP（%）与最先进的二进制神经网络在一阶段和两阶段检测框架中进行比较。给出了具有实值和多位主干的检测器作为参考。BiDet（SC）表示具有额外快捷方式的提出方法的架构。0框架输入主干量化 W/A（位） #参数 MFLOPs mAP0TWN 2/32 24.54 MB 8,531 67.80DoReFa-Net 4/4 29.58 MB 4,661 69.20BNN022.06 MB 1,275 42.00Xnor-Net 22.16 MB 1,279 50.20BiDet 22.06 MB 1,275 52.40Bi-Real-Net 1/1 21.88 MB 1,277 63.80BiDet (SC) 21.88 MB 1,277 66.00MobileNetV1 Xnor-Net 1/1 22.48 MB 836 48.90BiDet 22.48 MB 836 51.20Faster R-CNN 600×1000 ResNet-180-32/32 47.35 MB 36,013 74.50TWN 2/32 3.83 MB 9,196 69.90DoReFa-Net 4/4 6.73 MB 4,694 71.00BNN02.38 MB 779 35.60Xnor-Net 2.48 MB 783 48.40BiDet 2.38 MB 779 50.00Bi-Real-Net 1/1 2.39 MB 781 58.20BiDet (SC) 2.39 MB 781 59.50表2. 在COCO数据集上，SSD300和Faster R-CNN检测框架中具有最先进的二值化目标检测器的mAP@[.5,.95]（%），不同IOU阈值下的AP和不同尺寸目标的AP进行比较，其中报告了实值和多比特检测器的性能作为参考。BiDet(SC)表示具有额外快捷连接的提出方法的架构。0框架输入主干量化 mAP@[.5, .95] AP50 AP75 (%) APs APm APl0SSD300 300×300 VGG160-23.2 41.2 23.4 5.3 23.2 39.60TWN 16.9 33.0 15.8 5.0 16.9 27.20DoReFa-Net 19.5 35.0 19.6 5.1 20.5 32.80BNN 6.2 15.9 3.8 2.4 10.0 9.90Xnor-Net 8.1 19.5 5.6 2.6 8.3 13.30BiDet 9.8 22.5 7.2 3.1 10.8 16.10Bi-Real-Net 11.2 26.0 8.3 3.1 12.0 18.30BiDet (SC) 13.2 28.3 10.5 5.1 14.3 20.50Faster R-CNN 600×1000 ResNet-180-26.0 44.8 27.2 10.0 28.9 39.70TWN 19.7 35.3 19.7 5.1 20.7 33.30DoReFa-Net 22.9 38.6 23.7 8.0 24.9 36.30BNN 5.6 14.3 2.6 2.0 8.5 9.30Xnor-Net 10.4 21.6 8.8 2.7 11.8 15.90BiDet 12.1 24.8 10.1 4.1 13.5 17.70Bi-Real-Net 14.4 29.0 13.4 3.7 15.4 24.10BiDet (SC) 15.7 31.0 14.4 4.9 16.7 25.40PASCALVOC数据集上的结果：表1展示了不同量化方法和检测框架的计算复杂度、存储成本和mAP的比较。我们的BiDet在SSD300检测器上加速计算并节省存储空间24.90倍和4.55倍，在FasterR-CNN检测器上加速计算并节省存储空间46.23倍和19.81倍。在FasterR-CNN检测器中，效率提高更为显著，因为SSD300中的头网络具有多个实值输出层用于多尺度特征提取。0与最先进的二值化神经网络相比，提出的BiDet在SSD300和FasterR-CNN框架上分别通过更少的FLOPs和参数数量，将Xnor-Net的mAP提高了2.2%和1.6%。正如[25]中所示，添加连续卷积层之间的额外快捷连接可以进一步增强二值化神经网络的表示能力，我们还采用了具有额外跳跃连接的架构来评估我们的BiDet。由于信息冗余，20560图5. 在PASCALVOC数据集上的定性结果。顶部一行显示了Xnor-Net预测的目标，底部一行显示了我们的BiDet检测到的目标。提出的BiDet通过去除信息冗余来充分利用网络容量，并学习稀疏目标先验以消除误报（最佳观看效果为彩色）。0与其完全精确的对应物相比，Bi-Real-Net的性能在一阶段和两阶段检测框架中都显著下降。相反，我们的BiDet在学习二值化神经网络进行目标检测时，采用了信息瓶颈原理，并通过去除冗余来充分利用网络容量。因此，所提出的BiDet在SSD300和FasterR-CNN检测器中将Bi-Real-Net的mAP分别提高了2.2％和1.3％，而不增加额外的计算和存储成本。图5显示了在SSD300检测框架中使用VGG16的Xnor-Net和我们的BiDet的定性结果，其中所提出的BiDet显著减少了误报。由于一阶段和两阶段检测器中的不同流水线，所提出的BiDet与FasterR-CNN获得的mAP比SSD300少。如[22]所分析的，一阶段检测器面临着严重的正负类别不平衡问题，而两阶段检测器则不受此问题的困扰，因此一阶段目标检测框架从所提出的BiDet中获得了更多的好处，该框架学习了稀疏的对象先验知识，将后验概率集中在具有误报消除的信息预测上。此外，我们的BiDet可以与其他高效网络集成在目标检测中进一步提高计算速度和节省存储空间。我们将我们的BiDet作为插件模块在具有MobileNetV1网络的SSD检测器中使用，并分别节省了1.47倍和1.38倍的计算和存储成本。与直接使用Xnor-Net在MobileNetV1中对权重和激活进行二值化的检测器相比，BiDet在mAP上取得了显著的提升，这说明了对于容量极低的网络来说，去除冗余对于提高性能的有效性。COCO上的结果：COCO数据集比PASCALVOC对目标检测更具挑战性，因为具有高度多样性和大规模。表2展示了mAP、不同IOU阈值下的AP和对象的AP。0与最先进的二值化神经网络Xnor-Net相比，由于信息冗余的去除，我们的BiDet在SSD300和FasterR-CNN检测框架中将mAP提高了1.7％和1.7％。此外，所提出的BiDet还通过额外的快捷方式提高了二值化的一阶段和两阶段检测器的mAP分别为2.0％和1.3％。与网络量化的基线方法相比，我们的方法在不同IOU阈值下的AP和不同大小的对象的AP方面表现更好，这证明了在不同应用环境中的通用性。05. 结论0在本文中，我们提出了一种称为BiDet的二值化神经网络学习方法，用于高效的目标检测。所提出的BiDet通过信息瓶颈原理去除冗余信息，充分利用网络的表示能力，并通过强制后验概率集中在信息预测上来消除误报，从而显著提高了检测精度。大量实验证明了BiDet在目标检测中相对于最先进的二值化神经网络的优越性。0致谢0本工作得到了中国国家重点研发计划（编号2017YFA0700802）、国家自然科学基金（编号61822603、U1813218、U1713214和61672306）以及深圳市基础研究基金（编号JCYJ20170412170602564）和清华大学创新科研计划的部分支持。20570参考文献0[1] Rana Ali Amjad和Bernhard ClausGeiger。使用信息瓶颈原理学习基于神经网络的分类表示。TPAMI，2019年。[2] Sean Bell，C Lawrence Zitnick，KavitaBala和RossGirshick。内外网络：使用跳池化和循环神经网络在上下文中检测对象。在CVPR中，页2874-2883，2016年。[3] GuobinChen，Wongun Choi，Xiang Yu，Tony Han和ManmohanChandraker。使用知识蒸馏学习高效的目标检测模型。在NIPS中，页742-751，2017年。[4] Matthieu Courbariaux，YoshuaBengio和Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。在NIPS中，页3123-3131，2015年。[5] Bin Dai，ChenZhu和DavidWipf。使用变分信息瓶颈压缩神经网络。arXiv预印本arXiv:1802.10399，2018年。[6] Mark Everingham，Luc VanGool，Christopher KI Williams，John Winn和AndrewZisserman。帕斯卡视觉对象类别（voc）挑战。IJCV，88（2）：303-338，2010年。[7] RossGirshick。快速r-cnn。在ICCV中，页1440-1448，2015年。[8]Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。用于准确的目标检测和语义分割的丰富特征层次结构。在CVPR中，页580-587，2014年。[9] Ruihao Gong，XianglongLiu，Shenghu Jiang，Tianxiang Li，Peng Hu，JiazhenLin，Fengwei Yu和JunjieYan。可微软量化：连接全精度和低位神经网络。arXiv预印本arXiv:1908.05033，2019年。[10] Kaiming He，GeorgiaGkioxari，Piotr Doll´ar和RossGirshick。掩蔽r-cnn。在ICCV中，页2961-2969，2017年。[11]Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在CVPR中，页770-778，2016年。[12] Yihui He，Xiangyu Zhang和JianSun。用于加速非常深的神经网络的通道修剪。在ICCV中，页1389-1397，2017年。[13] Andrew G Howard，Menglong Zhu，BoChen，Dmitry Kalenichenko，Weijun Wang，TobiasWeyand，Marco Andreetto和HartwigAdam。移动网络：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861，2017年。[14] Itay Hubara，MatthieuCourbariaux，Daniel Soudry，Ran El-Yaniv和YoshuaBengio。二值化神经网络。在NIPS中，页4107-4115，2016年。[15] Benoit Jacob，Skirmantas Kligys，Bo Chen，MenglongZhu，Matthew Tang，Andrew Howard，HartwigAdam和DmitryKalenichenko。用于仅使用整数算术推理的神经网络的量化和训练。在CVPR中，页2704-2713，2018年。[16] HyejiKim，Muhammad Umar Karim Khan和Chong-MinKyung。高效神经网络压缩。在CVPR中，页12569-12577，2019年。[17] Diederik P Kingma和JimmyBa。Adam：一种用于随机优化的方法。arXiv预印本arXiv:1412.6980，2014年。[18] Fengfu Li，Bo Zhang和BinLiu。三值权重网络。arXiv预印本arXiv:1605.04711，2016年。0[19] Rundong Li，Yan Wang，Feng Liang，HongweiQin，Junjie Yan和Rui Fan. 用于目标检测的完全量

下载后可阅读完整内容，剩余1页未读，立即下载