没有合适的资源?快使用搜索试试~ 我知道了~
2430∼实现无ISP低功耗计算机视觉Gourav Datta,Zeyu Liu,Zihan Yin,Linyu Sun,Akhilesh R.彼得·贾斯瓦尔Beerel University of Southern California,Los Angeles,USA{gdatta,liuzeyu,zihanyin,linyusun,akhilesh,paberel}@ usc.edu摘要当前的计算机视觉(CV)系统使用图像信号处理(ISP)单元来将由图像传感器捕获的高分辨率原始图像转换成视觉上令人愉悦的RGB图像。通常,CV模型在这些RGB图像上进行训练,并在各种复杂的视觉任务(如物体检测)上产生了最先进的(SOTA)此外,为了将这些模型部署在资源受限的低功率设备上,最近的工作已经提出了传感器内和像素内计算方法,其试图部分/完全绕过ISP,并且通过对初始卷积神经网络(CNN)层中的激活图进行下采样来在图像传感器和CV处理单元之间产生显著的然而,由于图像传感器捕获的原始图像与用于训练的ISP处理图像相比此外,很难在原始图像上训练深度CV模型,因为大多数(如果不是全部)大型开源数据集由RGB图像组成为了减轻这种担忧,我们建议反转ISP管道,它可以将任何数据集的RGB图像转换为原始图像,并在原始图像上进行模型训练。我们发布了COCO数据集的原始版本,这是通用高级视觉任务的大规模基准对于无ISP CV系统,在这些原始图像上进行训练的结果是7。与依赖传统ISP处理的RGB数据集进行训练相比,视觉唤醒工作(VWW)数据集的测试准确性提高了1%。为了进一步提高无ISP CV模型的准确性并增加通过传感器内/像素内计算获得的能量和带宽益处,我们提出了一种能量有效形式的模拟像素内去马赛克,其可以与像素内CNN计算耦合。当对PASCALRAW数据集的真实传感器捕获的原始图像进行评估时,我们的方法得到了8。1%的增长率。最后,我们演示了另外20个。5%的mAP增加,通过使用一个新的应用程序的少镜头学习与30镜头,每个新的PASCALRAW数据集,构成3类。代码可在www.example.com获取https://github.com/godatta/ISP-less-CV。1. 介绍现代高分辨率相机产生大量的视觉数据,这些数据以原始拜耳彩色滤光片阵列(CFA)的形式排列,也称为马赛克图案,如图所示。1,需要为下游CV任务处理[43,1]。ISP单元由几个流水线处理阶段组成,通常在CV处理之前使用,以将原始镶嵌图像转换为RGB计数器[20,42,26,29]。将这些单通道CFA图像转换为三通道RGB图像的ISP步骤称为去马赛克。从历史上看,ISP已被证明是非常有效的计算摄影应用程序,其中的目标是生成的图像是美观的人眼[29,8]。然而,它对于高级CV应用程序(例如智能安全摄像头的人脸检测)是否重要,其中传感器数据不太可能被任何人查看?现有的工作[42,20,26]表明,对于大规模图像识别任务,大多数ISP步骤可以被丢弃,测试精度略有下降。 ISP的去除可以潜在地使现有的传感器内[31,10,2]和像素内[5,27,12,13,14]计算范例能够处理CV计算,例如部分地在传感器中的CNN,并且减少在传感器和CV系统之间的数据传输中引起的带宽和能量此外,大多数具有几个MPixels分辨率的低功耗相机没有板载ISP[3],因此需要在片外实现ISP,从而增加了整个CV系统的能耗。虽然ISP移除可以促进资源受限边缘设备中的模型部署,但一个关键挑战是用于训练CV模型的大多数大型数据集都是ISP处理的。由于原始图像和RGB图像之间存在较大的协方差偏移(请参见图1,其中我们显示了RGB和原始图像的像素强度分布的直方图),因此在ISP处理的RGB图像上训练并在原始图像上推断的模型,从而消除了ISP,显示出准确性的显著下降。 最近的一项工作利用可训练的基于流的可逆神经网络[44]使用开源ISP数据集将原始图像转换为RGB图像,反之亦然。这些网络最近进行了SOTA测试2431··⊙×∼图1. 镶嵌原始图像、去镶嵌图像和ISP处理图像之间像素强度的频率分布差异性能的摄影任务,我们建议修改倒置的ISP管道,并建立原始版本的任何大型ISP处理数据库的高级视觉应用程序,如对象检测。然后,可以使用此原始数据集来训练CV模型,这些模型可以有效地部署在低功耗边缘设备上,而无需任何ISP步骤,包括去马赛克。为了进一步提高这些无ISP模型的性能,我们提出了一种新的硬件-软件协同设计方法,其中在像素读出操作期间使用模拟求和对像素阵列内的原始马赛克图像应用一种形式的去马赛克,即,没有专用ISP像素内/传感器内计算方法的范例,并且还降低了数据带宽。• 我们提出了一个全面的评估我们的方法,模拟(我们发布的数据集)和真实(由真实相机捕获)原始图像,用于具有不同存储器/计算预算的各种用例。• 为了提高真实原始图像的准确性,我们支持-提出了一种新的少镜头学习应用,其中模拟的原始图像具有构成基本数据集的大量标记类。2. 相关作品2.1. 删除ISP限制由于大多数ISP步骤是不可逆的,并且取决于相机制造商为了缓解这一挑战,最近的一些作品[25,32,46]提出了基于学习的方法,但它们会导致大量损失,并且重新覆盖的RAW图像可能与相机捕获的原始图像显著不同。为了减少这种损失,最近的工作[44]使用了k个可逆和双射函数f=f1f2的堆栈。f k反转ISP管道。 对于原始输入x,RGB输出y和输入经转换的原始输入x被计算为y=f1<$f2<$.。f k(x)且x=f−1 <$f−1<$。f1−1(y).k k−1单位我们在这个去马赛克版本的视觉唤醒词(VWW)上训练的模型导致8。与RGB图像上的标准训练和原始图像上的推断相比,测试准确度提高了2%(以模拟ISP去除和像素内/传感器内实现)。 即使与标准的RGB训练和推理相比,我们的模型的收益率为0。7%(1. 在VWW(COCO)数据集上的准确性(mAP)更高最后,我们提出了一个新的应用程序,少拍学习,以提高真正的原始图像的准确性直接捕获的相机(具有有限数量的注释)与我们生成的原始图像构成的基础数据集。我们的论文的主要贡献可以总结如下。• 受传感器内计算方法获得的能源和带宽优势以及CV管道中大多数ISP步骤的去除的启发,我们提出并发布了一个大规模原始图像数据库,可用于为低功耗无ISP边缘部署训练准确的CV模型。这个数据集是通过使用最近提出的基于流的可逆神经网络和自定义镶嵌来反转整个ISP管道而生成的。我们展示了这个数据集的实用性,用原始图像训练无ISP的CV模型。• 为了提高原始图像获得的准确性,我们提出了一种低开销的像素内去马赛克形式,可以直接在像素阵列上实现,并与最近的双射函数fi通过仿射实现耦合层[44]。在每个仿射耦合层中,给定D维输入m和d D,输出n为n1:d=m1:d+r(md+1:D)(1)nd+1:D=md+1:Dexp(s(m1:d))+t(m1:d)(2)其中s和t表示由神经网络实现的从RD到RD−d的尺度和平移函数,表示Hadamard乘积,r表示从RD−d到RD的任意函数。相反的步骤是md+1:D=(nd+1:D−t(n1:d))exp(−s(n1:d))(3)m1:d=n1:d−r(md+1:D)(4)然后,作者利用[23]中提出的可逆11卷积作为可学习的置换函数,以恢复后续仿射耦合层的通道顺序最近的工作还研究了ISP在图像分类中的作用以及其removal/trimming对能量和带宽benefits准确性的影响例如,[20]证明了在边缘推断期间移除整个ISP会导致8。在ImageNet[15]上使用MobileNets[36]的准确性损失6%,这主要可以通过仅使用色调映射阶段来恢复。另一项工作[42]试图使用色调映射和特征感知的缩小块来集成ISP和CV处理,这些块减少了每像素的位数和每帧的像素数。最近的一项工作[37]在ISP神经网络上使用了知识蒸馏2432图2.(a)提出的无ISP CV系统,(b)在去马赛克的原始图像上进行可逆NN训练,而不进行任何白平衡或伽马校正,(c)使用训练的逆网络和自定义马赛克生成原始图像,以及(d)应用像素内去马赛克和无ISP CV模型的训练。注意,像素阵列中的像素内演示实现如图所示。3.第三章。网络模型,以将用于原始图像的现成预训练模型的logit预测与用于ISP处理的RGB图像的logit预测对齐。2.2. 少镜头目标检测近年来,随着ML在低数据场景中的准确性不断提高,少镜头对象检测(FSOD)获得了显著的吸引力。FSOD中有两种主流的训练范式,元学习和基于微调的方法。元学习方法试图从多个注释的数据丰富的支持数据集中捕获聚合的信息。因此,当需要在具有新类和更少数据的数据集上训练时,模型可以利用从支持数据集学习的先验知识来推广到新类。例如,[22]使用重新加权模块通过捕获支持图像的全局特征来调整查询图像Meta特征的系数,以适合于新对象检测。作者在[45]中提出了一个预测器头重构网络(PRN)模块,用于生成类关注向量,以提供元学习者预测器头的支持和查询图像之间的聚合特征此外,[17]引入了一个基于注意力的区域建议网络,以将候选建议与支持图像和多关系检测器进行匹配,该检测器可以测量来自查询和支持对象的建议框与需要复杂训练过程的元学习相比,基于微调的方法具有更简单的管道。例如,[41]提出了基于两阶段微调的方法(TFA),该方法仅微调边界框分类和回归部分基于类平衡的训练集,但优于许多Meta学习方法。此外,为了减少将新实例错误分类为令人困惑的基类,[39]将对比学习引入FSOD管道,这有助于学习的目标特征表现出高的类内相似性和类间变异性。3. 反转ISP管道与[44]类似,我们建议使用第2.1节中描述的仿射耦合层从ISP处理的RGB图像生成原始演示图像。然而,在这方面,[44]在去马赛克、白平衡和伽马校正的原始图像上对ISP流水线进行建模,因此,可逆ISP流水线不生成直接由相机捕获的原始图像。作者对原始数据进行伽马校正(即,而不存储在磁盘上)以压缩动态范围以获得更快的收敛。因此,对于无ISP的传感器内CV系统,[44]中提出的可逆ISP流水线的朴素应用将需要在传感器中执行这些操作。由于像素阵列和外围中可用的有限计算/存储器占用空间,这是具有挑战性的。特别地,传统的去马赛克涉及矩阵运算,其涉及插值(最近邻、双线性、双三次等)。与输入分辨率成比例的技术。此外,白平衡涉及每个像素位置的可变增益放大,这需要复杂的控制逻辑,伽马校正涉及对数计算,这对于在高级高密度像素中使用模拟逻辑进行处理是具有挑战性的2433× ×××出于这些原因,我们建议在来自MIT-Adobe 5 K数据集的去马赛克图像上训练可逆网络[7]。尽管我们专注于分类/检测任务,但我们建议使用这个摄影数据集来训练可逆ISP,因为我们没有大规模的原始RGB图像对来完成这些任务。我们使用去马赛克图像进行训练,因为可逆神经网络的输入大小一旦训练好,我们就使用这个网络从大规模分类/检测数据集的ISP处理的RGB图像中获得原始的演示图像。然后,我们反转去马赛克,即,执行马赛克- ING操作,通过选择适当的像素颜色对应于每个位置,如图所示二、例如,为了在特定的马赛克RGGB补丁中生成红色像素,我们选择与去马赛克图像中相同位置的红色通道的像素强度。虽然这个最终镶嵌图像是在反转整个ISP流水线后获得的,但它仍然可能与相机捕获的原始图像略有不同这部分是因为我们没有明确地对不同ISP步骤的潜在分布进行建模,以稳定可逆网络的训练。我们使用少量学习来减轻这种担忧。4. 去马赛克要求虽然在Bayer CFA格式中对原始图像进行训练可以提高无ISP CV应用程序的测试精度,但它可能缺乏跨不同光谱带的多种颜色可能为每个像素位置提供因此,一个自然的问题是,我们是否可以在不增加额外ISP单元的情况下增加此容量?由于demosaicing是一种ISP技术,可以从原始CFA格式中产生单独的RGB然而,如上所述,传统的去马赛克方法涉及难以映射到像素阵列上的复杂操作,特别是当像素阵列需要处理像素内计算范例中的初始CNN 因此,我们提出了一种低开销的自定义像素内去马赛克方法,与对原始图像的推断相比,该方法显着提高了我们的基准测试的测试精度5. 建议的去马赛克技术我们建议在模拟像素阵列内部实现简单但有效的自定义去马赛克操作。让我们考虑具有形状XY3的去马赛克RGB图像,用于CV应用程序。然后,我们的自定义去马赛克技术要求输入的马赛克原始图像具有2X2Y的形状,使得每个2X2RGGB补丁为单个像素产生相应的3个通道,从而产生25%的数据维度减少。在功能上,定制的去马赛克复制了红色和从照相机到去马赛克RGB通道输出的蓝色像素强度,而来自照相机像素阵列的RGGB块的两个绿色像素被平均以产生绿色像素强度的一个有效值虽然通过下面描述的像素阵列内部的模拟计算来执行求和,但是通过简单的逻辑右移操作在像素外围中的模数转换器(ADC)之后的数字域中执行除法所提出的实现像素阵列,以实现这一定制的去马赛克功能,如图所示。第3(a)段。我们建议为像素阵列的每行包括两条选择线-被称为“行选择”的第一组选择线连接到红色和蓝色像素的选择晶体管,而被实质上,RGGB拜耳图案中的像素以交错方式连接到两条选择线。因此,红色和蓝色像素的读出由“行选择”线控制现在考虑激活图1的2x2像素阵列中的两行“行选择”线(行选择1和行选择2)。第3(a)段。这将导致分别在“Column-Line- 1”和“Column-Line-2”上读出红色和蓝色像素两个绿色像素将保持停用,因为在随后的周期中,两条“行-选择”线保持在低电压,而两条“绿-选择”线通过将它们拉到高电压而被激活.此外,两个“列线”通过闭合“列开关”连接在一起,如图11所示。第3(a)段。因此,现在连接的“列线”上的电压表示两个绿色像素的累积响应,其被馈送到列ADC以进行模数转换。注意,所提出的方案类似于像素装仓方法[4,40,38,21],除了在这种情况下,使用到“行选择”和“绿选择”线的交错连接,仅对拜耳RGGB图案的每个补丁中的两个绿色像素选择性地执行装总之,在两个周期中,其中在每个周期中激活两行“行选择”和“绿选择”线,所提出的方案可以生成去马赛克的注意,由于我们能够在两个周期中读取两行(由RGGB像素组成),因此所提出的方案在相机的读出速度(或帧速率)方面不会产生任何开销。在另一种方法中,我们建议使用[12]中提出的P 2 M(内存中像素处理)范例将cus-tom demoisacing和像素阵列内CNN第一层的计算相结合,如图所示。3(b)款。修改[12]的P2M像素阵列,图3(b)呈现了一种新颖的像素阵列,其可以使用存储器嵌入的像素来组合去马赛克和卷积计算。本质上,与Bayer RGGB模式的单个块中的两个绿色像素相关联的CNN权重保持相同。这是通过保持2434×图3.实施所提出的(a)去马赛克和(b)去马赛克与无ISP CV的像素内卷积耦合权重晶体管的大小在两个绿色像素上相同此外,保持这些晶体管权重,使得单个像素的每组权重晶体管具有与输入卷积层中的绿色通道相这确保了从P2 M方案[12]获得的结果模拟点积涉及绿色像素的强度的有效平均,然后将其乘以与卷积层相关联的相应权重。而去马赛克图像上的像素内卷积可以导致显著更高的带宽减少[12](稍后在第8.5节中量化),乘法和累加操作中涉及的模拟非理想性以及绿色像素中的权重失配可能导致较大的错误,需要重新训练整个CNN网络,并引入制造挑战,这可能需要对传感器的设计管道进行重大更改。6. 少数学习与丰富的RGB图像数据集相比,获取大规模带注释的原始图像是困难的。例如,据我们所知,用于分类/检测任务的唯一原始图像数据库PASCALRAW仅包含4,259个带注释的图像,具有3个对象类,这不足以训练深度CV模型。即使使用大规模RGB数据集上的预训练模型,也可能难以在此小规模原始数据集上进行微调(由于协方差偏移)并产生令人满意的性能。如第2.2节所述,最近的工作提出了大量的少镜头学习方法,这些方法在具有一些新类的数据集上实现了很好的性能,并且每个类只有几张图像。我们的问题与典型的少量学习设置不完全相同,因为我们可以找到一个大规模的注释RGB图像数据库,具有与原始数据集相同的类例如,Microsoft COCO数据集由80个类组成,可以覆盖自动驾驶、航空图像识别等一系列应用的对象,并可用于精细的用它们的类的子集来调整原始图像数据库。我们建议利用TFA[41](见第2.2节)进行微调过程,据我们所知,这是少数学习在提高原始图像准确性/mAP方面的首次应用然而,由于RGB和原始图像之间的协方差偏移,天真地应用具有COCO作为基础数据集的TFA只能带来有限的准确性提高请注意,在典型的少数拍摄学习设置中,例如TFA,基础数据集中的图像和新数据集中的图像被假设具有相似的强度分布[41]。因此,我们提出了一种新的少次学习应用,它利用我们模拟的原始COCO数据集作为基类来增加真实原始数据集上的测试mAP。我们选择真实原始数据集的类平衡子集作为具有“新类”的样本7. 实验装置7.1. 实现细节我们在三个CNN骨干/框架上评估我们提出的方法,这些框架具有不同的复杂性和用例,如下所述。对于对象检测实验,我们使用[9]框架,而对于少量学习,我们使用mmfewshot[28]和FsDet[41]框架。我们的培训细节在补充材料中提供。MobileNetV2[36]:一种轻量级的深度卷积神经网络,在资源受限的边缘设备(如移动设备)上部署时获得了显著的吸引力。在这项工作中,我们使用了一个较低复杂度的MobileNetV 2版本,即MobileNetV 2 -0.35x[35],它将输出通道数减少了0.35,以满足代表标准微控制器的60 M浮点运算(FLOP)的计算预算,其中无ISP CV可能是最相关的。更快的R-CNN[34]:一个两阶段的对象检测框架,包括特征提取,区域提取,2435××联系我们和 RoI 池 化 模 块 。对 于 我 们 的 实 验 , 我 们 使 用ResNet101 作 为 特 征 提 取 的 骨 干 网 络 , 因 为MobileNetV2与SOTA相比显着降低了测试mAP。YOLOv3( You Only Look Once,Version 3)是一个实时对象检测框架,用于识别视频或图像中的特定对象。我们使用MobileNetV2作为YOLOv3中特征提取的骨干网络。7.2. 数据集详细信息我 们 评 估 了 我 们 提 出 的 方 法 对 视 觉 唤 醒 词(VWW)和COCO数据集的模拟原始版本,以及由[16]中介绍的真实相机捕获的真实原始数据集。数据集的详细信息如下。VWW[11]:视觉唤醒词(VWW)数据集由高分辨率图像组成,其中包括视觉提示,以“唤醒”需要实时推理的AI驱动的资源受限的家庭智能设备。VWW挑战的目标是用非常少的资源检测帧中是否存在人类(具有2个标签的二进制分类任务)-接近250KB峰值RAM使用量和模型大小,这仅由MobileNetV 2 -0.35x满足,因此在我们的实验中使用。Microsoft COCO:为了评估多目标检测任务,我们使用流行的Microsoft COCO数据集[24]。具体来说,我们使用1333的图像分辨率 800用于Faster-RCNN框架,416 416用于YoloV 3[33]与[33]中使用的相同。 我们用80用于我们实验的可用类 我们使用平均为IoU 0的mAP来评估每种方法的性能。5,0。75,[0. 五比零05:0。95],表示为mAP@0.5,mAP@0.75和mAP@[0.5,0.95]。 注意我们还报告了小(面积322像素)、中(面积在322和962像素之间)和大(面积>962像素)物体的各个mAP。PASCALRAW:这个RAW图像数据库是由以模拟算法硬件实现(例如在图像传感器或读出级的嵌入式特征提取)对端到端目标检测性能的影响。根据原始PASCAL VOC指南对该数据集进行注释[16]。对于少镜头学习实验,我们选择29个包含类“自行车”的图像、25个包含类“汽车”的图像和21个包含类“人”的图像来构建平衡训练集,其中每个类具有30个注释对象(即,30张),并使用剩余的4178张图像作为测试数据集。8. 实验结果8.1. VWW结果对于VWW,我们将基于tinyML的MobileNetV 2 -0.35x模型的准确性与我们提出的去马赛克和像素内计算技术进行了比较,并对表1中的马赛克原始图像和RGB图像进行了推断。 我们表1. 在VWW数据集上使用MobileNetV 2 -0.35x对无ISP CV系统进行评估去马赛克1表示帧内去马赛克,而去马赛克2表示像素内去马赛克。WB,GC和IPC表示白平衡,伽马校正和像素计算。此外,请注意,在mosa iced图像上训练的模型只能用mosaiced图像进行测试。方法测试Acc. (%)推理培训马赛克化 去马赛克2IPC马赛克化87.47--去马赛克1-88.8488.04去马赛克2-89.9289.07去马赛克1+WB-86.4786.23去马赛克1+WB+GC-82.7081.45ISP处理-81.9781.43表2. 在不同版本的COCO原始数据集上使用mAP,以使用具有ResNet 101主干的Faster R-CNN框架来模拟无ISP CV系统。平均平均精度型号0.5:0.950.50.75SML基线33.850.537.016.636.6四十六点七去马赛克142.864.147.1二十五点六46.955.0马赛克化29.445.731.8十二点七32.142.9去马赛克237.857.739.820.248.653.2123从我们的可逆ISP的COCO原始数据集获得4还 将 我 们 的 方 法 与 传 统 的 去 马 赛 克 ( Python 中 的opencv库),白平衡(Python中的rawpy请注意,如表1所示,在训练期间使用相同分布的图像在推理期间产生最佳准确度。表1进一步说明了使用在ISP处理的图像上预训练的现成模型产生81的准确度。97%,当部署在无ISP CV系统上时,使用我们的像素内去马赛克,这是7。与ISP处理的推断的一致性降低32%。请注意,我们不能避免去马赛克步骤,因为预训练模型是用3通道输入图像训练的。利用从我们的可逆管道生成的镶嵌图像数据库,准确度差距(在镶嵌图像上进行训练和测试)减少到2。百分之八十二此外,我们在这个马赛克图像像素去马赛克,我们产生的准确度为89。92%,也就是0。比RGB测试精度高63%。将第一层卷积隐藏在像素内,再加上去马赛克,会导致精度略低,为89。07%。8.2. COCO raw结果COCO原始数据集的详细结果总结见表2。 我们的实验表明,直接在-2436××表3.我们提出的方法在PASCALRAW数据集上的比较地图* 实验应用了30个基本类和新类的少量学习* * 实验应用了少量学习,仅使用30个新类。使用在COCO ISP处理的RGB数据集上预训练的模型对COCO去马赛克的原始数据集的参考产生33的mAP。8%,即7。与ISP处理的推断相比低2%请注意,小天体的mAP显著降低近35%。然而,通过对我们的COCO去马赛克原始数据集进行微调,mAP增加到42。百分之八与VWW不同的是,模型可以从头开始精确训练,COCO马赛克原始图像的训练和测试导致mAP降低到29。百分之四这种减少可能是因为由于输入通道数量的 差 异 , 无 法 利 用 预 训 练 模 型 ( 其 中 主 干 也 在ImageNet上进行了最后,将我们提出的像素内去马赛克应用于镶嵌的原始数据集,得到的mAP为37。0%,即5。与VWW不同,比ISP处理的推断低0%。这可能是因为我们的演示降低了图像的空间分辨率,这可能不利于复杂的目标检测任务。有趣的是,我们的方法在检测中等大小的物体时是有效的,并且达到了48的最高mAP。百分之六。8.3. PASCALRAW结果8.3.1YOLOv3表3显示了在PASCALRAW数据集上使用YOLOv3的六种不同方法的性能。直接在这个数据集上与在ISP处理的COCO数据集上预先训练的模型进行推理,只产生2 。 由 于 两 个 数 据 集 之 间 的 显 著 协 方 差 偏 移 ,7%mAP。使用ISP处理的基础数据集,我们比较了两种不同的少镜头学习方法,一种是我们对基础和新类都使用30个镜头,另一种是我们只对新类使用30个镜头。我们观察到后者导致1。0%,这可能是因为前者可能由于其改进的泛化而不适合三个目标类别。请注意,由于数据集分布的差异,少量学习无法显着增加mAP,因为从2. 7%至6。百分之二。另一方面,在对我们的自定义去马赛克COCO原始数据集进行微调后(没有任何少量学习),mAP增加了4到13。百分之四这有力地证明了我们的大规模原始数据库的有效性。最后,对这个基础原始数据集应用少量学习,进一步将mAP增加到20。百分之八8.3.2Faster R-CNN我们在PASCAL-RAW数据集上使用ResNet 101主干的Faster R-CNN模型进行了一系列类似的实验。正如我们在表3中看到的,结果与YOLOv3模型一致,除了与ISP处理的基础数据集应用少量学习相比,COCO原始数据集上的微调没有增加mAP这可能是因为,与具有超高输入分辨率的更快的R-CNN框架相比,我们的去马赛克方法(其引起4个空间下采样)可能没有那么有竞争力在我们的自定义去马赛克COCO原始数据集上应用30个镜头的仅新类的少镜头学习产生29的mAP。8%,即28。与直接使用在ISP处理的COCO数据集上预训练的模型相比,高出6%8.4. 与先前作品的我们将我们的无ISP CV模型获得的测试准确度和mAP与VWW和COCO数据集上的现有类似工作进行了比较。4(a-b)。正如我们所看到的,我们在使用[44]中提出的可逆ISP管道时产生了类似的平均性能,同时提供了第8.5节中量化的带宽和能量减少。即使与测试ISP处理的RGB图像,需要整个ISP管道相比,我们得到0。63%(1. 6%)的准确性(mAP)的增加VWW(COCO)数据集。很难直接将我们的方法与其他作品[20,42]进行比较,因为他们没有重新租赁ISP模型,并评估删除的影响框架方法@[0.5,0.95]@0.5@0.75@小@中@大ISP处理2.78.21.20.22.24.4ISP处理+少量拍摄5.215.42.40.65.57.9YOLOv3ISP处理+少量拍摄去马赛克的原料6.213.417.038.53.35.40.20.93.912.211.222.9去马赛克的原始+少数镜头16.940.610.90.517.826.3去马赛克的原始+少数镜头20.847.414.50.917.330.4ISP处理1.24.20.20.01.33.5ISP处理+少量拍摄5.914.83.30.03.88.6Faster RCNNISP处理+少量拍摄去马赛克的原料9.59.326.029.94.22.20.01.76.610.515.019.5去马赛克的原始+少数镜头27.452.825.76.927.137.3去马赛克的原始+少数镜头29.858.128.08.028.140.6243738××3∼图4.比较我们提出的去马赛克方法的(a)准确性和(b)mAP,分别在具有ResNet 101主干的Faster-RCNN框架的COCO数据集和具有MobileNetV 2 -0.35x的VWW数据集上使用不同的ISP管道,其中DM表示我们提出的去马赛克技术,WB和GC分别表示白平衡和伽马校正。在VWW和COCO上分别将我们的方法的能量消耗与(c)和(d)中的正常像素读出进行比较,其中IPC表示像素内计算。注意,对于(d),能量单位为μJ,用于100µJ表示在野外数据集上的不同ISP阶段,例如ImageNet[15]和KITTI[18],这可能不是无ISP低功耗边缘部署的相关用例。8.5. 带宽能源效益去除整个ISP流水线,并直接在原始图像上应用所提出的像素内去马赛克操作可以显著节省能量和带宽,从而有助于在超低功耗边缘设备上部署CNN模型。由传感器捕获的完整图像通常通过耗能的MIPI接口传输到下游SoC处理ISP和CV单元,这会消耗大量带宽[19]。如第5节所述,去马赛克操作导致降维4,这意味着带宽减少25%使用自定义ADC将去马赛克输出量化为8位(现代CNN的输入具有无符号8位表示)导致带宽减少( 12)或50%,假设原始图像的位深为12[30]。最后,将第一个卷积层附加到传感器内部,MobileNetV 2的带宽增加了3倍-0.35倍。该卷积层具有步长2,这意味着4维降低,而由于输入去马赛克图像中的3个通道和第一卷积层中的8个输出通道,存在(8)总之,由于我们提出的去马赛克操作,总带宽/数据传输能量减少为75%,而对于像素内计算方法(在所提出的去马赛克IM上),年龄(如第5节所示)为12×。请注意,这一能源效益是除了能源节省通过消除在SoC中的ISP操作,并转移ISP输出到CV处理- ING单位获得。很难准确地量化这种节省,因为它取决于底层硬件实现和可编程逻辑,以及ISP的专有实现。也就是说,我们比较了传感器(像素+ADC),数据通信以及我们的去马赛克和像素内计算方法的CNN能耗与图中的正常像素读出。4(c-d)。图4(c)表示VWW上使用MobileNetV 2 -0.35x的tinyML用例,图4(d)表示COCO上使用Yolov 3的更困难的用例。我们使用内部的电路仿真框架,而ADC、数据通信和CNN能量从[12]中获得。虽然我们的去马赛克方法平均会产生5%的传感 器 能 量 开 销 , 但 建 议 的 像 素 内 实 现 在 VWW(COCO)上使用MobileNetV 2 -0.35x(YoloV 3)将传感器能量减少(增加)33%(23%)。能量的增加是由于卷积输出通道(第一层)在MobileNet骨干YoloV3的数量增加。9. 讨论在这项工作中,我们提出了一种无ISP的计算机视觉范例,以使CNN模型能够在低功耗边缘设备上部署,这些设备涉及接近传感器节点的处理,并且计算/内存占用有限 我们的产品有两个显著的优点:1)我们发布了一个大规模的RAW图像数据库,可用于训练和部署CNN,以完成各种视觉任务(包括与摄影相关的任务); 2)与传统的CV管道相比,我们的硬件-软件协同设计方法可以显著节省带宽。据我们所知,这是第一个解决近传感器和传感器内处理范例中被广泛忽视的ISP管道的工作,同时还提出了用于自定义去马赛克的新颖像素内方案,以及卷积计算。我们提出的方法将tinyML(通用对象检测)应用程序的测试精度(mAP)提高了7。32%(7. 2%),相比之下,直接部署现成的预训练模型在无ISP的CV系统。我们的方法,再加上少量的学习,已被证明是有效的检测真正的原始对象直接从PASCALRAW数据集的相机捕获10. 确认我们要感谢DARPA HR 00112190120奖和的NSF CCF-1763747奖励支持这项工作。的观点和结论本文所包含的是作者的观点,不应被解释为必然代表DARPA或NSF的官方政策或认可。2438引用[1] CMOS图像传感器https://semiengineering.com/scaling-cmos-image-sensors/,2020年。 访问日期:04-20-2020.[2] 索尼将发布全球https://www.sony.com/en/SonyInfo/News/Press/202005/20-037E/,2020.访问日期:2022年1月12日。[3] AP0201AT: 图像信号处理器,2MP。https://www.onsemi.com/products/sensors/image-signal-processors-isps/ap0201at,2021.[4] 尼古拉·博克图像传感器像素合并方法,2008年7月22日。美国专利7,402,789。[5] 放 大 图 片 作 者 : Laurie Bose , Piotr Dudek , JianingChen,Stephen J. Carey和Walterio W.马约尔-奎瓦斯在像素处理器阵列上完全嵌入快速卷积网络。在计算机视觉-ECCV 2020-第16届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,会议记录,第XXIX部分,第12374卷,第488-503页。Springer,2020年。[6] Tim Brooks , Ben Mildenhall , Tianfan Xue , JiawenChen,Dillon Sharlet,and Jonathan T.巴伦Unprocessingimages for learned raw notifying,2018.[7] Vladimir Bychkovsky , Sylvain Paris ,Eric Chan , andFredo Durand. 使用输入/输出图像对的数据库学习摄影全局色调调整CVPR 2011,第1卷,第97-104页,2011年[8] Prashant Chaudhari , Franziska Schirrmacher , AndreasMaie r,ChristianRiess,andThomasK¨hle r. 多曝光高动态范围图像信号处理。在Christian Bauckhage,JuergenGall和Alexan der Schwing,编辑,模式识别,第328-342页施普林格国际出版社.[9] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu , Jiarui Xu , Zheng Zhang , Dazhi Cheng ,Chenchen Zhu , Tian-heng Cheng , Qijie Zhao , BuyuLi,Xin Lu,Rui Zhu,Yue Wu,Jifeng Dai,JingdongWang , Jianping Shi , Wanli Ouyang , Chen ChangeLoy,and Dahua Lin.MM检测:打开MMLab检测工具箱和基准测试。arXiv预印本arXiv:1906.07155,2019。[10] Zhe Chen , Huifeng Zhu , Erxiang Ren , Zheyu Liu ,Kaige Jia,Li Luo,Xuan Zhang,Qi Wei,Fei Qiao,Xinjun Liu,and Huazhong Yang.卷积核读出法CMOS图像传 感器 在混合 信号 域处理 近传 感器结 构。 IEEETransactions on Circuits and Systems I:常规论文,67(2):389-400,2020。[11] 阿坎莎·乔杜里,皮特·沃登,乔纳森·史伦斯,安德鲁·霍华德,还有洛奇·罗兹.视觉唤醒词数据集。arXiv预印本arXiv:1906.05721,2019。[12] Gourav Datta等人P2M:一种用于资源受限的TinyML应用程序的内存中像素处理范例。arXiv预印本arXiv:2203.04737,2022。[13] Gourav Datta等人高效的高光谱成像技术相机像素内的年龄处理。arXiv预印本arXiv:2203.05696,2022。2439[14] Gourav Datta , Souvik Kundu , Zihan Yin , JoeMathai,Zeyu Liu,Zixu Wang,Mulin Tian,ShunlinLu,Ravi T.放大图片
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功