智能PhlatCam中的高效CNN驱动设计及实现

需积分: 5 103 浏览量更新于2023-10-14 收藏 1.48MB PDF 举报

模型压缩

节能技术

身份认证购VIP最低享 7 折!

30元优惠券

5168SACoD：传感器算法协同设计实现高效CNN驱动的智能PhlatCam付永干1，张阳2，王跃1，卢志涵1，Vivek Boominathan1，AshokVeeraraghavan1，林英燕11莱斯大学2麻省理工-IBM沃森人工智能实验室摘要对于将卷积神经网络（CNN）供电的功能集成到物联网（IoT）设备中以实现无处不在的智能“IoT相机”的需求已经蓬勃发展。然而，这种物联网系统的更广泛应用仍然受到两个挑战的限制。首先，一些应用，尤其是与医疗和可穿戴设备相关的应用，对相机的外形尺寸提出了严格的要求。其次，-10的强大CNN需要相当大的存储和能源成本，而物联网设备通常资源有限。PhlatCam的形状因子可能减小了量级，已经成为上述第一个挑战的有希望的解决方案可以潜在地解决第二个挑战的现有压缩技术远未实现存储和能量减少的全部潜力，因为它们主要集中在CNN算法本身。为此，这项工作提出了SACoD，一个传感器的并行设计框架，以开发更有效的CNN供电的PhlatCam。特别地，在Phlat-Cam传感器和后端CNN模型中编码的掩码经由差分神经架构搜索在模型参数和架构方面被联合优化。大量的实验，包括模拟和物理测量制造的面具表明，所提出的SACoD框架实现积极的模型压缩和节能，同时保持甚至提高任务的准确性，当基准测试超过两个国家的最先进的（SOTA）的设计与六个数据集在四个不同的视觉任务，包括分类，分割，图像翻译和人脸识别。我们的代码可在https://github.com/RICE-EIC/SACoD上获得。1. 介绍最近CNN的突破引发了对智能物联网设备的需求不断增长，例如可穿戴设备和生物设备（例如，吞咽内窥镜）。然而，两个主要挑战阻碍了CNN供电的物联网设备的更广泛应用。首先，一些应用，特别是医学和生物学相关的应用，对形状因子，特别是厚度施加了严格的要求，这对于现有的基于透镜的成像系统来说通常过于严格。第二，强大的CNN通常具有相当大的成本，而物联网设备的资源有限[23，21，26，43，38]。对于第一个挑战，无透镜成像系统[3，32，1，2，4]已经成为一个有希望的救援。例如，PhlatCam [4]用一组相位掩模代替聚焦透镜，其对入射光进行编码而不是直接聚焦。编码的信息可以被计算解码以重构图像，或者被专门处理以用于不同的应用。由于相位掩模小于聚焦透镜，因此这种无透镜成像系统可以制造得更小和更薄，并且它们可以放置得更靠近传感器并且以低得多的成本制造。对于第二个挑战，许多最近的工作集中于设计具有改进的硬件效率的CNN，即，通过应用通用神经架构搜索（NAS）来找到有效的CNN。因此，同时解决上述两个挑战的简单方法是引入无透镜相机作为信号采集前端，然后应用NAS来优化后端CNN。然而，这样的方法将导致可能远非最优的不相交优化。一般的NAS将相机视为给定的，并且仅优化CNN。同样地，用于无透镜相机的现有相位掩模设计将CNN视为给定的，并且仅优化掩模。这种不相交优化未能（1）利用掩码[4]显示，在一些假设下，PhlatCam中的相位掩模基本上对入射光执行2D卷积此外，与其他卷积层不同，5169相位掩模的卷积几乎是自由的（即，不消耗额外的能量、计算能力或存储），而不管每个掩码取什么值。因此，我们的目标是将相位掩模设计纳入NAS中，以实现感测处理流水线的端到端优化，同时免除流水线的一部分的效率损失。这样的协同设计被期望实现更好的准确性和效率权衡。为此，我们提出了传感器架构协同设计（SACoD）框架，以实现更节能的CNN供电的IoT设备。虽然我们在基于PhlatCam [4]的成像系统的背景下开发和评估SACoD，但它通常适用于不同的感测和智能处理系统。SACoD的成功提议、设计和验证预计将通过使CNN能够更广泛地部署到配备智能传感器的物联网设备中，对许多现实世界的应用产生我们的主要贡献是：• 我们提出了SACoD，这是一种新型的协同设计框架，它联合优化了传感器和神经网络，以实现更节能的CNN驱动的物联网设备。据我们所知，SACoD是第一个为CNN推理提出传感器算法协同设计的公司。• 我们开发了光学层的有效设计以(1)利用其潜在的计算能力，以及（2）实现光学层和后端算法的共同搜索。然后，我们的特点之间的权衡准确性和所需的面积的相应的成像系统，以证明其有效性，根据实际的尺寸约束。• 广泛的实验和消融研究证实，SACoD始终实现降低硬件成本/面积，同时提供相当或甚至更好的任务精度，当在四个视觉任务（分类，分割，图像翻译和面部识别）和六个数据集上评估两个SOTA无透镜成像系统时。还提供了与制造的掩模的实验，以验证SACoD2. 相关作品神经架构搜索。最近NAS [45，47]引起了越来越多的关注。它消除了手工制作过程，并自动搜索神经架构。现有的NAS技术可以分为三类：基于进化的NAS、基于强化学习（RL）的NAS和一次性NAS。由于基于进化或RL的方法的计算开销可能高得不可接受，已经提出了许多技术[5，6，24，25，30，41]来降低搜索成本，其中可区分架构搜索（DARTS）获得了强烈的兴趣。虽然在概念上是通用的，但是在本实施例中的SACoD图1：PhlatCam无透镜成像系统中使用的制造相位掩模[4]。本文采用了DARTS方法，在搜索过程中优化一个超网络，并保留最强的子网络，然后重新训练。有关NAS的更多详细信息，请参阅[15无透镜成像系统。为了消除由透镜引起的尺寸或厚度负担，已经开发了各种无透镜成像系统。虽然无透镜成像系统已广泛用于捕获X射线和伽马射线[14，7]，但其在可见光谱用途方面仍处于探索阶段[3，32，2，4]。一般来说，无透镜成像系统直接在传感器上或在由掩模元件调制之后捕获场景。在本文中，我们专注于一种基于相位掩模的特定无透镜成像系统，称为PhlatCam [4]，这是一种通用框架，用于创建可以实现所需尖锐点扩散函数（PSF）的相位掩模。相位掩模调制入射光的相位，并且允许大部分光通过，从而提供高信噪比。因此，它们对于低光场景和光子受限成像是期望的图1示出了制造的相位掩模，其基本上是在不同位置具有不同厚度的透明基于这种无透镜成像系统，我们开发并验证了我们的SACoD框架，旨在探索和展示传感器算法协同设计的可行性和优势，以实现更高效的CNN驱动的物联网解决方案。传感器-算法协同训练。最近有一些尝试，试图联合优化传感器参数和神经网络后端。对于基于镜头的图像系统，引入了新的镜头设计，并与神经网络后端同时训练，以联合优化图像重建[33]，深度估计[9]和高动态范围成像[27]。类似的方法也已应用于其他成像系统，包括具有彩色多路复用的相机[8]、Phase-Cam3D [40]和单光子雪崩光电二极管相机[35]。然而，这些方法仍然认为神经网络结构是固定的，并且没有探索传感器算法协同设计的3. 建议的SACoD框架本节介绍我们的SACoD框架。我们首先概述了框架，并介绍了光学传感前端，然后描述了我们如何实现SACoD5170（）下一页（）下一页（）下一页（）下一页其中m=m（x，y）表示相位掩模值。的（）下一页（）（）（）下一页（）下一页（）下一页（）（）（）（）下一页（一）相位掩模（b）第（1）款后弯CNN图2：（a）所提出的SACoD框架的概述，以及（b）作为SACoD流水线的前端和后端之间的接口的所提出的光学设计，其中我们以双通道掩模为例。优化算法最后，我们提供了SACoD生成的面具的特异性和一般性的讨论。3.1. SACoD：框架设置概况. SACoD框架如图所示。图2（a）由两个模块组成，光学感测前端和神经网络后端。传感器中PhlatCam的编码掩码使用SOTA差分NAS算法[25]与后端联合优化，其中编码掩码与神经网络权重一起被视为网络参数。制定框架。具体地，第一模块，即，光学传感前端，表示为O ⋅ m，光学层基于PhlatCam系统[4]。它接收来自相机前面的对象的光信号第二模块，即神经网络后端表示为F⋅;w，α，其中w表示神经网络的权重，α表示体系结构的参数。神经网络后端接收传感器信号并产生用于预期应用的输出形式上，我们将光信号表示为Ix，y∈RH×W×3，其中x和y是坐标索引，并且H和W表示的范围的高度和宽度摄像机可以接收的光。光信号包含RGB通道，并且因此最后维度是3。将在传感器处接收的信号表示为Zx，y∈RH′×W′×N，其中H′和W′分别表示高度和宽度，N为通道数，Y作为神经网络后端的最终输出，我们有：Z=0I; m，Y=FZ;w，α。（一）以下小节将介绍O⋅;m以及如何确定m、w和α。3.2. SACoD：光学传感前端前端公式。假设光信号Ix，y来自于一个物体到摄像头era是d，并且物体的深度相对较小，O⋅;m采用以下卷积形式[4]：Zx，y=OI;m=px，y;m，d*Ix，y，（2）其中* 表示2D卷积，p x，y; m，z称为相位掩模的点扩散函数（PSF），其由相位掩模mx，y和距离d确定。一旦我们优化了PSF，相位掩模就被设计用于PSF和所选择的d。然后，制造的掩模在给定d下产生PSF。对于第2节中所4.5，d被设置为2 mm，以使我们的系统比传统相机薄得多（厚度范围在7-20 mm之间）。掩模在操作期间固定在距传感器的距离d处，并且因此卷积性质将继续保持。根据等式（2），光学层可以被认为是特殊的卷积层。注意，一个相位掩模只能执行具有正内核的单通道卷积，因此需要两个相位掩模来实现具有实值内核的单通道卷积，其中一个相位掩模实现内核的正部分，另一个相位掩模实现负部分。例如，为了构造具有实值内核的三通道卷积层，我们在成像系统中需要六个掩模。此外，输入光具有三个颜色通道（R、G和B），并且每个相位掩模对所有颜色通道进行操作。因此，三通道卷积将产生总共九个特征图（FM）。光学层设计。为了将渲染的FM重新组织为CNN后端的输入，我们提出了图1中的光学层设计。图2（b）以双通道掩模为例。具体而言，它累积相同颜色的FM，并输出3通道FM，其仍处于RGB状形状。我们采用这种设计，因为它适用于RGB通道上的独立变换，以保持原来的通道明智的歧视性信息。3.3. SACoD：公式和算法SACoD制剂。这里我们介绍SACoD的公式和优化，其目的是同时优化相位掩模m和神经网络输入建议的SACoD框架输出传感器搜索算法搜索无透镜用户需求图像(acc.、能源等）硬件资源掩码更新搜索的传感器/CNN对后端前端不带相位掩模5171∗∗ValMe{m，w}M架构α，以及神经网络例如，SACoD旨在解决：minL（*（α），w*（α），α）+λL（α），（3）tr是通用的，可以在任务之间转移[42]，以及（2）在SACoD中，掩码与网络结构和网络权重联合优化，可以预期SACoDm*（α），w*（α）= argmin L（m，w，α）.（四）CNN的一般特征，从而可以实现更好的视觉任务之间的通用性和可移植性，比较Ltr和Lval是评估的特定于任务的性能损失分别在训练集和验证集上，Le是效率损失（例如，模型大小、计算成本或能量消耗），并且λ是权衡准确性和效率的调谐参数。遵循DARTS [25]中的相同参数化方案，α表示不同候选操作的权重。对DARTS的修改与原始DARTS [ 25 ]框架相比，SACoD集成了两个主要修改。第一个区别是引入了效率损失Le，其由网络参数α加权的每一层的计算成本之和来度量更重要的是，第二个和主要的区别是相位掩模m在框架中被联合优化。值得指出的是，虽然数学上相似，*和w*对α有不同程度的依赖。具体来说，w*直接受α影响，因为α决定了最终使用w的哪个子集，而m*只受α的间接影响。因此，纳入M将极大地改善模型性能和模型复杂性之间的折衷请注意，SACoD是自然与其他NAS方法兼容我们采用不同的NAS的快速生成的光掩模和网络。当使用其他NAS方法时，例如，尽管使用基于RL的NAS [46]，我们仍然观察到类似的系统性能（在CIFAR-100上的0.3%准确度内），但搜索时间从0.5 GPU天增加到8GPU天。两阶段工作流程。整个协同设计过程可分为两个阶段：搜索阶段和训练阶段。在搜索阶段，我们采用交替梯度下降方程。（3）和方程（4）寻找最佳的mal network architectureα*.在训练阶段，通过优化Eq.（4）最优网络结构α* 的条件。3.4. SACoD：讨论SACoD生成掩码的特异性如公式中所示。（3），α控制搜索到的网络结构，使用基于固定过滤器的掩码，如Gabor-mask [10]。SACoD的这一优势在第2节中得到了验证。四点六分。一般性与的特异性在智能传感器的实际应用中，在所获得的性能和制造成本之间总是存在折衷针对目标任务专门设计的掩模的更高精度和更低能量的益处与其与一对一固定掩模（诸如Gabor掩模[10]）相比的更高制造成本。幸运的是，SACoD的一个关键亮点是它以极低的制造成本实现了如此高的特异性，因为除了PhlatCam的有利薄特性之外，每个掩模的成本比基于镜头的相机低一个数量级[34. 实验结果本节介绍了应用于PhlatCam的SACoD的评价结果。我们首先描述的实验设置，在第二节。4.1，然后在分类任务、物联网应用和其他视觉任务上对SACoD与SOTA无透镜成像系统进行基准测试。分别为4.2、4.3、4.4。接下来，我们示出了由SACoD在Sec.4.5节中提供了SACoD的各种消融研究。四点六分。4.1. 实验装置光学层约束。如上所述，光学层首先在光学上对输入场景执行卷积操作，其输出然后由后端神经网络处理。物理器件构造对光学层设计施加设计约束。具体地，由于相位掩模被放置得更靠近传感器，因此光学可实现的内核尺寸不能任意小[4]。这里，我们采用不小于7x7的内核大小。另外，由于所有设计的掩模共享相同的传感器区域，因此由于有限的传感器区域，掩模的数量不能很大在这里，我们骗-有利于相位掩模M. 为了评估-把口罩的数量压缩到不超过六个。我们考虑到α对m的影响，我们制作了物理在第二节中采用模拟面罩4.2秒4.4并评价在各种设置下的掩码，并观察到不同搜索网络的最佳掩码是完全不同的，这在附录中可视化。此外，我们评估- uate SACoD生成的掩码对转移掩码从其他任务在秒。4.6示出了为每个目标任务专门定制掩码的必要性SACoD生成掩码的一般性。考虑(1) CNN中前几层的捕获特征物理制造的掩模四点五分。算法设置。数据集：我们使用六个数据集在总共四个视觉任务上评估SACoD：两个分类数据集CIFAR-10/100，两个物联网数据集，包括FlatCam Face [36]和Head Pose [17]，一个分割数据集Cityscapes [13]和一个未配对的图像转换数据集horse 2 zebra [44]。相同的和标准的数据增强（例如，随机裁剪和归一化阿尔法5172-44.1%-27.6%-62.9%-49.7%+1.4%-70.9%+1.4%-48.4%+5.4%+5.4%-64.1%-50.9%CIFAR 10 CIFAR 100图3：准确度与SACoD和CIFAR-10/100基线的FLOP/能量权衡对于SACoD和基线。基线：我们根据两种SOTA无透镜成像系统评估SACoD：• Gabor-mask系统：我们将光层固定为Gabor掩码[10]，并使用与SACoD相同的NAS方法搜索网络。• 共车系统：我们将后端网络固定为SOTACNN（例如，MobileNetV2 [31]用于分类任务），并与光学层联合训练它。效率度量：我们考虑基于实际设备测量的FLOP（浮点运算）和能量成本具体而言，我们采用 NVIDIAJETSON TX2 [28]，一种流行的物联网GPU，作为目标平台，其连接到笔记本电脑，通过嵌入式INA3221 [37]电源轨监视器的sysfs [294.2. 分类任务上的SACoD over SOTA成像系统设置. 在这组实验中，我们在CIFAR-10/100上搜索SACoD和Gabor掩码系统的神经网络，并使用SOTA量化训练方法[20]将所有操作量化为8位，这是考虑IoT设备上的受限源的常见做法。我们采用了[39]中的搜索空间和训练这里， Co-train 基线采用的模型是MobileNetV 2 [31]。为了对SOTA成像系统进行SACoD基准测试，我们将所有设置中的掩模数量固定为6个，然后在不同的FLOPs和能源成本下研究其精度。我们通过控制等式2中的λ来控制SACoD和Gabor掩模系统的FLOP。（3）和通过改变宽度乘数[19]的共车系统。结果分析。图3示出了在CIFAR-10/100上的SACoD和两个基线无透镜成像系统的FLOP和能量成本方面的准确度和所需硬件成本之间的权衡。我们可以看到，SACoD始终需要降低的FLOP和能量成本，同时实现与基线相当或更高的准确度。在CIFAR-10上，SACoD实现了FLOP的44.1%和70.9%的减少，以及27.6%和48.4%的能量减少，同时提供+0.01%和+1.45%更高的准确性，分别与Co-train和Gabor-mask基线相比;在CIFAR-100上，SACoD将FLOP降低了62.9%和64.1%，并将能量成本降低了49.7%和50.9%，同时实现了分别比Co-train和Gabor掩模基线高+0.71%和+5.46%的准确度。这组实验验证了SACoD中的端到端优化引擎确实可以在任务性能和硬件效率方面产生优异的性能-60.0%+1。不实际传感器区域-80.0%05%图4：在CIFAR-10上不同数量的掩模下实现的准确度和传感器/掩模面积。考虑到形状因子或面积是无透镜IoT成像系统中的另一个影响设计的因素，我们通过控制光学层中的掩模的数量，在准确度和面积之间的权衡方面评估基线上的SACoD，并将结果总结在图1中。4.第一章我们可以看到，所提出的SACoD在相同数量的掩模（以及因此面积）和相同的模型尺寸下在所有设计中实现了最佳的精度-面积权衡。特别地，SACoD实现了60.0%和80.0%的面积减小，同时提供了+0.01%和80.0%的面积减小。与Co-train和Gabor-mask基线相比，准确度分别提高了+1.05%。由于传感器区域是-来不切实际的更多的掩模，我们限制的掩模的数量，伯在其他实验中不超过6。4.3. 物联网应用上的SACoD over SOTA成像系统在这里，我们在两个物联网应用程序（包括FlatCamFace recog）上对SACoD进行了SOTA基准测试。5173-59.5%-32.9%+8.75%+8.75%-57.1%-30.1%+5.85%+5.85%FlatCam面部头部姿势图5：准确度与SACoD的FLOP/能量超过两个IoT任务的基线。点火[36]和头部姿态检测[17]），以评估其对现实世界物联网任务的有效性。这里我们采用与Sec中相同的搜索空间。 4.2 ，并进一步约束导出的后端 CNN 的FLOP，以查看SACoD是否仍然适用于极度能量受限的场景。如图5，我们可以看到，SACoD在所有设置下在准确性-成本权衡方面再次持续优于基线。具体而言，与Co-train基线相比，SACoD在FlatCam Face和Head Pose数据集上分别实现了59.5%和57.1%的FLOP减少，32.9%和30.1%的能源成本减少，准确度分别提高了+0.11%和+0.07%。同时，与Gabor掩码基线相比，SACoD显示出对更多能量受限的序列的更好的可扩展性：当FLOP或能量约束极低时，SACoD在FlatCamFace和Head Pose数据集上分别在相同的FLOP/能量成本下实现了+8.75%和+5.85%的更高准确度，表明其在更真实的IoT应用中的优越性。4.4. SACoD优于SOTA成像系统用于其他视觉任务考虑到物联网设备的各种应用，我们还评估了SACoD在其他视觉任务中的应用-表1：使用Cityscapes数据集进行分割任务时，SACoD与SOTA基线的对比。2个口罩4个口罩6个口罩源图像共训练Gabor掩模SACoD54.17 GFLOPs 7.15 GFLOPs3.57 GFLOPs源图像共训练Gabor掩模SACoD54.17 GFLOPs 4.72 GFLOPs4.03 GFLOPs图6：在六个掩码下的ze-bra 2 horse（行1）和horse 2zebra（行2）任务的翻译结果的可视化。注释了每个方法的结果FLOP包括一个分割数据集（Cityscapes [13]）和一个未配对的图像转换数据集（zebra2horse和horse2zebra [44]），这需要在CNN驱动的智能物联网设备上进行更具挑战性的权衡。设置. 我们采用[12]中的SOTA搜索空间和设置用于分割任务，[16]用于未配对图像翻译任务。Co-train基线采用的模型是具有ResNet-50 [18]主干的DeepLabV 3[11]和分别用于分割和图像翻译任务的CycleGAN [44更多详情见方法mIOU GFLOPs附录。分割任务的结果。选项卡. 图1示出SACoD在所有掩码约束下实现最高平均交集大于并集（mIOU），而要求表2：未配对图像转换任务上的SACoD与SOTA基线。行2-4：zebra 2 horse数据集;行5-7：horse 2 zebra数据集。较低的FID指示较好的结果。2个口罩4个口罩6个口罩方法FIDGFLOPSFIDGFLOPSFIDGFLOPS共乘列车147.0354.17140.7054.17139.8354.17加博面具137.796.89141.115.04145.877.15SACoD136.355.93136.413.89138.233.57共乘列车66.8254.1761.2154.1768.2654.17加博面具91.875.87106.274.3488.364.72SACoD89.803.7086.003.8287.104.03最小的FLOPs具体而言，SACoD实现了比Co-train和Gabor掩码基线分别高 0.8% 至 4.3% 的 mIOU 和降低12.4%至93.2%的FLOP。在所有遮罩设置下。图像翻译任务的结果。我们在Tab中显示了定量结果。2和图2中的可视化效果。因为前者不能总是捕获图像质量。选项卡. 图2示出了SACoD在所有六种情况下需要最小的FLOP，而图3示出了SACoD在所有六种情况下需要最小的FLOP。6示出SACoD在所有方法中提供了最好的可视化效果。特别是与mIOU GFLOPsmIOU GFLOPs共乘列车69.0435.069.6435.068.8435.0加博面具65.845.6466.138.3267.336.34SACoD69.836.1770.433.5671.629.515174红色模拟制造绿色模拟制造蓝色模拟制造积极负图7：制造的掩模。图8：可视化搜索的PSF和对应的制造的PSF。Gabor掩模基线，SACoD达到12. 0%50。百分之一降低FLOPs，1. 26- 2027更好的FID（The越低越好），同时提供更好的视觉效果-效应;与Co-train基线相比，SACoD将FLOP降低了92.56% 93. 4%，并提供更好的可视化效果，纹理更细。对上述两个视觉任务的评估结果一致地验证了SACoD表3：使用基于具有CIFAR-10的真实世界PhlatCam成像系统的模拟和制造掩模的SACoD和Gabor掩模的准确度比较。方法模拟（%）制造（%）差距（%）加博面具91.7187.174.54SACoD94.4190.024.39改进+2.70+2.85-0.154.5. 具有物理制造掩模的设置. 为了评估SACoD在真实世界原型PhlatCam成像系统中的性能，我们进一步基于由SACoD搜索的光学层的PSF来制造物理掩模。然后，我们通过在监视器上显示图像并使用我们的pro-totyped PhlatCam成像系统与制造的掩模捕获CIFAR-10数据集的真实测量值。我们的原型中的CMOS传感器具有拜耳RGB滤波器阵列，因此掩模之后的传感器测量可以被分割到不同的原始RGB颜色通道。因此，我们的原始测量具有RGB通道，如图1所示。第2段（b）分段。所有后端模型都处于类似的FLOP下（图中最右边的点）。（3）第三章。口罩制作：每个相位掩模的尺寸为600 µm×600µm。在同一时间，对应于6个小滤波器的6个相位掩模被制造到图1中的同一玻璃衬底上。7，其均匀地填充传感器的空间。特别地，6个相位掩模被制作成2× 3阵列，其中4.4mm的均匀间隔。可视化制造的面具。图7示出了六个制造的掩模的显微镜图像，其中SACoD在CIFAR-10上实现了94.43%的准确度，并且图8比较了模拟的和制造的PSF的可视化，其中顶/底行示出了正/负掩模，并且从左到右的列分别表示三个RGB通道。从图8中，我们可以观察到，与模拟的PSF相比，制造的PSF通常保持原始形状，同时一些像素的亮度略有偏移。真正的测量精度。我们比较的准确性SACoD和Gabor掩模系统与模拟和制造的掩模在表。3，并观察到（1）我们的SACoD仍然优于Gabor掩模系统，在制造掩模测量下具有+2.85%的高精度，表明SACoD在模拟和制造系统中的优越性的一致性我们想要澄清的是，大的精度下降可能归因于内部制造中的非理想性和其他实验误差，例如掩模-传感器对准，这在之前已经观察到，例如，[22]表明，当使用真实制造的掩模时，通过最佳模型正确分类的图像中只有88%仍然可以在MNIST上正确分类。可以预期的是，在工业标准的制造和制造质量的情况下，可以减轻制造之后所产生的精度下降。卡车狗飞机Flatcam Face图9：通过CIFAR-10/Flatcam Face上的物理制造掩模可视化捕获的图像。由制造的掩模捕获的真实世界图像我们可视化由SACoD在CIFAR-10和Flatcam Face上生成的制造掩模捕获的图像。9 .第九条。由于不同颜色通道的PSF是不同的AC。5175表4：当使用Gabor掩模、从专用于Flat-Cam Face数据集的掩模转移的SACoD生成的掩模以及针对CIFAR-10/100数据集上的目标任务定制的SACoD生成的掩模时的准确度方法CIFAR-10 Accc（%）CIFAR-100 Accc（%）加博面具91.7168.85SACoD（来自FlatCamFace）93.1072.50SACoD（定制）94.4176.67根据图。如图8所示，所捕获的图像示出了在原始RGB图像上的色移，同时仍然保持良好的视觉质量以用于识别。4.6. SACoD的消融研究一般性与的特异性为了评估SACoD的一般性和特异性，我们将从FlatCam Face数据集转移的SACoD与（1）针对每个目标任务定制的SACoD和（2）Gabor掩模基线进行基准测试，所述Gabor掩模基线是基于CIFAR-10/100数据集上的固定过滤器的一般掩模。所有后端模型都有类似的FLOP（对应于图中最右边的点）。（3）第三章。如Tab.所示。4，具有从专用于FlatCam Face数据集的掩模转移的掩模的SACoD在CIFAR- 10/100上分别实现了比Gabor掩模高+1.39%和+3.65%的准确度，而与针对目标任务定制的SACoD相比，在CIFAR-10/100上遭受-1.31%/4.17%的准确度下降这验证了第二节中的假设。3.4SACoDSACoD掩模的针对每个目标任务的定制可以进一步提高所实现的准确度。一个关键的亮点是SACoD以极低的制造成本实现了特异性，因为每个掩模的成本比基于透镜的相机低一个数量级[3]。SACoD的特征提取。为了进一步探索SACoD成功背后的原因具体来说，按照[34]，我们对输出通道上的光学层激活进行平均然后，我们计算来自不同类别的特征分布之间的KL散度，以了解特征的区分程度。图10可视化了CIFAR-10的测试数据集上每两个类别之间的平均KL散度（在100个随机选择的图像上）。我们可以看到，SACoD在不同类别之间的特征分布差异显著且一致地大于Gabor掩模基线的特征分布差异，进一步验证了SACoD的光学层可以更有效地从输入中提取区分信息，从而减少后端CNN所需的计算。SACoD与基于透镜的系统。公平地衡量图10：由CIFAR-10上的SACoD和Gabor掩模的搜索光学层捕获的不同类别之间的输出分布的KL散度，其中X轴和y轴是类别id，并且热图值表示KL散度的量值。针对基于透镜的系统，我们去除光学层及其相关约束，并在相同的搜索空间内搜索最优网络[39]。我们发现，在稍微降低的FLOPs（154M FLOPs vs. 1.58亿FLOPs），SACoD实现了0.39%和0.62%的低精度分别在CIFAR-10和CIFAR-100上实现，同时将成像系统的厚度减少10倍，从而可以集成到更多的物联网应用中。这组实验表明，我们提出的SACoD可以提供类似的任务性能和硬件与基于透镜的系统相比，这提高了效率，同时能够将系统的厚度缩小一个数量级。5. 结论我们提出了SACoD，一个传感器算法协同设计框架，以实现更节能和更强大的CNN驱动的物联网系统，并在PhlatCam的上下文中验证它。提出了一种新的端到端共同搜索算法，以联合优化传感器和后端CNN中PhlatCam的编码掩码。广泛的实验和消融研究验证了SACoD在任务性能和硬件效率方面的优越性以及其一般适用性，在SOTA无透镜成像系统上评估各种任务和数据集时。SACoD中传感器算法协同设计原理的成功演示可以对许多需要智能传感器的现实物联网应用产生积极影响。确认这项工作得到了NSF EPCN计划的支持（奖项编号： 1934767 ）、 NSF RTML 计划（奖励编号：1937592 ）、 ONR 资助（奖号： N 00014 -19-1-2440 ）、 NSF CAREER 计划（奖项编号： IIS-1652633 ）、 NSF PATHS-UP 计划（奖项号： EEC-1648451 ）和 NIH Rockefeller 计划（奖项号：1RF1NS110501）。5176引用[1] Jesse K Adams 、 Vivek Boominathan 、 Benjamin WAvants 、 Daniel G Vercosa 、 Fan Ye 、 Richard GBaraniuk、Jacob T Robinson和Ashok Veeraraghavan。超小型无透镜平面镜单帧三维荧光显微镜Science Advances，3（12）：e1701548，2017。1[2] Nick Antipa 、 Grace Kuo 、 Reinhard Heckel 、 BenMildenhall、Emrah Bostan、Ren Ng和Laura Waller。漫射器摄像头：无透镜单次曝光3D成像。Optica，5（1）：1-9，Jan 2018. 一、二[3] Salman Asif，Ali Ayremlou，Aswin Sankaranarayanan，Ashok Veeraraghavan，and Richard Baraniuk.平面摄影机：使用编码光圈和计算的薄型裸传感器摄影机。2015年8月。一、二、四、八[4] 诉Boominathan，J.Adams，J.Robinson和A.Veeraragha-van. Phlatcam：设计基于相位掩模的薄型无透镜相机。IEEETransactionsonPatternAnalysisandMachineIntelligence，第1-1页一、二、三、四[5] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。通过超网络的一次性模型架构搜索arXiv预印本arXiv：1708.05344，2017。二个[6] Han Cai，Tianyao Chen，Weinan Zhang，Yong Yu，andJun Wang.通过网络变换进行高效的体系结构搜索。2018年第三十二届AAAI人工智能二个[7] Ezio Caroli ， J. Stephen ， G. 科科湖 Natalucci 和 A.Spizzichino x射线和伽玛射线天文学中的编码孔径成像。Space Science Reviews，45：349二个[8] 艾扬·查克拉巴蒂通过反向传播学习传感器复用设计。神经信息处理系统进展，第3081-3089页，2016年二个[9] Julie Chang和Gordon Wetzstein用于单眼深度估计和3d物体检测的深度光学在IEEE计算机视觉国际会议论文集，第10193-10202页二个[10] Huaijin G Chen ，Suren Jayasuriya ，Jiyue Yang ，JudyStephen，SriramSivaramakrishnan，AshokVeeraraghavan，and Alyosha Molnar. Asp视觉：使用角度敏感像素光学计算卷积神经网络的第一层。在IEEE计算机视觉和模式识别会议论文集，第903-912页四、五[11] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 六个[12] 陈武阳、龚新宇、刘先明、张骞、李元、王章阳。Fasterseg：搜索更快的实时语义分割。arXiv预印本arXiv：1912.10917，2019。六个[13] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在proc IEEE计算机视觉与模式识别会议（CVPR），2016年。四、六[14] R. H.迪克用于X射线和伽马射线的散射孔照相机。，153：L101，Aug. 1968. 二个[15] Thomas Elsken，Jan Hendrik Metzen，Frank Hutter，etal.神经架构搜索：一个调查。J.马赫学习. Res. ，20（55）：1-21，2019. 二个[16] Yonggan Fu ， Wuyang Chen ， Haotao Wang ， HaoranLi，Yingyan Lin，and Zhangyang Wang.自动蒸馏器：搜索压缩生成对抗网络。 arXiv 预印本 arXiv ：2006.08198，2020。六个[17] 尼古拉斯·高瑞尔和詹姆斯·克劳利。从显著面部结构的鲁棒检测估计面部方向。2004年01月，FG网络指示手势视觉观察研讨会四、六[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议论文集，第770-778页六个[19] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。五个[20] Benoit Jacob、Skirmantas Kligys、Bo Chen、Menglon

下载后可阅读完整内容，剩余1页未读，立即下载