没有合适的资源?快使用搜索试试~ 我知道了~
38263827暗视觉研究准确性和曝光时间之间的权衡它在以下情况下是引人注目的:1)自动驾驶[11]和竞争机器人[41],其中期望的响应时间不能保证良好的图像质量,以及2)医学成像/分类[38]和自适应物理学[27],其中光子由于光毒性或延长的采集时间而昂贵。由于光子计数成像传感器的最新发展,暗视觉也获得了突出地位:单光子雪崩二极管阵列[46]、量子图像传感器[12]和gigavision相机[36]。这些传感器检测和报告单光子到达事件在快速连续,一种能力,提供了细粒度的控制光子采集,是理想的暗视觉应用。相比之下,被设计为在固定曝光时间之后重新翻转高质量图像的常规相机在被迫快速读出图像时产生难以克服的噪声量,并且在低光下是次优的目前的计算机视觉技术尚未利用光子计数传感器,因为它们仍在开发中。幸运的是,传感器的真实噪声模型[12]已经可用,使得有可能(并且明智地)更新利用和促进传感器开发的计算模型。这些模型所面临的挑战是与高采样频率和光子计数传感器的特定噪声兼容虽然已经在图像感测的生理学和技术[3,10]以及视觉辨别[15]和视觉搜索[5]的生理学和心理物理学的背景下研究了暗视视觉,但关于暗视设置中的高级视觉任务(例如分类和检测)的计算原理知之光子限制图像分类的先前工作[45]处理单个图像,而我们的工作不仅研究了曝光时间和准确性之间的权衡,而且还探索了现代复杂性数据集上的暗视视觉分类。我们的主要贡献是:1. 一个可以权衡准确性和响应时间的暗视分类判别框架2.前馈架构产生任何时间,准最佳暗视分类。3.一种优化弱光分类器速度精度折衷的学习算法4. 当前光子计数传感器中传感器噪声的鲁棒性分析5. 一个尖峰实现,权衡精度与计算/功率。6. 一种光级估计能力,允许在没有外部时钟和照度水平未知的情况下实现功能2. 以前的工作我们的暗视视觉分类方法(仅收集足够的观察结果以做出决定)来自WaldWald证明了SPRT的最优性在相当 严 格 的条 件 下 ( 见 第 二 节 ) 。 ( 3 ) 第 三 章 。Lorden、Tartakowski和合作者[26,40]后来证明,SPRT在更一般的条件下是准最优的卷积神经网络(ConvNets)[14,22,21,19,39]在图像识别问题中取得了巨大的成功。我们表明,香草ConvNets是不够的暗视觉。但是,一旦应用了操作性修改 , 它们 就 非 常 合 适特 别 是 , 我 们的 暗 视 算 法 将ConvNet对高质量图像进行分类的能力与SPRT以接近最佳的方式权衡采集时间和准确性的能力结合在一起顺序测试已经出现在计算机视觉文献[43,31,28]中,以缩短计算时间。这些算法假设所有的视觉信息(“图像”)在计算开始时就存在,因此专注于减少明视视觉中的计算时间。相比之下,我们的工作旨在减少捕获时间,并基于计算时间与图像捕获时间相比可以忽略不计的假设。此外,这些算法要么需要计算密集型数值优化[33],要么无法提供最优性保证[47,8]。相比之下,我们提出的策略具有封闭形式,在理论上是渐近最优的。递归神经网络(RNN)[18,16]是一个强大的顺序推理工具。我们的工作本质上是重复的,因为每个进入的光子都会促使我们的系统更新其决定。然而,传统的RNN在处理由光计数传感器产生的大量数据(以1kHz成像)方面效率低下。因此,我们采用连续时间RNN[23],可以在任意时间使用样本进行训练,并表明每个光子流的对数数量(4)样本在实践中就足够了超大规模集成电路的设计者已经生产出电路,可以信号像素的这对于我们的工作是理想的,O'Connor等人将基于事件的计算的思想扩展到视觉计算。[34]他开发了一个基于事件的深度信念网络,可以对手写的摘要进行分类。我们提出的分类算法和尖峰实现与这项工作有很大关系。我们的重点是研究最佳策略,以尽量减少反应时间,而他们的重点是基于尖峰的计算。[7]的开创性工作建立了一个生成的3828研究暗视分类的框架。通过比较,我们采用了一个歧视性的框架,不需要一个完整的概率模型的图像。这使我们能够灵活地结合图像预处理(以获得更好的分类精度),光照水平估计(用于处理未知和可变的光照水平)和分布外测试(用于测量对现实感官噪声的鲁棒性)。此外,我们还提供了一个高能效的尖峰网络实现与光子计数传感器的集成。3. 暗视分类3.1. 图像捕获我们的计算框架从图像捕获模型开始。图像中的每个像素通过计数来自该方向的光子来报告视觉空间圆锥随着时间的推移,估计值会有所改善。从成像过程和目标分类应用的概率假设开始,我们推导出一种方法,该方法允许曝光时间和分类精度之间的最佳权衡。我们做了三个假设(放松或稍后测试1. 在成像过程中,世界是静止的。这可能是合理的,因为许多光子计数传感器以>1kHz对世界进行采样[36,12]。随后我们在摄像机运动下对模型进行了测试,并显示了鲁棒的性能。2. 光子到达时间遵循均匀泊松过程。此假设仅用于开发模型。我们将在SEC中评估该模型。4.4使用来自真实噪声源的观测。3. 基于光子流的判别分类器是可用的。我们将讨论如何获得这样的模型节中三点四分。形式上,输入X1:t是入射的光子流在时间[0,t)期间在传感器上,其中时间已经被离散化到长度为t的仓中。Xt,i是在第t个时间间隔内到达像素i的光子数,即[(t−1),t).其中照度λφ是单位时间内每个亮像素(强度1)的预期光子计数[32,36,24,13]。在读出期间,光子计数首先被放大器的读取噪声(其是加性高斯噪声)破坏由于光子计数传感器被设计为具有低读取噪声和低固定模式噪声[12,46,13],因此我们仅关注散粒噪声和暗电流的建模。我们将展示(SEC)。4.4)我们的模型对所有四种噪声源都是鲁棒的。另外,根据静止假设,不存在运动引起的模糊。为了简单起见,我们不对彩色图像中的电荷溢出和串扰进行建模,并假设它们将被传感器社区减轻[2]。光子流中信息内容的一个自然量化器X1:t是每个亮像素的平均光子数(PPP)。X1:t的PPP通过将具有真实强度1的像素的平均光子计数除以持续时间[0,t]上的平均场景照度λφ来估计。图1显示了PPP增加的一系列图像。如 果 场 景 照 度 λ φ 随 时 间 恒 定 ( 我 们 假 设 在 Sec.3.5),PPP与曝光时间t呈线性关系:PPP= λφ t(2)因此,我们可互换地使用曝光时间t和PPP。当场景照度随时间波动时,可以估计有效曝光时间t(见第3.5基于A标称照度,使问题简化为恒定的照度。3.2. 序贯概率比检验我们的决策策略权衡的准确性和速度是基于SPRT,其简单性和有吸引力的最优性保证。假设概率模型可用于预测给定任何持续时间t4的感觉输入X1:t的类别标签C,SPRT进行累积至阈值过程以估计类别标签C:暗视视觉识别系统的任务有两个方面:1) 计算类别C ∈ {0,1,. . . ,K}的下-令Sc(X△1:t)=P(C=c|X1:t)P(C/=c|X1:t)表示类别pos-躺着的物体,以及2)至关重要的是,确定并最小化观察被认为是充分的曝光时间t。3.1.1噪声源图像中的像素被相机固有的几个噪声源破坏[24]。散粒噪声:单位时间内入射到像素i上的光子数量遵循泊松分布,其速率(以Hz为单位)取决于像素强度Ii∈[0,1]和暗电流Iddc:光子C视类的外概率比计数输入X 1:t,n∈ {1,. . .,K},并且令τ是适当选择的阈值。SPRT重复以下内容:计算c= arg maxSc(X1:t)c=1,…K如果Sc(X1:t)>τ:报告C=c否则:增加曝光时间t。(三)当做出决定时,声明的类C的概率至少是所有其他类组合的概率的exp(τ)倍,因此错误率P( Xt我=k)= Poisson(k|λIi+ddcti)(1)φ1 +φdc4由应用程序提供或使用第2节中描述的技术从标记数据中学习。第3.4节日志38293830X不t+t0不不Tt=ConvNet不能直接应用,因为它们在静态输入NT上操作,累积光子计数达到相同的曝光时间T(例如,在正常照明条件下,T为33ms然而,我们提出了一个简单的调整,将光子计数的不确定性转移到不确定性政权最优性由贝叶斯风险R定义[44]:R=△ηE[PPP]+E[C/=Cη](5)其中E[PPP]是预期的(在示例中)光子计数在ConvNet的任务相关功能中。分类要求,E[CC是错误率,标准ConvNets包含多层计算,可以将其视为两个转换的嵌套:(1)将输入映射到特征向量5的第一隐藏层 SH ( NT )=WNT+bH ,以 及(2 )将特征SH(NT)映射到对数类后验概率S(NT)的剩余层S(NT)=F(SH(NT))。W∈RD×nH和bH∈RnH是权值和偏差。仅给定部分观测Nt,计算特征第一层需要边缘化未观察到的PHO。η描述了用户的每像素光子成本(PPP)与错误率。WaldNet渐近优化贝叶斯风险,前提是它可以忠实地捕获类对数后验比Sc(N t),并选择正确的阈值τ(等式2)。3)基于折衷参数η。扫描η遍历最佳时间与误差的权衡(图2)。 2 c)。由于根据η选择最佳阈值是在-依赖于训练ConvNet以近似对数后验比Sc(Nt),相同的ConvNet在吨数△T=t′=t+1t′。重新边缘化-多个η 这表明以下两步学习要求对每个图像像素i的光子发射率设置先验,我们假设其是伽马分布:Gam(µ t,t),其中µ表示以下参数的先验平均率算法第一步:后验学习给定数据集{N(n),C(n)}n,t,其中n索引训练i0 0it像素i和t0(跨像素共享)表示先验δ的强度。然后,第一层隐藏特征可以近似为:SH(Nt)<$α(t)WNt+β(t)(4)示例(即,光子流)并且T表示曝光时间,我们训练适应的ConvNet以最小化:Σ-logP(C)=C(n)|N(n))(6)n,t△其中,缩放因子α(t)=T+t0是一个标量,当低光照数据集不可用时,我们根据噪声模型从正常图像biasesβ(t)是一个长度为n的H向量。对于第j个隐藏特征,由方程式1,其中曝光时间被均匀地采样△t0(T-t)Wµ+b.衍生物在SEC中。 A.1.在对数尺度上(见第 4).βj( t)=t+t0iij i j基本上,在Eq. 4通过使用时间来解释光子到达时间的随机性-依赖的权重和偏置,从而呈现时间不变特征表示SH(Nt)。计算下游,F,然后可以处理SH(Nt),就好像它是从整个持续时间获得的。因此,相同的计算足以对类内和类间变化进行建模:第二步:阈值调整如果第一步中的ConvNet捕获了log后验概率,因此,我们可以简单地优化标量阈值τ η,对于每个折衷参数η。在实践中,我们可以选择时变阈值τn(t)用于校准目的7。τη(t)以如下方式影响我们的贝叶斯风险目标(图2d)。高质量(即不→ ∞)im-S(Nt)=F(SH(Nt))。年龄N(n),令{N(n)}T是一系列低光图像Tt t=1该网络是有区别地训练的(第二节)。3.4)与第一层替换为Eq. 4.第一章该网络几乎从N(n)产生的PPP增加。 表示q(n)△I[maxcSc(N(n))> τn(t)]是对数后验与传统ConvNet的参数数量相同,但(个)具有在不同曝光时间处理输入的能力自适应对于性能至关重要,这一点可以通过与第二节中简单的基于速率的方法进行比较来看出。4.第一章参见第A.6执行细节。比率在时间t处越过判定阈值,并且事件在t的类预测是错误的。令R(n)表示从时间t开始序列的贝叶斯风险。R(n )可以递归地计算(在第二节中导出)。 A.3):3.4. 学习R(n)=η+q(n)e(n)+(1−q(n))R(n)(七)t t t t t+1我们的目标是训练WaldNet以最佳方式权衡FR中的预期暴露时间(或PPP)和错误率5在不失一般性的情况下,为了简化符号,我们假设第一层是完全连接的,而不是卷积的。秒A.1显示-3831其中第一项是在时间t收集光子的成本,第二项是承诺错误的决策的预期成本,最后一项是推迟决策直到收集更多光子的预期成本。cusses如何将这里的结果扩展到卷积层。我们还定义第一层特征为非线性之前的活动6我们使用Gamma先验,因为它是泊松似然的共轭先验。这是因为步骤一中的学习可以针对每个曝光时间将Sc(Nt)恢复到缩放和偏移。随时间变化的阈值有助于标准化跨时间的尺度和偏移。38320Jλφ∆贝叶斯风险,我们的最小化目标,是从平均多个光子计数序列,即。R =2) 我们只传播一个变化,无论是在积极的或消极的方向时,其幅度超过了一个前,E(n)[R(n)]。 为了使R可微,我们近似定义离散化阈值τdis。带Sigmoid函数的不可微分量q(n)3) 内部层使用循环动力学表示,sIgM .不1(maxcSc(N(n))−τn(t))Σ,并对TEM进行退火。ICS和离散化相同的方式。σt阈值不仅影响通信数量在训练过程中的温度σ [30](见第二节)。 A.6)。3.5. 自动亮度估计这两种暗视算法(合奏和WaldNet)作为光级PPP的知识,以选择正确的模型参数。当照度随时间恒定时,该知识很容易获得,因为PPP在曝光时间t中是线性的(等式10)。2),这可以通过内部时钟来测量。然而,在照度是动态和未知的情况下,PPP和曝光时间之间的线性关系丢失。在这种情况下,我们建议直接从光子流本身估计PPP,如下所示。给定累积光子计数图像N(t,累积光子所需的时间,不再相关,因为照度未知),我们检查重新计算的局部邻域接收高光子计数,并将光子计数池化作为PPP的代理。具体而言,我们(1)使用s×s箱式滤波器对N进行卷积,(2)计算前k个响应的中值,以及(3)拟合二阶多项式以将中值响应回归到真实PPP。这里s和k是参数,其从由(N,PPP)对组成的训练集学习。 尽管它很简单,但这个估算过程在实践中很有效,我们将在第2节中看到。 4.第一章3.6. 加标实施暗视系统的一个主要挑战是在光子流入时尽快计算对数后验比光子计数传感器[36,12]以1k−10kHz的速度对世界进行采样,掩盖了ConvNets [35]8的最快吞吐量。幸运的是,自从光子到达由于任何时间仓内的事件都是稀疏的,所以对暗视系统的输入和内部状态的改变是小的。因此,我们提出了一个有效的实现,模型只有一定幅度以上的变化。我们的实现依赖于对经常性隐藏单元的尖峰:1) WaldNetSH(Nt)的第一隐藏层可以使用递归动态来计算:SH(Nt)=r(t)SH(Nt−1)+α(t)WXt+l(t)(8)此外,它还取决于离散化的质量,进而取决于分类精度。对于基于尖峰的硬件,尖峰的数量是能量消耗的间接度量(图1)。[ 29 ]的4(B))。对于非尖峰硬件,尖峰的数量也转换为上面的层所需的浮点乘法的数量。因此,τdis控制精度和功耗/计算成本之间的权衡。我们将在第二节中根据经验评估这种权衡。 4.第一章4. 实验4.1. 基线模型我们将WaldNet与以下基线进行比较,在INT制度和FR制度下。对于前三个基线,我们假设内部时钟测量曝光时间t,并且照度λφ已知且随时间恒定。1) 合奏。我们构建了一个由4位专家组成的集合,其中PPP来自{。22,2。22,220)。专家在各自购买力平价的业绩给出了上限相同架构的ConvNets的最佳性能。2) 明视分类器。一个直观的想法是将在正常照明条件下训练的网络应用于适当重新缩放的低光图像。我们选择PPP= 220的专家作为明视觉分类器,因为它达到了与使用8位图像训练的网络相同的精度。3) 速 率 分 类 器。 时 间 归 一 化 图 像( 速率 ) 上的ConvNet,无需权重自适应。 第一个隐藏层被计算为S H(N t)WN t/t+b H。请注意与方程中使用的WaldNet近似的相似性。 4.第一章4) WaldNet与估计的光照水平(EstP)。森林网在恒定照度λφ下训练,但在en-具有未知和动态照度的仪器 在这种情况下,曝光时间t和PPP(秒)之间的线性关系。(2)丢失。相反,首先根据Sec. 3.5直接来自光子计数图像N。然后将估计PP P转换为一个使用t=PPP(通过改变等式2),其中△α(t)△用于在SEC中适配WaldNet的第一个隐藏层。4即其中r(t)=α(t−1)是阻尼因子,l(t)=β(t)−r(t)β(t − 1)是泄漏项(第2节中的推导)。A.4)。[(t−1)<$,t<$)中的光子计数Xt是稀疏的,因此计算WXt比计算SH(Nt)更有效。从无到有832×32彩色图像的吞吐量为2kHz,100×100彩色图像3833SH(N)<$α(t<$)W N + β(t <$)。4.2. 数据集和培训我们考虑两个标准数据集:[22]和[20]。 我们模拟低光训练图像序列使用Eq。1和使用光子计数传感器的噪声模型测试光子流[12]。我们设置暗电流3834MNIST FRPPP审讯0.6ER0.450.30.6ER0.450.30.6ER0.450.3对fpn敏感IGMA对安培igma的灵敏度S s十比一儿0.0310-2十比一儿0.0310-2对fpn敏感IGMA对安培igma的灵敏度S s十比一儿0.0310-2增强率明视WaldNetEstP为INT不MN增强率明视WaldNetEstPa)b)、0.6-1100.4-2100.222.222PPP2200.2d)、0.60.222.222PPP2200.4图5. 传感器噪声对WaldNet的影响。行对应于数据集MNIST和CIFAR10,列对应于噪声源的参数,即暗曲线。0.2Rent固定模式噪声的标准差0.22 2.2 2220购买力平价中位数图3. 性能比较。(a,b)错误率与(a)MNIST和(b)CIFAR10的询问PPP。每个点都是通过对10k个测试示例进行分类来计算的,其中PPP是固定的。(c,d)错误率与(c)MNIST和(d)CIFAR10的中值PPP(在FR方案中,每个光子流需要不同的PPP来分类,因此使用中值)。显示了PPP中位数和错误率的1个自助步骤,后者太小而不可见。σfpn、加性读取噪声的标准差σr和旋转噪声的标准差相位抖动σθ(单位:度)。每个面板中只有一个噪声是变化的,而其余的则固定在各自的基线上:σdc= 3%,σr=0。15,σfpn=3%,σθ=0。当模型使用第2.1节中描述的优化动态阈值时,第二步3.44.3.1模型比较总体而言,WaldNet在弱光下表现良好。 它只是重新-a)b)、0.60.4c)0.20.22 2.2 2220平均购买力平价0.20.1030002000100000.22 2.2 2220INTFR优化FR22 2.2 22 220PPP需要<1个PPP才能保持在0以内。MNIST的精度下降1%(绝对),CIFAR10的精度下降约20PPP,保持在1%WaldNet就足够了。该集合是使用专家在按时间间隔的曝光时间形成的,因此其曲线在询问机制中是不连续的(特别是,图3b)。这些峰描绘了专家之间的过渡。尽管WaldNet使用了集合的1/4参数,但它仍然接近性能上限(es-1)。图4.阈值学习的效果(Sec. 第3.4段)。 (a)错误速率vs. 使用具有优化的时变阈值τn(t)的网络的CIFAR 10的平均PPP。显示了1个自举ste,但不可见。(b)每条曲线显示优化后的贝叶斯风险降低(第二节)。3.4,步骤2)每平均购买力平价。(c)在INT下的响应时间(PPP)直方图,在优化WaldNet之前的FR和之后的FR,在CIFAR10上实现22%的dc= 3%,并忽略第二节中模型计算的其他噪声源。4.3,并分别评价第4.3节中所有噪声源的影响。4.4我们使用MNIST的默认LeNet [22]和来自Mat- ConvNet包的CIFAR 10-quick架构[42],两者都具有批量标准化[37]并且没有数据增强。模型和训练的细节在第2节中描述。A.5和A.6,代码(基于MatCovNet [42])在线[1]。4.3. 结果INT模式下的速度与精度折衷曲线如图3a、b所示。显示了FR制度中所有模型的中位PPP与准确度权衡在图3c、d中,所有模型都使用恒定阈值来产生权衡曲线。在图4中,a是平均PPP ver-ARINT10CIFCIFAR1FR0c)、MNISTFR10-20.22 2.2购买力平价中22220a)、SenDsaitrikviCtutrentr=0.03DC固定模式噪声读取噪声=0.01FPN=0.15RDCD=0.05=0.08=0.11FPN=0.03=0.10R(RSoetnastiotinv)itMyotinteNr oise=0=0.22=3=0.50=22FPNR0.03DC10-2MNIST0.222.20.222.20.222.20.222.2购买力平价中位数购买力平价中位数购买力平价中位数b)、敏感性购买力平价中位数抖动灵敏度0.450.3CIFAR100.222.2222200.222.2222200.222.2222200.222.222220购买力平价中位数错误率错误率错误率错误率错误率计数儿减少风险儿3835从整体性能估计)。在FR机制下,WaldNet与MNIST中的系综无法区分,并且优于CIFAR10的弱光条件(≤22PPP)下的系综。使用暗视图像进行训练是必要的。针对弱光应用改造的明视觉分类器在高光条件(≥220PPP)下表现良好调查显示,分类器未能评估低光图像的概率,并且经常过早地停止证据收集体重的调整是必要的。率分类器在两个数据集中的表现略低于WaldNet。由于这两个系统具有相同的自由度,并且仅在如何计算第一层特征方面有所不同,因此比较突出了时间适应的优点(等式10)。 4).FR比INT更好。交叉参考图3a、b图3c,d揭示了具有恒定阈值的FR通常带来中值光子计数的34.3.2阈值学习效应FR机制下的上述比较使用了学习的对数后验比的恒定阈值(图3c,d)。我们-3836学习动态阈值(第2节第2步)3.4)我们看到所有模型中给定错误率所需的平均PPP的一致改进(图4 b),明视分类器具有更多的好处。图4c检查了CIFAR 10上的PPP 直 方 图 , 其 中 恒 定 ( FR ) 与 动 态 阈 值 ( 优 化FR)。我们看到,十比一10-2100101诺姆总多重添加(%)10050029.9819.8311.200.22 2.2PPP许多决策都是在购买力平价220的临界点做出的,因此,中位数和平均数是完全不同的。学习动态阈值减小了PPP的方差,但使中值更长。这是可以的,因为贝叶斯风险目标(等式 5)关注平均购买力平价,而不是中位数。明确使用哪个阈值取决于中位数或平均值对于应用来说更重要。4.4. 对传感器噪声在第二节中观察到的加速效果有多强?4.3受传感器噪声影响?对于MNIST和CIFAR 10,我们采用Wald-Net并独立地改变暗电流、读取噪声、固定模式噪声和旋转抖动噪声,其中每单位时间应用由σ θ参数化的随机旋转(细节见第10节)。 A.7)。首先,暗电流和固定模式噪声的影响是最小的。即使是11%的暗电流(即,最暗像素的光子发射率是最亮像素的光子发射率的10%)仅仅使曝光时间加倍而精度损失很小。乘法固定模式噪声不会影响性能,因为WaldNet通常使用很少的光子。其次,当前读取噪声的行业标准(σ r= 22%[12])保证MNIST没有性能损失,CIFAR10有轻微损失,这表明需要改进算法和光子计数传感器。σr= 50%会损害性能的事实也表明单 光 子 分 辨 率 对于 暗 视 觉 至 关 重 要 最后 , 虽 然WaldNet对旋转抖动提供了一定的容忍度,但剧烈的运动(220 PPP时为22μm)可能会导致性能显著下降,这表明未来的暗视识别系统和光子计数传感器不应忽略相机/物体运动。4.5. 加标实施最后,我们检查尖峰网络实现的功率效率(等式1)。8)在MNIST数据集上。我们假设光子计数传感器观察到总共22个PPP的光子流,并报告100个光子到达事件的二值化“图像”(即,原子22PPP /帧)。我们的reference实现(“Continuous”)在每次二进制图像到达时从端到端运行ConvNet。尖峰实现采用离散化阈值τdis(Sec. 3.6)这是所有层的共同点。作为功率效率的代表,我们使用乘法和加法的数量(MultAdds)[29],通过在整个持续时间内运行基线的MultAdds进行归一化。功率与精度的折衷结果如图所示。 6 a,b表明离散化阈值在τ dis=图6. “Energy” and accuracy tradeoff of the spiking recur- rentneural network implementation on MNIST a)具有不同离散化阈值τ dis的尖峰网络的错误率(等式 8)针对在FR模式下运行的MultAdds(归一化)。b)作为时间/PPP的函数的每帧MultAdds(归一化)插入的数字表示在INT模式下运行的网络的MultAds的累积百分比,直到PPP= 22(归一化)。0的情况。2,其中,在FR模式下,在相同的错误率下,尖峰实施比连续实施的效率高2−3倍(图6a)。图6 b表明,随着网络的信号变得更加稳定,尖峰实现随着时间的推移变得越来越有效,并且尖峰实现具有τdis = 0。2的效率是INT模式下的基线。5. 讨论和结论我们研究了暗视觉识别的重要但相对未探索的问题,其中可用的光是低或昂贵的收购,图像捕获比计算更漫长/昂贵在这种视觉系统中,计算应该在快门一打开时就开始,算法应该被设计成在光子到达光感受器时就处理光子我们提出了WaldNet,这是一个模型,它结合了随时间变化的光子到达事件,形成一个连贯的概率解释,并在收集到足够的证据后立即做出决定所提出的算法可以通过类似于卷积网络的深度前馈网络来实现。尽管架构的相似性,我们看到了明确的优势,专门为暗视环境开发的方法。WaldNet和传统类型的模型之间的实验比较,例如改装为低光图像的明视方法WaldNet还允许在能量/计算效率与准确性之间进行灵活的权衡,当被实现为循环尖峰网络时。当假设恒定的照度进行训练时,WaldNet可以应用于具有变化和未知照度水平的环境中 。 最后 , 尽 管 仅 依赖 于 少 量 光 子进 行 决 策 , 但WaldNet受相机噪声的影响最小,因此非常适合与不断发展的弱光传感器集成。误差连续0.1000.2000.500诺姆Num. MultAds(%)3837引用[1] github上的暗视觉https://github.com/bochencaltech/scotopic 的网站。7[2] L. Anzagira和E. R.福萨姆用于具有大量串扰的小像素图像传感器的滤色器阵列图案。JOSA A,32(1):283[3] H.巴洛一种确定视觉辨别的总体量子效率的方法。生理学杂志,160(1):1552[4] R. Bogacz,E. Brown,J. Moehlis,P. Holmes和J. D.科恩最优决策的物理学:两种选择强迫选择任务中的表现模型的正式分析。Psychological re-view,113(4):700,2006. 4[5] B. Chen,V. Navalpakkam,and P.佩洛娜预测视觉搜索的反应时间和错误率神经信息处理系统(NIPS),格拉纳达,2011年。2[6] B. Chen和P.佩洛娜视觉搜索的最优决策策略arXiv预印本arXiv:1411.1190,2014年。4[7] B. Chen和P. Perona.暗视觉识别。在IEEE计算机视觉研讨会国际会议论文集,第8-11页,2015年。2[8] B. Chen,P. Perona,and L. D.布尔德夫用于有效的poselet评估的分级级联分类器。InBMVC,2014. 2[9] T. 德尔布鲁克硅视网膜与相关性为基础的,速度调谐像素。神经网络,IEEE Transactions on,4(3):529-541,1993。2[10] T. Delb rück和C. 蜂蜜酒 模拟超大规模集成电路光转换。Signal,10(3):10,1994. 2[11] E. D.迪克曼斯 用于感知和控制运动的动态视觉。SpringerScience Business Media,2007. 2[12] E.福萨姆量子图像传感器(QIS):概念和挑战。在成像系统和应用中,第JTuE1页。美国光学学会二三六八[13] E. R.福萨姆单比特和多比特量子图像传感器的性能建模。Electron Devices Society,IEEE Journal of the,1(9):166-174,2013。3[14] K.福岛Neocognitron:不受位置变化影响的模式识别机制的自组织神经网络模型。Biological cybernetics,36(4):193-202,1980. 2[15] J. I. Gold和M. N.沙德伦Banburismus和大脑:解读感官刺激、决策和奖励之间的关系。Neuron,36(2):299-308,Oct 2002. 2[16] A. 谢谢你MLiwicki,S.费尔恩南德斯河。Bertolami,H.包子,还有J·施密德胡伯。一种新的无约束手写识别的连接主义系统。IEEE transactions on pattern analysis and machine intelligence,31(5):855-868,2009。2[17] G. E. Healey和R.康德普迪辐射计ccd相机定标与噪声估计。模式分析与机器智能,IEEE Transactions on,16(3):267-276,1994. 3[18] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8):1735-1780,1997。2[19] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地女孩S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。arXiv预印本arXiv:1408.5093,2014。2[20] A. Krizhevsky和G.辛顿从微小图像中学习多层特征,2009年。6[21] A.克里热夫斯基岛Sutskever和G.辛顿Imagenet分类与深度卷积神经网络。神经信息处理系统进展25,第1106-1114页,2012年。2[22] Y.勒昆湖Bottou,Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE,86(11):2278-2324,1998.二六七[23] X.- D.李嘉诚<英>香港实业家。Ho和T. W.周梁淑 用连续时间递归神经网络逼近动态时变系统。IEEE Transactions on Circuitsand Systems II:Express Briefs,52(10):656-660,2005. 2[24] C. 柳河,巴西-地Szeliski,S.B. 康角,澳-地L. Zitnick和W.T. 弗里曼。从单个图像中准确估计和去除噪声Pattern Analysis andMachine Intelligence,IEEE Transactions on,30(2):2993[25] S.- C. Liu,T.德尔布吕克湾Indiveri,A.Whatley和R.道格拉斯基于事件的神经形态系统。John Wiley Sons,2014. 2[26] G.洛登多个参数值的近似最优序贯检验。《统计年鉴》,第1-21页,1977年。二、四[27] D. C.马丁,D.张,M。Matuszewski,P. Morrissey,S. 拉赫曼A. Moore和C. C.施泰德用宇宙网成像仪观测星系际介质发射I.QSO 1549+ 19的环类星体介质,以及对流气体流入的证据天体物理学杂志,786(2):106,2014。2[28] J. Matas和O.好朋友序贯概率比检验的随机化ransac。计算机视觉,2005年。ICCV 2005年。第十届IEEE国际会议,第2卷,第1727-1732页。IEEE,2005年。2[29] P. A. Merolla,J.诉阿瑟河Alvarez-Icaza,A.S. Cassidy,J.泽田F.阿科皮扬湾L. Jackson,N.伊玛目角Guo,Y. Nakamura等人一种具有可扩展通信网络和接口的百万尖峰神经元集成电路。Science,345(6197):668-673,2014. 六、八[30] H. Mobahi和J. W.费希尔三世高斯同伦延拓与凸包络的联系。计算机视觉和模式识别中的能量最小化方法,第43施普林格,2015年。6[31] P. Moreels,M. Maire和P.佩洛娜通过概率假设构建的识别。在计算机视觉-ECCV 2004,第5568. Springer,2004. 2[32] P. A. 莫里斯河,巴西-地S. Aspden,J.E. 贝尔河,巴西-地W. 博伊德和M。J. 帕吉特用少量光子成像。Nature Communications,2015年6月。第1、3条[33] M. Naghshvar , T. Javidi 等 人 , Active Sequential HypothesisTesting。The Annals of Statistics,41(6):2703-2738,2013. 2[34] P. O'Connor,D.尼尔,S.- C. Liu,T. Delbruck和M.菲佛基于尖峰深度信念网络的实时分类和传感器融合. 神经科学前沿,2013年7月。2[35] K. 奥夫恰罗夫岛Ruwase,J.Y. 金,J.Fowers,K.Strauss和E.S.阿忠使用专用硬件加速深度卷积神经网络。微软研究白皮书,2015年2月。6[36] L. Sbaiz ,F.Yang,E. Charbon ,S.Süsstrunk和M.我也是Gigavision摄像头 在声学,语音和信号处理,2009年。ICASSP2009年。IEEE国际会议,第1093-1096页。IEEE,2009年。二、三、六[37] C. S.谢尔盖·约菲批次标准化:通过减少内部协变量偏移来加速深度网络训练。第32卷,第448- 456页,2015年。7[38] D. J. Stephens和V. J·艾伦活细胞成像的光学显微镜技术。Science,300(5616):82-86,2003. 2[39] C. 塞格迪,W。Liu,Y.Jia,P.Sermanet,S.里德D.安格洛夫,D。Er-han,V. Vanhoucke和A.拉比诺维奇。用卷积更深入。在IEEE计算机视觉和模式识别会议论文集,第1-9页,2015年。2[40] A. G.塔尔塔科夫斯基某些多假设序贯检验的渐近最优性:非iid的 情 况 下 。 Statistical Inference for Stochastic Processes , 1(3):265-295,1998. 2[41] S. Thorpe ,D. 菲兹角Marlot 等人人类视觉系统的处理速度nature,381(6582):520-522,1996. 2[42] A. Vedaldi和K.伦克Matconvnet2015. 7[43] P.Viola和M.琼斯快速目标检测使用一个简单的功能增强级联。计算机视觉和模式识别,2001年。CVPR 2001年。2001年IEEE计算机学会会议论文集,第1卷,第I-511页。IEEE,2001年。2[44] A.华德统计假设的序贯检验。数学统计年鉴,16(2):117-186,1945。二、四、五3838[45] M. N. Wernick和G. M.莫里斯低照度下的图像分类。JOSA A,3(12):2179-2187,1986. 2[46] F. Zappa,S. Tisa,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功