Ev-TTA:基于事件的目标识别的测试时间适应算法

4 浏览量更新于2023-10-25 收藏 12.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

177450Ev-TTA：基于事件的目标识别的测试时间适应0Junho Kim 1，Inwoo Hwang 1和Young Min Kim 1,2，*01 首尔国立大学电气与计算机工程系02 首尔国立大学人工智能和INMC跨学科项目0摘要0我们介绍了Ev-TTA，一种简单有效的基于事件的目标识别的测试时间适应算法。尽管事件相机被提出用于提供具有快速运动或剧烈光照变化的场景的测量，但许多现有的基于事件的识别算法在极端条件下性能下降，因为存在显著的领域转移。Ev-TTA通过在测试阶段使用受时空特性启发的损失函数对预训练的分类器进行微调，以减轻严重的领域差距。由于事件数据是一系列时间测量值，我们的损失函数强制要求相邻事件具有相似的预测结果，以便在线快速适应变化的环境。此外，我们利用事件的两个极性之间的空间相关性来处理极端光照下的噪声，其中不同极性的事件展示出不同的噪声分布。Ev-TTA在广泛的基于事件的目标识别任务上展示了大量的性能提升，而无需进行大量额外的训练。我们的公式可以成功应用于各种输入表示，并进一步扩展到回归任务。我们期望Ev-TTA能够为在具有挑战性的现实世界应用中部署基于事件的视觉算法提供关键技术，其中领域转移是不可避免的。01. 引言0事件相机是一种产生具有高动态范围和微秒级时间分辨率的亮度变化序列的神经形态传感器。该传感器针对标准基于帧的相机质量在极端测量条件下下降的情况。在极端测量条件下，传统相机会产生运动模糊或像素饱和的明显伪影，并且性能会下降。事件相机能够在具有挑战性的环境中获取视觉信息，具有克服这些问题的潜力。0* Young Min Kim为通讯作者。0图1. 可视化N-ImageNet[17]中记录的不同环境条件下的事件。正事件和负事件分别以蓝色和红色显示。低光照下的事件（b）表现出噪声突发，即大量噪声事件从一个极性触发。极端运动中的事件（c）相比正常条件（a），沿边缘触发的事件更密集。这两种变化导致了显著的领域差距，降低了识别性能。0基于帧的相机的局限性。尽管事件相机具有诸多优势，但数据采集和识别之间存在明显的差距。虽然事件相机可以在具有挑战性的环境中获取有意义的信息，但从这些条件下获取的事件通常噪声较大且缺乏视觉特征。图1显示了在正常光照和常规相机运动下记录的事件与在极低光照或极端相机运动下的事件之间存在明显的视觉对比。这些输入变化直接影响基于事件的目标识别算法，性能变得非常不稳定。图3b还显示了由于领域转移而导致的特征嵌入空间的扰动。由于在各种外部条件下手动收集标记数据很困难，因此需要一种适应策略来充分利用事件相机的潜力。我们提出了Ev-TTA，这是一种针对基于事件的目标识别的测试时间适应算法。给定一个预训练的分类器，Ev-TTA通过使用受事件的时空特性启发的损失函数，在测试阶段对其进行微调，以减轻严重的领域差距。由于事件数据是一系列时间测量值，我们的损失函数强制要求相邻事件具有相似的预测结果，以便快速适应环境变化。此外，我们利用事件的两个极性之间的空间相关性来处理极端光照下的噪声，其中不同极性的事件展示出不同的噪声分布。Ev-TTA在广泛的基于事件的目标识别任务上展示了大量的性能提升，而无需进行大量额外的训练。我们的公式可以成功应用于各种输入表示，并进一步扩展到回归任务。我们期望Ev-TTA能够为在具有挑战性的现实世界应用中部署基于事件的视觉算法提供关键技术，其中领域转移是不可避免的。177460经过训练的事件分类器Ev-TTA在测试阶段适应新的、未见过的具有大领域差异的环境。我们的方法不需要来自目标域的标记数据，并且可以在线操作。尽管如此，Ev-TTA在诸如N-ImageNet[17]等数据集中显示出大量的性能提升，所有测试的表示中准确率提高了10%以上。虽然我们主要研究由摄像机轨迹和场景亮度的外部变化引起的领域差异，但Ev-TTA也能够处理其他领域差异，如Sim2Real差距。Ev-TTA由两个关键组件组成，利用了事件数据在时空域中的独特特征。首先，我们的测试时间适应策略强制要求对于时间上相邻的流的预测保持一致性。我们的新型损失函数同时最小化了相邻事件片段对之间的差异，同时有选择地最小化了预测的熵。其次，我们建议删除缺乏相反极性的空间邻近事件的事件。这是基于这样的观察：在极端光照下，事件流中的严重噪声仅在一个极性上产生，如图1所示。由于Ev-TTA仅干预输入事件和输出概率分布，因此它适用于各种事件表示、数据集或任务。在第4.1节中，Ev-TTA在各种外部条件下对所有事件表示进行了普遍性改进。由于目前对于最佳事件表示没有共识，处理各种事件表示的灵活性使得Ev-TTA进一步适用于事件数据。我们的公式是通用的，也适用于其他基于视觉的任务，只需进行轻微修改。我们证明了Ev-TTA可以用于除分类之外的其他任务，如转向角回归，这表明了Ev-TTA的广泛适用性。总之，我们的主要贡献是：（i）基于时间一致性的新型测试时间适应目标，（ii）利用空间一致性的低光条件下的噪声去除机制，（iii）在广泛的事件表示中对Ev-TTA进行全面评估，并（iv）将Ev-TTA扩展到基于事件的回归任务。我们的实验证明，Ev-TTA可以成功地将各种基于事件的视觉算法适应到各种外部条件。02. 相关工作0事件感知目标识别中的稳健性尽管事件相机可以在低光和突然的摄像机运动等恶劣环境中工作，但收集到的数据存在明显的领域差距，导致性能下降。以前的研究已经调查了这些效果。0运动[34,42]或夜间捕捉[27]的质量或使用模拟数据进行定性分析。最近，邓等人[9]对一小组运动的稳健性进行了首次定量分析之一。金等人[17]提出了N-ImageNet及其在不同摄像机轨迹和照明下的变体，这使得对分类稳健性进行系统评估成为可能。在各种记录条件下，观察到所有事件表示的性能明显下降。几种事件表示是手工制作的，以抵御摄像机运动。早期的方法，如事件直方图[19]和二进制事件图像[7]，忽略了时间方面，只利用事件的空间分布。这与其他利用原始时间戳值[18, 25, 34,43]的方法形成对比，这些方法可能对摄像机速度的突然变化敏感。为了利用时间信息并消除速度变化，几种表示，如DiST[17]和排序时间表面[2]，使用从排序中获得的相对时间戳而不是绝对时间戳。基于学习的事件表示将用于打包事件的学习模块[6,14]纳入其中，如果提供了反映多样化外部条件的数据集，这些模块在理论上可以被训练为稳健的表示。然而，它们只在小型数据集[24,34]中显示出良好的性能，而手工制作的方法，如DiST[17]，在大规模细粒度数据集[17]中表现出与这些方法相当的性能。这是由于大规模数据集（如N-ImageNet[17]）对大批量训练的大内存需求的抑制作用。由于基于手工制作的表示的分类算法在基于事件的视觉[19, 29, 41,43]中更常用，并且在大规模数据集中具有足够的性能，我们将重点放在这类方法上。我们在多种手工制作的事件表示[2, 7, 17-19,25]中广泛评估了Ev-TTA，并在各种测试时间条件下展示了与其他基线相比的普遍性能提升。0测试时间自适应无监督域自适应[1, 11, 28, 31,38]旨在将模型从有标签的源领域转移到无标签的目标领域。测试时间自适应[3, 4, 15, 22, 37,40]的目标与无监督域自适应类似，不同之处在于自适应发生的位置：无监督域自适应通常需要使用来自目标领域的数据进行额外的训练阶段，而测试时间自适应主要干预测试阶段。鉴于输入事件分布的多样性变化，我们提出了一种测试时间自适应策略，以更准确地反映当前的测量条件，以便在实际部署事件视觉算法时比收集训练数据更合适。177470数据集用于捕捉可能变化的整个空间。Ev-TTA从无监督域自适应和测试时间自适应中汲取灵感。SENTRY[28]是无监督域自适应的最先进算法之一，通过观察增强输入样本之间的一致性来有条件地优化熵。虽然训练目标对于自适应是有效的，但SENTRY需要改变训练过程和网络架构才能正常运行。Tent[40]是一种轻量级的视觉识别测试时间自适应方法，可以在不改变训练和网络架构的情况下实现大幅度的性能提升。Tent在测试阶段最小化预测熵，并将优化限制在批归一化层上以实现高效训练。Ev-TTA充分利用了SENTRY [28]和Tent[40]的优势，同时进一步结合事件数据的时空特性以实现最佳性能提升。03. 方法0Ev-TTA通过对源领域进行预训练的事件分类器进行调整，以适应测量设置发生显著变化的目标领域。源领域定义为用于训练的原始外部条件，目标领域是用于测试的新条件。例如，分类器可以使用在正常光照下捕获的数据进行训练，然后在低光照下进行测试。原始事件相机输出由一系列事件组成，E = {ei = (xi, yi, ti,pi)}，其中ei表示在时间ti处像素位置(xi,yi)处的极性为pi的亮度变化。虽然有几种异步处理事件的方法[21, 32,33]，但我们仍然专注于使用类似图像的事件表示的更普遍的方法。分类算法[19, 29, 41,43]由两步过程组成，首先将事件聚合成类似图像的表示，然后使用传统的图像分类器架构[16]进一步处理以输出类别概率。一旦选择了输入表示形式，并在源领域中预训练了分类器Fθ(∙)，则目标领域的网络参数θ将根据训练目标进行优化，该目标要求相邻事件序列之间具有时间一致性。训练目标在第3.1节中详细说明。Ev-TTA可以以离线或在线方式进行测试时间适应。在离线设置中，Ev-TTA首先针对整个目标领域进行优化，然后使用更新的模型参数对相同样本进行另一组推断以进行评估。在在线设置中，Ev-TTA同时进行评估和优化，从而省略了第二个推断阶段。Ev-TTA在两种评估场景中表现出良好的性能，详细结果在第4节中报告。请注意，训练过程中不使用源领域的数据。0图2. 训练目标概述。(a)Ev-TTA从输入事件流中提取K个随机等长的片段，并微调预训练的分类器，以强制与锚定事件E1和其他事件片段Ek的时间一致性。(b)预测相似性损失LPS最小化与锚定事件的差异(c)，而选择性熵损失LSE在投票一致时最小化锚定预测的熵。0这将导致大量额外的计算，因为源域数据通常比目标域数据要大得多。此外，Ev-TTA不修改神经网络架构或训练过程，因此可以应用于各种实际场景。事件序列还使用不同事件极性之间的空间一致性进行条件细化，并编译成类似图像的表示形式，作为神经网络的输入。空间一致性为在极端光照条件下去噪提供了重要线索，详细描述请参见第3.2节。03.1. 时间一致性的训练目标0Ev-TTA最小化了一个在时间域中强制一致性的损失函数。给定一个事件流E，令E1，...，EK�E为从E中获得的K个等长的随机片段。注意，基于事件的目标识别通常使用的输入事件不超过100ms [17, 18,24]，因此我们可以假设这K个随机事件片段是时间上相邻的。训练目标要求事件片段的网络输出Fθ(Ei)，i=1，...，K之间的一致性，如图2所示。损失函数定义为L=LPS+LSE，其中LPS是预测相似性损失，LSE是选择性熵损失177480熵损失。0预测相似性损失预测相似性损失要求时间上相邻的事件E1，...，EK的预测标签分布相似，如图2b所示。使用对称KL散度SKL(P,Q)=DKL(P∥Q)+DKL(Q∥P)，预测相似性损失定义如下0LPS=10k=2 SKL(Fθ(E1),Fθ(Ek)). (1)0请注意，该损失函数最小化了第一个事件片段的预测与其余片段之间的差异，而不是包含K个事件片段中的所有可能配对。由于广泛的成对比较会导致计算量的二次增加，我们使用第一个事件片段作为“锚点”，将其他事件片段的预测拉向它。我们经验证明，只使用一个事件片段作为锚点就足以成功适应，尤其是当它与选择性熵损失LSE配对使用时。我们还发现，锚点的选择对性能没有显著影响，深入分析请参见补充材料。0选择性熵损失虽然预测相似性损失为测试时的自适应提供了有意义的学习信号，但该损失在很大程度上依赖于锚点预测的质量。为此，Ev-TTA还施加了选择性熵损失LSE。受到SENTRY[28]的启发，我们提出只有在第一个事件片段E1�E的预测与其他事件片段一致时，才有选择性地最小化其预测熵。一致性是通过检查预测的类别标签是否与时间上相邻的事件一致来确定的，如图2c所示。具体而言，每个事件片段Ei对具有最高概率的类别标签进行投票，即vi=argmaxFθ(Ei)。如果锚点的标签投票v1等于其他事件片段的多数投票vmajority，则认为锚点是一致的。使用熵H(p)=−�0对于离散概率分布p∈RC（其中C是类别数），选择性熵损失定义如下0LSE=� H(Fθ(E1)) if consistent 0 if inconsistent.(2)0我们的损失函数与SENTRY[28]的选择性熵损失在两个方面有所不同。首先，一致性的标准是使用时间上相邻的事件确定的，而不是SENTRY中使用的图像增强。此外，虽然SENTRY[28]建议最大化不一致样本的预测熵，但我们发现0图3. N-ImageNet [17]中的一个3类事件分类任务的t-SNE[39]可视化，该任务使用在正常条件下捕获的数据进行训练，并适应在极端相机运动下记录的变体。我们用彩色圆圈表示每种适应方法的预测，其中每种颜色对应一个标签。即使分类器在训练的源域中表现成功（a），但在没有充分适应的情况下，性能无法转移到目标域（b）。训练所有层无法适应目标数据（c），因为事件数据的关键先验信息丢失了。另一方面，Ev-TTA（d）成功地适应了目标数据并减轻了性能下降。0简单地忽略这些样本，如公式2所示，对于事件视觉中的测试时适应更加有效。我们在第4.2节的消融研究中进一步验证了这一观点。0优化策略给定总的训练损失函数 L，我们将优化限制在预训练分类器的批归一化层上，这是根据[40]的建议。当目标域数据稀缺时，改变整个参数集可能会使模型偏离从预训练中获得的重要先验知识。这个论点也得到了我们在Figure 3中使用N-ImageNet[17]的变体进行的实验的支持。即使使用相同的目标，训练整个网络会导致预测标签坍缩（Figure3c），而只优化批归一化层时，不同的标签更好地分离（Figure3d）。Ev-TTA有效地利用了反映事件数据的独特特征的损失函数，并进行了快速和成功的适应，这在第4节中进一步讨论。0回归扩展我们证明了Ev-TTA可以用于回归问题，这与分类问题一起构成了计算机视觉任务的大部分。作为一个典型的例子，我们展示了对自动驾驶中的转向角回归的扩展。任务是从一系列事件 E 中预测转向角 ϕ 。Llikelihood = − log σ − (ϕgt − µ)22σ2,(3)SKL(Fθ(E1), Fθ(Ek)) = σ41 + σ4k + (σ21 + σ2k)(µ1 − µk)22σ2σ2.H(Fθ(E1)) = log σ1√2πe.(5)177490由于我们的损失函数由KL散度和预测的熵组成，因此可以很容易地扩展到输出概率分布的其他任务。对于转向角回归，我们设计回归器同时预测转向角的均值和方差，即 F θ ( E )= ( µ, σ )。假设输出变量服从高斯分布，回归器被训练以最大化对数似然，如Nix等人[23]所示，0其中 ϕ gt是源域的真实转向角。在这种情况下，我们对Ev-TTA中用于分类的损失函数进行了三个修改。我们首先用高斯分布的KL散度替换了公式1中的对称KL散度，即0(4) 我们还用高斯分布的熵修改了公式2中的熵，即0最后，一致性准则被用于连续网络输出。如果锚定事件的预测方差在其邻居预测方差的范围内，那么该锚定事件被认为是一致的。具体来说，我们验证方差比 σ 2 1 / σ 2 k （其中k = 2, ...,K）是否在10^-1和10之间。我们使用方差来施加约束，因为预测均值可能会在驾驶场景不同的情况下有很大偏差，而预测方差应该在较长的时间范围内保持一致。通过上述修改，Ev-TTA可以提高转向角预测的性能，这在第4.1节中进一步讨论。结果表明，我们可以通过检查输出分布的熵和差异来将我们的适应策略应用于其他视觉任务。03.2. 基于空间一致性的条件去噪0低光条件严重损害了基于事件的视觉算法，正如Kim等人所指出的[17]，据我们所知，以前的方法没有正确处理这个问题。主要原因是“暗电流”[8]，它们不断流过光电晶体管。在低光条件下，有效事件信号的电流变小，而暗电流会触发大量噪声。极端光照条件下的严重噪声超出了以前的方法所能处理的范围，这些方法设计用于小的运动变化或光照变化[2, 17, 34]。0图4.条件去噪的示意图，适用于极性不平衡的事件。对于包含噪声爆发的通道中的每个像素（在本例中为Pneg），Ev-TTA首先在相反极性中搜索空间邻域。如果邻域中缺少事件，则去除噪声，并用去噪后的通道˜Pneg替换噪声通道Pneg。0我们提出使用从事件的空间一致性导出的条件去除低光条件下的噪声。有趣的是，我们观察到噪声爆发主要存在于单一极性中，如图1所示。我们使用双通道事件表示P={Ppos,Pneg}∈RH×W×2来说明噪声去除操作，其中Ppos和Pneg分别是正极性和负极性通道。如图4所示，如果包含事件的像素在相反极性中缺少空间邻居，则对具有噪声爆发的通道（在本例中为Pneg）进行去噪。只有在正负事件的比率存在较大不平衡时才进行噪声去除操作。不平衡性是通过正负事件之间的统计差异来确定的。假设Npos和Nneg分别表示包含正事件和负事件的像素数量，假设Npos和Nneg服从高斯分布，那么通过以下转换得到的比率R=Npos/Nneg将遵循标准高斯分布[12]，0T(R)=µneg0σ2posR2−2ρσposσnegR+σ2negR2，(6)0其中µpos、µneg是均值，σpos、σneg是标准差，ρ是Npos、Nneg的交叉相关性。为了测试数据是否受到噪声爆发的影响，我们使用不受低光条件影响的源领域的统计数据{µpos、µneg、σpos、σneg、ρ}，将目标领域的事件比率使用方程6进行转换，如果转换后的比率符合标准高斯分布，我们可以假设目标领域不受噪声爆发的影响。条件去噪操作强制锚定事件E1的两种极性具有空间一致性。177500根据第3.1节的要求，给定目标领域的一批锚定事件，我们计算转换后的事件比率T(R)，并应用统计假设检验来确定该批次是否与源领域一致。如果假设检验显示该批次存在显著的极性不平衡，我们根据空间一致性去除检测到的噪点像素，如图4所示。修改后的通道˜Pneg取代原始通道Pneg形成新的锚定事件表示˜P={Ppos,˜Pneg}，随后用于计算方程1和2中定义的损失。关于假设检验过程的更多细节请参见补充材料。请注意，我们的噪声去除方法主要针对低光下的噪声爆发，不同于现有的去噪机制[10, 41,42]，后者考虑了更广泛的噪声。然而，我们的方法非常轻量级，可以通过简单的遮罩实现，并且能够有效提高性能，我们在第4.2节中进行了演示。04. 实验0在本节中，我们通过实验证明了Ev-TTA的各个方面。在第4.1节中，我们展示了所提出的测试时适应方法可以提高基于事件的物体识别算法的性能，并可以扩展到转向角预测。我们在第4.2节中进一步验证了Ev-TTA的每个关键组成部分的重要性。0实验设置我们使用PyTorch[26]实现了Ev-TTA，并使用RTX 2080GPU进行加速。所有训练仅进行一轮，评估结果在未指定的情况下进行离线。我们大多数情况下遵循Tent[40]的超参数设置，并避免调整Ev-TTA，因为这将涉及优化测试集中的结果。有关每个数据集的超参数的详细信息请参见补充材料。实验中使用了六种事件表示：二进制事件图像[7]，事件直方图[19]，时间戳图像[25]，时间表面[18]，排序时间表面[2]和DiST [17]。0基线方法结果与四种基线方法进行比较：Tent [40]，SENTRY[28]，Mummadi等人[22]和URIE [35]。Tent [40]和SENTRY[28]通过施加熵最小化来优化预测。Tent仅优化批归一化层以最小化预测熵。SENTRY则通过评估数据增强的一致性有条件地优化预测熵。我们将SENTRY[28]调整为测试时适应，并仅为批归一化层优化所提出的训练目标。其余两个基线方法侧重于转换输入表示以减轻领域差异。Mummadi等人[22]提出了一种新颖的输入转换网络，该网络在测试时进行训练，以减弱领域差异中的噪声和其他伪影。URIE[35]也提出了一种类似的适应机制，基于输入转换网络，但采用了一种独特的注意机制，将更多的权重放在图像中显著的区域上。为了与Ev-TTA进行公平比较，所有基线方法都在测试阶段进行训练。0提出了一种新颖的输入转换网络，该网络在测试时进行训练，以减弱领域差异中的噪声和其他伪影。URIE[35]也提出了一种类似的适应机制，基于输入转换网络，但采用了一种独特的注意机制，将更多的权重放在图像中显著的区域上。为了与Ev-TTA进行公平比较，所有基线方法都在测试阶段进行训练。04.1. 性能提升04.1.1 基于事件的物体识别0控制环境首先，我们使用N-ImageNet[17]对Ev-TTA进行评估，以系统地评估在各种变化下的鲁棒性增强。N-ImageNet是一个基于事件的物体识别数据集，包括原始训练集和九个在不同相机运动和光照变化下记录的变体。我们使用六种事件表示[2, 7, 17-19,25]在原始N-ImageNet数据集上训练分类器，并在N-ImageNet的变体上评估分类器。表1显示了六种表示的分类准确率的平均值。这些变化引起的领域差异导致了性能的急剧下降，没有适应性。Ev-TTA优于所有其他基线，并成功地将预训练的分类器适应到新的、未知的环境中。值得注意的是，适应后的性能与原始记录的验证准确性相当，除了两个在非常低照明条件下记录的变体（数据集#6和7）。然而，即使在这些变体中，仍然存在大量的性能提升，表明了Ev-TTA的有效性。此外，性能的提升是普遍的，所有测试的事件表示都显示出了很大的改进。这通过将表1中的“无适应（最大值）”与每个变体的最低准确性的“Ev-TTA（最小值）”进行比较来验证。即使在没有适应的情况下，表现最好的表示也不如使用Ev-TTA的表现最差的表示。由于Ev-TTA只干预输入表示和输出概率分布，它可以有效地应用于各种事件表示。我们进一步报告了在线评估方案的结果，其中评估与训练同时进行。这反映了实际情况，即可能无法两次访问输入数据，并且分类器应该在线适应新的环境。表1中的“Ev-TTA（在线）”的性能表明，Ev-TTA可以成功地进行适应，在所有测试的表示中普遍存在性能提升。虽然离线设置为适应提供了更多的线索，因为数据可以被多次看到，但在线评估结果与离线评估结果之间的差距并不显著。这些结果表明，Ev-TTA可以在离线和在线两种情况下适应，不受底层的影响。set.p.177510变化无轨迹亮度平均0验证数据集原始 1 2 3 4 5 6 7 8 9 全部0无适应 46.76 43.32 33.78 39.56 24.78 36.16 21.52 30.31 36.60 34.91 33.44 Mummadi等[22] - 46.27 46.04 46.3543.27 44.61 25.59 35.23 45.73 45.48 42.07 URIE [35] - 42.04 41.45 42.48 38.66 40.43 17.59 29.63 41.77 41.4537.28 SENTRY [28] - 46.63 46.51 46.45 42.11 44.44 21.92 34.78 45.53 45.13 41.50 Tent [40] - 43.86 44.96 44.8241.55 42.81 26.47 34.87 44.10 44.00 40.83 Ev-TTA - 47.99 47.38 47.47 44.54 46.28 29.46 38.44 47.45 46.90 43.990无适应（最大）- 45.17 36.58 42.28 26.57 38.70 24.39 32.76 38.99 37.37 35.87 Ev-TTA（最小）- 45.50 46.46 46.5843.48 43.87 27.28 37.06 46.72 46.12 42.910Ev-TTA（在线）- 44.77 44.80 45.05 41.77 43.12 26.43 35.42 44.42 44.22 41.110表1. N-ImageNet及其变体的鲁棒性评估结果。结果是对所有测试事件表示求平均得到的。0数据集来源第1天第2天第3天第4天第5天0None 77.30 70.47 78.53 74.88 71.36 83.37 Tent [40] - 73.6080.81 75.71 74.74 87.37 Ev-TTA - 74.83 82.77 77.15 74.7688.380表2. Prophesee Megapixel数据集的评估结果。0表示 Sim None Tent [40] Ev-TTA0时间戳图像[25] 53.53 31.36 38.96 40.66 二进制事件图像[7]54.63 26.62 38.67 40.94 事件直方图[19] 44.44 21.97 30.234.870表3. Sim2Real差距的评估结果。0事件表示。0在真实环境中的验证我们还验证了Ev-TTA在具有不受控制的外部环境设置的真实录音中的适应性。虽然N-ImageNet[17]允许在许多环境变化中进行系统评估，但该数据集具有合成方面，因为它是使用显示器显示的图像进行记录的。为了应对这些限制，我们在PropheseeMegapixel数据集[27]上测试了Ev-TTA，该数据集包含真实录音的对象标签。录音按天分割，并包含五个对象标签，其中三个（汽车，卡车，公共汽车）被选用进行实验。我们裁剪对象边界框以用于分类，并在来自单个日期的录音上训练分类器，并在其他日期的五个录音上进行测试。有关数据集预处理的其他详细信息请参见补充材料。我们使用时间戳图像[25]表示将Ev-TTA与Tent进行比较。如表2所示，Ev-TTA在所有测试录音中均优于Tent [40]。与Tent[40]的简单熵最小化相比，Ev-TTA使用事件的时间性质施加了额外的损失函数，从而导致更好的性能。结果表明了将Ev-TTA应用于结合事件相机的实际真实场景的可行性。0模拟与现实差距虽然Ev-TTA的主要重点是在外部变化中进行适应，但我们证明它也可以进行适应以减少模拟与现实之间的差距。为此，我们生成了N-ImageNet[17]的合成版本，称为SimN-ImageNet。SimN-ImageNet是使用事件相机模拟器Vid2E [13]通过在ImageNet[30]图像周围移动虚拟事件相机创建的。有关SimN-ImageNet的其他详细信息，请参见补充材料。我们通过将Ev-TTA应用于SimN-ImageNet中的预训练模型，并观察N-ImageNet[17]验证集中的性能变化来评估Ev-TTA的Sim2Real适应性。表3报告了三种测试表示的结果，即时间戳图像[25]，二进制事件图像[7]和事件直方图[19]。Ev-TTA在所有情况下都显示出最高的验证准确性，有效减少了由Sim2Real差距引起的性能下降。由于Ev-TTA的易用性，我们预计通过将Ev-TTA与事件视觉在Sim2Real适应中的最新进展相结合，Sim2Real差距将进一步减小[8，20，36]。04.1.2 基于事件的转向角预测0我们将我们的适应策略测试到了一个转向角预测的回归任务中，如第3.1节所述。我们使用DDD17数据集[5]，该数据集包含约12小时的带注释的驾驶记录，记录在各种外部条件下并按天组织。为了评估，我们使用来自单一天的记录训练转向角估计算法，并在其他四天进行进一步评估。转向角估计算法设计为以ResNet34[16]为主干，接收事件直方图[19]作为输入，遵循Maqueda等人的方法[19]。我们在表4中报告适应结果，其中使用地面真实转向角测量RMSE(◦)。在所有测试场景中，Ev-TTA的性能优于Tent[40]。通过对公式进行微小的改变，Ev-TTA可以扩展到回归任务，并成功减小预测误差。然而，性能改进并不像分类任务那样显著。在回归任务中，测试时适应性的更有效方法将作为未来的工作。177520场景类型城市（源）高速公路城市城镇城市0时间天（源）晚上夜间白天白天0无 25.48 6.15 16.09 32.01 43.02 Tent [ 40 ] - 6.52 15.65 30.9441.66 Ev-TTA - 5.84 15.45 30.65 41.440表4. 使用DDD17[5]数据集进行转向角预测的评估结果。报告RMSE(◦)。0方法验证6 验证70Tent [40] 21.16 30.02 Tent + L PS 26.51 35.83 Tent + L PS+ L SE 26.82 36.87 Tent + L SE (SENTRY [28]) 20.13 33.92Tent + L SE (忽略不一致性) 27.13 36.69 Tent + L PS + L SE+ CD (Ev-TTA) 29.20 38.450表5. Ev-TTA关键组件的消融研究。L PS，LSE，CD分别表示预测相似性损失，选择性熵损失和条件去噪。0与分类任务相比，回归任务中的性能改进并不那么显著。回归任务中测试时适应性的更有效方法将作为未来的工作。04.2. 消融研究0在本节中，我们对Ev-TTA的各个组成部分进行了消融研究。实验在N-ImageNet[17]的#6和7变体中进行，使用时间戳图像[25]。这些是N-ImageNet变体中最具挑战性的划分，因为它们在低光条件下记录，因此包含大量噪声，如图1所示，其性能也在表1中呈现。我们首先研究了Ev-TTA的关键组成部分的影响，即预测相似性损失L PS ，选择性熵损失L SE和条件去噪。如表5所示，通过对Tent[40]施加预测相似性损失L PS（第二行），性能得到了大幅提升。类似地，选择性熵损失L SE也在性能提升中起到了重要作用（第三行）。与最大化不一致样本熵的SENTRY[28]相比（第四行），简单地忽略这些样本（Tent + L SE）更加有效（第五行）。最后，条件去噪（CD）（第3.2节）显著提高了在低光条件下普遍噪声突发的性能，这可以通过比较表5的第三行和第六行来推断。我们进一步研究了测试时训练样本数量的影响。使用表1中的六种表示，这些表示使用不同数量的样本进行训练，并在N-ImageNet数据集[17]的所有变体上进行评估。图5显示了所有表示的平均评估准确性，结果按照具有亮度和轨迹变化的N-ImageNet变体进行划分。我们还通过使用相同数量的训练样本对地面真实标签进行一次训练来界定性能的上限。随着训练样本数量的增加，平均准确性接近上限。此外，即使只有很少的训练数据（�500个样本），与“无适应”相比，也可以观察到大幅的性能提升。这证明了Ev-TTA的实用性，它可以在新环境中只使用少量的训练数据进行适应。0图5. 训练样本数量对适应性的影响。0图5. 训练样本数量对适应性的影响。05. 结论0在本文中，我们提出了Ev-TTA，一种简单有效的用于基于事件的对象识别的测试时自适应算法。为了减轻外部条件变化引起的大领域偏移，Ev-TTA在测试阶段在线微调预训练的分类器。训练目标通过利用事件的时间结构来制定，其中Ev-TTA在时间上相邻的事件中强制进行相似的预测。此外，为了应对低光条件下的噪声突发，我们提出了一种使用空间一致性的条件去噪算法。我们还通过对公式进行微小改变，将Ev-TTA扩展到回归任务。Ev-TTA是一种轻量级的测试时自适应算法，在各种任务中普遍提高性能，适用于各种事件表示。我们期望Ev-TTA能够促进在不同条件下部署事件相机，并充分利用该传感器的技术优势。0致谢本研究得到了韩国国家研究基金会（NRF）的支持，该基金会由韩国政府（MSIT）资助（编号2020R1C1C1008195），三星电子有限公司，首尔国立大学创新先锋研究员计划，以及韩国政府（MSIT）资助的信息与通信技术规划与评估研究所（IITP）的资助（编号2021-0-01343，人工智能研究生院计划（首尔国立大学）和编号2021-0-02068，人工智能创新中心）。[12] R. C. Geary. The frequency distribution of the quotient oftwo normal variates. Journal of the Royal Statistical Society,93(3):442–446, 1930. 5[13] Daniel Gehrig, Mathias Gehrig, Javier Hidalgo-Carri´o, andDavide Scaramuzza.Video to events:Recycling videodatasets for event cameras. In IEEE Conf. Comput. Vis. Pat-tern Recog. (CVPR), June 2020. 7[14] D. Gehrig, A. Loquercio, K. Derpanis, and D. Scaramuzza.End-to-end learning of representations for asynchronousevent-based data. In 2019 IEEE/CVF International Confer-ence on Computer Vision (ICCV), pages 5632–5642, 2019.2[15] Nicklas Hansen, Rishabh Jangir, Yu Sun, Guillem Aleny`a,Pieter Abbeel, Alexei A Efros, Lerrel Pinto, and XiaolongWang. Self-supervised policy adaptation during deployment.In International Conference on Learning Representations,2021. 2[16] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. pages 770–778, 06 2016. 3, 7[17] Junho Kim, Jaehyeok Bae, Gangin Park, Dongsu Zhang, andYoung Min Kim. N-imagenet: Towards robust, fine-grainedobject recognition with event cameras.In Proceedings ofthe IEEE/CVF International Conference on Computer Vision(ICCV), pages 2146–2156, October 2021. 1, 2, 3, 4, 5, 6, 7,8[18] Xavier Lagorce, Garrick Orchard, Francesco Galluppi, BertShi, and Ryad Benosman. Hots: A hierarchy of event-basedtime-surfaces for pattern recognition. IEEE transactions onpattern analysis and machine intellige

下载后可阅读完整内容，剩余1页未读，立即下载