没有合适的资源?快使用搜索试试~ 我知道了~
4852R-SLAM:从视网膜的滚动快门视频优化眼动跟踪Jay Shenoy*,James Fong*,Jeffrey Tan,Austin Roorda,andRen Ng加州大学伯克利分校{jayshenoy,james.fong,tanjeffreyz02,aroorda,ren} @ berkeley.edu* 同等贡献。摘要我们提出了一种基于优化的恢复眼睛运动的滚动快门视频的视网膜。我们的方法制定眼动跟踪作为一个优化问题,共同估计使用凸优化和梯度下降的约束版本的视网膜通过将滚动快门成像模型并入到我们的联合优化的公式中,我们实现了离线和实时的最新精度。我们将我们的方法应用到视网膜视频捕获的自适应光学扫描激光检眼镜(AOSLO),演示眼睛跟踪在1kHz的精度是-低一弧分-超过一个数量级高于传统的眼睛跟踪系统。1. 介绍眼睛跟踪是确定眼睛随时间的注视方向的过程,通常使用专门的光学器件和软件。在实时设定、精准跟踪眼睛的恒定且经常的弹道运动阻碍了这种运动,包括漂移、微扫视和扫视[22,25]。在离线设置中研究这些弹道运动需要精确的高频运动估计算法,这在眼科学和生物医学中是有用的。这些高频运动的精确模型也与计算机视觉相关,因为它可以为旨在复制对象识别和场景理解等认知任务的新算法的开发提供信息;例如,微扫视与人类复杂的视觉任务有关,如阅读[11]。不幸的是,大多数眼动跟踪系统只能精确到0.5度的视角,这使得微扫视和扫视的确切动态成为一个悬而未决的问题。使用来自眼睛的角膜、瞳孔和晶状体的测量值推断注视方向的眼动跟踪器的晶体结构。原则上,基于对视网膜成像的眼睛跟踪方法可以克服这些限制。此外,他们通过将注视与视网膜结构相关 联 来 添 加 信 息 。 自 适 应 光 学 扫 描 激 光 检 眼 镜(AOSLO)是一种以高分辨率对视网膜成像的设备,目前的系统捕获30 FPS滚动快门视频,可以分辨单个感光细胞。AOSLO主要应用于眼科环境中,用于记录视网膜视频,现有方法证明实时眼动跟踪速度为1 kHz [35]。这些方法相对于预先计算的视网膜图配准输入视网膜视频的条带,预先计算的视网膜图进而通过使用离线眼睛跟踪算法稳定先前记录的AOSLO视频来生成。不幸的是,这些离线技术通常产生失真的图,因为它们不能完全校正眼睛运动与滚动快门捕获过程的纠缠。在本文中,我们介绍了一个原则性的方法来解开眼睛运动的滚动快门视频。我们制定和解决一个整体优化问题,同时计算视网膜运动和视网膜外观的地图,忠实地解释所记录的AOSLO视频。联合求解该运动和视网膜图之前没有尝试过,因为它是欠定问题;与视觉SLAM(同时局部化和映射[33])非常相似,在视网膜/眼睛的移动位置和视网膜外观的底层映射之间存在固有的模糊性。我们的方法R-SLAM(用于基于视网膜的SLAM)由两个阶段组成(参见图1):首先,我们使用凸优化来计算运动的初始估计。以凸的方式制定这个初始步骤提供了关于最佳运动解的存在性和唯一性的保证,以及找到该解的有效算法。其次,我们进行联合细化的视网膜地图和初始运动估计,旨在重建输入视频使用梯度下降。我们的贡献包括:• 从滚动快门视网膜视频中制定眼睛跟踪作为优化问题。4853图1:我们的离线跟踪算法R-SLAM接收视网膜的失真视频作为输入,然后继续使用凸优化来计算初始运动估计。然后,我们使用约束梯度下降来联合优化视网膜• 在离线算法中,对视网膜运动和视网膜图进行凸初始化和基于梯度的细化,导致跟踪误差比以前的工作少3倍。• 使用在离线过程中产生的高精度视网膜图并基于归一化互相关将鲁棒统计应用于快速跟踪,以比现有方法少2倍的误差进行实时眼睛跟踪。2. 相关工作2.1. 传统的眼动追踪系统从瞳孔位置或相对于角膜反射的瞳孔位置推断注视的眼睛跟踪器是不昂贵的、紧凑的和方便的,但是通常精确到仅0.5度的视角。大多数现代系统以同时的方式执行实时瞳孔拟合和注视跟踪例如,Tobii是一种商业眼动仪,通过将近红外光照射到瞳孔上来估计眼睛位置和注视方向,精度在30-66弧分之间[4,17]。同样,Pupil Labs提供了一种基于视频的眼动仪,该眼动仪使用计算机视觉来拟合眼睛的3D模型进行跟踪,精确到约1度(60弧分)的视角[1,2]。Tobii和Pupil Labs都在250 Hz以下的频率下工作[4,2],从而无法精确跟踪眼球运动,如扫视和微扫视。EyeLink使用基于视频的 系 统 实 现 了 2000 Hz 的 实 时 跟 踪 速 度 [3] 。Angelopouloset al. [6]通过使用近眼事件摄像头将实时跟踪速度提升至10,000 Hz,从而击败了EyeLink然而,正如瞳孔和托比一样,EyeLink和Angelopou- los等人的工作都不能成功。提供最佳27弧分的跟踪精度[6,16]。双浦肯野图像(DPI)跟踪器通过将角膜反射的相对位置与角膜反射的相对位置进行比较来跟踪眼球来自晶状体的后表面的反射[13]。DPI系统比瞳孔跟踪器更精确,但是由于需要单独的主观校准,因此在准确性方面仍然受到限制。据报道,可以实施迭代主观校准程序以产生约2弧分的DPI精度[28],但是没有任何校准可以防止来自眼睛内的透镜移动的伪影[10,14]。其他眼动仪包括眼电图[24]、巩膜搜索线圈[29]和光学杠杆方法,其中激光的偏转是从经由专用接触透镜固定到眼睛的小镜子测量的[31]。由于这些方法的侵入性和不频繁使用,它们将不被进一步讨论或与R-SLAM方法进行比较。2.2. 基于AOSLO的眼动跟踪AOSLO为具有亚弧分精度的高频眼睛跟踪提供了有前景的硬件,但是用于处理AOSLO视频的当前软件解决方案未能完全将滚动快门的效果与眼睛的运动分开,从而在运动估计中留下伪影并且在估计的视网膜图中留下残余失真。AOSLO的完整细节由Roorda等人提供。[30],但我们在这里提供一个简短的概述。AOSLO通过测量视网膜上聚焦点的散射光来记录图像,因为它在光栅扫描中扫过。AOSLO能够以细胞分辨率和高采样密度(通常为每弧分钟9.5像素)记录人类视网膜的实时视频。由于激光从每一帧的顶部到底部逐行扫描,因此视频帧的底部部分在时间上比顶部部分更晚地被记录这种与眼睛运动相结合的垂直扫描存在尝试对滚动快门AOSLO视频进行去扭曲的若干技术。Stevenson等[32]第三十二话4854∈M、R||−||通过从来自视频序列的种子帧的配准集合构造参考帧并且随后将所有视频帧逐条配准到该参考来形成离线跟踪,以形成更大的视网膜图。Azimipour等人[7]通过将帧中的条带相对于其它帧配准并计算去扭曲偏 差 来 求 解 单 个 帧 内 的 运 动 Bedggood 等 [9][7] 除Bedggood等人外,使用与[7]相似的方法。通过以基于条带的方式将所有其他帧与单个去扭曲帧配准来解决整个视频中的眼睛这些方法是中等有效的。Stevenson等人的方法减少了但没有消除来自参考帧中的失真的伪像结果是引起参考帧中的失真的视在运动根据经验,这些周期性伪影表现为帧速率和更高谐波(30 Hz、60 Hz、90 Hz等)的功率谱中的尖峰[10]。在4.2节中,我们利用这种现象在没有地面实况运动数据的情况下分析跟踪误差。Azimipour等人和Bedggoodet al.有效地最小化这些伪像,但是它们的算法不适于在整个视场范围上稳定电影,在最大可能范围上产生高保真度图像,或者产生最精确和连续的眼睛运动轨迹。与R-SLAM不同,这些方法依赖于相对于可能包含滚动快门伪影本身的一个或多个种子帧配准运动,并且对种子帧进行去扭曲的尝试未能在整个视频中利用密集的帧间对应信息。2.3. 帧解经的卷帘快门校正存在各种算法来校正卷帘快门,但它们中的大多数假设3D世界几何结构[21,36,37]。Baker等人[8]使用与我们相同的2D平移运动假设,并且他们的方法类似于我们的凸优化步骤。他们的算法包括通过光流进行特征跟踪,然后通过线性规划来解决与跟踪特征一致的相机运动轨迹。我们的方法与[8]的不同之处在于,我们在整个视频中跟踪特征,而不仅仅是相邻帧,以便实现循环闭合,这对于我们算法的映射方面很重要。其次,我们使用l2损失来对眼睛的运动施加布朗随机游走先验,而[8]使用l1损失来从跟踪特征的集合中去除离群值(我们使用RANSAC [20]来第三,我们使用基于梯度的优化在不同的目标函数的凸步骤3. 数学背景和系统概述我们的系统直接模拟AOSLO这允许arcminute精确的离线跟踪和无失真地图生成,随后实现高质量的实时跟踪。我们用数学方法将问题定义如下:我们将视网膜图定义为2D刚性图像,其中标量强度由R(x,y)给出,其中(x,y)是视网膜上的空间坐标。所有的空间单位被定义为使得AOSLO我们将视网膜该[X(t),Y(t)]是视网膜的图内的位置我们忽略任何扭转效应(围绕眼睛的光轴的一个时间单位是AOSLO的FPS的倒数我们将AOSLO的视频定义为V(u,v,i),其是帧i内的正u是向右的,正v是向下的,u,v[0,1]。我们将AOSLO前向模型定义为F(M,R),该函数试图在给定视网膜的外观R及其运动M的情况下重建V也就是说,F(M,R)(u,v,i)=R(X(i+v)+u,Y(i+v)+v)。注意,我们在时间i+v而不是i处对M进行采样以对滚动快门捕获进行建模我们将真实运动和视网膜映射定义为M*,R*。我们的目标是从V中产生接近于M*,R*尽可能。为此,我们最小化重建F(M,R)和输入V之间的平方误差:M,R=argmin||F(M,R)−V||第二章(一)3.1. 概念性概述等式 1表示 视频重 构目 标。如 果它的 形式 为argminxAx b2,那么我们可以潜在地应用反问题,基于优化的重建技术,通常用于计算成像。然而,在我们的例子中,地图和运动在F中纠缠在一起,所以我们使用约束梯度下降(CGD)来优化目标,如3.4节所述。我们初始化这个梯度下降搜索与输入M0,R0,这是足够接近M,R。根据经验,在等式1上的梯度下降搜索执行得很差。它初始化得不好。我们有效地计算这个初始化与凸优化找到一个充分精确的M0,然后进行简单的图像光栅化,以找到伴随的R0.我们的概念x优化步骤e有效地找到M0作为a全局最优最小化到3.2节定义的单独目标函数。 令人惊讶的是,这个凸优化-问题不仅找到一个好的M 0来初始化CGD,而且它4855图2:(左)两个不同模拟AOSLO视频上的离线跟踪技术的比较。请注意,模拟运动设置为高水平,以对所有方法进行应力测试。R-SLAM,Az-imipour等人,和Bedggoodet al.能够跟踪运动并提供公平的比较,但是Stevenson等人的方法。算法不适合于跟踪这种运动幅度。Stevenson能够跟踪真实的AOSLO视频(见表1),尽管存在明显的参考帧伪影(图4)。R-SLAM实现了地面实况运动的最忠实的重建,特别是在垂直(y)方向上。图3:用于从模拟视网膜视频离线估计视网膜图的不同技术的比较Stevenson未能稳定输入视频,Azimipour(仅使用一帧)包含显著的噪声,因为它仅稳定单个帧,以及Bedggood等人。(等同于Azimipour,具有多个帧的平均值)在插图的顶部遭受模糊的锥体。只有R-SLAM才能正确解析图像中的所有视锥细胞。图4:用于从真实AOSLO视频离线估计视网膜图的不同技术的比较。Bedggood等患有模糊/扭曲的视锥细胞,史蒂文森包含清晰度问题和重复的视锥细胞朝向图像的底部。只有R-SLAM才能正确解析图像中的所有视锥细胞。可以独立于视网膜图R这样做。也就是说,不需要同时联合估计M*和R*,这个凸优化步骤可以同时估计M*。而不需要计算R0。这是由sub-用在V中全局运动跟踪的一组密集2D特征代替V,如第3.2.1节所述。在估计M和原始视频V的情况下,我们可以使用简单的图像光栅化技术来产生相应的R。选择该R以使等式1forafixedM. 这种光栅化被表示为S(M,V),其产生类似于R的2D图像。 这就是我们如何得到R0作为S(M0,V)。 在第3.3节中更详细地描述了S。3.2. 基于凸优化的初始眼动估计我们使用凸优化来有效地计算眼睛运动的初始估计M(0)。我们建设4856G∈∈ G∈GΣG≥M是新颖的方式,它制定了全球眼睛运动恢复作为一个凸问题,使用运动跟踪的2D点。我们定义为经由第21节中描述的方法找到的全局运动跟踪的2D图像特征3.2.1. 每个G是一个2D图像块,我们将其表示为在V中找到的时间和位置的列表。也就是说,(u j,vj,t j)G意味着在V中找到G的第j次,在时间t j在帧内的位置u j,v j处找到G。G按递增的t排序。每个G都是M*的噪声估计,如图5所示。对于给定的一个G∈ G,我们为M* 的估计定义以下损失:L( M,G)=|− 1|−1j=1||(M(tj)−M(tj+1))−(p i+j−p j)||(二)图5:跟踪的视频特征其中pj=(uj,vj)。我们还在M上施加了布朗先验,以帮助调整我们的估计。我们将M*建模为以离散步长采样的布朗采样时间是一个列表T,按递增顺序排序,并且是所有G的所有tj的集合布朗随机游走的每一步都是零均值2D高斯,方差等于步长的持续时间。取负对数似然:|不|− 1和眼睛运动轨迹,用作我们的凸优化公式(等式4)中的约束。左:视网膜的水平位置作为时间的函数。来自单个特征的噪声运动样本被示出为菱形。虚曲线ve是运动估计M(t),其产生我们的凸优化。 右图:一系列视频突出显示单个特征的帧如果一个特征在时间t1出现在列u1,在时间t2出现在列u2,那么眼睛一定水平移动了大约t1和t2之间的u1−u2。的区别Σ||M(ti+1)−M(ti)||2i=1不一期+1-t我(三)总的估计运动M( 0)和由下式表示的运动特征跟踪在等式2中被最小化。通过将等式2的帧间、基于跟踪的目标与等式3的帧内目标组合,我们得到我们的整体凸优化公式:M0:=argminλBL(M)+λTΣL(M,G)(4)G∈G这里λ B λ T0是超参数权重。等式4是没有约束的凸二次规划(QP),并且因此我们可以容易地使用现有的凸优化软件包[5,15]来计算等式4的最优解。M= 0。 在补充材料中提供了一份证明。 M0是离散运动轨迹。 我们通过线性插值形成M0的连续表示。3.2.1特征跟踪我们跟踪补丁功能在整个持续时间的视频,以确保循环关闭,这样做使用的地图感知跟踪器,运行在线性时间相对于地图的大小倍的输入视频的持续时间。输入V的每个输入视频帧(384像素宽乘496像素高)被划分成64乘16块的网格。垂直扫描中16像素的面片高度方向对应于1ms的捕获时间,其足够短以防止眼睛显著移动并导致贴片内的失真(在没有扫视的情况下)。每一个补丁都是一个单一的功能,被跟踪-将其与所有未来收入进行登记,通过在GPU上实现的快速归一化互相关[23]来处理帧为了使该特征跟踪对离群值具有鲁棒性,我们将位于同一行中的特征分组到条带中,并对这些条带执行RANSAC,旨在基于同意该位移的组成特征的最大数量来如果特征的位移间隔小于2个像素,则认为特征一致。在整个视频中跟踪特征是重要的,因为它确保循环闭合,允许算法在视频中的帧重新访问更早探索的地图的一部分时进行识别。然而,针对每隔一帧跟踪每个特征将具有复杂度O(mn2),其中n是帧的数量,并且m是每帧的特征的数量。 这种蛮力方法在计算上是不可行的,所以我们只选择跟踪与非对称区域的不同区域相对应的特征2L( M)=4857||−||||−||2M视网膜地图每次我们的地图感知跟踪器遇到新帧时,如果该帧中的特定候选特征已经与先前看到的特征匹配,则我们丢弃候选特征并且不将其添加到跟踪特征的集合。更具体地说,如果一些在等式5中,ε用作过程使用记录V中的噪声的度量。该约束可以被添加到等式1以产生新的优化问题:分数λf候选特征argmin ||F(M,R)−V ||2(六)如果候选者具有明显的特征,则丢弃该候选者。这确保了被跟踪特征的数量与地图的大小保持成比例,使得算法在O(rn)时间内运行,其中r是被跟踪特征的数量。此外,特征跟踪器保持跟踪集合内的好特征和坏特征的概念-如果特征尚未与总共至少λη个帧或过去λm个帧中的一个匹配,则立即丢弃该特征。此规则将删除提供很少跟踪数据的功能。λ超参数可以被调整以给出速度和特征密度之间的各种权衡,但实际上λ f= 0。9、λn=4和λm=6给出了相当大的加速,而性能没有明显损失3.3. 根据眼睛S.T. ||2≤。||2 ≤ ϵ.回想一下,M*,R*是期望的最优解。为了使等式6中的约束服从梯度下降,我们观察到,在存在白噪声的情况下,S(M,V)=R,在期望中,当视频帧的数量通过中心极限定理趋于无穷大时,其在确定性方面成立。也就是说,对噪声帧测量进行平均应当产生真实的视网膜图R*,如帧的数量变为无穷大。 故,若有足够的在两个坐标系中,限制S(M*,V)和R*之间的差的常数ε可以忽略不计。然后,我们进行近似,ε=0,这意味着:2运动如果我们给定M,那么我们可以直接求解映射S(M,V),该映射对于固定的M最小化minRF(M,R)V2。给定视网膜的运动,我们知道V的每个像素在视网膜图中从哪里采样。因此,我们认为,||S(M, V ) − R||联系我们=⇒||S(M,V)−R||= 0= ⇒S(M,V)= R。我们用新的目标来近似等式6(七)我们构造视网膜图S,其中每个位置处的值是在该位置处取得的样本的平均值。该平均值最小化相对于噪声样本的平方误差,从而最小化F(M,R)V2。从概念上讲,我们首先使用M来抵消V的每一帧中的运动,从而生成稳定的视频,从而构建S(M,V)该稳定视频的帧被平均在一起以产生S。该过程在补充视频中的时间1:40处可视化。3.4. 眼动的同时细化和argmin ||F(M,S(M,V))− V||二、(八)视网膜图R不再是被直接优化的变量-它完全在稳定函数S中被捕获。尽管如此,视网膜图仍然与运动M联合估计,它被简单地存储为输入视频V的函数。等式8确保了M、R和V之间的一致性,从而使f成为一致性。我们通过算法1迭代地优化等式8。算法一:运动细化通过约束梯度下降(CGD)的R-SLAM使用约束梯度下降(CGD)联合估计视网膜图和运动,其中初始-从前面的步骤中计算出M≡ 0,V≡0CGD的成本很高输入:V,M0,α,nfori←1 to nRi−1<$S(Mi−1,V);V←F(Mi−1,Ri−1);L←||V−V ||2个;这比单纯地对等式1执行梯度下降更快,因为它强制当前地图估计R与输入视频V之间的一致性。米端←M i−1 -αMi−1L;使用M0,V0作为梯度下降的起始点是不足以确保快速收敛。一个问题是等式1中的优化问题未被充分约束。为了弥补这一点,我们期望以下对M*,V* 成立:||2≤。||2 ≤ ϵ.(五)在该算法中,α和n是可调超参数,分别对应于下降迭代的步长和次数。函数S和F在PyTorch [27]中被实现为可微光栅化操作,并且重建损失L自然是可微的,因为它仅仅是两个三维张量(视频表示)的差的欧几里得范数M、R4858[--3.5. 实时眼动跟踪像上面回顾的现有技术一样,我们的实时跟踪方法使用归一化互相关来计算最新视频条带相对于视网膜图的位置我们做了两个重要的改进。首先,我们使用更准确的其次,我们增加了鲁棒性的计算,ING的位置,最新的带通过应用RANSAC。来自AOSLO的每个传入视频帧被分割成384像素宽和16像素高的水平条带。每个条带被分成n个子条带,每个子条带的大小为384/nX16。 然后独立地配准每个子带以获取n个估计P=p1,. . .,p,n,用于视网膜相对于AOSLO的2D位置。我们使用RANSAC [20]来滤除离群值,这比直接使用归一化互相关输出的峰值来确定条带配准质量更鲁棒。4. 评价R-SLAM在模拟和真实AOSLO视频上进行评估。模拟测试允许我们以弧分尺度计算精确的精度,而对真实视频的测试突出了R-SLAM我们仅将R-SLAM与用于视网膜成像的先前运动估计技术进行比较。更一般的SLAM算法被排除在比较之外,因为它们通常采用针对宏观对象定制的特征跟踪器,并且因此不适合于跟踪视网膜的自相似视锥细胞4.1. 仿真我们首先评估模拟AOSLO视频跟踪算法的准确性,在那里我们有地面真实的眼睛运动。首先,我们使用[7]中描述的粒子系统生成15个合成圆锥体马赛克。然后,我们使用从[18]中的随机游走模型导出的人造眼球运动轨迹来将模拟运动设置为高水平,作为所有方法的应力测试。总共,模拟数据集包含30个合成视频。表1中给出了下文描述的对该数据集的评价结果。离线跟踪算法在单独的模拟视频上进行测试,由此以地面实况运动轨迹的频率对由我们的方法输出的轨迹进行采样我们计算输出迹线与地面实况迹线之间的2D向量差的平均幅度。由于这些迹线可以任意偏移,因此我们使用使误差幅度最小化的偏移。实时算法在单个视频上进行测试使用由相同视锥马赛克的其他视频生成的视网膜图。为了测试CGD对RMSE的影响,我们评估了我们的系统与CGD举行的消融。4.2. 真实世界的AOSLO视频我们在先前从两个人类受试者记录的34个真实AOSLO视频上验证了R-SLAM,这些视频在Wang等人发表的论文中报道。[34]。由于现实世界的AOSLO视频没有地面实况运动轨迹,我们使用替代指标来评估我们的算法的性能。表1中给出了下文描述的对该数据集的评价结果。一种方法包括频谱分析,其中我们检查振幅与估计的运动轨迹的频率如第2.2节所述,由视网膜图中的失真引起的周期性伪影表现为视频帧速率和更高谐波(30 Hz、60 Hz、90 Hz等)处的尖峰,其偏离眼睛运动的预期逆频率依赖性(双对数图上的-1斜率)[19]。先前的工作[10,32]中报告了类似的光谱伪影。为了量化功率谱中这些尖峰的幅度,我们在双对数图上将谱线拟合,并将谱误差定义为在30Hz和更高谐波处评估的线性拟合的任何正偏差的总和我们还使用各种离线视网膜映射技术运行我们的实时方法。34个视频由17对组成,其中每对来自两个受试者中的一个的单个视网膜位置。通过使用该对中的另一视频来创建视网膜图,在每个视频上评估实时方法,并且将实时运动轨迹与同一视频上的离线R-SLAM的输出进行比较。图6:Stevenson [32](左)和R-SLAM(右)输出的运动轨迹的功率谱比较。黑色是给定视频的运动轨迹的功率谱,蓝色是最佳线性回归拟合,红色是表示30Hz谐波(30Hz、60Hz、90Hz等)的标记。史蒂文森在这些谐波处表现出大的尖峰,表明它们的运动轨迹包含周期性伪影。R-SLAM估计的运动不展现这些伪影。4859方法史蒂文森[32个]贝德古德与al. [9]第一章阿兹米普尔al. [七]《中国日报》R-SLAM无CGDR-SLAM1模拟视频:离线平均误差幅度(像素/弧分)↓9.97/1.052.67/0.280N/A1.15/0.1210.821 /0.0862模拟视频:实时平均误差幅度(像素/弧分)↓4.82/0.5062.67/0.2802.68/0.2811.31/0.1381.31/0.1383实时视频:离线光谱误差(X/Y方向)↓4.84/6.543.25/5.59N/AN/A1.81/1.674实时视频:实时平均差值幅度w.r.t.线下R-SLAM(像素/弧分)↓26.95 /2.8334.60 /3.6338.17 /4.01N/A23.98 /2.52表1:在模拟视频(行1/2)和真实AOSLO视频(行3/4)上评估的R-SLAM。行1:我们计算每个输出运动轨迹相对于地面实况的误差(位移)的幅度,取轨迹中所有跟踪点的平均R-SLAM产生的误差比以前的工作少3倍。行2:每种方法输出用于实时跟踪的地图,并且将实时轨迹与地面实况进行比较。我们计算每个实时运动轨迹的误差的平均幅度。R-SLAM产生的误差比以前的工作少2倍。行3:在不存在基础事实的情况下,我们计算每个输出运动轨迹的频谱误差,这惩罚了在功率谱中的30Hz的谐波处发生的尖峰伪影(在第4.2节中定义)。行4:每种方法输出用于实时跟踪的地图,并且将实时轨迹与离线R-SLAM输出的轨迹进行比较,离线R-SLAM是在没有地面实况的情况下可用的最佳离线跟踪方法Azimipour等人[7]仅用于测试实时跟踪,因为我们仅使用它来计算视网膜图。不带CGD的R-SLAM仅作为消融纳入,用于在模拟视频上进行比较。5. 讨论在本节中,我们更详细地检查R-SLAM与先前方法的差异。并对今后的工作提出了进一步的指导意见。5.1. 结果分析在模拟数据集上,与先前工作相比,R-SLAM在实时和离线眼睛运动跟踪两者上实现最低误差(表1)。R-SLAM相对于地面实况实现0.8这表示与先前的工作相比,误差减少了3倍。当使用每种方法的估计视网膜地图进行实时跟踪时,我们发现R-SLAM与先前的工作相比实现了2倍的低误差。使用CGD之前和之后获得的视网膜图之间没有显著差异。这并不令人惊讶,因为实时跟踪中的互相关步骤仅精确到像素,并且CGD仅在该数据集上产生子像素在真实世界数据集上,与先前的工作相比,R-SLAM还实现了实时和离线眼睛运动跟踪的较低误差(表1)。真实世界数据缺乏已知的地面实况运动。代替地面实况,我们使用R-SLAM正因如此,无法评价离线输出使用与表1的第1行相同的度量。使用第4.2节中定义的谱误差度量,R-SLAM实现最低误差,其对应于图6中所示的无伪影功率谱。5.2. 今后工作我们希望我们基于优化的框架可以带来新的AOSLO应用。改进的一个地方是将2D旋转(扭转)纳入我们的模型。Baker等人[8]在用一般仿射变换近似旋转方面取得了一些成功另一个未来的方向是生成包含视网膜更大区域的地图我们目前将视网膜建模为平面表面,这证明对于我们的运动和地图估计实验是足够的。然而,自然的扩展将是采用球形模型,这将使得能够创建更大的图,其中视网膜确认这项工作得到了Hellman奖学金、空军科学研究办公室(奖励号FA 9550 -20-1-0195)和美国国立卫生研究院(NIH)资助R 01 EY 023591的支持。4860引用[1] 瞳 孔 捕 捉 软 件 。 Pupil Labs , 2021 年 3 月 检 索 。https://docs.pupil-labs.com/core/software/pupil-capture.[2] Pupil Labs VR/AR 附 加组 件 ,技 术 规格 性 能。 PupilLabs , 2021 年 3 月 检 索 。 https : labs.com/products/vr-ar/tech-specs/。[3] Eyelink 1000 Plus , 2020 年 8 月 SR Research ,https://www.sr- research.com/eyelink-1000-plus/。[4] HTC Vive Pro Eye - VR头戴式耳机,集成眼动追踪功能,2020年9月。https://vr.tobii.com/integrations/htc-vive-pro-eye/.[5] Akshay Agrawal、Robin Verschueren、Steven Diamond和Stephen Boyd。凸优化问题的重写系统。控制与决策杂志,5(1):42[6] Anastasios N Angelopoulos,Julien NP Martel,Amit PSKohli,Jorg Conradt,and Gordon Wetzstein.基于事件的、超过10,000 Hz的近眼注视跟踪。arXiv预印本arXiv:2004.03577,2020。[7] 放大图片作者:Robert J.放大图片作者:John S. Werner和Ravi S. Jonnal使用基于条带的互相关滞后偏置的光栅扫描自适应光学图像的帧内运动校正PLOS ONE,13(10):e0206052,Oct. 2018年。[8] S. Baker,E.Bennett,S.B. Kang和R.塞利斯基拆卸卷帘门摆动。在2010年IEEE Computer Society Conference onComputer Vision and Pattern Recognition,第2392-2399页[9] Phillip Bedggood和Andrew Metha。用于扫描激光检眼镜的 图 像 去 扭 曲 和 改 进 的 眼 睛 跟 踪 PLOS ONE , 12(4):e0174617,Apr. 2017年。[10] 诺里克河放大图片作者:Alexandra E.Boehm和AustinRoorda。注视震颤对视网膜影像的影响视觉杂志,19(11):8,9月。2019年。[11] 诺里克河鲍尔斯和玛蒂娜·波莱蒂。阅读时的微跳PLOSONE,12(9):e0185180,Sept. 2017年。[12] 放大图片作者:Robert F.作者:Grace K.放大图片作者:David H. Brainard和Jessica I. W. Morgan. 自适应光学视网膜图像的多模态自动剪辑。Biomedical OpticsExpress,7(12):4899,Nov. 2016年。[13] Hewitt D Crane和Carroll M Steele。第五代双浦肯野图像眼动仪。应用光学,24(4):527-537,1985.[14] Heiner Deubel和Bruce Bridgeman第四浦肯野图像信号揭示了扫视期间的眼-晶状体偏差和视网膜图像畸变。Vision research,35(4):529-538,1995.[15] 史蒂芬·戴蒙德和史蒂芬·博伊德CVXPY:一种用于凸优 化 的 Python 嵌 入 式 建 模 语 言 Journal of MachineLearning Research,17(83):1[16] Benedikt V. Ehinger , Katharina Groß , Inga Ibs , andPeter K ¨ nig. 一个新的理解是,眼睛跟踪测试组合同时评 估 瞳 孔实 验 室 眼 镜 和 EyeLink 1000。 PeerJ , 7 :e7086,2019年7月。[17] John Elvesjo Marten Skogo和Gunnar Elvers用于检测和跟踪眼睛及其注视方向的方法和装置,2009年8月。[18] R. Engbert,K. Mergenthaler,P. Sinn和A.皮科夫斯基注视眼动和微囊的综合模型美国国家科学院院刊,108(39):E765-E770,8月。2011年。[19] JM芬德利人类不自主眼动的频率分析。Kybernetik,8(6):207[20] Martin A. Fischler和Robert C.波尔斯随机样本一致性:模型 拟合 的范 例, 应用 于图像 分析 和自 动制 图。Commun. ACM,24(6):381 -395,June 1981.[21] 马蒂亚斯·格伦德曼,维韦克·夸特拉,丹尼尔·卡斯特罗,还有伊尔凡·埃萨.免校准卷帘快门拆卸。2012年IEEE国际计算摄影会议(ICCP)。IEEE,4月2012年。[22] R. John Leigh和David S. Zee 眼动神经学。牛津大学出版社,2015.[23] J.P.刘易斯快速归一化互相关。工业光魔术,10,102001。[24] Michael F Marmor 、 Mitchell G Brigell 、 Daphne LMcCulloch、Carol A Westall和Michael Bach。ISCEV临床 眼 电 图 标 准 ( 2010 年 更 新 ) 。 DocumentaOphthalmologica,122(1):1[25] 放大图片作者:Stephen L. Macknik,and David H.Hubel注视性眼球运动在视觉感知中的作用。Nature ReviewsNeuroscience,5(3):229-240,Mar. 2004.[26] 卡洛斯·H Morimoto和Marcio R. M.米米卡用于交互式应用的眼睛注视跟踪技术Comput. 目视图像理解,98(1):4-24,Apr. 2005年[27] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。PyTorch:命令式的高性能深度学习库。在H. Wallach , H.Larochelle 、 A.Be ygelzimer 、 F.d'Alche'-Buc,E. Fox 和 R.Garnett , 编 辑 , Advances in NeuralInformation Processing Systems 32,第8024Curran Asso-ciates,Inc.,2019年。[28] 玛蒂娜·波莱蒂和米歇尔·鲁奇一个紧凑的领域指南的研究微扫视:挑战和功能。Vision research,118:83[29] 大卫·罗宾逊。一种在磁场中使用巩膜探测线圈测量眼睛运动的方法。生物医学电子学IEEE Trans- actions,10(4):137[30] 奥斯汀罗达费尔南多罗梅罗-博尔哈 威廉放大图片作者:Thomas J. Hebert和Melanie C.W.坎贝尔自适应光学扫描激光检眼镜。Opt. Express,10(9):405[31] Robert M Steinman,Genevieve M Haddad,Alexander ASkavenski,and Diane Wyman.微型眼球运动。Science,181(4102):810[32] 斯科特湾史蒂文森和奥斯汀·罗达。高分辨率扫描激光眼底镜检查中微小眼球运动的校正在Fabrice Manns,Per G.阿瑟?瑟德伯格4861布鲁斯·E. Stuck和Michael Belkin,编辑,OphthalmicTechnologiesXV,SocietyofPhoto-OpticalInstrumentation Engineers(SPIE)Conference Series的第5688卷,第145-151页,Apr. 2005年[33] Sebastian Thrun和John J.莱纳德同步本地化和映射,第871-889页。施普林格柏林海德堡,柏林,海德堡,2008.[34] Yiyi Wang , Nicolas Bensaid , Pavan Tiruveedhula ,Jianqiang Ma,Sowmya Ravikumar,and Austin Roorda.人眼中心凹视锥光感受器地形图及其与眼长的关系。Elife,8:e47148,2019.[35] 放大图片作者:David W.作者:Carrie,R.沃格尔和奥斯汀·罗达用于AOSLO图像捕获和视锥靶向刺激递送的集成硬件接口的设计。Opt·Express,18(17):17841[36] B.庄湖,澳-地Cheong和G.李你滚动快门感知差分sfm和图 像 校 正 。 在 2017 年 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),第948-956页,Los Alamitos,CA
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功