3D-ZeF：3D斑马鱼跟踪数据集及跟踪系统

107 浏览量更新于2023-10-24 收藏 12.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

242603D-ZeF：一个3D斑马鱼跟踪基准数据集0Malte Pedersen � , Joakim Bruslund Haurum � , Stefan Hein Bengtson, Thomas B.Moeslund Visual Analysis of People (VAP) Laboratory, Aalborg University, Denmark0mape@create.aau.dk, joha@create.aau.dk, shbe@create.aau.dk, tbm@create.aau.dk0摘要0在这项工作中，我们提出了一个新颖的公开可用的基于立体的3D斑马鱼多目标跟踪数据集，称为3D-ZeF。斑马鱼是一个越来越受欢迎的模型生物，用于研究神经系统疾病、药物成瘾等。然而，斑马鱼的视觉相似性、遮挡和不规则运动使得稳健的3D跟踪成为一个具有挑战性且尚未解决的问题。该数据集包含八个序列，持续时间在15-120秒之间，每个序列中有1-10只自由移动的斑马鱼。视频已经用总共86,400个点和边界框进行了注释。此外，我们还提供了一个复杂度评分和一个用于斑马鱼3D跟踪的新型开源模块化基准系统。该系统的性能是针对两个检测器进行测量的：一种简单的方法和一种基于FasterR-CNN的鱼头检测器。该系统的MOTA达到了77.6%。代码和数据集的链接可在项目页面http://vap.aau.dk/3d-zef找到。01. 引言0在过去的几十年里，斑马鱼（Daniore-rio）作为动物模型的使用显著增加，因为它在大规模基因筛选中的适用性[1,2]。斑马鱼已被用作研究人类神经系统疾病、药物成瘾、社交焦虑症等的模型[3, 4, 5, 6, 7,8]。运动和行为分析通常是神经科学和生物学研究的关键部分，传统上一直是手动进行的[9, 10,11]。然而，手动检查是主观的，并且仅限于小规模实验。因此，由于其效率和客观性，跟踪系统越来越受欢迎。大多数解决方案是针对陆地动物或浅水中的鱼类开发的，并且大多数研究都是基于科学[12, 13, 14, 15, 16, 17,18]和商业[19, 20, 21, 22]系统的2D观察。0� 相等贡献0图1：一个示例，说明了两个视角之间的差异。3D轨迹是基于头部点注释估计的。0商业系统[19, 20, 21,22]。然而，单一平面的观察无法捕捉到鱼类的所有相关表型[23, 24,25]。由于斑马鱼的不规则运动、视觉相似性和社交行为[26]，准确估计多个斑马鱼的3D轨迹是困难的，如图1所示。这可能是为什么还没有商业解决方案的原因之一。只有少数科学界的团体解决了这个问题，主要集中在立体视觉[27, 28,29, 30, 31]和使用镜子的单目立体[32,33]。然而，在该领域中还没有公开可用的标记数据集，这使得应用方法之间的公平比较变得困难。这最终阻碍了该领域的重大发展，就像其他具有共同数据集的计算机视觉领域一样。因此，我们的贡献是0• 一个公开可用的RGB3D视频数据集，包含86,400个边界框和点注释。0• 一个开源的模块化基准系统。0大部分3D多目标跟踪方法是针对基于LiDAR的交通数据集[34, 35, 36, 37, 38]或RGB-D跟踪[39,40]开发的。然而，据我们所知，目前还没有公开可用的带有不规则移动和相似外观主体的RGB立体数据集。tt+10t+20t+30tt+10t+20t+30t+40t+4024270图2：来自两种不同遮挡场景的五个帧。上面的帧来自前视图，下面的帧来自顶视图。右侧显示了实验设置的示意图。02. 相关工作0多目标跟踪（MOT）。可靠地跟踪多个对象被广泛认为非常困难。自2015年以来，解决MOT的兴趣逐渐增加，MOT[41, 42, 43]，UA- DETRAC [44, 45]和KITTI [34,35]挑战的发布。在MOT挑战中，目前的重点要么是通过使用深度学习解决关联问题[46]，使用基于交并比的跟踪技术[47]，要么是忽略跟踪特定模型并利用目标检测的改进[48]。斑马鱼跟踪。传统上，用于研究动物行为的基于视觉的跟踪系统主要基于2D [18, 49, 50, 51, 52, 53,54]，这是由于其简单性以及大多数陆地动物的运动可以近似为单一平面。大多数斑马鱼跟踪研究都遵循这条路径，只允许鱼在浅水中移动，并假设运动发生在2D平面上。2014年，Perez-Escudero等人提出了一种名为idTracker的2D动物跟踪器[49]，它使用阈值分割斑点，并能够根据强度和对比度图区分个体斑马鱼。2019年，Romero-Ferrero等人提出了idTracker的更新版本，称为idtracker.ai[18]，它是基于卷积神经网络（CNN）的当前最先进的用于处理遮挡和识别个体的2D跟踪系统。观察对象时，摄像机位于水箱上方，水深为2.5厘米，因此摄像机与对象之间的距离在所有时间点上大致相同。正如作者所述，与真实的3D跟踪场景相比，这简化了任务。然而，由于大多数水生物种在三个维度上移动，因此需要在3D中描述它们的行为轨迹[55,56]。在处理动物行为研究时，最常用的获取方法是立体视觉[28, 30, 31, 56, 57, 58, 59, 60,61]。斑马鱼的3D跟踪主要集中在单个对象或小群体上，因为遮挡对于保持正确的ID是一个很大的障碍，这是由于它们的群集行为[26]。0此外，鱼的视觉外观可以根据位置和姿势的不同而发生巨大变化，这使得与2D相比，重新识别变得更加复杂。商业EthoVision XT[19]的Track3D模块在3D中跟踪斑马鱼非常受欢迎，但仅限于单个个体[56，61]。Viscido等人开发了一个早期的半自动3D跟踪系统，用于研究鱼群中个体之间的关系[58]。首先，通过最近邻算法生成了初始的2D轨迹，然后通过一步允许用户调整和纠正提议的2D轨迹，并通过三角测量重建3D轨迹。Qian等人对斑马鱼的跟踪进行了广泛的研究，并开发了一个使用增强的快速行军方法（AFMM）[62]和Hessian的行列式的顶视图相机的2D跟踪系统[15]。通过在侧视相机上扩展设置，将其扩展为3D跟踪。AFMM用于在每个视图中生成基于特征点的鱼表示，然后基于运动约束构建2D轨迹片段。然后，通过使用极线和运动一致性约束将2D轨迹片段与侧视检测相关联来构建3D轨迹[29]。Liu等人[63]基于一组启发式方法和极线约束扩展了该方法以更好地处理遮挡。在[31]中添加了第三个相机，并扩展了特征点表示方法。Cheng等人[28]利用类似的三相机设置，应用迭代无监督学习方法来训练基于CNN的分类器，以区分放置在水箱上方的摄像机中的各个鱼类。分类器在所有鱼类同时可见的时期训练鱼类头部区域。通过迭代重新训练分类器，他们能够从顶视图生成2D轨迹，并根据来自其他两个侧视相机的检测结果在极线和运动约束下重建3D轨迹。Wang等人[30]也使用了三相机设置，使用高斯混合模型，Gabor滤波器和基于SVM的方法来检测鱼类头部在顶视图和侧视图中的位置。Trn2Trn5Val2Val5Tst1Tst2Tst5Tst10TotalOC1.82 / 1.423.60 / 2.930.93 / 0.472.67 / 3.800.00 / 0.000.67 / 0.673.07 / 2.934.40 / 6.53OL0.41 / 0.510.56 / 0.640.22 / 0.630.25 / 0.660.00 / 0.000.10 / 0.380.25 / 0.360.28 / 0.35TBO0.69 / 0.891.00 / 1.211.79 / 3.201.64 / 0.7315.00 / 15.002.41 / 2.181.38 / 1.281.86 / 1.40IBO0.29 / 0.260.28 / 0.280.24 / 0.350.22 / 0.340.00 / 0.000.19 / 0.190.25 / 0.230.26 / 0.24Ψ0.260.500.030.630.000.010.160.28els are IKEA FLOALT of size 30 × 30 cm with a luminousﬂux of 670 lumen and a color temperature of 4000K. Thetest tank is a standard glass aquarium of size 30 × 30 × 30cm with a water depth of 15 cm. The top and front cam-eras are GoPro Hero 5 and GoPro Hero 7, respectively. Allthe videos are recorded with a resolution of 2704 × 1520,60 FPS, 1/60 s shutter speed, 400 ISO, and a linear ﬁeldof view. However, the ﬁsh tank does not take up the entireimage, therefore, the effective region of interest is approxi-mately 1200 × 1200 and 1800 × 900 for the top- and front-view, respectively. Diffusion fabric was placed in front ofthe top light in order to reduce the amount of glare in thetop-view. Semi-transparent plastic was attached to three outof four of the window panes in order to reduce reﬂections.Furthermore, the front camera was placed orthogonally tothe water level, which reduced reﬂections from the watersurface. Lastly, the pair-wise recordings have been manu-ally synchronized using a ﬂashing LED, which results in aworst case temporal shift of24280长度 120 秒 15 秒 30 秒 15 秒 15 秒 15 秒 15 秒 15 秒 240 秒帧数 14,400 1,800 3,600 1,800 1,800 1,800 1,800 1,800 28,800BBs 28,800 9,000 7,200 9,000 1,800 3,600 9,000 18,000 86,400 Points 28,800 9,000 7,200 9,000 1,800 3,600 9,000 18,00086,4000表1：提出的数据集概述。OC，OL，TBO和IBO分别列出了顶视图和前视图，并且鱼的数量以序列名称表示。OC：每秒平均遮挡量，OL：平均遮挡长度（秒），TBO：遮挡之间的平均秒数，IBO：遮挡的交集，Ψ：基于OC，OL，TBO和IBO的复杂度度量（见公式（2））。0分别为顶视图和前视图。顶视图检测基于交叉相关方法和卡尔曼滤波器进行2D轨迹关联；通过100FPS的帧率实现近似线性运动。然后，通过在极线和运动约束下关联侧视图检测，将2D轨迹构建为3D轨迹。在[64]中，Wang等人提出了通过长短期记忆网络对斑马鱼的顶视图运动进行建模，这些网络被用于改进他们的3D系统的运动约束[65]。最后，Wang等人使用CNN对顶视图中的斑马鱼头部进行重新识别[66]，尽管这尚未纳入3D跟踪设置中。没有一种方法能够在几秒钟内跟踪多个斑马鱼的3D运动而不发生ID交换；这仍然是一个困难且未解决的问题。数据集。与其他MOT挑战赛一样，人们普遍认为遮挡是导致斑马鱼的3D跟踪困难的原因。然而，只有Wang等人[65]根据遮挡频率描述了他们的记录；然而，他们没有定义如何测量遮挡频率。Qian等人[31]根据鱼的数量指示了他们的复杂度，但在他们的15秒演示视频中只发生了四次遮挡事件，而鱼的数量为十条。相比之下，在我们的十条鱼的15秒序列中有66次遮挡事件。03. 提出的数据集0提出的3D斑马鱼数据集3D-ZeF从顶视图和前视图的角度进行了记录。采用这种方法是为了最小化并排设置中常见的完全遮挡事件。图2展示了视图之间的视觉变化示例，同时还展示了实验设置的示意图。03.1. 实验设置0用于记录提出的数据集的设置完全使用现成的硬件构建，而以前的方法使用了专门的摄像设备。图2显示了设置的示意图。两个灯光面板02∙FPS。03.2. 数据集构建0总共录制了八个序列，并分为训练、验证和测试集。每个序列由一对时间对齐的顶视图和前视图视频组成，三个数据集的具体规格如表1所示。为了避免数据泄漏，每个数据集都包含一组唯一的鱼。训练集和验证集的鱼来自同一组，而测试集的鱼来自一组较年轻的鱼。因此，测试集与训练集和验证集不同，因为鱼的大小和社交行为不同。这代表了一个现实生活中的场景，需要跟踪不同组的鱼，这在该领域通常没有得到解决。斑马鱼通过一致的身份标签在所有帧上进行手动边界框和点注释。边界框紧密贴合斑马鱼的可见部分，点注释位于头部中心。如果一组鱼接触到一起，就会设置一个遮挡标签。̸Ψ = 1n{T,F}�vOCv OLv IBOvTBOv,(2)24290在遮挡期间，边界框被调整为鱼的可见部分，而不是预期位置，因为斑马鱼具有极高的灵活性。两个视图的成对点注释使用Pedersen等人提出的方法[67]三角化为3D位置。在遮挡期间，鱼头被近似以确保连续的3D轨迹。值得注意的是，数据是以RGB形式记录的。斑马鱼可以根据其环境、压力水平等改变其体色，这种变化在行为研究中可能很重要，甚至可能对解决3D跟踪问题有价值。03.3. 数据集复杂性0直观上，鱼的数量越多，跟踪问题就越困难。然而，这只在一定程度上成立，因为主要的复杂性因素是遮挡的数量和程度，这取决于社交活动和空间量的组合，而不仅仅是个体数量。因此，我们定义了一系列基于遮挡事件的度量来描述所提出序列的复杂性。遮挡事件由一组连续的帧定义，其中一条鱼是遮挡的一部分。事件是从鱼的角度测量的；如果两条鱼是遮挡的一部分，则计为两个事件。遮挡事件的数量表示一条鱼是遮挡的次数，但是，少数长时间的遮挡与许多短时间的遮挡一样具有问题。因此，在评估记录的复杂性时，遮挡的长度和它们之间的时间是重要的。由于我们对遮挡事件的定义，存在一些情况，其中鱼只是其身体的一小部分被遮挡。因此，遮挡之间的交集被测量为一般交集水平的指示。我们提供的用于记录复杂性水平的度量在这里定义：遮挡计数（OC）：每秒平均遮挡事件的数量。遮挡长度（OL）：所有遮挡事件的平均时间（以秒为单位）。遮挡之间的时间（TBO）：遮挡事件之间的平均时间（以秒为单位）。遮挡之间的交集（IBO）：鱼的一部分是遮挡事件的大小的度量。鱼 i 在帧 f 中的交集由以下公式给出：0IBO i,f = 10| bb i |0n0对于 j ≠ i，j = 1 bb i ∩ bb j，(1)0其中 n occ 是遮挡事件中的鱼的数量，bb j 是鱼 j边界框中的像素坐标集。IBO在给定帧中的所有带有遮挡标签的边界框之间进行测量，即使对于不是遮挡的主体也是如此。0图3：从同一帧的两个不同个体的角度看IBO。目标用黄色标记，红色区域显示与目标处于同一遮挡中的主体的交集，蓝色区域显示与目标不属于同一遮挡的主体的交集。0同一遮挡的一部分。图3中给出了两个例子，其中IBOi,f是从黄色区域中的目标的视角计算得出的。第二个例子中的蓝色区域表示与目标不属于同一遮挡的目标的交集。此外，注释的边界框仅包围目标的可见部分。因此，如果鱼的大部分被隐藏，那么实际的目标之间的交集可能更大。尽管如此，假设高IBO是严重遮挡的表现，反之亦然。表1中呈现的IBO度量是所有帧中所有鱼的平均值。通过将四个提出的度量组合起来，可以计算出每个序列的单个复杂度度量。0其中 n 是摄像机视图的数量，下标 T 和 F分别表示顶视图和前视图。如果录像没有遮挡，则复杂度度量 Ψ 为零；否则，该度量在区间 ]0 , ∞ [内，较大的值表示较高的复杂度。04. 方法0所提出的3D跟踪器的流程遵循模块化的跟踪-重建方法，其中在进行视图之间的三角测量和关联之前，先在每个视图中检测和跟踪目标。这使我们能够在3D关联步骤中使用两个视图中轨迹的时间信息，与重建-跟踪方法相反，该方法在生成轨迹之前进行三角测量。04.1. 2D物体检测0为了创建3D轨迹，每个视图中都需要一个一致的2D点。由于头部是唯一的刚性部分，因此需要在每个视图中选择头部作为2D点。4.2. 2D Tracklet ConstructionI = FT ∩ FF,(3)24300为了找到鱼的头部点，选择将跟踪点位于鱼的眼睛之间。我们提出了两种简单的方法来找到鱼的头部点：一种是无需训练的朴素方法，另一种是基于CNN的方法。朴素方法：首先，通过对视频中均匀采样的 N bg张图像取中值来估计每个视图的背景图像bg。然后，通过计算绝对差分图像 fg = | im - bg |来减去背景。为了在顶视图中定位鱼的头部，使用双峰阈值算法[68]对 fg进行二值化。应用Zhang和Suen的骨架化方法[69]，并分析端点以定位鱼的头部。在前视图中，通过直方图熵阈值法对fg进行二值化，因为无法将鱼的外观近似为双峰。头部点被估计为斑块的中心或检测到的边界框的短轴上的中间边缘点之一。在3D重建步骤中，评估这三个点，并丢弃重投影误差最大的两个点。FRCNN-H：为每个视图训练了一个FasterR-CNN[70]模型。从训练序列中的所有头部点注释中提取了边界框，以便为每个视图训练一个头部检测模型。顶视图和前视图的边界框的静态直径分别为25和50个像素。头部点被确定为具有最小置信度 c的检测到的边界框的中心。有关检测器的更详细信息，请参见补充材料。0由于斑马鱼的运动不规律，很难建立一个稳定的运动模型。因此，我们使用朴素的跟踪-检测方法进行跟踪。跟踪是通过构建一个距离矩阵来完成的，该矩阵是在帧中的检测和当前轨迹的最后一个检测之间构建的。使用匈牙利算法[71]将矩阵作为全局优化问题求解。轨迹以保守的方式构建，鼓励鲁棒性优于长度。只有在最小距离（分别为 δ T 和 δ F，对应于顶视图和前视图）内的轨迹才会被分配一个新的检测。如果在给定的时间内（τ k）没有为轨迹分配检测，则终止该轨迹。对于FRCNN-H方法，使用头部检测之间的 ℓ 2距离来计算顶视图和前视图中的距离。然而，对于朴素方法中的前视图，使用质心之间的马氏距离。这是由于斑马鱼体的椭圆形状，可以通过将斑块的协方差矩阵设置为马氏矩阵来利用；因为鱼更有可能沿着主轴移动。0图4：彩色线条表示每个视图中的2D轨迹，双色圆圈表示节点对，DAG的边由箭头表示。数字表示示例节点和边的权重。0比沿着次要轴更长。04.3. 两个视图之间的2D轨迹关联0通过基于图的方法将每个视图的2D轨迹关联到3D轨迹。为了过滤掉嘈杂的轨迹，所有具有少于给定数量的检测的2D轨迹都被删除，其中 α是给定的数量。使用Pedersen等人的3D校准和三角测量方法[67]。04.3.1 图构建0构建有向无环图（DAG）。每个节点表示一个3D轨迹，由两个2D轨迹组成，一个来自每个相机视图。每个边关联节点，其中3D轨迹基于一个视图中的相同2D轨迹。创建节点：通过处理每个顶视图轨迹并识别所有与前视图轨迹在时间上相交的轨迹来构建图节点，如下所示0其中 F T 和 F F是在顶视图轨迹和前视图轨迹中检测到的帧的集合， I是在两个视图中都检测到的帧的集合。如果 I = �，则不创建节点。图4中给出了一个示例，其中顶视图中的蓝色和红色轨迹与前视图中的三条轨迹相交。六个节点的外圈和内圈分别表示顶视图和前视图轨迹。节点内部的数字表示节点权重，计算如下。对于 I 中的每个相交帧，记为 f，进行三角测量得到2D轨迹。这将得到斑马鱼头部的一个3D点 p f ，其重投影误差为 x f。对于Naive方法，在前视图中未直接检测到头部的情况下，将顶视图的2D点与三个估计点进行三角测量，以找到重投影误差最小的匹配。因此， p f表示具有最小重投影误差的点。为了惩罚较大的重投影误差V = {1 − Φ(xf | λerr) | f ∈ I ∧ A(pf)},(4)W = median(V )|V ||FT ∪ FF|,(5)̸24310误差，利用指数累积分布函数 (CDF) 的互补概率 Φ。选择指数累积分布函数是因为它大致模拟了地面真实训练数据的重投影误差。所有有效的 3D 点的权重集合 V可以用以下集合构建符号表示0其中 λ err 是训练数据重投影误差的倒数， A 表示 p f是否在水箱内。 V中的每帧权重被合并为整个节点的单个权重 W ，通过0并且节点被添加到DAG中，前提是 W � = 0。这种加权方案考虑了重投影误差和具有有效3D点的帧的比例与所有帧的集合 I相比。使用中位数函数而不是均值函数是为了抵消少数极端异常值对权重的影响。连接节点：DAG中的节点应与所有建立在相同2D轨迹上的其他节点连接，只要另一个视图中的2D轨迹在时间上不重叠，如图4所示。这可以通过从DAG中的节点集合 N 构建节点对集合 P 来实现。 N的每个元素，记为 n ，包括2D轨迹 t F 和 t T ，3D轨迹t 以及节点权重 W 。如果 t i, T = t j, T 或者 t i, F = tj, F ，并且另一个视图中的2D轨迹在时间上不重叠，并且 ti 在时间上比 t j 更早开始，则节点 n i 和 n j被认为是一对。这是为了避免将多个检测分配给同一帧。这可以用集合构建符号表示0P = {(ni, nj) | ni, nj ∈ N ∧ O(ni, nj) ∧ T(ni, nj)}, (6)0其中O评估t_i是否在t_j之前开始，T确保n_i和n_j中的2D轨迹在时间上不重叠，其中n = {tT, tF, t,W}。对于P中的每对节点，从n_i到n_j的有向边的权重E基于：0• s，鱼在t_i和t_j之间移动时的速度。0• td，t_i和t_j之间的时间差。0• Wi和Wj，节点的权重。0边的权重计算为指数分布的补充概率的累积分布函数(CDF)。选择指数分布是因为它近似模拟斑马鱼的速度分布。E的计算方式为0E = (1 - Φ(s | λs))e^(-td/τp)(Wi + Wj), (7)0图5：基于图4中的示例的图评估。彩色线条表示基于图中选择的节点的2D轨迹对；透明节点被丢弃。0其中τp是经验选择的值，λs是训练数据中测得速度的均值和标准差的倒数。如果一个节点不在任何节点对中出现，该节点将被分配给DAG，但它将没有边。因此，DAG是一个不连通的图。04.3.2 图评估0最终的3D轨迹是从构建的DAG中提取出来的；这是通过递归地找到图中最长路径并将节点集合存储为单个3D轨迹来完成的。最长路径是DAG中的路径，当将路径中的所有节点和边的权重求和时，得到最高的值，参见图5。提取路径后，使用了这些节点和所有使用相同2D轨迹的其他节点从DAG中删除。该过程重复进行，直到DAG为空为止。如果3D轨迹中的2D轨迹缺少一个检测，则无法分配3D位置，但保留了2D轨迹的已知信息。对于Naive方法，通过分配最小化与连续帧中头部位置的ℓ2距离的估计点来确定正视图2D轨迹的头部位置。04.4. 3D轨迹关联0最终的3D轨迹以贪婪的方式从3D轨迹中构建。使用与鱼的数量相等的一组轨迹作为初始主轨迹。剩余的轨迹，称为画廊轨迹，逐个分配给单个主轨迹，直到无法再分配为止。04.4.1 初始轨迹选择0通过找到在时间上同时存在且跨越较长时间间隔的稳定轨迹来选择主轨迹中的N个鱼。对于每个轨迹，考虑其他在时间上同时存在的轨迹集合。在该集合中，研究所有大小为N的可能组合。如果24320图6：内部时空DAG的示例，显示轨迹中检测之间的空间距离。当从画廊轨迹切换到主轨迹时，在帧t_n+1中找到最短路径。0如果集合中的所有轨迹在时间上重叠，则将该集合保存为有效的轨迹集合。具有最高中位数时间重叠的有效轨迹集合用于构建N条完整的3D轨迹。这是通过使用下面描述的贪婪关联方案完成的。如果没有找到大小为N的有效组合，则不创建3D轨迹。04.4.2 贪婪关联0当每个画廊轨迹与单个主轨迹相关联时，使用贪婪关联算法。算法的贪婪部分涉及选择画廊轨迹的方式；所有画廊轨迹按照与任何主轨迹的最短时间距离升序排列。如果画廊轨迹在时间上与所有主轨迹重叠，它将被放置在列表的末尾。当画廊轨迹与主轨迹相关联后，剩余的画廊轨迹将重新排序，并重复该过程。通过这种方式，主轨迹被“扩展”成完整的轨迹。画廊轨迹的分配基于最小化分配成本。成本基于一组距离度量，这些度量是从两种情况确定的。在第一种情况下，至少有一个主轨迹与画廊轨迹在时间上不重叠。在这种情况下，关联过程基于画廊轨迹和主轨迹之间的时空距离。所有在时间上重叠的主轨迹不予考虑。在第二种情况下，画廊轨迹在时间上与所有主轨迹重叠。由于主轨迹和画廊轨迹之间的时空距离不再可测量，使用不同的一组距离值：内部时空距离、相交帧的数量，即主轨迹和画廊轨迹中都检测到的帧，以及相交帧与画廊轨迹中检测总数的比率。内部时空距离是通过构建有向无环图(DAG)确定的，其中每个节点是帧中的一个检测，边的权重是空间0临时前一个节点之间的距离。最终路径是最小化的空间距离。图6显示了一个图的示例。当图从图库轨迹切换到主轨迹或者从主轨迹切换到图库轨迹时，距离是通过计算值的平均值来计算的。关联：通过全局成本方案将距离测量合并为单个分配决策。每个距离值在有效的主轨迹之间进行归一化，范围为[0;1]，并且总和为1。将图库轨迹分配给主轨迹的最终成本是通过计算归一化距离值的平均值得到的。除非所有主轨迹成本都位于彼此之间的小边界β内，否则图库轨迹将与成本最小的主轨迹关联，否则将丢弃图库轨迹。β直接强制分配的置信度边界，以便不基于不确定的成本值分配图库轨迹。05. 评估0MOT挑战赛[41, 42,43]和Carr和Collins提出的平均故障时间（MTBF）[72]的指标被用来衡量系统在提出的数据集上的性能。MOT挑战赛指标包括CLEARMOT指标[73]、大部分跟踪/丢失指标[74]和基于识别的指标[75]。根据MOT挑战赛指标的一个子集和单调的MTBF指标来评估最终的3D轨迹。检测到的和真实的轨迹使用检测到的和注释的头部点进行比较。只有当检测到的轨迹与真实轨迹的距离在0.5厘米以内时，才将其与真实轨迹关联。系统的性能使用两个不同的检测模块进行评估：Naive和FRCNN-H。结果与一个假设的跟踪器Oracle进行比较，该跟踪器在除遮挡期间以外的所有时间都能完美跟踪。这为如果不以任何方式处理遮挡时的性能提供了一个上限。完整的指标集、系统参数和结果可以在补充材料中找到。与数据复杂性相比，所有序列的结果显示在图7中，测试序列的指标显示在表2中。显然，FRCNN-H在训练和验证集上的性能优于Naive方法；在四个案例中，它甚至优于Oracle跟踪器。这可能是因为该方法能够在遮挡期间检测到一些鱼头。然而，在鱼来自不同群体的两个数据集上才能看到卓越的性能。在测试集上，FRCNN-H无法泛化，而Naive方法仍然能够跟踪鱼。020406080100Tst1Naive77.6%1002812.5FRCNN-H30.2%000158.212Oracle100.0%1000900Tst2Naive77.6%1004415.856FRCNN-H5.7%022172.641Oracle81.6%2002527.396Tst5Naive39.7%0071856.249FRCNN-H40.2%0071157.577Oracle67.8%1005028.112Tst10Naive48.3%00112689.075FRCNN-H25.2%03322254.904Oracle66.6%110011923.105243300 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 Ψ0MOTA0训练验证测试 NaiveFRCNN-HOracle0图7：所有序列的MOTA与数据集复杂性Ψ的比较。0需要注意的是，Naive方法在Tst1上表现不佳，这可能是由于不稳定运动导致的许多短轨迹，而使用的参数设置的流程无法很好地处理这种情况。05.1. 与其他方法的比较0在第2节中提到的其他3D斑马鱼跟踪方法无法进行公平比较。以前的系统已经通过对生成的2D和3D轨迹进行ID交换、碎片、精度和召回率的分析来进行评估。然而，对于这些指标的计算没有确切的描述。评估协议进一步受限于不包括关于估计轨迹和真实轨迹之间允许的最大距离的说明，这导致了对指标准确性的不确定性。此外，尽管遮挡被反复提到为3D斑马鱼跟踪的主要障碍，但评估序列并没有以复杂性的方式进行描述。数据集的唯一共同复杂性指标是鱼的数量，尽管这并不具有代表性。例如，钱等人的跟踪演示视频[62]中有十条鱼，只有四次遮挡事件持续15秒。王等人[30]根据遮挡概率描述了他们的数据集，但没有解释如何测量。目前没有公开可用的注释数据，以及先前系统在看似简化的问题情况下进行评估。此外，使用的评估协议缺乏细节，以至于无法确定在哪些条件下计算了指标。这个问题连同无法访问的代码库严重限制了结果的可重复性。0方法 MOTA ↑ MT ↑ ML ↓ ID Sw. ↓ Frag. ↓ MTBF m ↑0表2：测试集上3D轨迹的评估。箭头表示较高或较低的值更好。MOTA：多目标跟踪准确性，MT：大部分被跟踪，ML：大部分丢失，IDSw.：身份交换次数，Frag.：碎片数量，MTBF m：单调MTBF。0由于评估过程不同，无法确保相同的评估程序。因此，在当前情况下，将所提出的系统与其他方法进行比较是没有意义的。06. 结论0斑马鱼是越来越受欢迎的动物模型，行为分析在神经科学和生物学研究中起着重要作用。然而，手动描述斑马鱼的复杂3D运动是繁琐且主观的。因此，迫切需要进行准确实验的3D斑马鱼跟踪系统。在其他MOT领域取得的重大进展尚未转化为3D斑马鱼跟踪。主要原因是尚未公开提供带有地面真实注释的数据集。因此，我们提供了第一个公开可用的RGB3D斑马鱼跟踪数据集，称为3D-ZeF。3D-ZeF由八个立体序列组成，其中高度社交且外观相似的对象展示了在三个维度中常见的MOT挑战中看不到的复杂和不规则的运动模式。为了使这些序列可与未来的相关数据集进行比较，为每个序列提供了基于遮挡程度的复杂度度量。所提出的数据集使用不同的斑马鱼群体用于训练、验证和测试集，以避免数据泄漏；这是该领域从未解决过的问题。所提出的Naive方法在整个数据集上的MOTA得分在25%至80%之间，与录音的复杂度度量相关良好。这个开源的基于模块化的系统为3D斑马鱼跟踪和理解领域的进一步发展提供了基线和垫脚石。[6] A. V. Kalueff, A. M. Stewart, and R. Gerlai, “Zebraﬁsh asan emerging model for studying complex brain disorders,”Trends in Pharmacological Sciences, vol. 35, pp. 63–75, Feb.2014.[7] D. A. Meshalkina, M. N. Kizlyk, E. V. Kysil, A. D. Collier,D. J. Echevarria, M. S. Abreu, L. J. G. Barcellos, C. Song,J. E. Warnick, E. J. Kyzar, and A. V. Kalueff, “Zebraﬁshmodels of autism spectrum disorder,” Experimental Neurol-ogy, vol. 299, pp. 207–216, Jan. 2018.[8] K. M. Khan, A. D. Collier, D. A. Meshalkina, E. V. Kysil,S. L. Khatsko, T. Kolesnikova, Y. Y. Morzherin, J. E. War-nick, A. V. Kalueff, and D. J. Echevarria, “Zebraﬁsh mod-els in neuropsychopharmacology and CNS drug discovery,”British Journal of Pharmacology, vol. 174, no. 13, pp. 1925–1944, 2017.[9] L. Li and J. E. Dowling, “A dominant form of inherited reti-nal degeneration caused by a non-photoreceptor cell-speciﬁcmutation,” Proceedings of the National Academy of Sciences,vol. 94, pp. 11645–11650, Oct. 1997.[10] U. K. Muller, “Swimming of larval zebraﬁsh: ontogeny ofbody waves and implications for locomotory development,”Journal of Experimental Biology, vol. 207, pp. 853–868, Feb.2004.[11] M. B. McElligott and D. M. O’Malley, “Prey tracking bylarval zebraﬁsh: Axial kinematics and visual control,” Brain,Behavior and Evolution, vol. 66, no. 3, pp. 177–196, 2005.[12] E. Fontaine, D. Lentink, S. Kranenbarg, U. K. M¨uller, J. L.van Leeuwen, A. H. Barr, and J. W. Burdick, “Automatedvisual tracking for studying the ontogeny of zebraﬁsh swim-ming,” Journal of Experimental Biology, vol. 211, no. 8,pp. 1305–1316, 2008.[13] B. Risse, D. Berh, N. Otto, C. Kl¨ambt, and X. Jiang, “FIM-Track: An open source tracking and locomotion analysissoftware for small animals,” PLOS Computational Biology,vol. 13, no. 5, pp. 1–15, 2017.[14] S. Ohayon, O. Avni, A. L. Taylor, P. Perona, and S. E. R.Egnor, “Automated multi-day

下载后可阅读完整内容，剩余1页未读，立即下载