体育摄像机校准技术研究及应用

38 浏览量更新于2023-10-25 收藏 2.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1广播视频的端到端摄像机校准龙莎詹妮弗霍布斯潘纳费尔森新宇伟帕特里克露西苏乔伊Ganguly统计执行{龙.沙，詹妮弗.霍布斯，帕纳.费尔森，辛宇.魏，帕特里克.露西，苏乔伊.甘古利}@ statsperform.com摘要越来越多的基于视觉的跟踪系统部署在生产中，需要快速，强大的相机校准。在运动领域，目前的工作主要集中在运动中，其中线和交叉点容易提取，并且在不同的场地中外观相对一致。然而，对于像篮球这样更具挑战性的运动，这些技术是不够的。在本文中，我们提出了一种端到端的方法，用于在体育运动中具有挑战性的场景中进行单移动摄像机校准我们的方法包含三个关键模块：1）基于区域的球场分割，2）使用嵌入模板的摄像机姿态估计，3）经由空间变换网络（spatial trans-form network，简称ANN）的单应性预测。所有三个模块都连接在一起，实现了端到端培训。我们在一个新的大学篮球数据集上评估了我们的方法，并展示了在可变和动态环境中的最新性能我们还在2014年世界杯数据集上验证了我们的方法最后，我们证明了我们的方法在两个数据集上都比以前的最新技术快了两个数量1. 介绍(a)（b）第（1）款图1. (a)在高度动态的环境中（如篮球），摄像机校准面临的一些关键挑战(b)在具有移动相机的系统中，小的相机移动会产生大的变换。这里的绿线是由移动摄像机引起的投影平移、倾斜和焦距的变化是◦◦摄像机标定是计算机视觉应用（如跟踪系统、SLAM和增强现实（AR））的基本任务。最近，许多职业体育联盟已经部署了基于视觉的跟踪系统的某些版本[26，25]。此外，AR应用（例如，NBA中的虚拟3 [3]，NFL中的第一下线[15]）在视频广播期间用于增强观众所有这些应用都需要高质量的相机校准系统。目前，这些应用中的大多数依赖于多个预先校准的固定摄像机或直接从摄像机实时馈送平移-倾斜-变焦（PTZ）参数。然而，由于体育领域中最广泛可用的数据源是广播视频，因此从具有未知和变化的相机参数的单个移动相机进行校准的能力将极大地扩展运动员跟踪数据的范围，分别小于3、3和300像素。凸轮的变化每个轴上的位置小于3英尺。粉丝参与解决方案。单个移动摄像机的校准仍然是一项具有挑战性的任务，因为该方法必须准确，快速，并可推广到各种视图和外观。我们的解决方案使我们能够确定一个单一的移动摄像机的帧和运动的相机时代单应性。当前的方法主要遵循基于字段配准、模板匹配（即，摄像机姿态初始化）和单应性细化。尽管基于该框架的现有方法[5，24，6]已被证明对特定运动有效，但仍存在一些限制，无法将其应用于更具挑战性的场景。首先，这些方法中的大多数[5，24，6，8，9，4]关注于其中语义信息（即，主球场1362713628标记）容易提取，场地外观在体育场上是一致的（即，绿草和白线），并且相机的运动相对缓慢和平滑。这些假设并不适用于更动态的运动，如棒球（图1），其中球员遮挡场地标记，场地外观从场地到场地变化很大，相机移动很快。此外，大多数现有的作品包括单独训练或调整模块。因此，它们无法实现这种优化任务的全局最优。这进一步限制了这些方法在更具挑战性的情况下的性能，因为错误通过系统、模块到模块传播。在本文中，我们使用一个全新的端到端神经网络来解决这些问题（图2）。我们的方法遵循类似的框架（语义分割，摄像机姿态初始化，单应性细化），但扩展了ap-proach处理更具挑战性的情况下，涉及运动模糊，遮挡，和大型变换。我们的贡献是：1. 一种使用基于区域的语义而不是直线进行摄像机标定的方法，该方法对于动态环境和具有高度可变的外观特征的环境2. 结合空间变换网络[16]进行大型变换学习，减少了所需模板的数量3. 用于相机校准的端到端架构，允许我们联合训练所有内容，并更有效地推断单应性。4. 一个精心策划的篮球数据集，使社区能够在更具挑战性的环境中研究校准问题本文的结构如下。在第2节中，我们讨论了在该领域的相关工作，其次是第3节，在那里我们详细介绍了我们的方法。在第4节中，我们描述了在足球和篮球数据集上的两个实验。最后，在第5节中，我们总结并讨论了未来的发展方向。2. 相关工作场地配准是体育运动中摄像机标定的重要组成部分。它能够生成可靠的真实世界或在数学上，任务是找到可以将2D场从观察到的相机视角映射到已知的头顶视角的单应性。存在许多经典方法来找到点或线段之间的对应关系[20，8，9，4，10]。其他人[21，9，8，4，10]紧随其后一种帧到帧的方案，他们使用初始单应性和帧到帧校准每个序列，匹配.这些方法通常需要人为干预和特定场地的先验知识。基于球场分割的方法通过在合成尺寸的全景图像上应用球场分割来完全自动化该过程[28，29]。基于[21]中的工作，Hesset al.[12]通过预定义特定于场所的开销（即，自顶向下）场模型，使得每一帧可以直接与场模型匹配。最近[22]，卷积神经网络（CNN）被引入以更好地进行语义提取。 Homayounfar等人[14]用基于CNN的语义检测扩展了[10，11Chen等人[5]通过使用两个生成的对抗网络（GAN）来提取字段上的边缘，从而产生更好的参考图像匹配，从而扩展了这项工作。最近，越来越多的方法利用摇摄-倾斜-变焦（PTZ）相机配置来约束广播视频中的配准问题Chen等人[6]利用[27]和[18]的方法来估计相机的基本参数和焦距。Sharma等人[24] Chenet al. [5]从训练数据中估计摇摄、倾斜和变焦的范围，并均匀地采样大量（100k）潜在的相机姿势。使用头顶场模型和采样的相机姿势，他们从相机的角度生成语义图像作为模板。通过构建模板字典，他们将字段配准问题简化为最近邻搜索任务，然后进行微调和细化。单应性细化先前的方法使用诸如Lucas-Kanade算法[1]或不精确增广拉格朗日方法（IALM）的方法来在从匹配的模板或参考帧初始化后细化单应性。这些方法的基本假设是变换是小的和局部的。为了满足这些假设，Sharmaet al. [24] Chenet al. [5]使用100k模板，确保输入图像和匹配模板之间的变换非常小，而Carr等人。[4]和Ghanemet al. [8]将此问题表述为非线性优化任务，通过图像扭曲的损失来优化单应性。Jaderberg 等人 [16] 提出了一种空间 Transformernetwork（空间变换器网络），它学习手写数字块的仿射变换，提高了识别精度。Bha- gavatula等。[2] Linetal. [19]还表明，该算法可以处理面部和刚性物体的一些透视变换我们将这些方法结合起来，以解决在细化过程中处理大型透视图转换的需求，并创建一个完全的神经网络解决方案。13629k¯我我我我我我图2.给定单个输入图像，我们计算单应性H。首先，我们使用语义分割（蓝框）找到法院特征Y。然后，我们使用语义映射从一组模板中选择合适的模板Tk<$。我们将Tk<$和Y<$连接起来，并预测模板和语义映射之间的关系h yH<$。使用N e xtH=H<$H生成真实世界到图像和图像到真实世界的变形。灰色的块是神经网络层，具有相同名称的块共享相同的权重该网络架构具有四个不同的损失函数Lce（等式1）。 3），其来自语义分割模块，Lcon（Eq. 6），其来自相机姿态初始化模块，以及两个扭曲损失Lwarp（camera）和Lwarp（top），其来自单应性细化模块（Eq. （八）。由于所有损耗都是相对于网络参数完全可微的，因此，网络可以进行端到端的训练。3. 方法我们的方法的目标是找到一个单应性H，它可以将来自广播视频的任何帧I的目标地平面表面与顶视场模型M配准。计算具有点对应的单应性的标准目标函数θH=argminL（Y<$，W（M;θH）），（2）θH其中θH是8个单应性参数的向量，W（;θ）是具有变换参数θ的扭曲函数，并且L（）是测量两个图像之间的差异的任何损失函数，在这种情况下是预测的语义图H = arg min1H| X|Σ（x′，x）∈X|第二条第一款|2, (1)Y′和绕在头上的模型M。我们在现场进行基于区域的分割，以广告-ii处理图1中所示的挑战。领域被分割其中xi是（广播）图像I中像素i的（x，y）位置，并且x′是模型“图像”M上的对应像素位置。X是两个图像I和M之间的点对应的集合。我们的方法利用了三个主要技术：语义分割、摄像机姿态初始化和单应性细化。由于每项任务都可以通过神经网络完成，因此这三项任务都可以集成到单个网络架构中（图2）并进行端到端训练。3.1. 语义分割语义分割通常用于提取关键fea-分为四个区域，使顶置场模型M成为4通道图像，如图3所示;该模块的目标是将I中的每个像素分类为四个类别之一。为了生成每个图像的基于区域的语义标签，我们使用相关的地面真值单应性来扭曲开销模型，从而为训练提供地面真值语义标签。对于分割任务，我们使用Unet [22]风格的自动编码器（参见附录部分A中的详细架构），其拍摄图像I并根据最终目标函数（等式2）的需要输出语义映射Y'为了训练Unet，我们使用交叉熵损失从图像中提取并去除不相关的信息，提供可用于确定点对应关系的与车辆无关的外观Y ′。因此，目标1Lce=−|是||C|Σ Σyclog（y<$c），（3）y<$c∈Y<$c∈C函数（等式1）可以重写为其中C是类的集合，yc是基础事实13630NN（µ;µ，）我算法1基于GMM的聚类算法1：预定义协方差矩阵2：对于K=[100，110，120，...，N] do3：初始化K个GMM组件的µk4：当µ不收敛时，5：计算γk（λnnπkN（λn;μk，λ n）jπkN（λn;μk，λ n）6：更新µk=Σnγk（λn）λnnγk（λn）7：结束时，N（λ;μ，μ）8：如果1最大knk>阈值，则KK图3.最上面一行显示了篮球（左）和足球（右）的自顶向下视图字段模型。中间一行显示了我们使用字段模型为一个图像创建的语义标签。这些图像是通过使用地面真值单应性来扭曲场模型M而生成的。然后，这些图像用于训练语义分割模块。底部行显示了从自上而下的视角看中间行的多边形区域，显示了相机视图中的场模型的分数。篮球和足球的自顶向下视图在此调整为相同的尺寸，仅用于显示目的。标签和y′c是属于类c的pi x eli的li k。3.2. 相机姿势由于我们假设PTZ相机，因此我们可以生成相机姿态字典（即，一组模板）。我们使用一个连体网络来确定每个输入语义图像的最佳模板3.2.1相机姿态字典生成对于PTZ摄像机，投影矩阵P可以表示为P = KR[I| −C]= KQS[I| −C]，（4）其中Q和S从旋转矩阵R分解，K是相机的内部参数，I是3X3单位矩阵，并且C是相机平移。矩阵S描述了从世界坐标到PTZ摄像机底座的旋转，Q表示由于摇摄和倾斜引起的摄像机旋转。在我们的例子中，我们定义S绕世界x轴旋转-90，这样相机在世界平面中沿着y轴看;这意味着相机是水平的，其投影与地面平行。对于每个图像，我们假设中心主点，正方形像素，并且没有镜头失真。在我们的工作中忽略了摄像机滚动，因为观察到滚动角非常小（小于1°），总共留下6个参数：焦距、3D摄像机位置、摇摄和倾斜角度。9：休息10：如果结束11：结束十二：返回GMM我们使用 Zhang 通过这种初始化，我们使用Levenberg-Marquardt算法[17]来找到最佳焦距、3D相机位置和旋转角度。一旦确定K、C、R和S，就计算Q。Rodrigues公式[7]应用于Q以计算摇摄角和倾斜角。因此，确定6维相机配置（摇摄、倾斜、变焦和3D相机位置）λ。虽然从单个图像中估计相机参数不是非常精确，但是对于相机姿态字典生成是足够在针对每个训练图像估计相机配置λ之后，我们以两种方式之一来生成可能的相机姿态Λ的字典第一种方法需要从可能的相机姿态范围内进行统一采样我们根据训练数据确定摇摄、倾斜、焦距和相机位置的范围，并从6维网格中均匀地采样姿态。这种方法的优点是，它涵盖了所有的相机姿态，即使训练集很小。此外，使用小网格简化了均匀性细化，因为所需变换的最大尺度是网格尺寸的尺度然而，这也创造了许多不现实的模板。或者，当训练集具有足够的多样性时，可以通过聚类直接从训练数据中学习Λ我们选择将Λ视为多变量正态分布，并应用高斯混合模型（GMM）来构建我们的相机姿态集。我们将每个分量的混合权重π固定为相等，并固定每个分布的协方差矩阵π在这里，矩阵的特征尺度设置了由单应性细化模块处理的变换的尺度。与传统的GMM相比，GMM学习算法不是设置分量的数量K，而是在给定混合权重π和协方差矩阵π的情况下找到每个分布的分量的数量K和平均值μ k。每个分量的相同的π和π确保GMM分量从训练数据的流形均匀地采样）=的n13631k¯22Kk¯算法1示出了GMM聚类过程。因为我们修复了μ，所以我们只在最大化步骤（M步骤）中更新μ我们逐渐增加K，直到满足停止准则。停止标准（第8行）旨在生成足够的分量，使得每个训练样本接近混合物中一个分量的平均值。利用所有组件[μ1，.，µ K]。给定相机姿态的字典Λ，可以计算每个姿态的单应性并用于扭曲头顶场模型M。因此，一组图像模板T=[T1，...，T K]及其相应的单应矩阵ma-三元组H=[H，.，[2019 - 05 - 15][2019 - 05 - 05][2019- 05][2019 -05 - 05][2019 - 05][2019 - 05 - 05]图4.在这里，绿色的场线是投影，1K初始化的相机姿态参数（细化前），蓝色摄像头姿态初始化模块。3.2.2相机姿势搜索给定语义分割图像Y′和模板图像T的集合，使用连体网络来计算每个输入和模板对（Y′，Tk）之间的距离。的每对的靶/标记是相似的或不相似的。为在栅格采样的摄像机姿态字典中，如果模板Tk的姿态参数是栅格中的最近邻，则模板Tk与图像相似对于基于GMM的相机姿态字典，如果模板N（;μk，μ k）的相应分布给出输入的姿态参数λ形象该过程为训练集中的每个图像生成模板相似性标签。图2中的红框显示了相机姿态搜索过程的步骤。一旦输入语义图像Y'和模板图像T被编码（在FC 1之后），使用潜在表示来计算L2距离在输入图像和每个模板之间。选择模块找到目标摄像机姿态indexk′，并检索根据以下公式，将模板图像T¯和同形图hyH作为输出k<$=argmin|f（Y<$）−f（Tk）|第二条，第（五）项K场线在单应性的细化之后出现。我们可以看到，网络可以处理相对较大的变换，这使得网络能够使用更少的模板来初始化相机姿态。以便我们能够处理大的非仿射变换并使用较小的相机姿态字典。图2中的绿色框显示了同态细化的过程。为了计算输入语义图像Y'与所选模板im之间的相对变换年龄Tk<$ ，我们将它们堆叠成8通道图像，形成到一个RGB的本地化层的输入。定位层的输出是相对将语义图像Y<$映射到主题的同形词hyH<$板Tk.重要的是，我们初始化最后一个局部化层（图2中的FC 3），使内核中的所有元素都为零，并且偏置为扁平单位矩阵的前8个值。因此，在训练开始时，假设输入图像与模板相同，一个很好的初始化的优化。因此，最终的同形图h y是H=H。一旦计算了H，Transformer就可以将头顶模型M扭曲到相机视角，反之亦然，这允许我们计算等式中的损失函数二、我们使用骰子系数损失：其中f（）是暹罗网络的编码函数作为标准实践，对比损失用于训练暹罗网络：骰子（U，V）=1|C|Σc∈C2||U c V c||||+||V c||、（7）||, (7)Lcon=a|f（Y<$）−f（Tk）|2+（1−a）max（0，m−|f（Y<$）−f（Tk）|2）、（六）其中，U、V是语义图像，C是变化的数量。nels，n是元素乘法，||·||是图像中像素强度的总和。这里，每个通道中的强度是像素属于一个像素的可能性。其中a是图像对（Y′，Tk），m是对比度ive损失的误差3.3. 单应性细化在确定目标模板和相机姿态之后，最后一步是通过找到所选模板和输入图像之间的相对变换来细化单应我们介绍了空间Transformer网络（简称空间网络）频道C。与基于线的分割相比，使用基于区域的分割的主要优点之一是，它对遮挡是鲁棒的，并且更好地利用了网络容量，因为更大比例的图像像素属于有意义的类。然而，基于IoU的损失的限制在于，随着视野中的场的分数减小，IoU损失变得对分割错误敏感。例如，如果字段13632′仅占图像的很小比例，一个小的变换就可以显著地减少IoU。图3从两个角度显示了篮球和足球中占用率的两个示例。从摄像机的角度来看，足球具有较高的占用率，而顶视图具有较低的占用率，而篮球是相反的。因此，我们在两个视角中对翘曲场使用Dice损失;高占用率视角可以快速实现粗略配准，而低占用率视角可以提供对精细调整的强约束。因此，我们将等式2中的损失函数定义为：具有高相机姿势多样性的注释专业注释者在每个图像中点击4-6个点对应这些注释产生了526个用于训练的图像和114个用于测试的图像。我们通过水平翻转图像来进一步丰富训练数据，总共为我们提供了1052个训练示例。2014年世界杯数据集足球数据集由Homayounfaret al.[14] 2014年世界杯的20场比赛。这些比赛在白天和晚上在9个不同的体育场举行，图像由不同的视角和照明条件组成。209火车站-L翘曲=δDice（Y，W（M，θH））+（1−δ）Dice（M，W（Y，θH−1）），（八）从10场比赛中收集的图像和从其他10场比赛中收集的186张测试其中Y是地面实况语义图像，M'是掩蔽的头顶场模型，因此仅针对图像中所示的区域计算损失两个视角的损失通过δ加权，其中较低占用率视角的权重总是较高。图4示出了一些示例单应性细化结果。绿色场线是用来自所选模板的初始相机姿势来投影的，而蓝色投影使用细化的单应性。这些结果展示了机器学习学习相对较大的变换的能力，这允许我们在我们的方法中使用更小的相机姿势集。3.4. 学习由于每个模块都使用其他模块的输出作为输入，因此这三个模块可以连接到单个神经网络中，如图2所示。网络的总损耗变为L=αLce+βLcon+（1−α − β）Lwarp，（9）其中α，β ∈ [0，1）.我们把整个网络的训练增加-在精神上，模块接模块地，所以暹罗网络和机器人可以开始训练与合理的输入。训练开始于20次Unet热身。然后，在α = 0的情况下打开暹罗网络训练。1和β=0。9 .第九条。在另外10个时期之后，在α = 0的情况下开启了ADC。05，β=0。05.整个网络继续联合训练，直到收敛。4. 评价和实验4.1. 数据集大学篮球数据集我们从13场NCAA篮球比赛中创建了一个数据集。我们用10场比赛进行训练，剩下的3场比赛进行测试。不同的比赛有不同的摄像机位置，每场比赛都在一个独特的场地进行，这意味着球场的外观在每场比赛中都有很大的不同对于每场比赛，我们选择了30-60帧，4.2. 执行大学篮球数据集由于篮球数据集的训练集很大且多样，我们使用基于GMM的方法从1052个训练图像中生成相机姿势模板摇摄、倾斜、焦距和摄像机位置（x、y、z）的标准偏差分别设置为5μ m、5μ m、1000像素和15英尺。The non-diagonal el- ements are set to zero aswe assume those camera configu- rations are independentof each other.停止标准的阈值设置为0.6，聚类算法生成210个组分。对于扭曲损失，L扭曲δ被设置为0.8，因为相机视角具有比相机视角更低的场占用率俯视透视图。世界杯数据集由于足球场比篮球场大得多，因此模板生成使用高网格分辨率：我们将平移、倾斜和焦距的分辨率设置为5μ m，2. 5像素，500像素。摄像机的位置固定在（560，1150，186）码相对于左上角的领域，因为摄像机的位置是非常相似的不同的游戏。足球数据集具有不足以使用基于GMM的相机姿态估计的示例数量。因此，我们对该数据集使用了统一的采样，估计了摇摄、倾斜和焦距范围（[−35mm，35mm]，[5mm，15mm]，[1500，4500]像素，它为相机姿态生成450个模板初始化。值得注意的是，我们为足球和篮球选择的采样分辨率并不能保证是最佳的。使用不同的分辨率可能会导致更好或更差的性能，但在本文中，我们专注于展示我们的方法与一个小得多的模板集的出色性能。研究模板集的最佳大小超出了本工作的范围。由于世界杯数据集中的训练样本数量较少，我们使用合成数据来预热相机姿态初始化模块和单应性细化模块。除了Unet，其余的网络-13633工作使用语义图像作为输入，以便我们可以合成任意数量的语义图像来预训练网络的那些部分。我们通过对平移、倾斜和焦距参数进行均匀对于每个合成的图像，它们的地面真值单应性是已知的，并且可以通过对网格进行下采样来容易地找到模板分配因此，摄像机姿态初始化模块和摄像机可以单独地进行预训练。在这两个模块预热之后，我们按照第3.4节中的训练过程使用真实数据训练网络。由于足球4.3. 定量评价我们使用Intersection over Union（IoU）分数作为我们的评估指标。我们在顶视图中计算IoU，并比较地面实况和估计的单应性之间的交集以前的作品[14，24，5]测量了整个领域的IOU整个或仅出现在图像IOU部分的多边形区域上的IOU。为了便于比较，我们报告了两种方法下的结果。我们的方法是在Ubuntu系统上使用Tensorflow 实现的，该系统具有Intel3.6GHz CPU，48GB内存和Nvidia Titan RTX GPU。表1将我们的方法与Chenet al. [5]篮球数据集。[5]中的方法用他们发布的代码实现。为了确保各种校准方法的公平比较，我们使用相同的模板集（210个相机姿势）[5]。除了[5]和我们的方法之间的直接比较之外，我们还创建了[5]的两个不切实际的变体;首先，我们提供完美的线提取，其次，我们提供完美的模板。我们设计了这些变量来显示这些因素对校准性能的影响。为了提供完美的模板，我们在数据集中为每个示例创建了一个模板，因此每个图像都具有完美的匹配，并且不需要单应性细化。通过提供完美的分割或模板，我们可以看到Chen等人可以实现的最佳理论结果。s方法。我们还比较了每个模块的联合训练和单独训练的性能，以评估我们网络上端到端训练的好处。表1中的结果表明，我们的方法是一个显着的改善（5% - 15%），陈等人。[5]，即使提供了地面实况线分割或完美模板。当我们向基线提供地面实况线提取时，IoU部分得到改善，因为相机姿态初始化变得微不足道，但IoU整体仍然很低，因为基于Lucas-Kanade的细化无法处理小模板集所需的大变换。相比之下，无限大的模板集（完美模板）解决了细化步骤中的错误，因此IoU整体大幅增加，尽管线提取方法仍然限制了性能。这些结果证实，在或-表1.大学篮球数据集的评估结果。对于基线方法，“GT”表示提供了地面真值线提取，而“Per”表示给出了完美的模板。对于我们的方法，报告了分别训练每个模块和端到端训练的结果。在这里，我们的方法，当训练端到端是显着优于以前的最先进的状态（陈等。[5]），即使当现有技术的先前状态被提供有最佳可能的模板集（Chenet al.+ Per）。方法IoU完整IoU部分是说Med.是说Med.Chen等人62.668.485.090.1Chen等人+ GT67.271.291.791.8Chen等人+每80.582.391.994.5我们的（模块化）81.181.792.693.8我们的（端到端）83.284.694.295.4表2.世界杯数据集的评估结果[14]。基线方法取自他们的论文。这些结果表明，我们的方法是显着优于Homayounfar等人。[14]和Sharmaet al.[24]但比陈等人略差。[5]由于训练数据不足。方法IoU完整IoU部分是说Med.是说Med.DSM [14]83---Sharma等人[24日]--91.492.7Chen等人[五]《中国日报》89.493.894.596.1我们88.392.193.296.1表3.不同方法方法平均时间（s）模板数量DSM [14]0.443328Sharma等人[24日]-100,000Chen等人[五]《中国日报》0.5100,000我们0.004450为了在具有挑战性的动态环境中执行摄像机校准，网络需要更好的语义分割和单应性细化方法。我们的方法甚至比现有技术的不实用变体有大约2%的改进。表2显示了我们的方法在世界杯数据集上的结果。我们将我们的方法与使用均值和中位数的两个指标下的端到端训练与以前的方法进行我们的方法明显优于Homayounfar等人。[14]和Sharmaet al.[24]但近似等于陈等人。[5]的文件。在这个数据集上，我们的方法受到训练数据不足的影响，特别是对于语义分割。在表3中，我们还报告了不同方法中每个图像的平均推理时间和搜索空间的大小[14]的方法需要搜索3002×6002的网格，尽管他们使用分支定界技术来大大减少搜索空间。因此，我们只能与13634IoU部分= 94.5IoU部分= 91.3IoU部分= 99.0IoU部分= 97.9IoU部分= 88.9IoU整体= 97.5IoU整体= 94.2IoU整体= 87.0IoU整体= 81.8 IoU整体= 79.5图5.在第一行中，我们显示了由预测的单应性生成的场投影（蓝线）。第二行显示语义分割输出。第三行显示IoU部分，第四行显示IoU整体，其中红色是地面真值字段，蓝色是预测单应性扭曲的字段。它们的有效搜索空间，即单应性估计所需的平均迭代次数由于端到端架构和减少的搜索空间，我们的速度比[14]和[5]快2个数量级，使我们的方法能够实时校准移动相机。4.4. 定性评价图5显示了篮球数据集的一些输出示例;有关足球比赛的数据，请参阅附录B部分。只要语义分割合理，我们的方法就能很好地对于最右侧的示例，校准失败是由于光变化导致的分割不佳在足球比赛中，体育场中的大阴影同样会导致较差的分割和校准结果。需要更多的训练数据才能使Unet适应这些极端条件。然而，通常，语义分割模块执行得非常好，导致近乎完美的校准结果。事实上，由于网络的端到端训练，与以前的技术水平相比，我们减少了语义分割中小错误的影响。尽管足球和篮球的IoU 部分相似，但IoU整体却截然不同。原因有两方面。首先，篮球运动的自上而下的视角是更高的占有视角。因此，同质性中的小误差不会影响IoU部分，但会限制IoU整体的性能。其次，篮球场的宽高比比足球场大，因此一侧的小误差会导致视野外一侧的较大误差。5. 结论在这项工作中，我们提出了一种新的方法，用于在动态环境中的广播摄像机校准，该方法将语义分割，摄像机姿态初始化和单应性细化集成到一个神经网络中，从而实现端到端的训练和推理。此外，我们使用基于区域的语义而不是基于线的语义，这使得我们的方法能够处理球场有明显遮挡的嘈杂场景。我们还使用了一个空间Transformer网络的单应性细化任务，使细化模块来处理大型transformation，从而减少搜索空间的相机姿态初始化。评估结果表明，我们的方法优于以前的国家的最先进的具有挑战性的sce- narios，如篮球，并实现在相对静态的环境中，如足球的竞争力我们的方法的一个缺点是，相机姿态初始化模块中的选择步骤是不可微的，由于arg min操作。因此，来自单应性细化模块的反向传播不能流入相机姿态初始化模块。这个限制阻止了我们使用自一致性之间的扭曲的图像，从Unet，这应该是相同的。因此，如果选择步骤是可微的，我们可以以弱监督的方式训练我们的网络。弱惊讶训练还将解决对更实质性训练数据集的需求;我们将此作为我们今后工作的一个挑战。13635引用[1] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年：统一的框架。国际计算机视觉杂志，56（3）：221-255，2004。2[2] Chandrasekhar Bhagavatula ， Chenchen Zhu ， KhoaLuu，and Marios Savvides.比实时面部对齐更快：无约束姿态下的三维空间Transformer网络方法。在IEEE计算机视觉国际会议集，第3980-3989页，2017年。2[3] 本·卡法尔多“ESPN虚拟3”技术将于2016年1月在ABC的NBA周六黄金时段首次亮相。1[4] 彼得·卡尔亚瑟·谢赫和伊恩·马修斯无点校准：从基于梯度的对齐到边缘图像的相机参数。2012年IEEE计算机视觉应用研讨会（WACV），第377IEEE，2012。一、二[5] Jianhui Chen和James J Little.通过合成数据进行体育摄像机校准。在IEEE计算机视觉和模式识别研讨会会议论文集，第0-0页一、二、七、八[6] Jianhui Chen，Fangrui Zhu，and James J Little.体育运动中ptz摄像机标定的两点法。2018年IEEE计算机视觉应用冬季会议（WACV），第287-295页。IEEE，2018年。一、二[7] Olivier Faugeras和Olivier Autor Faugeras。三维计算机视觉：几何学观点麻省理工学院出版社，1993年。4[8] Bernard Ghanem，Tianzhu Zhang，Narendra Ahuja，et al.应用于野外运动视频分析的ROBUST视频配准2012.一、二[9] Ankur Gupta，James J Little和Robert J Woodham。利用直线和椭圆特征校正广播曲棍球视频。2011年加拿大计算机和机器人视觉会议，第32-39页。IEEE，2011年。一、二[10] 让-伯纳德·海耶和贾斯特斯·皮亚特。运动摄像机运动序列的在线校正。在墨西哥国际人工智能会议上，第736-746页。Springer，2007. 2[11] Jean-Bernard Hayet，Justus Piater，and Jacques Verly.体育视频序列的防错增量校正。在英国机器视觉会议（BMVCCiteseer，2004. 2[12] 罗宾·赫斯和艾伦·弗恩改进的视频配准使用非独特的局部图像特征。在2007年IEEE计算机视觉和模式识别会议上，第1-8页IEEE，2007年。2[13] 詹妮弗·霍布斯，保罗·鲍尔，龙沙，帕特里克·露西。通过时空轨迹聚类量化足球中的转换价值。麻省理工学院斯隆体育分析会议，2018年。2[14] Namdar Homayounfar Sanja Fidler和Raquel Urtasun基于深度结构化模型的运动场定位。在IEEE计算机视觉和模式识别会议上，第5212-5220页，2017年。二、六、七、八[15] Stanley K Honey ， Richard H Cavallaro ， Jerry NeilGepner，Edward Gerald Goren和David Blyth Hill。方法和用于将第一次进攻的图形指示添加到足球比赛的实况视频的设备，10月15日，31 2000.美国专利6，141，060。1[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，第2017-2025页，2015年。2[17] 肯尼斯·莱文伯格用最小二乘法求解某些非线性问题的一种方法。Quarterly of Applied Mathematics，2（2）：164-168，1944. 4[18] 李云庭，张军，胡雯雯，田锦文。单控制点云台摄像机标定方法。JOSA A，32（1）：156-163，2015年。2[19] Chen-Hsuan Lin ， Ersin Yumer ， Oliver Wang ， EliShechtman，and Simon Lucey.St-gan：用于图像合成的空间Transformer生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第9455-9464页，2018年。2[20] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志，60（2）：91-110，2004. 2[21] Kenji Okuma，James J Little，and David G Lowe.长图像序列的自动校正。在亚洲计算机视觉会议上，第9卷，2004年。2[22] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。二、三[23] 龙沙，帕特里克·露西，Yisong Yue，Xinyu Wei，Jen-nifer Hobbs，Charlie Rohlf，和Sridha Sridharan。互动体育分析：一个智能接口，利用互动的运动轨迹发挥检索和分析。 ACM Transactions on Computer-HumanInteraction（TOCHI），25（2）：13，2018。2[24] Rahul Anand Sharma ，Bharath Bhat，Vineet Gandhi，and CV Jawahar.自动顶视图注册的广播足球视频.2018年IEEE计算机视觉应用冬季会议（WACV），第305-313页。IEEE，2018年。一、二、七[25] SportsLogiq. https://www.sportlogiq.com网站。1[26] 状态执行。https://www.stats.com/体育足球.1[27] 格雷厄姆·托马斯。使用体育场地标记的实时摄像机跟踪。 Journal of Real-Time Image Processing ， 2 （ 2-3）：1172[28] 温佩芝、郑伟芝、王玉顺、朱洪国、唐俊、廖宏源。篮球视频中摄像机标定的球场重建IEEE transactions onvisualization and computer graphics ， 22（ 5 ）：1517-1526，2015。2[29] 曾锐，阮莱克蒙，西蒙登曼，斯里达斯里达兰，克林顿福克斯，斯图尔特摩根.在条件差的球场为基础的体育比赛中校准2018年IEEE声学、语音和信号处理国际会议（ICASSP），第1902-1906页IEEE，2018年。2[30] Eric Zhan，Stephan Zheng，Yisong Yue，Long Sha，and Patrick Lucey.生成多智能体轨迹使用亲-13636语法上的弱监督。 2018 年国际学习表征会议（International Conference on Learning Representations，ICLR）2[31] 张正友。一种灵活的摄像机标定新技术。 IEEETransactionsonpatternanalysisandmachineintelligence，2000年，第22期。4

下载后可阅读完整内容，剩余1页未读，立即下载