局部化的运动场景的无人照相新方法【计算机科学】【多伦多大学】

191 浏览量更新于2023-10-16 收藏 2.91MB PDF 举报

计算机科学

多伦多大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于深层结构模型的计算机科学多伦多大学{namdar，fidler，urtasun}@cs.toronto.eduRaquel Urtasun摘要在这项工作中，我们提出了一种新的方式，有效地本地化的运动场从一个单一的广播图像的游戏。该领域的相关工作依赖于手动注释几个关键帧并将定位扩展到类似图像，或者在体育场中安装固定的专用摄像机，从该摄像机可以获得场地的布局。相比之下，我们制定这个问题作为一个分支和约束推理在马尔可夫随机场的能量函数定义的语义线索，如从深层语义分割网络获得的字段表面，线条和圆圈。此外，我们的方法是全自动的，只依赖于一个单一的图像从广播视频的游戏。我们证明了我们的方法的有效性，通过将其应用到足球和曲棍球。1. 介绍体育分析用于通过深入了解其比赛风格和球员表现的不同方面来提高球队的竞争优势。例如，体育分析是德国成功举办2014年世界杯的重要组成部分。另一个重要的应用是通过在初级联赛中识别有天赋的球员，评估他们的竞争能力和在未来球队名单中的潜在适合度体育分析在梦幻联盟中也是有益的，使梦幻玩家能够访问可以增强他们的游戏的统计数据更令人印象深刻的是全球体育博彩市场，根据Statista的数据，该市场价值高达万亿美元。体育分析的圣杯是能够自动从视觉信息中提取有价值的统计数据能够识别团队队形和策略以及评估单个球员的表现取决于了解3D空间中的动作发生位置。这需要摄像机看到的运动场和运动场的度量模型之间的精确对应。玩家检测[21，27，20，16]、游戏事件识别[5，22]和团队战术分析[18，4，15]通过半手动或手动方式进行现场定位方法[13，32，2，31，30，7，19，1，12]或通过从安装在场地周围的固定和校准的摄像机系统获得比赛数据在本文中，我们解决了具有挑战性的任务，现场本地化从一个单一的广播图像。我们提出了一种方法，不需要手动初始化，是applica- ble的任何视频的游戏记录与一个单一的摄像机。我们的方法绕过了对人类注释每个新游戏的关键帧或在竞技场周围安装昂贵的摄像头的依赖。我们系统的输入是一张图像和田地的3D模型，输出是将图像映射到模型的映射。特别是，我们将字段定位问题框架为马尔可夫随机场中的推理，其潜力来自深度语义分割网络。我们参数化领域的四条射线，投从两个正交消失点。射线对应于场的外部线，因此定义了场的精确定位。我们的MRF能量使用了几种电位，这些电位利用了语义分割线索，例如场表面、线和圆标记以及图像中发现的线和圆与已知场模型定义的线和圆之间的几何一致性。我们所有的势能都可以被有效地计算出来。我们执行推理与分支定界，实现平均不到半秒的运行时间每帧。我们的MRF中的权重是使用S-SVM学习的[28]。为了评价，我们将我们的方法应用到曲棍球和曲棍球运动中足球比赛通常在露天体育场举行，暴露于不同的天气和照明条件，这可能在识别场地的重要标记时产生困难。此外，足球场上草地的纹理和图案因体育场而异。相比之下，曲棍球场大部分是白色的，与足球场相比尺寸要小得多。另一方面，冰场上通常会有不同的广告和文字。我们的深度语义分割网络学习过滤掉所有这些不同的噪音来源，52125213（一）图1：我们获得了场的语义分割，作为快速定位到具有几何先验的MRF中的证据。(a)（b）第（1）款图2：（a）根据4射线yi的场参数化。（b）第（1）款网格为MRF推理提供了强有力的证据。图7中示出了一些示例。然而，我们注意到，我们的方法是运动不可知的，并且只要运动场地具有已知的尺寸和诸如线和圆的示意性标记，就可以容易地扩展。对于足球，我们收集了2014年世界杯20场不同比赛的图像数据集。我们还测试了由Sportlogiq收集的注释曲棍球数据集我们表明，我们的方法显着优于所有基线，而我们的消融研究表明，我们的模型的所有组件的重要性。在下文中，我们从讨论相关文献开始，然后描述我们的方法。2. 相关工作工业界和学术界已经开发了各种方法来解决场定位问题。在行业中，Pixelot和Prozone等公司已经提出了一种硬件方法，通过开发安装在体育场馆中的高级校准摄像机系统来进行现场定位这需要昂贵的设备，而这只有在最高性能水平下才有可能。或者，像Stathleates这样的公司完全依赖于人类工作者为游戏的每一帧建立场和模型之间的单应性。在学术设置中，字段配准的常见方法是首先通过在大参数空间上搜索（例如，摄像机参数）或通过手动建立游戏的各种代表性关键帧的单应性，然后在整个连续帧中推广该单应性。为了避免累积误差，系统需要通过手动干预重新初始化。已经开发了许多方法，其利用几何图元（诸如线和/或圆）来估计相机参数[13，32，2，31，30]。这些方法依赖于Hough变换或RANSAC，并且需要手动指定颜色和纹理分类。限制摄像机参数搜索空间的一种方法是找到对应于场线的两个主消失点[10，9]，并且只查看与这些消失点一致并满足一定交比的线和交点。该方法的有效性仅在存在大量可见线的目标区域上得到证明然而，这种方法面临的问题的中心的领域，其中通常有较少的线，因此不能可靠地估计消失点的意见。在[6]中，作者提出了一种将比赛图像与体育场的3D模型相匹配的方法，用于初始摄像机参数估计[6]。然而，这些3D模型仅存在于众所周知的体育场馆中，限制了所提出的方法的应用。应用于曲棍球、足球和美式足球的最新方法[7，19，1，12]需要手动指定每个记录的代表性关键帧图像集的单应性。相比之下，在本文中，我们提出了一种方法，只依赖于从一个单一的相机拍摄的图像。也不需要时间信息或手动初始化。例如，我们的方法可以与[7，19]结合使用，以自动生成视频的平滑高质量场估计。3. 3D场配准本文的目标是自动计算运动场的广播图像与运动场的3D几何模型之间的变换。在本节中，我们首先展示如何通过利用消失点来参数化问题，从而减少要估计的有效自由度数然后，我们将问题公式化为马尔可夫随机场中的能量最小化，该马尔可夫随机场鼓励模型和图像之间在场语义分割线索以及基元的位置方面的一致性线和圆圈）标记字段。此外，我们证明了推理可以通过分支定界算法准确和非常有效地解决3.1. 场模型和参数化假设地面是平面的，场可以由嵌入3D空间的2D矩形表示。矩形可以由两条长的水平线段和两条短的垂直线段定义。每个领域也有一套垂直和水平线以及圆形形状定义不同的区域在游戏中。广播图像中的场与我们的3D模型之间的变换可以用全息图H参数化，全息图H是定义将2D投影之间的线映射到线的双射的3×35214(a)（b）第（1）款图3：（a）在每个图中，绿色区域对应于草，灰色区域对应于非草像素。字段Fy是高亮线内的区域。黄色区域是计算的草/非草像素的百分比。(b)红线是最大的可能字段，蓝线是最小的字段。空间[8]。矩阵H具有8个自由度，并且封装了广播图像到场模型的变换。估计该单应性矩阵的一种方法是检测图像中的点和线，并将它们与模型中的点和线相关联。给定这些对应关系，可以使用直接线性变换（DLT）算法[8]以封闭形式估计单应性虽然封闭形式的解决方案是非常有吸引力的，但问题在于图像和模型之间的线/点的关联不是先验已知的。因此，为了求解单应性，需要评估所有可能的分配。因此，DLT类算法通常用于已经知道附近的解决方案（从关键帧或前一帧）的场景中，并且在一小组可能的关联上进行搜索。在本文中，我们采取了一种非常不同的方法，它联合解决了关联和单应性的估计。为了实现这一目标，我们首先减少单应性的自由度的有效数量。在场的图像中，平行线相交于两个正交的消失点。通过估计消失点，我们减少了自由度的数量从8到4。我们将关于VP估计的讨论推迟到第二节。六、为了便于展示，我们将平行于边线的线称为水平线，平行于球门线的线称为垂直线。设x是场的图像。分别用vpV和vpH表示（正交）垂直和水平消失点我们定义了一个假设场的四个射线从消失点发出。射线y1和y2源自vpH，并且对应于边线。类似地，射线y3和y4源自vpV并且对应于球门线。如图所示2.由四条射线的相交构造一个假设场。设元组y=（y1，. . . ，y4）∈Y是场的参数化，其中我们已经离散了可能的candi的集合3.2. 能量最小化的场估计我们将场的局部化问题参数化为马尔可夫随机场的推理问题。特别地，给定场的图像x，我们通过解决以下推理任务来获得最佳预测y*y=argmaxwTφ（x，y）（1）y∈Y其中φ（x，y）是编码各种潜在函数的特征向量，w是我们使用结构化SVM学习的相应权重集[28]。特别地，我们的能量定义了对场应该包含大部分场表面像素的先验进行编码的不同势，并且高得分配置偏好场基元的投影（即，线、圆）与图像中检测到的基元（即，检测到的线段、圆锥边缘）。在下文中，我们将更详细地讨论这些潜力场表面势利用了运动场具有独特外观的事实。例如，足球场是由草制成的，曲棍球场是白色的冰。给定一个假设场y，设Fy表示限制于图像x的场。我们想最大化Fy中的场表面像素数。因此，我们定义了一个势函数，表示为φsurface−in（x，y），它计算落在假设域Fy.然而，请注意，对于Fy<$Fy′的任何假设y′，Fy′至少具有与Fy一样多的表面像素。这引入了对对应于放大相机的假设的偏向。因此，我们定义了三个额外的潜力，使数量最小化场Fy外部的表面像素的数量和Fy内部的非表面像素的数量，同时最大化Fy外部的非表面像素的数量。我们将这些势表示为φsurface−out（x，y），φnon−surface−out（x，y）和φnon−surface−in（x，y）respect iv el y. 我们请读者参考图3为示意图。线路电位：可观察到的线定义了球场的不同比赛区域，为边线的位置提供了强有力的线索。这是因为它们的位置和长度必须始终符合某些已知的规范。我们为每个线段定义了一个评分函数φn（x，y），以便在图像证据与通过使用假设y重新投影模型获得的预测线位置一致时产生高值。精确的重投影可以很容易地通过使用交比的不变性得到[8]，如图所示。4、A、足球。给定线段在网格Y上的确切位置，分数φ（x，y）计算与其对应的消失对齐枣射线。每条射线yi落在一个区间[yinit，yinit ]的一种点，Fig. 第4（b）段。Q.Σi，mini，max和Y=4i=1初始化i，min初始化i，最大是的乘积空间圆电位：运动场通常有标记这四个整数区间。因此，Y对应于网格。对应于圆形。当几何[y，y]5215i=1negPOSnegPOS4. 基于分支定界的精确推理注意，我们的配置空间Y，即假设字段的数量的顺序为O（N2N2），这是一个非常大的数字。我们发现H V(a)（b）第（1）款图 4 ：（ a ）对于模型中的线 λ （红色），交比CR=BD/BC 必须等于由 C′R′= （ A′C′·B′D′ ） /（BC′·）给出的栅格上λA′D′）。计算了投影的端点的投影也是。 (b)对于垂直线φ，电势φφ（x，y）计算黄色区域中垂直边与射线相距一条射线的vpV线像素的百分比，其中射线落在垂直边上。图5：对于模型中的每个圆C，可以使用交比获得内部（红色）和外部（蓝色）四边形的投影。势φC（x，y）是黄色区域中的非vp线像素的年龄百分比。如何解决Eq中的推理任务（1）高效、快捷。为了实现这个目标，我们设计了一个分支定界[14]（BBound）优化所有参数化字段的空间Y我们利用积分图像到3D的推广[24]来非常有效地计算我们的边界。接下来，我们将解释BBound如何工作。假设Y是参数化域的任意子集。BBound算法的优先级队列用包含所有字段假设的单个集合初始化Y=Y，以及一个有效的上界f′（Y）。该算法然后通过获取优先级队列的顶部元素并将该元素的集合分成两个不相交的集合来迭代地进行然后将这两个集合插入优先级队列。当在优先级队列的顶部存在单个假设时，算法终止。如果这是真的，那么-函数f（Y）= f（Y），当|Y |= 1时。我们的BBound算法需要三个关键要素：1. 一种分支机制，可以将任何集合分成两个不相交的参数化字段子集。2. 一个集合函数f <$，使得f<$（Y）≥maxy∈Ywtφ（x，y）。3. 一个优先级队列，根据f′对参数化字段Y的集合进行排序。接下来，我们将详细描述前两个组件4.1. 分支(a)（b）第（1）款假设Y=Q4[yi，min，yi，max[] A是一组图6：（a）求一条直线对应于最小和最大操作。（b）φCi（x，y）的上/下界是黄色区域中非vp线像素的百分比，该黄色区域由最大/最小外四边形和最小/最大内四边形限制。场的模型经历单应性，这些圆形形状在图像中变换为二次曲线。与线势类似，我们试图构造势函数，该势函数计算给定假设场y的每个圆形的支持像素的百分比。与投影的线段不同，投影的圆不是假设场在分支定界的每次迭代算法我们需要将Y分成两个不相交的假设域子集Y1和Y2这是通过将最大间隔[yi，min，yi，max]分成两半并保持其他间隔相同来实现的。4.2. 边界我们需要构造一个集函数f <$，使得对所有y∈Y都有上界wTφ（x，y），其中Y∈ Y是参数化域的任何子集。由于φ（x，y）的所有势函数分量都是正比例，我们将φ（x，y）分解为具有严格正权重的势和具有零或负权重的势：与网格Y对齐。如图5所示，足球，我们注意到，有两个独特的内部和外部wTφ（x，y）=wTφneg（x，y）+wTφpos（x，y）（2）用于模型中每个圆形的矩形，其在图像x中变换为与消失点对齐的四边形。它们在网格中的位置可以类似于使用交比的线来计算。我们定义一个势其中wneg，wpos是负权重和正权重的向量我们定义上界的Eq。（2）是正特征的上界和负特征的每个二次曲线的φC（x，y）表示为两个四边形定义的区域内圆形像素的百分比。f<$（Y）=wTneg（x，Y）+wTφ<$pos（x，Y）（3）5216ℓC很容易看出这是一个有效的界限。在下面的内容中，我们为我们能量的所有势函数构造了一个下界和一个上界。场表面电位的界限：设y∈：=（y1，max，y2，min，y3，max，y4，min）是Y中最小的可能域，y∈：=（y1，min，y2，max，y3，min，y4，max）是最大的可能域。现在我们展示如何构造φsurface−in （x，y）的边界，并注意可以用类似的方式构造其他表面势边界。回想一下，φsurface−in（x，y）计算的是场内表面像素的百分比。由于任何可能的域y∈Y都包含在最小和最大可能域y∈ Y和y∈ Y中（图10）。3b），我们可以将上限定义为每-在最大可能的区域内的表面像素的百分比，和圆形像素。与[29]相反，并且本着与[24]相同的精神，我们的四元数与两个正交消失点对齐，并计算x的区域中对应于由每个消失点的两条射线限制的四元数的特征的分数。因此，在Y中的任何区域上的势函数的计算由于我们根据相应的势函数定义了所有的上下界，因此我们使用相同的计算器在常数时间内计算边界。4.4. 学习我们使用结构化支持向量机（SSVM）来学习对数线性模型的参数w给予下边界作为内部表面像素的百分比.（n）（n）N由训练对x，yi=1，我们ob-最小的可能领域。[2018 - 02 - 18][2018 - 02 -18][2018 - 02 - 18][2018 - 02- 18][2018 - 02]阿波斯表面-输入内格表面-输入（x，Y）=φsurface−in（x，y）（x，Y）=φsurface−in（x，y）（4）我们有一个正则化参数C> 0和一个损失函数f：Y×Y→R+f{0}，它测量了地面真实值标记y（n）和预测y之间的距离，其中f（y（n），y）=0当且仅当y=y（n）。特别是我们请读者参看图1。3（b）为例。线电位的界限：我们通过独立地为每条线找到一个下界和一个上界来计算我们的边界。由于该方法对于所有的线都是相同的，我们将仅针对足球情况下的左垂直罚球线（图4a）来说明。对于域Y的假设集，我们通过计算φs（x，y）在水平方向上的最大值（即，沿vp V的射线），但仅用于垂直方向上的最大延伸投影（即，沿着来自vpH的射线）。这一点在（图）中得到了证明。（见第6a段）。找到一个下界，而不是找到最小的φ（x，y）的最小扩展投影的。注意，对于一组假设域Y，该任务要求在Bbound的每次迭代时对水平线（对于垂直线）然而，随着分支定界的继续，搜索空间变得更小，找到最大值变得更快。圆势的边界：再参考3.2节中给出的圆势φC（x，y）的定义和一组假设场Y，我们的目的是构造每个圆势的上下界。对于上限，我们简单地让φpos（x，Y）是包含在最小内部和最大外部四边形之间的区域中的圆形像素的百分比，如图6b所示。以类似的方式获得下限。4.3. 有效势和有效界的积分累加器我们构造对应于场表面像素、水平线像素、垂直线像素的2D位图最后，我们采用[23]的平行切割平面实现损失函数的定义非常类似于 φsurface−in （ x ，y）。在这里，我们通过将地面实况场重新投影到图像中来将网格Y分割为场与非场单元。然后给定假设场y，我们将训练实例（x（n），y（n））的损失定义为类似于场表面势，其中代替场表面像素，我们考虑真实场与在网格Y中的单元中的非真实场。因此，这种损失可以使用积分累积器来计算，并且可以使用我们的BBound有效且准确地执行损失增强推断5. 语义分割我们的方法依赖于检测的领域，如领域的表面，线和圆的存在噪声的重要特征。例如，在足球比赛中，我们必须处理不同体育场以及不同照明条件下草地的不同纹理和图案。此外，当检测线和圆像素时，必须处理由于运动员及其阴影引起的虚假边缘。此外，许多足球比赛是在白天进行的，阴影会改变部分草地的颜色，并产生随机边缘。大多数现有的方法使用基于颜色和色调信息的分类来获得这些特征，这反过来可能会阻碍对看不见的情况的推广。在这项工作中，我们选择了一个更简单的解决方案，通过训练一个语义分割网络来可靠地检测这些重要特征。我们通过使用它们的地面真值单应性为我们的图像创建GT分割标签。为φφ5217ℓ在足球中，我们有垂直线，水平线，边圈，中圈，草地和人群六种类型对于曲棍球，我们指定了九类垂直线，上水平边线，人群和溜冰场之间的下边界，中间圈，面对点和圈，溜冰场，人群和四分之一圈。一些分割结果如图7所示。对于我们的网络，我们采用经过训练的16层VGG网络[25]并保留前7个卷积层。我们在这些层中重新移动池化操作，但使用扩张卷积[33]来保持输出层的尺寸与输入图像相同我们添加5个额外的卷积层，前三层是3x3扩张卷积。最后两层有3x3和1x1过滤器，没有任何膨胀。每个添加的层将具有L个输出通道，其中L是像素类别的数量。我们在每一层之后使用批量归一化，并在整个网络中应用Relu非线性。最后的输出层，与输入层的维度相同，将为每个像素的类别给出一个我们最小化每个像素的交叉熵损失，以学习权重。我们跳过了下采样以保持场的全局结构，并使用了扩张卷积以获得更大的感受野。在这项任务中学习的一个困难是线和圆轮廓相对于场地表面和人群的类不平衡。例如，每个地面实况线段将具有1个像素的宽度。我们通过两种方式解决了这个问题：首先，我们人为地将每个地面实况线段放大到10个像素的宽度。因此，我们的地面真值将是线段周围的区域，与单独的线段相对第二，我们修改了表1：G对应于每种草潜力的4个权重李：所有的线路重量相同。C：所有的圆都有相同的重量。共享意味着直线L和圆C具有共享的权重。不共享意味着垂直线与水平线具有不同的权重，并且每个圆圈都有自己的权重方法足球曲棍球一号曲棍球全部场NN0.680.700.80语义段神经网络0.730.730.81我们0.830.810.82表2：与基线的比较。Hockey One对应于只有一个游戏的实验，Hockey All对应于所有游戏的实验。体育平均时间（s）平均迭代次数国家数目足球0.4433283002× 6002曲棍球全部0.04565402× 402表3：分支定界的推理时间和迭代次数标记存在，例如我们只看到草，我们不能找到没有来自先前帧的时间上下文的消失点这是一个公平的假设，因为这即使对人类来说也是一项艰巨的任务。每个像素的交叉熵损失为L=L=1 qlogqs。尤其是足球，场地很大，有些-倍的相机面临的中心领域，那里有其中，q和q是像素的地面真值和分数而罚款则是对稀有美食的定额罚款。我们最终以0.01的初始学习率和RMSProp优化器[26]训练网络，直到验证集上的该网络是在DGX1的单个GPU上训练的，足球和曲棍球都花了几乎一天的时间。6. 消失点估计在曼哈顿的世界里，比如足球场或曲棍球场，有三个主要的正交消失点。我们的目标是找到两个正交的消失点vpV和vpH对应的垂直和水平线上的领域。由于我们知道哪些像素属于语义分割网络中的垂直线和水平线，因此我们将线段拟合到这些像素，并部署[11]的线投票程序来找到消失点。当每个消失点都有足够的线索时，这个过程是鲁棒的也就是说，如果相机在没有线的场地上放大，没有足够的线段来找到垂直消失点。在这种情况下，我们采取不属于消失点的线段，并拟合椭圆[3]，该椭圆近似于场中心的二次曲线。然后，我们取椭圆轴的4个端点对于曲棍球，我们利用我们的大型数据集以及曲棍球场地与足球场非常相似的事实，我们指导每个图像中的vp估计和网格创建如下：首先，我们基于距离变换[ 17 ]检索图像在训练集中的最近然后，我们只在最近邻图像的消失点周围的一个小区域内寻找消失点的投票。我们还限制网格，Y中的间隔是最近邻图像的地面实况边线周围的40条射线。这将对应于我们搜索空间的40个GLCIOU平均值±SdVal平均测试IOU共享CC0.83±0.0170.79CC0.88±0.0160.84CCC0.88±0.0160.83不共享CCC0.88±0.010.835218图7：获得的单应性和语义分割的示例。7. 实验我们将我们的方法应用于足球和曲棍球。在足球方面，我们录制了2014年巴西世界杯的20场比赛。在这些游戏中，我们用地面实况字段和草分割注释了395张图像。我们将游戏随机分为两组，其中10场游戏的209张图像用于训练和验证，另外10场游戏的186张图像我们通过围绕其中心水平翻转每个图像来人工增强训练集。因此，我们使用了418张图像进行训练。这些图像由具有不同草纹理和照明模式的场地的不同视图组成。这些比赛在白天和晚上在9个独特的体育场举行。有一些游戏与雨和沉重的阴影。我们提醒读者，这些图像没有时间顺序。在下文中，我们评估了我们方法的不同组成部分。我们将向公众发布此数据集。对于曲棍球，我们从加拿大体育分析公司SportLogiq获得了八场完全注释的比赛。这8场比赛在7个不同的竞技场上进行我们做了两个不同的实验。首先，我们随机划分游戏来训练和测试游戏，并随机选择2000图像为每组500图像从每个游戏。对于第二个曲棍球实验，我们选择测试集中的一个游戏，并随机将其分为两组，分别为50和450。我们应用我们的大型数据集的学习分割网络来获得这些图像的语义标签。然后，我们使用这50个示例从头开始学习MRF的权重，游戏及其竞技场与训练集中的不同，因此分段网络的应用是合理的。这个实验很好地说明了我们如何将我们的大模型重新训练到一个更小的数据集上，以适应新的领域。足球消融研究：在表1中，我们基于在我们的能量函数中采用不同的势来呈现足球测试图像的平均IOU分数。对于每一组特征，我们执行m。6倍交叉验证，以选择最佳值C ∈ 2−4，2−3，. . . ，2，3，最大化不同折数的平均借条。我们提出三点意见。首先，包含场表面势没有多大帮助这可能是5219这是因为它不包含用于定位场的任何几何线索。第二，包含圆势使IOU增加0.05。第三，我们注意到，在所有线之间以及在所有三个圆之间共享权重具有与不共享权重一样好的性能这表明一个更简单的模型可以完成这项工作。曲棍球型号：对于曲棍球，我们训练了一个模型，该模型具有与场地表面相对应的四个权重以及用于中间圆圈、对抗圆圈、对抗点、角落四分之一圆圈、垂直线和上边线的唯一权重。因此，我们有10个可学习的权重。我们在曲棍球实验中选择C= 1。我们在大型数据集上实现了0.82的平均IOU，在较小的数据集上实现了0.81。我们的方法与两个基线的比较：目前在文献中没有全自动视野定位的基线。所有其他方法都是半自动的，并且依赖于诸如关键帧注释和相机校准之类的方法我们希望通过发布数据集可以建立更多的基线。在这项工作中，我们根据我们的分割方法得到两个基线作为第一基线，对于每个测试图像，我们基于场表面分割IOU从训练集中检索其最近邻（NN）图像，并将训练图像的单应性应用于测试图像。图8：失败案例应获得100%的平均IOU。然而，我们有点短，平均欠条为0.99。消失点估计的效果：对于大型曲棍球数据集，我们进行了一个实验，其中不是估计消失点，而是为每个图像获取地面真实消失点，并像往常一样计算网格和所有其他特征。我们获得的平均IOU为0.9，而我们的平均IOU为0.82，基线为0.81，0.8.这表明我们可以通过得到更好的消失点来改进我们的方法。对于第二个基线，我们基于从语义分割网络获得的线和圆特征的距离变换[17]结果示于表2中。语义分割：我们分别在足球和曲棍球数据集的所有类中实现了0.65和0.6的平均IOU。速度和迭代次数。我们的方法很快。在表3中，我们提出了平均速度和迭代次数为每一个运动时钟的一个核心的英特尔至强5160 3GHz的。我们还根据网格大小突出显示状态的总数。注意，通过使用分支定界，我们找到精确解的迭代次数比遍历所有状态少网格离散化：我们的方法依赖于从每个消失点发出的射线创建一个非正交网格。我们的网格必须足够密集，以便图像中的重要线条落在网格上。为了评估我们的离散网格，我们在大型曲棍球数据集中获取测试图像的地面真实消失点，并为每个图像构建网格。然后，我们将4.4节的损失扩大损失的负值视为势，并执行分支定界推理。理想情况下，由于我们假设了完美的消失点，如果我们的网格是完美的，定性结果：在图7中，我们将模型投影到几个测试图像上，使用我们对足球的最佳特征（G+L+C）和我们对曲棍球的全部潜能集获得的单应性。我们还将图像投影到场的模型上。我们观察到图像和模型之间的高度一致。失效模式：图8显示了一些故障模式。故障模式的一个主要原因是圆形像素可能被错误分类。另一个是由于对消失点的敏感性。然而，我们相信，使用时间- poral信息可以帮助克服这些问题。8. 结论和未来工作本文提出了一种新的快速自动运动场定位框架我们将这个问题框定为一个深层语义分割任务，该任务被输入到一个分支定界方法中，以便在马尔可夫随机场中进行快速准确的推理我们对2014年世界杯20场足球比赛和8场NHL曲棍球比赛的广播图像收集进行了评估我们在能量函数中没有考虑时间信息。对于未来的工作，我们打算构建时间势函数，并评估我们的方法对视频序列。最后，我们的目标是将我们的方法扩展到其他团队运动，如篮球，橄榄球和美式足球。5220引用[1] E. Dubrofsky和R.J. 伍德汉姆结合线和点对应性进行单应性估计。在视觉计算的进展。2008. 一、二[2] D. Farin，S.克拉布，W.埃弗尔斯伯格和其他人。强大的摄像机时代的体育视频校准使用法院模型.在电子成像2004，2003。一、二[3] A. Fitzgibbon，M. Pilu，R. B.费雪。椭圆的直接最小二乘拟合。PAMI，1999年。6[4] A. Franks，A.米勒湖，澳-地Bornn，K.Goldsberry等人职业篮球防守技术空间结构的特征应用统计年鉴，2015年。1[5] X. Gao，Z. Niu，D. Tao和X.李足球视频的非球门场景分析。神经计算，2011年。1[6] S. Gedikli，J. Bandouch，N. V. Hoyningen-Huene，B.Kirch-lechner和M.比兹一个自适应视觉系统跟踪足球运动员从可变的摄像机设置。ICVS，2007年。2[7] A. Gupta，J. J. Little和R. J·伍德汉姆利用直线与椭圆特征进行曲棍球视频校正载于CRV，2011年。一、二[8] R. I. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，ISBN：0521540518，第二版，2004。3[9] J. - B. Hayet和J.彼得运动摄像机运动序列的在线校正。在MICAI。2007. 2[10] J. - B. Hayet，J.Piater和J.维利体育视频序列的鲁棒增量校正BMVC，2004年。2[11] 诉Hedau，D.Hoiem和D.福赛斯恢复杂乱房间的空间ICCV，2009年。6[12] R. Hess和A.弗恩改进的视频配准使用非独特的局部图像特征.CVPR，2007。一、二[13] H. K. H. Kim和K. S. H. K. S.洪基于自校正和直线跟踪的足球视频镶嵌。载于2000年国际人口政策审查委员会。一、二[14] C. H. Lampert，M. B. Blaschko和T.霍夫曼高效的子窗口搜索：一个用于对象本地化的分支和边界框架。PAMI，2009年。4[15] Y. Liu，L.梁，英-地Huang和W.高.从广播足球视频中提取三维信息。图像和视觉计算，2006年。1[16] W.- L. 卢，J. -A. Ting，J.J. Little和K.P. 墨菲学习从广播体育视频中跟踪和识别球员PAMI，2013年。1[17] A. Meijster，J. B. Roerdink和W. H.海瑟林克在线性时间内计算距离变换的一般算法。数学形态学及其在图像和信号处理中的应用。2002. 六、八[18] Z. Niu，X. Gao和Q.田足球视频中基于真实球轨迹的战术分析。Pattern Recognition，2012. 1[19] K. Okuma，J. J. Little和D. G.洛长图像序列的自动校正奥地利中心，2004年。一、二[20] K. Okuma，D. G. Lowe和J.小J 体育视频中球员定位的自学习。arXiv预印本arXiv：1307.7198，2013年。1[21] K. Okuma，A.Taleghani，N.De Freitas，J.J. Little和D.G.洛增强型粒子过滤器：多目标检测与跟踪。在ECCV。2004. 1[22] V. Ramanathan，J. Huang，S. Abu-El-Haija，A. 戈尔班，K. Murphy和L.飞飞检测多人视频中的事件和关键演员。arXiv预印本arXiv：1511.02917，2015。1[23] A. Schwing，S.菲德勒M. Pollefeys和R.乌塔松盒子里的盒子：联合三维布局和对象推理从单一的图像。InICCV，2013. 5[24] A. G. Schwing，T. Hazan，M. Pollefeys和R.乌塔松室内三维场景理解的有效结构预测。在CVPR，第2815-2822页，2012年。四、五[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。6[26] T. Tieleman和H.G. Lecture 6.5-rmsprop，coursera：Neu-ral networks for machine learning.技术报告，2012年。6[27] X. Tong，J.Liu，T.Wang和Y.张某足球视频广播中的自动球员标记、跟踪、场地注册和轨迹映射TIST，2011年。1[28] I. Tsochantarkan，T. Joachims，T. Hofmann和Y.阿尔通结构化和相互依赖的产出变量的大边际方法机器学习研究杂志，第1453-1484页，2005年。一、三、五[29] P. Viola和M.琼斯使用简单特征的增强级联快速目标检测载于CVPR，2001年。5[30] F.王湖，加-地孙湾Yang和S.杨足球视频挖掘中用于场地注册的快速圆弧检测算法。见SMC，2006年。一、二[31] T.渡边，M. Haseyama和H.北岛一种基于电视图像线框模型的足球场跟踪方法。载于ICIP，2004年。一、二[32] A. Yamada，Y. Shirai和J.三浦在视频图像序列中跟踪球员和球，并估计用于足球比赛的3D解释的相机参数。载于ICPR，2002年。一、二[33] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。ICLR，2016年。6

下载后可阅读完整内容，剩余1页未读，立即下载