没有合适的资源?快使用搜索试试~ 我知道了~
AxIoU:一种公理化的视频矩检索度量
21076AxIoU:一种公理化的视频矩检索度量Riku TogashiCyberagent,Inc.,早稻田大学Mayu OtaniCyberagent,Inc.大坂大学坦佩雷大学奥卢大学早稻田大学摘要评价方法对研究方向有着至关重要的影响因此,对于常规方法不太适用的新应用,开发适当和可靠的视频矩检索(VMR)就是这样一种应用,目前的做法是用R@K,θ来评价VMR系统。然而,这一措施有两个缺点。首先,它是等级不敏感的:它忽略了排名的位置-系统A时间系统B时间通过将列表视为一个集合,在排名前K的列表中成功局部化的时刻的集合其次,它使用阈值θ对每个检索到的视频时刻的交并(IoU)进行二值化,从而忽略排名时刻的细粒度我们提出了一种替代措施,用于评估VMR,称为平均最大IoU(AxIoU),这是免费的上述两个问题。我们证明AxIoU满足VMR计算的两个重要公理,即对冗余矩的不变性和对最佳矩的单调性,并且R@K,θ只满足第一个公理.我们还实证研究了Ax-IoU如何与R@K,θ一致,以及它在测试数据和人类注释的时间边界变化方面的稳定性1. 介绍视频矩检索(VMR)已被探索,以找到相关的视频片段(即。视频时刻)基于用户大多数现有的VMR系统[10,22,38,39,42]将发现视频时刻的问题为了评估视频时刻的排名列表,R@K,θ在文献中被广泛采用[10]。如果排名列表的前K中的至少一个相关视频时刻具有大于θ的与q的地面真值的交集(IoU),则查询q的R@K,θ被定义为1。如图1所示,R@K,θ有两个缺点。R@5,0.5 = 1 R@5,0.5 = 1AxloU@5 = 0.96 AxloU@5 = 0.39图1.左边的系统显示了与排名列表顶部的地面真实值(蓝色带)有很大重叠的时刻,右边的系统显示了与排名4的地面真实值有很小重叠的时刻。根据R@5,0. 5、两种制度同样有效。我们提出Ax-IoU,其测量结果反映了本地化质量(即,IoU)和成功检索的视频时刻的排名。图中的照片取自Charades-STA [10]。首先,它是排名不敏感的,因为排名前K的列表中的视频时刻第二,它是定位不敏感的,即,视频时刻的确切位置(开始和结束点)不影响测量,因为它使用阈值θ将每个视频时刻的IoU二进制化。因此,R@K,θ仅以全有或全无的方式为排名列表提供二进制测量,忽略前K个预测视频时刻的排名和定位正如我们将在本文中证明的那样,R@K,θ的这些性质对于可靠的估计是有问题的。R@K,θ由于二进制特性而无法区分不同质量的排序列表,同时导致在少量评估样本下的不稳定性和标签模糊性[2,15,26,35]。此外,R@ K,θ对系统品质的评价因参数设置不同而有很大差异,可能相互冲突;例如第二时刻达到IoU = 0的排序列表。71被测量为1。0方面地面真值矩loU=0.96,用于排名靠前的时刻top-12345loU=0.66(第四阶矩)一个人站起来21077R@2,0。7,但要0。在R@1,0。当第一时刻具有IoU= 0时,7。69岁。R@K,θ的这些不良性质在未来的研究中应仔细考虑,因为从潜在的不稳定测量中得出的结论可能不能很好地推广。在实践中,R@K,θ的不稳定性意味着我们可能会通过采用基于验证R@K,θ的非最佳模型来低估VMR方法。在本文中,我们提出了一个替代措施,用于评估VMR系统,称为平均最大IoU(Ax-IoU),它不受上述问题与R@K,θ。为了评估评估措施,我们采取了一种ax-iomatic方法[3,9,33,34],并引入了VMR有效性措施必须满足的两个重要公理,即对冗余矩的不变性和关于最佳矩的单调性。我们证明了R@K,θ只满足第一个公理。我们还实证研究了AxIoU在实际应用中的性质,即与传统R@K,θ的一致性以及对数据集大小和标签歧义的稳定性。2. 相关工作以往对VMR的研究多采用R@K,θ[2019 -04-19 00:01:00][2019 - 04 - 19 00:00:00][2019 -04- 19 00:00Gao等人[10]建议使用这种措施VMR的参考环的工作胡等人。[16],这是对文本查询的对象检索任务的早期研究。为每个数据集选择K和θ的值。例如,K=1,5,10和θ=0的组合。3,0。5,0。7在Charades-STA [10],ActivityNet [5,19]和DiDeMo [15]中被广泛采用。在TACoS数据集[28]中,θ的相对宽松值(即,θ=0。1,0。3,0。(5)使用。对于每个查询只输出一个矩的方法[12,14,40],通常采用R@K,θ,其中K=1Lei等人最近提出了一种新的检索任务,称为视频主体时刻检索[20],其中系统需要从多个视频中检索相关时刻。由于大量的候选矩,它们利用大的K值,例如K=100。然而,报告R@K,θ的多个设置的常见做法是有争议的。正如我们将在本文中演示的那样,不同的参数设置通常会导致不同的系统排名,因此可能很难从评估中得出有用的结论先前的研究表明,评分者之间的一致性人类注释的时间边界往往不强[2,15,26,35]。 Hendricks等人发现有多个视频时刻,可以通过文本查询来描述[15];为了减轻这种标签模糊性,他们对用户界面进行了去重化。 Sigurdsson等人和Alwasselet al.也报告说,人类注释的时间区域彼此不一致[2,35]。Otani等人在Charades-STA和Activ- ityNet中观察到高标签模糊性[26]。然而,IoU值在R@K中,θ给标号的变化带来了潜在的不稳定性。特别地,大的θ值需要精确定位的时间区域,从而是有噪声的,继承标签模糊性。在对象检测的背景下,评估措施通常依赖于空间IoU的阈值参数,先前的研究已经讨论了固定阈值的缺点[13,25,27]。在MSCOCO [21]数据集上,采用超过IoU阈值的平均值来评估细粒度的定位质量;该度量称为COCO平均精度(mAP)。Oksuz等人提出了一种对象检测措施,通过引入IoU值直接量化边界框紧密性,而无需在其措施中设置阈值[25]。Hall等已经探索了一种方法来改善检测区域的空间质量评估,超越传统的基于盒子的IoU,同时减少评估措施中的参数[13]。 在 视 频 的 时 间 定 位 任 务 中 ( 例 如 , 动 作 检测),Alwassel等。使用COCO mAP样测量进行评估[2]。相对于等级不敏感的集合检索措施(例如,精确度和召回率),已经探索了排名检索措施,用于评估排名 项 目 列 表 的 质 量 , 例 如 归 一 化 折 扣 累 积 增 益(nDCG)[17]。这些度量通常具有检索结果中的排名位置的权重;例如,nDCG中的折扣函数可以被视为每个位置的重要性基于从用户模型的角度对位置权重的解释,先前的研究已经开发了各种评估措施[6,23,29,31]。评价措施的评价往往是令人困惑的,因为它需要先验的真实评价结果。基于评估措施验证实验的一种方法是收集搜索引擎结果页面(SERP)的人工评估[32]。对于VMR等新应用,建立可靠的设备来收集与“真实”质量一致的黄金数据通常成本很高公理化方法是评价测度验证的另一个方向[3,9,33,34]。通过形式化地定义度量应该满足的要求,我们可以分析地确认度量的有效性。这些要求不可避免地取决于一些假设。然而,这也适用于基于评估的方法,因为评估人员指南隐含了对用户行为的假设在本文中,我们提出了另一种VMR度量AxIoU,它是归一化累积效用(NCU)的实例化[30,31],NCU是包括AP在内的广泛一类信息检索度量。我们提出的方法考虑了视频时刻的秩位置和IoU值。为了确定测度的性质,我们采用21078Σ∈M›→{}Σ.(1/|Q|)≤≤q∈Qµ(q,σ)是基于Σ≤ ≤公理化的方法AxIoU的推导与COCO mAP有关,而AxIoU分析性地减少了IoU值的二进制化过程。通过经验实验,我们证实了AxIoU的数值性质,同时显示了R@K,θ的不良行为。3. 预赛3.1. 符号我们的目标是开发一个度量μ(q,σ),它基于最早的查询q来估计系统σ的检索有效性。We也表示为μ(Q,σ) 为每一个找回的瞬间选择一个合适的θ值实际上是有问题的,特别是考虑到K也需要同时选择。4. 拟议措施4.1. 平均最大IoU度量为了设计VMR的度量,我们采用了广泛的检索有效性度量框架,即归一化累积效用(NCU)[30,31]。NCU假设有一群用户从顶部开始扫描排名列表,然后放弃排名列表。保持秩位置k。这里,用于查询q的NCU和系统在测试查询集Q上。对于查询q∈ Q,系统σ对候选矩的集合Mq进行排序,并创建排名列表σq。用σq(k)∈Mq表示σq中k位的矩。设rq(m)∈[0,1]为关联度σ可以表示如下:|Mq|NCU(q,σ)= PA(k)U(σq,k),(2)k=1瞬间的得分q,计算为时间m和q的地面真值区域之间的IoU(Intersection overUnion)。在没有歧义的地方,我们也用r(m)表示。3.2. R@K,θ首先,我们正式定义了传统的度量R@K,θ[10],并阐明了它量化的内容及其局限性。 这里,我们用1:B0,1表示布尔变量X的指示器函数,如果X为真,则取1,如果X为假,则取0。我们将R@K,θ和平均R@K,θ表示如下。其中PA(k)是秩位置k处的放弃概率(即,在k处停止的用户的人口),并且U(σq,k)是排名列表σq在k处的效用。由于我们不想在VMR中奖励冗余,因此我们遵循R@K,θ(等式2)的1)实例化我们的效用函数:U(σ q,k)= max r(σ q(j))。(三)1≤j≤k基 于 此 , 我 们 可 以 获 得 归 一 化 的 累 积 最 大 IoU(NCxIoU)测量如下:|Mq|NCxIoU(q,σ):=PA(k)max r(σ q(j))。(四). ΣKΣk=1k=11≤j≤k=1最大值1≤k≤Kr(σ q(k))> θn。(一)假设用户均匀分布在K时刻:也就是说,1/K的用户群体放弃R@K,θ的值完全取决于前K个检索结果中最相关的时刻是否超过θ阈值。 由此可以清楚地看出,R@ K,θ并不奖励冗余:除了SERP中最相关的时刻之外,检索到的时刻不计数,即使它们也超过θ。我们将把这种相关矩称为多余矩。R@K,θ的上述性质是期望的特征,因为真实的VMR系统用户可能不关心他们的SERP中的冗余矩但是,从Eq中可以清楚地看到1,R@K,θ有两个潜在的缺点。首先,R@ K,θ不受相关矩的秩位置的影响:它是集合检索度量而不是分级检索度量。对于K>1,它不能区分-在rankk(1k K)处的列表。请注意,平均精确度(AP)是一种广泛用于人工相关性评估的信息检索评估的NCU指标,假设用户均匀分布在所有相关文档上[29]。在VMR的情况下,我们只考虑前K项(在R@K,θ之后),并假设每个检索到的时刻至少在某种程度上是相关的,其中相关程度由每个时刻的IoU表示。我们提出的VMR度量也是NCU的实例化,我们称之为平均最大IoU(AxIoU):1KAxIoU@ K(q,σ):= max r(σ q(j))。(五)K1jkk=1在一个系统中,在秩1处,以及在秩K处检索相同时刻的系统。其次,R@K,θ(q,σ):=11{r(σq(k))>θ}>0在VMR中,我们没有关于PA(k)的任何先验知识。因此,给定包含K矩的SERP,我们作为-21079它使用θ阈值将每个时刻的IoU二值化,从而忽略相关度由于PA(k)的一致假设可能不成立,对于较大的K,我们可以使用更现实的PA(k)分布,例如期望的倒数秩(另一个NCU度量)[6],尽管我们将其留到将来的工作中。21080多余力矩∼ΣΣΣΣ∼≤≤ΣK|Q|1≤j≤kQ|Q|K1≤j≤kQ1≤j≤k1≤j≤kQ1Σ1Σ4.2. AxIoU测量在本节中,我们描述我们提出的测度与R@K,θ之间的关系。我们首先考虑R@K,θ在K和θ方面的边缘化。实际上,因为我们不知道每个数据集、每个查询或每个集合的θ分布top-1KKTop K我们假设θUni(0,1),得到如下方程:图2. INV-k要求一个度量应该是不变的,以重新冗余矩具有更小的IoU和更低的排名位置比最好的时刻在前k(1 ≤ k ≤ K)排名列表。Ek Eθ=E E1R@k,θ(q,σ)|q ∈Q|q∈Q201年1月1日。maxr(σ(j))>θq∈Q(3)评价系统的top-K检索效果应考虑相关矩我们表明,我们的平均AxIoU满足所有而平均R@K,θ仅满足要求(1)。研究VMR措施的基础上,这些重新-=1欧元Eq∈QΣ1max r(σ(j))>θ我们定义了两个公理的有效性措施,当然是VMR。=1E|Q|q∈Qmaxr(σ q(j))。(六)1≤j≤k对冗余矩的不变性对于排序列表中的冗余矩,度量应该不变。在等式(6)中,通过假设θUni(0,1),我们可以得到以下结果:Eθ=1。最大r(σ q(j))> θ_r=最大r(σ q(j))。(七)因为我们假设k在1kK上的均匀分布,并且PA(k)=1/K,所以我们得到:K(RHS的Eq。 (6))=maxr(σ(j))|Q|q∈QKk=1 1≤j≤k1=AxIoU@ K(q,σ)。(八)|Q|q∈Q也就是说,平均值AxIoU@K可以被认为是平均值R@K,θ的边缘化,对θ没有任何约束,对K有一个弱假设。K和θ的平均值R@K,θ(每个K和θ具有固定值)评估系统行为的某些方面我们认为,AxIoU是一个合理的方法,以避免- ing对θ阈值的依赖,同时考虑最佳时刻的排名位置,在一个前K排名的列表。5. 有效性措施为了评估评估措施,我们采取了一种公正的方法。我们首先根据3.2节中R@K,θ的性质为VMR度量的设计设定以下要求:(1)它应该忽略排序列表中的冗余矩,(2)它应该考虑排序矩和地面真值之间的IoU值θθK21081QQ我们将这个要求定义为以下公理。公理1(对前k非最佳矩(INV-k)的不变性。). 设两个系统σ和σ′使得σ′与σ仅在秩表的k阶矩上不同对于q。 σ ′的测量值不得与当σ ′中的k阶矩比σ中的k阶矩具有更好的IoU值,但在σ ′的顶部k内不是最相关的时,σ(即,μ(,σ)= μ(,σ ′))。图2描述了INV-k的概念。R@K,θ满足这一要求,因为它只利用了排序列表中具有最大IoU值的矩(见等式①①)。AxIoU还可以通过继承R@K,θ的性质来处理冗余矩。另一方面,AP@K, θ是计算机视觉中广泛采用的分级检索度量[8],不满足INV-k。类似地,虽然分级相关性的信息检索度量(如DCG[17])是评估排名列表的直接选择,同时避免了θ的二进制化,但它也不满足INV-k。在我们的补充材料中给出了公理的形式定义关于最佳时刻的单调性VMR度量得分应随排名列表中的最大IoU值单调增加。更具体地,我们要求在任何秩k处,基于SERP的前k个矩的测量应当随着在前k内观察到的最大IoU而单调增加。这个要求可以通过以下公理来定义。公理2(Top-k最佳矩的严格单调性(MON-k)). 假设两个系统σ和σ′,使得21082QQQQ≤≤≤≤- ≤≤≤≤ ≤≤图3. MON-k要求度量应该对前k排名列表中的最佳时刻的IoU值敏感。σ′仅在q的排序列表中的k阶矩上不同于σ。当σ ′中的k阶矩比σ中的k阶矩具有更好的IoU值并且在σ ′的顶部k内是最相关的时,σ ′的测量严格地从σ的测量增加(即μ(,σ)<μ(,σ′))。图3描述了MON-k的概念。R@K,θ与K和θ的固定参数设置不满足此要求。µ(,σ)<µ(,σ′)不能保证,因为R@K,θ使用θ将相关性二进制化。通过con-用于分级相关性的trast、分级检索度量(诸如DCG@K和我们的AxIoU@K)满足该属性,因为这些考虑了分级列表中每个时刻的分级位置和IoU值。在补充材料中给出了公理的形式定义和证明。6. 实验虽然我们在公理方面分析性地展示了AxIoU@K的属性,但我们也在本节中实证地检查了这些度量。我们首先研究基于确认AxIoU@K与R@K,θ的兼容性的措施的评估结果之间的一致性。为了检验θ的影响,我们还讨论了测量值随试验数据变化的稳定性此外,我们证明了AxIoU@K作为模型选择标准的优势6.1. 实验装置数据集遵循Otaniet al. [26],我们利用两个流行的数据集 进 行 实 验 , Charades-STA [10] 和 ActivityNet [5 ,19]。每个数据集包含一组手动注释的时间区域,用于查询视频对,将视频中的相关时刻指示为地面实况。Charades-STA建立在Cha- rades [36]之上,包含9,848个视频,每个视频都与多个自然语言句子相关联。测试查询的数量为3,720。ActivityNet包含19,209个YouTube视频。每个视频都与字幕及其时间位置相关联测试查询的数量为17,031。检索系统的评价在我们的实验中,我们利用多个VMR系统来评估措施;例如,我们基于两个度量创建系统的两个排名,然后计算排名的相似性(即,Kendall的τ -b [ 1 ])作为两种测度之间的一致性。为了在真实环境中检查每个度量,我们使用在每个数据集上训练的真实VMR系统。在本文中,我们使用了三种传统方法,即感知盲(盲)[26],SCDM[39]和2DTAN[43]。此外 , 我 们 还 包 括 2DTAN 的 变 体 , 即 , (1)2DTANnonms,一种没有非最大抑制(NMS)的变体[24],(2)2DTAN rand,一种由Otani等人提出的视频帧随机化变体。[26]和(3)2DTAN rand+nonms,一种无NMS且随机化的变体。图5根据Charades-STA(左)和ActivityNet(右)上的不同测量比较了上述六个系统的有效性。在每个图中,系统已按平均R@5,0排序。五、对于Charades-STA,R@10,0. 3分盲(绿色实线),这是一个视频不可知的基线,几乎是一个;因为Charades-STA数据集是一个相对简单的数据集,R@10,0。3是一个过于宽松的措施,即使是盲目的。 这一结果表明,K和θ的选择不当会导致评估结果缺乏信息。6.2. 措施之间的一致性图4显示了R@ K,θ(K=1,5,10,θ=0)之间每对 测 量 值 之 间 的 一 致 性 。 3 , 0 。 5 , 0 。 7 ) 和AxIoU@K(K=1,5,10)。为了评估两个指标之间的一致性,我们首先使用每个指标对六个系统进行排名。然后我们计算Kendall此后,我们将把τ-b简称为τ。高τ值意味着根据两个度量的排名是相似的[4]。在Charades-STA数据集中,AxIoU@10与R@ K,θ(0. 36τ0的情况。87)。的具有不同K值的AxIoU@ K的值彼此合理地一致(0. 36τ0 第73段)。相反,R@ K,θ的不同实例可能相互冲突;R@5,0。7与R@1,θ(τ= 0. 64),而R@10,θ不同意R@1,θ实例(0。21τ0的情况。第21段)。这一结果的主要原因可能是R@K,θ是秩不敏感的。另一方面,满足MON-k的AxIoU@K对于不同的K值与它自身很好地对齐。虽然R@5,0。5和R@5,0。7,这是R@ K,θ的流行实例,与其他R@ K,θ实例(0. 21τ0的情况。对于R@5,0,为73。5和0。2τ0的情况。对于R@5,0,为64。7),这两个措施之间的协议是τ=0。60,尽管θ的设置有很小的差异;值得注意的是,AxIoU@10与R@5,0一致。5和R@5,0。7与21083≤≥-≤∈图4.关于Charades-STA(左)和ActivityNet(右)的两项措施之间的协议图5.根据R@K、θ和AxIoU@K,每个系统在Charades-STA和ActivityNet数据集上的有效性。τ= 0。87,τ = 0。73、分别由于ActivityNet数据集的测试查询数量比Charades-STA数据集的要多得多,因此大多数度量彼此吻合得很好。永不停止,R@1,0。7,这是一个广泛采用的实例,R@ K,θ,与其他实例(0. 07τ0。38)。值得一提的是,R@1,0. 7、要求很高(即要求系统返回秩为1的高度相关的时刻)。因此,R@1,0. 7缺乏区分系统的灵敏度。如图5(右侧的红圈),分数由R@1,0。6个系统中有4个系统的得分均为0.274(1,019/3,720)。AxIoU@10实现了强一致性(τ0. 5)R@ K,θ的所有实例,除了R@1,0。7 .第一次会议。6.3. 评价数据在本节中,我们研究了测量的稳定性,即,基于不同测试数据集上的度量的评估结果的一致性[4]。的稳定性针对不同测试数据集的有效度量是基本属性之一:如果度量不稳定,则针对特定测试数据集得出的结论可能无法很好地推广我们基于Kendall的τ - b在基于数据集的两个不同子集的系统排名之间评估每个度量作为为了考察测试数据的选择和大小对自一致性的影响,我们研究了不同大小的联合查询集对的自一致性。图6显示了减小 查询子集上的自我协议。我们对每个查询子集大小进行了5,000次试验。水平轴表示每个查询子集的大小。上图显示了自洽τ对于第一至第三列中的Charades-STA,可以观察到,对于每个K,R@ K,θ实例,θ=0。3,0。5个国家在这方面的表现大大低于其他国家另一方面,R@ K,0。7(red点线)实例始终稳定。 的AxIoU@K实 例的 性能 优 于具 有相 同K 值 的大 多数R@K,θ实例,而对于K=5的小查询集,它的性能相对较差。 对于这个数据集,最稳健的一批度量是R@1,0。7,R@5,0。7,R@10,0。7,AxIoU@1和AxIoU@10 。同 样 , 对 于 第 四 至 第 五 列 中 的ActivityNet,AxIoU@ K实例的性能优于大多数R@K,θ; R@ K,0。7例表现良好。6.4. 标签模糊在本节中,我们根据标签模糊性的稳定性(即,人类注释之间的不一致)。我们基于一个简单的噪声模型通过以下步骤生成测试样本:(1)我们将原始测试数据集中的每个注释视为低噪声样本,ple并用(s,e)R2表示一个,其中s和e是时间边界的起点和终点;(2)我们绘制21084−----图6.减少查询子集的大小对Charades-STA和ActivityNet的自我一致性的均值和方差的影响起始点s由平均值为s和方差为β2的正态分布绘制;(3)然后,我们由平均值为es的指数分布绘制长度l;以及(4)我们获得所绘制的样本(s,s+l)作为噪声样本。对于Charades-STA和ActivityNet中的每个测试样本,我们独立抽取五个从噪声模型采样,然后通过取s和s+l的中值来创建最终测试注释。这里,应当注意,方差参数β2可以被认为是质量(即,噪声水平)的五个评级人注释时间边界到一个样本。我们通过在1,2,3,4中改变β2来生成具有不同噪声水平的数据集。原始注记与绘制的注记之间每个噪声级别的IoU中值的平均值之间的IoU 1、2、3、4分别为0。906,0。870,0。835和0。802用于Charades-STA,以及0。846,0。778,0。712和0。650;注意,噪声水平在现实范围内,因为先前报告的人类注释之间的IoU一致性约为0。725在Charades-STA [35]和0. 641在ActivityNet [2].我们为每个数据集和每个噪声水平生成独立的100个测试数据集。为了评估标签模糊性对每个测量的影响,我们计算了基于原始数据集和上述实验中使用的六个系统中的每个系统的100个噪声数据集的测量之间的均方根误差(RMSE)。图7显示了标签噪声对基于测量的评估的影响。x轴和y轴表示每个测量的噪声水平和平均RMSE。在所有数据集和所有K中,AxIoU实例显示出比R@ K,0更低的误差。7例,但错误率高于R@ K,0。3例在广泛的噪音水平。特别地,R@ K,0. 7例显示严重高误差。这是因为具有大IoU阈值的R@K,θ需要精确的局部矩,从而即使在地面实况中具有小扰动也会急剧因此,大θ的使用假设人工注释的低噪声条件,这很难确保[2,15,26]。另一方面,R@ K,θ的实例,其中θ=0。3,0。5显示出与AxIoU实例相当或更低的误差,因为这些R@K,θ实例忽略了定位质量。6.5. 总结:一致性和稳定性从多方面论证了R@ K,θ的不良性质;(1)R@ K,0. 3和R@1,θ距离(即非苛刻的措施)往往不同意其他R@ K,θ实例(第6.2节);(2)R@ K,0。3和R@K,0。5个实例对数据集大小的变化是不稳定的(6.3节);(3)R@ K,0。7个实例不稳定,标记不明确,可能存在噪声(第6.4节)。相比之下,我们的AxIoU测量在降低难以调整的超参数θ的同时重建了一致性和稳定性。此外,应当注意,AxIoU@ K的截止参数K比R@ K,θ的截止参数K更容易处理,因为它考虑了前K个排序列表的排序质量; AxIoU实例之间的协议(第6.2节)也是这一点的证据。6.6. 模型选择如第6.3节所述,测试查询选择的稳定性对于避免不同数据集分割的 在模型选择过程中也是如此;当我们基于验证分割选择最佳模型并在测试分割上对其进行评估时,验证分割上的度量应该与测试分割上的度量一致。本节研究AxIoU作为模型选择标准的有效性。为此,我们首先通过改变其超参数(如学习率和NMS阈值)来创建2DTAN系统的640个变体(见第6.1节)。然后,基于每个实例,R@K,0.30.50.7AxloU@K21085图7.注释时间区域的模糊性的影响。R@K,θ以及AxIoU(总共12个测量值),我们使用验证分割选择最佳模型。最后,我们用R@K,θ对上述12个模型进行了检验。作为R@10,0。3分很容易饱和(也见图5),我们从测试测量中省略了它,以便于数字的可见性对于8个测试度量中的每一个,我们计算12个模型的Z分数,使得12个分数的平均值等于零。图8(a)-(d)显示了Charades-STA的结果。每个图中的x轴显示测试度量; 12条线中的每条线表示验证度量; y轴显示了每个测试测量的“所有”12个模型的Z分数。由于每条线代表由特定验证测量选择的单个模型,如果线是直的和水平的,则意味着验证测量对于有效的模型选择是有用的。R@10,0. 3((c)中的蓝线)和R@5,0。5((b)中的橙色线)作为验证措施表现不佳:当根据这些措施选择的模型用R@1,0进行评价时。7在测试数据上,这些系统实际上是迄今为止12个系统中最差的类似地,R@10,0. 7((c)中的绿色),R@1,0。3((a)中的蓝色)和AxIoU@1((d)中的蓝色)表现相对较差:例如,当根据AxIoU@1选择的模型用R@10,0进行评估时。从测试数据来看,该系统是十二个系统中表现最差的系统之另一方面,可以观察到AxIoU@5,AxIoU@10和一些其他R@ K,θ实例,例如R@10,0。5((c)中的橙色)表现良好:也就是说,无论测试度量是什么,基于 这 些 度 量 选 择 的 模 型 通 常 都 表 现 良 好 。 只 有AxIoU@10((d)中的绿色)可以选择在所有测试测量方面高于平均水平的系统。上述结果与第6.2-6.4节中获得的见解一致。然而,每个R@K,θ实例的不一致性和不稳定性对于模型选择是严重的,因为我们必须使用单个评估度量来确定验证分裂上的最佳模型。由于我们无法在验证阶段知道K和θ的最佳设置,AxIoU是R@K,θ的期望值(第4.2节),是模型选择的合理度量。图8.模型选择的验证措施对检验分割有效性的影响。7. 结论本文提出了一种用于视频矩检索的评价指标Ax-IoU.AxIoU与R@K,θ相比,在R@ K,θ中没有阈值参数θ,可以提供一致的评价,这是导致R@K,θ不灵敏的主要原因。我们通过公理化方法分析了AxIoU的性质,并实证表明AxIoU@10可以提供稳定的评估,同时保 持 与 R@K , θ 实 例 的 相 似 性 。 我 们 还 证 明 了AxIoU@10是模型选择的可靠度量,即使最终的测试度量是R@K,θ实例。作为未来的工作,我们将探索一个更sophisticated分布的放弃位置k,PA(k)[6]。8. 确认这 项 工 作 得 到 了 JSTCRESTGrantNo.JPMJCR20D3,FOREST Grant No.JPMJFR216O,以及芬兰科学院项目编号324346。21086引用[1] 艾伦·阿格斯蒂有序分类数据分析,第656卷。JohnWiley Sons,2010. 5[2] Humam Alwassel , Fabian Caba Heilbron , VictorEscorcia,伯纳德·加尼姆诊断时间动作检测器中的错误。以Eur.确认补偿目视,第256-272页一、二、七[3] Enrique Amigo' , Damiano Spina , and Jor ge Carrillo-deAl-博诺兹。多样性评价方法的公理化分析:介绍秩偏效用度量。在国际ACM SIGIR会议上。关于研究和开发在Inform。检索,第625-634页,2018年。2[4] Chris Buckley和Ellen M Voorhees 检索评价信息不完整的情况下。在国际ACM SIGIR会议上。关于研究和开发在Inform。检索,第25-32页,2004年。五、六[5] Fabian Caba Heilbron Victor Escorcia Bernard Ghanem和胡安·卡洛斯·尼布尔斯Activitynet:人类活动理解的大规模视频基准。 在IEEE会议Comput. 目视模式识别第961-970页,2015年二、五[6] Olivier Chapelle,Donald Metlzer,Ya Zhang,and PierreGrinspan.分级相关性的预期倒数等级。 在ACM会议通知中。和知识管理,第621-630页,2009年。二、三、八[7] 维克多埃斯科西亚,Mattia索尔丹JosefSivic,BernardGhanem和Bryan Russell。用自然语言对视频集合中的时刻进行时间定位。arXiv预印本arXiv:1907.12763,2019。2[8] Mark Everingham , SM Ali Eslami , Luc Van Gool ,Christo-pher KI Williams,John Winn,and Andrew Zisserman.pascal visual object classes挑战:回顾展。 Int.J.计算机目视,111(1):98-136,2015. 4[9] 方慧,陶涛,翟呈祥。情报检索模型的诊断评价。ACM Trans. 告知。系统,29(2):1-42,2011. 2[10] Jiyang Gao , Chen Sun , Zhenheng Yang , and RamNevatia. Tall:通过语言查询的时间活动定位。在IEEEConf. Comput.目视模式识别,第5267一、二、三、五[11] 高俊宇和徐长生。快速视频时刻重新-trieval。在国际会议计算中目视第1523-1532页,2021年。2[12] Soham Ghosh Anuva Agarwal Zarana Parekh和Alexan指挥官。ExCL:使用自然语言描述的提取剪辑本地化。在Conf.北美CH。The Assoc.Comput. 语言学:人类语言技术。,第1984-1990页,明尼苏达州明尼阿波利斯,2019年6月。计算语言学协会。2[13] David Hall , Feras Dayoub , John Skinner , HaoyangZhang,Dimity Miller , Peter Corke , Gustavo Pastiro , AneliaAngel ov a,andNi k oSünderhauf. 概率对象检测:定义和评估。冬季会议Apl. Comput. 目视,2020年。2[14] 何栋梁、赵翔、黄冀州、李付、小刘、和石磊文。阅读、观看和移动:强化学习,用于在视频中暂时接地自然语言描述。在AAAI,第33卷,第83932[15] Lisa Anne Hendricks , Oliver Wang , Eli Shechtman ,Josef西维克特雷弗·达雷尔和布莱恩·拉塞尔使用自然语言对视频中的时刻进行本地化。在国际会议中Comput.目视,2017年。一、二、七[16] Ronghang Hu , Huazhe Xu , Marcus Rohrbach , JiashiFeng,Kate Saenko,and Trevor Darrell.自然语言对象检索。在IEEE Conf. Comput.目视模式识别,第4555-4564页,2016。2[17] Kal e r v oJa?r v elinandJaanaKek a?l a?inen. 累积增益-基于IR技术的评估 ACM Trans. 告知。系统等,(4),2002. 二、四[18] Gabriella Kazai Jaap Kamps和Natasa Milic-Frayling一个分析众包相关性判断中的人为因素和标签准确性告知。检索,16(2):138-178,2013。2[19] Ranjay Krishna,Kenji Hata,Frederic Ren,Li Fei-Fei,and胡安·卡洛斯·尼布尔斯 视频中的密集字幕事件。在国际会议补偿目视,2017年。二、五[20] Jie Lei,Licheng Yu,Tamara L Berg,and Mohit Bansal.TVR:一个用于视频字幕矩检索的大规模数据集。以Eur.确认补偿目视,2020年。2[21] 林宗毅,迈克尔·梅尔,塞尔日·贝隆吉,詹姆斯·海斯,皮埃特罗·裴罗那、德夫·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中的公共对象 以Eur.确认补偿目视,第740-755页。Springer,2014. 2[22] Meng Liu,Xiang Wang,Ligiang Nie,Xiangnan He,Bao-quan Chen,and Tat-Seng Chua.视频中的注意时刻检索。在国际ACM SIGIR会议上。关于研究和开发在Inform。检索,第15-24页,2018年。一、二[23] 阿利斯泰尔·莫法特和贾斯汀·佐贝尔。 秩偏精度检索有效性的测量。ACM Trans. 告知。系统,27(1):1-27,2008. 2[24] Alexander Neubeck和Luc Van Gool。有效的非最大抑制。在内部会议模式识别中第3卷,第850-855页。IEEE,2006年。5[25] Kemal Oksuz、Baris Cam、Emre Akbas和Sinan Kalkan。定位查全率(LRP):一种新的目标检测性能指标。以Eur.确认补偿目视,2018年。2[26] Mayu Otani,Yuta Nakahima,Rahtu Esa,and Heikkila¨Janne.发现基于查询的视频时刻检索中隐藏的挑战在英国。马赫。目视Conf. ,2020年。一、二、五、七[27] 放大图片作者:Rafael Padilla萨德乌?帕索斯B.迪亚斯爵士焦湖Netto和Eduardo A. B.达席尔瓦。对象检测度量与配套开源工具包的比较分析。电子学,10(3),2021年。2[28] 米凯拉·雷格纳里马库斯·罗尔巴赫多米尼克·韦策尔Stefan Thater,Bernt Schiele,Manfred Pinkal。接地- ing行动的说明在视频中。 译The Assoc.对于计算机。Linguistics,1:25-36,2013. 2[29] 斯蒂芬·罗伯逊。对平均精度的新解释锡永在国际ACM SIGIR会议上。关于研究和开发在Inform。检索,第
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功