没有合适的资源?快使用搜索试试~ 我知道了~
Under 20 secondsGot it! worstbest00.150.350.701.074820寻找糟糕的兔子画0Lan Yang 1, 2 Kaiyue Pang 2 Honggang Zhang 1 * Yi-Zhe Song 201 PRIS, 北京邮电大学人工智能学院, 中国 2 SketchX, CVSSP, 英国萨里大学0{ ylan, zhhg } @bupt.edu.cn, { kaiyue.pang, y.song } @surrey.ac.uk0摘要0尽管兔子很可爱,但你画的版本可能无图1)。本文首次认识到这个问题,并量方法,让你能找到那些画得不好的兔子。我们的关键发现在于利用素描特征的大小(L2范数)作为定量的质量度量。我们提出了几何感知分类层(GACL),这是一种通用的方法,可以实现特征大小作为质量度量,并且不需要来自人类的具体质量注释。GACL将特征大小和可识别性学习视为一项双重任务,可以在一个简洁的交叉熵分类损失下同时优化。GACL是轻量级的,并具有理论保证,其成功得到了良好的几何解释。通过精心设计的人类研究,我们确认了我们基于GACL的度量与人类感知之间的一致质量。值得注意的是,我们首次使用定量质量度量实现了三个实际的素描应用。01. 引言0每个人都可以画素描,争论的焦点在于画得有多好。随着触摸屏设备的普及,人们对画素描的渴望越来越强烈。更不用说广泛应用于素描的应用程序了,从识别[10, 26, 46,64]、解析[24, 45, 63]、重建[8, 16, 28,50],到将素描作为图像搜索的查询模态[3, 29, 38, 42,43]和视觉内容操作[5, 20, 57,69],甚至是实现一个在Pictionary游戏中超越人类的绘画代理[2]。本文认识到了这个“画得有多好”的问题,并首次提出了一个可学习的度量标准,告诉我们我的兔子(或任何其他素描)画得有多糟糕,从图1(a)中的一组兔子素描到图1(b)中从差到好的有序兔子列表。0* 通讯作者0数据消耗 画兔子0评分0Ø 我们应该平等对待它们吗?0Ø 它们甚至是兔子的素描吗?0众包素描0标记为兔子0GACL应用0GACL的质量发现0(a)(b)0图1.(a)并不是每个自由绘制的兔子素描质量都相同。(b)我们提供了一种无需注释的解决方案(GACL),用于区分兔子(以及许多其他类别)的素描质量。我们展示了在GACL下的质量发现支持人类进行合理的质量检查。0尽管问题本身听起来很有趣,但它也支撑了大量的素描研究。这些研究包括但不限于:(i)解开模型预测中的人为因素,即模型是不好还是素描不好;(ii)促进更好的表示学习,即通过学习针对特定质量水平的数据驱动模型减少过拟合的可能性;(iii)素描辅助应用,例如帮助用户画出更好的兔子。量化素描质量是一个非常复杂的问题。首先,缺乏带有人类质量评分注释的素描数据集是一个致命的障碍。这使得最近关于图像质量评估的大部分工作都无法应用于素描,这些工作预测人类意见分数[31, 47, 52,68]。作为顺序坐标的矢量表示,素描与另一类试图直接从低级统计失真模拟人类可解释图像质量的工作[1, 21, 58,66]有所不同。与噪声、模糊和压缩等视觉伪影相比,素描质量更多地是对整体视觉概念的主观解释。74830在本文中,我们首次尝试学习一种特定于素描的质量评分(度量),而无需依赖于人工质量注释。我们技术解决方案的核心是这样一个洞察力:这样一个评分与识别任务的特征空间几何形状有关(图6)。我们首先单独提取出典型Softmax公式(Eq.4)学习到的无序特征几何形状,将其视为质量发现失败的主要原因。这是因为Softmax会不断将素描特征推向接近类中心的位置,从而破坏了任何潜在的几何形成。然后,我们的直觉是,如果底层特征几何形状能够满足以下属性:素描质量越好,其特征离类中心越近,那么一个实值特征幅度就可以引出一个质量度量。我们重新审视Softmax,提出了一种名为几何感知分类层(GACL)的质量感知替代方法。GACL将质量评分实现为特征幅度(L2范数),并将其学习与识别一起作为一个双重任务。这就重要地引出了上述几何约束,其中素描质量评分的单调增加与易于识别呈正相关,即越接近类中心。为了鼓励学习到的特征幅度的完整性,我们强制其优化为凸函数,并保证全局最优解。我们还证明,在轻微的数学近似下,GACL下的素描质量评分实际上是与类决策边界的边际值,为定义的质量提供了良好的语义(即质量越好,素描离其类决策边界越远)。我们开发了四种具体的GACL实例,并分别进行了人类研究,以对学习到的质量评分的排序提供一些保证。然而,要求人类设计一个严格的成对全局排序是不可行的[12,25],特别是当素描质量感知可能高度主观时。因此,我们借鉴了心理学文献[11, 15,51],采用了一种基于集合的方法,人类可以在集合级别而不是个别素描级别上进行粗略排序。在12800次试验(每个参与者进行320次试验)的结果中,人类在8个精心选择的素描类别上平均92.61%的时间与学习到的质量排序一致。重要的是,我们展示了在三个应用中模拟素描质量的实际好处:(i)质量感知的素描识别,为新的最先进的识别性能做出贡献;(ii)质量引导的素描生成,将素描操作任务推向了新的高度,超越了生成概念上正确的素描;(iii)质量启用的素描归因,帮助素描从业者识别恶意用户输入。02. 相关工作0素描研究。除了不断提高各种素描感知任务的性能之外,最近的研究还包括0人类素描数据的计算机视觉工作还额外关注了两个独特的方面:(i)像素/向量二分法:素描应该被处理为光栅像素图像[39, 44, 57, 64]还是编译为一系列点的矢量图形[16, 26, 36,49],或者两者的组合[50, 53, 61,62]?当前的探索表明,当这两种模式作为一个统一的表示进行编码时,通常可以获得更好的性能,无论是生成任务还是判别任务。(ii)“无法绘制”的现实:与点击标签或输入搜索关键字不同,素描是一个缓慢而熟练的过程。用户可能会担心因为他们的绘图不准确而导致的结果不准确,并且因此没有足够的动力来进行素描。现有的解决方案包括允许用户在素描过程中提前停止,以便他们的目标可以通过最早/最简单的笔画来实现[2, 3,23],或者使用实时绘图助手降低渲染障碍[34, 48,60]。我们研究了一个新的素描问题,即计算质量建模,这可以潜在地使许多正在进行的素描研究受益-从改进判别性能(第4.2节)到在现有生成模型中引入美化目标(第4.3节)。0图像质量评估。现有的图像质量评估(IQA)文献在需要输入参考和不需要输入参考的方法之间进行了区分。基于参考的算法[18, 21,66]假设存在原始和失真图像对,以便可以测量质量差距,而无参考或盲目的IQA[59, 65,67]通过利用经过几种已知固定失真类型(例如噪声、模糊、损坏和压缩伪影)处理的精心策划的图像集来放松配对约束。盲目IQA的一个特定研究方向[13, 33, 52,68]是如何准确预测由数据集(如AVA [37]和LIVE[14])提供的主观人类质量评分,由于缺乏类似注释的数据集,这在这里不适用。我们也将草图质量评估作为盲目IQA问题来处理,并通过利用草图特征幅度作为一种有前途的质量度量来提出一种新颖的解决方案,以绕过繁琐和昂贵的人工注释步骤。0基于边界的学习。边界是在深度学习浪潮之前表示学习的一个重要概念(例如,SVM也被称为软边界分类器),在当今计算机视觉领域中,尤其是当深度学习席卷而来时,边界变得更加重要(例如,对比[17]或三元组排序损失[56])。与我们最相关的是将边界封装到基于Softmax的分类模型中的想法。通过修改香草Softmax,通过插入固定或自适应边界,许多代表性的Softmax变体已被提出[9, 27, 30, 35, 54,55],以提高特征的区分性,目标是确保类内变化小于类间差异。我们已经通过分析证明了学习质量分数的质量。3. Methodology3.1. Preliminaries and DiscussionsLsm(xi) = − logeW Tyif(xi)+ByieW Tyif(xi)+Byi +C̸eW Tyj f(xi)+Byj�Lsm(xi) = − loge||f(xi)|| cos θi,yie||f(xi)|| cos θi,yi +C̸e||f(xi)|| cos θi,yjimagine the extreme ideal case where a sample is infinites-imally close to its centre. As such, the gradient of Lsm(xi)Lnorm sm = − loges cos θi,yies cos θi,yi +C�j=1,j̸=ies cos θi,yj(4)̸74840在我们的框架下,对应于实例特定边界到类别决策边界的边界,从特征空间几何视角给我们提供了对GACL黑盒魔力的直观解释(第3.4节)。0本文的目标是获得一个基于分数的度量q(∙),用于量化草图质量。给定带有类别标签yi∈{1,2,...,C}的草图样本xi,我们的关键发现是,在草图识别网络f(∙)的训练过程中,在某些温和条件下,草图特征幅度(L2范数)可以自动编码用于质量区分的计算度量q(∙),即qi≡q(xi)=||f(xi)||2。在描述我们提出的q(∙)作为质量发现的良好代理的方法之前,我们将首先介绍必要的预备知识。0在传统的基于Softmax的分类层中,将样本xi分类为其真实类别yi的训练目标被制定为:0(1)其中f(xi)∈Rd是属于类别yi的第i个草图样本的提取的深度特征。W∈Rd×C表示所有C个类中心的权重,B∈RC表示偏置项。我们将WTyjf(xi)转换为||Wyj||||f(xi)||cosθi,yj,其中θi,yj是f(xi)和Wyj之间的角度(即余弦距离)。为了方便分析,我们进一步消除了偏置项,并将||Wyj||设置为1。这给我们带来了以下修改后的Softmax公式:0(2)假设每个类别具有相同数量的样本,并且所有样本都是分离的,我们可以得到�Lsm的下界(详见补充材料):0敏锐的读者可能已经注意到在损失函数�Lsm下的灾难性影响:优化过程可能会主导地朝着最大化||f(xi)||的方向发展,并且在最坏的情况下完全独立于θ,这与分类的目标完全背道而驰。实际上,方程式3告诉我们,�Lsm(xi)的最小化过程只能发生在||f(xi)||上。然而,解决这个问题需要不仅仅是对||f(xi)||进行简单的单位归一化。为了更清楚地看到这一点,0e 1 +( C − 1) e − 1 (当 C=100 时为0.931,当 C=1000时为0.993),这意味着即使样本之间有很好的分离,模型也会不希望地反向传播大梯度。为了解决特征大小的这种看似相反的作用,通常采取类似的折衷方案,即首先从公式中取消 || f ( x i ) || (即 || f ( x i ) || = 1 ),并用一个全局标量 s替换它,以模拟其在交叉熵损失优化下的关键效果,以确保数值稳定性。现在我们可以写出许多现有工作中使用的Softmax的归一化版本 [ 9 , 30 , 54 , 55 ]:0其中 s 的确切值是经验设置的。方程 4的一个问题是它倾向于将每个草图样本都视为同样可识别的- 所有的 cos θ i,y i都被优化为尽可能接近类中心的最优值。这种实例区分的丧失与我们在实践中对人类草图数据的感知相矛盾,在实践中,人们可以画出截然不同的兔子,同时保持可识别性(图1)。这些兔子显然不是同样的质量,它们与类中心的特征距离也不应该相同。一个自然的问题是,我们是否可以利用特征大小 || f ( ∙ ) || 来鼓励同一类中建立质量语义,以便当 xi 的质量明显优于 x j 时, cos θ i,y i > cos θ j,y i?我们对这个问题给出了肯定的答案。我们通过精心调整 ||f ( ∙ ) || 和 cos θ之间的相互作用,将其融入到一个统一的框架中(第3.2节), || f ( ∙ ) ||促进了一个质量感知的特征几何空间,并在我们的实证评估中证明了它自身成为一个有前途的质量指标。03.2. 几何感知分类层0方程 4表示了一个不考虑大小的分类损失。我们的目标是将特征大小 || f ( x i ) || 作为一个可学习的变量引入到方程 4中,使其与分类目标 cos θ i,y i自适应地工作,并因此引入一个实例区分的特征空间几何结构,从而实现质量发现。为此,我们通过用一个复合函数 A( q i , θ y i ) 1 替换 s cos θ i,y i ,在方程 4的基础上引入了一个新的公式。我们将其称为几何感知分类层(GACL)。将 s cos θ i,yj 记为 R ,其中 � C j =1 ,j �= i e s cos θ i,yj 。0为了简化符号,我们使用 q i 和 θ y i 分别表示 || f ( x i ) || 和 θ i,y i 。LGACL(qi, θyi) = − logeA(qi,θyi)eA(qi,θyi) + R(5)LGACL(qi, θyi) ≈ LGACL(qj, θyj)+(qi − qj) ▽q LGACL + (θyi − θyj) ▽θ LGACL(6)▽qA(qi, θyi)▽θA(qi, θyi) > 0(7)q′i = qi − ξ ▽q LGACL(qi, θyi)θ′yi = θyi − ξ ▽θ LGACL(qi, θyi)|qi=q′i(8)▽θA(qi, θyi)|qi=q′i ≤ 0(9)qLGACL =RA(qi,θy )qA(qi, θyi)+λgqG(qi)▽qLGACL =Rs cos θyieA(qi,θyi) + R + λg ▽q G(qi)(11)74850GACL将方程 4 转换为:0GACL的成功在很大程度上依赖于 A ( q i , θ y i )的设计选择,对此我们为其成功定义了三个必要的约束条件。几何约束。如果 q i 是质量测量的良好代理,那么当 θy i 几何上比 θ y j 更接近类中心时,它应该大于 q j ,即( q i − q j )( θ y i − θ y j ) ≤ 0 。对 A ( q i , θ y i )的条件。给定两个具有不同值对 ( q i , θ y i ) 和 ( q j , θ yj )的草图,我们假设两者都达到了最优的可识别性/优化均衡 - L GACL ( q i , θ y i ) = L GACL ( q j , θ y j )。我们对左侧进行泰勒展开:0在我们丢弃高阶项的情况下,为了确保 ( q i − q j )( θ y i− θ y j ) ≤ 0 ,很容易得到 A ( q i , θ y i )必须满足的条件:0共优化约束. 几何约束成立的先决条件是确保 θ y i可以被适当地优化. 实际上,只有当 θ y i仍然是一个有效的可学习目标时,它才能符合我们所投射的质量语义 - 识别越容易,质量越好. 不幸的是,方程 3告诉我们这并不容易,因为训练动力学可以完全被 q i主导,从而与 θ y i 的优化变得不相关. 我们通过要求对 qi的任何更新不会对其可识别性学习产生负面影响来缓解这个问题. 对 A ( q i , θ y i ) 的条件.我们使用一步梯度下降来模拟对 q i 到 θ y i的更新的影响:0其中 ξ 是学习率. 我们的目标是确保对于 θ y i,非破坏性的 q i 学习,即 ▽ θ L GACL ( q i , θ y i ) | q i= q ′ i ≥ 0 . 这转化为对 A ( q i , θ y i ) 的约束:0最优性约束. 假设 q i 的值范围在 [ l q , u q ]有界,我们要求 L GACL 总是有一个最优解 q � i 在 [ l q ,u q ] 之间,以便规定一个有效的质量度量.0对 A ( q i , θ y i ) 的条件. 我们假设 L GACL 是 q i 的凸函数 (即 ▽ 2 q L GACL ( q i ,θ y i ) ≥ 0 � ▽ 2 q A ( q i , θ y i ) ≤ 0 ),这自然导致全局最优解的存在. 在 [ l q , u q ]中存在一个最优解 q � i ,则转化为以下条件: ▽ q L GACL ( l q , θ y i ) < 0 和 ▽ q LGACL ( u q , θ y i ) > 0 (因为 L GACL 对 q i 的一阶导数是单调非递减的). 给定 ▽ qL GACL = − R0e A ( qi,θyi ) + R ▽ q A ( q i , θ y i ) 和 R0e A ( qi,θyi ) + R > 0 ,我们通过要求 ▽ q A ( l q , θ y i ) > 0 和 ▽ q A ( u q , θ y i ) < 0 来获得对 A ( q i , θ y i) 的最后约束.03.3. GACL 实例化0为了进行彻底的检查,我们提供了四种不同类型的 A ( q i ,θ y i ) 实例化,每种实例化在不同的概念空间中起作用: (i)比例: A ( q i , θ y i ) = (1 − q i ) s cos θ y i ; (ii)乘法角度: A ( q i , θ y i ) = s cos( q i θ y i ) ; (iii)加法角度: A ( q i , θ y i ) = s cos( θ y i + q i ) ; (iv)余弦: A ( q i , θ y i ) = s cos θ y i − q i ;容易证明在这四种实例化中满足对 A ( q i , θ y i )的前两个条件 (详见补充材料). 难点在于保证 q i的最优性,它在两个特定值 { l q , u q }下有界,并需要更多的努力来满足.我们提出了一种更有原则性的策略,通过引入一个得分正则化器 G ( q i ) :0(10) 由于 − R 的值0e A ( qi,θyi ) + R ▽ q A ( q i , θ y i ) 在所有实例化中始终保持为正,我们只需要设置 ▽q G ( u q ) = 0 来满足 ▽ q L GACL ( u q , θ y i ) > 0 . 我们将 G ( q i ) 实现为 1 q i+ 10u q 2 q i然后专注于在以下讨论中实现每个实例化场景中的 ▽ q LGACL ( l q , θ y i ) < 0 . A ( q i , θ y i ) = (1 − q i ) scos θ y i . 重写方程 10 得到:0e A ( qi,θyi ) + R < 1 . 那么只需要确保 ▽ q L GACL ( l q , θ y i ) < 0 如果 λ g ▽ qG ( l q ) < − s . 由于 ▽ q G ( q i ) = − 10u q 2 ,我们通过要求0l q 2 − u q 2 。我们在实现中设置 l q = 0 . 1 ,u q = 0 .3 ,s = 64 。02在实践中,我们对 q i 进行线性缩放,使其在适当的值范围 [ l q , u q ]内工作,这里为简单起见省略了。qLGACL =RsθyiA(qi,θy )sin(qiθyi) + λgq G(qi)▽qLGACL =RseA(qi,θyi) + R sin(θyi + qi) + λg ▽q G(qi)(13)slq2uq2▽qLGACL =ReA(qi,θyi) + R + λg ▽q G(qi)(14)lq2uq2max(maxj̸=i {cos θyj} − cos θyi, 0)(15)𝑞!𝑞"𝑞#𝑞!𝑞"𝑞#max(maxj̸=i {cos θyj} − cos θyi + mi, 0)(16)̸− logiecos θyi−mi +Cj=1,j̸=i ecos θyj(17)74860A ( q i , θ y i ) = s cos ( q i θ y i ) 。重写方程 10 ,我们得到:0(12)我们进行类似的分析,其中给定 0 < R sin( q i θ yi )0e A ( qi,θyi ) + R < 1 , 0 ≤ θ y i ≤ π02 ,我们要求 λ g ▽ q G ( l q02( l q 2 − u q 2 ) 以满足 ▽ q L GACL ( l q , θ y i ) < 0。我们在实现中设置 l q = 1 . 1 ,u q = 1 . 25 ,s = 64。A ( q i , θ y i ) = s cos ( θ y i + q i ) 。重写方程 10,我们得到:0l q 2 − u q 2 以满足 ▽ q L GACL ( l q , θ y i ) < 0。我们在实现中设置 l q = 0 . 45 ,u q = 0 . 65 ,s = 64。A ( q i , θ y i ) = s cos θ y i − q i 。重写方程 10,我们得到:0l q 2 − u q 2 以满足 ▽ q L GACL ( l q , θ y i ) < 0。我们在实现中设置 l q = 0 . 35 ,u q = 0 . 8 ,s = 64 。03.4. 将q i 解释为质量度量0在本节中,我们提供了一个不同的视角来解释 q i的作用,它具有良好的几何解释:在温和的近似下,q i是到类别决策边界的特征距离,与到类别中心的特征距离 θyi(即共同优化)相呼应。质量判别从这种几何语义建立中编码在 q i 中,如图2所示。为了清楚地看到 q i如何表示到决策边界的距离,我们首先回顾了如何将Softmax推导为分类目标。对于在C个类别中分类一个实例 x i的一般公式为:0这是原始的“hardmax”,意味着目标logit分数应大于其余分数。通过使用数学近似对两个max函数进行平滑处理 3,我们得到了Eq. 4 中的归一化softmax。Eq. 15的问题在于它完全忽略了类内特征分布,其中样本被平等对待,只要它们属于相同的类别标签,从而削弱了任何潜在的质量发现。我们的假设是,具有更好质量的样本应该远离决策边界,并靠近类别中心。这等同于在类内特征空间中建立几何顺序,即质量判别。我们将一个实例自适应的边界 m i嵌入到Eq. 15 中(类似于SVM中最大间隔的思想):03(i)对于max(x),使用LogSumExp(x);(ii)对于max(x,0),使用SoftPlus(x)。0Softmax GACL0类别1样本:类别2样本:0决策边界 类别中心0图2. GACL下的q i 的几何解释。通过严格的证明,我们表明q i实际上是到类别决策边界的距离,有助于形成一个良好结构的类内特征分布几何形状以进行质量发现(用绿色圆点标记的示例表示最佳质量)。0q i的作用是到类别决策边界的特征距离,在类内特征空间中与到类别中心的特征距离(即共同优化)相呼应。质量判别从这种几何语义建立中编码在 q i 中,如图2所示。为了清楚地看到 q i如何表示到决策边界的距离,我们首先回顾了如何将Softmax推导为分类目标。一个在C个类别中分类实例 x i 的一般公式为:0同样,通过用它们的软近似替换两个max函数,我们得到Eq. 16 的软版本:0log(1 + e log( � C j =1 ,j � = i e cos θyj ) −cos θ yi + m i ) ≈0现在我们可以看到,除了全局归一化项s之外,方程17正是我们的GACL框架,其中A(qi, θyi)被实例化为s cos θyi -qi,其中特征幅度qi变为mi。我们省略了证明其他三个A(qi,θyi)实例化的详细说明,并相信上述讨论可以为我们提供关于为什么GACL允许质量发现的直观理解:qi和θyi之间的协同作用产生了重要的特征空间几何,从而产生了质量的概念。04. 实验0设置。我们在迄今为止最大的人类自由手绘草图数据集QuickDraw[16]上评估我们的方法,该数据集通过在线游戏收集,要求玩家在不到20秒的时间内草绘给定的类别名称。QuickDraw包含345个物体类别,每个类别包含70k、2.5k、2.5k个样本用于训练、验证和测试。我们遵循传统的做法[41,62],每个类别使用7k个样本进行训练,并使用所有测试数据进行评估(总共862k个草图)。我们实施 Ours-ScaOurs-MulOurs-AddOurs-CosOurs-ScaOurs-MulOurs-AddOurs-CosOurs-ScaOurs-MulOurs-AddOurs-CosOurs-ScaOurs-MulOurs-AddOurs-CosOurs-ScaOurs-MulOurs-AddOurs-CosOurs-ScaOurs-MulOurs-AddOurs-CosOurs-ScaOurs-MulOurs-AddOurs-CosOurs-ScaOurs-MulOurs-AddOurs-Cos74870标准化q(-)0百分比百分比0百分比0百分比百分比0百分比0标准化q(-) 标准化q(-) 标准化q(-)0标准化q(-)0闹钟0百分比0标准化q(-)0计算机0百分比0标准化q(-)0天使0标准化q(-)0生日蛋糕0护照 伞0猪0图3. 不同物体类别的测试样本的 q(∙)的定性可视化。虚线表示GACL的四个实例化在第3.3节中的平均百分比值。阴影区域突出显示了个体差异。更多细节请参见正文。0我们将 f(∙)实现为一个具有1024个隐藏单元的双层BiLSTM[19],分类头 W为2048-1024-345维的MLP。采用Adam[22]优化器,初始学习率为1e-3,并采用每个epoch余弦退火调度进行梯度热重启[32]。我们将每个单独的试验训练10个epoch,批量大小为256,并将矢量草图数据预处理为在[0,1]范围内的绝对坐标。最后,我们将GACL的四个实例化(第3.3节)分别表示为Ours-Sca、Ours-Mul、Ours-Add和Ours-Cos。04.1. GACL支持草图质量发现0为了对 q(∙)进行实证评估,我们根据[24]中概述的复杂性、多样性和语义丰富性规则,从QuickDraw的345个类别中选择了8个类别。在图3中,我们首先定性地可视化了在不同GACL实例化下的 q(∙) 的分布,并展示了一些通过截然不同的 q值分开的示例草图样本。可以看出,q(∙)以合理的方式对草图质量进行了区分。与较小的q值相对应的样本通常在美学上不太令人愉悦,难以识别或者仅仅是不完整和不可靠的草图数据。另一方面,q(∙)从多个角度解释了良好的草图质量,包括平滑和连贯的视觉结构渲染水平(例如伞),局部概念语义的突出(例如护照)以及整体视觉美学和丰富性(例如天使)。可以理解的是,由Ours-Sca/Ours-Mul/Ours-Add/Ours-Cos学习到的q(∙)明显不同(阴影区域),因为它们被设计用于不同的值域。然而,所有四个GACL实例化都显示出类似的分数分布变化趋势,表明可能存在一个统一的度量标准,取决于0图4.不同物体类别的测试样本的q(∙)的定量结果。我们使用基于集合的本地排序方法计算与q(∙)产生的质量顺序相一致的人类参与者的百分比。(a)3分位数设置。(b)4分位数设置。0在我们的定量评估中,我们确认了质量支持的粒度,这需要更仔细的检查。通过测量模型预测与人类基准评分之间的差异来实现这一点,在这里这种常见的方法不适用,因为我们缺乏相关的注释。我们进一步认为,即使我们招募人类参与者并收集他们对个别草图的质量意见,这种方法也会存在缺陷——很难获得客观准确的分数。 (0.45)(0.22)(0.22) (0.36) (0.71)(0.62) (0.31) (0.43) (0.43) (0.75) (0.60)(0.34)(0.34)(0.37)(0.80)(0.65) (0.30)(0.30)(0.37)(0.49)(0.77)(0.57)(0.40) (0.25)(0.25)(0.47) (0.82) (0.34)(0.50) 79.87%78.76%68.71%79.44%77.31%78.34%80.12%81.51%81.77%82.02%81.97%82.52%74880(0.31)0� = 1 � = 100吉他0闹钟 猪0兔子0� = 1 � = 100苹果0笑脸0(0.29)(0.29)(0.53)(0.43)(0.81)(0.59)0图5.质量引导的草图生成。给定一个草图输入,我们展示了两个具有更好质量(较大的q值)的生成结果,它们之间通过50次潜在代码更新(表示为▲)分开。α是一个控制自重构重要性的超参数。0� �0�($)0�($)0图6.在Softmax(左)和Ours-Cos(右)下学习的模型之间的q(∙)和θ的可视化。类别:兔子。0表1.在QuickDraw上与当代草图识别基线的比较。报告的数字是top-1准确率。0– – IJCV'2017 [64] CVPR'2018 [61]0BiLSTM ResNet-50 Sketch-a-net SketchMate0TOG'2021 [63] CVPR'2020 [41] CVPR'2020 [26] ICCV'2021 [62]0SketchGNN SketchFormer SketchBert SketchAA0Ours-Sca Ours-Mul Ours-Add Ours-Cos0由于自由手绘草图数据的主观和抽象性质,我们采用了一种基于集合的方法来评估GACL的局部质量排名,以作为一种粗略检查其作为连续全局尺度的有效性的方法。具体来说,我们招募了40名参与者,每个参与者进行320个独立试验。我们将质量度量q(∙)的分数分为3分位数,并形成三个草图集,每个集合包含其对应分数范围内的随机样本。然后,要求每个参与者对问题“您是否同意所呈现的草图集之间的质量顺序?”进行二进制操作。在图4(a)中,我们绘制了每个类别的“是”答案的百分比。四个GACL实例中的平均百分比为97.18%,标准差为0.38%,确认了其一致的有效性。0我们进一步进行了类似的四分位数任务(图4(b)),在这个任务中,参与者在88.04%的时间内同意质量排名。04.2. 质量感知的草图识别0提议的GACL框架的一个潜在好处是作为副产品提供了一个有竞争力的草图识别模型——表示学习可以区分草图实例的质量,因此在较低质量数据上过拟合较少,更好地进行泛化,这与最近文献中的类似发现一致[4,6]。为了验证这一点,我们首先在图6中可视化了q(∙)和θ之间的关系,并确认在Ours-Cos下,质量更好的草图实例(较大的q)更容易被识别(较小的θ),而在传统的Softmax损失训练的模型中无法观察到这种现象。我们进一步在表1中比较了Ours-Cos和当代草图识别基线的性能。可以看到,我们的方法在没有考虑质量的对应方法(与BiLSTM相比)上始终取得了显著的改进,并且甚至在没有任何花哨的技巧的情况下(与SketchAA相比)超过了最先进的草图识别工作。04.3.质量引导的草图生成0在本节中,我们展示了在GACL下学到的q(∙)可以用于以事后迭代的方式指导草图生成模型进行更高质量的探索(具体实现见补充材料)。影响合成结果的一个决定性因素是超参数项α,它在自重构和质量改进之间平衡权重-在我们的设置中,较大的α值更偏向于前者。我们在图5中展示了在两个不同α值下的生成过程之间的一些示例,可以观察到(i)我们学到的质量度量q(∙)确实是一个有用的插件模块,可以为现有的生成草图模型增加质量维度。通过滑动(0.14)(0.26)(0.14)(0.12)(0.12)(0.39)(0.12)(0.15)(0.13)(0.15)𝑞!𝐹"(0.13)(0.09)(0.13)(0.31)𝒒(#)𝒒!0.35(#)(0.35)(0.13)74890(a)(b)0恶意OOD0天使 蜜蜂 鸭子 兔子0分数0图7.(a)不同草图归因方法在F1分数下的比较。(b)恶意和OOD草图输入的示例,它们的q值都非常低(红色数字)。然而,OOD草图经过一些简单的笔画删除策略后,可以显著提高q值(绿色数字),而恶意草图则不能。这为区分OOD和恶意草图输入提供了机会。0在迭代步骤中,我们可以定制质量改进的程度。(ii)α的选择很重要。较低的α值通常会导致生成的草图具有较高的q值,但也可能导致与输入完全不相关的新的视觉形象(例如猪和兔子),从而无法实现质量引导意图。这表明未来的工作方向是探索自适应设置α值(而不是固定值),以在质量改进和身份保留之间取得更好的平衡。04.4.质量启用的草图归因0目前,草图模型部署的一个实际瓶颈是缺乏用户草图属性的方法-当检测到模型性能不佳时,开发人员无法知道是模型容量本身还是恶意的草图输入导致的。在本节中,我们旨在考察我们学到的q(∙)对于这个目的的受益程度。直观地说,如果草图的q值大于阈值qτ,我们将其视为良性用户输入(质量更好),否则视为恶意输入。我们收集人们对给定草图是否有恶意意图的二进制决策的意见,并形成一个包含2000个草图的注释测试集,每种草图类型1000个,作为人类的基本事实。我们采用F1分数[40]作为评估指标,因为它能够平衡精确度和召回率之间的性能。图7(a)的结果显示,使用原始的q(∙)评分器可以实现最佳的草图归因F1分数为61.25%。通过对我们的方法和人类注释者之间的归因分歧进行进一步分析,我们得出一个有趣的观察结果:一些不规则的草图,其笔画过长且碎片化,或者与主要渲染目标无关的个性化装饰(图7(b)),通常被人类评委视为非恶意输入,与我们的模型预测相反。我们将这些草图称为分布外(OOD)数据,并设计了一种方法来防止我们的模型将其归因为恶意输入。关键的洞察力是04不符合任何语义概念的随机涂鸦。0尽管OOD和恶意草图的q值都很低,但前者的笔画子集可以证明一个更大的q值,因为它确实包含了一个可识别的视觉对象,只是有噪声的视觉异常干扰了模型的预测。这意味着给定一个草图输入,如果它的q值低于阈值qτ,我们可以在决定将其分类为恶意输入之前,增加一个额外的条件步骤。具体来说,我们只需逐个测试每个笔画,并在如果可以导致q值明显增加时将其从输入中删除。如果存在一部分笔画的组合使其q值达到预设的阈值qmax(图7(b)),我们将草图视为OOD,即非恶意输入。我们将这种方法表示为qqmax+(∙),并在图7(a)中使用两个不同的qmax值与q(∙)进行比较。通过考虑我们对OOD草图输入的建模,可以观察到显著的改进。05. 结论0我们提出了一种量化人类自由手绘质量的方法。在学习过程中,我们的解决方案GACL不依赖于来自人类质量意见注释的监督,能够通过展示与人类一致的结果来经受人类研究的考验,以区分草图质量。我们还展示了三个受益于成功的草图质量建模的实际应用案例。我们希望我们的工作能够帮助寻求进一步应用进展并受到适当质量度量的草图从业者。此外,我们期望GACL不仅限于仅与基于点的矢量草图一起工作,并将其在更多数据模态(例如光栅、3D)上
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功