没有合适的资源?快使用搜索试试~ 我知道了~
重新思考图像裁剪:全球多元作物的集合预测方法
2446重新思考图像裁剪:从全球视角探索多元作文贾耿云,黄怀波,付朝友,何冉*中国科学院大学人工智能学院NLPRCRIPAC、中国科学院自动化研究所{gengyun.jia,huaibo.huang} @ cripac.ia.ac.cn,{chaoyou.fu,rhe} @ nlpr.ia.ac.cn摘要现有的图像裁剪方法主要采用锚点评价法或坐标回归法。然而,预定义的锚点难以覆盖全球优质作物,回归方法忽略了作物多样性。在本文中,我们把图像裁剪作为一个集合预测问题。将从多个可学习锚点回归的作物集合与标记的好作物进行匹配,并且使用匹配结果训练分类器以从所有预测中选择有效子集。这种新的视角使我们的模型具有全局性和多样性,减轻了缺点,但继承了以前方法的优点。集合预测法虽然有许多优点,但也会造成有效性指标与作物之间的不一致.为了解决这个问题,我们提出了两种不同的方法来平滑有效性标签。第一种方法,使用作物质量作为直接指导是专为数据集与密集的质量标签。第二种方法是基于自蒸馏的,适用于稀疏标记数据集。在公共数据集上的实验结果表明,我们的方法优于国家的最先进的同行。1. 介绍图像裁剪技术已被广泛应用于改善图像合成效果。自动图像裁剪是为了使这项技术对业余爱好者和非专业人士友好而开发的。以往的工作[3,7,26,31,47]通常将专家知识,如“三分之一规则”融入这样的方法能够实现裁剪过程的可解释性,但在学习复杂特征方面很弱。近年来,已经提出了许多基于深度CNN的数据驱动方法。这些方法大致分为锚定评估方法[4,17,20,37-*通讯作者图1.不同图像裁剪模型的示意图。锚评估模型(左上)可以从预定义的锚中输出不同的作物坐标回归模型(右上角)从全局图像中裁剪,但只输出一个好的裁剪,忽略其他的我们的模型(下图)结合了它们的优点,克服了它们的缺点,从而从全球角度产生了回归方法[8,11,14前者为预定义的锚点分配质量分数后者直接回归输入图像上的一个作物的坐标。锚定评价方法显示了产生多种优良作物的优点如图1的左上方所示,用户可以根据评估的分数选择任意数量的作物。但大多数锚点生成规则不能全局搜索作物空间,导致可能遗漏好作物。相反,坐标回归方法使用全局视图来覆盖所有可能性。但是他们只能从一张图像中预测一种作物,这对于大多数图像来说是不够的,如图1右上角所示。1.一、此外,学习一种最好的作物可能会引起歧义2447因为它潜在地假设其他作物都是坏的。总而言之,裁剪图像就像从果树上采摘水果。锚点评价方法给了我们很多选择的结果(多样性),但它们只搜索部分分支。坐标回归方法检查每个树枝(全局性),但只挑选一个水果。自然,我们应该问一个问题:我们能否结合这两种方法的不同优势,以实现多样性和全球性? 受最近开发的目标检测模型[2]的启发,我们将图像裁剪视为一个集合预测问题,从而提供了一个新的视角。我们的集合预测模型的核心组件是可学习的锚和二分匹配。具体来说,我们随机初始化一组可学习的锚。在通过Transformer模型从输入图像特征中吸收有用信息之后,这些锚点被用于直接回归作物。为了解决预先定义的锚点数和标记的好作物数之间的不平等,我们采用匈牙利算法来执行二分匹配。根据匹配结果,训练分类器总之,直接坐标回归使全局性和多个锚与有效性分类有助于实现多样性。该框架成功地结合了基于锚点的模型和回归模型的不同1.一、尽管有很大的优势,但回归作物和有效性标签之间隐藏着不一致的幽灵。根据二分匹配的结果,我们为不匹配的作物分配硬标签v=0。这样一个硬的价值标签迫使模型平等地对待所有无效作物,而这些无效作物落入一个广泛的质量范围。硬标签与作物品质的复杂性之间的矛盾导致了模型训练的不一致性。为了解决这个问题,我们采用了两种不同的标签平滑方法,使有效性标签更好地反映作物品质。第一种方法使用质量分数来指导平滑。无效作物的质量根据近密集标记数据集中的局部冗余属性[43第二种方法在稠密标签不可用时采用自蒸馏[10],考虑到模型本身具有学习有关作物质量的知识的潜力估计的有效性概率用于生成软标签。最后,我们进行了充分的实验,使用各种评价指标的四个数据集,以验证所提出的方法的有效性。我们的主要贡献总结如下。• 我们从整体性和多样性的角度重新思考图像裁剪:挖掘所有可能性,找到所有好的构图。• 我们把图像裁剪看作一个集合预测问题,其中使用具有有效性分类器的多重回归作物来匹配不同的好作物。这使得全球性和多样性。• 针对作物与有效性标签不一致的问题,将两种不同的标签平滑方法• 进行了大量的实验来评估我们的模型。对比实验和烧蚀研究结果证明了该模型的有效性。2. 相关作品2.1. 图像裁剪为了提高图像的美学质量,图像裁剪与其他类似的任务不同,这些任务只保留有用的内容和结构,如图像重定向[33,34]和图形裁剪[1,41]。因此,美学质量评价技术[12,30]总是涉及。早期作品[6,7,22,26,47]主要使用与浅分类器相关的手工艺美学特征[9]。最近,深度神经网络已经主导了从识别到生成的许多计算机视觉任务[13,27]。有两种主要的种植方法。基于锚点的方法主要研究锚点的生成和锚点的评价方法。Wang等人。 [38]基于图像显着性获得候选人,并采用AVA [30]预训练网络来评估作物。Wei等人。 [39]提出了一种新的图像裁剪数据集和一种基于知识转移的方法。Zeng等人 [43]分析了作物的冗余特性,并基于网格规则定义了锚点。Tu等人。 [37]提出使用成分和显着性感知得分图来评估作物,并设计了两阶段搜索策略来找到好的视图。Chenet al. [5]建议利用网络上的好照片通过随机种植获得坏作物。Li等 [17]指出,不同作物之间的相互关系是提高作物评价性能的关键另一种是直接回归裁剪坐标。 Lu等人 [24]提出了一种端到端网络来实现图像裁剪。Guo等人。 [8]提出采用级联回归直接从整个图像回归作物边界。与其他作品不同,Li等人。 [14,15]采用强化学习方法从整个图像中获得边界框,从而覆盖所有可能的作物。Hong等人 [11]提出了一个明确使用不同构图规则的模型,使模型像摄影师一样工作。2.2. 标签平滑标签平滑已在许多领域显示出有效性。其功能可分为三类2448∉我{1}|}(一)图2.我们的模型框架。左侧部分是模型架构,包含CNN主干、条件Transformer编码器、条件Transformer解码器和两个预测头。该模型预测每个锚点的裁剪和有效性概率(表示为彩色正方形)。右部分描述了二分匹配和标签平滑过程。预测的绿色作物与给定的良好作物相匹配(红色框)。 在密集标记的数据集中,我们通过找到无效作物的高IoU邻居(右上角图像中的相同颜色作物)来估计其质量分数,并使用分数来指导标签平滑。在稀疏标签数据集中,我们使用自蒸馏来平滑标签。[45]包括标签正则化、标签关系挖掘和噪声标签学习。这三个功能永远不会单独发挥作用[42]。通过挖掘不同数据、类或学习阶段之间的关系,从简单的均匀平滑[35]到一些更复杂的形式[10,19,21,45],已经做出了许多努力。也有一些作品试图解释的机制和其他技术的关系[25,29]。本文中的标签平滑是一种标签关系挖掘方法,通过使质量相近的作物具有相近的标签。3. 方法3.1. 基于集合预测的我们介绍了我们的模型从传统的坐标回归模型的演变路径。从这个角度来看,只有多样性需要增加,因为全球性已经配备。因此,我们将任务分解为两个子任务。第一子任务使模型能够预测固定数量的多种作物,第二子任务将固定数量放宽为任意数量。为了实现第一个目标,我们采用多输入有限元-tures,即,锚,回归多种作物。具体地说,chors和图像作为输入具有两种不同的功能。第一个函数在不同的锚之间交换信息。第二功能将来自输入图像的信息发送到锚。最后,利用回归头预测作物长势。从锚qi的R4。在第一个子任务中,我们定义一个足够大的锚数Nq。但两个新问题出现了。首先,来自第j个图像的好作物的数量N Bj可能达不到N q,即,NBj< N q.第二,不同的图像可以具有不同数量的好作物,即,N Bj = N Bi。因此,在第二子任务中,我们创建了一个辅助的二元分类器来从所有N q个回归作物中找到不同的有效子集。分类器输出表示输入图像Ij中的回归作物y i的有效性概率。为了训练有效性分类和坐标回归,使用与[ 2 ]相同的匈牙利算法在标记的好作物和锚预测之间执行二分匹配。具 体地,将N Bj个好作物填充到N q。在填充之后,我们具有地面实况标签集Yj= yi i =1,2,., 其中y i包含好作物的坐标bi和有效性标签vi, .{bi=[c x,c y,w,h],v i= 1}1 ≤ i≤ N Bj我们随机初始化一组可学习的锚q i∈ RC,其中i∈{1,2,.,N q}。一个模型,既需要一个-yi={bi= 0,vi= 0}NBj+1≤i≤Nq2449≥.ΣLLi(a) 最初的作物。(b)知识作物。图3.第一种作物和学习作物之间的比较。我们展示了随机选择的7个无效锚点的裁剪。其中[cx,cy,w,h]分别表示裁剪的中心坐标、宽度和高度。bipartite匹配找到一个ind。ex makingdomσ∈SNq使得质量差。但在后期的训练阶段,从这些锚的作物的质量显着提高。在这种情况下,有效性标签变成质量标签,指示给定作物是好的(vi=1)或坏的(vi=0)。但是,仅仅用一个层次的“坏”来描述无效作物是不合理的,特别是当我们用一个严格的标准来定义好作物时。例如,一些数据集[39,43,44]采用多个用户的连续平均意见评分(范围从1到5)来描述农作物的质量。 如果我们设置标准s4来定义好的作物,得分s i=1的作物。2和具有分数sj=3的作物。8种都是坏作物,尽管它们的品质差异很大。这是回归作物和有效性标签之间不一致的根源。为了解决这个问题,我们建议平滑的VA-匹配成本L匹配yi,y<$σ(i)N最小化:颜色标签,以更好地反映作物品质两个不同提出了适应不同情况的方法。现将其详细介绍σ=argminLmat ch. yi,y<$σ(i)<$(2)在我们的模型中,我们使用三种损失的总和,包括坐标回归损失,广义IoU损失和焦点损失[28]:3.2.1高质量的指导回想一下,我们的目标是提高标签质量,直接的解决方案是使用Lmat ch. yi,y<$σ(i)<$=Lreg(bi,<$bσ(i))+λiouLiou(bi,λbσ(i))无效的作物,使更好的作物有更平滑的标签。+λfocalLfocal(vi,v<$σ(i)),(三)然而,这些品质是不可用的。一种替代方法是找到一种可靠的方法来估计质量。幸运的是其中λiou和λbce是不同损耗之间的权衡参数。注意,当bi = 0时,iou= reg =0。我们发现,焦点损失是至关重要的,以防止模型退化到一个天真的解决方案。最后,通过最小化最佳匹配Lmat chyi,y<$σi(i)下的损失来更新模型参数。3.2. 标签平滑我们的集合预测模型使用有效性分类器从预测中选择作物。根据二分匹配的结果,将简单的二进制标签分配给回归后的作物.对于标签和裁剪之间的不一致性,此标签设置可能不是最佳设置。在本小节中,我们建议使用标签平滑方法来解决这个问题。我们首先分析了不一致性的存在在训练过程中,只有有效的锚点被分配当训练数据具有标记有质量分数的几乎密集的作物时,称为局部冗余的属性[43]可以帮助我们实现这一目标。这一特性表明,人类的感知对种植规模和种植地点的微小变化并不敏感。换句话说,两种具有极高的联合交叉(IoU)的作物的质量很可能是相同的在实践中,我们首先计算回归无效作物与训练图像中标记有质量分数的所有作物之间的IoU。然后我们检查最大IoU是否大于给定的阈值。一旦满足条件,我们就可以直接将质量分数从最大IoU邻居转移到无效作物。最后,我们定义一个截断线性函数M,将质量分数si映射到软标签v:如果si≤sl,则为0好的庄稼。剩下的锚就只剩下-v~i =M(si)=µsi−sl,如果sl ssu−sli ≤su(四)输出用于裁剪坐标回归的任何监控信号。但这并不意味着这些无效的锚只输出无意义的噪音。这是因为输入图像中的无效锚点可能对于某些其他图像变得有效。当模型经过充分训练时,许多锚可以回归有意义的作物。图3示出了无效锚点预测的变化的示例。在初始阶段,大多数无效锚仅生成作物µ,如果x≥su其中μ是平滑标签的上限,以确保有效和无效锚点之间有足够大的标签间隙SL和SU是两个质量分数阈值。质量分数低于sl的作物将直接使用标签0,质量分数高于su的作物的标签为µ。σ∈SNq我2450L=L(v,v)+L(F(X,q),v)NBj不最好J∗∗不联系我们--3.2.2自蒸馏在第一种方法中,利用局部冗余特性,可以快速估计出无效作物然而,一旦训练数据不提供具有质量分数的接近密集的作物,大多数无效作物就无法找到它们的高IoU邻居。 在这种情况下,模型本身是我们唯一可以依靠的东西。一些以前的工作[10]发现,即使在分类任务中使用one-hot硬标签训练,模型本身也可以学习类之间的关系。根据这个性质,我们采用自蒸馏方法[18,36,46]来平滑标签。具体来说,我们开始使用默认的硬标签来训练我们的模型当模型收敛于一个好的点时,增加一个新的有效性分类损失,使用来自动量平均模型的预测有效性概率作为软标签。给定训练迭代t时训练良好的模型Ft,我们将动量平均模型Ft定义为:表1. ACC1/N在GAICv 1和GAICv 2数据集上的性能。模型GAICv1GAICv2ACC5ACC10ACC5ACC10A2-RL [14]23.038.523.239.5VPN [39]40.049.536.048.5VFN [5]27.039.026.640.6VEN [39]40.554.037.550.5[43]第四十三话53.571.565.882.4[44]第四十四话--68.285.8ASM-Net [37]54.371.5--Li等人 [17个]63.081.5--MFDM [40]66.583.0--TransView [32]--69.085.4Ours(= 0.(85)81.591.085.092.6Ours(= 0.90)65.574.572.086.0F= θFt+(1−θ)Ft−1(五)GAICv1数据集[43]有1,036张用于训练的图像和200张用于测试的图像每张图片最多包含90个其中θ是移动平均衰减。有效性分类损失变为:tt有效焦点i σ(i)焦点j σ(i)σ(i)(六)3.3. 模型架构我们的模型架构类似于条件DETR(cDETR)[28]。该模型由三个部分组成,CNN骨干,Transformer编码器和Transformer解码器。CNN主干和Transformer编码器从输入图像中提取特征。Transformer解码器将编码器输出和可学习锚点两者作为输入以执行自注意和交叉注意两者。自注意模块在不同锚点之间交换知识,并且交叉注意模块将图像特征传输到锚点。最后,回归头和分类头被用来估计裁剪坐标和有效性概率。4. 实验由预定义的网格锚定规则生成的作物。每种作物都标有1到5的分数。该数据集扩展到GAICv2[44],其中训练,验证和测试图像的数量分别为2,636,200和500GAICv1中没有正式的验证数据分割,因此我们从其训练集中随机选择36张图像进行验证。至于GAICv2数据集,我们使用其官方协议。4.2.评估指标IoU是最常用的度量标准。然而,一些作品[43,44]指出,这是不可靠的。因此,除了IoU度量外,我们还使用ACCK/N度量[43]来评估我们的模型。仅使用K=1,因为不能确保图像中的良好作物的数量大于1。给定地面实况良好裁剪集合Bj={b1,..., bNBj},并且回归的裁剪集合BN Bj=NB1,.,b对于前N个Bj有效性得分,ACC 1/N在我们的模型中定义如下:4.1. 数据集ACC=11(max{FN(bj),bj)}≥),(7)FLMS数据集[7]包含500张图像,每张图像标注了不超过10种优质作物。这1/N不j=1bj∈BIOU最好数据集仅用于测试。CPC数据集[39]是一个包含10,797个图像的大型数据集每幅图像上有四组作物,对应四种长宽比,每组有六种作物。六名AMT工作人员通过两阶段注释管道对每种作物进行注释,评分范围从0到4此数据集仅用于训练。我们随机选择1,000张图像作为验证数据。其中bj是在B j中具有最高质量分数的 作 物,B<$N表示对于所有j,NB<$j=N。当满足条件时,1()等于1,否则等于0。是预定义的IoU阈值。当两种作物之间的欠条如果足够大,则根据局部冗余性,两种作物的质量可以被认为是相同的[43]。两个阈值为100。85,0。90在我们的实验中使用。2451--表2. AP在GAICv2数据集上的不同前K预测的性能。模型APK= 5K= 10K= 40VEN [39]20.225.534.7[44]第四十四话24.333.842.2Ours(= 0.(85)38.250.556.8Ours(= 0.90)30.340.647.4ACC 1/N有时是有限的,因为它只反映了最佳作物的召回性能,而我们在许多图像中定义了不止一个好作物。因此,我们进一步使用平均精度(AP)度量,通过对不同召回率下的不同精度进行平均来计算。该度量已被广泛应用于目标检测模型中,能更好地反映目标检测的整体性能。我们的实现基于COCOAPI。请访问https://github。com/cocosataset/cocoapi了解有关此指标的更多详细信息。4.3. 实现细节培训和评估细节:我们遵循cDETR [28]中的优化器是ADAMW [23]10- 4的重量衰减。学习率为10−4,CNN主干使用较低的学习率10−5。该模型被训练了50个epoch,学习率除以第40个时代的十个。在自蒸馏标签平滑中,我们在第40个epoch开始蒸馏,在第50个epoch降低学习率,并在第60个epoch停止训练。数据集设置:我们使用类似于[43]的数据增强。还使用与[2]相同的多尺度增强。在GAICv1和GAICv2数据集中,我们将质量分数高于4的作物定义为地面实况好作物。除非另有说明,否则质量指导用于平滑两个数据集中的标签对于CPC数据集,质量分数阈值为2,我们使用自蒸馏平滑标签。模型设置:损耗权衡参数设置为λiou=λfocal=0。4.第一章我们为所有数据集使用90个锚点。在质量引导的标签平滑中,我们设置sl=2,su= 1,3 .第三章。5,μ=0。五、在自提炼标签平滑中,移动平均速率θ被设置为0.5。4.4. 与先前方法的定量比较:我们首先比较GAICv1 [43]和GAICv2 [44]数据集表3. FLMS数据集上的IoU性能。模型IOUFang等 [七]《中国日报》0.740ABP+AA [38]0.810VPN [39]0.835VEN [39]0.837[44]第四十四话0.836我们0.838可以观察到当k=0时指标的显著性能改进。85,表明我们的模型的巨大优越性。即使是当=0时。90,我们的模型仍然在GAICv2数据集上获得最佳性能。我们将ACC1/N度量的成功归因于我们模型的两个特征首先,与基于锚点的模型相比,我们的模型集中于寻找好的作物,而不是评估整个质量范围内的所有作物后一种方法可能会分散模型的注意力,特别是当高质量的作物只占所有锚点的一小部分其次,与传统的单一产量作物回归模型不同,我们的模型自适应地产生多个好作物,更全面地覆盖不同的组成,规模和偏好。因此,具有最高质量分数的作物更有可能被我们的模型检测到。我们进一步给出了AP度量的结果。开源的基于锚点的模型[39,44]被用作竞争对手,因为该指标不适用于传统的回归模型。为了计算AP度量,我们需要选择具有前K有效性概率的预测,能力.我们设置了三个不同的K值5、10、40,并在表2中显示了结果。结果表明,我们的模型在所有的设置中都优于竞争对手。最后,我们的模型与FLMS数据集上使用IoU度量的以前的模型进行了比较该模型是在CPC数据集上训练的。表3中的实验结果表明,我们的模型达到了类似的结果与以前的工作。因为该指标并不总是可靠的,如[43]中所分析的结果仅反映了粗略的性能。定性比较:我们使用一些定性比较来显示我们的模型相对于传统方法的优势。这里使用的模型是在CPC数据集上训练的根据有效性概率从前10个输出中选择作物使用的图像是使用ACC 1五分之一和行政协调会1/10 指标.表1显示从AVA [30]数据集中选择,并确保不会存在于训练数据中。 正如我们之前分析的那样,两个数据集的结果。我们直接展示了他们的论文中所报道的以前工作的我们1注意ACC1/N缩写为ACCN,以适应表标度仅从单一视图裁剪的协调回归模型缺乏多样性。图5显示了两个例子,我们的模型为每个输入图像找到了两个好的作物,而A2 RL [14]模型只生成一个作物。传2452统2453图4. 全局性:在每对图像中,左边的是输入图像,右边的是我们模型预测的裁剪。当使用[43]中的锚时,四个锚角需要位于每个图像中所示的相应四个白色透明区域但是,裁剪的边界框(红色虚线)不满足要求。这意味着我们的模型可以生成[43]中预定义锚中不存在的作物。图5. 多样性:与以往的坐标回归模型只能从一个视角进行作物生长相比,我们的模型可以产生多个好的作物。锚评估模型需要精心设计的锚。然而,有时候还是有被忽视的好庄稼,导致缺乏全球性。我们在图4中使用了六个例子来说明我们的模型克服了这种弱点。当使用[43]中定义的网格锚点时,锚点的四个角需要位于图4中图像对左侧所示的相应四个白色透明区域内。但是,我们模型中的作物(显示在图像对的右侧,并在左侧输入图像上表示为红色虚线这意味着我们的模型生成了一些网格锚中不存在的好作物。网格锚点缺乏全局性的一个原因是它们使用了一个强有力的假设,称为内容保留。有时,这种假设在现实世界的应用中并不成立,因为业余用户并不总是将关键对象放在中心区域。4.5. 标签平滑分析质量指导:我们在等式中显示了上限µ的影响。(4)在标签平滑的基础上进行质量指导(QG)。理论上,更高的µ带来更好的一致性。当设置µ=0时,模型不使用标签平滑。AP性能与λ=0。在不同μ下,K =90和K=40的曲线如图6b所示。图6a给出了不同μ下的映射函数。我们可以观察到两种现象。首先,与二进制硬标签相比,质量引导的平滑标签有效地提高了性能。AP度量从42.8提高到47.4。其次,过度平滑的标签非常有害。当上界非常接近1时,性能急剧下降。例如,当µ = 0时,AP仅为29.2。9 .第九条。这些现象表明,标签平滑既有积极的影响,也有消极的影响。负面影响可能源于对模型可分辨性的破坏。如果µ接近1,则小的标签余量将使模型难以区分无效作物和有效作物。自蒸馏:在自蒸馏(SD)方法中,我们关注两个问题:(1)这种标签平滑方法是否有效?(2)自学软标签的特点是什么?为了回答第一个问题,我们在GAICv2和CPC数据集上进行了实验在CPC数据集中,我们随机选择了1000张图像来测试模型的性能。 表4中的结果示出了AP(λ=0. 85)度量在两个数据集上获得一致的改进。证明了该标记平滑方法的有效性。对于第二个问题,我们主要关心的是学习的软标签和作物质量之间的关系。 因此,我们使用第节3.2.1尽可能估计回归作物的质量分数,并将作物绘制成散点图,x轴代表估计的质量分数,y轴代表2454--(a) 质量-标签映射函数M在不同的µ(b) 不同µ下的(a) GAICv2测试数据。(b)GAICv2培训数据。图7.质量-有效性散点图。横坐标是图6.标签平滑上限µ的影响。我们测试6个不同的µ值0,0。1,0。3,0。5,0。七比零。图9(a)示出了不同μ下的映射函数M。(b)显示AP(Δ P =0。90,K=40)在不同µ.表4. AP(λ=0. 85)在两个数据集上有和没有自蒸馏的模型的性能。模型GAICv2中共K= 10K= 40K= 10K= 40不含SD47.954.826.326.6含SD49.055.527.027.8讨厌那些有学问的软标签。图7b中仅绘制了GAICv2中训练图像的无效裁剪。对于测试图像,具有估计的有效性概率的所有作物在图7a中示出。这两个数字显示了质量分数和软标签之间的显着正相关。大多数高有效性概率属于高品质作物,而几乎所有低品质作物仅具有低有效性概率。这一现象进一步证明了我们的分析,即标签平滑通过改善有效标签与回归作物之间的一致性来改善模型性能两种方法之间的比较:我们最后使用AP指标在GAICv2数据集上比较了两种不同的标签平滑方法。从理论上讲,质量导向法应优于自蒸馏法。这是因为前者可以直接使用精确估计的质量分数。相比之下,后者只使用从模型本身学习的知识实验结果表明,质量指导方法在表5中的所有条件下都表现得更好,证明了我们的推论。我们还观察到,在λ =0时,性能差距更大。九十这一现象进一步证实了直接质量指导。5. 限制和更广泛的影响我们的模型的一个主要局限性是作物规模的偏见。我们注意到,在GAIC数据集上训练的模型倾向于生成大规模的作物,而忽略了小的好作物。我们将在今后的工作中解决这个问题一个可能的负面影响是对个人的影响使用第3.2.1节中描述的方法,估计的质量分数范围从1到5,纵坐标是来自有效性分类器的概率。在训练和测试数据中,我们可以观察到有效性概率和质量分数之间的正相关性。表5. AP两种不同标签平滑方法在GAICv2数据集上的性能。光滑方法AP(λ = 0.(85)AP(λ = 0.90)K= 10K= 40K= 10K= 40QGSD50.549.056.855.540.637.747.443.5神学图像裁剪模型的滥用可能会使人们过分关注常见的裁剪模式,而忽略了高度不同的个人偏好。6. 结论分析了传统图像裁剪模型的不足。我们提出了一个新的视角,把图像裁剪作为一个集合预测问题,以减轻他们的缺点。集合预测模型直接回归多种作物并自动估计其有效性。然而,我们发现原始集合预测在回归的作物和多样性标签之间缺乏一致性。我们提出了两种方法来缓解不同情况下的不一致性问题。质量指导方法直接使用估计的质量分数,自蒸馏方法从模型本身提取知识大量的实验结果证明了不同模块的有效性,并显示出优于以往方法的优点。7. 确认本课题得到了国家自然科学基金(U21 B2045、U20A20223)、中国科学院青年创新促进会(Y201929)和CCF-百度开放基金(批准号:2021PP15002000)。2455引用[1] Filippo Maria Bianchi, Daniele Grattarola , and CesareAlibaba.用于图池的图神经网络谱聚类。国际机器学习会议,第874-883页。PMLR,2020年。2[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中 , 第213Springer,2020年。二、三、六[3] 陈立群,谢星,范鑫,马伟英,张洪江,周鹤琴。一个视觉注意力模型,用于适应小型显示器上的图像。多媒体系统,9(4):353-364,2003年。1[4] Yi-Ling Chen,Tzu-Wei Huang,Kai-Han Chang,Yu-Chen Tsai,Hwann-Tzong Chen,and Bing-Yu Chen.自动图像裁剪算法的定量分析:数据集和比较研究。在IEEE计算机视觉应用冬季会议上,第226-234页,2017年。1[5] Yi-Ling Chen,Jan Klopp,Min Sun,Shao-Yi Chien,and Kwan-Liu Ma.在网上学习用专业照片作曲。在ACM国际多媒体会议上,第37-45页,2017年。二、五[6] Ritendra Datta,Dhiraj Joshi,Jia Li,and James Z Wang.使用计算方法研究摄影图像中的美学。在欧洲计算机视觉会议上,第288-301页Springer,2006年。2[7] 陈方,林哲,拉多米尔机甲,沈晓慧。使用视觉合成、边界简化和内容保存模型的黄金图像裁剪。在ACM多媒体国际会议上,第1105-1108页ACM,2014年。一、二、五、六[8] Guanjun Guo,Hanzi Wang,Chunhua Shen,Yan Yan,and Hong-Yuan Mark Liao.使用深度神经网络和级联回归 进 行 自 动 图 像 裁 剪 以 增 强 视 觉 美 感 。 IEEETransactions on Multimedia , 20 ( 8 ) : 2073-2085 ,2018。一、二[9] 何然,胡宝刚,袁晓彤。基于非参数最大熵的鲁棒判别分 析 。 在 亚 洲 机 器 学 习 会 议 上 , 第 120-134 页 。Springer,2009. 2[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。二三五[11] Chaoyi Hong , Shuaiyuan Du , Ke Xian , Hao Lu ,Zhiguo Cao,and Weicai Zhong.像摄影师一样构图。在IEEE/CVF计算机视觉和模式识别会议论文集,第7057-7066页,2021年。一、二[12] 贾耿云,李佩佩,何冉。使用全分辨率照片进行主题感知美学分布预测。IEEE Transactions on Neural Networksand Learning Systems,2022。2[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,25,2012。2[14] Debang Li , Huikai Wu , Junge Zhang , and KaiqiHuang.A2- rl:用于图像裁剪的美学感知强化学习。在IEEE计算机视觉和模式识别会议上,第8193-8201页,2018年。一、二、五、六[15] Debang Li,Huikai Wu,Junge Zhang,and Kaiqi Huang.Fast a3rl:用于图像裁剪的美学感知对抗强化学习。IEEE Transactions on Image Processing,2019。一、二[16] 李德邦,张军歌,黄凯琪。学习学习不同长宽比要求的裁剪模型。在IEEE/CVF计算机视觉和模式识别会议论文集,第12685-12694页1[17] 李德邦,张军歌,黄凯琪,杨明轩。利用相互关系组成好的镜头在IEEE计算机视觉和模式识别会议上,第4213-4222页一、二、五[18] Peipei Li,Yibo Hu,Xiang Wu,Ran He,and ZhenanSun.用于年龄估计的深度标签细化。模式识别,100:107178,2020。5[19] Weizhi Li,Gautam Dasarathy,and Visar Berisha.通过结构标签平滑进行正则化。在人工智能和统计国际会议上,第1453PMLR,2020年。3[20] Tianpei Lian,Zhiguo Cao,Ke Xian,Zhiyu Pan,andWeicai Zhong.用于图像裁剪的上下文感知候选项。2021年IEEE图像处理国际会议(ICIP),第1479-1483页。IEEE,2021。1[21] Jul i anLienenandEy k eHüllermeier. 从标签平滑到标签松弛。在第35届AAAI人工智能会议论文集,AAAI,在线,2021年2月2日至9日。AAAI Press,2021. 3[22] Liang Liu,Renjie Chen,Lior Wolf,and Daniel Cohen-Or. 优 化 照 片 构 图 。 Computer Graphics Forum , 29(2):469-478,2010. 2[23] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权去cay正则化。在2018年国际学习代表。6[24] 彭璐,张浩,彭旭君,金晓芙。一个端到端的神经网络,通过从美学照片中学习构图来进行图像裁剪。arXiv预印本arXiv:1907.01432,2019。一、二[25] Michal Lukasik、Srinadh Bhojanapalli、Aditya Menon和Sanjiv Kumar。标签平滑是否会减轻标签噪声?国际机器学习会议,第6448-6458页。PMLR,2020年。3[26] Matthew Ma和Jinhong K Guo。内置摄像头的移动终端自动图像在2004年第一届IEEE消费者通信和网络会议上。CCNC 2004年。第710-711页。IEEE,2004年。一、二[27] Xin Ma , Xiaoqiang Zhou , Huaibo Huang , GenghunJia,Zhenhua Chai,and Xiaolin Wei.工作面完井的密集场估 计对 比注 意网 络。Pat-tern Recognition , 124:108465,2022. 2[28] Depu Meng,Xiaokang Chen,Zejia Fan,Gang Zeng,Houqiang Li , Yuhui Yuan , Lei Sun , and JingdongWang. 快 速 训 练 收 敛 的 条 件 detrarXiv 预 印 本 arXiv :2108.06152,2021。四五六2456[29] 拉斐尔·穆勒,西蒙·科恩布利斯,吉奥·弗·雷·辛顿。当并 标签平滑帮助?arXiv 预 印 本arXiv:1906.02629,2019。3[30] Naila Murray Luca Marchesotti和Florent Perronnin Ava:用于美学视觉分析的大型数据库。在IEEE计算机视觉和模式识别会议上,第2408-2415页。IEEE,2012。二、六[31] 倪冰冰,徐梦迪,程斌,王梦,严水城,齐天。学习摄影:一个组成的角度。IEEE Transactions on Multime-dia,15(5):1138-1151,2013。1[32] Zhiyu Pan,Zhiguo Cao,Kewei Wang,Hao Lu和WeicaiZhong。横向视图:在裁剪视图边界内部、外部和跨裁剪视图边界。在IEEE/CVF国际计算机视觉会议集,第42185[33] Michael Rubinstein , Diego Gutierrez , Olga Sorkine ,and Ariel Shamir. 图 像 重 定 向 的 比 较 研 究 。 ACMSIGGRAPH Asia,第1-10页,2010年。2[34] Vidya Setlur,Saeko Takagi,Ramesh Raskar,MichaelGle- icher,and Bruce Gooch.自动图像重定向。在2005年第四届移动和普适多媒体国际会议的会议记录中,第59-68页。2[35] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构在Proceedings of the IEEE conference on computervision and pattern recognition,pages 28183[36] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。平均教师是更好的榜样:加权平均一致性目标改善了半监督深度学习结果。arXiv预印本arXiv:170
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功