没有合适的资源?快使用搜索试试~ 我知道了~
基于网格锚点的图像裁剪方法
1可靠高效的图像裁剪:一种基于网格锚点的方法曾辉1李丽达1曹子生2张磊1,3张伟1香港理工大学2DJI Co.,3阿里巴巴集团达摩{cshzeng,cslli}@ comp.polyu.edu.hk,zisheng. dji.com,cslzhang@comp.polyu.edu.hk摘要图像裁剪旨在通过去除图像中的无关内容来改善图像的构图和美学质量。现有的图像裁剪数据库只提供一个或多个人工标注的边界框作为背景信息,不能反映实际裁剪的非唯一性和灵活性。目前采用的交并比等评价指标也不能可靠地反映作物模型的真实性能。这项工作重新审视了图像裁剪的问题,并通过考虑特殊的属性和要求(例如,图像裁剪的局部冗余、内容保存、纵横比)。我们的公式减少了搜索空间的可didate作物从数百万到不到100。构造了一个基于网格锚点的裁剪基准我们还设计了一个有效的轻量级网络模块,它同时考虑了感兴趣区域和丢弃区域,以实现更精确的图像裁剪。我们的模型可以稳定地输出视觉上令人愉快的作物的图像的不同场景和运行速度为125FPS。1. 介绍裁剪是一种重要且广泛使用的操作,用于提高捕获图像的美学质量。 它的目的是去除图像的无关内容,改变其纵横比,从而改善其组成[37]。由于裁剪是摄影中的高频需求,但是当要裁剪大量图像时是繁琐的工作,因此自动图像裁剪在过去几十年中吸引了学术界和工业界的极大兴趣[4,8,20,39,13,12,1,3,5,34,2,22]。关于图像裁剪的早期研究主要集中在裁剪图像的主要主题或重要区域以用于小型显示器[4,9]或生成图像缩略图*通讯作者。本研究获香港研究资助局一般研究基金(理大152135/16 E)资助。图1.图像裁剪的非唯一性给一个源图像,许多好的作物(标有在不同的纵横比下得到(例如,1:1,4:3,16:9)。即使在相同的长宽比下,仍然存在多种可接受的裁剪。关于具有16:9纵横比的三种作物,通过采用中间的一个作为groundtruth,底部的一个(一个坏的作物,标记为这表明IoU不是评估种植质量的可靠指标。[33、27]。注意力分数或显着性值是这些方法的主要关注点[30,32]。由于很少考虑整体图像组成,基于注意力的方法可能会导致视觉上不愉快的输出[39]。此外,用户研究被用作主观评价裁剪性能的主要标准,这使得很难客观地比较不同的方法。最近,几个基准数据库已被发布用于图像裁剪[39,13,5]。在这些数据库中,一个或多个边界框由经验丰富的人类受试者注释为每个图像的“地面实况”作物。定义了两个客观度量,即交并(IoU)和边界位移误差(BDE)[14],以评估这些数据库上图像裁剪模型的性能。这些公共基准使许多研究人员能够开发和测试他们的裁剪模型,大大促进了自动图像裁剪的研究[39,11,34,5,6,10,15,22,36]。尽管人们做了很多努力,但由于图像裁剪的特殊性,仍存在如示于图1、图像裁剪自然是一项主观灵活的任务,没有独特性,59495950表1.在两个基准点上与两个最简单的基线进行比较的BaselineN简单地计算地面实况和源图像之间的IoU,而不进行裁剪。基线C裁剪宽度和高度为源图像的0.9倍的中心部分。方法ICDB[39]FCDB[5]集1集合2组3Yan等人[39]第三十九届0.74870.72880.7322–Chen等人[五]《中国日报》0.66830.66180.64830.6020Chen等人[6]美国0.76400.75290.73330.6802Wang等人[34个]0.81300.80600.8160–Li等[22日]0.80190.79610.79020.6633基线N0.82370.82990.80790.6379基线C0.78430.75990.76360.6647溶液好的作物可以在纵横比和/或分辨率的不同要求下显著变化。即使在某些纵横比或分辨率约束下,可接受的裁剪也可以变化。如此高的自由度使得现有的只有一个或多个注释的裁剪数据库难以学习可靠和鲁棒的裁剪模型。通常采用的IoU或BDE度量也不能可靠地评估图像裁剪模型的性能参考图中长宽比为16:9的三种作物。1,通过将中间的一个作为地面实况,底部的一个,这是一个坏的作物,将有明显更大的IoU比顶部的一个,这是一个好的作物。从表1可以更清楚地观察到这样的问题。 通过使用IoU来评估最近的作品[39,34,5,6,22]在基准ICDB [39]和FCDB [5]上的性能,其中大多数的性能甚至比两个最简单的基线更差:没有裁剪(即,将源图像作为裁剪输出,由基线N表示)或中心裁剪(即,裁剪宽度和高度为源图像0.9倍的中心部分,用基线C表示)。图像裁剪的特殊性使得训练一个有效的裁剪模型成为一个具有挑战性的任务一方面,由于图像裁剪的注释(需要良好的摄影知识和经验)非常昂贵[5],现有的裁剪数据库[39,13,5]仅为约1,000个源图像提供一个或多个注释的裁剪。另一方面,图像裁剪的搜索空间非常大,每幅图像有数百万个候选裁剪对象。显然,当前数据库中的标注数据量不足以训练鲁棒的裁剪模型。在这项工作中,我们重新考虑图像裁剪的问题,并提出了一种新的方法,即基于网格锚的图像裁剪,以解决这一具有挑战性的任务,在一个可靠和有效的方式。我们的贡献有三方面。1). 针对图像裁剪问题的特殊性和要求,提出了一种基于网格锚点的图像裁剪算法我们的配方将候选作物的数量从数百万减少到更少超过100个,为图像裁剪提供了非常有效的解决方案。2). 基于我们的公式,我们构建了一个新的图像裁剪数据库,为每个源图像提供详尽的注释。我们的数据库有106,860个带注释的候选作物,为学习鲁棒的图像裁剪模型提供了一个很好的平台。还定义了更可靠的指标来评估学习的裁剪模型的性能3). 在卷积神经网络架构下设计了一个高效的图像裁剪模块学习的裁剪模型以125 FPS的速度运行,并在各种要求下获得了令人满意的性能。2. 相关工作现有的图像裁剪方法根据其主要驱动力可分为注意力驱动的方法。早期的方法大多是注意力驱动的,旨在识别图像的主要主题或他们中的大多数[4,33,32,27]诉诸显着性检测算法(例如,[19])得到图像的关注度图,并搜索关注度值最高的裁剪窗口。一些方法还采用面部检测[42]或凝视交互[30]来找到图像的重要区域。美学驱动的方法。美学驱动方法通过强调图像的整体美学质量来改进基于注意力的方法。这些方法[42,29,7,23,39,41,13,40]通常设计一组手工制作的特征来表征图像的美学特性或构图规则。一些方法进一步设计质量度量[42,23]来评估候选作物的质量,而一些方法则采用训练美学判别器,如SVM[29,7]。两个裁剪数据库[39,13]的发布促进了区分裁剪模型的训练。然而,手工制作的特征还不足以准确预测图像美学[11]。数据驱动的方法。大多数最近的方法是数据驱动的,它们训练用于图像裁剪的端到端CNN模型。然而,受限于带注释的训练样本的数量不足,该类别中的许多方法[5,34,35,11,10,15,22]采用从图像美学数据库(例如AVA)[28][ 25 ][27][28][29][然而,在完整图像上训练的通用美学分类器可能无法可靠地评估一个图像内的作物[6,36]。另一种策略是使用成对学习来构建更多的训练数据[6,36]。但是,由于图像裁剪的主观性质,排名对的注释也非常昂贵最近,Weiet al. [36]建立了一个大规模的比较照片构图(CPC)数据库595144MN4MN4图2.图像裁剪的局部冗余。小的局部变化(例如,移位和/或缩放)也很可能输出可接受的作物使用有效的两阶段注释协议,其为成对学习提供了良好的训练集。不幸的是,成对学习不能为图像裁剪提供足够的评估指标。3. 基于网格锚点的图像裁剪如示于图1、图像裁剪自由度高。对于给定的图像,没有唯一的最佳裁剪。我们认为一个好的图像裁剪系统的两个实际要求。首先,可靠的裁剪系统应该能够针对不同的设置返回可接受的结果(例如,宽高比和分辨率)而不是单个输出。其次,裁剪系统应该是轻量级的,并且能够在资源有限的设备上高效运行有了这些考虑,我们提出了一个网格锚为基础的制定实际的图像裁剪,并构建了一个新的基准在此制定。3.1. 基于网格锚的公式化给定分辨率为H×W的图像,可以使用其左上角(x1,y1)和右下角(x2,y2)来定义候选裁剪,其中1≤x1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功