网格锚点驱动的高效图像裁剪算法：突破非唯一性挑战

PDF格式 | 1.49MB | 更新于2025-01-16 | 37 浏览量 | 举报

"基于网格锚点的图像裁剪方法是一种高效可靠的解决方案，它针对现有图像裁剪问题进行了革新。传统的方法往往依赖于人工标注的边界框，这无法完全体现裁剪的灵活性和多样性。现有的交并比（Intersection over Union, IoU）等评价指标也难以准确衡量作物模型的实际表现。该研究重新定义了图像裁剪的目标，不仅关注去除无关内容和调整纵横比，还考虑到了裁剪的局部冗余、内容保留和美学效果。为了缩小搜索空间，研究人员将候选作物数量从数百万减少到不到100个，通过引入网格锚点的概念，实现了更精确的定位和裁剪决策。这种方法强调了对图像全局结构的考虑，避免了仅依赖局部特征可能导致的视觉不和谐。关键贡献包括设计了一个轻量级网络模块，它能够同时处理感兴趣区域和排除区域，提高了裁剪精度。这个模块能够在不同场景下稳定输出高质量的裁剪结果，同时保持较高的运行速度，如125 FPS。这对于大规模图像处理任务来说具有显著的优势。早期的研究主要侧重于裁剪图像的关键部分，如用于小屏幕显示或生成缩略图，但忽视了裁剪的多样性。注意力分数和显著性值虽然一度是主流关注点，但它们没有充分考虑整体图像构成，导致可能产出视觉上不满意的裁剪结果。用户研究则常常作为主观评价，缺乏客观的量化标准。因此，基于网格锚点的图像裁剪方法通过综合考虑多方面的因素，提供了一种更具创新性和实用性的解决方案，有望推动图像处理领域向更加智能、美观的方向发展。"

可靠高效的图像裁剪：一种基于网格锚点的方法

曾辉

李丽达1

曹

子生

张磊

，

张伟

香港理工大学

DJI Co.

，

阿里巴巴集团达摩

{cshzeng，cslli}@ comp.polyu.edu.hk，zisheng. dji.com，cslzhang@comp.polyu.edu.hk

摘要

图像裁剪旨在通过去除图像中的无关内容来改善图

像的构图和美学质量。现有的图像裁剪数据库只提供

一个或多个人工标注的边界框作为背景信息，不能反

映实际裁剪的非唯一性和灵活性。目前采用的交并比

等评价指标也不能可靠地反映作物模型的真实性能。

这项工作重新审视了图像裁剪的问题，并通过考虑特

殊的属性和要求（例如，图像裁剪的局部冗余、内容

保存、纵横比）。我们的公式减少了搜索空间的可

didate

作物从数百万到不到

100

。构造了一个基于网格

锚点的裁剪基准我们还设计了一个有效的轻量级网络

模块，它同时考虑了感兴趣区域和丢弃区域，以实现

更精确的图像裁剪。我们的模型可以稳定地输出视觉

上令人愉快的作物的图像的不同场景和运行速度为

125

FPS

。

介绍

裁剪是一种重要且广泛使用的操作，用于提高捕获

图像的美学质量。它的目的是去除图像的无关内容，

改变其纵横比，从而改善其组成[37]。由于裁剪是摄

影中的高频需求，但是当要裁剪大量图像时是繁琐的

工作，因此自动图像裁剪在过去几十年中吸引了学术

界和工业界的极大兴趣[4，8，20，39，13，12，1，

3，5，34，2，22]。

关于图像裁剪的早期研究主要集中在裁剪图像的主

要主题或重要区域以用于小型显示器[4，9]或生成图

像缩略图

通讯作者。本研究获香港研究资助局一般研究基金（理大

152135/16 E）资助。

图

图像裁剪的非唯一性给一个源图像，许多好的作物（标

有

在不同的纵横比下得到（例如，1：1，4：3，16：9）。即

使在相同的长宽比下，仍然存在多种可接受的裁剪。关于具

有

：

纵横比的三种作物，通过采用

中间的一个作为

groundtruth

，底部的一个（一个坏的作物，

标记为这表明IoU不是评估种植质量的可靠指标。

[33、27]。注意力分数或显着性值是这些方法的主要

关注点[30，32]。由于很少考虑整体图像组成，基于

注意力的方法可能会导致视觉上不愉快的输出[39]。

此外，用户研究被用作主观评价裁剪性能的主要标

准，这使得很难客观地比较不同的方法。

最近，几个基准数据库已被发布用于图像裁剪[39，

13，5]。在这些数据库中，一个或多个边界框由经验

丰富的人类受试者注释为每个图像的“地面实况”作

物。定义了两个客观度量，即交并（IoU）和边界位移

误差（BDE）[14]，以评估这些数据库上图像裁剪模

型的性能。这些公共基准使许多研究人员能够开发和

测试他们的裁剪模型，大大促进了自动图像裁剪的研

究[39，11，34，5，6，10，15，22，36]。

尽管人们做了很多努力，但由于图像裁剪的特殊

性，仍存在如示于图1、图像裁剪自然是一项主观灵活

的任务，没有独特性，

5949

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

网格锚点驱动的高效图像裁剪算法：突破非唯一性挑战

matlab裁切图像代码-Grid-Anchor-based-Image-Cropping-Pytorch:PyTorch实施“基于网格锚点的

利用shapefile对栅格图像进行裁剪

照片裁剪方法

基于网格锚点的图像裁剪技术在PyTorch中的实现教程

基于html和css的mi商城静态页面

基于 yolo 的行人目标检测 + 源代码 + 详细文档

基于深度学习的行人检测系统（YoloV3+Tensorflow）.zip

yolo-基于tensorflow实现Yolov3目标检测算法+支持训练-优质项目实战.zip

web网页设计期末课程大作业：基于HTML+CSS+JavaScript个人书画作品展示HTML模板(6页)

PhotoShop（PS）图像处理快捷键大全.docx

最新资源