尺度可变网络：基于双线性插值与池化的图像识别提升

173 浏览量更新于2024-08-29 收藏 1.94MB PDF 举报

"基于双线性插值和池化的尺度可变网络，旨在解决传统卷积神经网络（CNN）对固定尺寸输入图像的依赖问题。该文提出了一种新的网络结构，允许网络接受不同尺寸的输入图像，从而避免了信息丢失和图像变形，提升了图像识别和目标检测的准确性。在CompCars细粒度车型分类任务中，采用尺度可变网络后，分类准确度平均提高了5%。" 在传统的卷积神经网络中，如GoogLeNet和ResNet，网络的输入图像尺寸通常需要固定。当处理不同大小的图片时，通常采用剪裁或缩放的方法，但这可能导致图像关键信息的损失和图像失真，进而影响识别和检测的精度。卷积层由于其参数与输入尺寸无关，可以在不同大小的特征图上进行操作，而池化层则通过固定大小的窗口对输入进行下采样。然而，这两种方法都无法直接处理不同尺寸的输入。双线性插值是一种常用的图像缩放技术，它能以较高的保真度增加输入特征图的尺寸。结合池化层，可以构建一个能够适应不同输入尺度的网络结构。作者提出的尺度可变网络（Scale-Variant Network, SVN）就是基于这一思想，通过可变尺度池化和双线性插值，使得网络能够处理不同尺寸的输入图像，而不牺牲图像信息的完整性和网络性能。在SVN中，可变尺度池化层可以根据输入图像的尺寸动态调整其下采样率，确保重要信息被保留。而双线性插值则在扩大特征图尺寸时，通过计算相邻像素的加权平均来估计新位置的像素值，以保持图像质量。这种结合方式使得网络能够在不同尺寸的输入之间平滑地变换，适应性强，且减少了因图像预处理带来的信息损失。在实际应用中，作者在CompCars细粒度车型分类任务上验证了SVN的有效性。实验结果显示，使用尺度可变网络后，无论输入图像尺寸如何变化，分类准确度都有平均5%的提升。这表明，SVN不仅理论上解决了输入尺寸问题，而且在实际应用中也取得了显著的性能提升。总结起来，"基于双线性插值和池化的尺度可变网络"是针对卷积神经网络对固定尺寸输入限制的一种创新解决方案，通过可变尺度池化和双线性插值技术，实现了网络对不同尺寸输入的兼容，提升了图像识别和目标检测的准确性。这对于处理现实世界中多样化的图像数据具有重要的理论价值和实践意义。

电子设计工程

Electronic Design Engineering

第 27卷

Vol.27

第 1期

No.1

2019年 1月

Jan. 2019

收稿日期：2018-04-03 稿件编号：201804029

基金项目：国家自然科学基金（61702491）

作者简介：赵巍颂（1992—），男，四川南江人，硕士。研究方向：计算机视觉。

对于传统的卷积神经网络，如 GoogLeNet，ResNet

等，当网络训练好后输入的图像尺寸必须固定。当我们

希望检测或识别的图片大小不一时，有两种解决办法：

一是从原始图像中剪裁一部分传入网络，或者将图像缩

放成需要的大小然后传入网络。这必然会导致图片信

息的丢失和变形，影响图像识别和目标检测精确度。

卷积层的运算仅仅是卷积核在输入特征图上的

滑动，所以不管输入特征图多大都不影响卷积层的参

数数量，只是对于不同大小的特征图卷积得到不同大

小的输出特征图而已，即卷积层的参数和输入大小无

关。池化层没有参数，通过固定大小的滑动窗口下采

样输入特征图。双线性插值是一种图像缩放中常用

的插值算法，可以通过双线性插值放大输入特征图的

尺寸。可以通过池化层和双线性插值的实现实现输

入尺度可变的网络结构。

1 尺度可变网络

目前基本上基于卷积神经网络的网络模型，其

基于双线性插值和池化的尺度可变网络

赵巍颂

1，2

，钟汇才

，高兴宇

，崔诗宴

（1.中国科学院微电子研究所北京 100029；2.中国科学院大学北京 100049；

3.雅礼中学湖南长沙 410007）

摘要：目前基本上基于卷积神经网络的网络模型，其输入都是固定尺寸的图片。当我们希望检测

或识别的图片大小不一时，有两种解决办法：一是从原始图像中剪裁一部分传入网络，或者将图像

缩放成需要的大小然后传入网络。这必然会导致图片信息的丢失和变形，影响图像识别和目标检

测精确度。本文利用可变尺度池化和双线性插值的思想提出了尺度可变网络，使得网络支持不同

尺寸的输入。在 CompCars 细粒度车型分类任务中，应用可变尺度网络后，不同尺寸下分类准确度

平均提升 5%。

关键词：卷积神经网络；可变尺度池化；双线性插值；尺度可变网络；车型分类；目标检测

中图分类号：TP399 文献标识码：A 文章编号：1674-6236（2019）01-0019-06

Variable⁃scale network based on bilinear interpolation and variable⁃scale pooling

ZHAO Wei⁃song

1，2

，ZHONG Hui⁃cai

，GAO Xing⁃yu

，CUI Shi⁃yan

（1. Institute of Microelectronics of Chinese Academy of Sciences，Beijing 100029，China；2. University of

Chinese Academy of Sciences，Beijing 100049，China；3. Yali Middle School，Changsha 410007，China）

Abstract: Basically all the network structures based on Convolutional Neural Network must input fixed-

size image. When we want to detect or classify images of different sizes，there are two solutions: First，

crop the original image，or scale the image to the required size and then send it to the network. This will

inevitably lead to the loss and distortion of picture information，affecting image recognition and object

detection accuracy. In this paper，Variable- Scale Network is designed with the idea of Variable- Scale

Pooling and Bilinear Interpolation，which enables the network to support different size inputs. In the

CompCars fine-grained Vehicle Model Classification task，the accuracy of classification under different

sizes increased by an average of 5% after applying variable-scale network.

Key words: convolutional neural network；variable-scale pooling；bilinear interpolation；variable-scale

network；vehicle model classification；object detection

-- 19

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38699726

粉丝: 5
资源: 927

尺度可变网络：基于双线性插值与池化的图像识别提升

图像处理技术：MATLAB双线性插值实现效果

FPGA双线性插值图像处理工程完整版

利用VC语言实现双线性插值图像放大技术

【实战演练】语义分割项目：基于FCN（Fully Convolutional Networks）

U-Net技术：图像分割领域的革命性突破，原理、优势和局限

【U-Net架构深度剖析】：医学图像分割的革命性方法与应用

OpenCV图像旋转的深度学习应用：图像分类、目标检测和图像分割

FPGA实现的双线性插值图像显示技术

精选毕设项目-微笑话.zip

在线教育系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

最新资源