微软亚洲研究院发布DCNv2：第二代可变形卷积网络，提升形变建模能力

需积分: 0 82 浏览量更新于2024-08-05 收藏 1.56MB PDF 举报

"MSRA视觉计算组推出了第二代可变形卷积网络(Deformable ConvNets v2, DCNv2)，旨在增强形变建模能力，从而提高计算机视觉任务的性能。相较于第一代DCNv1，新模型通过添加更多可变形卷积层和幅度调制机制，提升了对几何变换的适应性。研究人员采用更精细的驱动策略，利用R-CNN框架的特性，引导网络聚焦于前景物体的形变学习。实验结果显示，DCNv2在COCO物体检测和ImageNet分类等任务上实现了显著的性能提升，尤其是在ResNet-50和ResNeXt-101基线网络上，提高了多个点的mAP和top-1准确率。" 第一代可变形卷积网络(DCNv1)由可变形卷积层和可变形兴趣区域池化层组成，这两部分共同赋予了网络适应物体形状变化的能力，有效解决了尺度、姿态、视角变化和局部形变带来的挑战。而新一代的DCNv2在此基础上进一步发展，不仅增加了形变建模的深度，还引入了幅度调制机制，这使得网络能够更精确地捕捉复杂的几何变换。在训练策略上，DCNv2借鉴了R-CNN框架，通过引入模仿R-CNN特征的损失函数，使网络在训练过程中更加关注前景物体的特征，减少背景干扰。这种优化的训练方法有助于提高形变学习的针对性，从而在实际应用中展现出更高的识别和检测精度。实验结果证明了DCNv2的有效性。在COCO物体检测任务中，与DCNv1相比，基于ResNet-50的DCNv2模型提升了近5个点的mAP，而在ImageNet分类任务上，其top-1准确率提高了1.7个百分点。对于更强大的ResNeXt-101基线，DCNv2依然保持了显著的提升，分别在COCO物体检测和ImageNet分类上提高了3.6和1.0个百分点。此外，DCNv2在其他多种识别任务中也表现出广泛的优越性能。 DCNv2是MSRA视觉计算组在解决几何多样性问题上的一个重要进展，它通过增强形变建模能力和优化训练策略，为物体识别和检测提供了更为精准和鲁棒的解决方案。这项技术的广泛应用潜力预示着未来计算机视觉领域的新突破。

专

栏

| MSRA

视觉

计

算

组

提

出

第

二

代

可变

形

卷

积

网络

，

增

强形

变

，

更

好

效

果

机器之心专栏

作

者

：

朱

锡

洲

、

胡

瀚

、

Stephen Lin

（

林

思

德

）

、

代

季

峰

微

软

亚

洲

研

究

院

2017 年提出的可变形卷积网络自提出以来取得了学界和业界的广泛关注，在目前计算机视觉里重要的 COCO 识别竞赛中，该

方法被广泛地采用。近日，来自微软亚洲研究院视觉计算组的研究员提出了第二代可变形卷积网络（Deformable ConvNets

v2，简称 DCNv2），新一代的可变形卷积网络通过在网络中应用更多可变形卷积层和引入幅度调制机制，进一步大大增强了

网络的形变建模能力。

为了有效地利用这一更强的形变建模能力，研究员们提出了一种利用更精细的驱动力量来引导网络学习的方法，具体来说，考虑

到 R-CNN 框架在进行候选框特征提取时能排除无关背景的干扰，在网络训练过程中通过额外引入要求网络特征模仿 R-CNN 特征

的损失函数，使得所学习到的形变更专注在前景物体上。通过引入以上更强的建模能力和更优的训练策略，新一代可变形卷积网

络在多个主流的识别任务上取得了相比于第一代可变形卷积网络好得多的性能。

以 ResNet-50 基本网络为例，DCNv2 在物体检测的最主要数据集 COCO 上相比于 DCNv1 能带来近 5 个点（mAP）的提升，在

ImageNet 分类上能带来 1.7 个点（top-1 准确率）的提升。在更好的基本网络 ResNeXt-101 上，DCNv2 相比于 DCNv1 在 COCO

物体检测和 ImageNet 分类上依旧能分别带来 3.6 个点以及 1.0 个点的提升。在其它多种识别任务上，DCNv2 也取得了广泛的

显著效果。

尺度、姿态、视角的变化和局部形变所导致的几何多样性一直是困扰物体识别和检测的一大难题，为了解决这一难题，MSRA 视觉

计算组曾在 17 年提出第一代可变形卷积网络（Deformable ConvNets v1，下称 DCNv1），其包括两个基本模块，可变形卷积层

（Deformable Convolution）和可变形兴趣区域池化层（Deformable RoI Pooling）。通过引入这两个模块，卷积神经网络获得

了自动适应物体形态变化的特征表达能力，从而大大提升物体检测和分割的精度。

为了理解 DCN，在 DCN 原始的文章里作者们通过在 Pascal VOC 数据集上可视化学习到的卷积采样点和池化位置的分布，发现它

们会主要聚集到前景物体区域。然而，研究者们再次仔细地检查这些分布后发现采样点或池化区域往往并不是完全聚集到前景物

体区域的，它们常常出现在无关的背景区域，这一现象在更具挑战性的 COCO 更为普遍，甚至常常无法观察到显著的聚集效应。

这些现象暗示第一代可变形卷积网络依旧有提升的空间，也激发了研究员们去进一步深入地研究这一问题。

在新一代可变形卷积网络研究过程中，研究员们采用了更好更丰富的工具来深入研究可变形卷积层以及可变形池化层的形变建模

能力，具体来说，包括有效感受野（Effective Receptive Field）、有效采样点（Effective Sampling/Bin Locations）和有界

误差下的显著性区域等。这些工具能有效地分析网络的空间支持区域（spatial support），利用它们对第一代可变形卷积网络进

行全面诊断，DCNv1 存在的问题被进一步验证，也进一步坚定了研究员们去尝试提出更好的可变形卷积网络，即第二代可变形卷

积网络（称为 DCNv2）。

这一新的可变形卷积网络主要做了两个方面的改进，包括对网络本身的改进，使其具备更强的形变建模能力，以及一个更好的训

练策略来释放这一更强形变建模能力的潜力。

对网络本身的改进使其具备更强的形变建模能力主要包括两点，一是在网络中增加可变形卷积层的使用，和 DCNv1 中仅将其应用

到 conv5 的 3 层 3x3 卷积相比，DCNv2 将可变形卷积层应用到 conv3，conv4 和 conv5 的所有 3x3 卷积层。通过引入更多可

变形卷积层，DCNv2 能控制更广泛层级特征的采样点，从而使网络整体上具备更精细地学习空间支持区域的能力，这一更强的能

力也被前述各种可视化工具所验证（详见图 1 和图 2）。二是在可变形卷积层和可变形兴趣池化层中引入了幅度调制机制，其让

下载后可阅读完整内容，剩余6页未读，立即下载

鲸阮

粉丝: 27
资源: 303

微软亚洲研究院发布DCNv2：第二代可变形卷积网络，提升形变建模能力

卷积神经网络结构演进：从早期尝试到现代架构

PyTorch 1.6版本的DCNv2深度学习库

卷积神经网络在图像识别中的特征提取与压缩研究

MSRA微软亚洲研究院 最新卷积网络 Deformable Convolutional Networks(可变形卷积网络.htm

分布式计算讲义（MSRA）

基于卷积神经网络的图像识别研究

视觉显著性检测MSRA1000图片数据集.rar

基于卷积神经网络的图像识别研究.pdf

基于卷积神经网络的人类姿态识别.zip

视觉显著性检测MSRA1000数据集，即ASD数据集

最新资源

MSRA微软亚洲研究院最新卷积网络 Deformable Convolutional Networks(可变形卷积网络.htm