Tensorflow 1.2.0实现空洞卷积：tf.nn.atrous_conv2d详解

conv

174 浏览量更新于2024-08-30 收藏 182KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在TensorFlow 1.2.0版本的环境中，`tf.nn.atrous_conv2d`函数用于实现空洞卷积（dilated convolution）这一高级技术。空洞卷积是一种在不使用池化层的情况下，通过增大感受野（receptive field）来保持更多细节信息的卷积操作，这对于语义分割（Semantic Segmentation）等任务非常有用。该函数的核心参数包括： 1. `value`：这是一个4维张量，代表输入图像数据，其形状为[批量大小, 高度, 宽度, 通道数]。每个batch中的图像被处理，通道数反映了颜色或特征信息。 2. `filters`：这是卷积核，也是一个4维张量，其结构为[卷积核高度, 卷积核宽度, 输入通道数, 输出通道数]。卷积核的数量对应于不同的滤波器或特征检测器。 3. `rate`：这是关键参数，通常称为“孔径率”或“dilation rate”，它是一个正整数。在空洞卷积中，rate决定了每个像素在其周围考虑的非零元素数量，从而形成一个空洞，而非传统的逐像素滑动。例如，当rate为2时，卷积核会在每个位置跳过一个像素，这样就扩大了感受野，而不会丢失信息。与常规卷积不同，空洞卷积避免了stride参数，因为它通过rate来控制卷积核的移动模式。这种设计使得空洞卷积能够在保持高分辨率的同时捕捉到更多的上下文信息，尤其是在处理密集预测问题时，如语义分割中的全卷积网络（Fully Convolutional Networks, FCN）。理解空洞卷积需要参考文献，如Long J等人在2015年的论文《Fully Convolutional Networks for Semantic Segmentation》以及Yu、Fisher和Koltun在同年提出的关于多尺度上下文聚合的论文。这些研究详细阐述了空洞卷积的原理及其在深度学习模型中的应用。实际使用`tf.nn.atrous_conv2d`时，开发者需要注意调整这些参数以适应特定任务，并可能结合其他层和技术，如上采样（upsampling）、批量归一化（batch normalization）和激活函数，以构建更强大的深度神经网络架构。

资源详情

资源推荐

Tensorflow tf.nn.atrous_conv2d如何实现空洞卷积的如何实现空洞卷积的

实验环境：tensorflow版本1.2.0，python2.7

介绍介绍

关于空洞卷积的理论可以查看以下链接，这里我们不详细讲理论：

1.Long J, Shelhamer E, Darrell T, et al. Fully convolutional networks for semantic segmentation[C]. Computer Vision and Pattern

Recognition, 2015.

2.Yu, Fisher, and Vladlen Koltun. “Multi-scale context aggregation by dilated convolutions.” arXiv preprint arXiv:1511.07122 (2015).

3.如何理解空洞卷积（dilated convolution）？

其实用一句话概括就是，在不用pooling的情况下扩大感受野（pooling层会导致信息损失）

为了阅读方便再贴一些相关链接：

【TensorFlow】tf.nn.conv2d是怎样实现卷积的？

【TensorFlow】tf.nn.conv2d_transpose是怎样实现反卷积的？

惯例先展示函数：

tf.nn.atrous_conv2d(value,filters,rate,padding,name=None）

除去name参数用以指定该操作的name，与方法有关的一共四个参数：

value：

指需要做卷积的输入图像，要求是一个4维Tensor，具有[batch, height, width, channels] 这样的shape，具体含义是[训练时一个batch的图片数

量, 图片高度, 图片宽度, 图像通道数]

filters：

相当于CNN中的卷积核，要求是一个4维Tensor，具有[filter_height, filter_width, channels, out_channels] 这样的shape，具体含义是[卷积核的高

度，卷积核的宽度，图像通道数，卷积核个数]，同理这里第三维channels，就是参数value的第四维

rate：

要求是一个int型的正数，正常的卷积操作应该会有stride（即卷积核的滑动步长），但是空洞卷积是没有stride参数的，这一点尤其要注

意。取而代之，它使用了新的rate参数，那么rate参数有什么用呢？它定义为我们在输入图像上卷积时的采样间隔，你可以理解为卷积核

当中穿插了（rate-1）数量的“0”，把原来的卷积核插出了很多“洞洞”，这样做卷积时就相当于对原图像的采样间隔变大了。具体怎么插

得，可以看后面更加详细的描述。此时我们很容易得出rate=1时，就没有0插入，此时这个函数就变成了普通卷积。

padding：

string类型的量，只能是”SAME”,”VALID”其中之一，这个值决定了不同边缘填充方式。

ok，完了，到这就没有参数了，或许有的小伙伴会问那“stride”参数呢。其实这个函数已经默认了stride=1，也就是滑动步长无法改变，

固定为1。

结果返回一个Tensor，填充方式为“VALID”时，返回[batch,height-2*(filter_width-1),width-2*(filter_height-1),out_channels]的Tensor，填充方式

为“SAME”时，返回[batch, height, width, out_channels] 的Tensor，这个结果怎么得出来的？先不急，我们通过一段程序形象的演示一下空洞卷

积。

实验实验

首先创建一张2通道图

img = tf.constant(value=[[[[1],[2],[3],[4]],[[1],[2],[3],[4]],[[1],[2],[3],[4]],[[1],[2],[3],[4]]]],dtype=tf.float32)

img = tf.concat(values=[img,img],axis=3)

然后用一个3*3卷积核去做卷积

filter = tf.constant(value=1, shape=[3,3,2,5], dtype=tf.float32)

out_img = tf.nn.atrous_conv2d(value=img, filters=filter, rate=1)

建立好了img和filter，就可以做卷积了

out_img = tf.nn.conv2d(input=img, filter=filter, strides=[1,1,1,1], padding='VALID')

输出5个channel，我们设置rate=1，此时空洞卷积可以看做普通的卷积，分别在SAME和VALID模式下输出如下：

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38716556

粉丝: 3
资源: 938

Tensorflow 1.2.0实现空洞卷积：tf.nn.atrous_conv2d详解

TensorFlow tf.nn.conv2d实现卷积的方式

TensorFlow中tf.nn.conv2d_transpose的反卷积实现解析

HTML教程：颜色设定与tensorflow tf.nn.conv2d_transpose解析

Tensorflow反卷积操作tf.nn.conv2d_transpose详解

深度解析：Tensorflow中tf.nn.conv2d_transpose的反卷积实现

深度学习框架对决：TensorFlow vs. PyTorch的选择策略

tf.nn.conv2d_transpose

tf.nn.conv2d_transpose代码举例

tf.nn.depthwise_conv2d

若将 TensorFlow 1.x版本升级为 TensorFlow 2.x 后，PGGAN代码里面名为“config.py”的部分应如何修改

tflearn.nn.conv_2d在tensorflow2.0下与conv_2d一样吗

w1=tf.Variable(tf.random_normal([3,3,3,16])) l1=tf.nn.conv2d(input=x_place_reshape,filters=w1,strides=(1,1),padding='SAME') l1=tf.nn.relu(l1) l1=tf.nn.max_pool2d(input=l1,ksize=(2,2),strides=(2,2),padding='SAME')

最新资源