没有合适的资源?快使用搜索试试~ 我知道了~
(c) (d)(e)for on-device inference for user experience and privacy.Despite various neural network architectures [11,25,32,125480TVConv:面向布局感知视觉处理的高效平移变体卷积0Jierun Chen 1,Tianlang He 1,Weipeng Zhuo 1,Li Ma 1,Sangtae Ha 2,S.-H. Gary Chan 101 香港科技大学,2 科罗拉多大学波尔得分校0{jcheneh,theaf,wzhuo,lmaag,gchan}@cse.ust.hk,sangtae.ha@colorado.edu0摘要0由于卷积赋予了许多智能应用的能力,动态卷积进一步使其能够适应多样化的输入。然而,静态和动态卷积要么不考虑布局,要么计算量大,因此不适用于特定布局的应用,例如人脸识别和医学图像分割。我们观察到这些应用自然地表现出大的图像内方差和小的图像间方差的特点。这一观察结果激发了我们提出的面向布局感知视觉处理的高效平移变体卷积(TVConv)。从技术上讲,TVConv由亲和度映射和权重生成块组成。亲和度映射优雅地描述了像素配对关系,而权重生成块可以明确地过度参数化以实现更好的训练效果,同时保持高效的推理。尽管概念上简单,TVConv显著提高了卷积的效率,并可以轻松地插入各种网络架构中。在人脸识别方面的大量实验证明,与深度卷积相比,TVConv将计算成本降低了多达3.1倍,并提高了相应的吞吐量2.3倍,同时保持了较高的准确性。此外,对于相同的计算成本,我们将平均准确率提高了多达4.21%。我们还在视盘/杯分割任务上进行了实验,并获得了更好的泛化性能,有助于缓解数据稀缺问题。代码可在https://github.com/JierunChen/TVConv上获得。01. 引言0随着深度神经网络的突破,我们正在见证基于人工智能的应用和服务的蓬勃发展。虽然性能提升通常伴随着模型大小和计算开销的增加,但越来越多的关注被投入到轻量级和计算高效的网络设计上,这可以释放潜力,实现用户体验和隐私保护的设备内推理。尽管存在各种神经网络架构[11,25,32,0(a)(b)0图1.具有特定布局的各种应用:(a)脑部MRI分析,(b)人脸识别,(c)工业产品缺陷检测和(d)视盘/杯分割。每个应用都表现出大的图像内方差和小的图像间方差,如子图(e)所示,其中的统计数据是通过将LFW人脸验证数据集[15]输入到中间VGG[35]特征图中计算得到的。0尽管为了提高效率,现有的卷积算子提出了各种改进,但它们的基本操作符基本上保持不变,例如普通卷积(conv)和深度卷积。这些操作符共享一个关键特性,即平移等变性,即滤波器在滑动窗口方式下在空间上共享。虽然这为轻量级模型节省了参数,但它使模型无法适应图像中的不同位置。因此,它必须详细学习许多用于特征匹配的滤波器,这导致在具有特定布局的许多任务中计算资源的巨大浪费。对于特定布局的任务,如图1所示,输入表现出具有大的图像内(空间)方差和小的图像间方差的区域统计。例如,当我们使用面部识别来安全方便地解锁手机时,我们的头发通常出现在上部区域,然后是额头、眼睛、鼻子、嘴巴、下巴等。类似的任务还包括但不限于说话头生成、工业产品缺陷检测和医学图像处理。125490静态卷积0�0平移等变0图像间共享 变化的图像间0特征图 权重亲和图0� 卷积0�0像素级动态卷积0平移变体0图像内0差异性0图像间0差异性0�0×0� ×0�0图像级动态卷积0�0TVConv(我们的方法)0图2.卷积变体的比较。与静态卷积、图像级动态卷积和像素级动态卷积不同,我们的TVConv是平移变体且在图像间共享的,非常适用于布局特定的应用。0为了应对图像内部的巨大差异,许多研究提出了像素级动态卷积[3, 20, 22, 37, 45, 49, 59],将像素级动态卷积[6, 19,24, 53,57]扩展到空间域。它们通过为每个位置组装多个模板来应用局部特征相关的滤波器。然而,这种方法很容易导致内存占用过大和计算开销巨大。此外,它忽视了布局特定任务中小的图像间差异的特性,导致为一系列输入计算冗余的逐像素滤波器。因此,如何利用高效的运算符更好地服务于这类应用仍然是一个挑战。0本文中,我们提出了一种用于布局感知视觉处理的高效基本运算符,称为平移变体卷积(TVConv)。与现有的卷积变体不同,TVConv通过平移变体和在图像间共享的特性,优雅地支持具有特定布局的应用,如图2所示。从技术上讲,我们首先制定了紧凑且可学习的亲和图,用于区分不同的局部特征。亲和图隐式地捕捉了不同区域之间的语义关系,类似于注意力机制[42,50],但不需要计算繁重的亲和矩阵。然后,我们将亲和图输入到一个生成权重的模块中,生成的权重被应用为输入的滤波器。与动态卷积不同,其权重生成模块受到适应性和计算开销之间的权衡的限制,TVConv可以自由地过度参数化,以增强空间适应性而不降低推理速度。亲和图在训练后是固定的。因此,权重生成过程只需在初始化时执行一次。0然后它会在内存中生成并缓存权重,以便在后续的推理中高效地获取它们。通过对人脸识别进行大量实验,我们发现TVConv在准确性和计算复杂度之间取得了更好的平衡。仅仅替换各种架构中普遍存在的深度可分离卷积(例如MobileNetV2,ShuffleNetV2),TVConv的理论复杂度可以降低多达3.1倍,并相应地加速吞吐量2.3倍,同时保持高准确性。另一方面,在极低复杂度约束下,TVConv可以将平均准确率提高多达4.21%。此外,由于具备布局感知能力,TVConv在未见数据集上展示出更好的泛化能力,有助于缓解医学图像分析中的数据稀缺困境。总之,我们的贡献包括:(1)我们重新思考了现有卷积变体在布局特定任务中的不适当属性,考虑了图像内和图像间的差异性;(2)通过具备平移不变性并在图像间共享的高效基本运算符TVConv,我们为布局感知的视觉处理提出了一种解决方案;(3)大量实验证明,TVConv显著提高了人脸识别的效率,并在医学图像处理中具备更好的泛化能力。02. 相关工作0本节简要回顾了考虑宏观网络设计与微观运算符的相关工作,如动态卷积和注意机制。0高效网络设计。受到边缘智能的实际需求的刺激,人们对高效网络设计领域越来越感兴趣。MobileNets [13, 32]主要基于深度可分离卷积[34]构建,它通过将标准卷积分解为深度卷积和逐点卷积来工作。ShuffleNets [25, 56]进一步洗牌通道以促进信息流动。随后,通过神经架构搜索[61]的支持,MobileNetV3 [12]、MnasNet [38] 和EfficientNets [39, 40]采用强化学习来搜索高效网络。尽管提出了各种架构,但它们的基本运算符仍然主要是深度可分离卷积。我们的TVConv继承了它的轻量级优点,并进一步成为平移变体和布局感知。0动态卷积。动态卷积不是盲目堆叠更多的静态卷积来增加模型的容量,而是引领了一种新的潮流,根据输入应用自适应滤波器。最近的工作[24, 48, 53,57]尝试使用每个图像相关的滤波器,通过离散门控或多个模板的连续加权平均来实现。另一类工作[3, 22, 45,59]通过使用每个像素的自适应性进一步扩展了对空间维度的适应性。=…125500动态卷积。一项开创性的工作[19]证明了它在视频和立体预测上的有效性。可变形卷积[7,60]通过辅助偏移增加了滤波器的形状。一些工作[26,52]将动态卷积应用于实际图像恢复。我们的方法遵循内容感知的范例,但对于布局特定的任务来说更加高效。由于这些任务具有小的跨类别方差特性,TVConv被设计为在图像之间共享,并且免于繁重和冗余的滤波器重新计算。0注意机制。注意机制源于机器翻译领域[42]。它通过总结全局上下文并重新加权每个位置的响应来擅长捕捉长距离依赖关系。它在语言领域取得了巨大的成功,这激发了研究人员探索其在计算机视觉领域的适用性,包括图像生成[30,55]、目标检测[14, 47]和语义分割[9,16]。虽然一些工作[29,50]将注意力模块提出为现有卷积算子的多功能和正交补充,但更近期的工作[8,23]则积极采用纯注意力驱动的架构。尽管取得了显著的改进,上述注意机制涉及到亲和矩阵的大量计算,其计算量随输入分辨率的增加呈二次倍增。相比之下,我们的TVConv的亲和图保留了关注整个图像并获取像素配对关系的吸引力能力,但更高效。03. 方法0在本节中,我们从传统卷积开始,然后描述它如何发展成为我们的TVConv以进行布局感知处理。在详细介绍实现细节之后,我们详细阐述了它与先前运算符的关系。03.1. 初步0深度可分离卷积已经被广泛应用于最先进的轻量级架构中。给定输入张量 I ∈ R c × h ×w,它通过对每个通道进行卷积来计算输出 O ∈ R c × h × w,其中局部块 P i,j ∈ R c ×k × k0具有空间共享权重 W ∈ R c × k × k,其中 (i, j) 表示一个空间位置,P i,j 以 I i,j为中心,属于 R c0具有 k × k大小。为了简洁起见,我们省略了偏置项,并将过程表述如下:0O i,j = W � P i,j,(1)0其中�表示逐通道卷积。由于输出O与输入I具有相同的通道数c,深度卷积通常后跟一个点卷积(1×1)进行通道投影和融合。03.2. TVConv的设计0深度卷积在整个图像上共享相同的权重。这种平移等变性使其对于布局无关的任务来说是不适用且效率低下的。相反,可以尝试将其属性恢复为平移变体:0�: � × � × � �0�0� =0重塑 标识求和0� 卷积0� 逐元素0乘法 前向传播反向传播0权重生成块�0卷积0层归一化0卷积0�: � � × � × �0ReLU0× �0图3. 我们提出的TVConv的示意图。可学习的关联图A ∈ RcA × h× w被输入到权重生成块B中,产生深度卷积的权重W ∈ Rk2c × h× w(重塑版本)。然后,输入特征图I ∈ Rc × h ×w中的每个补丁都与W中相应的权重补丁逐元素相乘,并进行求和以产生输出特征图O ∈ Rc × h × w中的每个值。0对于布局特定的任务,深度卷积是不适用且效率低下的。相反,可以尝试将其属性恢复为平移变体:0O i,j = W i,j � P i,j,(2)0然而,这会导致一个庞大的权重张量W ∈ Rc × k × k × h×w。无法承受的参数数量阻碍了高效的训练,并可能容易过拟合。因此,我们首先将W分解为:0W' = B'A',(3)0其中W' ∈ R (ckk) × (hw)是W的重塑版本,B' ∈ R (ckk) ×cA是基矩阵,A' ∈ RcA ×(hw)是系数矩阵。通过这样做,参数数量从(ckkhw)大大减少到(ckkcA +cAhw)。通常情况下,cA可以设置为一个小值,例如cA =1,近似地减少了(ckkhw)/(ckk +hw)≈(ckk)倍的参数。为了进一步增强平移变体性,我们将Eq. (3)中的线性乘法替换为非线性函数:0W = B(A),(4)0其中A ∈ RcA × h ×w表示我们的关联图,B是一个非线性函数,实例化为我们的权重生成块。对于关联图A,它们以紧凑的尺寸优雅地描述了像素配对关系。对于权重生成块B,它感知关联图并生成操作的权重。由于我们设计的简洁性,TVConv可以快速进行原型设计,如图3所示。有两个125510涉及的过程:生成和应用权重。后一个过程只是镜像深度卷积,而权重生成是我们工作的重点。权重生成块B接收关联图A并通过标准卷积、层归一化和激活函数(例如ReLU)进行处理。这三个层可以连续执行多次,最后跟随一个输出层。与大多数使用批归一化[17]的卷积神经网络不同,我们在B中采用层归一化[2],因为关联图A对于不同的输入是共享的,并且A的“批大小”可以解释为1。关联图A可以通过标准反向传播进行端到端训练,因为涉及的所有操作都是可微分的。正如工作[1]中所示,过度参数化(例如增加网络宽度)有助于训练并实现更好的性能。然而,它牺牲了测试时间的速度。值得注意的是,我们的TVConv继承了其优点,同时避免了计算开销。TVConv允许权重生成块B超参数化到内存限制。训练后,关联图A被固定。因此,我们只需在初始化期间执行一次权重生成过程,并通过直接应用相同的权重实现快速推理。作为深度卷积的多功能替代品,TVConv可以轻松插入各种架构的瓶颈块(例如MobiletNets、ShuffleNets、MnasNet)。这些网络提供了一个可调节的超参数,即网络的宽度。由于布局感知性,TVConv可以自适应地感知不同的区域,并在保持性能的同时大大缩小宽度。03.3. 与先前运算符的联系0为了进一步区分TVConv与先前的运算符,我们在这里讨论了TVConv与静态/动态卷积以及自注意力之间的联系。0静态卷积。亲和力图A中的多样性是我们的TVConv的关键,它隐含地衡量了TVConv与静态平移等变卷积之间的潜在差距。当学习到的亲和力图被填充为一个常数值时,TVConv退化为静态深度卷积,即对于不同的(i, j),Wi,j =W。我们在第4节中可视化并讨论了学习到的亲和力图。0动态卷积。通过在公式(4)中用输入I替换亲和力图A,TVConv将属于动态卷积的范畴。因此,权重生成过程必须针对不同的输入进行重复,并且权重生成块必须保持紧凑。此外,尽管动态卷积生成的权重是平移变体的,但我们澄清动态卷积本身是平移等变的[49]。动态卷积不能在“看到”输入之前预测自适应权重。因此,动态卷积是布局自适应的,但不是布局感知的。0动态卷积。通过在公式(4)中用输入I替换亲和力图A,TVConv将属于动态卷积的范畴。因此,权重生成过程必须针对不同的输入进行重复,并且权重生成块必须保持紧凑。此外,尽管动态卷积生成的权重是平移变体的,但我们澄清动态卷积本身是平移等变的[49]。动态卷积不能在“看到”输入之前预测自适应权重。因此,动态卷积是布局自适应的,但不是布局感知的。0自注意力。我们的工作还与自注意力[42]相关。其核心思想是使用自适应权重聚合全局上下文。这个复杂的运算符具有两个重要特点:不同位置上的相似输入会产生相似的响应(无论位置编码如何);每个位置的响应都能感知全局上下文。有趣的是,我们的亲和力图A隐含地具有这两个特点。首先,如果A中的两个位置具有相似的值,它们将产生相似的计算权重。其次,一旦从数据中学习到亲和力图,像素对的关系就在空间域内被形成和固定,使它们相互感知上下文。简而言之,我们的亲和力图在保留自注意力的出现特性的同时,对于布局特定的应用来说更加高效。04. 实验0在本节中,我们对TVConv进行了系统评估,并报告了实验结果。我们从人脸识别开始验证其效率。然后,我们转向视盘/杯分割任务,通过应用TVConv来提供更好的泛化性能。我们还进行了全面的消融研究,以巩固各种实现考虑因素。04.1. 人脸识别0这项工作的重点是提供一种高效的面向布局感知处理的运算符。因此,我们将各种架构中的深度卷积替换为TVConv。我们使用两种流行的轻量级架构MobileNetV2[32]和ShuffleNetV2[25]作为基线(第一层的步幅为1,遵循工作[5])。EfficientNet[39]没有包含在内,因为它涉及与宽度、深度和分辨率相关的复合缩放因子,而在这种情况下,缩放宽度因子对评估更为关键。对于训练,我们使用了公开可用且广泛采用的CASIA-WebFace[54]数据集,该数据集包含了来自1万个身份的49万张图像。由于其中包含许多侧面图像,我们通过训练一个简单的正面/侧面分类器并借助CFP-FP[33]数据集,将其净化为32.9万张正面图像。对于验证,我们使用了常见的人脸验证数据集LFW [15]、CFP-FF[33]、AgeDB-30 [27]和CALFW[58]。输入图像被调整为96x96,并进行水平翻转增强。所有模型都使用AM-Softmax[43]损失进行训练以提高训练稳定性。使用SGD优化器,动量为0.9,权重衰减为5e-4。学习率从0.1开始,在第22、30和35个epoch时除以10。总共训练了38个epoch,批量大小为512。我们首先05010015020025094959697989997.1697.6998.04 98.2798.5796.9797.05010015020025096.596.997.397.798.198.597.6098.2498.5496.7698.0398.36125520准确性(%)098.25 降低3.05倍0准确性提高2.98%TVConv(我们的方法)深度卷积0(a)MobileNetV2作为架构0准确性(%)0(b)ShuffleNetV2作为架构0图4.在LFW数据集上的准确性-复杂性曲线。0架构×宽度 MACs(M)运算符 在不同数据集上的准确性(%)0LFW CFP-FF AgeDB-30 CALFW 平均0MB×0.1 22.47 深度卷积 94.18 ± 0.34 93.01 ± 0.40 79.10 ± 0.44 82.50 ± 0.59 87.200TVConv 97.16 ± 0.11 96.49 ± 0.21 84.61 ± 0.20 87.37 ± 0.21 91.410MB×0.2 28.00 深度卷积 96.32 ± 0.07 95.53 ± 0.26 82.56 ± 0.32 85.62 ± 0.31 90.010TVConv 97.69 ± 0.12 97.21 ± 0.26 85.97 ± 0.38 87.96 ± 0.38 92.210MB×0.3 44.20 深度卷积 96.97 ± 0.27 96.31 ± 0.21 84.72 ± 0.17 86.87 ± 0.50 91.220TVConv 98.04 ± 0.16 97.73 ± 0.19 86.99 ± 0.45 88.97 ± 0.58 92.930MB×0.5 74.03 深度卷积 97.66 ± 0.16 96.98 ± 0.18 85.74 ± 0.46 88.08 ± 0.23 92.110TVConv 98.27 ± 0.07 97.96 ± 0.19 87.88 ± 0.12 89.22 ± 0.22 93.330MB×1.0 225.72 深度卷积 98.25 ± 0.13 97.82 ± 0.11 88.00 ± 0.21 89.41 ± 0.26 93.370TVConv 98.57 ± 0.12 98.43 ± 0.09 89.58 ± 0.19 90.29 ± 0.11 94.220SF×0.5 31.95 深度卷积 96.76 ± 0.08 95.95 ± 0.08 83.87 ± 0.37 86.71 ± 0.44 90.820TVConv 97.61 ± 0.22 96.99 ± 0.11 85.86 ± 0.49 88.5 ± 0.35 92.240SF×1.0 110.53 深度卷积 98.03 ± 0.13 97.43 ± 0.18 86.80 ± 0.43 88.75 ± 0.42 92.750TVConv 98.24 ± 0.09 97.83 ± 0.19 87.83 ± 0.78 89.46 ± 0.37 93.340SF×1.5 222.99 深度卷积 98.36 ± 0.12 97.73 ± 0.15 87.96 ± 0.40 89.43 ± 0.51 93.370TVConv 98.54 ± 0.13 98.23 ± 0.08 88.68 ± 0.50 89.91 ± 0.16 93.840表1.TVConv在MobileNetV2(MB)和ShuffleNetV2(SF)的不同网络宽度下,在四个人脸验证数据集上始终优于深度卷积。0浅层 深层0初始时期 更多时期0× 1.00× 0.10× 0.1第4层0图5. 我们学到的亲和力映射的可视化。前两行描述了MobileNetV2x1.0和x0.1的亲和力映射,从左到右层次逐渐加深。底部一行显示了MobileNetV2 x0.1第4层中亲和力映射的收敛过程。0在TVConv中,我们将亲和力映射设置为1(详见第4.3节进行进一步检查)。总体而言,我们通过乘加操作(MACs)、吞吐量(FPS)和峰值内存消耗来衡量验证集的准确性。如果没有另外说明,准确性是根据5次运行的平均值和标准差来报告的。我们将批量大小设置为1/2/4/8/16,将线程数设置为1/2/4,并报告在4GB的Raspberry Pi4B上每个模型的最大吞吐量。峰值内存是使用输入尺寸[8,3, 96, 96]进行测量的。0与深度卷积的比较。图4显示了TVConv和深度卷积在应用于MobileNetV2(MB)和ShuffleNetV2(SF)的不同网络宽度上存在明显差距。特别地,对于MobileNetV2,TVConv将复杂性降低了3.05倍,同时在LFW数据集上保持了较高的准确性。另一方面,TVConv在极低复杂性约束下将准确性提高了2.98%。更多定量比较可以在表1中找到,在MBx0.1上应用TVConv实现了更显著的4.21%平均准确性提升。0通过图7中的吞吐量分析,可以看出TVConv相对于原始的MBx1.0有2.3倍的改进,尽管TVConv的峰值内存消耗相对较高,如图8所示。请注意,TVConv的翻译变体权重仅在执行快速读取操作的查询内存上。与其他运算符的比较。我们将MobileNetV2上应用的相关的每图像动态卷积、每像素动态卷积和自注意力变体与独立的MLPMixer进行比较。特别地,我们将CondConv [53]、WeightNet[24]、DYCon-vDW [6]、DYConvPW[6]作为每图像动态卷积变体,将Involution [22]、DDF[59]作为每像素动态卷积变体。它们被放置在网络的每个阶段,就像TVConv的放置方式一样。SASA [31]和Axialattention[44]被比较为两种高效的自注意力变体,每个变体都放置在网络的最后三个阶段以提高效率。请注意,MLPMixer[41]不属于卷积家族。我们将其包括在内,以便比较其潜在的布局感知能力。结果可以总结为三种类型的权衡:准确性-复杂性权衡。0501001502002509394959697989901002003004005009394959697989901002003004009394959697989902004006009394959697989951015209394959697989951015209394959697989951015209394959697989910203093949596979899TVConv (ours)DepthwiseMLPMixer01002003004005009293949596979899DepthwiseDYConvDWWeightNetCondConvDYConvPWMLPMixer500100015009293949596979899TVConv (ours)Axial AttentionSASA AttentionInvolution(g=2)Involution(g=8)DDF125530MACs(百万)0准确率(%)0TVConv(我们的方法)深度卷积DYConvDWWeightNetCondConvDYConvPW0(a)与图像级动态卷积对比0MACs(百万)0准确率(%)0(b)与像素级动态卷积对比0MACs(百万)0准确率(%)0TVConv(我们的方法)深度卷积Axial AttentionSASA Attention0(c)与自注意力变体对比0MACs(百万)0准确率(%)0TVConv(我们的方法)深度卷积MLPMixer0(d)与MLPMixer对比0图6.与四个相关工作的分支相比,TVConv在LFW数据集上达到了更好的准确率-复杂度边界。0吞吐量(FPS)0准确率(%)0TVConv(我们的方法)深度卷积DYConvPW0DYConvDWCondConvWeightNet0(a)与图像级动态卷积对比0吞吐量(FPS)0准确率(%)0TVConv(我们的方法)深度卷积Involution(g=2)0Involution(g=8) DDF0(b)与像素级动态卷积对比0吞吐量(FPS)0准确率(%)0SASA AttentionAxial Attention0(c)与自注意力变体对比0吞吐量(FPS)0准确率(%)0(d)与MLPMixer对比0图7.与相关工作相比,TVConv在LFW数据集上实现了最佳的准确率-吞吐量权衡。0峰值内存(MB)0准确率(%)0(a)最高峰值内存 < 500MB0峰值内存(MB)0准确率(%)0(b)最高峰值内存 > 500MB0图8. TVConv消耗中等数量的峰值内存。0关闭(见图6),准确率-吞吐量权衡(见图7)和准确率-峰值内存权衡(见图8)。TVConv在准确率-复杂度和准确率-吞吐量权衡方面始终优于其他运算符。差距非常明显,特别是在网络宽度较小的情况下,空间适应性变得更加关键。此外,我们发现许多基于图像级动态卷积的工作在准确率-复杂度权衡上往往混在一起,没有明确的界限,并且甚至表现不如深度卷积。这是因为这里的跨图像动态对于具有较小的跨图像变化的人脸识别是无用的。对于像素级动态卷积,权重生成过程会导致昂贵的计算开销,而准确率的提升微不足道。虽然轴向注意力在准确率上大大提高了深度卷积的基线,但计算开销仍然无法承受。对于MLPMixer,它可以轻松实现超快的速度(例如94.00%准确率的36.5FPS)。然而,随着模型规模的增加,准确率增长缓慢。相比之下,TVConv即使在最小版本(97.16%准确率的19.8FPS)也能保持较高的准确率。0峰值内存使用情况,TVConv占用的内存比像素级动态卷积和自注意力变体少,但比其他方法要高。0学习的亲和力图可视化。为了进一步研究TVConv的空间适应性,我们可视化了学习到的亲和力图。如图5底部一行所示,亲和力图逐渐收敛到一个人脸轮廓。然而,并不是每一层都有这样清晰的学习过程。如图5的顶部和中间行所示,最早的几层主要保持为一个恒定的图,没有学习到太多有意义的布局信息。这表明,最低层次的特征往往在整个图像中共享,可能是因为纹理相似性和信号噪声的存在。对于更深的层次,学习到的亲和力图也不呈现出人脸的形状。这与文献[35]中所说的深层次负责更抽象的语义概念是一致的。有趣的是,我们观察到在一些深层次的亲和力图中,最“激活”的区域并不出现在中心,而是倾向于出现在角落。我们假设这些角落携带更多描述性的特征。因为在更外围的区域,其感受野覆盖了一个更大的空白区域,对其进行了零填充。这种零填充有助于利用空间信息,正如文献[21]中所示。04.2. 视盘/杯分割0由于布局感知性,我们期望这种几何属性在小数据情况下有所帮助,特别是对于医学图像处理。为了验证这一点,125540(a) 输入0(b) 使用DeepLabV3+0(c) 使用深度卷积0(d) 使用TVConv0图9.定性分割比较。列(a)是输入图像,而列(b)、(c)和(d)显示使用不同方法放大的分割结果。红色轮廓表示真实标注,绿色和蓝色线条分别表示视盘和杯的预测结果。0我们在视盘和杯 (OD, OC)分割任务上进行实验。我们使用来自公共数据集的4个临床中心的眼底图像 [10, 28,36],这些图像被认为来自不同的领域。根据工作[46],我们轮流使用来自三个域的数据进行训练,剩余的域用于评估。我们使用DeepLabV3+[4]网络作为强基线。为了比较,我们将其ASPP模块中的卷积替换为反向残差块[32],该块配备了原始的深度卷积或我们的TVConv作为两个变种之一。我们使用Adam优化器进行40个epoch的训练。学习率从1e-3开始,在第30个epoch时除以5。训练时将图像调整为256 x256,批量大小为16,但在评估时保持原始大小为800 x800。为了使数据稀缺性更加严重,我们没有使用任何数据增强。评估时,我们使用两个常用的指标,即Dice相似系数(DSC)和Hausdorff距离(HD)。如表2所示,使用我们的TVConv,网络在大多数未见过的领域上超过了基线和其变种(使用深度卷积)。值得注意的是,与深度卷积的比较是必要的,以确保我们的性能提升主要来自操作符本身而不是结构变化。与反向残差块带来的轻微改进(平均DSC为0.31%)相比,TVConv显著提高了基线的性能(平均DSC为1.52%)。图9还提供了定性比较。我们的TVConv生成更准确、更具鲁棒性的分割结果,而其他方法在具有局部复杂或模糊纹理的区域往往会产生偏离的曲线。这种更好的泛化能力在实践中是期望的,也特别有用。此外,与稀疏预测任务(例如人脸识别)不同,分割属于密集预测的范畴,这表明TVConv在一定程度上具有广泛的适用性。0指标 任务 未见过的领域 DeepLabV3+ w/ Depthwise w/ TVConv0A 79.39 ± 2.83 78.34 ± 2.27 82.76 ± 1.410C 85.60 ± 0.61 85.35 ± 0.79 85.52 ± 0.51 OC0D 81.24 ± 1.70 82.81 ± 0.94 84.10 ± 0.760A 92.18 ± 0.64 94.21 ± 0.90 93.67 ± 1.240C 90.89 ± 1.46 90.26 ± 1.63 92.91 ± 0.59 OD0D 92.52 ± 0.24 92.96 ± 0.51 93.25 ± 0.600DSC ↑0平均 85.79 86.10 87.310A 43.22 ± 3.86 42.65 ± 3.21 36.32 ± 2.790C 21.44 ± 0.76 21.85 ± 1.10 21.71 ± 0.78 OC0D 21.17 ± 1.56 19.56 ± 1.32 17.97 ± 1.140A 25.23 ± 1.22 20.36 ± 2.18 21.96 ± 3.820C 24.62 ± 3.53 26.17 ± 3.75 20.88 ± 1.55 OD0D 19.34 ± 0.94 17.75 ± 1.25 17.05 ± 1.140HD ↓0平均 27.17 26.26 24.320表2.对OD/OC分割任务的域泛化结果进行比较。每个设置进行十次运行。0与稀疏预测任务(例如人脸识别)不同,分割属于密集预测的范畴,这表明TVConv在一定程度上具有广泛的适用性。04.3. 割除研究0我们进行实验来回答以下四个问题。除非另有说明,所有实验都使用MBx0.2架构,并在LFW数据集上进行评估。0TVConv对各种仿射变换的敏感性如何?对于某些应用(例如手机解锁的人脸识别),输入图像通常具有特定且固定的布局模式。如果没有,就需要进行对齐并作为预处理步骤。在这里,我们明确放宽了这个条件,以研究TVConv的敏感性。我们将四种仿射变换独立地应用于训练数据集,并在图10中报告验证结果。我们可以看到,TVConv在合理的旋转、剪切或缩放量下表现稳健。对于剪切,它甚至比深度卷积更稳健。但是对于平移,如预期的,准确率的增益逐渐缩小,严重平移下TVConv将退化为普通的深度卷积。0我们应该如何初始化亲和力图?默认情况下,我们将亲和力图A初始化为常数图(例如,常数1)。这样可以更好地保证训练的稳定性。因为权重生成块B在开始时为不同位置产生相同的权重,并且TVConv起初是一个普通的深度卷积。这个热身过程使得TVConv能够逐渐演化并展现其适应性。另一种可能的方式(见图11)是从数据统计中初始化,例如计算训练图像的均值和标准差图,然后将它们下采样到与亲和力图相同的特定尺寸。尽管这种方法看起来很有前景,但我们的实验(见表3)表明,它并没有提供比简单的常数初始化更好的性能。可能是因为在网络的后层中,学习到的亲和力图通常携带一些高级语义信息,这些信息可能与输入轮廓在视觉上不对齐。05152094.595.095.596.096.597.097.598.002094.595.095.596.096.597.097.598.0010304094.595.095.596.096.597.097.598.005152094.595.095.596.096.597.097.598.0642.31 ± 0.1232.31 ± 0.1242.31 ± 0.12322.65 ± 0.2122.44 ± 0.1522.44 ± 0.1982.65 ± 0.1212.48 ± 0.2712.52 ± 0.15125550旋转(°)0准确率(%)0TVConv深度卷积0平移(%)0准确率(%)0TVConv深度卷积0剪切(°)0准确率(%)0TVConv深度卷积0缩放(%)0准确率(%)0TVConv深度卷积0图10.TVConv在各种变换中优于深度卷积,而对于平移,差距逐渐缩小。0(a)均值0(c)D(均值)0(e)学习到的0图11.从数据集计算得出的统计数据:(a)均值,(b)标准差,以及它们的下采样版本(c)和(d)。这些图可以用来初始化亲和力图。然而,它们可能与学习到的亲和力图(e)在几何上不对齐。0从训练图像计算的均值和标准差图,然后将它们下采样到与亲和力图相同的特定尺寸。尽管看起来很有前景,但我们的实验(见表3)表明,它并没有提供比简单的常数初始化更好的性能。可能是因为在网络的后层中,学习到的亲和力图通常携带一些高级语义信息,这些信息可能与输入轮廓在视觉上不对齐。0模型是否受益于更大的权重生成块?根据[1]的工作,过度参数化通常在我们的实验中带来更好的性能,如表4所示。特别是,我们研究了不同组件的作用,包括权重生成块B的深度(层数)、宽度(通道)和亲和力图A中的通道数。在B中使用更深、更宽的层或在A中使用更多的通道,模型通常表现更好。然而,当过度参数化过度时,性能会略微下降。这是因为更大的模型可能需要更多的迭代进行训练,并且可能会遭受过拟合的问题。0TVConv应该放置在网络的哪个位置?学习到的亲和力图中出现的不同模式(见图5)促使我们进一步研究将TVConv放置在适当的位置。如表5所示,将单个TVConv应用于后期阶段在减少错误方面更有效,而在早期阶段(例如S1、S2)应用可能会损害性能。此外,通过堆叠更多带有TVConv的阶段,错误会单调减少。我们将TVConv放置在所有阶段作为默认设置。0初始误差(%) for ×0.1 初始误差(%) for ×0.5 初始误差(%) for ×1.00数据统计 2.92 ± 0.22 1.75 ± 0.18 1.62 ± 0.200常数 1 2.84 ± 0.11 1.73 ± 0.07 1.43 ± 0.120表3.从常数映射(例如常数1)进行初始化比从数据统计进行初始化效果更好。0B 通道数 误差(%) B 层数 误差(%) A 通道数 误差(%)0表4.在权重生成块B的不同通道数和层间以及相似性映射A的不同通道数下的消融实验。我们在本文的其他地方使用粗体突出显示的超参数作为默认设置。0阶段 S1 S2 S3 S4 S5 S6 S7 误差(%) 4.01 3.73 3.42 3.43 3.34 3.25 3.390阶段 基准线 S1-S7 S2-S7 S3-S7 S4-S7 S5-S7 S6-S7 误差(%) 3.68 2.31 2.352.38 2.51 2.53 2.610表5.在不同阶段应用TVConv的消融实验。除了输入层,MobileNetV2有7个阶段。阶段S1-S7对应的是层L1,L2-L3,L4-L6,L7-L10,L11-L13,L14-L16和L17。为简单起见,省略了误差SD。05. 结论与未来工作0我们提出了一个概
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功