基于区域间相似度的道路标线分割方法

137 浏览量更新于2023-10-23 收藏 2.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于区域间相似度提取的道路标线分割Yuenan Hou1，Zheng Ma2，Chunxiao Liu2，Tak-Wai Hui1，and Chen Change Loy31香港中文大学2商汤科技集团有限公司3南洋理工大学1{hy117，twhui} @ ie.cuhk.edu.hk，2{mazheng，liuchunxiao} @ sensetime.com，3ccloy@ntu.edu.sg摘要我们研究了从一个大的深度教师网络中提取知识到一个小得多的学生网络中的问题，以完成道路标记分割的任务。在这项工作中，我们探索了一种新的知识蒸馏（KD）方法，可以更有效地将场景结构上的“知识”从教师模型转移到学生模型。我们的方法被称为区域间亲和力KD（IntRA-KD）。它将给定的道路场景图像分解成不同的区域，并将每个区域表示为图中的节点。然后，通过基于特征分布的相似性在节点之间建立成对关系来形成区域间亲和图。为了从教师网络学习结构知识，学生需要匹配教师生成的图。所提出的方法在三个大规模道路标记分割基准上显示出有希望的结果，即，ApolloScape、CU-Lane和LLAMAS三个轻量级模型，以ResNet-101为教师，以各种轻量级模型为学生，进行了仿真. IntRA-与以前的蒸馏方法相比， KD 在所有轻量级型号我们的代码可在https://github.com/cardwing/Codes-for-IntRA-KD上获得。1. 介绍道路标记分割用于自动驾驶中的各种目的，为车辆导航提供线索或提取基本道路元素和车道以构建高清晰度地图[7]。训练用于道路标记分割的深度网络具有挑战性，原因有很多[8]，包括微小的道路元素、照明条件差和车辆造成的遮挡训练难度进一步由于可用于训练的分割标签的性质而复杂化，所述分割标签通常是稀疏的（例如，在大背景下，行车线标记又细又长），因而影响网的能力，†：通讯作者。工作在学习道路场景的空间结构[8，14]。当需要训练一个小型道路模型时，上述挑战变得特别棘手标记分割这种要求并不少见考虑到小模型通常部署在具有有限计算资源的车辆上。知识蒸馏（KD）[6]提供了一种吸引人的方法，通过从受过训练的教师模型中转移知识来促进小学生模型的训练。过去已经提出了各种KD方法，通过软化类分数[6]、特征图匹配[9，13]或空间注意力图匹配[27]传递知识。虽然现有的KD方法在许多分类任务中表现出有效性具体地说，道路场景典型地表现出一致的配置，即，道路元素在场景中有序分布。结构关系对于提供必要的约束或规则化至关重要然而，这种结构关系在以前的蒸馏方法中很少被利用结构意识的缺乏使得小型模型难以区分视觉上相似但功能上不同的道路标记。在本文中，我们希望通过探索一种更有效的方法来提高学生模型的结构意识，将教师事先编码的场景结构转移到学生身上。我们的调查是基于这样一个前提，由于教师模型与学生模型相比具有更大的容量，因此教师模型在学习区别特征和捕获上下文信息方面应当具有更好的能力。由教师在深度特征图的不同部分上编码的特征分布关系可以揭示不同场景区域之间丰富的结构连接，车道区域应该看起来与斑马线不同。这样的先验可以提供强约束来正则化学生网络的学习。我们的方法被称为区域间亲和知识蒸馏（IntRA-KD）。顾名思义，知--1248612487实习教师2. 相关工作道路标记分割。道路标记分段通常使用手工制作的特征来处理以获得道路标记段。然后，采用分类网络对每个片段进行分类，矩合并余弦相似度模仿矩合并余弦相似度[10，19]。这些方法具有许多缺点，需要复杂的特征工程过程，并且仅在简单的公路场景中工作良好。深度学习的出现，通过端到端的方式学习特征，避免了人工特征设计。这些方法通常采用稠密预测公式，为每个像素分配一个类别标签[8，14，24]。例如，Wanget al. [24]第二十四话图1.亲和蒸馏过程的图解。FS和FT分别是学生和教师模型的中间激活。G是由节点（特征向量）和边（余弦相似度）组成的亲和图。请注意，图中的每个圆圈都是一个矢量，不同的颜色代表不同的类。场景结构上的边缘被表示为区域间的亲和图，如图1所示。1.一、每个区域是深度特征图的一部分，而图中的每个节点表示每个区域的特征分布统计。每对节点由表示它们在特征分布方面的相似性的边连接。给定相同的输入图像，学生网络和教师网络都将生成它们相应的亲和图。通过图匹配，产生图一致性的蒸馏损失，以更新学生网络。这种区域间相似性知识提取的新概念该方法适用于具有任意数量的道路元素类的各种道路标记场景它还可以与其他知识提取方法协同工作。它甚至可以应用于更一般的分割任务（例如，城市景观[3]）。我们提出了一种有效的和高效的方法来构建区域间的亲和图，包括一种方法来获得区域的深度特征地图和一个新的时刻池运营商从这些地区获得特征分布统计。在三个流行的数据集（ApolloScape [11]，CULane [14]和LLAMAS [1]）上的广泛实验表明，IntRA-KD始终优于其他KD方法，例如，概率图提取[6]和注意力图提取[27]。它可以很好地推广到各种学生体系结构，[20]ERFNet [16]和ResNet-18 [5]。值得注意的是，使用IntRA-KD，ERFNet在所有基准测试中都实现了令人信服的性能，参数减少了21倍（2.49 M vs. 52.53 M），运行速度快16倍（10.2 ms，171.2 ms）与ResNet-101模型相比。在Cityscapes上也观察到了令人鼓舞的结果[3]。由于篇幅所限，我们将结果包括在补充材料中。神经网络将输入图像映射到分割图。由于大型模型通常需要巨大的内存存储并且推理速度慢，因此许多轻量级模型，例如，ERFNet [20]被用来满足快速推理和小存储的要求[8]。然而，由于模型规模有限，这些小网络在道路标记分割中表现不佳.一个常见的观察结果是，这种小模型没有足够的能力来捕获足够的上下文知识，给定稀疏的监督信号[8，14，29]。已经提出了几种方案来缓解稀疏性问题。例如，Houet al. [8]通过自我知识的升华加强语境知识的学习，即，使用深层注意力地图来指导浅层的学习SCNN [14]通过在深层特征层之间传递消息来解决这个问题。Zhang等人[29]提出了一种同时执行车道区域分割和车道边界检测的框架。上述方法没有考虑不同地区之间的结构关系，也没有考虑教师网络的知识升华。知识升华。知识蒸馏最初由[6]引入，将知识从教师模型转移到紧凑的学生模型。提炼出来的知识可以是多种形式，例如，软化输出logits [6]、中间特征图[4，9，13，31]或相邻层之间的成对相似图[26]。还有另一种工作[8，22]，它使用自导出的知识来加强网络本身的表示学习最近的研究已经将知识蒸馏从一个样本扩展到几个样本[12，15，17，23]。例如，Parketal. [15]传递蒸馏过程中一批数据样本之间的相互关系。 Tung等人[23]以不同样本的特征相似度作为提取目标。上述方法[12，15，17，23]未考虑同一样本中不同区域之间的结构关系与此相反，所提出的IntRA-KD考虑了区域间的关系，这是知识蒸馏的新方法。124883. 方法道路标记分割通常被表述为语义分割任务[24]。更具体地，给定输入图像X ∈ Rh× w ×3，目标是分配标签l ∈ {0，. - 是的- 是的，n-1}到X的每个像素（i，j），包括分割图O。这里，h和w是输入图像的高度和宽度，n是类别的数量，类别0表示背景。目标是学习一个映射F：X <$→ O。当代算法使用CNN作为F进行端到端预测。由于自动驾驶车辆具有有限的计算资源并且要求实时性能，因此采用轻量化模型来满足上述要求。由于有限的参数大小以及由于稀疏的监督信号而导致的不充分的引导，这些小模型通常在具有挑战性的道路标记分割任务中失败。知识蒸馏[6，8，13]是通过从大型模型中提取知识来提高小型模型性能的常用方法。在知识的提炼过程中有两个网络，一个叫做学生，另一个叫做老师。知识升华的目的是将黑暗的知识从庞大、笨重的教师模型转移到小型、紧凑的学生模型。黑暗知识可以有多种形式，例如，输出逻辑和中间层激活。存在利用一批样品之间的关系的先前蒸馏方法[15，17，23]然而，这些方法没有考虑到样本中不同区域之间的结构关系。3.1. 问题公式化与现有的KD方法不同，IntRA-KD将每个样品内的内在结构知识视为用于蒸馏的知识形式具体来说，我们认为每个输入样本有n个道路标记类，包括背景类。我们将每个类映射视为一个区域。在实践中，样本中共存的类/区域的数量可以小于n。给定相同的输入，构造学生网络的区域间亲和图GS和教师网络的区域间亲和图GT。这里，亲和图被定义为：G=µ，C，（1）其中μ是一组节点，每个节点代表每个区域的特征分布统计。每对节点由边C连接，边C表示两个节点之间在特征分布方面的相似性我们的IntRA-KD的整体管道如图所示二、该框架由三个主要部分组成：1) 生成感兴趣区域（AOI）2) AOI-grounded moment pooling3) 区域间亲和度提取--3.2. 区域间亲和知识蒸馏生成AOI。IntRA-KD的第一步是从给定图像中提取区域以表示每个类的空间这一步的输出是n个AOI映射，构成一个集合M∈Rh×w ×n，其中h是高度，w是宽度，n是类的数量。每个掩码映射是二进制的左车道，而“0”表示其他类别和背景。一个简单的解决方案是使用地面实况标签作为AOI。然而，地面实况标签只考虑道路标记，而忽略了道路标记周围的区域我们的经验发现，在地面真理领域的天真蒸馏是无效的上下文信息从教师到学生模型的转移。为了包括更大的区域，我们使用转换操作从地面实况标签生成AOI。与仅包含道路标记的标签不同，在操作之后获得的区域还考虑道路标记的周围区域。AOI生成的图示如图所示。3.第三章。假设我们有n个二元地面真实标签映射，包含一个集合L∈Rh×w×n。对于每个类标号映射L∈Rh× w，我们用平均核φ对标号映射进行光滑化，得到相应类的 AOI 映射 M=φ （ φ（L）>0），其中φ（. ）是一个指示函数，M∈Rh×w与L具有相同的大小.对所有n个地面实况标签地图重复这些步骤，为我们提供n个AOI地图。注意，AOI图也可以通过图像形态学操作来获得。AOI 接地矩池。假设一个网络的特征图表示为F∈Rhf×wf×c，其中hf，wf和c分别表示特征图的高度，宽度和通道一旦我们获得了AOI地图M，我们就可以使用它们作为掩模来从F中提取每个类别区域的AOI然后，可以使用所获得的AOI特征来计算区域间亲和度。为了有效的亲和度计算，我们将每个区域的AOI特征视为一个分布。亲和力可以定义为两个特征分布之间的相似性矩在许多研究中得到了广泛的应用[18，28]。受这些先前研究的启发，我们计算了分布的矩统计量，并将其用于亲和力计算。位置。特别地，我们提取一阶矩µ1、二阶矩µ2和三阶矩µ3作为分布的高级统计量。这些特征的时刻已经前-隐含意义，即，一阶矩表示分布的均值，二阶矩（方差）和1248921Σ3L老师输入图像，X标签地图，L分割图，O特征图，F接地矩合并光滑AOI接地矩池化特征图，FAOI地图，M输入图像，X分割图，O学生均值图变化曲线偏度图偏度图变化曲线均值图区域间亲和蒸馏损失编码器块解码器块矩阵元素乘法相似性得分模拟图2.IntRA-KD的管道在我们的方法中有两个网络，一个充当学生，另一个充当教师。给定一个输入图像，学生需要在选定的层上模仿训练好的教师模型的区域间亲和图通过平滑操作对标签进行预处理以获得感兴趣区域（AOI）。AOI地图，在这里显示为集成地图，提供了掩模来提取与每个类别区域相对应的特征矩池是用来计算每个区域的特征分布的统计量其次是一个区域间的亲和度图，捕捉不同区域之间的特征分布的相似性的建设。区域间亲和图由三个子图组成，均值图、方差图和偏度图。光滑图3.生成AOI。以一类标号图L为例。我们对L进行平滑，得到一个AOI图M。三阶矩（偏度）描述了该分布的形状。我们的经验发现，使用高阶矩带来边际性能增益，同时需要更重的计算成本。为了计算k类的μ1（k）、μ2（k）和μ3（k），我们引入了矩池操作来处理AOI功能.[μ1（k，1），μ1（k，2），. ......、 µ1（k，c）]= µ1（k）hf通道= 12c图4. 在深度特征FRhf×wf×c。我们使用一阶矩的池化作为例子。哪里|M（：，：，k）|计算M（：，：，k）中非零元素的个数，且µr（k）∈Rc，r∈ {1，2，3}。1µ1（k）= |M（：，：，k）|hfi=1j =1M（i，j，k）F（i，j），图1中描述了矩池化过程的图示。4.第一章矩池化操作具有以下性质。首先，它可以处理具有任意µ2（k）=1|M（：，：，k）|hf（M（i，j，k）F（i，j）−µ1（k））2，形状和大小，可以看作是一个扩展的传统的平均池。第二，通过矩池化操作获得的矩向量可以忠实地再现i=1j=11µ（k）=hfM（i，j，k）F（i，j）−µ1（k），反映特定区域的特征分布，然而，向量是在一个非常低的维度，从而促进EF，3|M（：，：，k）|WF∈12490i=1j =1µ2（k）（二）在后续步骤中进行有效的亲和度计算区域间亲和蒸馏。由于输出功能12491re22ApolloScape CULANE LLAMAS(a) ERFNet，66.7%（c）ResNet-101，100%图6. ApolloScape、CULane和LLAMAS数据集的典型视频帧。ResNet-101。有趣的是，那些空间上接近的图5.通过不同方法生成的亲和度图的可视化方法我们表示在一个亲和度图的边缘的逆相似性得分。方法名称旁边的数字是F1- measure.教师模型的映射和学生模型的映射可以具有不同的维度，执行每对矩向量的匹配将需要额外的参数或操作来保证维度一致性。相反，我们计算类k1和类k2的矩向量的余弦相似度，即，不C（k，k，r）=μr（k1）μr（k2），r ∈ {1，2，3}. （三）1 2 µ（k1）2µ（k2）2并且使用IntRA-KD在特征空间中将视觉上相似的道路标记拉得更近，并且将那些空间上遥远且视觉上不同的标记拉开。一个例子显示在图。5，说明了IntRA-KD在将结构知识从教师模型转移到学生模型方面的有效性。我们在实验部分表明，这种转移是必不可少的，以提高学生模型的性能。将IntRA-KD加入训练。最终损失由三项组成，即，交叉熵损失、区域间亲和蒸馏损失和注意力地图蒸馏损失。注意地图蒸馏损失是可选的，在我们的r r框架，但它有助于补充区域一级的相似性得分捕获每对类的相似性，并将其作为学生模型要学习的高级知识。矩向量μ和相似性得分C分别构成亲和图G=μ，C μ的节点和边（见图11）。2）。区域间亲和蒸馏损失如下：知识最后的损失写为L= Lseg（O，L）+ α 1Lm（CS，CT）+ α 2La（AS，AT）.（五）这里，α1和α2用于平衡不同蒸馏损失对主任务损失Lseg的影响。不同于Lm（CS，CT）=特征映射F∈Rhf×wf×c的模拟，需要巨大的内存资源，很难学习，注意-1Σ3 Σn3N2Σn<$CS（k1，k2，r）− CT（k1，k2，r）<$2.（四）由于只需要几个重要的区域，因此作用映射A∈Rhf×wf对内存更友好，更容易模拟r=1k1=1k 2=1引入的亲和蒸馏对净-要学习.注意图蒸馏损失如下所示：教师和学生模型之间的工作差异，因为蒸馏只与类的数量有关，而与特征图的具体维度无关。La（AS，AT）=阿夫wfAS（i，j）−AT（i，j）<$2。（六）此外，亲和知识是全面的，因为它收集来自前地和背景区域的AOI特征的信息。最后，与以前使用概率图作为蒸馏目标的蒸馏方法[6]相比，亲和图更节省内存，因为它减少了蒸馏目标的大小从h×w×n到n2，其中n通常比h×w小几千倍。从图 5 中，我们可以看到 IntRA-KD 不仅改善了ERFNet的预测，而且还使学生模型和ResNet- 101教师模型之间的特征结构这一点反映在非常相似的-ERFNet的亲和图与（b）ERFNet-IntRA-KD，100%道路标记区域背景逆相似性得分分割图亲和度图图像12492i=1j=1我们遵循[27]从特征图中导出注意力图4. 实验数据集。我们在三个数据集上进行了实验，即ApolloScape [11]，CULane [14]和LLAMAS [1]。图6示出了从三个数据集中的每一个中选择的视频帧。这三个数据集具有挑战性，因为光线条件差，遮挡和存在许多微小的道路标记。请注意，CULANE和LLAMAS仅根据其与自我车辆的相对位置来标记车道，而ApolloScape则在12493TP+FN表1.三个道路标记分割数据集的基本信息名称#框架火车验证测试决议#类时间连续？阿波罗景观[11]CULane [14]LLAMAS [1]一一四五三八一百三十三，二百三十五七十九、一百一十三一百零三，六百五十三八十八，八百八十五十八、二百六十九一万九千六百七十五一万零二十九88534，680一万零八百一十五3384 ×27101640 ×5901276 ×7173655√√×道路根据其功能。因此，ApolloScape具有更多的类，并且与其他两个数据集的兼容性更具挑战性。除了公开的结果[11]，我们还复制了最相关和最先进的方法（例如，ResNet-50和UNet-ResNet-34）进行比较。对于LLAMAS数据集，由于没有建立正式的提交服务器，因此无法对原始测试集进行评估。因此，我们将原始验证集分为两部分，即一个用于验证，另一个用于测试。表1总结了数据集的详细信息和训练/验证/测试分区。评估指标。我们在每个数据集上使用不同的指标，遵循基准和现有研究的实践1) 阿波罗景观我们用的是官方的公制，平均交并比（mIoU）作为评价标准[11]。2) 库兰在[14]之后，我们使用F1-measure作为评价度量，其定义为：表2.不同方法对ApolloScape测试的性能类型算法Miou[25]第二十五话42.2基线ENet [16]ResNet-50 [5]39.841.3[21]第二十一话42.4老师ResNet-101[5]46.6学生ERFNet [20]40.4自蒸馏ERFNet-DKS [22]40.8ERFNet-SAD [8]40.9ERFNet-KD [6]40.7ERFNet-SKD [13]40.9师生[26]第二十六话40.6蒸馏ERFNet-IRG [12]41.0ERFNet-BiFPN [31]41.6ERFNet-IntRA-KD（我们的）43.2[16]和ResNet-18 [5]的结果。详细结果见补充材料。我们从ResNet- 101中提取高级特征和中级特征作为蒸馏目标。具体来说，我们让这些特征2×精确度 ×召回率，其中精度=TP和块2和块3的ERFNet，以模仿块精确度+召回率召回=TP。TP+FP3和ResNet-101的块5。3) 拉拉马斯。我们使用平均精度（mAP）来评估-评价不同算法的性能[1]。实作详细数据。由于在输入图像的上部区域中没有道路标记，因此我们移除上部区域。在训练和测试阶段都是原始图像的一部分。处理后的图像大小为： ApolloScape 3384× 1010 ， CULane1640×350， LLAMAS 1276×为了节省内存使用，我们进一步将处理后的图像分别调整为1692× 505，976×208和960× 288。我们使用SGD [2]来训练我们的模型，学习率设置为0.01。批量设定为12（CULane和LLAMAS）和8（ApolloScape）。CULane和LLAMAS的训练集总数设置为80K，ApolloScape的训练集总数设置为 180K，因为 ApolloScape更具挑战性。对于CULANE和LLAMAS，背景像素的交叉熵损失乘以0.4，并且0.05因为类不平衡在ApolloScape中更严重。对于教师模型，即，ResNet-101中，我们添加了金字塔池模块[30]以获得局部和全局上下文信息。α1和α2都被设置为0.1，并且用于获得AOI图的平均核的大小被设置为5× 5。我们的结果对核的大小不敏感在我们的实验中，我们使用ERFNet [20]，ENet [16]或ResNet-18 [5]作为学生，ResNet-101作为老师。虽然我们选择ERFNet来报告本文中的大多数消融研究，但我们也报告了总体重新评估。12494基线蒸馏算法。除了国家-的最先进的算法在每个基准，我们还比较所提出的具有当代知识蒸馏算法的IntRA-KD，即，[13][14][15][16][17][18][19][1这里，KD表示概率图蒸馏; SKD采用概率图提取和成对相似图提取; PS-N以相邻层的成对相似图为知识; IRG利用三个连续帧的实例特征、实例关系和层间变换进行提取，BiFPN利用相邻层的注意力图作为提取目标。4.1. 结果表2-4 总结了我们方法的性能，即，ERFNet-IntRA-KD，针对ApolloScape [11]，CULANE [14]和LLAMAS [1]测试集的最新我们还在表3中报告了不同模型的运行时间和参数大小。运行时间使用单个GPU（GeForce GTX TITAN X Maxwell）记录，并在100个样本中取平均值。ERFNet-IntRA-KD out-在所有三个基准中执行所有基线和以前的蒸馏方法。请注意，ERFNet-IntRA-KD有21个与ResNet-101相比，在CULANE测试集上的参数少10倍，运行速度快16倍;吸引人的性能强烈地表明了IntRA-KD的有效性。我们还将IntRA-KD应用于ENet和ResNet-18，12495100101老师十比一N100sNet-11011028ReetRFNetEE含IntRA-KD和BiFPN无水蒸馏0表3.不同方法对CULane测试的性能至47节省空间，基线，教师，学生，自我升华和教师-46学生蒸馏在第一塔中缩写为B，T，S，分别为SD和45444342414039#参数（M）图7.IntRA-KD和BiFPN在ENet上的比较ERFNet和ResNet-18在ApolloScape上的测试。输入ERFNetERFNet-BiFPNERFNet-IntRA-KD表4.LLAMAS测试中不同方法的性能（一）40.2%41.4% 42.6%(a)33.3%66.7%百分百66.7%66.7% 100%（c）36.5%37.4% 38.8%发现 IntRA-KD 可以等效地为骨干模型带来比ApolloScape数据集上最先进的BiFPN [ 31 ]更多的性能增益（图（七）.请注意，BiFPN在所有基准测试中都是一个竞争性算法。当将IntRA-KD 应用于ENet和ResNet-18时，还在CULAane和LLA-MAS上观察到增强的结果。由于篇幅限制，我们在补充材料中报告了将不同蒸馏算法应用于ENet和我们的IntRA-KD在不同的骨干模型上的有效性验证了我们的方法具有良好的我们还展示了我们的IntRA-KD和BiFPN [31]（最具竞争力的基线）在三个基准上的一些定性结果。如图（a）和（c）所示8、IntRA- KD帮助ERFNet更准确地预测长和细的道路标记。至于其他具有挑战性的场景，拥挤的道路和光线条件差，ERFNet和ERFNet-BiFPN要么预测车道不准确或错过预测。相比之下，ERFNet-IntRA-KD产生的预测更完整和准确。除了模型预测，我们还显示了图8.不同方法在（a）ApolloScape上的性能(b)CULane和（c）LLAMAS测试集。每个图像下方的数字表示（a）和（c）的准确度，（b）的F1-测量。在输入图像上绘制地面实况标签。第二行（a）和（c）是红色虚线矩形覆盖的放大区域。不同方法的特征嵌入。根据图9，ERFNet-IntRA-KD的嵌入比ERFNet和ERFNet-BiFPN的嵌入更结构化。特别是，ERFNet-IntRA-KD的特征在嵌入中根据其类别进行了更明显的聚类，与ResNet-101教师的嵌入分布相似。结果表明，结构信息的重要性，在知识蒸馏。4.2. 消融研究在本节中，我们研究了每个成分的影响，即，不同的损失项和相关系数，对最终性能的影响。不同损失条件的影响。从图10中，我们有mIoU（%）类型算法F1运行时间（ms）#参数（M）[第14话]71.6133.520.72BResNet-18-SAD [8]70.525.312.41ResNet-34-SAD [8]70.750.522.72不ResNet-101[5]72.8171.252.53SERFNet [20]70.2SDERFNet-DKS [22]70.6ERFNet-SAD [8]71.0ERFNet-KD [6]ERFNet-SKD [13]70.570.710.22.49TSD[26]第二十六话ERFNet-IRG [12]70.670.7ERFNet-BiFPN [31]71.4ERFNet-IntRA-KD（我们的）72.4类型算法地图[第14话]0.597基线ResNet-50 [5]0.578[21]第二十一话0.592老师ResNet-101[5]0.607学生ERFNet [20]0.570自蒸馏ERFNet-DKS [22]0.573ERFNet-SAD [8]0.575ERFNet-KD [6]0.572ERFNet-SKD [13]0.576师生[26]第二十六话0.575蒸馏ERFNet-IRG [12]0.576ERFNet-BiFPN [31]0.583ERFNet-IntRA-KD（我们的）0.598124960123456789 10 11 12标签(a)ERFNet，39.0(b)ERFNet-BiFPN，39.6（c）ResNet-101，42.5（d）ERFNet-IntRA-KD，41.1图像图9.（a）ERFNet（b）ERFNet-BiFPN（c）ResNet-101（教师）（d）的深度特征嵌入（第一行）和预测（第二行）ERFNet-IntRA-KD。模型名称旁边的数字红色虚线矩形覆盖的模型预测区域在第三行中突出显示深度嵌入的颜色条与模型预测的颜色条相同，除了背景，其颜色从黑色变为粉红色以更好地请注意，我们裁剪了标签和模型预测的上半部分，以获得更好的可视化效果，并使用t-SNE来可视化特征图（第一行）。下面的观察：（1）考虑来自中级和高级特征的所有矩，即，蓝条（Lµ1+Lµ2+Lµ3）带来的性能增益最大。(2)注意图蒸馏，La也带来可观ℒ��1ℒ��240.443.2与没有蒸馏的基线相比的增益（三）高级特征的提取比中级特征的提取带来更多的性能增益这可能是由于高级特征包含更多的语义相关信息，这对分割任务是有益的(4)区域间亲和蒸馏和注意力地图蒸馏是互补的，导致最佳性能ℒ��3ℒ��1+2��+3 + 4��4041 42中世纪盛高+中43mIoU（即，43.2 mIoU，如红色垂直虚线所示）。损失系数的影响。注意力图损失和亲和蒸馏损失的系数都被设置为0.1以使损失值归一化。在这里，我们测试不同的损失系数的选择，即，选择系数值{0。05，0。100 15}。ERFNet-IntRA-KD实现了类似的在所有基准中的性能，即， {43. 十八，四十三。20，43。17}阿波罗景观中的mIoU， {72. 36，72。39，72。38}F1-测度在CULANE和{0. 597，0。598，0。598}mAP。因此，IntRA-KD对损失系数是鲁棒的5. 结论我们提出了一种简单而有效的蒸馏方法，IntRA-KD，有效地将场景结构知识从教师模型转移到学生模型。结构知识表示为一个区域间的亲和图，以捕捉不同场景区域的特征分布的相似性我们将IntRA-KD应用于各种轻量级模型，并观察到这些模型与其他当代蒸馏模型图10.在ApolloScape测试中使用IntRA-KD的不同损失项的ERFNet的性能（mIoU）。这里，教师模型Lµi表示只有第i阶矩用于区域间亲和蒸馏的变体。在这里，“40.4”是没有蒸馏的ERFNet的性能，“43.2”是考虑L µ 1 + L µ 2 + L µ 3和L a的ERFNet-IntRA-KD的性能。每个条形旁边的数字是每个损失项相对于ERFNet带来的平均收益。方法.在三个大规模道路标记分割基准上的良好结果有力地表明了IntRA-KD的有效性。补充材料中提供了关于城市景观的结果。鸣谢：这项工作得到商汤科技-南大合作项目的支持，商汤科技集团的合作研究资助（香港中文大学协议编号： TS 1610626 &No. TS 1712093 ）、新加坡 MoEAcRF Tier 1（2018-T1-002-056）、NTU SUG和NTUNAP。0.90.40.50.30.30.10.20.60.80.61.51.912497引用[1] 卡斯滕·贝伦特和瑞安·苏桑。使用地图的无监督标记车道标记。 IEEEInternational Conference on ComputerVision Workshops，2019。二、五、六[2] 我在博图。随机梯度下降的大规模机器学习在国际计算统计会议上，第177-186页。施普林格，2010年。6[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在IEEE计算机视觉和模式识别会议，第3213-3223页，2016年。2[4] Mengya Gao，Yujun Shen，Quanquan Li，Junjie Yan，Liang Wan，Dahua Lin，Chen Change Loy，and XiaoouTang. 一个非常简单的知识蒸馏方法。arXiv预印本arXiv：1812.01819，2018。2[5] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition，第770-778页二六七[6] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。Statistics，1050：9，2015. 一、二、三、五、六、七[7] Namdar Homayounfar ， Wei-Chiu Ma ， Justin Liang ，Xinyu Wu，Jack Fan，and Raquel Urtasun. Dagmapper：通过发现通道拓扑来学习映射。在IEEE计算机视觉国际会议上，第2911-2920页，2019年。1[8] Yuenan Hou ， Zheng Ma ， Chunxiao Liu ， and ChenChange Loy. 通过自注意蒸馏学习轻量级车道检测CNN在IEEE International Conference on Computer Vision，第1013-1021页，2019年。一二三六七[9] Yuenan Hou ， Zheng Ma ， Chunxiao Liu ， and ChenChange Loy.通过模仿来自异构辅助网络的特征来学习转向。在人工智能进步协会，第33卷，第8433一、二[10] Junjie Huang ， Huawei Liang ， Zhiling Wang ， YanSong，Yao Deng.基于自适应阈值分割和道路分类的车道线检测在IEEE机器人和仿生学国际会议上，第291IEEE，2014。2[11] Xinyu Huang，Xinjing Cheng，Qichuan Geng，BinbinCao ，Dingfu Zhou ，Peng Wang，Yuanqing Lin ，andRuigang Yang.Apolloscape自动驾驶数据集在IEEE计算机视觉和模式识别研讨会会议上，第954-960页，2018年。二、五、六[12] Yufan Liu，Jiajiong Cao，Bing Li，Chunfeng Yuan，Weiming Hu，Yangxi Li，and Yunqiang Duan.基于实例关系图的知识提取。在IEEE计算机视觉和模式识别会议上，第7096- 7104页，2019年。二六七[13] Yifan Liu ， Ke Chen ， Chris Liu ， Zengchang Qin ，Zhenbo Luo，and Jingdong Wang.结构化知识提炼用于语义分割。在IEEE计算机视觉和模式识别会议上，第2604-2613页，2019年。一二三六七[14] Xingang Pan ， Jianping Shi ， Ping Luo ， XiaogangWang，and Xiaoou Tang.空间一样深：用于交通场景理解的空间CNN。在人工智能促进协会，2018年。一、二、五、六、七[15] Wonpyo Park，Dongju Kim，Yan Lu，and Minsu Cho.关系知识的升华。IEEE计算机视觉和模式识别会议，第3967-3976页，2019年。二、三[16] Adam Paszke、Abhishek Chaurasia、Sangpil Kim和Eu-genio Culurciello。ENet：用于实时语义分割的深度神经网络架构。arXiv预印本arXiv：1606.02147，2016。二、六[17] Baoyun Peng，Xiao Jin，Jiaheng Liu，Dongsheng Li，Yichao Wu ， Yu Liu ， Shunfeng Zhou ， and ZhaoningZhang.知识蒸馏的关联同余。在IEEE国际计算机视觉会议上，第5007二、三[18] Xingchao Peng，Qinxun Bai，Xide Xia，Zijun Huang，Kate Saenko，and Bo Wang.用于多源域适应的矩匹配。在IEEE计算机视觉国际会议上，第1406-1415页，2019年。3[19] Baoxing Qin ， Wei Liu ， Xiaotong Shen ， Zhuang JieChong，Tirthankar Bandyopadhyay ，MH Ang，EmilioFrazzoli，and Daniela Rus.道路标线检测与分析的一般框架。在关于英特尔智能交通系统的国际IEEE会议上，第619-625页IEEE，2013。2[20] 爱德华多·罗梅拉，何塞·阿尔瓦雷斯，路易斯·贝尔加萨和罗伯托·阿罗约。ERFNet：用于实时语义分割的高效残差因子分解卷积网络。 IEEE Transactions onIntelligent Transportation Systems，19（1）：263二六七[21] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。六、七[22] Dawei Sun，

下载后可阅读完整内容，剩余1页未读，立即下载