增强Wasserstein训练的严重度感知语义分割方法

171 浏览量更新于2023-10-23 收藏 951KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1增强Wasserstein训练的严重度感知语义分割刘晓峰1，2岁，纪文轩1，3岁，游简4，乔治·埃尔·法赫里5，吴钟熙51 Beth IsraelDeaconess Medical Center，Harvard Medical School，Boston，MA，USA.2美国宾夕法尼亚州匹兹堡卡内基梅隆大学3中国天津南开大学人工智能学院4中国香港，香港理工大学计算机系5美国马萨诸塞州波士顿哈佛大学马萨诸塞州总医院* 网址liuxiaofengcmu@gmail.com摘要语义分割是将图像中的每个像素划分为语义类别的一类方法，它是图像分割的关键。段1汽车总线人路人行道天空用于自动驾驶汽车和手术系统。交叉-基于熵（CE）损失的深度神经网络（DNN）取得了巨大成功。基于准确性的度量，例如，我是说交叉路口然而，CE损失有一个局限性，它忽略了不同程度的严重性比[相同CE损失]更好汽车总线人路人行道成对错误分类的结果。例如，分类段2天空一辆车撞到路上比认出它更可怕就像巴士一样。为了避免这一点，在这项工作中，我们建议通过配置其地面距离矩阵将严重性感知类间相关性纳入我们的Wasserstein训练框架。此外，我们的方法可以自适应地学习高保真模拟器中的地面度量，遵循增强替代优化方案。我们使用具有Deeplab主干的CARLA模拟器评估我们的方法，证明我们的方法显著提高了CARLA模拟器中的存活时间。此外，我们的方法可以很容易地应用于现有的DNN架构和算法，同时产生卓越的性能。我们报告了使用CamVid和Cityscapes数据集进行的实验结果。1. 介绍语义分割（SS）一直是一个关键的基于视觉的任务，旨在将图像的每个像素分为不同的语义类。对于自动驾驶、自动手术系统、机器人技术以及增强现实和生成[47，46，42]，精确理解视觉场景是一种重要的方式。得益于深度学习的最新进展[22，35]，在过去的几十年里，大量的工作都致力于这个主题[48图1.交叉熵损失对于两个softmax预测具有相同的惩罚（即，在第i个位置处的概率相同），而这两个分段器对于真实世界的自动驾驶系统可能导致不同的严重性后果。导致主要开放基准数据集的重大进展[11]。最近，分割问题已经成功地解决了基于交叉熵（CE）损失的逐像素分类。然而，分割器在许多现实世界任务中的应用仍然具有挑战性，例如，自动驾驶汽车，因为他们可以有不同程度的严重性w.r.t. 不同的错误分类案例。例如，特斯拉的一次事故是由于错误地将白色卡车视为天空而引起的，引发了对自动驾驶汽车安全性的激烈讨论。然而，如果系统只是将卡车误分类为汽车或公共汽车类别，结果可能会有所不同。如图1，与底部分段预测（Car→Road）相比，顶部分段预测（Car→Bus）更可取，而交叉熵损失并不能区分这两个softmax概率直方图。我们注意到对于一个热地面实况标签，交叉熵损失仅与真实类1https://www.nytimes.com/2017/01/19/business/tesla-model-s-autopilot-fatal-crash.html1256612567pi，其中i是真类的索引。更正式地说区分成对错误分类的严重程度LCE=−logpi。（车→人汽车→公共汽车），以及重要性意识的方法，实际上，每个标签类别都有严重性相关性，例如，严重性（汽车→公共汽车）>严重性（汽车→道路）和严重性（人→道路）>严重性（天空→道路）。当使用交叉熵损失时，分割类是一致的。[36]不考虑两两类间的相关性。我们的主张也与重要性感知细分/分类密切相关[7，10，26]。这些方法提议基于每个类的预定义重要性来定义一些类组。例如，人和汽车是最重要的类，而道路和人行道是不太重要的类，天空是最不重要的组。[7]简单地将更大的权重分配给更重要的因此，将一个人的像素错误分类到任何其他类别的系统将比将天空的像素错误分类到任何其他类别的系统损失更大。这是一个很好的属性，但不足以安全驾驶，因为它不能区分错误分类情况下不同预测的成对严重性，如图所示。1.一、为了避免上述困难，在这项工作中，我们采用Wasserstein 距离作为交叉熵损失的替代方案。第一Wasserstein距离可以是将概率质量从源分布转移到目标分布的最佳传输[41]。对于每个像素，我们可以计算 softmax 输出直方图和相应的 one-hot 标签之间的Wasserstein距离，并将地面度量配置为严重性错误分类。因此，可以评估对不同误分类敏感的每个像素的softmax预测。我们的Wasserstein损失的封闭形式解决方案与一个热标签遵循[23]中的软注意力设置，并且可以使用[26]快速计算。对于使用受约束的非独热伪标签[48]进行无监督域自适应的语义分割，我们还可以求助于Wasserstein距离的快速近似解。此外，我们进一步提出在高逼真度自动驾驶模拟器中同时学习最佳地面度量和驾驶策略，而不是基于专家知识预先定义地面距离（例如，CARLA），遵循替代优化方案。我们的演员作出决定的基础上的潜在表示的分割器，这是一个部分观察的前摄像头的看法。它可以大大压缩状态空间，以实现快速稳定的训练。我们总结我们的贡献，这项工作如下：1) 我们指出了一个原则性的严重性意识的语义分割目标，还没有注意到，一个万亿美元的产业，也就是说，自动驾驶代替重要性感知设置，ODS可以是一个特殊的情况，公制我们相信我们的见解揭示了在自动驾驶和手术系统的背景下语义分割任务的客观设计2) 成对误分类严重性可以在我们的Wasserstein训练框架中的学习基础矩阵中作为先验进行探索。3) 地面度量也可以通过基于高保真自动驾驶模拟器的部分可观察强化学习（RL）框架自适应地学习，并遵循替代优化方案。我们证明了它的有效性和通用性的多个具有挑战性的基准与不同的骨干模型- els ，并实现了高精度CARLA模拟器有前途的性能。2. 相关作品语义分割的目的是描述类别、位置和形状[3]。随着深度神经网络的发展[29，20，6]，[37]建议使用全卷积网络（FCN）进行像素分类。深度学习框架中广泛采用的交叉熵损失为不同的错误分配相同的损失[21，28，32]，但是没有考虑不同成对错误的不同严重性结果。最近，[8，26]提出，类之间的不同重要性（即，重要性感知设置）。Cityscapes中的类别可以根据其手动定义的重要性进行分组。在更重要的类中的每个像素的损失（例如，在组3和4中）将被给予较大的权重以计算所有像素中的损失的总和。因此，将具有第4组中的地面真值标签的像素误分类将导致比将天空误分类到其他类别更大的损失。然而，它的类相关性仅在地面实况视角中定义，而不是预测类。通过确认汽车与公共汽车或道路之间的相同损失并不足以实现可靠的自动驾驶。本质上，它们只是在计算图像中的损失总和时，为更重要的组的像素使用更大的权重我们更一般的严重性感知设置可以明确区分成对错误。事实上，最近开发的重要性感知分割方法[8，26]是一种特殊但较差的设置。此外，分组操作仅基于专家知识，这可能与机器感知世界的方式不同[30，27]。我们的地面指标可以自适应学习的RL框架与交替的训练方案。此外，Lebron [48]是一种克服基于自训练的领域自适应中不可靠伪标签的方法。12568i=1j=1第这项工作建议平滑每个像素的独热标签。我们进一步系统地研究了具有保守标号的可能的快速解。最近几个先进的深度分割网络[9]和姿势处理解决方案已经开发出来[19]。请注意，这些作品与我们的框架是正交的，可以简单地按照即插即用的方式添加。汽车卡车公交人路人行道建筑天空预测接地距离0.10.750.50.250Wasserstein距离用于测量两个分布的差异[26]。它在生成性学习领域引起了广泛的关注[2]。[14]亲-姿势使用Wasserstein距离进行多标签分类。我们以前的作品[25，33]采用Wasserstein损失进行有序分类（即，多级医学诊断）和模分类（即，姿态估计）。基矩阵遵循特定的序数/模约束，并且可以用快速精确解来求解。最近，我们进一步将其作为重要性感知语义分割的替代方案[26]。注意到[14，26]中使用的树结构遵循简单的对称矩阵，图2.左：用于严重性感知分段的可能的基础矩阵。右：接地矩阵作为重要性感知设置的替代方案[26]。结构令s={s i}N是h w（X）中的像素的预测，t ={tj}N是目标标签，并且N是由softmax函数归一化的类别概率。设i∈ {1，···，N}为分割类的索引。学习是在hw的假设空间H上执行的。对于训练样本X和相应的目标标签T ∈ RMs×Ms×N，通过最小化trices，而D在我们的场景中是不对称的，如minhw∈H L（hw（X），T）. 损失函数L（·，·）被用作图二.基于上述基本方法，我们提出将其应用于严重性感知的SS，并使用基矩阵对成对误分类的严重性进行编码。强化学习考虑智能体应该如何考虑特定的环境状态，以最大化其累积奖励[31]。动态环境是通常用马尔可夫决策过程来描述。最近，高级深度RL在许多任务中实现了人类水平的性能，例如，AtariGames [39]和Go。端到端基于视觉的自动驾驶模型业绩衡量的替代方案。通常，损失SS是逐像素误差的总和。不幸的是，交叉熵损失只是单独对待每个类别的概率[14]，忽略了成对错误分类的不同严重程度。假设元素Di，j表示将第i类像素误分类到第j类的成对严重度。在分类设置中， s 和 t 是直方图分布。Wasserstein损失的封闭形式解[26]可以公式化为：NΣ−1NΣ−1[12]由RL训练的通常有很高的计算成本。为了避免这个问题，[38]建议使用变分推断-LDi，j（s，t）=infMj=0 i=0时Di，jMi，j，（1）估计政策参数，同时发现一个低维的潜在空间的演员。类似地，[15]在学习RL的潜在空间策略时，分析分层表示在相关任务中重用的效用其中M是移动权重矩阵，并且其元素Mi，j是从一个直方图中的第i个位置开始的要移动的质量（例如，softmax归一化输出）到另一直方图中的第j个位置（例如，目标标签）。一有效移动加权矩阵，即，管理人员应遵守：我们建议分割器的瓶颈可以是一个M≥0;N−1M≤s;N−1M≤t;i、jj=0i、jii=0i，j j自然代表的低维潜空间，N−1=min（<$N−1s，<$N−1t）[26]。可以有效地缩小状态空间，这需要j=0i=0时i、ji=0ij=0j更少的参数。此外，我们将强化学习纳入另一种优化框架中，以在具有一定奖励规则的模拟器中学习最优基础矩阵。3. 方法对于我们的ap，地面距离矩阵Di，j图中示出了褶皱。二、例如，将汽车分类到道路（d2，5）比将汽车分类到公共汽车（d2，4）具有更大的地面距离。当量1可以是最佳运输距离，如果将两个具有相同概率之和的历史图在本节中，我们详细介绍了我们提出的方法，N−1s=N−1t，地面度量d应i=0ij=0ji、j和目标，使可靠的分割结果，为au-通过考虑成对错误分类的不同严重程度来避免驾驶。在语义分割任务中，我们建议使用自动编码器学习由w参数化的分割器hw对称w.r.t.主对角线为Di，j。这是卫星-[34][35][36][37 然而，这对于严重性感知设置。例如，将人分类到道路中可能比将道路分类到人中严重得多。因此，在图中。2左，d1，12 3车第4组英文名：GroundTruth卡车总线人路人行道建筑天空125694应该有12570D图3.左：在一热设置中只有一条运输路线[26]。右：具有保守伪标签的运输计划更加复杂，例如，汽车→公共汽车。大于d的值4，1。注意，重要性感知设置可以通过将接地矩阵配置为图2来实现。2正确，不区分不同的错误，例如，将汽车分类到任何其他类别具有相同的惩罚。这些组也是手动预先定义的，然而这可能不一定适合于实际的驾驶系统。3.1. 瓦瑟斯坦损失利用独热标签，目标直方图可以是t= 0。δj、j和j表示分割类别。δj，j是3.2. 了解严重性感知接地矩阵除了预先定义的D之外，本节提出使用具有自学习算法的自动驾驶代理自适应地调整模拟器中的地面矩阵我们设计了一种新的替代训练框架来自适应地学习基础矩阵D。随着卷积神经网络的最新进展，超越专业知识它与RL和ISO标准的结合可以进一步开辟端到端培训的道路，而无需设计评估指标（例如，mIoU）也不是D，最终实现所提出的系统的总体框架在图1中示出。4.第一章我们选择了一个高真实度的模拟器，CARLA [12]，作为我们的环境。放置在汽车前部的单镜头摄像机的视图渲染为X. Segmenter将X作为输入并预测分割图像S，将其与具有Wasserstein损失的目标T进行比较RL代理学习与环境交互遵循部分可观察马尔可夫决策过程（POMDP）[31，24]。对于每一个时间步t，它需要一个状态t在状态空间S中作为输入，并根据RL策略π（a t）从动作空间A预测动作a t|S t）（即，代理人的行为）[31]。那么这个动作会导致δ函数，δ j，j≠ = 1，对于j=j和δ j，j = 0否则，请执行以下操作。假设N−1t =<$N−1s，t，- 动态系统中的下一个环境状态st+1，以及j=0ji=0i得到报酬rt（st，at）∈ R <$R。 RL的目标t=1（或N−1s）2，我们唯一可能的移动是找到最优策略π，以最大化期望ji=0i T路线如图所示。3 [26]。奖励的加权和Rt=i≥0γirt+i（st，at），因此，Wasserstein损失在Eq。 1可以是简单的提交给NΣ−1其中γ∈[0，1）表示折扣参数。使用它以平衡当前和长期回报[18，31]。而不是使用X作为我们的状态[12]，我们建议使用Lfi，j（s，t）=i=0时s i f（di，j）.（二）分割器的潜在表征它可以是特征向量或根据主干的特征图最近的一项工作[12]需要12天的培训卡拉[26]提出将Di，j推广到f（di，j），其中f可以是单调递增映射函数[34]。其封闭形式解的复杂度为O（N）。实际上，我们的基础度量f（di，j）可以被认为是si的权重，并且遵循软注意方案[31]。交叉熵损失−1logsj可以被视为硬预测方案[23]，这意味着另一类被简单地丢弃，这导致大量的信息丢失[31]。当我们使用保守的目标标签时，Eq.（2）不适用。精确解的复杂度高于O（N3）.因此，一种可能的方法是诉诸其近似-复杂度为O（N2）的算法[26，34]。2注意，通过舍入运算，softmax归一化输出不能严格为1的和但是，将tj设置为1或当我们精确到8时，只有84×84大小的原始图像。作为部分观察，潜在表示压缩了状态空间drasti。凯莉与原始图像相比，分割图或其潜在表示具有足够的信息（例如，每个对象和精确位置）来引导驾驶，并且对于外观变化是鲁棒的（例如，天气、照明等）。由于高比例的像素具有与其在S中的相邻像素相同的标签，因此存在大的空间来减少其冗余。网络的输入是来自该时间步处的两个最近帧的两个潜在表示的级联，以及测量的向量（例如，传感器读数）。它们被输入到两个单独的网络中，即，用于特征图的全卷积网络和用于测量的全连接网络。在这两个分支被馈入之后，它们的处理结果被连接起来并被输入到后者的网络中。i=0时我小数位。在自动驾驶的背景下，我们定义了AC-12571不1+κ图4.增强的替代优化框架，同时学习行动者-批评者代理和地面矩阵。作为一个三维矢量，用于操纵一个s∈[-1，1]，节流at∈[0，1]，制动ab∈[0，1]。我们定义的是，这可以是演员评论家模型的一个特定设置在π θ（a检验|s t）是演员，A（s t，a t）是评论家。t twardrt=1−αol−βor−c，其中ol和or∈[0，1]表示-当然可以。分别为离线和越野时的驾驶员舒适度，以及c∈0，1，1，3，1表示没有/S 0/S1/S2/S3为了减少所需参数的数量，参数化的时间差误差δω=rt+γVω（Ss+1）-用Vω（Ss）来逼近优势函数。我们42 4级别碰撞，其中S0、S1、S2和S3表示严重性[ISO 26262] [16]中定义的可忽略/轻微、重大、危险和灾难性的风险α、β和是一组用来平衡惩罚的正权重，在所有实验中，我们根据经验设置α=1、β=1和=10。当车辆行驶平稳并保持在线路和道路上时，代理将获得1的奖励。当发生碰撞/完全（100%）离线/ 50%越野/达到500个时间步时，驾驶将终止由于我们的行动空间是连续的，我们选择演员评论家的解决方案。注意到基于值的RL，例如，Q-学习在这里不适用。演员评论网是本质上是一种基于策略的方法，它经过训练以找到参数化策略π θ（a t|s t）以最大化期望长期回报J（θ）[31]。According to the Theorem of Policy Gradient [43],the gradient of the parameters given目标函数可以是：θJ（θ）= E[|s t）（Q（s t，a t）− b（s t））]，（3）其中Q（s t，a t）=E[R t|s t，a t]是状态-动作值函数。给定初始动作at是为了计算在状态st开始时的预期收益。我们通常减去基线函数b（st），以在不改变估计梯度的情况下降低方差[45，1]。该基线函数的候选是仅状态值函数V（s t）=E[R t|[1]，它与Q（s t，a t）类似，只是这里没有给出a t。优势函数可以表示为A（st，at）=Q（st，at）−V（st）[18]。当量（四）则变为：θJ（θ）= E[|s t）A（s t，a t）]。（四）用θ表示演员和评论家函数的参数，ω，分别。注意到大多数网络参数在主流神经网络中是共享的，然后被分成两个分支，分别用于策略和值预测。我们进一步调整A3C到其非政策版本，以稳定和加快我们的训练[31]。在配置我们的RL模块之后，我们提出了D的自适应调整方案，用于使用替代优化框架[48，34]训练RL代理。步骤A：维护D中的元素并计算损失LDi，j（s，t）以经由反向传播更新行动者-批评者模块的网络。步骤B：在特征水平w.r.t.中，维护网络和后处理地面矩阵D，其中距离为101分割类。在步骤B中，在每个点处使用最后卷积层的归一化激活图作为向量，因为它不具有随后的非线性单元。因此，在对应于具有相同类别标签的图像级上的像素的每个位置中对特征向量求平均适合于计算中心并利用Δi，j重新计算中心di，j 的距离。 TA R。在稳定训练的基础上，我们计算Di，j=1f（di，j）+κf（di，j），每一次迭代我们线性地改变超参数κ在训练阶段从10到0。4. 实现细节我们按照[31，44]配置A3C代理的结构。在我们的测量向量中编码的信息段状态更新瓦瑟斯坦损失剂行动更新更新奖励环境D渲染渲染12572TP+FP+FN（s）策略向量（s）值标量前支柱后支柱图5.优势行动者-批评者的前馈神经网络架构。两个输入特征分别是处理后的特征图和测量向量。[12]《易经》中的“道”字。所有这些向量都采用独热编码。我们的A3C如图8.它是使用十个actor-thread训练的。总共实现了10，000，000个动态环境步骤[12]。此外，我们还将20步推出作为[17]的实现。根据CARLA模拟器[12]，在我们的状态中使用的测量被定义为玩家状态和模拟器环境的相关信息，例如，玩家的位置、玩家速度、碰撞、对面车道交叉口、人行道交叉口、当前游戏时间、玩家加速度、玩家方向、传感器读数、非客户端控制的代理信息、交通灯信息和限速标志信息。我们采用两个全连接（FC）层（64，64）来处理测量向量。我们应用了两个卷积层，分别是3×3×32和3×3×16内核，然后是两个全连接层（1024，512）。以来不同分割主干的潜在特征图大小不同，这部分训练的网络不能在不同主干之间共享。如图8，我们的演员评论家使用两个FC层（256，128）旁边的级联分支使用两个FC层（64，16）。输出单元的编号设置为3，表示转向、油门和制动。初始学习率设置为0.0007，熵正则化设置为0.01。此外，学习率逐渐下降到最后为0。在CARLA上使用第三方强化框架的评估细节（包括实验设置、网络结构和超参数设置）基于[13]3。5. 实验我们的框架在CARLA模拟器上进行了评估[12]和两个典型的自动驾驶基准（即，[11]第11话：“为了证明学习的基矩阵的有效性，我们给出了一系列的例子。3https://gitlab.com/grant.fennessy/rl-carla镇1地图镇2地图图6.两人在CARLA模拟器中拥有[5]，其中左侧是用于训练的CARLA Town 1的视图和地图。右边是用于新城测试的卡拉镇2的视图和地图具有不同主链的实验体。所有的实验都是预先训练的，CE损失作为它们的普通版本。我们使用传统的交并（IoU）IoU=TP对于更重要的群体来说，在[26，7]中发现，其中TP，FP和FN表示真阳性，假阳性和假阴性像素的数量，re-tap。此外，平均IoU是所有类中IoU的平均值。然而，这些指标无法区分成对错误分类的不同严重程度。我们进一步调整了CARLA [13，12]中使用的第三方评估：驱动%：驱动%测量评估期间发生的步骤数除以720，000。值为100%意味着代理从未提前终止（由于停滞、越野或碰撞），而较低的值意味着一定程度的失败。Km：评估中所有步骤的行驶总公里数。这最终是平均速度和驱动%的函数。Km/Hr：评估中所有步骤的平均速度。目标速度为CARLA中预设的最高速度25km/hr。Km/OOL：每次非车道（OOL）故障之间平均行驶的公里数。OOL违规发生在任何时候，车辆以任何方式退出车道。检测到违规后，启动2秒计时器（100步），在此期间不会发生任何违规行为。一旦计时器完成，如果车辆仍然以任何方式离开车道，则会发生新的违规行为。将偏离车道的违规行为总结到这些事件中有助于过滤车辆在快速超车中几次勉强偏离车道理想情况下，如果没有OOL实例，策略梯度ftSConcat值梯度……主流网络决策科值分支12573任务训练条件新城新气象wo/w/wo/w/wo/w/碰撞人12.6130.432.537.829.2428.25碰撞车0.844.590.402.790.754.33碰撞静力学0.451.360.261.020.281.29离线0.180.850.210.780.140.81越野0.761.470.431.220.711.35表1.在我们的RL框架中，使用仅使用CE损失（wo/）训练的ENet或使用Wasserstein损失（w/）进行微调的值越高，表示性能越好。方法驱动器%公里公里/小时公里/离线Km/碰撞Deeplab wo/82.231.99.30.0412.4Deeplab w/IAL85.835.212.40.0815.7Deeplab w/A-Ldi，j91.647.520.40.1420.7图7.在CARLA仿真器中学习的自适应归一化接地矩阵与ENet骨干的图示。发生. Km/Collision（公里/碰撞）：在与环境中的物体每次碰撞之间，平均行驶了多少公里。理想情况下，如果没有冲突发生，则该值是无限的5.1. 具有严重性感知的SS，具有已学习的地面管理正如我们在介绍中所讨论的，重要性感知设置不考虑不同的严重性w.r.t. 预测。我们建议在CARLA模拟器中学习它（如图6所示），而不是用人类知识预先定义一个严重性感知的地面矩阵，并使用ENet主干展示我们的结果。我们用[12]中的十个线程训练我们的演员评论家。我们的行动者-批评者模块和基础矩阵的联合学习只需要10.5小时，这比使用图像作为状态要快得多。我们注意到，在[12]中，RL框架。当我们同时加入一个基矩阵时，时间成本将是棘手的。此外，Wasserstein训练优于IAL和香草ENet基线w.r.t.这一集的回报率一直很高。对于好的学习算法，期望更高的情节奖励。CARLA提供了驾驶策略的细粒度评估，通过不同碰撞之间的平均距离和超过30%的离线或越野来表征方法，如下所示：离线：如果超过30%的汽车越野：如果超过30%的汽车碰撞-静态/车/人：如果一辆车分别与一个静态物体、另一辆车和行人接触。4https://carla.org表2.在CARLA模拟器上使用Deeplab骨干[ 13 ]评估的不同培训方法的结果。值越高，表示性能越好。值得注意的是，每次违规的持续时间限制为2秒。结果报告于表1中。除了在相同的城镇环境中进行测试外，我们还根据CARLA的标准评估在新的城镇或新的天气条件下进行测试正如预期的那样，我们的方法可以在很大程度上改善这些指标，并导致一个更安全的驾驶系统。通过强调对一个人错误分类的严重性，在所有测试案例中，与一个人发生两次碰撞之间的平均距离几乎翻了一番。除了使用我们的RL框架来做出驾驶决策之外，我们还使用独立的自动驾驶系统来评估我们的分割结果。[13]建议使用Deeplab [9]处理CARLA中的前视图图像，以获得分割，然后将其与深度摄像头和车辆统计数据组合为状态。我们使用Wasserstein损失或IAL将其香草根据实验设置和评价方法，我们在表2中给出了比较。“A-”表示自适应接地矩阵调整，学习矩阵如图7所与Deeplab和IAL训练的Deeplab相比的改进表明，我们的分割器可以为驾驶系统提供更可靠和安全的分割结果。5.2. 具有学习D的重要性感知SS我们还可以将自适应学习的基础矩阵应用于重要性感知SS任务。遵循标准IAL测试协议[8，7，26]，我们应用SegNet [3]和ENet [40]作为我们的主干。对于Cityscapes数据集，表3显示，当考虑每个类别的重要性时，组4中类别中像素的分割结果具有更高的IoU。对于CamVid数据集，结果报告在表1257410080表3.使用SegNet或ENet主干对Cityscapes数据集的第4组进行不同损失函数的比较。组3第4Miou路人行道签署车行人自行车FCN98.189.525.184.564.638.669.6+IAL96.391.821.582.269.557.671.2+A-Ldi，j97.392.428.686.470.860.571.5表4.使用FCN主干对CamVid数据集的第3/4组进行不同损失函数的比较。4.第一章Wasserstein训练与学习的地面矩阵可以实现相当的性能组3和4的IAL方法。这表明第3组和第4组中的类别可以对安全驾驶起重要作用。对于具有约束自训练（Lenses）的无监督域自适应[48] ，我们还使用 Wasserstein 距离的近似解。GTA5→Cityscapes改编的结果见表5。我们学习的地面矩阵可以应用于许多现实世界任务注意，由于我们无法在IAL设置中使用学习的基础管理来实现更好的性能，并且IAL中使用的评估指标无法证明我们的严重性感知设置的优越性，因此我们在图8中给出了额外的混淆统计数据。我们可以看到SegNet+Wasserstein训练的预测概率更多地集中在汽车/卡车/公共汽车上。尽管如表8所示，将汽车正确分类为汽车的改进比IAL或SegNet约为1%至3%，但IAL/SegNet具有更严重的错误，分类，例如，汽车→人和骑手/摩托车/自行车/天空。注意到，由于我们的正确分类概率另一类通常比汽车更重要和更有希望，我们只是选择一个具有类似正确概率类的类别，并显示它们的失误有多大的不同。即使他们有类似的概率是错误的，他们的后果将有不同的严重性。6. 结论我们已经引入了严重性感知的语义分割设置，这是忽略了以前的作品。我们的Wasserstein启发损失的基础度量指示了错误分类的成对严重程度，并通过RL框架的替代优化来学习。420图8.在具有SegNet主干的Cityscapes数据集的测试集上对汽车进行分类的混淆统计第4Miou人骑手车卡车总线电机自行车吕宋61.727.483.527.337.830.941.146.5A-Ldi，j63.933.588.135.844.940.348.047.1表5.使用DeeplabV2主干对GTA5→Cityscapes无监督域自适应的第4组的不同损失函数进行比较。重要性感知问题可以是我们框架的一个特例该算法在单热情况下有一个简单的精确快速解，该快速近似解可用于自学习无监督自适应算法中的保守标记。我们显著改进了CARLA模拟器中的自动驾驶技术。尽管如此，它是为语义分割而设计的，我们可以将它应用于其他具有多类分类标签的问题，这些标签具有不同的错误分类严重程度。在我们未来的工作中，我们计划进一步考虑误分类像素到观察者的距离。例如，如果一个人被错误地归类为道路，那么如果这个人靠近驾驶车辆，那么情况会比如果它仍然很远的话更糟。一种可能的解决方案是通过带有相机/激光雷达的深度估计模块进行配置，并为观察者附近的分割像素分配更大的权重。7. 确认该基金由美国国立卫生研究院（NIH）、美国国立神经疾病和中风研究所（NINDS）（NS 061841，NS095986）、中国科学院青年创新促进会（2017264）、中国科学院创新基金会（Y 586320150）和香港政府一般研究基金（参考编号：GRF）资助。152202/14 E）非常感谢。预测概率人乘汽车行李箱巴士摩托车自行车交通灯交通标志杆路人行道火车大厦围墙植被塔拉人天空第4Miou人骑手车卡车总线电机自行车SegNet62.842.889.338.143.135.851.957.0+IAL84.146.091.175.965.022.265.365.7A-Ldi，j85.447.490.376.969.341.562.465.9eNet65.538.490.636.950.538.855.458.3+IAL87.741.392.473.576.224.169.767.5+A-Ldi，j90.247.093.172.573.144.272.268.2SegNet+CE损失SegNet+lALSegNet+Wasserstein损失12575引用[1] 亚历克斯·安德鲁强化学习：理查德·S的介绍。萨顿和安德鲁G. Barto，自适应计算和机器学习系列，MIT出版社（ Bradford Book ）， Cambridge ， MA ， 1998 ，xviii+ 322 pp，isbn 0-262-19398- 1，（精装本，31.95英镑）。Robotica，17（2）：229-235，1999. 5[2] 马丁·阿乔对ky，苏米特·钦塔拉和Le'onBottou。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。3[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。TPAMI，39（12）：2481-2495，2017。二、七[4] Gabriel J Brostow，Julien Fauqueur，and Roberto Cipolla.视频中的语义对象类：一个高定义的地面真相数据库。Pattern Recognition Letters，30（2）：88-97，2009. 6[5] Carlos A Cabrelli和Ursula M Molter。圆上概率测度的Kantorovich度量。Journal ofComputational and AppliedMathematics，57（3）：345 6[6] Tong Che，Xiaofeng Liu，Site Li，Yubin Ge，RuixiangZhang，Caiming Xiong，and Yoshua Bengio.深度验证器网络：使用深度生成模型验证深度判别模型。在ArXiv，2019年。2[7] Bike Chen，Chen Gong，and Jian Yang. 自主车辆的重要性感知语义分割。 IEEE Transactions on IntelligentTransportation Systems，20（1）：137-148，2018。二六七[8] 陈比克，陈功，杨健。面向自动驾驶系统的重要性感知语义分割。在IJCAI，第1504-1510页，2017年。二、七[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，and Alan L Yuille. Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。TPAMI，40（4）：834-848，2017。三、七[10] 宫丞、韩俊伟、周沛成、董旭。学习旋转不变和更好的判别卷积神经网络进行对象检测。IEEETransactions onImage Processing，28（1）：265 2[11] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议论文集，第3213-3223页1、6[12] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放式的城市驾驶模拟器。arXiv预印本arXiv：1711.03938，2017。三、四、六、七[13] 格兰特·芬尼西自主车辆端到端强化学习模型及图像分割对模型质量的影响。博士论文，范德比尔特大学，2019年。六、七[14] Charlie Frogner 、 Chiyuan Zhang 、 Hossein Mobahi 、Mauricio Araya和Tomaso A Poggio。学习与瓦瑟斯坦损失。神经信息处理系统进展，第2053-2061页，2015年3[15] Tuomas Haarnoja、Kristian Hartikainen、Pieter Abbeel和Sergey Levine。分层再学习的潜在空间策略。arXiv：1804.02808，2018。3[16] ISO26262国际标准化组织26262道路车辆-功能安全。国际标准ISO/FDIS，2011。5[17] Max Jaderberg 、 Volodymyr Mnih 、 Wojciech MarianCzar-necki、Tom Schaul、Joel Z Leibo、David Silver和Koray Kavukcuoglu。无监督辅助任务的强化学习。arXiv预印本arXiv：1611.05397，2016。6[18] 李玉玺。深度强化学习：概述。arXiv预印本arXiv：1701.07274，2017。四、五[19] Fayao Liu，Guosheng Lin，and Chunhua Shen.基于cnn特征的Crf学习图像分割。PatternRecognition，48（10）：2983 3[20] 刘晓峰。基于深度学习的人脸图像识别技术研究。论文，2019年。2[21] Xiaofeng Liu，Fangfang Fan，Lingsheng Kong，ZhihuiDiao，Wanqing Xie，Jun Lu，and Jane You.用于有序分类的单峰正则化神经元棒断裂。神经计算，2020年。2[22] Xiaofeng Liu，Yubin Ge，Chao Yang，and Ping Jia.深度神经网络的自适应度量学习用于基于视频的面部表情识别。Journal of Electronic Imaging，27（1）：013022，

下载后可阅读完整内容，剩余1页未读，立即下载