光谱偏振网络用于玻璃分割

42 浏览量更新于2023-10-25 收藏 7.96MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

12622利用强度和光谱偏振线索的梅海阳1博东2，杨文东1杨佳熙1白承焕2，3菲利克斯海德2彼得同行4魏小鹏1，杨欣1，杨1大连理工大学2普林斯顿大学3POSTECH4威廉玛丽https://mhaiyang.github.io/CVPR2022_PGSNetπφ0线偏振角（AoLP）1ρP掩码R-CNN GSD0RGB图像线性偏振度（DoLP）PGSNet（Ours）GT图1.使用Lin等人的仅RGB方法获得的玻璃分割。[21]（GSD）和Kalra等人的单色偏振方法。[17]（P Mask R-CNN）与我们的玻璃分割网络相比。检测到的区域由橙色遮罩指示。两种现有方法都未能干净地分离具有相似外观的非玻璃区域。相比之下，我们的方法准确地分割玻璃区域的光谱偏振线索的帮助下。摘要透明和半透明材料由于缺乏RGB纹理，阻碍了有意义特征的提取，对现有的场景理解和分割算法提出了重大挑战。在这项工作中，我们利用玻璃材料上的光-物质相互作用为每个观察到的光波长提供了独特的强度偏振线索。我们提出了一种新的基于学习的玻璃分割网络，该网络利用三色（RGB）强度以及来自单张照片的三色线性偏振线索，而无需对照明的偏振状态进行任何假设。我们的新型网络架构使用新的全局指导和多尺度自注意模块动态融合和加权三色和极化线索，并利用全局跨域上下文信息来实现鲁棒分割。我们在一个新的大规模RGB偏振数据集（RGBP-Glass）上训练并广泛验证了我们的分割方法，并证明我们的方法比最先进的分割方法有显著的优势。杨欣（xinyang@dlut.edu.cn）和魏小鹏为相应作者。杨欣和董波领导了这个项目。1. 介绍自主机器人、空中无人机和自动驾驶车辆依赖于一系列复杂的传感器和算法，这些传感器和算法使它们能够感知和理解它们的环境。然而，对于现有的场景理解方法来说，具有透明或半透明材质的物体仍然是一个公开的挑战.与不透明材料相反，透明材料通常缺乏纹理，并且它们复杂的动态外观取决于各种局部和全局性质，范围从光-物质相互作用（即，反射、折射和透射）、物体形状和背景，导致难以建模的分布外观测。用于透明材料的大多数现有分割方法利用上下文信息[27，41]或依赖于边界检测[11，40]。这两种策略都在RGB域中操作，其中光波和透明材料之间的相互作用仅产生弱线索。一些工作已经研究了利用光-物质相互作用的更丰富的表示进行透明材料识别，例如光场[23，34，43]和极化[17，19，20，37，39]。然而，这些方法还依赖于对目标尺寸和反射率的强假设，或者假设受限的捕获条件。在这项工作中，基于玻璃材料往往提供一个独特的光谱偏振响应，我们杠杆-AoLP_RAoLP_GAoLP_BDoLP_RDoLP_GDoLP_B12623公司简介.Σ老化来自野外捕获的图像的三色强度和三色线性偏振线索，以推断用于鲁棒透明材料分割的丰富上下文信息。线性偏振线索，由线性偏振度（DoLP）和偏振角（AoLP）描述，可以为透明物体分割提供强有力的线索[17]（图1），并且可以被认为是透明材料的内在物体纹理。然而，根据视图和照明条件，这些线索可能不会在所有三个波长上提供同样的信息，甚至混淆有效的RGB强度线索。为了应对这些挑战，我们设计了一个偏振玻璃分割网络，我们称之为我们讨论的是新兴的偏振阵列CMOS传感器支持的线偏振，而忽略了圆偏振和椭圆偏振等偏振态。通常，这些“偏振”相机记录光的四种线性偏振状态：I0 °、I 45 °、I 90 °和I 135 °，其中I x描述了由线性偏振器在角度x处捕获的图像。光的偏振态可以使用Sto k矢量S=[S0，S1，S2，S3]来描述，其中S0代表总光强度，S1和S2描述0 λ/45 λ线偏振与其垂直相对部分的比率，并且S3是圆偏振功率。斯托克斯元素S0、S1、S2可以从测量值I0λ、I45λ、I90λ和I135λ计算为：S0=I0+I90=I45+I135，三色DoLP和AoLP的关系将加权DoLP和AoLP与RGB图像特征一起馈送到S1=I0−I90，S2 = I45−I135。（一）整合到Conformer [31]骨干网络中，以提取鲁棒的全局和局部特征。多模态局部特征线性偏振度（DoLP）和线性偏振角（AoLP）然后被正式定义为：然后通过动态多模态特征积分进行融合由全局特征引导并随后由全局上下文引导解码器使用的2 2DoLP =1 2，AoLP =S01S2arctan2S1.（二）（GCGD）。为了训练PGSNet，我们引入了一个大规模的RGB偏振数据集，称为RGBP-Glass，它包含4，511个手动注释的RGB强度图像和相应的三色（即，RGB）AoLP和DoLP图像。为了确保多样性，我们从不同的现实世界场景中捕获RGBP-Glass数据集中的图像，这些场景在位置，类型，形状，颜色对比度和光线条件方面存在显着差异。我们证明了我们的方法的有效性，并显示了玻璃分割的多色偏振线索的重要性。我们广泛的实验表明，我们的方法显着优于竞争的方法。我们做出以下贡献• 第一种基于学习的方法，利用多色偏振线索对野外拍摄的照片进行玻璃分割;• 一种新的基于注意力的玻璃分割网络，动态融合RGB和多色偏振线索;以及• 一个新的和独特的大规模RGB-P玻璃分割数据集。2. 背景及相关工作极化光由电场和磁场的横波组成，其偏振态描述了横向电场的方向。在非零的有限观察时间内，该取向可以是随机分布的（非偏振），偏向单个方向（线性偏振），或在两个极端之间（部分线性偏振）。我们专注已知材料的类型和组成与DoLP和AoLP观察结果[4]高度相关，如图2中针对透明玻璃材料所示。然而，由于影响观察的因素很多，这种相关性通常很难对真实场景进行分析表征，这也是我们通过包含PGSNet的各种组件解决的一个关键挑战（第4）。我们不是第一个考虑极化线索的偏振线索的使用在计算机视觉中具有丰富的历史，用于广泛的任务，例如估计形状和/或表面法线（例如，[1-组分分离（例如，[19，20，37]）和语义段-作用（例如，[17、39]）。透明对象分割。大多数玻璃对象分割技术都适用于常规RGB图像[11，27，40，41，46]。虽然这些方法已经能够实现令人印象深刻的结果，但RGB图像仅提供弱的玻璃分割线索，并且这些方法的功效对于混乱的场景和打印出的欺骗而降低[17]。为了提高鲁棒性，已经考虑了用于透明和半透明对象分割的光-物质相互作用的更丰富的记录，例如由于光场[23，34，43]和深度信息[10，32]中的透明度尽管输入源更丰富，但这些方法仍然依赖于其他假设，例如弱镜面反射[23，34，43]，有限的物体形状[10]或孤立的物体[32]，从而限制了它们的通用性。与我们的工作最密切相关的是Kalra等人的玻璃分割网络。[17]其将强度图像以及偏振线索两者作为输入（即，AoLP和1262410×RGB/GT AOLP_R/DoLP_R AoLP_G/DoLP_G AoLP_B /DoLP_B图2. RGBP-玻璃实施例。对于每个样本，我们显示了两行，第一列是RGB强度（顶部）和参考玻璃分割（底部），最后三列分别是红色、绿色和蓝色通道的偏振测量（顶部：AoLP，底部：DoLP）。顶部样品在RGB和偏振两个方面都表现出清晰的玻璃线索。中间样本的特征在于弱强度线索，但在红色通道中具有强偏振线索。底部样本在RGB或偏振中均未示出强线索。DoLP）。然而，Kalraet al.专注于机器人垃圾箱拣选，并在一个由1600个小型透明物体的单色图像组成的专有训练集上训练他们的网络缺乏包含诸如玻璃墙和窗户的野外透明对象的大规模数据集排除了针对更一般的应用场景的偏振线索的利用虽然我们也利用偏振线索，但我们的玻璃分割网络（PGSNet）在两个关键方面与Kalra等人的方法不同。首先，我们使用三色偏振线索，并介绍了一个公开的大规模RGB-P数据集的野生透明对象。其次，Kalraet al.我们的方法仅利用局部上下文注意，由全局上下文注意和局部上下文注意两者指导。3. RGB-P玻璃分割数据集我们收集了一个大规模的偏振玻璃分割数据集，命名为RGBP-Glass，使用三色偏振器阵列相机（LUCIDPHX 050 S）记录四个不同的线性偏振方向（0°，45°，90°，1整个数据集训练集测试集0(a) 玻璃位置分布 (b)玻璃实例/区域日志分布图3.RGBP-Glass数据集在（a）玻璃位置和（b）玻璃实例的数量和相对大小方面具有广泛的变化数据集分割任务模态总图像Num.火车Num.测试颜色波尔.GDD [27]Trans10K-Stuff [40，41]GSD [21]玻璃玻璃玻璃RGBRGBRGB×××3916422641022980245532029361771810ZJU-RGB-P [39]语义RGB三39434450[17]第十七话玻璃灰色单1600 1000 600RGBP-玻璃（我们的）玻璃RGB三4511 3207 1304表1.现有玻璃分割数据集的比较。和135μ m）用于每个颜色通道（即，R、G和B），每个偏振方向的分辨率为612 × 512。RGBP-玻璃包含4，511个RGB强度和相应的像素对齐的三色AoLP和DoLP图像，具有手动注释的像素级精确参考玻璃掩模和相关的边界框。RGBP-Glass中的每个图像都包含至少一个野生玻璃对象。为了确保场景的多样性，我们从不同的位置，视角，照明条件，玻璃类型和玻璃形状捕获数据集相机的偏振滤光片会降低传感器的光效率，我们通过使用f/1进行补偿。6光圈和手动调整曝光时间。表1将RGBP-Glass与其他类似数据集进行了比较，图2提供了代表性示例。为了避免过拟合到玻璃位置、对象大小或玻璃实例的数量，我们确保RGBP-Glass覆盖玻璃位置的广泛分布（图3（a））、玻璃面积的比率（图3（b））和每个图像的玻璃实例的数量（图3（b））。据我们所知，RGBP-Glass是用于玻璃状对象分割任务的最广泛的公开可用的基于RGB-P的数据集。4. 光谱偏振玻璃分割图2中的三个选定示例表明，极化测量可以为玻璃分割提供强有力的额外线索。然而，在现有的玻璃分割网络中天真地包括这些测量不一定产生预期的性能改进。在典型的情况下，RGB和偏振观测都为玻璃分割提供了有意义的线索（例如，图2（a））。但是在一定的光照条件不同的P线索弱P线索相似P线索12625公司简介GCGAE2AE3AE4AE1BD1DMFICC⟨· ··⟩· ··(a) PGSNetRGBAoLPDoLP4我3 24I I我4φ4φ4ρ4ρ1我输出/Conv/Tran特征的监督级联Softmax元素乘法/加法图4. PGSNet（a）和三个主要构建块的概述：（b）动态多模态特征集成（DMFI）模块，(c)全局上下文生成（GCG）模块，以及（d）注意力增强（AE）模块。和/或视角，偏振提示可能很弱甚至不存在，不提供有意义的分割提示（例如，图2（c））。类似地，在不利条件下（例如，雾），RGB强度可能也不能提供有意义的线索此外，即使在模态内，由不同颜色通道提供的提示也可能不是同等重要的（例如，图 3（b）），甚至提供矛盾的线索。有效地和动态地融合之间和内部的多模态线索是必不可少的强大的多模态玻璃分割。我们介绍了一种新的偏振玻璃分割网络（PGSNet），其目的是动态融合多模态强度和偏振测量，通过利用局部和全局上下文信息进行鲁棒分割。PGSNet遵循图4（a）中总结的编码器-解码器架构。在编码过程中，早期动态注意模块（EDA;第4.1小节）估计用于平衡三色AoLP和DoLP中的每一个内的不同颜色通道的全局缩放权重。接下来，将加权的三色AoLP和 DoLP 以及 RGB 强度图像传递到三个单独的Conformer [31]分支中进行特征提取。Conformer阶段的目标是平衡每个不同源中玻璃和非玻璃对象之间的差异。例如，如果在玻璃状物体上没有观察到或观察到很少的极化，则PGSNet应该利用极化线索中的玻璃和非玻璃物体之间的任何潜在的全局和局部上下文信息。在最后的编码步骤中，我们采用了一种新的动态多模态特征集成（DMFI）模块（4.2小节），用于将从三个输入源提取的局部特征动态融合在一起（即，RGB、AoLP和DoLP）。在解码过程中，我们依靠全局上下文线索来避免过度分割。为了避免在解码流水线中的后续步骤中稀释全局上下文特征，我们引入了一种新的全局上下文引导解码器（GCGD;第4.3小节），其采用注意力增强（AE）模块来基于来自三个一致性分支的多模态全局特征动态地提供全局引导。4.1. 早期动态注意（EDA）EDA模块的目的是估计全局权重因子以平衡AoLP和DoLP测量中的颜色通道。我们采用ResNet-18 [13]（颜色通道之间共享权重），然后是全连接层和SoftMax算子来估计每个颜色通道的适当权重。例如，EDA模块可以表示为：wr，wg，wb=σ（<$G（pr），G（pg），G（pb）<$），P= [wr pr，wg pg，wb pb]，（3）其中p{r，g，b}是分别具有权重w{r，g，b}的红色、绿色或蓝色偏振测量（AoLP或DoLP）;[，，，]指示信道维度上的级联操作;σ是SoftMax函数;表示向量;并且G是权重估计网络。CS(b)DMFI(c)GCGT4DFMSDP我TTT4I4φ4ρ(d)AEF联系我们联系我们T4φT4SρeEFAEFDFFMSDPFDMFICCC4我4φ4 ρ+C不CΓ不全球指导EDAEDABD2BD3构象构象构象+C不C不C不C12626V K Q Q KVFDMFI=10br（F）。M SDP3联系我们DP、FDPK3我ϕρ我ϕρDPAEII我的朋友4.2. 动态多模态特征集成从不同模态（即，RGB强度、AoLP和DoLP）是场景相关的（参见图1）。图2）。这些线索的简单组合动态多模态特征集成（DMFI）通过利用全局和局部信息来解决来自三个输入域的特征的鲁棒融合图4（b）所示的DMFI模块由两个模块组成：动态融合（DF）块和多尺度相关感知（MSDP）块。动态融合（DF）。DF 块首先在三个Conformer [ 31 ]为三种输入模态中的每一种提供的三个标记嵌入序列上生成三个空间注意力图（参见关于Conformer的详细信息的补充材料）。所提取的卷积特征随后由注意力图加权并融合（求和）在一起：M4 ，M4 ，M4=σ （ σ （T4 ）， σ （T4 ）， σ（T4）），（1）（1）（㈩T（x）;、得双曲正弦值.是三个可学习的线性嵌入函数，实现为三个完全连接的层。我们的MSDP块类似于现有的注意力方案（例如，PPM [47]，ASPP [5]非本地关注[35]）。我们参考补充材料进行额外的实验，验证MSDP优于先前的计划。DMFI块的最终输出应用附加的3×3卷积到MSDP块的输出特性34.3. 全局上下文引导解码器全局上下文线索对于避免解码阶段的过度分割至关重要。通常，这些全局上下文线索经由高级特征被注入解码器中。然而，随着解码过程进行到较低级别的特征，全局上下文特征的影响减弱。为了在解码过程中保留全局上下文信息，我们引入了一种新的全局上下文引导解码器（GCGD），该解码器由全局上下文生成（GCG）模块（图4（c））组成，该模块在三个输入域，注意力增强（AE）模式FDF=M4<$C4+M4<$C4+M4<$C4，（4）其中，M是分别从I、λ和ρ、RGB强度、AoLP和DoLP输入生成的注意力映射，λ是一个函数，它首先通过全连接层将每个标记嵌入的维度减少到1，然后将所得嵌入重新整形为2D映射。 C和T是卷积特征和标记规则（图4（d）），利用这些全局指导线索来增强低级功能。全局上下文生成（GCG）。GCG 的关键是观察到来自Conformer [ 31 ]的令牌嵌入T4、T4和T4具有固有的全局感知特性。我们通过首先计算一组互相关特征来利用这些令牌嵌入：Fxy=X（T4，T4），在x y中由conv和trans分支生成的嵌入=T4+（T4，T4），Conformer [31]，其中上标表示Conformer的内部块的索引X x y=T4+（Q（T4）K（T4）T/d）V（T4），（6）元素乘法多尺度依赖感知（MSDP）。为了减少玻璃对象的形状变化和位置的影响，MSDP块使用专门设计的多尺度自注意机制来增强用于在动态融合特征FDF通过改变感知尺度，MSDP块可以有效地检测不同尺度的区域之间的相关性形式上：FV=10br（FDF），n=n（FV）=FV+αU（N（An（FV），x y x x其中xy I，Iρ，I，ρ，ρI，ρ，是sigmoid函数，d表示令牌嵌入的长度。然后，这些互相关特征通过线性投影r组合，由全连接层实现：T= Γ（[F I，F Iρ，F I，F ρ，F ρI，F ρ]）.（七）注意力增强（AE）。AE利用来自GCG模块的组合特征，通过计算和组合空间增强图E和通道特征e来增强输入特征。在GCGD中，我们部署了四个AE块，解码器特征首先通过第四个AE块。从数学上讲，第j个AE块是FMSDP= [FDF，F57 9DPDP，F11]，（5）定义为：其中，Rxbr是k×k卷积层，后面是ej=R（Fj）<$R（Tg）批量归一化（BN）和ReLU激活功能。An是自适应平均池化，目标大小为n×Ej=PC（Fj′）<$PT（ts，Tg），Fj′′=Fj′Ej+Fj′，Fj′=Fjej+Fj，n，U是双线性上采样，α是可学习的参数。N（x）是自注意操作，定义为：j=br（F j′′）j∈[1，4]，（8）F、FF12627P一个PMM××βLLβ⋄†BD3我其中F4=FDMFI且Fi=Fi=Br（Ci+U（f∈ r（Fi+1），i∈[1，3]. R（x）是通道特征3级AEBR1生成器定义为：（1（1（（x）;C（x）是基于卷积特征的空间映射生成器，定义为Σ（Σ7（x））;T（x，y）也是一个基于标记嵌入的空间映射生成器，定义为T（x，y））。Tg和Ts是T中的n个玻璃和分割标记。4.4. 损失函数我们在训练过程中监督编码器和解码器对于编码器，我们遵循Conformer [31]的训练过程，并应用两个损失函数LC和LT，M m对于conv和trans-branches：C TLE= Lm（Lm+Lm），m∈ {I，λ，ρ}，（9）其中LC和LT都是二进制交叉的和[25]《孝经》云：“孝者，孝对于解码器，我们对最深的三个AE模块生成的特征和GCG模块生成的4我LD= L Ei=2（LAE）+LGCG，（10）其中AE模块和GCG模块上的损失表2.与最新技术水平的定量比较：实例/语义分割方法（以同义词标记）再次计算为：ℓ公元前公司简介. 最后，我们结合bol），显著目标检测方法（△），隐藏目标分割方法，医学图像分割方法编码器E和解码器D两者的损失与最终输出掩码上的BCE和IoU损失。为了促进清晰的掩模边界，我们还添加了一个边缘损失边缘[48]（通过经验确定的ω=10L=LE+LD+LBCE + ω BCE+ωBCE +ωBCE，（11）5. 评估我们在PyTorch中实现了PGSNet [30]，并使用动量为0.9的随机梯度下降来训练我们的网络180个epoch，批量大小为18，重量衰减5 10-4。我们采用多战略-egy [22]，并将初始学习率和功效分别设置为0.001和0.9。我们随机初始化PGSNet，除了用ResNet-18初始化的EDA [13]和用ImageNet上预训练的模型初始化的Conformer-B模型[31将所有输入图像的大小调整为416 416，并且最终输出被双线性地调整大小回到原始输入分辨率。我们使用四个指标进行验证和消融：交集大于并集（IoU）、加权F-测度（F w）[24]、平均绝对误差（MAE）和平衡误差率（BER）[28]。对于IoU和Fw，越高越好，而对于MAE和BER，越低越好。我们参考柔软的材料，以获得每个度量的正式定义。5.1. 定性和定量评价我们广泛比较了我们的方法的有效性，22国家的最先进的方法在不同的相关任务（§）、阴影检测方法（·）、镜子分割方法（*）、RGB玻璃分割方法（*）、RGB+P语义分割方法（）、单色强度和基于偏振的玻璃分割方法（）。所有方法都在RGBP-Glass数据集上进行了重新训练和测试（不包括最后一行，证明PGSNet推广到其他数据集）。需要额外CRF [18]后处理步骤的方法用符号标记。第一、第二和第三好结果分别以红色、绿色和蓝色例如实例/语义、显著/镜像对象、阴影/镜像分割以及玻璃区域/实例分割（表2）。为了进行公平的比较，所有方法都在RGB-P Glass分割数据集上进行了重新训练和测试。在比较的方法中，EAFNet [39]和P Mask R-CNN [17]是唯一两个也利用极化线索的方法。GDNet[27]，TransLab [40]，Trans2Seg [41]和GSD [21]是野生玻璃分割方法，但仅依赖于RGB强度输入。从表2中，我们可以看到，所提出的方法提供了所有四个指标的最佳性能，优于其他竞争方法的显着保证金。两种基于偏振的方法P Mask R-CNN [17]和EAFNet [39]表现不佳。P Mask R-CNN [17]用跨域注意力方案扩展了MaskR-CNN [12Mask R- CNN在小物体上工作得很好，就像Kalra等人的情况一样。的预期任务的机器人斌采摘，但其perfor-曼斯遭受分割较大的对象时，即使包括偏振线索。P Mask R-CNN方法IoU↑Fw↑βMAE↓BER↓[12]第十二话63.590.6770.22422.62[47]第四十七话74.490.7860.12814.76[44]第四十四话75.180.7930.11914.28DANet [9]75.640.7930.12114.15[15]第十五话76.520.7990.11713.44[49]第四十九话77.600.8170.11411.46[42]第四十二话78.420.8150.12113.03DSS△ [14]69.320.7070.18317.33CPD△ [38]75.600.7900.12713.25F3Net△ [36]73.030.7640.14614.92MINet-R△ [29]70.560.7460.14715.92[26]第二十六话76.260.7900.13012.83SINet-V2 [7]76.860.7960.12612.76PraNet§ [8]75.450.7810.13313.80[50]第五十话69.130.7320.17318.68[45]第四十五话76.490.7960.12613.52GDNet*[27]77.640.8070.11911.79[40]第四十话73.590.7720.14815.73[41]第四十一话75.210.7990.12213.23政府物料供应处 **[21]78.110.8060.12212.61[39]第三十九话53.860.6110.23724.65P MaskR-CNN [17]66.030.7140.17818.92PGSNet（我们的）81.080.8420.0919.63PGSNet（[39] data）77.700.8390.0076.9212628AoLP_RAoLP_GAoLP_BDoLP_RDoLP_GDoLP_BAoLP_RAoLP_GAoLP_BDoLP_RDoLP_GDoLP_BAoLP_RAoLP_GAoLP_BDoLP_RDoLP_GDoLP_BAoLP_RAoLP_GAoLP_BDoLP_RDoLP_GDoLP_BRGB图像三色偏振线索GDNet TransLab Trans2Seg GSD P Mask R-CNNPGSNet（Ours）GT图5.PGSNet与在RGBP-Glass数据集上重新训练的最先进的玻璃分割方法的定性比较对于强度和偏振两者仅使用单色提示，这不如使用三色提示有效。虽然EAFNet [39]也探索了多色DoLP和AoLP，Xianget al.结论是EAF-A（即，RGB+AoLP）在EAFNet的语义分割中表现最好然而，正如我们的消融研究所示（第5.2节），DoLP比AoLP对玻璃分割的信息量更大EAFNet的准确性较低，部分原因是它被设计用于解决更一般的问题（语义与玻璃分割），部分原因是它比PGSNet更注重性能。我们参考补充材料进行性能比较。最后，我们还在较小的ZJU-RGB-P数据集上训练和测试了PGSNet（表2的最后一行），证明PGSNet可以很好地推广到具有类似性能增益的其他数据集。图5进一步定性说明了我们方法的优点：1. 浴室场景中的玻璃反射与墙壁具有相同的纹理。只有我们的方法能够准确地分割玻璃。P Mask R-CNN利用的单色偏振信息以及所采用的融合方案不足以成功分割玻璃。2. 金属门框中的玻璃：除PGSNet和Trans2Seg外，所有方法都将金属材料与玻璃混淆。Trans2Seg3. 在第3和第4示例中，即使玻璃在RGB强度图像中不可见，我们仍然观察到强的AoLP和DoLP线索。尽管也利用了极化线索，但P Mask R-CNN在第4个示例中失败了。相比之下，我们的方法成功，由于我们的动态上下文感知的注意力为基础的融合。5.2. 消融研究接下来，我们研究（a）光谱偏振线索的影响和（b）PGSNet中每个组件的影响。对于每个实验，我们完全重新训练每个模型。光谱偏振线索的影响。我们进行了一系列烧蚀实验来证明光谱偏振线索对玻璃分割的影响表3：（A）PGSNet基线;（B）仅具有RGB强度提示;（C）具有AoLP，但不具有DoLP;（D）有DoLP，但没有AoLP;（E）单色强度加单色偏振线索;以及（F）具有单色偏振提示的RGB强度提示。将B（仅RGB）与C、D或F进行比较，我们可以看到，将任何形式的偏振线索添加到RGB强度线索可以提高分割精度。此外，我们观察到DoLP线索（D）比AoLP线索（C）具有更大的影响。与Kalraet al. [17]，E和F之间的差异表明光谱RGB强度信息具有主要影响。最后，我们的基线（A）和（F）之间的差异进一步证明光谱偏振线索比单色偏振线索信息量更大。图6在视觉上支持上述定量观察。早期动态注意（EDA）EDA模块平衡DoLP和AoLP两者中的不同频谱分量。比较表3A（具有EDA）与G（不具有EDA），显示了包括EDA时的显著性能增益，验证了动态平衡每个波长的贡献。PGSNet组分的影响。我们通过逐渐去除不同的组分来证明组成PGSNet的每个组分的影响和重要性。首先，我们通过从GCGD移除GCG（表3H）来消融解码器，这导致与基线（表3A）相比性能降低接下来，12629X联系我们AoLP_RAoLP_GAoLP_BDoLP_RDoLP_GDoLP_BAoLP_RAoLP_GAoLP_BDoLP_RDoLP_GDoLP_BRGB图像三色偏振线索输入仅支持RGB输入w/单声道提示B+ BI + BDB+ DMFI +BDB+ BI + GCGDPGSNet GT图6.不同PGSNet消融剂的定性比较。AoLP_RAoLP_GAoLP_B线性偏振角P掩模R-CNN GSDDoLP_RDoLP_GDoLP_BRGB图像线偏振度PGSNet（Ours）GT图7.对于具有弱偏振线索的场景，PGSNet表3.定量消融比较显示：a）光谱和偏振线索促进更稳健的玻璃分割，以及b）PGSNet的所有组分有助于整体性能。我们用“B”表示骨干网络（EDA +构象），其中“EDA”是早期动态注意模块。‘BI’ denotes a basic integration unit (逐元素加法），用于消除动态多模态特征集成（DMFI）模块，并且我们去除了四个AE块并且用基本解码器（BD）代替GCGD，进一步降低了性能（I）。在编码器侧，我们然后通过移除MSDP块（J）来简化DMFI模块。加回完整的GCGD，但是通过基本积分模块（BI）交换DMFI，该基本积分模块（BI）在等式4中将注意力映射M4，x I，x，p中的所有值设置为1，产生改进（K对J），但是仍然略低于具有基本解码器（I）的完整积分模块。这表明两种组分（GCGD和DMFI）都有助于PGSNet的整体性能。比较I（第二好）与J（第二差）证明了使用多尺度依赖关系的重要性。最后，我们将所有组件替换为它们的基本对应物，产生最差的性能（L），说明了PGSNet中每个组件的重要性。5.3. 限制当极化只提供微弱或没有线索时，我们的方法的有效性降低;图7演示了这种情况。然而，即使没有两极分化，提示，我们的方法（表3B）与现有的玻璃分割方法相比仍然表现良好即使只有RGB输入，我们的方法仍然优于现有的玻璃分割方法，利用偏振线索。此外，PGSNet期望照片中至少有一个玻璃物体，并且当不存在这样的物体时，它失败。请注意，这可以通过在RGBP-Glass上进行训练来解决，该RGBP-Glass使用来自ZJU-RGB-P [39]的没有玻璃对象的图像进行增强6. 结论在本文中，我们提出了一个强大的玻璃分割网络，PGSNet，动态融合三色强度和偏振线索记录在野外。提出的网络包括几个新的模块。在编码器侧，DMFI模块通过利用多尺度逐像素依赖性来集成多模态三色测量以动态地增强局部上下文线索。在解码器侧，一种新的GCGD利用跨模态全局上下文信息来提供鲁棒的分割。为了促进偏振作为视觉任务的有价值的线索，我们还引入了一个大规模的RGBP-Glass数据集，我们也用它来训练PGSNet。我们的验证和消融证明了三色偏振线索的价值以及PGSNet的有效性和鲁棒性致谢。本工作得到了国家自然科学基金项目61972067/U21 A20491/U1908214、国家重点研究发展计划项目（2021 ZD 0112400）和大连市创新技术基金项目（2020 JJ 26 GX 036）的资助。Pieter Peers获得了NSF资助IIS-1909028的支持。Felix Heide获得了NSFCAREER Award （ 2047359 ）， Sony Young FacultyAward和Project X Innovation Award的支持。网络RGBP-玻璃测试仪IoU↑Fw↑ MAE↓ BER↓β一PGSNet（原始）81.08 0.842 0.0919.63B仅输入RGB76.11 0.797 0.126 13.08CInput RGB + trichromatic AoLP77.23 0.807 0.117 12.04DInput RGB + trichromatic DoLP79.73 0.826 0.105 10.46E输入灰度+单色AoLP +单色DoLP75.99 0.793 0.123 12.75F输入RGB +单色AoLP +单色DoLP79.01 0.819 0.105 11.06G PGSNetw/o EDA80.23 0.833 0.097 10.04H B + DMFI + GCGD，不含 GCG79.64 0.826 0.102 10.35我B + DMFI + BD79.18 0.824 0.103 10.73J B + DMFI，不含MSDP + BD78.65 0.819 0.106 11.09K B + BI + GCGD79.03 0.821 0.104 10.82L B + BI + BD77.24 0.809 0.111 11.3512630引用[1] G.A. 阿特金森和急诊室汉考克使用偏振的多视图表面载于ICCV，2005年。2[2] G.A.阿特金森和急诊室汉考克从漫极化中恢复表面取向。IEEE TIP，2006年。2[3] Gary A Atkinson和Edwin R Hancock。基于极化的二维brdf估计。CVIU，2008年。2[4] Seung-Hwan Baek ， Tizian Zeltner ， Hyunjin Ku ，Inseung Hwang，Xin Tong，Wenzel Jakob，and Min HKim.基于图像的偏振反射率获取与建模。ACM TOG，2020年。2[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE TPAMI，2017年。5[6] 陈同波，Hendrik P. A. Lensch，Christian Fuchs，andHans-Peter Seidel.用于半透明物体三维扫描的偏振和相移。CVPR，2007。2[7] 范登平，季戈鹏，程明明，凌少。隐藏物体检测。IEEE TPAMI，2021。6[8] 范登平，季戈鹏，周涛，陈耿，傅华柱，沈建兵，邵凌。Pranet：用于息肉分割的并行反向注意力网络。MICCAI，2020年。6[9] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR，2019年。6[10] 陈国华，王俊义，张爱军。基于rgb-d摄像机的平移目标检测与定位。物理学杂志：会议系列，2019年。2[11] 何昊，李祥泰，程广良，石建平，童云海，孟高峰，普里纳，翁路斌.增强的边界学习，用于玻璃状物体分割。ICCV，2021。一、二[12] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。InICCV，2017. 6[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。四、六[14] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip Torr.具有短连接的深度监督显著 IEEE TPAMI，2019。6[15] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：Criss-cross attention for semantic segmentation.在ICCV，2019年。6[16] Achuta Kadambi、Vage Taamazyan、Boxin Shi和RameshRaskar。偏振3D：高品质的深度感应与极化线索。在ICCV，2015年。2[17] Agastya Kalra 、 Vage Taamazyan 、 Supreeth KrishnaRao 、 Kartik Venkataraman 、 Ramesh Raskar 和 AchutaKadambi。用于透明对象分割的深度偏振提示。在CVPR，2020年。一二三六七[18] Phil i ppK raühenbuühlandVladlenKoltun. 具有高斯边势的全连通crfs的有效推理NeurIPS，2011。612631[19] Chenyang Lei ， Xuhua Huang ， Mengdi Zhang ，Qiong Yan，Wenxiu Sun，and Qifeng Chen.消除偏振反射在CVPR，2020年。一、二[20] 李锐，邱思梦，臧光明，和沃尔夫冈·黑德里奇.通过多反射偏振态跟踪的反射分离。在ECCV，2020年。一、二[21] Jiaying Lin，Zebang He，and Rynson W.H.刘用于玻璃表面检测的反射先验丰富在

下载后可阅读完整内容，剩余1页未读，立即下载