极匹配卷积学习揭示反射对称性特征

119 浏览量更新于2023-10-13 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1285===通过极匹配卷积学习发现反射对称性徐阿贤 * 沈佑贤 *赵敏秀韩国浦项科技大学（POSTECH）http://cvlab.postech.ac.kr/research/PMCNet摘要反射对称性检测的任务由于在野外对称图案的显著变化和模糊性而仍然是挑战性的。此外，由于局部区域需要在反射中匹配以检测对称模式，因此对于不与旋转和反射等变的标准卷积网络来说，学习任务是困难的。为了解决这个问题，我们引入了一种新的卷积技术，称为极坐标匹配卷积，它利用了极坐标特征池，自相似性编码和不同角度轴的系统内核设计所提出的高维核卷积网络有效地学习从真实世界的图像中发现对称模式，克服了标准卷积的限制此外，我们提出了一个新的数据集，并引入了一个自我监督的学习策略，通过合成图像来增强数据集。实验表明，我们的方法优于国家的最先进的方法在准确性和鲁棒性方面。1. 介绍世界是建立在对称的基础上的。从自然界的物理对这种对称性的感知在人类视觉的不同水平上起着至关重要的作用[38];它为人类提供了用于早期视觉分析的预先注意线索，并且还作为透视失真下的3D物体感知的组成部分。在常见的对称群中，最基本、最普遍的形式是反射对称、镜像对称或双侧对称，这也是本书的重点。反射对称性检测的任务是通过检测图像的对称轴来发现图像中的反射模式。尽管数学概念[40]明显简单且研究历史悠久[24]，但由于野外对称模式的显著变化和模糊性，该问题仍然具有挑战性。*平等捐款。什么？什么？什么？图1.反射对称中的特征匹配。反射对称性的感知需要反射中的对应区域相对于其对称轴的匹配特征。网格表示特征图，红色方块表示相应的区域。应对这一挑战最有希望的方向之一是从数据中学习[15]。虽然深度卷积神经网络（CNN）在广泛的计算机视觉问题中取得了显著的进展，但在现实世界图像上学习对称检测的工作很少。以前的工作[14]采用CNN [3]回归对称轴的密集热图以进行对称检测。虽然结果证明了学习的有效性，但该方法没有考虑传统CNN在学习对称性方面的限制。如示于图1，发现对称性需要识别反射中的局部区域的匹配对，并且这可能使得CNN难以学习任务，CNN既不是反射不变的也不是反射等变的[8，20]。此外，对称轴的旋转自由度使其甚至更难，因为常规CNN也不是旋转不变的。仅从数据中学习所需的属性时，仅使用标准卷积是无效的在这项工作中，我们引入了一种新的卷积技术，被称为极匹配卷积（PMC），它利用了极特征池，自相似性编码，以及不同角度的轴的系统内核设计。在极坐标结构中对称匹配的特征对的基础上，极坐标匹配核通过利用局部相似性计算对称性的置信度1286和局部图案的几何布局。所提出的卷积神经网络学习发现具有高维内核的对称模式，所述高维内核有效地比较相对于可能的候选对称轴的反射中的对应特征我们还提出了一个新的对称性检测数据集，并介绍了一个自我监督的学习策略，使用合成图像。对SDRW [23]基准和我们的数据集的实验评估表明，所提出的方法PMCNet在准确性和鲁棒性方面优于最先进的方法。2. 相关工作根据是否使用关键点匹配检测对称轴，反射对称算法可大致分为两类[4，7，26，28，39]或热图预测[11，12，14，36]。关键点匹配。关于对称检测的早期工作[4，26]使用通过匹配关键点的局部特征获得的对称匹配的稀疏集来构造对称轴。关键点匹配是通过比较原始特征和它们的镜像对应部分来完成的。描述符需要在图像上的反射下等变。Loy和Eklundh [26]使用SIFT [25]描述符，因此他们可以通过重新排序其元素来计算描述符的反射副本。对于每一对，对称轴的候选是垂直穿过对称对的中点的线。Pa- traucean等。[30]在工作[26]的顶部使用反对派理论开发验证方案，以找到最佳镜像对称图像块。Cicconet等人[6]提出了一种基于用切线计算的对称系数的成对投票方案。Elawady等人[10]将投票问题转换为核密度估计，并使用基于线性方向核的投票表示来处理位移和方向信息。Cho和Lee [4]提出了一种对称增长方法，以开发比局部对称区域更多的信息。初始对称特征对被用作种子，以进行合并，并根据几何一致性和光学相似性进行细化。方法[7，28]使用随机化算法和配准对像素对应进行分组。Cicconet等人[7]提出了通过配准的镜像对称（MSR）框架，以使用归一化互相关匹配来执行原始图案和反射图案之间的配准。利用反射映射和配准映射，得到了最优Cornelius等[17]考虑检测平面表面上的反射对称性，并使用具有特征四元组的hough-voting方案定位它们。他们还使用局部仿射框架[18]有效地改进了这个框架，该框架采用单个对称对来假设对称轴。Sinha等人[34]采用摄像机坐标系假设平面对称性，并使用随机采样一致性（RANSAC）算法来提取相机参数和代表性对称性。我们的卷积技术PMC受到这些关键点匹配方案的启发，旨在检测图像中变形的真实世界对称性。热图预测。除了特征之间的比较之外，最近提出的方法直接预测每个像素的对称性。Tsogkas等人[36]在所有方向和尺度上为每个像素分配一袋特征，以获得对称概率图。这些对称结构是通过多实例学习发现的。Nagar 等人 [28] 利用 PatchMatch [1] 生成密集的SymmMap，其中包含镜面反射的位移场和每个像素的置信度得分。SymmMap是第一个初始化的稀疏对称点集和迭代更新的搜索邻居最大化的信心得分。福岛等人[11，12]引入了4层神经网络，而不是使用手工制作的功能。网络从图像中提取并模糊边缘，以产生对称轴的密集热图。Funk等人[14]是第一个使用深度CNN直接回归对称热图的人。这项工作[14]采用了基于分割的模型[3]，并在地面实况堆映射上使用2虽然简单CNN模型优于使用局部特征描述符的方法它经常不能发现具有变形轴的真实世界对称性，因为常规CNN对于反射和旋转既不是不变的也不是等变的。为了减轻这些困难，我们扩展PMC使用的自相似描述符检测对称性。3. 该方法该方法通过学习高维核函数的卷积来发现反射对称模式，并进行反射特征匹配。图2简要说明了总体架构。给定输入图像I，由特征编码器ENC计算基本特征F我们将基本特征F变换为极坐标自相似性描述器P。然后，极匹配卷积PMC_F和PMC_P计算对称性得分S_F和S_P，用于：特征F和P。最终预测通过在组合得分S_F和S_P以及基本特征F之后应用卷积块g（·）来获得。在下文中，我们详细阐述极坐标匹配卷积PMC_F和PMC_P，然后描述我们的模型的最终输出和训练目标，极坐标匹配卷积PMC_F和PMC_P。解决方案网络3.1. 极坐标匹配卷积卷积运算通过在不同位置处使用特征来复用共享内核来检测局部模式1287PMC、’x，y，γ，φ，c=，（1）PMCF我ENCPsstPMCPPCDecYFPF特征编码器极坐标自相似变换图2. 概述我们提出的方法。有关详细信息，请参见3 .第三章。级联轴译码器yarad= 3，（ang×ang）（ang×ang）��F ∈××rad×ang ×��F∈��(a) 极区描述符(b) 区域内相关性(c) 反射匹配核KF图3.Polar Matching Convolution（PMC）的缩写（a）极区描述符Z_F从给定的基础特征F采样，其中采样角度M_a_n_g和半径M_r_a_d的数量。（b）用极区描述子Z_F计算内区相关系数C_F。（c）将反射匹配核K_F应用于C_F以计算对称分数张量S_F。匹配特征对用黑色虚线指示。注意，N轴是候选轴的数量。神经网络中的标准卷积被训练为根据目标对象学习内核，其中相关张量CF∈ RW× H × Mang × Mang（图3b）作为卷积中的特定约束。为了有效地检测对称性，我们提出了极坐标匹配卷积（PMC），旨在学习提取对称性CF′x，y，φ，φΣZFx，y，γ，φ，：γZFx，y，γ，φ，：），t（2）模式w.r.t. 对称轴PMC的操作如图所示。3，并在下文中详述。极区描述符。作为用于局部匹配的基本单元，我们使用极区描述符（图1）。3a）。对于特征张量F∈RW×H ×C的每个空间位置（x，y），我们收集以（x，y）为中心的极坐标网格采样的邻域点的特征。我们将最大半径设置为M_len，并且将采样角度的数量M_ang和半径M_rad。极坐标区域描述子ZF∈RW×H ×Mrad×Mang×C被设计为包含从F用双线性插值采样的所有空间位置（x，y）的局部极坐标窗口：ZFFx−γcosφ，y+γsinφ，c其中Φ指示从每个极区的中心的偏移角和γ偏移半径。偏移Φ和γ分别均匀地分布在[0，M_len]和[0，2π]包含不同角度的相似性。对于相似性函数，使用余弦相似性。冒号（：）表示指定轴中的所有元素。反射匹配内核。从区域内相关性CF出发，利用反射匹配核KF∈RNaxi×Mang×Mang检测对称轴，其中Naxi为候选轴的个数。内核通过con-与极区中的所有对结构如图在图3c中，如果区域关于红点线的轴对称，则（无序）特征对{（1，2），（3，8），（4，7），（5，6）}应该具有高相关性。另一方面，对于蓝点线的轴，匹配特征对应该是{（1，8），（2，7），（3，6），（4，5）}。同样，我们为每个候选轴建立匹配集在训练中，我们学习匹配集所涉及的核K-F的参数Mrad芒仅丢弃其他条目。这将产生一个内核区域内相关性。为了捕获每个极区内的对称模式，我们计算一个区域内与纳西芒可训练参数的总和。对称性得分SF∈ RW× H× Naxi通过与以下的卷积来计算：PsstENCCDecXF，，： radang（、、）的内容Xy（，′sim（F，，F��，）❽❼❻❶❺❷❸❹❽❼❻❶❺❷❸❹=int（1288？=？=′rad= 3，埃斯特里拉德= 3，缅甸= 8⇒（ang×ang×ang×ang）（ang× ang）、（ang×ang）F∈�� ×�� ×��∈�� ×�� ×��rad×��ang��P∈��(a) 极坐标自相似区域描述子P（b）可分离反射匹配核KP图4. 具有自相似性的PMC（PMCP）的图示。（a）极坐标自相似性P包含用Nrad和Nang采样的邻近像素的自相似性值。然后，利用采样半径Mrad和采样角度Mang从极坐标自相似性P中采样极坐标区域描述符Z P。（b）反射匹配核KP提取针对N轴候选轴的相关角度关系对。核可以被分解为低维核以处理极区域描述符和极自相似描述符内的关系。=图5.反射对称性中的自相似匹配。红色网格表示自相似性描述符，其中每个位置将其相似性值编码到中心。在反射中的两个对应区域之间，如果每个相似性值对于反射和旋转是不变的，则在反射中保留详情见正文反射匹配内核为换句话说，如果两个区域之间的相似性对于反射和旋转是不变的，则区域描述符将是注意，这种对成对相似性的不变性要求比对单个特征的原始不变性要求弱。为此，我们通过使用极坐标网格中的邻域将基本特征转换为自相似性。扩展的PM CP的细节在图1中示出。4，并在下文中描述。极性自相似描述子。我们采用自相似性与一个极形的局部窗口编码的关系信息具有不同的方向。给定一个基特征F∈RW×H ×C，极坐标自相似性P∈RW×H ×Nrad×Nang计算为Px，y，r，θ= sim（Fx，y，：，Fx−rcosθ，y +rsinθ，：），（4）其中X和y指示空间位置，并且r和θ表示极坐标中的空间位置的偏移。r和θ均匀地分布在[0，Nπ]和[0，2π]之间，纳拉德南SFx，y，kΣ KFk，φ，φφ，φ′CF′x，y，φ，φ.（三）其中Nrad是采样半径的数量，Nang是角度的数量，并且Nlen是最大半径。对于相似性函数，校正余弦相似性，这是余弦相似度，然后是ReLU。极地3.2. 自相似PMC由于CNN既不是旋转不变的，也不是等变的。区域描述子ZP∈RW×H ×Mrad×Mang×Nrad×Nang通过用双线性插值对极坐标自相似描述子P进行采样来反思，PMC在学习上可能仍有困难来检测对称性。例如，在图1的情况1、PMCZPx，y，γ，φ，r，θ=Px−γcosφ，y+γsinφ，r，θ.（五）如果基本特征对于反射和旋转都是完全不变的，则可以有效地检测反射。然而，这可能是对基本特征提取器的过度要求，即：，较低的卷积层，以实现。为了解决这个问题，我们通过用自相似描述符扩展PMC来放松要求[31]。图5说明了基本思想。让我们将每个区域表示为与相邻区域的自相似性值自相似注意，我们保留P的极形局部窗口的结构，使得我们构建匹配w.r.t. 极坐标自相似描述子P.区域内相关性。根据极区描述符ZP，区域内相关张量CP∈RW×H ×Mang×Mang×Nang×Nang计算为Σ描述符被保留在反射中，如果成对相似的-CP′ ′=ZPZP′’。（六）ity值对于反射和旋转是不变的换句x，y，φ，φ，θ，θγ，rx，y，γ，φ，r，θx，y，γ，φ，r，θ❽❼❻❶❺❷❸❹❼❽❸❻❺❹❼❽❶ ❷❶❷❽❶❷❻ ❺❼❸❸❸❻❺❹❹❽❶❷❼❸❻❺❹❽❶ ❷❼ ❸❻❺❹Xy（rad× ang× rad× ang）=？1289上述运算等价于N维极区自相似向量的外积，得到极区自相似描述子P的（Nang× Nang）个元素级关系。可分离的反射匹配核。为了从区域内相关性CP 中检测对称性，需要反射匹配核KP∈ RNaxi× Mang×Mang × Nang × Nang. 对称性分数SP∈RW×H×Naxi 通过与反射匹配核的卷积计算为Σ(a)（b）第（1）款SP=KP′“CP”。（七）x，y，kφ，φ′，θ，θ′k，φ，φ，θ，θx，y，φ，φ，θ，θ或者，可以通过顺序应用核KPM ∈ RNaxi× Mang × Mang和KPN∈RNaxi× Nang× Nang来计算核K P，如图所示。4 b.如果图像是对称的w.r.t. 红色虚线的轴，（无序）特征对{（1，2），（3，8），（4，7），（5，6）}并且元素对{（1，2），（3，8），（4，7），（5，6）}应该匹配。不同于SEC。3.1、匹配集PMCP包括匹配对的两个级别。当Mang= Nang时，自相似模式使得核KPM和KPN能够共享核参数。我们表示(c)（d）其他事项图6.合成图像的示例。(a)具有随机采样轴的前景图像。(b)地面实况对称轴。(c)将镜像翻转的前期实例简单粘贴到背景图像的结果。(d)最后的训练样本与混合程序。在训练中降低非轴区域权重的焦点损失[21]的α变体KPS∈RNaxi×Nang×Nang 的共享核。如在 Sec. 3.1中，我们只使用和训练的纳西Nang参数中的纳西Nang元素ΣL=x为oh−αt（x，y）（1−pt（x，y））βlog（pt（x，y）），（11）内核。因此，我们可以重写Eq。（7）作为Σ其中αt（x，y）平衡轴/非轴区域，并且pt（x，y）是对称性的置信度，其ad-C~P′=KPS′CP’’，（8）简单样本和困难样本之间的比率x，y，θ，θφ，φ′Σk，φ，φx，y，φ，φ，θ，θ聚焦参数β[21]。此外，我们软重量SPx，y，k =θ、θ′KPSk，θ，θC~Px，y，θ，θ’。（九）pt（x，y）和αt（x，y）在平滑对应的la-具有半径为5的高斯模糊的bel遵循[14]，3.3. 反射对称检测W e组合SP、SF和F作为解码器（DEC）的输入。为了将位置置信度作为附加输入馈送到解码器，我们构造最大得分图S~∈RW×H×1，通过汇集每个空间位置的最大得分，然后用[S~||S]。最终预测Y是解码器g（·）的输出：Y=g（[S P|| S F||F]）、（10）哪里||表示沿着信道的级联操作。解码器g（·）由两个块（3×3conv-BN-D0-ReLU）和具有sig-moid的1×1conv层组成，其中BN和DO表示批量归一化，并且dropout，分别。3.4. 培养目标我们的网络基本上执行逐像素的二进制分类检测对称轴。由于对称轴只占图像的很小一部分，我们采用′1290pt（x，y）=Yx，yMx，y+（1−Yx，y）（1−Mx，y），（12）αt（x，y）=αMx，y+（1−α）（1−Mx，y），（13）其中Y和M是预测的热图和地面实况（GT）标签热图，并且α是通常由逆类频率设置的预先指定的标量4. 实验4.1. 数据集现有数据集。SDRW [23]用于来自真实世界图像竞赛'13的对称检测NYU [5]由176个单对称和63个多对称图像组成。DSW [13]包含每个单个和多个对称的100个图像，并用于挑战“在野外检测对称Sym-COCO [13]是基于从COCO [22]中选择的图像构建的数据集，包含250个训练图像和240个测试图像，用于反射对称。BPS [14]是收集了1，202张图像的数据集129116来训练深度神经网络。Sym-COCO和BPS的测试集相同。不幸的是，DSW和BPS数据集目前都不可用。因此，我们使用两个可用的数据集SDRW和NYU，并构建新的数据集LDRS及其合成增强LDRS-synth，如下所示。我们的数据集（LDRS）。我们构建了LDRS数据集，该数据集以我们工作的首字母缩略词命名，根据图像的规模和特征遵循BPS [14]的数据集收集协议。首先，我们从COCO [22]数据集中过滤图像，排除给定图像高度h和宽度w的面积小于hw的物体，并丢弃小于三个物体的图像。其中，我们手动选择了1,500个具有有效反射对称性的候选图像用于train/val分割。对于测试分割，我们从Sym-COCO [13]的250个训练图像中选择了240个图像，因为它们是COCO数据集测试分割的一部分我们主要遵循先前数据集[5，23，14]的注释指南，除了我们不考虑基于3D先验或语义对称性。四名人类注释员使用注释工具labelMe [37]将对称轴标记为线段。train/val/test分割分别包含1，110/127/240个图像，并且所有图像都包含至少一个地面实况对称轴。合成增强。为了克服有限的真实世界的训练数据，我们采用了一种自监督学习策略，使用合成的图像从现有的数据集。我们使用COCO [22]图像和注释用于实例分割。图像在训练期间在线生成，并且我们将这组图像表示为LDRS-synth。我们预先选择有效的前景图像（6，526），同时将整个训练分割（83，000）用于背景。一个例子如图所示。六、合成过程拍摄一对图像，一个用于前景，另一个用于背景。给定前景图像及其蒙版，我们按区域选择前5个实例。对于每个实例，我们随机选择两个角度θ1和θ2来旋转遮罩。我们为每个实例分配垂直轴，并镜像目标实例的两个部分之一。然后我们反转图像，使每个轴的角度为−ψ1和−ψ2。在十个候选实例中，具有轴的长度的最大总和的组合被选择用于前景实例。实例以半径5进行模糊处理，并与用于混合的归一化后的背景图像。详细算法见补充材料。4.2. 实验装置训练和测试数据。对于训练，我们使用SDRW和LDRS的训练分割以及整个集合召回图7.SDRW [23]对称性检测数据集上的精确度-召回曲线最大F1分数的（召回率、精确率）点用点指示。纽约大学和LDRS合成器公司为了评估，我们使用SDRW和LDRS的测试分割。评价指标。由于地面实况轴是像素宽度，因此我们遵循通过将形态细化[10，27]应用我们将最大距离设置为用于像素匹配过程的图像对角线的0.01。我们使用100个均匀分布的阈值来计算F1得分，即精确率和召回率的调和平均值，如下[10]。我们报告了消融研究SDRW和LDRS数据集测试分割的最大F1评分（%）。实作详细数据。我们使用在ImageNet [9]上预训练的ResNet-101 [16]作为基本特征F的主干。为了聚合多分辨率特征，我们应用 Atrous 空间金字塔池化模块（ASPP）[2]。解码器g（·）中的两个块的丢弃率[33]为分别为0.5和0.1极坐标的超参数描述符被设置为 Mrad=5 ， Mang=8 ， Nrad=5 ，Nang=8，M_len=8，N_len=4，以及N_axi=8。当Naxi=8时，4个轴位于极坐标描述符上，并且其他4个轴位于be-补间极轴描述符。采用加权因子α = 0来应用焦点损失。95并且聚焦参数β=2。该模型被端到端地训练100个时期，初始学习率为0。001使用Adam优化器[19]，而学习速率在50th和75th时期衰减0.1的因子。训练批次由来自不同数据集的16个图像随机组成图像增强与随机旋转和颜色抖动。在训练过程中，我们在我们的验证集中每5个时期评估我们的模型，具有10个阈值。对于训练和测试，输入图像的大小被调整为（417，417），而我们将输出大小调整回其原始大小以进行评估。我们使用PMCNet（0.688）Sym-ResNet[14]（0.55）Sym-VGG [14]（0.4）LE[26]（0.4）MIL[36]（0.23）FSDS[32]精度1292N描述符测试数据集极地地区极性自相似SDRWLDRsC65.535.3C66.233.7CC68.335.9内核测试数据集可学习轴感知SDRW LDRsC65.434.6C67.535.3CC68.837.3解码器输入测试数据集得分（SP，SF）基本特征（F）SDRWLDRsC62.732.5C66.836.2CC68.837.3表1.消融描述符。表2.对内核进行消融。表3.解码器输入消融。培训战略测试数据集预训练微调SDRW LDRsC47.825.5C67.232.7CC68.837.3训练数据集测试数据集LDRS-合成SDRW + LDRS +纽约大学SDRWLDRsC37.614.2C61.634.8CC68.837.3表4.训练策略上的消融表5.训练数据集上的消融。PyTorch [29]框架来实现我们的模型。4.3. 消融研究不同类型的描述符。我们介绍了两种类型的极坐标描述符。3.2：极性区域描述符和极性自相似描述符。当 PMC_F 从基础特征提取极区描述符时，PM_C_P首先使用基础特征计算极区自相似性描述符，然后构造极区描述符。为了研究所提出的极坐标描述符的影响，我们使用（S）的解码器输入进行实验||F），其包含由相应PMC计算的单个分数。在没有极区描述符的情况下，所述区是单个像素。如Tab.所示1，使用两个极性描述符是有效的。反射匹配内核。我们展示了有效性在表1中的PMC中进行内核设计。二、如果内核不是轴感知的，我们使用由内核组成的所有参数如果内核是不可学习的，我们就固定这些值，在训练过程中不更新。可学习和轴感知的内核可实现最佳性能。有趣的是，轴感知内核在只使用1的总可学习内核参数。AXI解码器输入。我们在Tab中比较了模型3 .第三章。分数表示SP和SF的组合，并且基础特征表示F。在没有基础特征的情况下，由于缺乏来自CNN特征的语义信息，模型得分低于最终模型具有基本特征的模型成为类似于[14]的简单分割网络。由于基本特征不包含轴感知像素匹配信息，因此使用score提高了最大F1分数。培训战略。我们模型的骨干网络使用ImageNet预训练的权重进行初始化，并在训练过程中进行微调。选项卡. 4显示了与结果的比较：（1）在ImageNet上进行预训练，（2）在ImageNet上进行预训练。微调特征提取器。在没有微调的情况下，性能显著下降，但在没有预训练的情况下则不会。虽然使整个网络适应极坐标匹配内核是至关重要的，但预训练的权重仍然可以作为计算像素级相似性的良好初始先验训练数据集。我们研究了自监督学习策略的有效性，该策略使用Tab中训练数据集的不同组合来使用合成增强图像五、对于真实图像数据集，我们组合了SDRW-train[23]，NYU [5]和LDRS-train，分别由51，239和1，110张图像组成。对于增强的图像，我们使用LDRS合成器，其是使用COCO图像生成的仅用LDRS-synth进行训练具有较差的泛化能力，但是当与真实图像数据集一起使用时是有帮助的，因为当真实图像的量远小于增强图像的量时4.4. 与最先进方法的我们将我们的方法与图1中的最先进的方法进行比较。7.第一次会议。我们的方法实现了68.8%的F1得分，并且以较大的裕度优于最先进的方法Sym-ResNet[14]。值得注意的是，我们的模型和LE [26]显示出对密集检测方法[14，32，35，36]的鲁棒性能，这支持了我们的主张，即特征描述符的反射等方差在检测对称模式中至关重要。定性结果见图。8.我们将我们的PMCNet与MIL [36]和Sym-ResNet [14]在（a）SDRW [23]和（b）LDRS（我们的）数据集上进行比较。SDRW表现出明确定义的对称性，而LDRS包括变形的真实世界的对称性。MIL在简单的情况下工作得很好，如图。图8a-（i）和图8b-（i）。8b-（i），但它大多数失败的复杂和纹理的对象。Sym-ResNet由于缺少图中的明显对称性而失败。图8a-（i），在图8a-（i）中添加不相关区域。8b-（i），错误地检测图8b-（i）中的附近相关区域。图8a-（ii）和图8b-（ii）。8 b-㈡。相比之下，PMCNet成功地检测到图1中定义明确的对称性。8a-（ii-iv）和图8中的复杂情况。8b-（ii-iv），其中其他方法失败。此外，PM-1293GT MIL[36] Sym-ResNet[14] PMCNet GT MIL[36] Sym-ResNet[14] PMCNet（一）（一）（二）（二）（三）（三）（iv）（iv）（v）（vi）（vii）（v）（vi）（vii）(a) SDRW（b）LDRS图8.来自（a）SDRW和（b）LDRS数据集的测试分割的定性结果CNet甚至可以检测图1中分层模式的对称性。图8a-（v）和图8b中的薄物体8b-（v），在地面实况注释中遗漏了这些内容PMCNet未能检测图中的模糊对称性。8 a-（vi），图中的多角度对称性。8 b-（vi），和对称性在多个尺度图。图8a-（vii）和图8b-（vii）。8b-（vii）.PMCNet仍然存在一些局限性。极坐标描述符的离散和稀疏区间可能不完全表示对称轴的旋转自由度此外，具有固定极坐标窗口大小的考虑到上述问题，改进模型并收集更大的数据集将是未来工作的兴趣所在。5. 结论我们引入了极坐标匹配卷积（PMC）来发现反射对称模式。它的效果-1294通过利用具有关系描述符的高维匹配内核，主动学习检测对称模式，在SDRW反射对称基准上实现了现有技术。消融研究证明了PMCNet组件的有效性-极坐标特征池、自相似性编码和不同角度轴的系统内核设计。对这一方向的进一步研究将有助于不同的对称性检测任务和与对称性相关的广泛问题。鸣谢。这项工作得到了三星高级技术研究所（SAIT）的支持，NRF基金（NRF-2017R1E1A1A01077999），和国际旅游交易所2019 -0-01906，人工智能研究生院项目- POSTECH）由韩国科学和信息通信技术部资助1295引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM Trans-actions on Graphics，28（3）：24，2009. 2[2] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。6[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），2018年。一、二[4] Minsu Cho和Kyoung Mu Lee。通过对称增长的双边对称检测。在英国机器视觉会议（BMVC）的会议记录中，第1-11页。Citeseer，2009. 2[5] M. Cicconet，V. Birodkar，M.隆德，M。Warman和D.盖革 A convolutional approach to reflection symmetry ，2016.纽约五、六、七[6] Marcelo Cicconet、 Davi Geiger、 Kristin C Gunsalus和Michael Werman。镜像对称直方图用于捕获图像中的几何特性。在计算机视觉和模式识别国际会议（CVPR）的会议记录中，第2981-2986页，2014年。2[7] Marcelo Cicconet 、 David GC Hildebrand 和 HunterElliott。通过曲线的配准和最佳对称成对分配来在IEEE国际计算机视觉研讨会（ICCVW），第1749-1758页2[8] 塔可·科恩和麦克斯·威林群等变卷积网络。在国际机器学习会议（ICML）中，第2990PMLR，2016. 1[9] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。计算机视觉与模式识别国际会议（CVPR），2009年。6[10] 穆罕默德·埃拉瓦迪、奥利维尔·阿拉塔、克里斯托夫·杜科特、Ce'cileBarat和菲利普·科尔·安东尼。通过线性方向核密度估计的多次反射在图像和图案的计算机分析国际会议（CAIP）中，第344-355页Springer，2017. 二、六[11] 福岛邦彦使用非均匀空间模糊进行图像比较：对称轴提取。神经网络，18（1）：23-32，Jan. 2005. 2[12] Kunihiko Fukushima和Masayuki Kikuchi。用神经网络提取对称轴。神经计算，69（16）：1827-1836，2006。2[13] Christopher Funk， Seungkyu Lee ，Martin R Oswald ，Stavros Tsogkas ， Wei Shen ， Andrea Cohen ， SvenDickinson，and Yanxi Liu.2017年ICCV挑战赛：在野外探测对称性。在 IEEE 国际计算机视觉研讨会（ICCVW），第1692-1701页五、六[14] Christopher Funk和Yanxi Liu。超越平面对称：模拟人类对反射和旋转对称的感知在野外的米在Proceedings of the International Conferenceon Computer Vision（ICCV），第793-803页一、二、五、六、七[15] Alon Halevy Peter Norvig和Fernando Pereira数据的不合理有效性。IEEE智能系统，24（2）：8-12，2009。1[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在计算机视觉和模式识别国际会议（CVPR）上，2016年6月。6[17] 科尼利厄斯·雨果和洛伊·加雷斯。检测双侧对称性-透视。在 IEEE 计算机视觉和模式识别研讨会（CVPRW），2006年。2[18] Cornelius Hugo ， Perdoch Michal ， Matas Jiri 和 LoyGareth。使用局部仿射帧的高效对称检测。斯堪的纳维亚图像分析会议（SCIA），2007年。2[19] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。国际学习代表会议（ICLR），2015年。6[20] Risi Kondor和Shubhendu Trivedi。关于神经网络中的等方差和卷积对紧群作用的推广。在国际机器学习会议（ICML）的会议记录中，第2747-2755页。PMLR，2018。1[21] Tsung-Yi Lin ， Priya Goyal ， Ross Girshick ， KaimingHe，andP i otrDoll a'r. 密集目标检测的焦面损失。在计算机视觉和模式识别国际会议（CVPR）的会议记录中，第2980-2988页，2017年。5[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在欧洲计算机视觉会议（ECCV）的会议记录中，第740-755页。Springer，2014. 五、六[23] Jingchen Liu ， George Slota ， Gang Zheng ， ZhaohuiWu ， Min-wooPark ， SeungkyuLee ， IngmarRauschert，and Yanxi Liu.2013年真实世界图像竞赛中的对称检测：总结和结果。在 IEEE Conference onComputer Vision and Pattern Recognition Workshops（CVPRW），第200-205页，2013中。二五六七[24] Yanxi Liu，Hagit Hel-Or，and Craig S Kaplan. 计算机视觉和计算机图形学。现在出版社，2010年。1[25] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。International Journal of Computer Vi-sion（IJCV），60（2）：91-110，2004. 2[26] Gareth Loy和Jan-Olof Eklundh。检测特征的对称性和对称星座。在欧洲计算机视觉会议（ECCV）的会议记录中，第508-521页。Springer，2006年。二、七[27] David R Martin，Charless C Fowlkes，and Jitendra Ma-lik.学习使用局部亮度、颜色和纹理线索检测自然图像边界。IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），26（5）：530-549，2004. 61296[28] Rajendra Nagar和Shanmuganathan Raman。对称映射：二维反射对称映射的估计及其应用.在IEEE国际计算机视觉研讨会（ICCVW），第1715-1724页，2017年。2[29] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chi

下载后可阅读完整内容，剩余1页未读，立即下载