没有合适的资源?快使用搜索试试~ 我知道了~
1373基于格式塔连续律的虚线神经网络识别刘汉源1李成泽2刘雪婷2黄天钦1*1香港中文大学2明爱高等教育{liuhy,ttwong} @ cse.cuhk.edu.hk{ czli,tliu} @ cihe.edu.hk摘要虚线是一种常用的曲线形式,广泛应用于各种绘图和插图应用中。虽然人类可以基于完形心理学中的连续性定律从不相交的曲线段直观地识别虚线曲线,但是计算机对完形连续性定律进行建模并识别虚线曲线是极其困难的,因为该任务需要高级语义理解。在潜在的噪声背景上构成的虚曲线的各种外观和样式进一步使任务复杂化在本文中,我们提出了一个创新的基于转换器的框架来识别虚线曲线的高层次特征和低层次线索。该框架设法学习在不同领域中的完形法则的计算类比,以定位和提取栅格和矢量表示中的虚线实例。定性和定量的评估表明,我们的框架的效率和鲁棒性超过所有现有的解决方案。1. 介绍虚线曲线是一种常用的曲线形式,其中曲线由一系列不相交但连续的曲线段组成。虚线曲线广泛用于各种绘图和插图应用中,例如技术线条图、图形设计、时装设计、纸张折叠插图等。虽然人类可以直观地识别虚线曲线,尽管它们被分成不相交的段,但计算机极难将断开的段识别为一条语义曲线,因为这种识别任务需要高级语义理解。有三大挑战。首先,不同的虚曲线可以由不同长度、宽度和组成图案的实曲线段组成,如图1a所示。其次,多条虚曲线可能相互交叉,这使得单个虚曲线的识别变得复杂。第三,图纸的背景*通讯作者。(a) 投入(b)[13](c)[7](d)我国(e)[39]第39话图1.虚线曲线识别结果。并且由于扫描或照片捕获过程中的质量损失,图示可能是有噪声的,这将进一步使得曲线段的识别是不平凡的,特别是当曲线段具有短长度时。为了从插图或图形设计中识别虚线,已经提出了基于手动设计的图解法的几种传统方法[1,10,18,24]。由于人类设计的几何学的限制,这些方法通常仅限于解决相对简单和预定义形状和样式的虚线,并且当输入变得复杂时容易失败,如图1b所示。1995年举办了一个讲习班,鼓励研究人员努力解决这一具有挑战性的问题[30]。不幸的是,由于传统启发式方法的局限性,它在当时并没有取得太大的成功。随后,提出了用于检测3D点的线1374云,其与虚曲线识别任务共享一些相似性。然而,这些方法仍然是基于启发式的,并作出假设的点的外观。如图1c所示,直接将这些方法应用于包含不同曲线样式的虚线的虚线图,不能获得令人满意的结果。最近,基于深度学习的方法[27,39]已经在自然照片中的线条画矢量化和轮廓检测中提出,但这些方法仍然不能直接应用于我们的任务,即使模型用虚线图示重新训练,如图所示。1f.我们指出,无论是低层次的线索或高层次的特征单独不能达到令人满意的虚线识别结果。只有低层次的线索,如切线方向,计算机可能很容易在交界处或复杂的区域混淆。另一方面,高级特征太粗糙而不能识别每个单独的曲线,特别是当曲线被分成不相交的短曲线段时。因此,本文提出了一种结合高层次特征和低层次线索的破折曲线识别方法,并通过基于学习的方法输出精确的栅格和矢量形式的破折我们的方法是基于完形心理学的思想设计的,完形心理学认为人类可以根据连续性定律从断开的曲线段中识别虚线[38]。这启发我们首先构建对虚线的高层次理解,然后使用这种理解来促进曲线的提取和矢量化。特别是,我们建议使用深度神经网络来学习虚线图的格式塔连续性定律。该网络将曲线段聚合到曲线描述符列表中,该曲线描述符列表包含虚线曲线的高级嵌入。然而,聚合曲线描述符仅包含不能直接可视化的高级粗略曲线表示。我们进一步提出了另一种深度学习网络,用于从高级曲线描述符构建像素级虚线曲线这些像素级虚线是光栅表示,仍然缺乏连续性的概念。因此,我们提出了第三个深度学习网络来预测识别出的虚线曲线的解析形式。这三个网络一起训练,以实现端到端训练和错误传播。我们的方法可以应用于虚线illustration- tions,包含不同的宽度,长度,形状和风格的虚线曲线在所有实验中均获得了满意的结果。我们的框架的主要贡献可以归纳如下:• 我们提出了一个端到端的框架,可以识别和提取虚线曲线的语义的基础上,具有较高的准确性和鲁棒性。• 我们要学会运用完形法则-连续性作为我们框架中的一个明确约束。• 我们在特征、光栅和矢量域中同时进行格式塔定律的学习,并进行精心设计的监督。2. 相关工作2.1. 知觉完形分组完形心理学是关于人类如何将元素集合视为整个对象的理论[20,28]。Wertheimer著名的完形原则[38]反映了人类视觉系统如何将元素组合成形式。每当视觉元素的集合具有一个或几个共同的特征时,它们将被分组并形成一个新的更大的视觉对象-格式塔。心理学家一直试图通过找到一种计算方法来模拟完形原则[9],以预测人类在图像中感知的完形。在本文中,我们提出将完形原理引入基于学习的计算机视觉领域,通过引导神经网络学习在特征空间和向量空间中相似视觉元素2.2. 虚线和曲线检测虚线检测的问题在计算机图形学研究的早期已经被提出[10]。正确识别虚线对于解析各种类型的媒体(例如缝纫和设计图案书、航海图和技术线图)是必不可少的。早期的开拓性工作依赖于矢量域中的预定义特征和手动设计的几何学[1,10,23]。这些方法通常在意外情况下失败。1995年,在第一届国际图形识别研讨会期间举行了虚线检测竞赛[30],以促进虚线检测算法的进步。后来,提出了一系列基于Hough变换的虚线方法[18,22],其中从参数空间收集线预测。然而,由于其启发式设计的限制,这些方法往往产生次优的结果。与此同时,视觉界一直致力于从自然图像中检测线段的任务[39]。最近,深度学习的出现刷新了最新技术水平,以取代经典的启发式和基于Hough的方法。这些方法要么利用连接点分析[40]将连接点转换为线建议,要么采用密集预测[17]生成替代表示,然后从表示中提取线段。最近的一项工作LETR [39]使用基于Transformer的对象检测技术[4]来实现端到端线段检测,而无需复杂的连接分析或代理映射。即使这些方法设法提取直线段,1375虚曲线段语义曲线CCC∈∈联系我们--视觉形式他们不能理解连续性的完形法则虚线线段的分组,并且不能将线段分组在同一语义线上。而且,现有的据我们所知,目前还没有工作可以一般化,以应付曲线段。另一方面,Mask R-CNN [15]等实例分割方法可以通过光栅掩码预测以某种方式学习对虚线段进行分组。然而,这些方法通常依赖于特征域上的区域建议,这可能会受到具有不同语义的线段的干扰,这些线段可能与要检测的线段共享相似的视觉这些方法在识别曲线段时也实现低质量。曲线拟合和矢量化[11,14,21,27,32]是另一个研究流,能够忠实地将复杂的光栅图形转换为矢量格式。然而,大多数曲线拟合框架仅将实曲线视为输入,并且将来自单个虚线曲线的不相交曲线段视为独立曲线的列表而不是单个曲线。为了处理不相交的曲线段,[12]和[2]试图简化向量空间中的不相交曲线然而,这两种方法都不能直接处理光栅表示中的虚线[11]使用U-Net [31]模型将虚曲线完成为实曲线,可以进一步矢量化。然而,他们的完成模型并没有很好地推广到处理不同外观和样式的虚线曲线。此外,该模型的输出仍然是光栅图像,仍然需要额外的曲线拟合来获得解析矢量形式。相比之下,我们的方法可以直接以虚线曲线图像作为输入,并以端到端的方式以光栅和矢量形式图2.虚曲线识别术语。在我们进入技术细节之前,我们想定义本文中使用的术语如图2所示,每个虚线曲线由不相交的曲线段组成,即。虚线曲线段。尽管这些片段在身体上并不相互接触,但我们仍然将这些片段视为一个完整的群体和一个精神上连续的元素。在这里,我们将一条虚线曲线上的光栅段集合表示为视觉形式,即。虚线的视觉刺激。我们将分析向量空间中的心理连接结构线表示为语义曲线。3. 方法3.1. 概述我们提出的框架旨在通过深度学习实现格式塔连续性定律的学习如图3所示,该框架包含三个模块:曲线特征聚合器、可视表单重构器和语义提取器。曲线特征聚集器学习采样并构造高水平的下将不同的语义曲线表示为曲线描述符列表i=embi,Pi,0,Pi,1,其中Pi,j是某个虚线曲线的端点。 之后,每个虚线曲线的高级语义将被输入到视觉形式重构器,以指导光栅虚线曲线段从相同的语义曲线,以产生视觉形式。此外,我们使另一个语义提取器生成的连续向量表示的语义曲线从曲线描述符。我们用向量曲线回归来监督模块,以提高视觉形式识别和语义曲线拟合方面的整体框架准确性。这三个子模块一起训练以实现端到端训练和错误传播。我们将在下面的章节中讨论每个模块的详细设计。3.2. 曲线特征聚合器正如前面提到的识别视觉形式及其潜在语义笔画和空间域中的困难,因此,我们使用深度神经网络构建视觉形式的特征具体地说,我们的目标是设计的功能:1)保持全局(整体轨迹)和局部(局部连续性和连通性),从他们的组成; 2)完整的特征估计的视觉形式,从它的开始到它的结束,以最大限度地减少歧义和信息损失。我们使用视觉Transformer架构设计曲线特征聚合器模块[4,11,35]。该算法首先将输入的虚线光栅图像转换到深层特征空间,并在特征域中划分不同的语义曲线。在分割之后,模块输出曲线描述符CDi的列表以表示单独的被认为的视觉形式的特征。该模块还旨在回归所认为的视觉形式端点,以缩小视觉形式识别的困难,并最大限度地提高特征提取的覆盖率端点的回归也有利于后续的可视化形态重构和语义曲线拟合模块。给定一个输入图像I [0,1]w × h,我们首先从ResNet主干[ 16 ]中获得图像特征映射XRW × H ×C。为了使Transformer知道特征图的空间信息,我们将X与2D位置连接起来,1376∈∈2∈eΣ我 我埃厄我i¨2埃厄i-1我曲线特征聚合器语义提取器p1p2...EO S <>向量一维位置编码p1...p n语义曲线2D位置编码EMB2D位置编码栅格P0P1坐标-转换ResNetConcat曲线输入图像视觉形式视觉形式重构器U-Net描述符(有效性、嵌入、终点)Res-块Transformer编码器FFNTransformer解码器Transformer解码器图3.概况.给定一幅虚曲线的输入图像,曲线特征聚合器识别虚曲线并将其转换为曲线描述符列表;视觉形式重构器根据曲线描述符重构虚曲线的栅格级视觉形式;语义提取器自回归生成矢量化的语义曲线。对PERW×H ×dp进行位置编码,然后将其平坦化为XRWH × C′ , 其 中 C′=C+dp 。 然 后 我 们 利 用 来 自Transformer编码器的自注意力来获得处理后的特征图 Xf 。 给 定 处 理 后 的 特 征 图 Xf , 我 们 设 计Transformer解码器从光栅图像读取特性,并输出一个可视化表单描述符列表来表示各个可视化表单的语义。为了实现这一点,解码器将具有1D位置编码PE1d的Xf解码为曲线描述符列表{CDi},如下:TransEmb=TransformerDecoder(PE1d,Xf),(1){CDi}N=MLP(TransEmb)(2)其中,TransEmb表示来自Transformer解码器的直接输出为了能够对不确定数量的视觉形式进行特征编码,我们将输出序列的最大长度设计为远大于实际数量在一个预测中的(起始点,结束点),以及具有相同端点的预测中的曲线排序常见的Transformer检测模型[4,39]中使用的二分匹配无法缓解此问题,因为端点的匈牙利匹配无法区分两种情况。我们选择利用Transformers [37]的排序功能来排序,并以与[5,11]相同的方式对具有地面真值端点的端点的输出列表进行监督。曲线特征丢失我们使用曲线特征丢失来监督语义曲线描述符验证和端点回归的多任务学习。语义曲线描述验证目标是二进制交叉熵分类损失,而端点回归目标是L1损失和L2损失的组合。总损失是两个目标的加权组合:典型案例中的视觉形式我们用一种分类法head [4,15,39]来预测输出曲线描述符是否有效并丢弃无效特征。最大输出L.P,P=(1−λ)<$P-P<$+λ<$P-P<$(3)数字被设置为输入位置嵌入的大小Lconfid(pi,pi)=−pilogpi−(1−pi)logg(1−pi)(4)n曲线丁PE1dRN×dT rans.另一方面,为了捕获完整的视觉形式特征,我们明确地为提取的特征em的每个条目使用另一个回归头1= n曲线(βLei=1+L置信度),(5)beddings来预测视觉形式端点的位置。回归将提供强有力的证据,启发特征提取受端点位置。然而,直接端点序列回归可能会被来自排序的排序模糊性所困扰。LF1377目标置信度值pi是二进制的,其中zer-ros表示无效预测[5,11]。注意,曲线描述符CDi的变换的嵌入emb不以该曲线特征损失来监督。它将被传递到以下视觉形式和语义曲线replacec-1378M−2¨p in本原i¨2比伊i-1在光栅和矢量空间中进行更细粒度的监控。3.3. 视觉形式重构器我们提出了视觉形式重构器来学习格式塔定律的分组聚类所有片段从相同的底层语义曲线和重建视觉形式在光栅空间。该模块读取在曲线特征聚集器中获得的视觉形式的高级特征,并且随着底层图像细节的不透明度逐渐细化特征,以实现视觉形式实例的精确像素级分割。我们采用示例性的条件U-Net [31]架构来实现该任务。该网络将虚曲线的原始光栅图像作为输入,并使用曲线特征聚合器中编码的曲线描述符条目之一作为条件来重建给定曲线描述符的光栅视觉形式。U-Net从原始图像和终点位置的连接开始。我们在水平和垂直方向上重复1x4端点向量,以形成与输入图像大小相同为了让网络知道端点所指示的空间位置,我们在U-Net的第一个卷积层中使用CoordConv [25]来打破移位不变性,并强制网络专注于端点位置。之后,U-Net需要几个层次的卷积和降尺度层以创建图像特征DF(·)。随后,我们将曲线ve嵌入emb与DF(·)在中间连接起来,为了加强对格式塔连续性法则的学习,增加了语义提取模块,用于学习格式塔连续性法则,预测向量域中语义曲线的解析形式。语义提取器是一个转换器解码器,它从视觉形式重构器的后期层中的给定视觉形式的特征的混合表示中读取,并以自回归方式解码语义曲线的连续贝塞尔表示也就是说,我们实现了一个虚拟笔沿着虚线移动,并逐步推出其矢量轨迹的视觉形式和图像特征的帮助。Stokes的自回归解码被证明是有效的,如[3,8,27]中的连续线绘制。语义提取器的公式定义为:primitivet,eos=Transformer(primitive0:t−1,M)(7)其中,基元t是来自序列曲线的第t个贝塞尔基元,eos是序列标记的结束,并且是由来自视觉形式重构器的U网的最后一层生成的特征图。 网络逐步生成一系列基元,并在eos的预测大于0时停止。五、 假设原始t和原始t1是连接的,我们省略了的起点每个原语删除冗余:primitivet=(xc1,yc1,xc2,yc2,xe,ye)t(8)我们发现这也有助于加强生成结果的连续性。对于虚线Line(x,y,x,y),作为另一个条件,第连接的特征将被一组放大层逐渐解码和细化,这些放大层包含从缩小U-Net层传播的低级和中级特征最后,U-Net特征的最后一层将用ResNet块解码,以根据条件创建重构光栅视觉形式的最终输出。视觉形式损失该目标旨在监督视觉形式重构器学习光栅级的完形连续性定律,同时监督曲线特征聚合器为光栅空间带来更多信息的高级特征。因此,我们将视觉形态损失公式化如下:SSee我 们 通 过 设 置 控 制 点 作 为 其 端 点 , 将 其 表 示 为Be′ziercurv eCubicBezier(xs,ys,xs,ys,xe,ye,xe,ye)的特殊情况。连续性损失我们用连续性损失训练语义提取器模块,以监督整个输出序列接近地面真实语义曲线向量。连续性损失与曲线特征损失共享类似的多任务思想,交叉熵损失仅在最后预测和监督eos令牌的发生的预测和L1和L2损失的组合,以回归每个Bézier素数的控制点。损失公式为:LV(Lgt,Lr)=(1−λv)<$Lgt−Lr<$2+λv<$Lgt−Lr <$1(6)我爱你第九章3.4. 语义提取器L(eos,e^os)=−e^oslogeos−(1−e^os)logg(1−eos)2p我 我L.θ,θ=(1−λ)<$θ−θ<$+λ<$θ−θ<$(十)完形法则,它们缺乏连续性的具体概念。我们发现视觉形式重构器主要是1= n本原Σi=1(βLp+Leos )(十一)监督分组的概念,但是没有明确地监督语义曲线,并且这可能导致视觉形式的光栅级预测的漂移,因为它缺乏对全局语义曲线轨迹的理解。为了-3.5. 总损失函数总之,我们的训练损失函数由三个部分组成:(1)虚线曲线的曲线特征LF即使我们已经构建了曲线特征聚合器和视觉形式重构器模块来学习LC1379LL实体识别和检测,(2)用于视觉刺激监督的视觉形式重构损失V,以及(3)用于提取语义曲线和强制连续性约束的连续性损失C。最终损失公式如下:真实世界数据L= LF1+(λn曲线+λC LC)(12)图4.我们数据集的样本图像。其中,ncurve是输入图像上的虚曲线的数量,λV=3。λC= 0。五、我们证明了消融研究中每个损失项的有效性(第4.4节)。4. 实验4.1. 实施和培训4.1.1框架实施我们在PyTorch 1.8中使用其附带的Transformer模块实现了我们的框架。我们使用六个编码器-解码器层的曲线特征聚合器和八个解码器层的语义提取器。两个变形金刚都有八个注意力头。对于曲线特征聚合器,1D正弦位置编码[35]用于并行解码方案[4,11]。我们使用了联合训练方案,同时仔细设计了每个模块的学习过程。有关培训详细信息,如超参数和详细架构,请参阅补充材料。用实线和虚线处理输入 我们指出,在理解的模糊性导致的认识矛盾,如果实和虚曲线recogn- nized同时。虚曲线可以被识别为一条虚曲线或多条实曲线,这两者在语义上都是正确的。因此,如果实曲线和虚曲线一起训练,则框架可能遇到识别歧义为了解决模糊性,我们采用了两步解决方案:1. 我们只训练我们的框架来检测虚线曲线,并使用基于U-Net的虚线曲线去除网络来去除虚线曲线[11,31]。2. 然后,我们训练另一个相同的框架(与虚线曲线识别框架相同)只检测实心曲线。通过这种方式,我们避免了同时识别虚曲线和实曲线的模糊性,以提高整体的准确性和效率。4.1.2数据集我们生成一个合成数据集进行训练和验证,因为没有现有的虚线曲线数据集出现在当前的为了评估现实世界的例子,我们收集缝纫模式,服装模式计划,和图形包含虚线的设计。我们在数据集上手动注释可视化表单的每个实例。我们在图4中显示了一些数据样本。我们使用Canvas 2D API来创建虚线曲线图和地面实况标签的合成数据集,包括视觉形式细分和分析语义曲线表示。我们用node-canvas[19]和cairo[29]实现了数据生成器该生成器使用Canvas 2D API中的setLineDash()我们选择了TikZ [34]使用的示例性虚线图案,并随机选择了20种不同的虚线图案用于合成。为了稳定训练并争取更好的泛化能力,我们选择设计一个渐进增长的训练池,最大数据样本数为20,000在训练过程中,我们从池中顺序采样数据,并在每个epoch中将1000个我们还通过向颜色和线轨迹添加扰动来将数据增强应用于训练我们将在补充材料中描述详细的扩增方法。4.2. 评估指标我们参考虚线检测竞赛[30]来突出高质量虚线曲线识别的特征:• 从输入图像中检测所有虚线/曲线• 准确区分视觉形式的实例并估计其像素位置;• 根据虚线和曲线的语义正确跟踪它们我们希望根据上述标准设计我们的评估和因此,我们必须从视觉栅格形式和语义向量形式的不同角度进行实验。首先,我们对线段检测器(LSD)[13]、基于概率Hough变换的方法(HT)[22]和LETR [39]的端点预测精度进行了定量比较。这些方法只能检测端点表示中的线条我们计算基于结构的平均精度(sAP)和基于结构的F分数(sF)[17,40],VL V1380实验其次,我们针对实例分割方法[15,26]进行了视觉形式实例我们在所有可视化表单实例上使用基于IoU的平均精度(掩码AP)来评估性能。最后,为了与基于矢量的直线和曲线检测方法[11,27]进行比较,我们评估了倒角距离(CD),Hausdorff距离(HD)和推土机基于对地面实况语义曲线的预测的密集采样来计算距离。我们想再次强调,只有我们的框架可以同时实现所有这三个任务,以实现高质量的光栅视觉形式提取和矢量语义曲线估计。为了公平比较,我们在我们的合成数据集上重新训练了[39],[15]和[26]4.3. 结果和比较方法sAP5sAP10sAP15SF5SF10SF15[39]第三十九话我们14.423.142.555.461.371.333.643.460.770.675.081.2表1.与SOTA虚线段检测的定量比较,LETR [39]。请注意,LETR只能从输入图像中检测直线段。方法bAP50bAP75映射50映射75[15]第十五话71.257.62.01.0MaskR-CNN [15]64.954.15.82.1[26]第二十六话71.636.31.50.0斯温[26]64.735.510.13.9我们//42.326.7表2.光栅视觉形状提取的定量比较。我们把它作为一个特殊的情况下,实例分割。S表示例如分割方法的现有技术。具有†的方法在栅格化的语义曲线(连接的视觉形式)上作为地面真实掩模进行训练和评估这里,我们分别用bAP和mAP表示盒子AP和掩码AP。方法IoU↑HD↓CD↓EMD↓[第11话]百分之四十五点二50.90.06330.399[27]第二十七话52.0%52.00.03030.439我们52.2%50.10.01570.412表3.虚曲线跟踪质量的定量比较。S表示线描矢量化的技术水平。端点估计我们展示了图5中线段检测方法的视觉比较。我们可以发现HT和LSD只能将一小部分无Lv无Lc不排序完整方法mAP50↑mAP75↑IoU↑HD↓CD↓EMD↓//41.3%52.90.09720.91212.16.6////32.715.5百分之三十九点一51.30.05650.67342.326.7百分之五十二点二50.10.01570.412表4.损失项的消融研究与框架设计。虚线,但不能区分实线和虚线。LETR [39]只能检测虚线,无法准确预测终点。相比之下,我们的框架可以识别大多数虚线段,可以产生准确的端点估计。我们在表1中突出显示了我们对LETR的评估统计数据。光栅视觉形式评价定量评价结果示于表2中。我们发现,代表性的实例分割方法[15,26]可以通过边界框定位虚线曲线,但由于缺乏对虚线复杂曲线的拓扑和连续性的理解,无法从输入中相比之下,我们的方法在视觉形式重建方面取得了更好的性能。向量语义曲线跟踪我们在图6中展示了语义曲线跟踪的结果。为了与GVS [27]进行公平的比较,我们使用DVTD [11]中的预处理技术将虚曲线完成为实曲线。DVTD和GVS都不能预测虚曲线的有意义的语义,而我们的框架可以识别更好的语义。定量评价结果见表3。我们的框架在栅格化的IoU,HD和CD方面优于DVTD和GVS。我们还评估了为粗略草图设计的R-GVS [27]我们发现它可以直接处理虚曲线,但产生不令人满意的结果。4.4. 消融研究为了验证我们的框架设计的有效性,我们进行了消融研究,并在表4中展示了定量消融结果。曲线特征聚集器训练中的排序机制. 我们在曲线特征聚合器的训练中显式地对曲线描述符的地面实况端点目标进行排序。为了验证排序机制,我们训练了一个替代版本的曲线特征聚合器,它使用二分匹配[4]进行监督。我们发现在这种情况下端点回归性能下降,这与[5]中得出的结论一致。此外,共享端点的曲线可能导致训练混乱损失条款。我们还使用不同的损失项进行消融研究。我们发现曲线特征损失是关键的-1381[22]第十三届全国人大常委会委员长会议图5.视觉比较法对直线视觉形态的提取。[27]第十一届中国国际纺织品服装展览会图6.曲率形状识别与提取的视觉比较曲线以不同的颜色可视化我们的框架。如果没有曲线特征损失,我们的框架将不会收敛。视觉形式丧失和视觉连续性丧失的相关输出存在于不同的通道中,因此我们不能直接比较它们。通过与完整方法的比较,我们发现视觉形状损失和连续性损失都有助于提高性能。4.5. 局限性和讨论终点回归和曲线描述器的公式化将我们的框架的范围限制为仅在直线和曲线段组内,即,我们只能在曲线结构上学习格式塔法则我们将继续探索新的解决方案,以扩展所提出的框架,使其与其他类型的2D形状和内容的完形法则兼容。此外,我们的框架倾向于分离双线,而人类有时会将双线视为一个完整的实体。很难模仿这种行为,因为在两条平行虚线和一条双线之间没有明显的间隙。识别歧义双线仍然是一个悬而未决的问题。此外,我们的框架强烈依赖于Transformer [35]架构。我们框架的计算成本很高。我们将研究包括有效注意机制[6,33,36]作为未来潜在改进的可能性5. 结论在本文中,我们提出了一个基于Transformer的虚线曲线识别框架。我们采用了一个通用的框架与完形法则的分组和连续性,以实现处理的大量多样性的中断线,这是有效的,通过一系列的实验。鸣谢:本研究项目获香港中文大学研究直接补助金(项目编号4055152)及中国香港特别行政区研究资助局的补助金(项目编号UGC/FDS 11/E02/21)联合资助。1382引用[1] 加迪·阿甘,罗慧珠,还有伊茨哈克·丁斯坦。基于形态学 的 虚 线 检 测 方 法 。 在 Rangachar Kas turi 和 KarlTombre , 编 辑 , Graphics Recognition Methods andApplications,第92-105页,柏林,海德堡,1996中。施普林格柏林海德堡。一、二[2] 米哈伊尔·贝斯梅尔塞夫和贾斯汀·所罗门。通过多向量场进行线画的向量化。ACM事务处理图表,38(1),2019年1月。3[3] 杨永新,杨永新,杨永新;Hospedales,Tao Xiang,andYi-Zhe Song.矢量化和光栅化:草图和手写的自我监督学 习 。 在 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)的会议记录中,第5672-5681页,2021年6月。5[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。端到端的目标检测与变压器。计算机视觉施普林格国际出版社。二三四六七[5] Alexandre Carlier,Martin Danelljan,Alexandre Alahi,and Radu Timofte. Deepsvg:矢量图形动画的分层生成网络。神经信息处理系统,第33卷,第16351Curran Associates,Inc. 2020. 四、七[6] Rewon Child , Scott Gray , Alec Radford , and IlyaSutskever.用稀疏变换器生成长序列,2019年。具有误检测控制的分段检测器。IEEE Transactions onPattern Analysis and Machine Intelligence,32(4 ):722-732,2010。一、六、八[14] Yi Guo , Zhuming Zhang , Chu Han , Wenbo Hu ,Chengze Li,and Tien-Tsin Wong.基于线细分和拓扑重构的深线图矢量化。计算机图形论坛,38(7):81-90,2019。3[15] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。2017年IEEE国际计算机视觉会议(ICCV),第2980三、四、七[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议(CVPR),第770- 778页IEEE计算机学会。3[17] 黄昆、王亦凡、周梓涵、丁天娇、高生华和易马。学习解析人造环境图像中的线框。在CVPR,2018年6月。二、六[18] 约翰·伊林沃思和约瑟夫·基特勒。霍夫变换综述。计算机视觉、图形和图像处理,44(1):87-116,1988。一、二[19] Automattic Inc. 节 点 画 布 https://github.com/Automattic/node-canvas,2021. 6[20] Kim、Emily Reif、Martin Wattenberg、Samy Bengio和Michael C.莫泽在自然场景上训练的神经网络表现出完形闭合。Computational Brain Be-Tensor,4(3):251-263,Sep 2021. 28[21]ByungsooKi m,Ol iv erWang,A. CengizOüztireli,以及[7] Christoph Dalitz,Tilman Schramke,and Manuel Jeltsch.迭代Hough变换在三维点云直线检测中的应用。ImageProcessing On Line,7:184-196,2017。1[8] 放大图片作者:Ayan Das,Yongxin Yang,Timothy M.Hospedales,TaoXiang,andYi-ZheSong.Cloud2curve : 参 数 化 草 图 的 生 成 和 矢 量 化 。InProceedings ofIEEE/CVF计算机视觉和模式识别会议(CVPR),第7088-7097页,2021年6月。5[9] Agnes Desolneux , Lionel Moisan , and Jean-MichelMorel.计算完形和感知阈值。生理学杂志-巴黎,97(2-3):311-324,2003年。2[10] Dov Dori,Liu Wenyin,and Mor Peleg.如何赢得虚线检测比赛。在Rangachar Kasturi和Karl Tombre,编辑,Graphics Recognition Methods and Appli- cations,第286-300页施普林格柏林海德堡。一、二[11] Vage Egiazarian , Oleg Voynov , Alexey Artemov ,Denis Zohonskiy,Aleksandr Safin,Maria Taktasheva,Denis Zorin,and Evgeny Burnaev.技术图纸的深度矢量化。计算机视觉施普林格国际出版社. 三、四、六、七、八[12] Jean-Dominique Favreau , Florent Lafarge , and AdrienBousseau.保真度与简单性:一种线绘制矢量化的全局方法。ACM事务处理图表,35(4),2016年7月。3[13] 拉斐尔·格罗彭·冯·吉奥伊,杰瑞米·雅库博维奇,让·米歇尔·莫雷尔,格雷戈里·兰德尔. Lsd:快速线路马库斯·格罗斯 线条画的语义分割使用神经网络进行矢量化。Computer Graphics Forum,37(2):329-338,2018. 3[22] Nahum Kiryati,Yuval Eldar,and Alfred M Bruckstein.概 率 Hough 变 换 Pattern recognition , 24 ( 4 ) : 303-316,1991. 二、六、八[23] 孔斌,伊辛T.作者声明:Robert M. Haralick,ArathiPrasad,and Rangachar Kasturi.基准测试:虚线检测算法的性能评估。在Ran gachar Kasturi和Karl Tombre编辑的《图形学方法和应用》,第270-施普林格柏林海德堡。2[24] 赖警官和R·卡斯图里工程图纸和地图中虚线的检测在Proc.FirstInt.Conf.onDocumentAnalysisandRecognition,第507-515页,1991中。1[25] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。在神经信息处理系统的进展,2018年。5[26] Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang , Stephen Lin , and Baining Guo. Swintransformer:层次视觉Transformer,使用移位的Win-10.arXiv预印本arXiv:2103.14030,2021。7[27] Haoran Mo , Edgar Simo-Serra , Chengying Gao ,Changing Zou,and Ruomei Wang.矢量线画虚拟草图通用框架. ACM图形转换. ,40(4),2021年7月。二三五七八1383[28] Liangliang Nan , Andrei Sharf , Ke Xie , Tien-TsinWong,Oliver Deussen,Daniel Cohen-Or,and BaoquanChen.建筑图纸抽象的连接完形规则ACM事务处理图表,30(6):1-10,2011年12月。2[29] Keith Packard,Carl Worth,and Beautiful Esfahbod. 开罗https://www.cairographics.org/,2021年。6[30] 卡斯图里·兰加查尔和普拉萨德·阿拉希虚线检测比赛。1995年国际图形识别研讨会。一、二、六[31] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-Net:用于生物医学图像分割的卷积网络.在医学图像计算和计算机辅助干预施普林格国际出版社. 三五六[32] 彼 得 · 塞 林 格 。 Potrace 。http : //potrace.sourceforge.net/,2019年。3[33] Zhuoran Shen , Mingyuan Zhang , Haiyu Zhao , ShuaiYi,and Hongsheng Li.高效注意力:线性复杂性的注意力,2020年。8[34] 直 到 坦 杜 。 Pgf/tikz. https://github.com/pgf-tikz/pgf,2021年。6[35] Ashish Vaswani, Noam Shazeer , Niki Parmar , JakobUszko-reit , Llion Jones , Aidan N Gomez , ukaszKaiser,and Il- lia Polosukhin.注意力是你所需要的。神经信息处理系统进展,第30卷。Curran Associates,Inc.2017. 三六八[36] 作者:Belinda Z.Li,Madian Khabsa,Han Fang,andHaoMa.Linformer:Self-attentionwithlinearcomplexity,2020。8[37] Gail Weiss,Yoav Goldberg,and Eran Yahav.像变形金刚一样思考。Marina Meila和Tong Zhang编辑,第38届
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功