大规模CAD绘图数据集：FloorPlan-CAD，用于全景符号定位的矢量图形数据集

85 浏览量更新于2023-10-14 收藏 1.32MB PDF 举报

矢量图形

图卷积网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10128†楼层平面CAD：用于全景符号定位的大规模CAD绘图数据集范志文1朱凌杰1李宏华1陈晓浩1朱思宇1谭平1，21阿里巴巴人工智能实验2西蒙弗雷泽大学†同等贡献摘要获取大量不同的计算机辅助设计（CAD）图纸对于开发符号识别算法至关重要。在本文中，我们提出了FloorPlan-CAD，一个大规模的真实世界的CAD绘图数据集，包含超过10，000个平面图，从住宅到商业建筑。数据集中的CAD图纸都表示为矢量图形，这使我们能够提供30个对象类别的线粒度注释。配备了这样的注释，我们介绍的任务panoptic符号发现，这不仅需要发现可数的事情的情况下，但也不可数的东西的语义。为了解决这个问题，我们提出了一种将图卷积网络（GCN）与卷积神经网络（CNN）相结合的新方法，该方法捕获非欧和欧特征，并且可以端到端地训练。提出的CNN-GCN方法在语义符号定位任务上实现了最先进的（SOTA）性能，并帮助我们建立了用于全景对称的基线网络。bol spotting任务我们的贡献有三个方面：第一章据我们所知，目前的CAD绘图数据集是第一个; 2）全景符号识别任务将事物实例和事物语义的识别视为一个识别问题;3)提出了一种基于CNN-GCN方法的全景符号定位任务的基线解决方案，该方法在语义符号定位上实现了SOTA性能。我们相信，这些贡献将推动相关领域的研究。数据集和代码可在https://floorplancad.github.io/公开获得。1. 介绍2D计算机辅助设计（CAD）图纸的感知对于创建3D原型（也称为“数字双胞胎”）起着至关重要的作用CAD绘图通常传达准确的几何和丰富的色彩。(a) 平面图（b）立面和3D模型图1：窗户（浅蓝色）、百叶窗（蓝色）、栏杆（橙色）和墙壁（暗红色）的丰富语义、准确位置和详细的3D形状（右上）忠实地编码在平面图（左）及其南立面（右下）的CAD图纸中。图2：来自FloorPlanCAD数据集的各种水槽符号。符号的样式和外观取决于图形的制作者。3D设计的横截面的智能信息。通过集成来自一组CAD图纸的信息，可以精确地重建相应的3D模型例如，3D建筑物可以通过一堆2D平面图忠实地编码，这些平面图是由线段、圆弧、曲线和文本组成的详细CAD图纸，参见图1。CAD图形的自动感知将导致高效的3D建模方法，节省大量的人工工作。对于通常包含大量组件并且可能花费数月来创建详细3D模型的架构来说尤其如此。符号识别是指识别嵌入在大型数字绘图中的图形符号[31]。它通常是以逐例查询的方式执行的10129门窗家用家具床(a) 原始楼层平面图形。（b）具有实例和语义注释的绘图。图3：FloorPlanCAD数据集的快照。(a)删除文本是为了保护隐私和知识产权。(b)线粒度注释由颜色示出。方法[28，27，35]，其中获得可能包含给定查询符号的候选区域这些方法在现实世界的场景中是不切实际的，因为表示同一对象的符号可能会有很大的不同，见图2。为了应对符号的可变性，最近的工作[32]尝试在真实世界的平面图上使用基于学习的方法，但它们将CAD图纸视为像素图像，失去了矢量图形的准确性，并导致可能不准确的注释和预测。传统的符号识别方法侧重于实例检测，无法处理不可数的语义信息.例如，这些方法无法检测CAD图纸中的墙壁，通常由一组跨度较大的平行线表示，见图3。根据[19]中的思想，我们将可数事物的实例定位和不可数事物的语义检测视为一个视觉识别任务，称为全景符号定位。在实践中，CAD图纸在AEC行业的从业人员中扮演着通用语言的角色，包括共享共同知识集的设计师、工程师、施工人员。这一观察启发我们采用学习方法来识别CAD图纸上的任务，这需要全面的注释数据来训练和测试网络。我们以矢量图形的形式构建了一个包含10，000多个平面图的大规模数据集平面图是从各种公司和机构的真实建筑项目中收集的。为了克服知识产权的限制，我们只从每个大平面图中裁剪一小部分，并删除可能传递机密信息的敏感文本。最后，数据集中的平面图块仅包含几何和结构信息，参见图3a。我们选择我们感兴趣的30个对象类别，并提供线粒度的注释，参见图3b。矢量图形的特性使我们能够应用图卷积网络（GCN），其由于其稀疏性而具有计算效率，并且善于通过拓扑连接来提取非欧特征对于每个平面图，我们构建一个图，其节点是图形实体，例如直线段、弧和边根据它们的相邻性来创建。在我们的实验中，我们发现卷积神经网络（CNN）捕获的欧几里得特征可以提高性能。因此，我们提出了一种结合GCN和CNN的新型网络，其在语义符号定位任务上实现了最先进的性能，并将我们引向用于全景符号定位任务的基线网络。我们的研究目标是通过提供大规模的标注数据集和基线算法来推动CAD图纸上的感知发展。我们的主要贡献包括：• 我们提出了一个大规模的真实世界的数据集，超过10,000 CAD图纸与线粒度的注释，涵盖各种类型的建筑物，例如。住宅楼、学校、医院、商场和办公楼。据我们所知，这是同类中的第一个。• 我们介绍了全景符号定位的任务，这是传统的符号定位问题的推广，考虑可数事物的实例定位和不可数事物的语义标记作为一个识别任务。提供了用于评估各种方法的预测质量的全景度量• 我们提出了CNN-GCN方法，该方法在语义符号定位任务上实现了最先进的性能，并帮助我们为panoptic符号定位任务建立了统一的基线网络。101302. 相关工作在本节中，我们简要总结了相关领域中现有的数据集和方法，包括符号定位，草图分割和全景分割。一个合适的数据集对推动一个领域的发展的影响已经得到了广泛的认可。例如，ImageNet [36]用于图像识别，Matterport 3D [1]用于RGB-D场景理解，ShapeNet[2]用于3D形状感知。SESYD [8]是一个综合矢量化图形文件数据库，具有相应的地面实况，包括1000个平面图。FPLAN-POLY [33]数据集包含使用QGar [9]库中实现的光栅到矢量算法[15]从图像转换的42个(a) 地面实况（c）第（1）款（d）其他事项(b) 预测（e）（f）第（1）款符号定位符号定位[31，35，38]是指检索嵌入在较大图像或文档中的图形符号[32]。技术文档中的符号检索和识别仍然是文档分析界的一个挑战传统上，手工制作的符号描述符被设计用于描述形状[28，27，35]。然后利用滑动窗口或信息检索技术将查询符号与文档进行匹配。图表示和匹配[11，10，12]也被使用，但对噪声和拓扑错误更敏感。这些方法在孤立的符号上运行良好，但在符号嵌入文档中时明显失败最近，提出了一种基于图像的深度学习方法[32]，并在现有的公共数据集上取得了最佳结果[8，33]。语义草图分割语义草图分割旨在将徒手绘制的线图像上的像素标记为语义组Sun等人。[39]首先将杂乱的草图分割成多个部分，然后通过利用网络规模的剪贴画数据库来检测语义上有意义的对象。Huang等人[16]将问题表述为混合整数规划问题，并提出数据驱动的解决方案。通过将输入视为2D点集并将笔划结构信息编码到图中，Yang等人。[46]使用图卷积网络（GCN）预测每个点的标签。在计算机视觉中，可数事物被称为实例，例如门，窗户和桌子[14，23，24]。在类似纹理或材料的无定形区域中延伸的无数东西没有实例，只有语义，例如天空，道路和墙壁[4，5，37]。Kirillov等人[19]将实例和语义分割合并到一个视觉识别任务中，并创造了术语“全景分割”。它尝试为填充像素分配语义标签，并同时使用绑定框或分割掩码检测每个对象[19，18，45]。BANet [6]引入了语义和实例分割之间的双向路径，以提高全景性能。图4：在CAD绘图中，广义符号表示事物的实例（例如：水槽、马桶、单门）或特定的东西（例如，墙）。给定地面实况符号（a），预测符号（b）可以被分类为真阳性TP（c-d）和假阳性FP（e），而缺失的地面实况符号被认为是假阴性FN（f）。1081061041020个0个0.2 0.4 0.6 0.812345611 16 21 26 31米图5：CAD绘图中元素的长度直方图。大多数都小于0。2m.曼斯。BGRNet [44]采用图结构来挖掘模块内和模块间的关系。3. 全景符号定位传统的符号识别技术[35，38]主要研究事物东西--类似物体或材料的无定形符号，如植被、墙壁、道路--几乎没有讨论。类似于[19]中的全景分割，我们提出并研究了一个名为全景符号定位的任务，该任务考虑了事物的语义检测以及事物的实例定位。广义符号符号是在特定领域中具有语义含义的图形实体，例如徽标、剪影和音符[34]。在CAD绘图的设置中，广义符号是一组图形实体，其表示事物实例，例如：马桶、水槽、门或特定的东西，例如墙，见图4。我们用语义标签li和实例索引zi表示图形实体ei=（li，zi），从而定义了符号厕所壁单门水槽厕所壁w印度w水槽数量的元件10131{|}L›→ ∈LL L ∪L L∩LLpG第11章如s j=e il i=l j，z i=z j。简而言之，我们将符号降级为s j=（l j，z j）。同一类的事物共享相同的语义标签，而事物的实例可以通过它们的实例索引来区分。值得注意的是，我们忽略了属于stuff的实体的实例索引选择哪些类是东西还是事物是留给数据集创建者的设计选择给定由一组图形实体{ek}表示的CAD绘图，全景符号定位墙窗=+门图6：CAD图纸中的图层图示。PQ= RQ× SQ任务需要映射Fp：ek›→（lk，zk）∈ L ×N，其中L {−}ΣIoU（sp，sg）22：= 0，. . . ，L1是预定对象集合的集合类，N是可能实例的数量。这个...Mantic标号集可以被分割成东西和事物子集，即=st日和Stth=. 通过忽略实例索引，任务被降级为语义符号定位任务F s：e kLk. 如果我们只关注事物类别th，则全景符号定位被降级为实例符号定位任务Fi：ek›→（lk，zk）∈ Lth ×N。如果lp = lg并且IoU（sp，sg）> 0，则预测符号sp=（lp，zp）与地面实况符号sg=（lg，zg）匹配。其中基于弧长 L （ · ）来计算两个符号之间的交集（IoU），IoU（s，s）=Σei∈sp∩sglog（1+L（ei））.（一）为（sp，sg）∈TP.（四）|+的|+|+的|FN|FN |值得注意的是，该全景度量考虑了事物符号和填充符号两者，证明了用于评估全景符号定位方法的统一质量测量。4. FloorPlanCAD数据集我们的合作伙伴授予我们访问生产中使用的大型CAD图纸的权限。由于数据来自不同的合作伙伴，它显示了更多的品种风格和外观的对象。截至提交报告日，我们已获得100个项目，包括住宅、学校、医院、大型商场等复杂结构。这个数字还在增长。4.1. 预处理Σe∈s∪slog（1+L（ej））JpG这里采用对数来降低跨度很大的线路的影响。图5示出了实体长度的分布，其跨度从几毫米到几十米。如[19]中所证明的，该策略产生唯一的映射：最多可以有一个预测符号与每个地面真值符号匹配。如果预测的符号可以与地面实况符号匹配，则将其视为真阳性（TP），否则为假阳性（FP）。缺失的地面实况符号被标记为假阴性（FN）。广泛使用的F1分数用于测量识别质量：RQ=|TP|.（二）实际上，建筑师倾向于将多个建筑的楼板和相关构件组织到一个文件中，而一个项目通常有多个文件。在开始之前，我们需要从项目文件中剪下每一个平面图。一个项目中的平面图数量通常在10到50之间，现在我们有2500个单独的平面图文件。一般来说，一个平面图由几十个平面图组成这些元件通过元件的功能来区分。图层名称不一定解释其内容，并且图层内容可能非常混乱，因为对应分组为图层的内容如图6所示，原始多层平面布置图首先被分成单独下面的注释在每个层上执行，这是非常不杂乱的，并且显著地提高了注释效率和效果第11章|TP|+2 |FP |+2 |FN|通过对匹配符号的IoU求平均，分段质量通过下式测量：Σ（sp，sg）∈TPIoU（sp，sg）4.2. 注释我们选择了30个我们感兴趣的对象类，包括图7中列出的28个事物类。两个东西类，墙和停车场，包括在内，因为他们是非常基本的和占主导地位的元素，在平面图。墙作为SQ=.（三）|TP|窗、门、梁等的基本结构墙上和停车场实体合计约占27%类似于[19]，我们的全景符号定位度量被定义为RQ和SQ的乘积：总实体（补充材料中的表6），因此足以研究符号识别问题和10132×个V EV{}G我我J J105104103门窗楼梯家电家具设备图7：28个事物类及其相关类别（x轴）的精细注释实例（y轴）的数量数据集源规模图像注释#类#尺寸栅格向量例如语义向量SESYD [8]合成161000✓✓✓FPLAN-POLY [33]桥[13]互联网互联网38-4813000✓✓✓楼层平面CAD行业3010094✓✓✓✓✓表1：现有数据集的属性和统计。到本文提交时，BRIDGE [13]仍然没有公开。请注意，我们的FloorPlanCAD是唯一一个提供全景注释的，同时在整个过程中保留矢量图形的特征。解决相关任务。我们将parking作为一个语义类，即使每个停车位都可以被视为一个实例。然而，它们总是并排出现并且跨越巨大的区域，将它们视为一个整体停车位以减少注释的负担是合理的。11位专家花了超过1,000个小时来创建线粒度的注释。为了保护数据所有者的合法权利，进行数据混淆。首先，被分类为可识别的、个人或商业敏感的字段被删除。每个平面图被切割成大小为20米20米的正方形块 50%的区块保留在我们的数据集中。5. PanCADNet为了解决全景符号定位问题，提出了一它const- sists的CNN骨干，一个图形卷积头，和检测头，这是专为语义和实例符号发现分别。图的构造给定一个 CAD 绘图，构造一个图 =（，），其顶点是图形实体=e i.如果两个顶点的距离足够近，则为它们创建边，即D（e i，e j）<ε：D（ei，ej）=minp∈{es，et}，q∈{es，et}p−q，（5）4.3. 性能有三个关键特征使我们的数据集独特而有价值：大规模、真实世界和矢量图形。这意味着我们的数据集上的研究更适合于实际应用。表1显示，与SESYD [8]和FPLAN-POLY [33]相比，我们拥有更丰富的类别和更多的带注释的数据集分为两组：随机选择60个项目进行训练，其余项目进行测试。然后，我们的数据集由6382个训练和3712个测试图纸与线粒度的注释。在所报告的实验中，从训练集中分离出500个随机CAD图纸用于验证以减轻过拟合。其中Es和Et分别表示图形实体E的起点和终点，而不管其形状如何。对于一对平行线，我们稍微修改距离为：D（ei，ej）=η*minp∈ei，q∈ejp−q，（6）其中η是建立墙与窗的平行连接为了保持图的复杂度低，在几乎K个边被允许通过随机丢弃用于每个节点在我们的数据集中，我们有ε=100mm ， η=0 。 2 ，K=3。右图说明了图形实例数单开门双开门滑动门窗口飘窗盲窗洞口符号楼煤气炉冰箱洗衣机沙床椅表床头柜电视柜半高柜高柜衣柜洗涤槽浴浴缸蹲便器小便器厕所电梯扶梯10133我我·G我N我p我我我我ΣΣΣ我我|}||- -|{}|图8：所提出的全景符号定位模型（PanCADNet）的网络架构。其中黑点代表节点，红色曲线代表边。几何特征符号中的图形实体通常共享比例、位置和类型等属性。我们对长度f l和归一化中心位置f p进行编码如图7所示，训练集中的类别不平衡是明显的。因此，我们设计了一个类加权损失的GCN头。在这里，我们通过每个类中的实体数量为不同的类采用权重：iiL作为其空间特征。此外，每个顶点的类型（线段、圆或曲线）被编码为一个独热数组f s，即其类型特征。纹理特征CNN能够从图像中提取多尺度纹理特征。为了利用CNN的强大功能，我们遵循Pixel2Mesh [43]来获得每个实体的视觉特征fcnn具体地，给定实体ei的2D坐标，从来自特征金字塔网络的对齐位置获取CNN特征[23]。与手工设计的几何特征相连，节点特征变为fi={fi，f，fcnn}。图卷积应用图卷积网络[17]，顶点通过传播来自相邻顶点的信息来聚合信息。f’=ReLU（W0fi+W1fi），（7）ej∈N（ei）其中（ei）是图顶点ei的相邻顶点，并且W 〇和W1是模型的可学习参数在我们的实验中，使用了三个图形卷积层先前的方法[13，32]应用对象检测模型来检索符号的实例索引。类似地，我们构建了一个两级检测器头，即Faster R-CNN，例如符号定位。它将骨干网络中的金字塔特征作为输入，并为每个检测到的符号实例输出一个带有类别标签和置信度的边界框。检测头中的损失项“损失检测”如下[30]。损失GCN=−wj*lg*log（P（lj）），（8）ei∈Vj=1其中，Wj=eiGT（ei）=lj/ei，lg和lj分别是顶点ei的基础真值和预测标签。P（）描述预测的概率通过整合检测头和GCN头的损耗项，我们能够端到端地训练整个系统。损失T总=λ * 损失GCN+损失检测，（9）其中在我们的实验中λ = 3。6. 实验我们首先评估建议的GCN头上的语义符号定位任务与各种图像分割模型- els，以验证所提出的模块的有效性。然后，我们测试了几种基于检测的方法和传统的符号定位方法的实例符号定位任务。在全景符号定位任务中，我们应用图中所示的所提出的模型。8、模块化设计。6.1. 语义符号识别我们利用图8所示的主干和GCN头作为语义符号定位和验证每个组件的有效性的网络。数据集为了应用语义分割模型，通过投影图形en来生成注释掩码。顶点对齐顶点对齐顶点对齐图表头X1X1X1Y1X2....X2....X2Y2Y3X3X3X3X4X4X4Y4几何GCN特征卷积GCN特征对齐的CNN特征图图X节点特征Y节点标签检测头骨干C初始图输入图像10134一B(a) 使用区域A和B输入CAD图纸（b）GT（c）DeepLabv3 [5]（d）HRNetV2 [42]（e）我们的图9：语义符号识别任务的测试集的定性结果。在训练过程中，使用5个像素的线宽在背景画布上绘制标题采用实现HRNetsV2 [42]来提取丰富的高分辨率表示。我们使用β 1 = 0的Adam优化器。9和β2=0。999，用于所提出的基于GCN的方法。训练是以0.0001的初始学习率进行的40k次迭代，我们使用余弦退火来安排学习率[26]。为了推进性能，我们采用与原始softmax损耗相关的 AM-Softmax [41]损耗。我们使用 8 个 NvidiaGTX 2080Ti GPU来训练我们的方法，每个GPU上有1个训练样本所有语义分割模型被训练40k次迭代，其对应于mm分割[7]中的40k调度为了与我们数据集上的传统图像分割方法进行比较，通过采样和投票将它们对像素的标签预测转换为对实体的标签：PD（e i）=argmax| {p k|PD（pk）=li，pk∈ ei}|、（10）其中p，k指示样本点，并且PD（p，i）是从CNN输出检索的预测掩码。语义符号分割任务的定量结果如表3所示。我们可以看到，我们使用GCN模块的方法显著优于HRNetsV2[42]和DeepLabv3+ [5]，提高了11。8%的F1评分和8。4%加权的F1分数，其权重类似地如等式1定义定性结果示于图9中。我们可以看到，我们的方法预测明显更好的结果，特别是在类墙，其中它们的长度具有统计规律性和语义分割方法可能会失败的边界区域。6.2. 语义符号识别进行了广泛的消融研究，以验证我们提出的方法GCN网络的有效性。如表2所示，GCN本身具有简单的几何Spa. 壮举.类型feat.CNN feat.伟. 损失Am-softmax [41]wF1。✓0.199✓✓0.308✓✓✓0.755✓✓✓✓0.759✓✓✓✓✓0.798表2：所提出的GCN模型与具有/不具有其组件的GCN模型之间的定量比较。特征是最差的，来自主干的强大视觉CNN特征显着提高了模型的准确性。通过将拓扑嵌入到图卷积层中，它以一种对于基于CNN的方法几乎不可能的方式连接图像特征并聚合来自邻居的信息。此外，加权损失函数和AM- softmax损失都有助于所提出的方法。6.3. 实例符号定位在本节中，进行彻底的实验以评估子任务上的传统和现代、监督和非监督方法，即在所提出的FloorPlanCAD数据集的任务形成3处定义的数据集我们在每个元素上均匀采样点并计算每个实例的外部边界框。我们将实例信息转换为COCO风格的版本[25]。所有模型都训练了100个epoch，YOLOv3除外，训练了 273 个 epoch 。具有 FPN 的 ResNet-101 用作 Faster-RCNN和FCOS的骨架，DarkNet-53用于YOLOv 3。基于最新版本的mmdetection [3]实现实验。两个典型的传统方法，SCIP [27]和图匹配[20]，在这个任务上实现和评估。表4中示出了关于实例符号检测任务的基准性能定量结果。我们可以看到Faster-RCNN和FCOS实现了相当的准确性。这两种传统方法在提议的数据集上表现不佳，因为我们的数据来自不同的供应商，并且没有这样的标准模板进行比较。Li10135数据集锅质量隔离区质量记录质量楼层平面CAD0.5610.8380.660类别门窗口楼梯器具家具设备壁停车场F1加权F1[42]第四十二话0.8210.6200.8450.5970.7260.8800.6200.6100.6560.683[42]第四十二话0.8110.6400.8470.6510.7540.8890.6240.5770.6660.693DeepLabv3+ R50 [5]0.8280.6590.8560.6840.7630.8950.6300.6640.6800.705DeepLabv3+ R101 [5]0.8370.6660.8520.7250.7800.8950.6340.6690.6880.714我们0.8480.7090.8570.7690.7640.9260.8140.5390.8060.798表3：不同语义分割模型和我们的基于GCN的方法的所提出的数据集的统计结果。HRNetsV2 [42]和DeepLabv3+ [5]都表明，更深的网络会产生更好的结果。方法骨干AP50AP75地图更快的R-CNN [30]R1010.6020.5100.452FCOS [40]R1010.6240.4910.453[29]第二十九话DarkNet530.6390.4520.413SCIP [27]-0.2310.1510.135[21]第二十一话-0.1370.1180.102表4：不同检测方法和符号点样方法对符号检测任务的定量结果。表5：在拟定FloorPlanCAD测试集上拟定PanCADNet的定量结果。每个类别的指标可以在补充材料中找到。6.4. 全景符号定位通过优化的 GCN 头和检测头，我们提出了PanCADNet，如图8所示。据我们所知，没有其他方法进行类似的任务，矢量图形。数据集对于全景符号定位任务，我们合并28个语义符号和2个实例符号类用于分类图头部。检测头的框注释与上一节相同。实现我们将PanCAD-Net的训练方案设置为类似于我们的语义符号定位模型，除了我们使用ResNet-50作为主干来平衡模型的效率和准确性。通过强制重叠大于0.5 我们有一个类似于[19]的独特匹配。基准性能表5列出了在所提出的全景符号定位任务上计算的全景质量。全景结果的几个典型场景的可视化第一行区域A中的凸窗被正确地检测到，其与普通窗符号相比仅具有更远的多一个平行线段。在第二行区域A和第三行区域B中可以看到几个故障情况。实验中显示的所有图形均为矢量图形，请放大查看。(a) 输入平面图（b）GT（L）和预测（R）图10：FloorPlanCAD数据集中各种场景的拟议全景符号定位结果。自上而下：公寓、宿舍和购物中心。7. 结论在本文中，我们提出了一个大规模的CAD绘图数据集的真实世界的平面图与线粒度的注释。基于矢量图形的特点，我们引入了具有评价指标的全景符号定位问题。通过将CNN特征集成到GCN中，我们展示了结合拓扑和几何特征的能力我们的数据集和代码是公共可用的，下一个版本的数据集正在建设中。B一一B一B10136引用[1] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议（3DV）[2] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。[3] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al.检测：打开mmlab检测工具箱和基准。arXiv预印本arXiv：1906.07155，2019。[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[6] Yifeng Chen ， Guangchen Lin ， Songyuan Li ， OmarBourahla，Yiming Wu，Fangfang Wang，Junyi Feng，Mingliang Xu，and Xi Li.Banet：具有用于全景分割的遮挡处理的双向聚合网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3793-3802页[7] MM分割贡献者。MMSegmentation ： Openmmlab 语义分割工具箱和基准。https://github.com/open-mmlab/mmsegmentation，2020.[8] Mathieu Delalandre，Ernest Valveny，Tony Pridmore，and Dimosthenis Karatzas.符号识别定位系统性能评价用合成文件的产生。 International Journal on DocumentAnalysis and Recognition（IJDAR），13（3）：187[9] PhilippeDosch，Ge´raldMasini，andVitorVasconce-losAra u´joSil v a. Q g ar.https://raweb.inria.fr/rapportsactivite/RA2008/qgar/uid18.html，2021.[在线; 2021年2月18日访问]。[10] AnjanDutta，JosepLlado's ，HorstBunk e和UmapadaPal.用于图形文档中符号定位的近凸区域邻接图和近似2013年第12届文档分析和识别国际会议，第1078-1082页。IEEE，2013。[11] AnjanDutta、JosepLlad o's和UmapadaPal. 用图形路径散列法识别线图中的符号。2011年国际文献分析与识别会议，第982-986页。IEEE，2011年。[12] AnjanDutta、JosepLlad o's和UmapadaPal. 一种通过散列序列化图的图形文档中的符号Pattern Recognition，46（3）：752[13] Shreya Goyal、Vishesh Mistry、Chiranjoy Chattopadhyay和Gaurav Bhatnagar。Bridge：构建用于图像描述生成和评估的计划存储库。2019年国际文件分析和识别会议（ICDAR），第1071-1076页。IEEE，2019。[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[15] Xavier Hilaire和Karl Tombre。线条图的鲁棒且精确的矢量化。 IEEE Transactions on Pattern Analysis andMachine Intelligence，28（6）：890[16] 黄哲，付洪波，刘永红。手绘草图的数据驱动分割和标注ACM Trans-actions on Graphics（TOG），33（6）：1[17] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[18] Alexander Kirillov ， Ross Girshick ， Kaiming He ， andPiotr Doll a'r. 光学特性金字塔网络工作。在IEEE/CVF计算机视觉和专利识别会议的论文集中，第6399-6408页，2019年[19] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDol la'r。全视节段在IEEE/CVF计算机视觉和模式识别会议的论文集中，第9404-9413页，2019年[20] Pier reLeBodic ，PierreHe' roux，Se'bastienAdam ，andYvesLecourtier.一种求容许替换子图同构的整数线性规划及其在技术图纸符号定位中的应用。 PatternRecognition，45（12）：4214[21] Pie rreLeBodic，PierreHe' roux，Se'bastienAdam ，andYvesLecourtier.一种求容许替换子图同构的整数线性规划及其在技术图纸符号定位中的应用。 PatternRecognition，45（12）：4214[22] Lei Li，Hongbo Fu，and Chiew-Lan Tai.快速草图分割和标记与深度学习。 IEEE Computer Graphics andApplications，39（2）：38[23] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[24] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[26] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：Stochas-tic 梯度下降与热重启。 arXiv 预印本 arXiv ：1608.03983，2016。10137[27] Thi-Oanh Nguyen、Salvatore Tabbone和Alain Boucher。基于矢量模型和视觉词汇表的符号识别方法2009年第10届国际文档分析和识别会议，第708-712页IEEE，2009年。[28] Thi Oanh Nguyen ， Salvatore Tabbone ， and O RamosTer- rades.基于形状上下文和信息检索矢量模型的符号描述符。2008年，第八届IAPR文件分析系统国际研讨会，第191-197页IEEE，2008年。[29] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改进。arXiv预印本arXiv：1804.02767，2018。[30] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：实现区域建议网络的实时对象检测。 IEEETransactionsonPatternAnalysisandMachineIntelligence，39（6）：1137[31] Alireza Rezvanifar ， Melissa Cote 和 Alexandra BranzanAlbu。建筑图纸的符号定位：最先进的和新的行业驱动的发展。 IPSJ Trans- actions on Computer Vision andApplications，11（1）：2，2019。[32] Alireza Rezvanifar ， Melissa Cote 和 Alexandra BranzanAlbu。使用基于深度学习的框架在数字建筑平面图上进行符号定位。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第568-569页[33] Mar calRus in ol，Ag ne sBorr a s，andJosepLlad o s. 线划图像中符号定位的向量基元关系索引。 PatternRecognition Letters，31（3）：188[34] Mar calRus in ol和JosepLlad o s。数字图书馆中的符号识别，第1卷。施普林格，2010年。[35] Mar calRus in ol、JosepLlad o´ s和GemmaSa´nchez。通过区域字符串查找表实现矢量化技术图纸中的符号定位。Pattern Analysis and Applications，13（3）：321[36] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211[37] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集，第4510-4520页[38] KC Santosh文

下载后可阅读完整内容，剩余1页未读，立即下载