基于边界引导的多任务网络用于平面布局识别

146 浏览量更新于2023-10-12 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于房间边界引导注意力的多任务网络深层平面识别香港中文大学李英健余志荣{zlzeng，xzli，cwfu}@www.example.comwww.example.comcse.cuhk.edu.hkykyu.hk @ gmail.com摘要本文提出了一种新的平面布置图元素识别方法。除了墙壁和房间，我们的目标是在地板布局中识别不同的平面图元素，例如为此，我们对平面图元素的层次结构进行建模，并设计了一个深度多任务神经网络，该网络具有两个任务：一个是学习预测房间边界元素，另一个是预测房间类型。更重要的是，我们在空间上下文模块中制定了房间边界引导注意机制，以仔细考虑房间边界特征，以增强房间类型预测。此外，我们设计了一个跨任务和任务内的加权损失来平衡多标签任务，并准备了两个新的数据集用于平面图识别。实验结果表明，我们的网络的优越性和有效性的国家的最先进的方法。1. 介绍为了识别布局中的平面布置图元素，需要学习平面布置图中的语义信息。这不仅仅是一个一般的分割问题，因为平面图不仅呈现各个平面图元素，如墙、门、窗和壁橱等。，而且还包括元素如何相互关联，以及它们如何排列组成不同类型的房间。虽然识别平面图中的语义信息对于人类来说通常是直接的，但是自动处理平面图并识别布局语义在图像理解和文档分析中是非常具有挑战性的传统上，该问题是基于低级图像处理方法[14，2，7]解决的，该方法利用几何学来定位平面图中的图形符号。显然，仅仅依靠手工制作的功能是不够的，因为它缺乏处理不同条件的通用性。最近的方法[11，5，20]已经开始探索深度学习方法。 Liu等人 [11]设计一个图1.我们的网络能够识别厚度不均匀的墙壁（见方框2、4、5）、在不规则连接处相交的墙壁（见方框1、2）、弯曲的墙壁（见方框3）以及布局中的各种房间类型;颜色标签的图例见图2。卷积神经网络（CNN）来识别平面图图像中的接合点，并连接接合点以定位墙壁。然而，该方法只能在图像中沿 XY 主方向定位均匀厚度的壁。后来，Yamasaki等人。[20]采用了一种完全卷积网络来标记平面图中的像素;然而，该方法简单地使用通用分割网络来识别不同类别的像素，而忽略了平面图元素与房间边界之间的空间关系。本文提出了一种新的平面图识别方法，重点是识别不同的平面图元素，如：、墙壁、门、房间、壁橱等。;参见图1中的两个示例结果和图2中的图例。这些元素是平面图中具有结构语义的相互关联的图形元素为了解决这个问题，我们为平面图元素建模了一个标签层次结构，并基于该层次结构设计了一个深度多任务神经网络。我们的网络从输入的平面图中学习共享功能，并改进功能以学习识别单个元素。具体而言，我们设计了空间语境模块，以探索空间关系之间的90969097元素，以避免特征模糊，并制定跨任务和任务内加权损失，以平衡跨任务和任务内的标签。因此，我们可以有效地探索平面图元素之间的空间关系，以最大限度地提高网络学习;再次参见图1所示的示例结果，其展示了我们的网络的能力。我们的贡献有三方面。首先，我们设计了一个深度多任务神经网络来学习平面图元素之间的空间关系，以最大化网络学习。其次，我们提出了空间上下文模块与房间边界引导的注意机制来学习空间语义信息，并制定跨任务和任务内的加权损失，以平衡我们的任务的损失最后，我们从[11]和[10]中获取数据集，收集额外的平面图，并准备两个新的数据集，其中包含各种平面图元素和房间类型的标签。2. 相关工作传统的方法基于低级图像处理来识别平面图中的元素。Ryall等人。 [16]应用了一种半自动的房间分割方法。其他早期的方法[1，6]通过检测布局中的图形形状来定位墙壁，门和房间，例如。、直线、圆弧和小环。Or等人 [15]将位图平面图转换为矢量图形并生成3D房间模型。Ahmed等 [2]从图形中分离文本并提取各种粗细的线条，其中墙壁是从较粗的线条中提取的，而符号则假定为细线;然后，他们应用这些信息进一步定位门窗。Gimenez等人 [7]使用几何学识别墙壁和开口，并根据检测到的墙壁和门生成3D建筑模型。使用几何学来识别平面图中的低层元素容易出错。这推动了机器学习方法的发展[4]，最近，深度学习方法[5，11，20]来解决这个问题。 Dodge等人 [5]使用全卷积网络（FCN）首先检测墙壁像素，然后采用更快的R-CNN框架来检测门，滑动门以及厨房炉灶和浴缸等符号。此外，他们还使用了一个图书馆工具来识别文本，以估计房间的大小。Liu等人 [11]训练了一个深度神经网络，首先识别给定平面图图像中的连接点，然后使用整数规划来连接连接点以定位平面图中的墙壁。由于曼哈顿假设，该方法只能处理与平面图图像中的两个主轴对齐的墙。因此，它可以识别只有矩形房间和均匀厚度的墙壁的布局。后来，Yamasaki等人。 [20]训练了一个FCN，用几个类来标记平面图中的像素。分类后的像素点形成一个图形模型，并用于检索类似结构的房屋。然而，他们的方法图2.以层次结构组织的楼层平面图元采用通用的分割网络，其中它简单地独立地识别不同类别的像素，从而在推理中忽略类别之间的空间关系。与最近的工作相比，我们的方法有几个显着的改进。从技术上讲，我们的方法同时考虑网络中的多个平面图元素;特别是，我们考虑了它们的空间关系，并设计了一种多任务方法来最大限度地学习网络中的平面图元素。结果方面，我们的方法是更普遍的，并能够cannimizing- ing非矩形房间布局和墙壁的厚度不均匀，以及各种房间类型;参见图2。最近，有几个其他作品[22，9，24，21，18]与房间布局有关，但他们关注的是一个不同的问题，即。，从照片重建3D房间布局。3. 我们的方法3.1. 目标和问题表述这项工作的目标如下。首先，我们的目标是识别各种平面图元素，不仅限于墙壁，还包括门，窗，房间区域等。第二，我们的目标是处理非矩形形状的房间和厚度不均匀的墙壁。最后，我们还旨在识别平面图中的房间类型，例如。、餐厅、卧室、卫生间等。实现这些目标需要能够处理平面图，并在平面图中找到多个不重叠但空间相关的元素。在我们的方法中，我们首先将平面布置图元素组织成层级（参见图2），其中平面布置图中的像素可以被识别为内部或外部，而内部像素可以进一步被识别为房间边界像素或房间类型像素。此外，房间边界像素可以是墙壁、门或窗户，而房间类型像素可以是起居室、浴室、卧室等。;参见图2中的图例。基于高-9098m，n图3.（a）说明我们的深度多任务神经网络的示意图我们有一个VGG编码器来从输入的平面图图像中提取特征网络中的两个后续任务共享这些功能：一个用于预测房间边界像素（墙、门和窗），另一个用于预测房间类型像素（餐厅、卧室等）。最重要的是，这两个任务有单独的VGG解码器。我们设计了房间边界引导注意机制（蓝色箭头），以利用来自上部分支中的解码器的房间边界特征来帮助下部路径中的解码器学习用于预测房间类型像素的上下文特征（红色框）(b)VGG编码器和解码器的详细信息。图中显示了网络中要素的尺寸因此，我们设计了一个深度多任务网络，其中一个任务预测房间边界元素，另一个任务预测房间类型元素。特别地，我们制定了空间上下文模块来探索元素之间的空间关系，即。使用为房间边界学习的特征来细化用于学习房间类型的特征。3.2. 网络架构整体网络架构。图3（a）显示了整个网络架构。首先，我们采用共享VGG编码器[17]从输入平面图图像中提取特征然后，我们在网络中有两个主要任务：一个用于预测具有三个标签的房间边界像素，即，一个用于预测具有八个标签的房间类型像素，餐厅、洗手间等。详情见图2。这里，房间边界是指在平面图中分隔房间区域的平面图元素;它不仅仅是低级边缘，也不是分隔前景和背景的具体来说，我们的网络首先学习两个任务共有的共享特征，然后使用两个单独的VGG解码器（参见图3（b）的连接和特征维度）来执行这两个任务。因此，网络可以为每个任务学习额外的功能。为了最大限度地提高网络学习的效率，我们进一步利用房间边界的上下文特征来约束和指导房间区域及其类型的描述;在这里，我们底部分支的输入是来自顶部VGG解码器的房间类型特征（参见图3（a）4中的蓝框），而底部分支的输入是来自底部VGG解码器的房间类型特征（参见图3（a）4中的绿框）。再次参见图3（a）：在VGG解码器中存在四个级别，并且空间上下文模块（参见图3（a）中的虚线箭头）被应用四次，每个级别一次，以整合来自同一级别的房间边界和房间类型特征（即，，在相同的分辨率下）并生成空间上下文特征;见图3（a）&4中的红框。• 在顶部分支中，我们对房间边界特征应用一系列卷积，并将其简化为2D有限元。真映射作为注意力权重，表示为像素位置m，n处的m，n。注意力权重是通过卷积学习的，而不是固定的。• 此外，我们将注意力权重应用于底部分支两次;参见图中的图4. 第一个注意力用于在具有方向感知内核的四个卷积层之前压缩噪声特征，而第二个注意力用于进一步抑制模糊特征。我们称之为房间边界引导的注意力机制，因为注意力权重是从房间边界特征中学习的。假设f m，n作为第一注意力权重a m，n的输入特征，f ′作为输出，则X运算可以表示为设计了空间上下文处理模块，′m，n=am，n·fm，n.（一）顶部解码器的房间边界特征（见图-图3（a））到底部解码器以最大化用于房间类型预测的特征积分。空间上下文模块。图4显示了空间上下文模块的网络架构。它有两个分支。顶部分支的输入是房间边界• 在图4所示的底部分支中，我们首先将3×3卷积应用于房间类型特征，然后将其简化为2D特征图。在那之后，我们-首先关注2D特征图，然后是k个单位大小的四个独立的方向感知内核（水平、垂直、对角和翻转对角），F9099m+k，nm，nJ图4.我们的空间上下文模块具有房间边界引导的注意力机制，该机制利用房间边界特征来学习房间类型预测的注意力权重在下面的分支中，我们使用具有四个不同方向感知内核的卷积层来生成与注意力权重集成的特征，并生成空间上下文特征（红色;另见图3）。这里进一步处理该特征。以水平内核为例，我们的方程如下： Σ′ ′hm，n=（αm−k，n·fm−k，n+αm，n·fm，n中文（简体）+αm+k，n·f′），其中h m，n是沿水平方向的上下文特征; f '是输入特征（参见等式10）。（1））;α是权重。在我们的实验中，我们将α设置为1。• 在第二个注意力中，我们进一步应用注意力对于训练-测试分割比，我们遵循原始文件[11]将R2V分割为715个图像用于训练，100个图像用于测试。对于R3D，我们将其随机分为179张图像用于训练，53张图像用于测试。跨任务和任务内加权损失。我们网络中的两个任务中的每一个都涉及到各种房间边界和房间类型元素的多个标签。由于不同元素的像素数量不同，我们必须在每个任务中平衡它们的贡献。此外，房间类型像素通常比房间边界像素多。重量（am，n）来集成聚合功能：因此，我们必须进一步平衡两个任务。因此，我们设计了一个跨内任务′′m，n=am，n·（hm，n+vm，n′+dm，n′m，n）、（3）加权损失以平衡两个任务之间以及每个任务内的平面图元素之间。其中vm，n，dm，n和dm，n表示上下文在与方向感知内核的卷积之后，分别沿垂直、对角和翻转对角方向的特征。• 任务内加权损失。在这里，我们以熵的形式定义任务内加权损失为ΣC3.3. 网络训练L任务=wii=1−yilogpi，（4）数据集。由于没有用于平面图识别的像素级标签的公共数据集，我们准备了两个数据集，即R2V和R3D。具体来说，R2 V有815张图像，全部来自Raster-to-Vector [11]，其中平面图大多是矩形形状，壁厚均匀其中yi是平面图中第i个平面图元素的标签，C是任务中平面图元素的数量;p i是第i个元素的像素的预测标签（p i∈ [0，1]）; W i定义如下：Nˆ−Nˆi对于R3D，除了来自[10]的原始214张图像外，我们还添加了18张圆形布局的平面图图像wi=Cj=1（N−N），（5）to the data数据.与R2V相比，R3D中的大多数房间形状不规则，壁厚不均匀在这里，我们用其中，Ni是针对以下各项的地面实况像素的总数：-楼层平面图中的第i个楼层平面图元素，并且N=Photoshop手动标记R2V中的图像区域R3D用于墙壁、门、卧室等注意我们使用了Ci=1 Ni，这意味着地面的总数量某些房间区域的标签相同，例如起居室和餐厅（见图2），因为它们通常彼此相邻，没有墙壁将它们分F+d9100开。在这两个数据集中都可以观察到这种情况。其次，我们遵循GitHub代码Raster-to-Vector [11]对房间区域进行分组，以便我们可以与它们的结果进行比较。所有C平面图元素上的真值像素。• 跨任务和任务内加权损失：Lrb和Lrt表示计算的房间边界和房间类型预测任务的任务内加权损失。从等式（4）分别。Nrb和Nrt是房间边界的网络输出像素9101图5.在R2 V数据集上通过我们的方法（c d）和其他方法（e-g）产生的平面图识别结果的视觉比较&;请注意，我们必须使用矩形平面图与栅格到矢量[11]进行比较。符号†表示后处理步骤。表1.与R2V数据集上的栅格到矢量[11]的比较符号<$表示我们的方法带有后处理（见4.1节）。和房间类型。然后，总体跨任务和任务内加权损失L被定义为：L=wrbLrb+wrtLrt，（6）其中wrb和wrb是由下式给出的权重：训练他们的网络。为了获得最好的识别结果，我们每五个训练阶段进一步评估结果，并只报告最好的一个。网络测试。给定一个测试楼层平面图图像，wrb=NNrtrb+Nrt且wrt=NNrbrb+Nrt.（七）它到我们的网络，并获得其输出。但由于对于逐像素预测，输出可能包含一定的噪声，因此我们进一步找到有界的连通区域4. 实验4.1. 实现细节网络培训。我们在NVIDIA TITAN Xp GPU上训练了我们的网络，总共运行了40k次迭代。我们使用Adam优化器来更新参数，并使用1 e-4的固定学习率来训练网络。输入平面图的分辨率为512×512，以保留平面图中的细线和短线（如墙壁）此外，我们使用的批大小为1，而不使用批处理标准化，因为它需要至少32个批量[19]。此外，我们没有使用任何其他标准化方法。对于我们比较中的其他现有方法，我们使用原始论文中报告的原始超参数，总帐户分类帐壁门窗衣橱卫浴&设备等客厅&等。卧室大厅阳台[11]第十一话0.840.530.580.780.830.720.890.640.71我们0.880.880.860.800.860.860.750.730.86我们的†0.890.880.860.820.900.870.770.820.939102通过预测的房间边界像素来定位房间区域，计算每个有界区域中每个预测房间类型的像素数，并将总体预测类型设置为最大频率的类型（参见图 5 （ c ）（d））。我们的代码和数据集可在以下网址获得：https：//github.com/zlzeng/DeepFloorplan网站。4.2. 定性和定量比较与Raster-to-Vector相比。首先，我们将我们的方法与光栅到矢量[11]进行了比较，光栅到矢量[ 11 ]是最先进的平面图识别方法。具体来说，我们使用来自R2V数据集的图像来训练它的网络和我们的网络。为了运行光栅到矢量，我们使用其原始的标签（这是矩形边界的2D角坐标9103图6.在R3 D数据集上通过我们的方法（c d）和其他方法（e-f）产生的平面图识别结果的视觉比较。符号†表示我们的后处理方法（见4.1节）。ing框），而对于我们的网络，我们使用每像素标签。考虑到光栅到矢量网络只能输出边界框的2D角坐标，我们遵循[11]中提出的程序将其边界框输出转换为每像素标签，以便于与我们的方法进行比较;有关程序细节，请参阅[11]。图5（c-e）显示了我们的方法和光栅到矢量之间的视觉比较。对于我们的方法，我们提供了（用†表示）和w/o后处理的结果。对于栅格到矢量，它已经包含了一个简单的后处理步骤来连接房间区域。对比一下re-通过（b）中的地面真实值，我们可以看到光栅到矢量在房间边界预测上的性能往往较差，例如，甚至缺少一些房间区域。我们的结果更类似于地面真相，即使没有后处理。对于R3 D数据集，它包含许多非矩形的房间形状，因此由于其曼哈顿假设，栅格到矢量在许多缺失区域中表现不佳;因此，我们没有报告R3 D的比较。对于定量评估，我们采用了两个广泛使用的指标[13]，即，整体像素精度和每-类像素精度：平面图元素和后处理可以进一步提高我们的性能。与分割网络相比。为了评估一般分割网络在平面图识别中的表现，我们进一步将我们的方法与两个最新的分割网络DeepLabV3+[3]和PSPNet [23]进行了比较。为了进行公平的比较，我们在R2V数据集和R3D数据集上训练了他们的网络以及我们的网络，并调整了他们的图5和图6分别在R2V和R3D的测试平面图上展示了PSPNet和DeepLabV3+的视觉对比。由于空间限制，请参阅我们的补充材料，了解 PSPNet 和DeepLabV3+的结果以及后处理。从图中可以看出，他们的结果往往包含噪音，特别是对于复杂的房间布局和门窗等小元素。由于这些图元通常是房间区域之间的房间边界，因此结果会进一步影响房间类型预测。请参阅柔软的材料，以获得更多的视觉比较结果。表2报告了以下物质的定量比较结果：有和没有后处理的各种方法，Σ总体accu=iNi伊尼类accu（i）=N1，（8）Nˆi在 R2V 和 R3D 数据集上的整体和每类精度。与DeepLabV3+和PSPNet相比，我们的方法对大多数平面图元素都有更好的其中，Ni和Ni是地面实况的总数像素和第i个楼层平面图元素的正确预测的像素。表1显示了R2V数据集的定量比较结果从结果中可以看出，我们的方法对于大多数情况下都达到了更高的精度。即使没有后处理，也显示出其优于这些通用分割网络的优势。请注意，我们的后处理步骤假设合理的房间边界预测，因此它通常无法增强房间边界预测不佳的结果;参见图6中的结果。9104βT−1表2.与DeepLabV3+和PSPNet的比较除了类准确性之外，我们还进一步遵循[13]的GitHub代码来计算平均IoU度量;参见最后一行。（）中的值表示后处理后的性能。请注意，R2V数据集包含大多数矩形形状的平面图，而R3D数据集包含更丰富的平面图形状。R3dR2v我们DeepLabV3+ [3]PSPNet [23]我们DeepLabV3+ [3]PSPNet [23]总帐户0.89（0.90）0.85（0.83）0.84（0.81）0.89（0.90）0.88（0.87）0.88（0.88）分类帐壁0.98（0.98）0.93（0.93）0.91（0.91）0.89（0.89）0.80（0.80）0.84（0.84）门窗0.83（0.83）0.60（0.60）0.54（0.54）0.89（0.89）0.72（0.72）0.76（0.76）衣橱0.61（0.54）0.24（0.048）0.45（0.086）0.81（0.92）0.78（0.85）0.80（0.71）卫浴设备&等0.81（0.78）0.76（0.57）0.70（0.50）0.87（0.93）0.90（0.90）0.90（0.84）客厅&等。0.87（0.93）0.76（0.90）0.76（0.89）0.88（0.91）0.85（0.84）0.83（0.90）卧室0.75（0.79）0.56（0.40）0.55（0.40）0.83（0.91）0.82（0.65）0.86（0.92）大厅0.59（0.68）0.72（0.44）0.61（0.23）0.68（0.84）0.55（0.87）0.78（0.81）阳台0.44（0.49）0.08（0.0027）0.41（0.11）0.90（0.92）0.87（0.45）0.87（0.82）平均IoU0.63（0.66）0.50（0.44）0.50（0.41）0.74（0.76）0.69（0.67）0.70（0.69）与边缘检测方法进行了比较。为了显示房间边界（即墙、门和窗）不仅仅是平面图中的边缘，而是具有语义的结构元素，我们进一步将我们的方法与最先进的边缘检测网络[12]（表示为RCF）进行比较，以检测平面图中的墙元素。在这里，我们分别在R2V和R3D数据集;由于RCF输出墙预测的每像素概率（∈[0，1]），因此我们需要一个阈值（表示为tRCF）来从其结果中定位墙壁像素。在我们的方法中，我们从网络输出中提取墙像素的二进制映射;参见图2（底部）的示例。为了定量比较RCF和我们的方法产生的二进制映射，我们采用F-测度[8]，一种常用的度量，表示为（1+β2）精确度×召回率Fβ=β2精确度+召回率，（9）其中精度和召回率分别是考虑到我们需要tRCF来对RCF的结果进行阈值化表3.与最先进的边缘检测网络（RCF [12]）在检测平面图中的墙壁方面进行比较R2vR3dFMaxβF平均值βFMaxβF平均值βRCF [12]0.620.560.680.58我们0.850.850.950.95表4.使用R3D数据集将我们的完整网络与基线网络#1和基线网络#2度量方法基线#1基线#2我们的完整网络总帐户0.820.850.89平均等级0.720.720.804.3. 网络体系结构分析接下来，我们通过将其与以下两个基线网络进行比较，对我们的网络进行架构分析• 基线1：两个独立的单任务网络。第一个基线将问题分解为两个单独的单任务网络，一个用于房间边界预测，另一个用于房间边界预测。另一个用于房间类型预测，具有两组独立的VGG编码器和解码器。因此，没有共同的特征，也没有空间背景-Fmax=1ΣMβFp和Fmean=β1 ΣMTΣ−1 Fp（t ），与我们的完整网络相比，• 基线#2：没有空间上下文模块。βMβp=1βMT p=1t=0β T− 1第二个基线是我们的完整网络，具有共享功能，但没有空间上下文模块。其中，M是测试平面图的总数;Fp是第p次试验输入的最佳F β在T不同的tRCF范围内为[0，1];F p（t）是第p个测试输入上的F β，表4显示了比较结果，其中我们使用R3D数据集训练和测试了每个网络[10]。从βT−1tRCF=t。在我们的实施中，正如由Kazi建议的那样-我们的工作[8]中，我们经验地设置β2=0。T=256。注意，对于二进制映射，Fmax和Fmean是相同的。9105结果，我们可以看到，我们的整个网络优于两个基线，表明具有共享要素的多任务方案和空间上下文模块都β β有助于提高平面图识别性能。我们的方法，因为他们不需要tRCF。Ta-表3报告了结果，清楚地表明我们的方法在检测墙壁方面优于RCF。尽管如此，简单地检测平面图图像中的边缘对于平面图识别是4.4. 空间语境模块分析这里给出了空间上下文模块的消融分析（详见图49106图7.根据我们的识别结果重建3D模型。表5.空间情境模块的消融研究度量方法没有注意没有方向-aware内核我们完整版本总帐户0.860.870.89平均等级0.740.770.80• 没有注意力：空间边界引导的注意力机制（参见图4中的顶部分支）从空间上下文模块中删除。• 无方向感知内核：去除空间上下文模块中具有四个方向感知内核只有房间的边界-应用引导注意机制表5显示了上述方案与完整方法（即，具有注意力和方向感知内核）。同样，我们在R3D数据集上训练和测试[10]。从表5中，我们可以看到，空间上下文模块在配备注意力机制和方向感知内核时表现最好4.5. 讨论适用范围：三维模型重建。在这里，我们将楼层平面图识别结果用于重建3D模型。图7显示了构建的3D平面图的几个示例我们的方法是能够识别壁的厚度不均匀和各种各样的形状。因此，它使我们能够构建各种形状的3D房间边界，例如。平面图中的弧形墙人们可能会注意到，我们在图7中只重建了3D墙壁。事实上，我们可以进一步重建门窗，因为我们的方法也在布局中识别了它们。更多重建结果请参考我们的补充资料。局限性。在这里，我们讨论了两种具有挑战性的情况，我们的方法无法产生合理的预测。首先，我们的网络可能无法区分内部和外部区域，如果在平面图中有一些特殊的房间结构，例如。，长长的双曲走廊。其次，我们的网络可能会错误地识别大图标（例如，，指南针图标）作为墙元素。为了解决这些问题，我们认为网络需要更多的数据来学习更多种类的平面图和语义。此外，我们可能会探索弱监督学习的问题，以避免繁琐的注释;请参阅补充材料，例如失败案例。5. 结论本文提出了一种新的平面图元素识别方法。这项工作有三个关键贡献。首先，我们探索平面图元素之间的空间关系，建模平面图元素的层次结构，并设计一个多任务网络来学习识别平面图中的房间边界和房间类型元素其次，我们进一步采取房间边界特征来指导房间类型预测，通过制定空间上下文模块与房间边界引导的注意机制。此外，我们设计了一个跨任务和任务内的加权损失，以平衡每个任务内和跨任务的损失。最后，我们还准备了两个数据集用于平面图识别，并从各个方面对我们的网络进行了广泛的结果表明，我们的网络优于其他方面的整体准确性和Fβ指标。在未来的工作中，我们计划进一步提取平面图图像中的尺寸信息，并学习识别平面图中的文本标签和符号。致谢。我们感谢审稿人的宝贵意见，以及Chen Liu、Chenxi Liu和Alexander Schwing提供的代码和数据。本研究获香港特别行政区研究资助局资助（中大14203416 14201717）。9107引用[1] 克里斯蒂安·阿顺和卡尔·汤布尔建筑图纸变异分析。国际文件分析与识别会议（International Conference onDocument Analysis and Recognition，ICDAR）IEEE，1997年。2[2] Sheraz Ahmed ，Marcus Liwicki， Markus Weber， andAn- dreas Dengel.改进建筑平面图的自动分析。国际文献分析与识别会议（ International Conference onDocument Analysis and Recognition ， ICDAR ） IEEE ，2011年。一、二[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV），2018。六、七[4] Llu 'ıs-Pere de las Heras，Joan Mas，Gemma Sanchez，and Ernest Valveny.建筑平面图中基于墙块的分割。国际文件分析与识别会议（ICDAR）IEEE，2011年。2[5] SamuelDodge，JiuXu，andBjoürnStenge r. 解析平面图图像。国际机器视觉应用会议IEEE，2017年。一、二[6] Philippe Dosch，Karl Tombre，Christian Ah-Soon，andG e'raldMasini. 一个完整的建筑图纸分析系统国际文献分析与识别，3（2）：102-116，2000. 2[7] 露西尔·吉门尼斯，西尔·瓦因·罗伯特，弗雷德里克·苏阿德，卡奥·顿·兹瑞克.从扫描的2D平面图自动重建3D建筑建筑自动化，63：48-56，2016。一、二[8] Hou Qibin ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip H.S. 乇具有短连接的深度监督 IEEE Transactions on Pattern Analysis andMachine Intelligence，41（4）：815- 828，2018。7[9] Chen-YuLee ， VijayBadrinarayanan ， TomaszMalisiewicz，and Andrew Rabinovich.RoomNet：端到端的房间布局估计。 IEEEInternational Conference onComputer Vision（ICCV），2017年。2[10] Chenxi Liu ， Alex Schwing ， Kaustav Kundu ， RaquelUrtasun，and Sanja Fidler.Rent3D：用于单目布局估计的平面图先验。在IEEE计算机视觉和模式识别会议（CVPR），2015年。二、四、七、八[11] 刘晨，吴嘉俊，Pushmeet Kohli，和Yasutaka Fu- rukawa.栅格到矢量：重新审视平面布置图转换。IEEEInternationalConferenceonComputerVision（ICCV），2017年。一二四五六[12] 刘云、程明明、胡晓伟、王凯、白翔。用于边缘检测的更丰富的卷积特征。在IEEE计算机视觉和模式识别会议，2017年。7[13] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议（CVPR），2015年。六、七[14] Se'bastienMace'，Hervee'Loctea u，ErnestValv eny，andSalva-tore Tabbone.建筑楼层中房间的检测系统计划图像。2010年第九届IAPR国际文件分析系统研讨会论文集。1[15] Siu-Hang Or ， Kin-Hong Wong ， Ying-Kin Yu ， andMichael Ming-Yuan Chang.高度自动化的建筑平面图图像理解和模型生成方法。在proc 视觉、建模和可视化2005（VMV- 2005），第25-32页，2005年。2[16] Kathy Ryall ， Stuart Shieber ， Joe Marks ， and MurrayMazer.平面图中区域的半自动划分。国际文献分析与检索会议。IEEE，1995年。2[17] Karen Simonyan和Andrew Zisserman用于大规模图像识别的深度卷积网络 2015 年国际学习表征会议（ICLR）。3[18] Cheng Sun ， Chi-Wei Hsiao ， Min Sun ， and Hwann-Tzong Chen. HorizonNet：具有1D表示和全景拉伸数据增强的学习室布局。在IEEE计算机视觉和模式识别会议（CVPR），2019年。2[19] Yuxin Wu和Kaiming He。组归一化。在欧洲计算机视觉会议（ECCV），2018年。5[20] Toshihiko Yamasaki，Jin Zhang，and Yuki Takada.使用全卷积网络和图模型的部件结构估计在2018年ACM房地产技术多媒体研讨会的会议记录中，2018年。一、二[21] Shang-Ta Yang ， Fu-En Wang ， Chi-Han Peng ， PeterWonka，Min Sun，and Hung-Kuo Chu.DuLa-Net：一个双投影网络，用于从单个RGB全景图估计房间布局。在IEEE计算机视觉和模式识别会议，2019年。2[22] Yinda Zhang，Shuran Song，Ping Tan ，and JianxiongXiao. PanoContext：用于全景场景理解的全房间3D上下文模型。欧洲计算机视觉会议，2014。2[23] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议，2017年。六、七[24] Chuhang Zou ， Alex Colburn ， Qi Shan ， and DerekHoiem. LayoutNet：从单个RGB图像重建3D房间布局在IEEE计算机视觉和模式识别会议（CVPR），2018。2

下载后可阅读完整内容，剩余1页未读，立即下载