深度图匹配网络的结构布局相似性度量学习与元素匹配

110 浏览量更新于2024-01-22 收藏 1.29MB PDF 举报

深度神经网络

图匹配网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11048LayoutGMN：用于结构布局相似性的神经图匹配Akshay Gadi Patil1Manyi Li1 <$ Matthew Fisher2 Manolis Savva1 HaoZhang11Simon Fraser University2 Adobe Research摘要我们提出了一个深度神经网络，通过利用图匹配网络（GMN）来预测2D布局之间的结构相似性。我们的网络称为LayoutGMN，通过神经图匹配学习布局度量，使用在三重网络设置下设计的基于注意力的GMN。为了训练我们的网络，我们利用通过像素级Intersection-over-Union（IoUs）获得的弱标签来定义三重丢失。重要的是，LayoutGMN是用结构化的偏见构建的，可以有效地弥补IoU中结构意识的缺乏。我们在两种突出的布局形式上证明了这一点，即，平面图和UI设计，通过大规模数据集上的检索实验。特别是，与IoU和其他基线（包括基于图形神经网络和图像卷积的最先进方法）此外，LayoutGMN是第一个提供结构布局相似性度量学习和布局元素之间结构匹配的深度模型。1. 介绍二维布局是图形和建筑设计中普遍存在的视觉抽象。它们通常表示布局图、文档、场景安排和UI设计等数据的蓝图或概念草图。图案分析和合成的最新进展推动了布局生成模型的发展[11，25，47，15，26]，并导致了稳定的积累相关数据集[48，42，10，46]。然而，尽管有这些发展，很少尝试采用深入学习的度量来推理布局数据，例如，用于检索、数据嵌入和评估。例如，当前用于布局生成的评估协议仍然严重依赖于分割指标，例如交集（IoU）[15，30]和人类判断[15，26]。有效和高效地比较数据的能力是†通讯作者：manyil@sfu.ca图1. LayoutGMN通过基于注意力的神经图匹配来学习平面图和其他2D布局之间的结构布局相似性度量。学习到的注意力权重（方框中显示的数字）可用于匹配结构元素。可以说是数据分析中最基本的任务。比较布局的关键挑战在于，它不仅仅是一项视觉比较的任务-它严重依赖于对结构的推断和推理，这些结构由组成布局的元素或细分的语义和组织安排来因此，无论是模型驱动的、感知的还是深度学习的，没有一个成熟的图像空间度量最适合测量结构布局相似性。经常应用于图像分割的相似性度量，如IoU和F1分数，都是“就地”执行像素级匹配- 它们不是结构性的，并且可能对保持结构的元件未对准敏感。在这项工作中，我们开发了一个深度神经网络来预测两个2D布局之间的结构相似性，例如，平面图或UI设计。我们采取了一个主要的结构视图的布局数据表示和布局组件。具体来说，我们表示每个布局使用一个有向的，完全连接的图在其语义元素。我们的网络通过神经图匹配来学习结构布局相似性，其中基于注意力的图匹配网络[27]是在三重网络设置下设计的。该网络被称为LayoutGMN，它以一组由一对正锚点图和一对负锚点图组成的布局图作为输入，每对图进行图内消息传递和跨图信息通信，以学习图嵌入11049图2. LayoutGMN中的结构匹配在每个示例中（左：平面图;右：UI设计），通过IoU标记为“负”的训练样本N在通过结构匹配，我们的网络预测的A到N距离在每种情况下都小于A到P距离，这与IoU相矛盾。用于布局相似性预测。除了返回一个指标，我们的网络学习的注意力权重也可以用来匹配布局元素;见图1。为了训练我们的三联体网络，考虑阳性和阴性样本的人类标记是很自然的。然而，众所周知，人类对结构化数据（如布局）的主观判断通常是不可靠的，特别是对于非专家[45，2]。当雇用领域专家时，任务变得耗时且昂贵[45，2，14，9，20，41]，即使这些专家之间的差异仍然存在[14]。在我们的工作中，我们通过采用布局- GMN的弱监督训练来避免这个问题，该GMN通过使用布局IoUs[30]进行阈值处理来从训练数据中获得正面和负面标签。我们使用IoU进行网络训练的动机有三个方面，尽管IoU首先，作为最广泛使用的布局相似性度量之一[30，15]，IoU确实有其优点。其次，IoU是客观的，比专家注释更容易获得。最后，也是最重要的一点，我们的网络有一个内置的归纳偏差，在学习图嵌入时，通过图间信息交换来加强结构对应归纳偏差来自于基于注意力的图匹配机制，其在节点级学习两个图之间的结构匹配（等式3，6）。这样的结构偏差可以有效地补偿训练期间基于IoU的三联体丢失中结构意识的缺乏。在图2中，我们说明了这种结构性偏差对我们的网络学习到的度量的影响。注意，最后两个布局在结构上比前两个更相似。我们的指标LayoutGMN同意这一点，但IoU反馈不同意。我们通过Precision@k分数评估了我们的网络在平面图和UI设计的大型数据集上的检索任务，并通过检查查询及其前1结果之间的检索一致性来研究所提出的度量的稳定性，在许多这样的对上;参见第二节。5.2.总的来说，与IoU和其他基线（包括最先进的方法）相比，LayoutGMN的检索结果更好地匹配人类对结构布局相似性的基于图神经网络[30]。最后，我们展示了通过我们的网络学习的结构匹配实现的平面布置图的标签传输应用（第5.5节）。2. 相关工作布局分析。早期的文献分析工作[18，3]涉及原始的几何学来分析文献结构。将这些结构的大集合组织成有意义的集群需要在布局之间进行距离测量，这通常涉及基于内容的分类[34]用于文档和用于平面布置图的约束图匹配算法[40]。改进的距离测量依赖于使用自动编码器[7，29]获得的丰富布局表示，对整个UI布局进行操作。尽管这样的模型捕获布局图像的丰富光栅属性，但是布局结构未被建模，导致在布局数据集上的上下文搜索中的噪声推荐。布局生成。合成2D布局的早期工作依赖于范例[16，23，37]和基于规则的几何学[33，38]，并且无法捕获复杂的元素分布。深度学习的出现导致了平面图布局的生成模型[42，15，5，32]，文档[25，11，47]和UI [7，6]。除了感知研究之外，在多样性和一般化方面，对生成的布局的评估主要围绕组成语义实体的IoU [25，11，15]。虽然IoU提供了视觉相似性度量，但是在大量语义实体上进行计算是昂贵的，并且对布局内的元素位置敏感。开发一种用于结构比较的工具可能会补充上下文相似性搜索中的视觉特征。特别是，一个基于学习的方法，比较布局结构可以证明有用的任务，如布局对应，组件标签和布局重定向。我们提出了一个布局图匹配网络，称为LayoutGMN，学习比较两个图形布局的结构化方式。3D结构相似性。Fisher等人[8]开发了用于表征3D室内场景中的结构关系的图形核。室内场景表示为图形，图形内核比较图形中的子结构以捕获相应场景之间的相似性。在[43]中，通过关注子场景并将其用作两个场景之间距离测量的参考点，完成了组织此类3D室内场景的异构集合的挑战性问题。Shape Edit Distance，SHED，[22]是另一种用于比较两个3D形状的细粒度子结构相似性度量。这些工作提供了宝贵的线索，发展一个有效的结构度量布局相似性。图神经网络（GNN）[28，21，4，36]通过消息传递在图中建模节点依赖关系，并且是学习结构化数据的完美工具。GNN提供粗级别11050--图3.给定具有（a）中的房间分割的输入平面布置图图像这些特征形成了（c）中所示的相应布局图的初始节点和边特征（第3.1图嵌入，虽然对许多任务有用[39，1，17，19]，但如果每个图被孤立地处理，则可能在上下文搜索中丢失有用的结构信息我们利用图匹配网络[27]来保持布局元素之间的结构对应。用于结构布局相似性的GNN。据我们所知，Manandhar等人最近的工作。[30]是第一个利用GNN来学习2D图形布局的结构相似性，重点关注具有矩形边界的UI布局。他们在UI布局图像的图形上采用GCN-CNN架构，也是在IoU训练的三元组网络下[13]，但独立地获得了锚图、正图和负图的图形嵌入。相比之下，LayoutGMN以依赖的方式学习图嵌入。通过交叉图信息交换，在锚点-正（分别为锚点-负）对的上下文中学习嵌入。这是GCN-CNN [30]的一个关键区别，而两者都使用IoU训练他们的三元组网络。然而，由于IoU不涉及结构匹配，因此它不是结构相似性的可靠测量，导致被认为是“结构不正确”的标签此外，我们的网络不对布局图像执行任何卷积处理;它只涉及8个MLP，更多地强调学习用于图嵌入的更细尺度的我们清楚地观察到，我们的GMN中的交叉图通信模块确实有助于学习-图4. LayoutGMN将两个布局图作为输入，执行图内消息传递（等式2）。2），以及交叉图信息交换（方程2）。3）通过注意力机制（Eq. 5，也在图1中可视化）以更新节点特征，从节点特征获得最终的图嵌入（等式5）。7）。将网络匹配到三元组骨干架构中，用于学习2D布局（如平面图，UI和文档）的相似性（伪）度量空间。3.1. 布局图给定一个高度为H、宽度为W的布局图像，并带有语义注释，我们将每个元素抽象到一个绑定框中，这些绑定框形成了最终布局图的节点。具体地，对于布局图像I1，其布局图G1由下式给出：=（V，E），其中节点集合V={v1，v2，...， vn}表示布局中的语义元素，并且E=e12，.，eij，..，en（n-1），边集，表示连接组成元素的边的集合。我们的布局图是有向和全连接的。初始节点特性。存在多种可视和基于内容的特征，其可以被并入作为初始节点特征;例如，UI元素的文本数据/字体大小/字体类型或平面图中房间的图像特征。对于像我们这样的结构化学习任务，我们忽略了这些基于内容的特征，只关注框抽象。具体而言，类似于[11，12]，初始节点特征包含布局元素的语义和几何如图3所示，对于以（xk，yk）为中心、具有维度（wk，hk）的布局元素k，其几何信息为：使用比GCN-CNN框架更精细的图形嵌入-Σxk ykwk hkΣwk hk工作[30]。最后，另一个好处是，对图像对准的任何依赖是我们的网络的相似性预测对于高度变化的、非矩形的布局边界更鲁棒，例如，平面图。3. 方法图匹配网络（GMN）[27]消耗一对图，通过基于注意力的交叉图通信机制处理图交互，并得到两个输入图的图嵌入，如图4所示。我们的LayoutGMN插件在Graph中g k=W，H，W，H，WH。我们使用一个可学习的嵌入层将语义类型嵌入到128-D代码中，而不是语义的独热编码。两层MLP将5×1几何向量g k嵌入到128-D代码中，并与128-D语义嵌入s k级联以形成初始节点特征U={u1，u2，.， un}。初始边缘特征。在视觉推理和关系检测任务中，图中的边缘特征被设计为捕获抽象语义实体（表示为节点）的相对差异[12，44]。因此，对于边eij，11051阿克斯∈ − − −我我p我我我 J我p1我1（T）我们通过一个8×1向量来捕捉语义实体之间的空间关系（见图3从内部和图表中获取信息。fcross被设计为基于注意力的模块：- 是的√Σ（t）（t）Ajwiwj10x2+10y2exp（s h（hi ，hp）eij=A，W2+H2 ，θ，ap→i=0（t）（t）i ii ijpexp（s h（hi ，hp）（五）B Bµp→i=ap→i .Σh（t）−h（t）BiBj布局元素i、j的边界框的IoU;θ= atan2（θy）是两个组件之间的相对角度θ[π，π];θx ij=x jx i和y ij=y j是的。该边缘向量除了对两个布局元素的框IoU、各个纵横比和相对方向进行编码之外，还考虑了两个布局元素之间的平移。其中，p→i是第二图中的节点p与第一图中的节点i之间的注意力值（标量），并且针对跨第一图的每对节点计算这样的注意力权重。两个图;SH被实现为嵌入的代码向量的点积。所有节点的相互作用 p∈V2，其中节点i在V1中，则由下式给出3.2. 图匹配网络Σ µp→i= Σ ap→i .Σh（t）−h（t）Σ=h（t）−ap→ih（t）LayoutGMNp中使用的图形匹配模块由三部分组成：（1）节点和边缘编码器，（2）Ipip pΣp（六）消息传播层和（3）聚合器。节点和边缘编码器。我们使用两个MLP来嵌入初始节点和边缘特征，并计算它们对应的码向量：直觉，pµ p→i 相似度tweenh（t）和它在另一个图中的最近邻居。成对注意力计算导致两个图之间的更强的结构键，但需要额外的计算。我们使用五轮消息传播，然后hi（0）=MLP 节点（ui），i∈U（一）相应地更新每个节点的表示聚合器。 1024-D图形级表示，h，rij=MLPedge（eij），n（i，j）∈E上述MLP将初始节点和边特征映射到G经由特征聚合器MLP，fG获得，其取如下：put，节点表示的集合{h（T）}，如下所示他们的128维代码向量hG=MLPG.我的天σ（MLPgate（h（T）<$MLP（h（T））消息传播层。图匹配框架取决于连贯的信息交换，我i∈V我（七）补间图形以结构化方式比较两个布局传播层除了依赖于测量一个布局图中的节点与另一个布局图中的一个或多个节点的相似程度的图匹配向量之外，还通过沿着图内的边聚集消息来具体地，给定来自两个不同布局图的两个节点嵌入h（0）和h（0），节点i的节点更新由下式给出：.Σ类似地计算两个布局图的图级嵌入。HG =fG（{h（T）}i∈V）h G2 =f G（{hp }p∈V2）3.3. 培训为了学习布局相似性度量，我们借用了Triplet训练框架[13]。具体来说，给定两对mj→i=fintrah（t），h（t），rij，n（i，j）∈E1（2）布局图，即，正锚和负锚，I j.每个对都通过相同的GMN模块，µp→i=fcrossh（t），h（t），n∈V1，p∈V2（3）在另一个图的上下文中的图嵌入，如Ip如图5所示。基于L2距离的保证金损失是-h（t+1）=f更新h（t），j→i Σ，µp→i中国（4）如等式8中给出的，图嵌入之间的差用于通过GMN反向传播梯度。jpé其中，Ai是元素盒i的面积;Uij=是11052′其中，fintra是初始节点嵌入代码上的MLP，其聚合来自同一图内的其他节点的信息，fcross是传递交叉图信息的函数，并且fupdate是用于Ltri（a，p，n）=max（0，γ+<$hGa−hGp<$2-hGa−hGn<$2）4. 数据集（八）更新图中的节点要素，其输入是当前节点要素的串联，聚合的我们在实验中使用两种布局数据集：(1)来自RICO数据集的UI布局[7]，以及（2）平面图11053GaGa图5.给定分别对应于锚点、正例和反例的图Ga、Gp和Gn的三元组，锚点图与另外两个图中的每一个配对通过图匹配网络（图4）以获得两个1024-D嵌入。请注意，锚图具有不同的上下文嵌入h和h。LayoutGMN使用两个成对嵌入的L2距离上的余量损失（margin loss）（margin =5）来训练。[42]第42话经过一些数据过滤后，两个数据集的大小分别为66261和77669。在没有地面真值标签集并且需要以一致的方式获得三元组的情况下，我们求助于使用表示为多通道图像的两个布局的IoU值来确定它们的接近度。给定一个布局，根据观察，将另一个布局分类为积极的IoU值的阈值对于UI和平面图都是0.6。负样本是那些阈值至少比正样本小0.1的样本，以避免在训练过程中出现一些不正确的“负样本”。上述数据集的训练测试大小分别为：7，700 - 1，588，25，000 - 7，204。在过滤的平面布置图训练数据集[42]中，数据集上语义类别/房间的不同数量是9，每个平面布置图的最大房间数量是8。类似地，对于过滤后的UI布局数据集[7]，不同语义类别的数量为25个，数据集中每个UI布局的元素数量最多为100个。5. 结果和评价我们评估LayoutGMN通过比较其检索结果的几个基线，评估使用人类的判断。我们的网络的相似性预测是有效的：在CPU上每个布局对花费33毫秒。使用我们的学习框架，我们可以通过检索数据库样本来有效地检索多个排序结果。5.1. 基线图核（GK）[8]。GK是最早的结构相似性度量之一，最初开发用于比较室内3D场景。我们将其应用于平面图的2D布局，表1.在一组随机选择的UI和平面图查询上，使用不同方法第一组五个比较是针对UI布局，其次是平面图。U-Net [35]. 作为最好的分割网络之一，我们在三元组网络设置中使用U-Net来自动编码布局图像。网络的输入是具有语义分割的多通道图像。网络在与LayoutGMN相同的三元组上训练，直到收敛。IoU指标。给定两个多通道图像，我们使用两个布局图像之间的IoU值来获得它们的IoU得分，并使用该得分对数据集中的示例进行排序，以对给定查询的检索进行排名。GCN-CNN [30]. 用于UI布局上的结构相似性的最先进的网络是由基于注意力的GCN（类似于[28]中的门控机制）与CNN耦合组成的混合网络在这个原始的GCN-CNN中，训练三元组在每个时期随机采样，由于不同的训练数据，导致更好的训练。在我们的工作中，为了对所有上述网络进行公平的比较，我们在每个训练阶段都对一组固定的三元组进行了GCN-CNN网络在我们感兴趣的两个数据集上进行训练，使用与我们相同的训练数据给定查询的GCN-CNN、IoU度量和LayoutGMN的定性检索结果如图6所示。5.2. 评估指标精确度@k得分。为了验证Lay-outGMN作为一种度量布局相似性的工具的正确性，我们首先从一个大型数据库中评估布局检索排名列表相关性的标准评估协议是Precision@kscores [31]，简称P@k。给定来自查询集合Q={q1，q2，q3，.，q n}，我们测量排序列表L（q i）=[li1，li2，.，李立凯，]使用精度分数，UI设计。我们将相同的布局图输入GK，从两个数据库中获取检索结果，并使用最佳设置P@k（Q，L）=1克什蒂尔克rel（Lij，qi），（9）基于结果质量/计算成本权衡。K|Q|qi∈Qj=1方法精密度@k（%）k=1（↑）k=5（↑）k=10（↑）图核[8]33.3315.8311.46[35]第三十五话27.0810.837.92IoU指标43.7522.9214.38[30]第三十话39.617.113.33布局GMN47.9122.9215.83图核[8]27.2715.1512.42[35]第三十五话28.2818.1815.05IoU指标33.8424.0417.48[30]第三十话37.3722.0217.02布局GMN38.3825.3521.2111054图6.基于IoU指标，GCN-CNN Triplet [30]和LayoutGMN的输入查询的前5个检索结果。我们观察到LayoutGMN返回的排名结果比其他两种方法更接近输入查询，尽管它是在使用IoU度量计算的三元组上训练的。用于理解LayoutGMN中结构对应关系的注意力权重如图1所示，并在补充材料中提供。分别来自RICO数据集[7]和RICO数据集[42]的UI和平面图ID显示在每个结果的顶部。更多的结果可以在补充材料中找到。其中rel（Lij，qi）是返回的元素Lij对于查询qi的相关性的二进制指示符。在我们的评估中，由于缺乏对所采用的布局数据集的任何查询的标记和详尽的推荐集，这样的二进制指标由人类受试者确定。表1显示了用于布局检索任务的第5.1节中描述的不同网络的P@k得分为了获得精度分数，类似于[30]，我们通过Amazon Mechani- cal Turk（AMT）对每个查询的前10个检索进行了一项众包注释研究，其中N（UI为N= 50，平面图为100）在训练集之外要求10名土耳其人指出每个查询的前10个结果中的每一个的结构相关性，而没有关于结构比较意味着什么的任何具体说明如果至少有6名土耳其人同意，则认为结果具有相关性。关于AMT研究的详细信息，请参阅补充材料。我们观察到LayoutGMN更好地匹配人类[30]在前1次检索中，在平面图数据上的性能优于 IoU 指标（+3.5%）并且与前5名和前10名结果的IoU指标相当在UI布局上，Turkers对IoU指标的判断优于[30]。U-Net无法检索结构相似的结果，因为它在少量训练数据上过度拟合，并且由于其卷积结构而更多地依赖于图像像素在两个数据集上，LayoutGMN在所有k值上的性能都优于其他方法至少1%。平面图（底部集合）上的精度分数低于UI布局，这可能是因为它们由于比UI更小的语义元素集合而更容易比较，并且除了结构布置之外，Turker倾向于更多地关注平面图的我们相信，当大量语义出现在布局中并且分散时（如在UI中），用户倾向于查看整体结构，而不是试图匹配每个单个元素，这可能解释了UI的较高分数。Overlap@k score。我们提出了另一种量化检索结果稳定性的方法：Overlap@kscore，简称OV@k。Ov@k背后的直觉是量化任何相似性度量的检索的一致性11055111∈∈方法重叠@k（%）k=5（↑）k=10（↑）IoU指标50.649.4[30]第三十话46.845.6布局GMN49.849.8IoU指标30.4230.8[30]第三十话43.246.8布局GMN47.650.8表2.用于检查查询的检索一致性及其前1个检索结果的重叠分数，超过50个这样的对。第一组三行用于UI布局，后面是平面图。通过检查查询的类似检索结果的数量及其前1个结果。该分数越高，检索一致性越好，因此，检索稳定性越高。具体地说，如果Q1是一组查询，Qtop1是Q1中每个查询的前1个检索结果的集合，则表3.使用IoU度量（基于IoU）和用户注释（基于用户）获得的测试三元组的分类准确性第一组比较是针对UI布局，其次是平面图。Ov@k（Q1，Qtop1）=1K|年q1|Σqm∈Q1qp=top1（qm）克j=1（Lmj<$Lpj），（十）图7.当使用邻接图时，图6中左下角查询的检索结果我们观察到，在大多数查询中，其中，Lij是查询qi的第j个排名结果，逻辑与。因此，如果第j个结果是对于查询q mQ1和查询q p= top1（Q1）Qtop1是一样的Ov@k度量布局相似性度量的能力，以通过其排名最高的检索结果来复制查询所暗示的距离字段。只有当布局相似性工具返回的排名结果被认为是合理的时，该分数才有意义，正如P@k分数所评估的那样。表2示出了对于表1中所示的Ov@k分数，其中k=5、10。IoU，GCN-CNN [30]和LayoutGMN对50个这样的对。在UI（前三行）上，IoU指标的Ov@5得分（+0.6%）略高于LayoutGMN。此外，它与LayoutGMN共享最大的P@5分数，表明IoU度量对于前5个结果具有稍好的检索稳定性。然而，在 Ov@10 的情况下，LayoutGMN 的得分高于 IoU 指标（ +0.4% ），并且P@10得分也高于其他两种方法，这表明当考虑前10个检索时，LayoutGMN在检索上的一致性略好。至于平面图（最后三行），表 1 已经显示LayoutGMN具有最好的P@k分数。这与较高的Ov@k分数相结合，表明在平面图上，Lay-outGMN具有更好的检索稳定性。在补充材料中，我们给出了三种方法的稳定性的定性结果。分类准确性。我们还测量了测试三元组的分类准确性作为健全检查。然而，这样的测量本身对于信息检索任务中采用的相似性度量的正确性是不够的[31]。我们将其与P@k和Ov@k分数一起呈现LayoutGMN的性能有所提高，但在平面图数据上的GCN-CNN [30为了进行更广泛的知情评价，见表3。由于用户注释是昂贵且耗时的（并且因此是使用IoU度量来获得弱训练标签的动机），因此对于UI和平面图两者，我们仅获得452个三元组上的用户注释，并且表3的最后一列反映了这样的三元组上的准确性。LayoutGMN在使用IoU指标和用户注释获得的三元组上至少比所有基线高出1.32%。5.3. 全连通图与邻接图在[30]之后，我们使用全连通图进行实验，直到现在，我们观察到这样的图是训练图神经网络学习结构相似性的良好设计。我们还在 GCN-CNN [30] 和LayoutGMN上使用邻接图进行了实验，并观察到，对于平面图（其中图形节点数很小），LayoutGMN的检索质量有所提高，但GCN-CNN的检索质量有所下降这主要是因为GCN-CNN为每个输入图获取独立的图嵌入，当图仅建立在邻接连接上时，会丢失一些全局结构先验另一方面，由于搜索空间较窄，GMN现在通过匹配稀疏连接的邻接图来获得更好的上下文嵌入;对于使用邻接图的定性结果，请参见图7。但是，对于UI（其中图形节点计数方法三胞胎的检测准确度基于IoU（↑）基于用户（↑）图核[8]90.0990.73[35]第三十五话96.6793.38[30]第三十话96.4594.48布局GMN98.9695.80图核[8]92.0795.60[35]第三十五话93.0191.00[30]第三十话92.5091.8布局GMN97.5497.6011056表4.平面图结构编码烧蚀研究的精度@K分数通过AMT进行的众包相关性判断的设置与表1中相同，在同一组100个随机选择的查询上。很大），元素分散在整个布局中，并且没有一个启发式算法能够完美地捕获相邻关系。当在UI上使用邻接图时，两个网络的检索质量都会下降。更多的结果可以在补充材料中找到。5.4. 结构表征的烧蚀研究为了评估我们的布局表示中的节点和边特征如何对网络性能做出贡献，我们通过逐渐移除这些特征来进行消融研究我们对布局图的初始表示的设计（第3.1节）在布局生成[11，26]，视觉推理和关系检测任务[12，44，30]的先前工作中得到了很好的研究。因此，我们专注于分析布局GMN的行为时，强结构的先验，即，消除边缘、框位置和元素语义。图形边。移除图形边缘导致结构信息的丢失，只有注意力加权的节点更新（等式10）。（4）发生。当图形节点的数量较小时，例如，对于平面布置图，边缘去除不会导致随机检索，但是检索结果与存在边缘时相比较差;参见表4。箱子位置的影响。布局图的节点编码绝对框位置和元素语义。当位置编码信息是用手绘的时候，可以说，最重要的线索就丢失了。从这样一个训练不好的模型中得到的检索结果，如表4的第二行所示，是嘈杂的，因为语义本身不能提供足够的结构先验。节点语义的影响。接下来，当框位置被保留但元素语义未被编码时，我们观察到网络慢慢开始理解由位置信息指导的元素比较，但未能理解整体结构信息，参见表4。LayoutGMN考虑了所有上述信息，返回结构合理的结果（表1），甚至相对于IoU指标。5.5. 基于注意力的布局标签转移我们提出的布局标签转移，通过注意力为基础的结构元素匹配，作为一个自然的应用布局GMN。给定具有已知标签的源布局图像I1，目标是将标签转移到目标布局I2。图8.使用预训练的LayoutGMN与最大像素重叠匹配，从源图像I1到目标图像I2的元素级标签传输结果。LayoutGMN通过基于注意力的元素匹配预测正确的标签。建立元素对应的直接方法是通过I2中每个元素相对于所有元素的在I1.然而，该方案对两种布局内的元件位置高度敏感。此外，当两个布局图像具有不同的边界和结构时，布局的光栅对准（经由平移）对于公式化来说是不平凡的。另一方面，LayoutGMN对这种边界变化是鲁棒的，并且可以直接用于使用为每个元素级匹配提供注意力分数的内置注意力机制来具体来说，我们使用一个预训练的LayoutGMN，它有两个布局图，其中所有节点的语义编码都设置为一个向量。如图8所示，预训练的LayoutGMN能够找到正确的标签，尽管屏蔽了输入处的语义请注意，当语义信息在输入处被屏蔽时，这样的传输不能应用于任何两个布局。它受到I1和I2的弱/浮动对齐的限制，如图8所示。6. 结论、局限性和未来工作我们提出了第一个深度神经网络，以提供结构布局相似性的度量学习和布局元素之间的结构匹配。大量的实验表明，我们的指标最好的匹配人类的判断结构相似的平面图和UI设计，相比所有知名的基线。我们目前的学习框架的主要限制是对强监督的要求，这在一定程度上证明一个有趣的未来方向是将少量或主动学习与我们基于GMN的三元组网络相结合，例如，通过寻找方法来获得既信息丰富又多样化的训练三元组的小集合[24]。我们当前网络的另一个局限性是，它不学习层次图表示或结构匹配，这在处理大型图时是理想的。致谢。我们感谢匿名评论者的宝贵意见，以及AMT工作人员的反馈。这项工作得到了 NSERC 资助（611370）和Adobe礼物的部分支持。结构编码，精密度@k（%）k=1（↑）k=5（↑）k=10（↑）没有边缘3016.3911.3无箱位157.25.4无节点语义2411.28.411057引用[1] 奥伦·阿舒尔和里奥·沃尔夫。交互式场景生成中的对象属性和关系在IEEE计算机视觉国际会议论文集，第4561-4569页3[2] 托尔斯滕·布兰特德国报纸语料库注释者间协议。2000年知识工程与知识管理国际会议. 2[3] 托马斯M布鲁尔。高性能文档布局分析。在2003年文档图像理解技术研讨会论文集，第209-218页。2[4] Michael M Bronstein，Joan Bruna，Yann LeCun，ArthurSzlam，and Pierre Vandergheynst.几何深度学习：超越欧几里得数据。IEEE信号处理杂志，34（4）：18-42，2017年。2[5] 齐晨、齐武、唐锐、王玉涵、王帅、谭明奎。智能家居3D：仅从语言描述自动3D房屋设计。在IEEE/CVF计算机视觉和模式识别会议论文集，第12625-12634页，2020年。2[6] NirajRameshDayama ， KashyapTodi ， TaruSaarelainen，and Antti Oulasvirta.网格：交互式布局设计与整数编程 . 在 2020 年 CHI Conference on HumanFactors in Computing Systems的会议记录中，第12[7] Biplab Deka，Zifeng Huang，Chad Franzen，Joshua Hib-schman，Daniel Afergan，Yang Li，Jeffrey Nichols，and Ran- jitha Kumar.Rico：用于构建数据驱动设计应用程序的移动应用程序数据集。在第30届ACM用户界面软件和技术年会集，第845-854页，2017年。二四五六[8] 马修·费舍尔马诺利斯·萨瓦和帕特·汉拉汉使用图形核描述场景中的结构关系。ACM SIGGRAPH 2011论文，第1-12页。2011. 二，五，七[9] KareenFort，MaudEhrmann，andAdelineNazaren. 提出了命名实体标注的方法. 2009. 2[10] Huan Fu ， Bowen Cai ， Lin Gao ， Lingxiao Zhang ，Rongfei Jia ， Binqiang Zhao ， and Hao Zhang.3D-FRONT：3D家具客房布局和语义，2020年。1[11] 阿克赛迦底帕蒂尔，暗利便以利以谢，俄珥培烈，哈达亚威卜以罗。阅读：递归自动编码器的文档布局生成。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第544-545页，2020年。一二三八[12] Longteng Guo，Jing Liu，Jinhui Tang，Jiangwei Li，Wei Lo，and Hanqing Lu.图像字幕的语言词和视觉语义单位的对齐。在第27届ACM国际多媒体会议论文集，第765-773页，2019年。三，八[13] 埃拉德·霍弗和尼尔·艾伦使用三重网络的深度度量学习基于相似性的模式识别国际研讨会，第84-92页。施普林格，2015年。第三、四节[14] 乔治·赫里普萨克和亚当·威尔科克斯参考标准、判断者和比较对象：专家在评价中评估系统性能。 Journal of the American MedicalInformatics Association，9（1）：1-15，2002. 2[15] Ruizhen Hu ， Zeyu Huang ， Yuhan Tang ， Oliver vanKaick，Hao Zhang，and Hui Huang. Graph2Plan：学习从布局图生成平面图。ACM图形交易（TOG），2020年。一、二[16] 内森·赫斯特，威尔莫特·李，金·马里奥特。审查自动文档格式。第九届ACM文档工程研讨会论文集，第99-108页，2009年。2[17] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在IEEE计算机视觉和模式识别会议论文集，第1219-1228页，2018年。3[18] 兰加查尔·卡斯图里文件图像分析，第39卷。2[19] Nagma Khan，Ushasi Chaudhuri，Biplab Banerjee，andSub- hasis Chaudhuri.用于多标号vhr遥感场景识别的图卷积网络。神经计算，357：36-46，2019。3[20] Jin-Dong Kim，Tomoko Ohta，and Jun'ichi Tsujii. 从文献中挖掘生物医学事件的cor-pus标注BMC bioinformatics，9（1）：10，2008. 2[21] Thomas N Kipf和Max Welling。图卷积网络的半监督2017. 2[22] Yanir Kleiman ， Oliver van Kaick ， Olga Sorkine-Hornung，and Daniel Cohen-Or.细粒度形状相似性的形状编辑距离. ACM Transactions on Graphics（TOG），34（6）：1-11，2015。2[23] Ranjitha Kumar，Jerry O Talton，Salman Ahmad，andScott R Klemmer.Bricolage：基于实例的网页重定向设计。在SIGCHI计算机系统人为因素会议论文集，第2197-2206页，2011年。2[24] PriyadarshiniKumari ， RiteshGoru ， SiddharthaChaudhuri，and Subhasis Chaudhuri.主动度量学习的批量去相关在IJCAI-PRICAI，2020年。8[25] Jianan Li ， Tingfa Xu ， Jianming Zhang ， AaronHertzmann，and Jimei Yang. LayoutGAN：使用线框生成图形布局。在2019年国际学习代表会议上。一、二[26] Manyi Li ， Akshay Gadi Patil ， Kai Xu ， SiddharthaChaudhuri，Owais Khan，Ariel Shamir，Changhe Tu，Baoquan Chen ， Daniel Cohen-Or ， and Hao Zhang. 谷物：室内场景生成递归自动编码器.ACM Transactionson Graphics（TOG），38（2）：1-16，2019。1、8[27] Yujia Li，Chenjie Gu，Thomas Dullien，Oriol Vinyals，and Pushmeet Kohli.图匹配网络用于学习图结构对象的相似性。2019年，在ICML中。第1、3条[28] Yujia Li ， Daniel Tarlow ， Marc Brockschmidt ， andRichard Zemel.门控图序列神经网络2016. 第二、五条[29] Thomas F Liu，M

下载后可阅读完整内容，剩余1页未读，立即下载