没有合适的资源?快使用搜索试试~ 我知道了~
...INormRe-Center...96900UVStyle-Net:B-Reps的无监督少样本学习3D风格相似度度量0Peter Meltzer 1,3,Hooman Shayani 1,3,Amir Khasahmadi 1,Pradeep Kumar Jayaraman 2,Aditya Sanghi 1和Joseph Lambourne 101 Autodesk AI Lab,2 Autodesk Research,3 UCL0摘要0边界表示(B-Reps)是3D计算机辅助设计/制造(CAD/CAM)和工业设计中的行业标准,因其在表示风格细节方面的准确性而被广泛采用。然而,在3D风格研究中,它们一直被忽视。现有的3D风格度量通常在网格或点云上操作,并未考虑到最终用户的主观性,要么通过众包进行风格标签,要么通过手工制作的特征。我们提出了UVStyle-Net,一种用于B-Reps的风格相似度度量,它利用预训练(无监督)3D编码器中激活的二阶统计量中的风格信号,并通过少样本学习学习它们相对于主观最终用户的重要性。我们的方法与所有现有的数据驱动3D风格方法不同,因为它可以在完全无监督的环境中使用,这在公开可用的标记B-Rep数据集缺乏的情况下是可取的。更重要的是,少样本学习考虑了与风格相关的固有主观性。我们定量地展示了我们提出的0与网格和点云相比,B-Reps方法能够捕捉到更强的风格信号,尽管其计算效率明显更高。我们还展示了它能够生成相对于输入形状有意义的风格梯度,并且通过最终用户选择的仅有两个正面示例进行少样本学习就能显著改善风格度量。最后,我们在一个大型无标签的公共CAD模型数据集上展示了其有效性。源代码和数据可在github.com/AutodeskAILab/UVStyle-Net获取。01. 引言0B-Reps是工业设计的事实标准,也是在消费品和汽车行业中最广泛使用的表示方法,风格非常重要。B-Reps在紧凑、内存高效的表示中提供了无与伦比的可编辑性,它们不是离散/采样的(如网格/点云),而是提供了具有连续平滑表面/边缘曲线的精确边界。0预训练0B-Rep编码器(无监督)0风格信号0内容嵌入0B-Rep输入0查询最近邻0最终用户选择正面和/或负面示例进行少样本用户定义风格度量学习triu0图1:UV-StyleNet概述:对每个层进行规范化和提取激活的Gram矩阵。应用于每个层的权重定义了风格的含义。(a)使用统一的层权重w的前10个查询结果(b)使用基于用户选择示例的w�的前10个查询结果(正面示例为绿色,负面示例为红色)。在此示例中,w�≈[0, 0, 0, 1, 0,0, 0]�。放大以查看圆角/风格细节。96910图2:字体‘ViaodaLibre’中的小写字母示例。虽然‘j’和‘r’共享一些风格特征,但它们与‘c’、‘s’或‘z’并不明显相似,即字体类别为风格兼容性提供了一个真实性(由设计师感知)的基准,但对于风格本身只提供了一个较弱的标签。0有关B-Reps的简要介绍,请参见附录A。B-Rep风格相似度度量具有许多用途,例如找到与建筑物风格相符的建筑部件,或选择与制造商现有产品系列相匹配的汽车部件。此外,风格相似度度量的梯度可用于生成有用的可视化效果或修改输入的3D形状,如Gatys等人所述。[11]。几何风格本质上是主观的,并且在不同的对象类域中可能具有不同的含义,即风格和内容之间的边界不清晰。例如,在椅子设计的背景下,腿的数量可能被视为风格或内容,具体取决于特定的用例。因此,有效的几何风格度量必须适应最终用户对这些不同解释的需求。虽然现有方法使用手工制作的特征[24,023 ]或众包[ 21 , 25 , 28 , 26]来预定义和测量几何样式,我们提出了一种用户定义的少样本样式度量学习方法,通过二阶统计量(Gram矩阵)利用预训练的3D对象编码器中可用的样式信号范围。然后,通过选择一些用户对样式的定义示例(见图1)来学习每个层的Gram矩阵的相对重要性。尽管B-Reps在工业环境中被广泛使用,但公开可用的用于训练机器学习模型的B-Rep数据基本上是缺乏的 -特别是,没有现有的B-Rep数据集包含可靠的样式基准。为了克服这个挑战,我们对SolidLetters [ 16]进行了改进,改进了评估测试集中字体类别的样式一致性。然而,字体类别仍然只对样式提供了弱标签(见图2),因此我们提出了一种无监督的方法,并纯粹使用字体标签进行定量评估,以证明我们方法的设计选择。为了与现有的真实数据进行比较,我们还使用未标记的ABC数据集 [ 20]对CAD模型进行评估,并使用其手动标记的子集。本文的主要贡献如下:0•我们证明了2D图像样式文献中使用的二阶统计量(Gram矩阵)方法可以推广到(B-Rep)3D形状0•我们引入了一种通用的少样本学习方法,用于捕捉主观终端用户对3D样式的定义,并在B-Reps上展示了其有效性0•我们展示了使用B-Reps的UVStyle-Net架构在合成公共数据集(SolidLetters)和ABC的样式标记的小子集上相对于网格和点云的类似方法的定量效率和性能优势0•我们在ABC数据集上验证了我们的方法,没有样式或内容标签进行预训练,并展示了我们的少样本学习过程对于捕捉主观用户定义的样式相似度度量的有效性0总之,我们引入了一种用于3D实体的几何样式相似度度量,可以在完全无标签的任意对象类别的情况下使用,通过少样本学习仅给出少量示例来处理用户主观性。虽然我们的方法适用于所有3D输入类型,但我们在B-Reps上展示了我们方法的好处,无论是定量还是定性方面。02. 相关工作0几何特征学习。几何特征学习在欧几里得表示(例如多视图[32 ],投影[ 7 ],体积[ 38])和非欧几里得表示(例如点云[ 35 , 30 , 13 ]和网格[ 14, 10])方面取得了许多成功。有关几何特征学习的详细综述,请参阅[ 5 , 12 , 1]。然而,尽管B-Reps在工业和创意设计应用中广泛使用,但用于参数表示的几何特征学习仍然很少被探索。除了广泛使用之外,使用B-Reps作为3D几何表示还有许多优势。与点云或网格相比,B-Reps通常需要更少的内存(取决于模型的采样分辨率/细节),而且它们还提供了关于实体的更丰富信息,包括每个表面的精确边界和这些表面的拓扑结构。B-Reps相对于离散表示的优势在Jayaraman等人的研究中得到了证明[ 16],其中每个面在其参数域中均匀采样以形成一个规则网格,然后通过2DCNN传递。然后,将CNN面表示馈送到使用原始B-Rep的面邻接矩阵的图神经网络(GNN)中。几何样式相似度。现有的几何样式相似度学习方法通常在监督设置中进行训练,需要一组手工标记的三元组,其中一对被认为在样式上比另一对更接近[ 23 , 24 , 21 , 25 , 26 , 28]。为了考虑样式的主观性,通过众包方法对示例进行标记,从而得到了一种被广泛接受的样式定义。例如,Liu等人使用手工制作的特征(例如3. UVStyle-NetGl (x) = triu φl(x)φl(x)⊤(1)96920使用监督的三元组损失函数来学习家具兼容性的曲率直方图。Lun等人[24]采用类似的方法,首先将输入模型分割成子部分,独立计算几何特征。对于几何风格特征学习,Lim等人[21]和Pan等人[25]将3D网格投影到多个2D视图中,然后将其输入到三元组图像CNN中。Polania等人[28]采用类似的方法,将学习到的风格表示传递给GNN进行兼容性预测。将3D实体渲染为2D(即使有多个视图)存在问题,因为风格特征可能会丢失或被遮挡,并且在不对数据的方向做出假设的情况下选择最佳视图是非常困难的。Pan等人[26]通过直接从实体中进行曲率引导采样来解决这个问题,生成元素级风格特征,然后使用三元组网络将其聚合为全局风格表示。这些方法依赖于众包的手工标记风格三元组,存在两个问题:首先,在3D风格领域中只有有限的标记数据可用,没有标记的B-Rep数据。其次,更重要的是,风格的定义(一种固有的主观概念)是根据共识预先定义的,因此可能与最终用户的特定品味或应用不兼容。风格转移。与上述几何风格学习方法相反,风格转移文献主要采用了来自深度预训练图像分类器的一阶和二阶激活统计量来表示和量化风格。Gatys等人[11]表明,CNN的不同层中特征的共现有效地捕捉了不同抽象层次上的风格元素。在最细的层次中,特征最局部,由Gram矩阵给出的风格表示捕捉了颜色和纹理信息,而在网络的更深层次,Gram矩阵捕捉了更高层次的结构和模式,最终涉及语义内容。基于此,Huang等人[15]和Babaeizadeh等人[4]证明了一阶激活统计量(通道均值和方差)也可以通过自适应实例归一化(AdaIN)来捕捉风格元素。Karras等人[18]通过在不同深度对生成器的输入进行交换,说明了层深度与风格/内容权衡之间的关系。在较低的层次进行交换会产生低级纹理/颜色信息的图像插值,而在更深的层次进行交换则插值语义内容。许多其他工作利用和扩展了网络激活的一阶统计量,以改进风格转移结果,例如基于GAN的方法[19, 37,17];然而,这些方法依赖于生成器在生成输出图像时将激活与这些统计量对齐,主要关注输出图像的质量,而不是统计量在定义任意输入的显式风格距离度量方面的可解释性。为了明确地将单一风格和内容分离开来,[27]提出了一种自动编码器,该编码器采用在各个层次上交换输入的技术以及基于GAN的编码器和判别器,能够有效地分离结构和纹理。Azadi等人[3]提出了一种少样本学习方法,用于字体风格转移,其中使用堆叠的条件GAN生成目标风格中的未见字符,只需少量观察到的示例。然而,该方法仅适用于字体生成,并依赖于使用风格标签进行监督预训练。最近,Liu等人[22]展示了可以通过神经细分曲面方案从一个网格模型学习风格并将其转移到另一个网格模型。Cao等人[6]将[11]的二阶统计方法推广到3D点云,采用在ShapeNet[8]上进行分类预训练的Pointnet[29]编码器。继续2D风格转移的趋势,Segu等人[31]使用GAN方法扩展了这项工作,以产生具有更好内容和风格分离性的生成模型。目前还没有针对B-Reps的风格转移/无监督方法进行风格度量学习。0最近,Liu等人[22]展示了可以通过神经细分曲面方案从一个网格模型学习风格并将其转移到另一个网格模型。Cao等人[6]将[11]的二阶统计方法推广到3D点云,采用在ShapeNet[8]上进行分类预训练的Pointnet[29]编码器。继续2D风格转移的趋势,Segu等人[31]使用GAN方法扩展了这项工作,以产生具有更好内容和风格分离性的生成模型。目前还没有针对B-Reps的风格转移/无监督方法进行风格度量学习。0受基于图像的风格转移的启发,我们的方法使用预训练的B-Rep编码器的激活的二阶统计量来形成灵活的风格表示。对于编码器,我们使用UV-Net[16],它使用2D卷积处理固体的每个面,并使用2个GIN[36]层在面邻接图中传播每个面的投影池化特征。每个面由一个7维的10×10网格(图像)表示,其中包含每个UV样本的绝对3D位置(xyz),每个样本的法线以及指示每个样本是否位于修剪面内部或外部的掩码。我们使用UV-Net是因为它在B-Rep分类上具有SOTA性能,并且与传统的2DCNNs有相似之处。对于B-Rep模型x,我们提取每个层l的规范化、扁平化的Gram矩阵的上三角(模拟特征相关性[11]):0其中φ l ( x ) ∈ R d l × Nl是给定输入x的预训练分类器的规范化特征图,φ l ij ( x)是第l层中位置j处滤波器i的规范化激活,d l 和N l分别是第l层中不同滤波器和非屏蔽样本的数量,triu : R d l× d l → R02返回矩阵的扁平化上三角。对于第一个(特征)层,对应于不位于修剪面表面上的位置的样本被屏蔽,并相应地计算Gram矩阵。在GIN层中,每个面(即节点)有一个单独的向量,因此应用实例归一化[33]。Dstyle (a, b) =wl · Dl (a, b) ,(2)Dl (a, b) = 1 −Gl(a) · Gl(b)∥Gl(a)∥∥Gl(b)∥(3)Luser =wl · El(4)El = c1 ·�ti,tj∈Ti̸=jDl(ti, tj) − c2 ·�(t,t′)∈T ×T ′Dl(t, t′) (5)w⋆ = arg minwL�l=1wl · El(6)96930在计算Gram矩阵之前,将样本分组到面上。对于每个卷积层的特征(非屏蔽位置和法线)和激活,我们利用样本分组到面的特性(与网格和点云相比,这是B-Reps独有的),将UV样本重新居中(减去平均值)。这可以解释为每个面的实例归一化,而不需要除以标准差。面重新居中/实例归一化应用于从编码器提取的激活,但原始(未归一化)的激活被传递到编码器的下一层,因此在归一化策略方面对编码器架构没有要求。类似于2D图像的风格转移[11],对于一对B-Reps a 和 b,我们定义风格距离:0L是0其中0并且 w是一个权重向量,控制每个层对风格距离度量的贡献程度。我们与Gatys等人[11]不同之处在于使用余弦距离(而不是欧氏距离),这是由于简化的归一化和我们初步实验中观察到的改进。给定一组用户选择的目标风格示例(即正样本)T和一组用户选择的反例(即负样本)T',我们定义用户定义的损失:0L是0其中0是一个逐层能量项,c 1 和 c 2是归一化常数,为了防止平凡解,w 受到约束,使得� L l =1w l = 1 且 w �0。由于这些约束,我们注意到即使只有正例T(即 T ′ =�),E l也足够确定,在这种情况下可以省略第二项。然而,为了减少过拟合的风险,可以从剩余数据集中随机选择大量的负例。这在没有标记数据集的实际环境中非常有益,因为最终用户可能只选择了几个他们认为具有相同风格的正例。0我们找到了最优权重,以供最终用户使用0在上述约束条件下,我们将其代入方程(2)中得到最终的用户风格距离度量。我们观察到E_l对w是常数,因此方程(6)只是一个线性组合,它与超平面� L_l=1w_l=1相交,从而产生了一个二次可微的凸优化问题,我们使用顺序最小二乘二次规划(SLSQP)[34]来解决。Gram矩阵的直觉。在0个特征(输入)时,Gram矩阵模拟了采样点的位置和表面法线的分布,具有二阶统计特性。根据CNN的感受野,我们了解到第一层的Gram矩阵模拟了局部曲率的分布(即平坦/鞍/双曲),而下一层则捕捉了更高阶曲率的分布(即S形),然后进一步捕捉了这些低层特征的模式相关性,最终进入内容。04. 实验与结果0我们首先测试了一种类似于图像风格方法的方法是否能够捕捉到3D风格,并量化每个层中该信号的存在。我们通过梯度可视化评估了我们的风格与内容解耦方法,并展示了设计师可以利用模型反馈的实际用例。然后,我们测试了我们的风格度量在捕捉最终用户的主观要求方面的能力。最后,我们评估了我们完全无监督的编码器预训练方法在没有内容标签的情况下的有效性。对于数据,我们首先使用SolidLetters[16],它是一组来自各种字体的挤压字母的集合,包括内容(即字母类别)和风格(即字体类别)的标签(表1)。这是我们设计决策初步验证的一个很好的数据选择,因为3D形状中风格元素的2D性质简化了分析和调试,而这些3D字母的生成过程反映了最典型的CAD建模方法——绘制2D线框,然后挤压到3D并可能进行倒角/斜角处理。随后,我们使用真实世界的ABC数据集[20]的CAD模型。在所有SolidLetters的情况下,我们都在训练集上对分类器进行预训练以预测字母,并使用验证集进行最佳分类器的模型选择。根据Cohen等人[9]和Jayaraman等人[16]的方法,我们使用26个类别进行预训练(合并大写和小写示例)。SolidLetters中包含了倒角尺寸、挤压深度和角度的随机性,因此在我们所有的评估中使用的保留测试集中,我们重新生成了这些字母,以消除字体类别内的随机性源。0.81.096940重新生成字母以消除随机性源(挤压角度/量和倒角半径)在字体类别内,从而加强风格标签。有关更多细节,请参见附录E。预训练后,所有实验都使用保留的测试集进行。特别需要注意的是,测试字体的任何示例都不包含在训练/验证集中,并且字体风格标签仅用于评估,而不是在预训练期间使用。对于ABC的所有实验,我们使用完整数据集上的点云重建进行无监督预训练。0训练 验证 测试0示例 40,402 10,100 13,339 字母类别 26 26 26字体类别 1,664 1650 378 随机挤压/倒角 � � �0表1:SolidLetters数据集[16]的详细信息。测试集是重新生成的,去除了字体类别内的随机性源,以加强用于评估的相关风格标签。0为了与其他表示和编码器进行比较,我们使用MeshCNN[14]和Pointnet++[30]。我们使用Pointnet++而不是DGCNN[35]或Pointnet[29],因为我们借鉴了2D风格文献。DGCNN根据特征空间中的局部性而不是坐标空间聚合中间层激活,而Pointnet不执行分层池化,因此Pointnet++是[11]中使用的2DCNN方法在点云上的更接近的泛化。在网格和点云表示中,没有关于样本的局部分组的信息,因此不可能应用面向面的重新居中,因此我们在整个提取的激活中使用实例归一化。为了与SOTA进行比较,我们没有找到现有的无监督B-Rep风格学习方法,因此我们使用PSNet[6]的几何风格嵌入作为基线,不包括颜色输入,我们将其称为PSNet*。PSNet在点云上执行几何和颜色风格转换,而不使用表面法线。其架构允许我们在完全无监督的设置中使用点云重建对其编码器进行预训练,而不是像提出的那样进行内容分类。有关更多详细信息,请参见附录F。04.1. 测量风格信号0我们采用线性探针方法[2]来测量预训练网络每层Gram矩阵中的风格信号量。我们在SolidLetters测试集的一个子集上使用每层的Gram矩阵Gl进行线性分类器训练,使用真实的字体标签。我们选择了四种视觉上不同的字体,以增强字体标签与风格之间的兼容性(参见图2),并且由于测试集中的许多字体几乎包含几乎相同的变体。每个编码器仅使用字母进行预训练00_eats01_conv102_conv203_conv304_FC05_GIN06_GIN00_eats01_conv102_conv203_conv304_conv405_conv500_eats01_S1_1_102_S1_1_203_S1_1_304_S1_2_105_S1_2_206_S1_2_307_S1_3_108_S1_3_209_S1_3_3010_SA_1_1011_SA_1_2012_SA_1_3013_SA_2_1014_SA_2_2015_SA_2_3016_SA_3_1017_SA_3_2018_SA_3_3019_FC020_FC021_FC00_eats01_conv102_conv203_conv304_conv40UV-Net PSNet*PointNet++MeshCNN0图3:使用字体标签进行评估的每个编码器的线性探针分类准确率得分(预训练期间未使用字体标签)。这里使用的所有字体对于网络来说都是之前未见过的。随机基线:0.25。0Q 1 2 3 4 50UV-Net0Q 1 2 3 4 50PSNet*0Q 1 2 3 4 50Pointnet++0Q 1 2 3 4 50MeshCNN0图4:SolidLetters字体子集:每个字体的前L个查询的前5个查询,所有权重均均匀分布在第一个L上02层。红框表示结果与查询字体不匹配。0B-Rep0UV-Net0点云0网格0图5:可视化展示了UV-Net采样偏差优势,即‘L’的长表面的细节比‘Z’的简单平面更密集地采样(B-Rep中的每个面都采用均匀的10x10网格采样),使得在不均匀采样的点云中更容易区分不同的风格。0类作为标签,此评估中使用的四种测试字体以前未见过。由于Gram矩阵的维度非常大(即在某些情况下>2^19),但我们只有137个示例,因此我们使用L2正则化和5折交叉验证进行逻辑回归以防止过拟合。我们报告平均验证准确率。0图3显示了从四个预训练模型的每个层中提取的Gram矩阵的平均验证准确率。与随机基线0.25相比,我们0_feats2_conv23_conv30_feats2_conv23_conv30_feats5_SA1_2_210_SA2_1_10_feats1_conv12_conv296950Q 1 2 3 4 50UV-Net0Q 1 2 3 4 50PSNet*0Q 1 2 3 4 50PointNet++0Q 1 2 3 4 50MeshCNN0图6:SolidLetters字体子集:相同字母的前L个查询的前5个查询,其中l=0,l≈L02.红框表示结果与查询字体不匹配。0观察到从所有模型的所有层(包括特征)提取的信号中存在明显的风格迹象。对于UV-Net,我们看到最低层中有最多的风格信息,信号在网络中深入减少。这与我们的假设一致,即随着网络深度的增加,二阶激活统计从风格过渡到内容表示,如[11,18]中所示的2D图像。为了对我们的设计选择进行定性评估,我们对每个字体的一个示例执行前k个查询,将所有权重均匀分布在前L个02层。如图4所示,使用这种特定的风格定义,预训练的Pointnet++模型提供的样式特征表明另一种字体的'Z'与查询的'L'在风格上接近,而所有的UV-Net查询结果都与目标字体匹配,而MeshCNN只犯了一个不太明显的错误。PSNet*有最多的错误。我们推测这个结果可能部分是由于每种方法的采样策略。如图5所示,UV-Net为每个面采样一个固定大小的网格,因此大面(如'Z'的长对角线茎)对提取的样式特征的贡献较小,而在PSNet*和Pointnet++中,点云以均匀密度采样。因此,随着网络深度的增加,大的对角面对Pointnet++特征有更大的影响。缺乏CNN层次结构和表面法线输入可能解释了PSNet*与PointNet++相比性能较低。0图6显示了使用单层(l=0,l≈L2)的样式距离对相同字母'L'进行的前k个查询04,并且l≈L02)。支持我们上面的假设,我们发现在这种特定情况下,Pointnet++在较低层次上更好地匹配字体。在网络的第一层中,提取的特征将包含更多关于低级结构的信息,即凹凸不平而不是光滑的表面。有趣的是,对于l≤L2,MeshCNN在特征(l=0)上表现最差。我们推测这是由于MeshCNN特征中的旋转和尺度不变性,而0UV-Net/Pointnet++特征包含全局信息。最后,与PSNet*、PointNet++和MeshCNN的计算成本相比,我们观察到仅具有645K参数的UV-Net编码器在风格推断方面快23%、85%和96%,并且Gram矩阵所需的内存比固体少82%、94%和35%。详细信息请参见附录F。基于以上结果和计算成本,我们仅使用UV-Net编码器进行进一步实验。04.2.梯度可视化0在图7中,我们通过计算每个B-Rep x的成对样式距离度量来可视化我们提出的方法。0▽xyz = ∂Lstyl0∂xxyz∈RN0×3(7)0其中N0是网格大小(未遮罩的UV样本数),xyz是UV样本的绝对位置。为了便于解释,我们绘制了以黑线为中心的−k∙▽xyz向量,以指示应将UV样本点移动的方向,以更好地匹配对之间的风格,k是一个常数缩放因子,有助于可视化。0相同内容 不同风格 不同内容 不同风格0图7:使用均匀权重在前4层(包括特征)上计算D样式损失(方程(2))的梯度可视化,即w = [104,0,0,0]�。黑线显示−k∙▽xyz,即移动点以匹配对之间的风格的方向。0在图7(左)中,我们固定内容并比较不同的风格。xyz梯度表明左侧示例的样本应该向外移动以匹配右侧的方形风格,右侧示例的样本应该向内移动以匹配左侧的曲线。图7(右)证实了我们的方法能够将风格与内容分离开来,因为我们比较了不同的内容和不同的风格。左侧示例的梯度与(左)类似,确认了尽管与不同的内容示例进行比较,风格仍然匹配。04.3. 用户定义的风格度量的少样本学习0我们通过测量选定字体的每个示例的一系列正样本和负样本的均值Precision@10来评估我们用户定义的风格损失的少样本学习在完全看不见的测试集上的表现。我们在6种视觉上不同的字体上进行评估(见附录B)。Precision@10被计算为与目标字体匹配的前10个邻居的比例。对于基线,我们将其与均匀层权重(一个正样本和没有负样本示例)的Precision@10均值进行比较。出于计算原因,我们使用PCA将每个层的表示Gl的维度减小到min(dl,70)。如图2所示,字体名称仅提供了一个弱风格标签,因此我们更关注均值Precision@10得分的改进而不是绝对值。我们还将同一字体中的大写和小写视为不同的标签,以进一步加强相关标签,但也增加了任务的难度,因为类别数量增加到756个。正样本是随机从相同字体和大小写中抽取的,负样本是随机从所有剩余示例中抽取的。对于每个正样本和负样本的数量,我们进行20次试验(每次使用不同的正样本和负样本)。我们报告所有试验中所有正样本的均值Precision@10,即对于每个正样本和负样本的数量,查询和评估所选字体的每个示例,并重复此过程20次。050100No. of Negatives1054321No. of Positives0.310.49** 0.49**0.310.48** 0.50**0.310.49** 0.48**0.310.47*0.47*0.310.410.390.380.290.240.250.300.350.400.45050100No. of Negatives1054321No. of Positives0.941.27** 1.27**0.941.24** 1.25**0.941.22** 1.22**0.941.20** 1.21**0.951.13** 1.12**1.000.940.900.951.001.051.101.151.201.25UVStle-NetPSNet*QueryQ12345ABCDE0.000.020.100.160.160.170.000.040.050.050.060.060.000.160.170.180.180.180.000.230.260.270.270.280.000.150.180.240.250.29Q12345ABCDE0.003.275.405.585.626.060.004.464.534.594.615.130.005.846.517.067.117.190.0011.7719.9220.6020.9821.020.003.223.373.483.493.66Q12345ABCDE0.000.020.100.160.160.170.000.040.050.050.060.060.000.160.170.180.180.180.000.230.260.270.270.280.000.150.180.240.250.2996960对于基线,我们将其与使用均匀层权重(一个正样本和没有负样本示例)的Precision@10均值进行比较。出于计算原因,我们使用PCA将每个层的表示Gl的维度减小到min(dl,70)。如图2所示,字体名称仅提供了一个弱风格标签,因此我们更关注均值Precision@10得分的改进而不是绝对值。我们还将同一字体中的大写和小写视为不同的标签,以进一步加强相关标签,但也增加了任务的难度,因为类别数量增加到756个。正样本是随机从相同字体和大小写中抽取的,负样本是随机从所有剩余示例中抽取的。对于每个正样本和负样本的数量,我们进行20次试验(每次使用不同的正样本和负样本)。我们报告所有试验中所有正样本的均值Precision@10,即对于每个正样本和负样本的数量,查询和评估所选字体的每个示例,并重复此过程20次。0图8(左)显示了单个字体的结果,(右)显示了选择的字体的Precision@10均值增益(与基线的比值)(附录B中有更多结果)。对于所有正样本和负样本数量大于0的组合,我们观察到均匀加权基线上的Precision@10均值得分显著提高。此外,由于负样本是从剩余数据集中随机选择的,我们还确认仅提供正样本就足以根据最终用户的要求获得显著改进的风格度量。04.4. 无监督预训练0我们的方法相对于现有方法的优势在于可以在无监督设置中使用。这对于B-Reps尤为重要,因为没有公开可用的带有风格标签的B-Rep数据集。我们使用ABC数据集评估我们的方法,该数据集不包含内容或风格标签。对于UVStyle-Net/PSNet*编码器的预训练,我们使用自回归方法进行点云重建[16]。同样,我们使用PCA将风格表示Gl的维度减小到min(dl, 70)。0图9显示了仅使用最低的3层在风格嵌入空间中的一些前5个查询结果。对于PSNet*查询,我们使用欧氏距离,因为这是[6]中优化的度量。我们观察到UVStyle-Net在内容上具有更多变化的表面风格匹配,而在许多情况下,PSNet*匹配大致占据与查询相同空间区域的形状,即内容。例如,在A中,UVStyle-Net找到具有匹配平坦表面/角度的固体,而PSNet*找到许多查询中不存在的曲面,在C中,UVStyle-Net找到更多具有匹配曲面的固体,在E中,UVStyle-Net找到具有匹配刻痕风格的块(即使具有不同的0块大小或刻痕数量),而PSNet*则匹配没有刻痕风格的类似大小的块。附录C中提供了使用不同UVStyle-Net权重和PSNet*距离度量的相同查询的比较结果。0Vampiro One_lower(20次试验)0均值增益(6种字体)0图8:左:在给定一系列正样本和负样本示例的情况下,每个字体示例的均值Precision@10得分。右:选择的字体的均值Precision@10增益。1个正样本+ 0个负样本提供使用均匀权重的基线。* /**表示相对于基线的10%/ 5%统计显著改进。0图9:来自UVStyle-Net和PSNet*预训练(无监督)进行点云重建的ABC数据集的前5个查询结果。对于UVStyle-Net,w = [1,0,0,0,0] �。(我们建议放大以查看样式细节,如倒角/圆角。)05折交叉验证,使用L2正则化,并报告最佳参数的平均验证加权F1分数,总结在表2中,显示UVStyle-Net在所有子集上明显优于PSNet*。0评估我们的少样本用户定义的样式度量,图1显示了在优化用户选择的示例的样式损失后给定目标的最近邻查询。选择圆角实体作为正样本,选择斜角实体作为负样本,通过将最近邻的(a)推开,使其在内容上与目标非常接近但样式不匹配。我们在附录C中提供了更多结果。对于真实世界数据集的定量评估,我们使用ABC的子集,手动策划样式标签(详见附录D)。对于每个模型,我们对来自预训练编码器的提取的样式嵌入进行逻辑回归(将所有层的Grams连接在一起)。同样,我们使用完整的ABC数据集上的点云重建训练编码器。我们进行5折交叉验证,使用L2正则化,并报告最佳参数的平均验证加权F1分数,总结在表2中,显示UVStyle-Net在所有子集上明显优于PSNet*。4.5. Ablation0_feats 1_conv12_conv23_conv34_fc5_GIN1 6_GIN2 UV-Net0.00.10.20.3GramINormFaceRe-centeringUV-NetEmbedding101102103104Reduced Dimensions0.000.050.100.150.200.250_feats (21)1_conv1 (2,080)2_conv2 (8,256)3_conv3 (32,896)4_fc (3,2896)5_GIN1 (2,080)6_GIN2 (2,080)96970平面/电气 0.789 ± 0.034�� 0.746 ± 0.038 自由形式/管状0.839 ± 0.011�� 0.808 ± 0.023 角度/圆角 0.805 ± 0.010��0.777 ± 0.0200ABC子集UVStyle-Net PSNet*04.5. 剔除0表2:ABC手动标记样式子集的加权F1分数。��表示5%的统计显著性。0图10展示了使用完整的SolidLetters未见测试集进行人脸重新中心化和实例归一化的影响。采用线性探测方法,我们比较了每个层预测所有字体的平均分类准确率,使用5折交叉验证。虽然实例归一化在所有层上进行了测试,但由于每个人脸已经由单个向量表示,所以无法在第三个卷积层之后进行人脸重新中心化。较低层(不包括特征)中的显著较高分数证实了我们的假设,即样式转换深入到网络中的内容。我们还看到了使用实例归一化的经验性证明,特别是人脸重新中心化,在处理网格或点云时是不可能的。与UV-Net内容嵌入的比较表明,我们方法中提出的任何逐层样式表示(Gl)更适合捕捉样式信息。0图11展示了对层次样式表示(Gl)应用PCA的效果,以测试每个层次的样式作为变化源的显著性。同样,我们使用线性探测来量化样式信息。与我们的假设一致,最低层(l =0...3)在维度足够低时显示出最多的样式信息,从而表明字体样式信号是这些层中最重要的变化源。05. 结论和进一步工作0UVStyle-Net是一种针对B-Reps的3D样式相似度度量,通过基于用户选择的示例和无监督预训练编码器的少样本学习来满足终端用户对样式的主观定义。作为一种数据驱动的B-Reps样式度量,它不需要样式或内容标签,但可以适应终端用户的要求,我们的方法与所有现有方法都不同。使用SolidLetters字体标签进行评估,我们的结果证明了2D图像样式原理和假设在3D形状中的适用性,并量化了样式信息。0图10:在完整的SolidLetters测试集上进行线性探测得分,包括实例/面归一化和不包括实例/面归一化。虚线表示随机分类器基线。0图11:在完整的SolidLetters测试集上,随着维度减少,每个UV-Net层的线性探测得分。原始维度用括号表示,并用•标记。0我们的方法在网格和点云上相对于其他方法具有优势。特别是,我们确认了前几层3D编码器激活的二阶统计量包含风格信息作为最大的变异源。我们还展示了我们的方法生成有意义的风格梯度,并且通过面重新定位,利用了B-Reps独特的面边界信息,显著改善了风格度量。对于一系列3D字体和真实世界的CAD模型,我们证明了我们提出的用户定义风格的少样本学习方法在改善特定任务的风格度量方面是有效的,即使只有很少数量的正样本(和可选的负样本)。我们还展示了我们的方法在没有内容标签进行编码器预训练的真实世界ABC数据集上相对于现有SOTA方法的优势。我们的方法的一个局限性是当固体具有非常相似的内容时,可以通过更强的风格与内容的解耦来改进。我们假设其他无监督的编码器预训练方法可能会在网络激活中捕获更多的细节,从而改善非常相似内容的风格度量。我们还观察到当前的少样本学习公式往往将所有权重放在一个层上。对于未来的工作,我们建议研究少样本用户损失的正则化,并进一步研究用于比较特征分布的复杂距离度量,以及B-Rep风格转换的自然下一步。[25] Tse-Yu Pan, Yi-Zhu Dai, Wan-Lun Tsai, and Min-Chun Hu.Deep model style: Cross-class style compatibility for 3Dfurniture within a scene. In 2017 IEEE International Con-ference on Big Data (Big Data), volume 2018-Janua, page
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功