微机电系统（MEMS）参数估计的图神经网络

129 浏览量更新于2023-12-06 收藏 14.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0Array 14（2022）1001620文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。0在ScienceDirect上提供的内容列表0Array0期刊主页：www.elsevier.com/locate/array0用于微机电系统测试中参数估计的图神经网络�0Monika Elisabeth Heringhaus a，b，�，Alexander Buhmann a，Jürgen Müller a，André Zimmermann b，c0a Robert Bosch GmbH，德国Reutlingen 72762年b斯图加特大学微积分研究所（IFM），德国斯图加特70569年 cHahn-Schickard，德国斯图加特70569年0文章信息0关键词：MEMSMEMS测试图神经网络图表示0摘要0微机电系统（MEMS）在包括车辆安全和消费类电子产品在内的广泛应用中具有重要意义。在对这些设备进行测试时，记录了包含各种参数的大型异构数据集。为了替代昂贵的测量，并了解所测参数之间的关系，研究了图神经网络（GNNs）。因此，探讨了在图结构上工作是否能够提高对MEMS最终模块级测试参数的推断性能，与通过表格数据进行分析的标准机器学习方法相比，图结构和学习算法如何促进整体性能。为了评估这一点，在一项实证研究中建立了所获测试数据的不同图表示。在这些基础上，训练并比较了四种不同的最先进的GNN架构，用于MEMS陀螺仪的原始灵敏度预测任务。虽然GNNs在完整数据集上与轻量级梯度提升机、神经网络和多变量自适应回归样条模型表现相当，但在存在稀疏数据的情况下，GNNs在整体均方根误差（RMSE）方面优于基线方法，并在训练与验证期间观察到的相似稀疏率的数据上取得了明显的改进。01. 引言0对微机电系统（MEMS）进行彻底测试对于保证产品的高质量至关重要，不仅适用于安全关键应用，也适用于消费类电子产品。然而，MEMS设备的测试程序严重影响了传感器的总体成本。特别是对于需要长时间消耗的高温度坡度或物理刺激的测量。此外，由于系统的高复杂性、对各种物理刺激的敏感性以及制造过程的广泛多样性，意外测试结果的根本原因分析（RCA）尤其具有挑战性。因此，利用所有可用的知识和信息来减少测试成本并替代昂贵的最终测试测量，同时保留可审计性是非常有利的。为此目的可利用的信息来自于多个制造和测试阶段，从工艺数据和在线测试记录开始。它还包括晶圆级测试（WLT）的结果，在晶圆级测试中，晶圆通过晶圆探针进行电气接触0� 本研究未从公共部门、商业部门或非营利部门的资助机构获得任何特定资助。� 通讯作者：德国Reutlingen72762年罗伯特∙博世有限公司。电子邮件地址：Monika.Heringhaus@de.bosch.com（M.E. Heringhaus）。0以排序出故障芯片。与特定应用集成电路（ASICs）和封装集成后，进行静态和动态的最终模块级测试（FT）以进行特性和校准。关于如何用更快的间接测试取代耗时和因此昂贵的测试，或者是否可以用数据驱动模型估计感兴趣的参数已经进行了大量研究[2-4]。然而，记录数据的异质性对数据分析构成了挑战。在汽车应用的最终测试期间，通常记录所有相关参数的完整数据集，但对于消费品来说，故意减少测量点并非一定如此，因为这是积极的目标。因此，间接测试的挑战在于使用低成本的测量来推断更昂贵的参数。晶圆级测试数据可能包含缺失值，特别是在过程信息稀缺的情况下，并且在线测量通常仅适用于部分晶圆。此外，后者仅在分配给晶圆上的极少数测试结构上进行测量。不是MEMS特有的，但是0https://doi.org/10.1016/j.array.2022.1001622021年9月23日收到；2022年1月24日修订后收到；2022年4月1日接受2apparametric regression model [6]. It is for example used for electricalcalibration by determining the sensitivity of a device from electricmeasurements or other indirect testing approaches [2,16,17]. Further,MARS is used for the prediction of performance parameters of ana-log circuits for fault detection during production testing [18]. Othersspecifically focus on the identification of test-induced defects with anunsupervised learning method called density-based spatial clustering ofapplications with noise (DBSCAN) [19]. By combining several regres-sion models, El Badawi et al. [4] demonstrated the use of ensemble-learning methods to the prediction of performance parameters fromlow-cost production test data of radio-frequency circuits, comparingboosting, bagging, and stacking approaches built from MARS models,multiple linear regression models, and support vector machines. Ellouzet al. [20] used neural networks for estimating RF parameters fromlow frequency measurements at WLT stage. Addressing the challenge offeature selection for indirect testing, in a conceptual study on simula-tion data Barragan et al. [3] used a graph representation for analyzingcausal dependencies among test parameters by investigating Markovblankets in causal Bayesian networks, where the features under consid-eration represent parent nodes of the target parameter. However, eventhough indirect testing is an active research field, none of the previ-ously presented approaches takes advantage of the relations betweendies, wafers, and parameters measured together with further processinformation.0Array 14 (2022) 1001620M.E. Heringhaus等0一般生产数据中典型的缺失测量是由于故障或停机。相反，在某些生产阶段可能会临时获取额外的参数，例如增加对特定行为或故障模式的理解。在生产期间未进行的实验室测量以及模拟结果可能进一步揭示参数之间的额外关系。此外，测量设备、不同的测量配方、站点编号和事件标签被分配给某些测量。0数据来源和结构的多样性导致高度异质-0异质数据集具有不同的缺失比率和不同的参数缺失模式。对于后者，可以区分参数是否随机缺失（完全）以及参数的缺失原因本身是否包含信息[5]，例如当FT测量由于先前测试中的故障而缺失时。0基于物理的模型，即使能够紧密模拟相互作用-0一个设备内的参数之间的相互作用，无法应对过程和测量设备的影响。然而，对这些数据集进行基于数据的分析是具有挑战性的，因为大多数机器学习（ML）方法无法处理缺失特征或分配给特定实例的附加信息。此外，标准的ML架构不考虑问题的固有结构，因此忽略了由参数之间的分层结构和关系提供的潜在丰富信息。一种常见的方法是通过在晶圆上进行插值或应用其他插补策略来推断缺失信息，尝试通过k最近邻方法、概率模型甚至生成对抗网络（GANs）找到合理的替代品。另一种可能性是应用本身使用均值插补来处理缺失数据的学习算法，例如多元自适应回归样条（MARS）[6,7]或分类和回归树（CART），一种决策树算法[5]，甚至构建一个基于可用其他特征估计缺失值的回归模型。由于其他特征可能也包含缺失值，通常使用CART来构建这样的插补模型[5]。多重插补方法进一步考虑上述插补策略引入的不确定性[5,8]。常见插补技术的更广泛概述见[8,9]和[10]。0标准表格格式，由图形或信息网络提供。基于图的深度学习方法旨在处理这种不规则的非欧几里德数据，图神经网络（GNN）已被证明在各种应用领域中是有用的，其中数据可以用实例之间的关系表示[11-15]。例如，在MEMS制造中，晶圆上相邻的芯片共享某些属性，例如由于晶圆上的缓变参数（如外延层厚度）而产生的。可以假设将结构信息包含到学习问题中会提高预测性能。此外，以图的形式表述可以明确定义两个实体之间不存在的连接，这对于RCA可能是有益的。然而，目前尚不清楚如何最佳构建FT、WLT和在制测量之间的图，以及哪种GNN架构适用于FT参数推断的任务。因此，随后将依次讨论以下问题：0另一种表示形式，不强制将数据转换为0关于基于原始灵敏度测量的预测误差的方法？0•（性能）：GNN的使用是否优于基准方法0对整体性能的贡献？什么图结构和GNN算法最适合这个任务？0•（消融）：图结构和学习算法如何共同贡献0当除了数据结构之外添加了其他信息时？0•（附加信息）：性能如何改变0如何在MEMS制造和测试的背景下利用GNN，其中稀疏数据的处理以及内联信息的整合对于参数估计和根本原因分析具有高度的实际意义，并评估了将其作为基于图的问题处理的实际影响。0因此，本文的目标是提出并演示0MEMS和集成电路（IC）测试中的预测建模以及制造和测试中基于图的表示学习的相关工作。第3节概述了一般图结构数据上的学习以及考虑的GNN架构。在第4节中，具体说明了FT期间灵敏度估计的使用案例和实验设置。第5节描述了结果，然后在第6节中进行讨论。第7节提供了结论。0本文的其余部分组织如下。第2节包含02.1. MEMS和IC制造和测试中基于数据的预测建模02. 相关工作0数据驱动预测建模中的常见算法02.2. 制造业和测试中的基于图形的学习0总的来说，制造业为0基于图形的方法。组件由子组件组装而成，可以被表示为图中的实体，也可以被表示为单个的过程阶段。Weise等人 [21]给出了关于图形在制造业中潜在应用的概述，重点放在过程和装配规划上。从图论中转移方法3ℎ(𝑘)𝑣𝑖 = 𝜎( ∑𝑣𝑗∈𝑣𝑖0阵列14 (2022) 1001620M.E. Heringhaus等人0到制造问题，他们确定了图形算法的几个应用领域，从路径查找到确定最佳工艺步骤顺序，再到中心性分析以确定更频繁使用或更改的对象，以及用于检测子装配的聚类分析。Huang等人 [22]展示了使用语义使制造过程中记录的数据、专家知识和行业标准的结合的具体示例。他们提出了一个基于本体的长短期记忆（LSTM）架构，旨在从记录的时间序列中识别故障。同时，为了预测故障，Kang [23]将GNN应用于包含各种工艺参数、在线测量和检测结果的不完整生产数据。遵循Gilmer等人 [24]的方法，他们制定了一个图分类任务，其中每个产品都由一个单独的图表示，即预测不是针对单个节点，而是针对独立的图。尽管与标准的插补技术相比，GNN的性能优越，但对于估计MEMS器件的FT参数的任务，这种方法并不适用，因为测试结构上的间歇性过程测量阻止了在不应用插补技术的情况下为每个晶元构建单独的图。在将Kang的方法转移到MEMS用例的情况下，因此每个产品的一个图将对应于为每个晶片设置一个图。这将再次需要一个包含数百个晶片的数据集，以便训练GNN，这在实践中是不合理的。另一项解决GNN中数据集中缺失值问题的工作，即使不是专门针对制造数据，也是由You等人 [25]提出的。在由实例和相应特征构成的二部图中，观察到的值被用作边属性，边连接实例和特征。特征插补被视为边特征上的回归任务。在设备健康监测的背景下，Narwariya等人 [26]使用基于传感器子组的多变量时间序列上的门控GNN估计剩余寿命。图结构源自领域知识，然而，一个问题是，如何制定图的不同方式会影响模型的性能。作者认为，从领域知识中选择的图结构可能不是最能代表系统内部相互依赖关系的。对于在制造数据上运行的GNN，另一个需求是整合迄今未见的设备或设备。因此，Ringsquandl等人 [27]将嵌入技术应用于为制造监控系统建立的知识图，旨在通过推断基于相似性度量的关系来添加新实体。0尽管关于将GNN应用于图形的研究0制造和测试环境中的结构化数据显示了图形表述在性能和可解释性方面的几个优点，但图形学习方法如何应用于MEMS测试中的测试时间缩短问题，以及这个任务是否也能从基于图形的学习方法中获益，这仍然是一个悬而未决的问题。特别是，如何从高度异构的数据源中导出实际的图结构，选择在图上操作的学习算法，以及缺失参数的比率如何影响基于GNN的预测，与基准方法相比。03.在图结构化数据上学习0一般来说，图由一组顶点�（也称为节点）定义0或实体，以及一组边�，如�=（�，�）。存储节点�和�∈�通过边��=（��，��）∈�连接的信息存储在邻接矩∈�|（��，��）∈�}定义了节点��的邻域。在带属性的图中，特征可以与节点和边关联。所有节点都是相同类型的，即共享相同的特征，则称图为同质图，并且0可以定义一个节点特征矩阵�∈R�×�，其中分配给节点�的特征向量��∈R�。此外，在同质图中可能存在一个边特征矩阵��∈R�×�，其中分配给边��,��∈R�的特征向量包含有关0边的类型或权重。在异构图中，也称为异构信息网络（HIN）[28]，至少存在两种不同类型的节点和具有每种类型的不同特征的边。这样的异构图被公式化为�=（�，�，�，�）,其中�是节点集，�是多关系边集，��×�×�，�是关系类型集，�是属性类型集。0众所周知，有许多图论中的度量0用于描述和比较图的特征，包括节点度、聚类系数和中心性[29-31]。在下一节中描述的GNN的机制缺失的情况下，图分析依赖于表征图结构的这些度量来执行基于标准ML方法的基于图的推理[32]。0另一种关系信息的表示是知识0图。特别是对于具有大量实体类型和关系的数据集，建立通过关系连接的两个实体的三元组是常见的[33]。然而，在知识图中操作数值属性的学习方法很少[34,35]。由于知识图可以重新定义为上述图模式，并且大多数常见的GNN方法在后者上运行，因此本文不再考虑知识图及其特定的学习方法。0在图上操作的学习算法必须设计为0这样一来，它们要么是排列不变的，要么是等变的[32]。用于网格数据的广泛使用的卷积神经网络（CNNs）的核只适用于固定网格，不符合这一要求。因此，为了利用学习过程中所有可用的信息，即图中节点的位置，其局部图邻域以及与实例和关系相关的附加特征，GNN已经建立。03.1.图神经网络0GNN的工作原理是信息的聚合0从图的局部邻域中获取每个节点的信息，使用图结构作为计算路径来更新节点特征、边特征或两者都朝向目标特征向量，该特征向量在整个图上或节点或边级别上定义，分别为[24,32,36,37]。对GNN进行常见分类的一种方式是在谱和空间方法之间进行区分。类似于CNN的工作原理，谱GNN方法使用由图拉普拉斯的多项式定义的图谱域中的卷积滤波器的等价性[36,38,39]。图基学习任务中的一个常见基线是一种称为图卷积网络（GCN）的变体[40]，它线性近似滤波器。第�层的所有节点的隐藏状态通过0�（�）=�（��12�� 12�（�−1）�（�）），（1）0其中 � ( � ) 代表可学习的权重矩阵，� ( � )是激活函数。将图的邻接矩阵添加到单位矩阵作为 � � = � + � ， � � 与其度矩阵 � �结合成带有自连接的归一化邻接矩阵。应用对称归一化聚合以避免在具有广泛节点度的图上训练过程中可能出现的数值不稳定性[ 32 , 40]。然而，尽管可以抵消过拟合的风险，这种自环更新阻止了对所考虑节点的信息和邻近节点信息的区分[ 32]。GCNs也可以被重新表述为空间方法，其中通过均值池化聚合节点邻域的特征和所考虑节点的特征[ 32 , 39 ]：0� � � � � � ( � ) � ( � −1) � � )，(2)4ℎ(𝑘)𝑣𝑖 = 𝜎(∑𝑟∈∑𝑣𝑗∈ 𝑟𝑣𝑖ℎ(𝑘)𝑣𝑖 = 𝜎 𝑃𝜏𝑣𝑖⊕∀𝑣𝑗∈𝑣𝑖(𝑆𝑜𝑓𝑡𝑚𝑎𝑥∀𝑣𝑗∈𝑁𝑣𝑖(∥𝑡∈[1,𝑇 ]ℎ𝑒𝑎𝑑(𝑡)𝐴𝑇 𝑇 (𝑣𝑗, 𝑒, 𝑣𝑖))⋅∥𝑡∈[1,𝑇 ]ℎ𝑒𝑎𝑑(𝑡)𝑀𝑆𝐺(𝑣𝑗, 𝑒, 𝑣𝑖))+ ℎ(𝑘−1)𝑣𝑖.(5)0Array 14 (2022) 1001620M.E. Heringhaus等0图1. 实体方案。0其中 � � � � �0| � �� || � �� | ，其中 � � � 代表节点 � � 的所有邻居。0关系GCNs（RGCNs）通过为具有不同边类型的邻居节点分配单独的权重矩阵来扩展GCNs到带有标记边的图[ 41 ]：0� � � ,� � ( � ) � � ( � −1) � � + � ( � ) 0 � ( � −1) � � )，(3)0� � 和 � 0 代表训练期间调整的权重矩阵，� � �,�是一个可选的可训练常数。调整注意机制，已经证明对标准NNs有优势[ 42]，将图的注意网络（GAT）引入到节点特征的聚合中，计算每个节点的邻居节点 �� 对节点 � � 的重要性，以注意系数 � ( � � � � , � � � � )的形式进行。另外，还应用了非线性激活函数，并对所有邻居进行了归一化。得到的注意分数取代了GCNs的平均聚合[ 43]。GNN的第三个原则是神经消息传递方案，其中包括卷积和注意力GNN作为特例[ 44]。在可选的预处理步骤之后，初始节点和边特征可以通过网络嵌入进行转换，从所有节点和边的邻域迭代地聚合和组合信息。因此，必须设置一个消息传递函数 �( � � � , � � � ) ，从邻近节点或边收集信息。此外，还需要定义一个更新或组合函数，它根据聚合的信息以及自身实例或关系的特征来更新节点和/或边的隐藏状态。聚合函数可能只是对特征进行平均，但也可以由循环神经网络单元[ 45]或其他类型的NNs[ 32 , 39]提供。组合函数也有类似的多样性，可以实现为非线性激活函数、加权和或其他形式，只要函数是排列不变的并且对输入节点的数量不变[ 24 , 32 , 46 , 47]。在一般形式上，消息传递方案可以被形式化为：0� � � = � ( � � � , ⊕ � � ∈ � �� ( � � � , � � � ) )，(4)0其中 ⊕ 表示一个排列不变的操作[ 44 ]。 �代表随后应用的聚合和组合函数评估的迭代次数定义了GNN中的层数。进行的迭代次数越多，来自远程节点的信息就传播到感兴趣的节点。然而，已经表明，使用太多层往往会导致过拟合，因此在实践中迭代次数通常限制在两到三层[ 48 , 49]。最后一步是读取感兴趣的特征向量。异构图变压器（HGT）将消息传递方案与异构图的注意机制相结合0图隐式学习了对于特定任务哪些元路径是相关的[37]。第 � 层中节点 � �的隐藏状态为：0在 � 注意力头 �� 和消息头 �� 中，使用线性投影将节点类型 � � �的特定分布映射到节点 � �。对连接的注意力头应用softmax。所有相邻节点的消息头也被连接起来。� � ��将聚合信息转换回 � �的节点类型的分布。最后，将前一层的潜在节点向量添加到节点 � �的更新中。有关异质网络表示学习的更多细节，读者可参考Yang等人[50]和Bronstein等人[44]。04. GNN对灵敏度估计的案例研究0作为概念验证的用例，选择了从内联、WLT和FT数据中确定惯性测量单元（IMU）中MEMS陀螺仪一个轴的原始灵敏度。在图1的关系图中，表示了所涉及的不同实体类型及它们之间的关系，这作为图构建的起点。对于评估考虑了37个具有已知最终模块测试的芯片灵敏度的MEMS传感器晶圆。为了允许GNN与不基于图的方法进行比较，只使用了通过了所有测试的完全测量的芯片。数据集包含14个FT、6个WLT和6个内联参数，包括驱动和检测幅度、相位测量、品质因子、修剪参数、外延和氧化层厚度等。此外，还包括了晶圆在晶圆上的位置、测量设备和工艺工具。构建的图中所选的所有参数作为特征都是低成本参数，不需要耗时的加热或机械刺激。04.1. 实验程序0为了简化模型，评估案例研究并限制在寻找最适合的图变体、封装、ASIC和工艺信息期间的计算工作量，这些信息被忽略。另外，在第一步中，特征集被减少到由光梯度提升机（LightGBM）[51]的最高重要性分数选择的五个WLT和FT参数，作为基线。在这些简化的图上，比较了四种GNN架构GCN、GAT、RGCN和HGT。然后通过向图结构添加补充信息，并调查改变GNN的各种超参数的影响，进一步评估了最佳表现的图变体和GNN架构。50数组14（2022）1001620M.E. Heringhaus等。0图2。异质图的示意图，包括晶圆、芯片和不同的测量参数。案例研究的目标是利用有关测量参数以及晶圆之间的邻域信息（这里表示为圆圈）来确定晶圆的原始灵敏度（表示为方块）。芯片之间的关系被建模为有向边。在左侧的V0中不存在芯片之间的连接，突出显示了晶圆之间的连接，而在右侧的V2中，芯片与同一晶圆上的相邻芯片以及其他晶圆上相似位置的芯片相连。因此，对于V2，突出显示了芯片之间的连接。0表1 不同芯片间连接的图变体。0V0 芯片之间没有连接0V1 仅在同一晶圆上的相邻晶片之间的连接 � �� = 60V2 相邻晶圆上相邻晶片之间的连接，以及在其他晶圆上相似位置上的连接 V2A � �� = 6, � �� = 6 V2B � �� = 3, � �� = 1 V2C对来自训练集的5个随机选择的晶圆0V3 相邻晶圆上相邻晶片之间的连接，以及在其他晶圆上相似位置上的连接；相同位置和相邻位置上的不同边类型 V3A � �� = 6, � �� = 6 V3C � �� = 6, � �� = 1 对来自训练集的5个随机选择的晶圆0然后将两个表现最佳的GNN模型与MARS模型、LightGBM和标准深度神经网络（DNN）进行比较，并在稀疏数据集上评估模型的性能。对于这个比较，所有模型都是在完整的训练集上训练的，并在不同稀疏率的验证集上进行评估。对于缺失比率为0.2，每种方法应用了20种不同的初始化并进行了比较。此外，对于RGCN和HGT，训练也是在类似的稀疏率上进行的。接下来，首先描述图的构建，然后描述学习方法的应用。04.1.1. 图结构设计所有构建的图都是有向无环图。一般的设置是转导式的，即与目标值相反，在训练期间完整图的结构是已知的。为了避免信息泄漏，在所有实验中，只定义了训练集内晶片之间的边，以及从训练集到测试集和验证集的边，但测试集和验证集内的晶片没有连接。此外，没有边传递信息从测试集和验证集到训练集。在图的初始变体 V0中提供了可视化，其中突出显示了集合之间的边。由于所选择的用例不包含随时间变化的参数，所有图都是静态的。学习任务被规定为对节点级别的监督回归，因为目标是估计每个晶片的连续目标参数，而图级别的预测不适合内联参数、测量设备和类似结构化信息的集成，正如在相关工作的上下文中已经讨论过的那样。对于构建的同质和异质图变体进行了比较。对于异质图的构建，晶片、晶粒和每个参数类型，即检测幅度、频率分割等，被定义为单独的节点类型，其边连接到相应的测量参数。测量值被设置为相关参数类型节点的节点特征，而随机值被分配给晶片和晶粒节点。设置图的原因是不将所有测量的参数连接到晶粒节点特征向量中，因为在这种情况下，缺失的特征再次必须被填充。尽管这可以通过嵌入或通过向节点特征向量添加额外条目指示是否已测量某个参数来处理，但这样做会丢失图结构的优势，因为这样的过程也可以用作标准ML方法的预处理步骤。在同质图变体中，节点类型被编码为1-of-K方案并连接到节点特征向量中。为了在图中建立晶片在晶圆上的邻居关系，有几种策略；在实验中应用的策略总结在表1中。除了根本不建立晶片之间的任何连接（图变体V0，左图2），最直观的方法是建立晶片与其在晶圆上的下一个邻居之间的边，以下简称为图变体A1。在A2中，如右图2中所示，晶片还与不同晶圆但相似位置的晶片相连。测试了三种情况，变化了在同一晶圆上的晶片之间和在不同晶圆上的晶片之间的连接数。为了区分连接到另一个晶圆上相同位置和相邻位置的连接，在A3中，基于连接的晶片是否位于完全相同的位置或相邻位置，将 dieOnDifferentWafer 关系分为两种不同的边类型0被定义为单独的节点类型，其边连接到相应的晶片，而晶片再连接到其关联的测量参数。测量值被设置为相关参数类型节点的节点特征，而随机值被分配给晶片和晶粒节点。设置图的原因是不将所有测量的参数连接到晶粒节点特征向量中，因为在这种情况下，缺失的特征再次必须被填充。尽管这可以通过嵌入或通过向节点特征向量添加额外条目指示是否已测量某个参数来处理，但这样做会丢失图结构的优势，因为这样的过程也可以用作标准ML方法的预处理步骤。在同质图变体中，节点类型被编码为1-of-K方案并连接到节点特征向量中。为了在图中建立晶片在晶圆上的邻居关系，有几种策略；在实验中应用的策略总结在表1中。除了根本不建立晶片之间的任何连接（图变体V0，左图2），最直观的方法是建立晶片与其在晶圆上的下一个邻居之间的边，以下简称为图变体A1。在A2中，如右图2中所示，晶片还与不同晶圆但相似位置的晶片相连。测试了三种情况，变化了在同一晶圆上的晶片之间和在不同晶圆上的晶片之间的连接数。为了区分连接到另一个晶圆上相同位置和相邻位置的连接，在A3中，基于连接的晶片是否位于完全相同的位置或相邻位置，将 dieOnDifferentWafer 关系分为两种不同的边类型60Array 14 (2022) 1001620M.E. Heringhaus等人0表2 最佳GNN变体和基准方法在不同验证集稀疏率下与完整训练集的比较。朴素RMSE为1。0RMSE（标准化结果）0MARS Light GBM Light GBM Light GBM DNN RGCN HGT 全局朴素晶片朴素线性线性0训练集 0.2932 0.2384 0.2384 0.2384 0.3047 0.3080 0.2734 测试集 0.3253 0.3344 0.3344 0.3344 0.3736 0.3698 0.3127 验证集 0.3269 0.3347 0.33470.3347 0.3493 0.3527 0.3006 10%缺失率 119.9 0.4753 0.4063 0.5063 0.5286 0.3976 0.4614 20%缺失率 174.9 0.5805 0.4818 0.6361 0.6361 0.45810.5611 30%缺失率 217.0 0.6546 0.5310 0.7380 0.7089 0.5233 0.6430 40%缺失率 250.5 0.7503 0.5608 0.7860 0.7783 0.6076 0.72340表3 最佳GNN变体和基准方法在不同验证集缺失率下的最大误差比较。0最大误差（标准化结果）0MARS Light GBM Light GBM Light GBM DNN RGCN HGT 全局朴素晶片朴素线性线性0训练集 1.075 0.8846 0.8846 0.8846 1.563 1.467 1.119 测试集 0.3253 0.3344 0.3344 0.3344 0.3344 0.3698 0.3127 验证集 1.219 1.166 1.166 1.166 1.7961.718 1.115 10%缺失率 408.6 3.778 2.762 3.840 4.219 1.968 3.251 20%缺失率 408.9 4.175 4.041 4.630 3.565 2.277 3.529 30%缺失率 409.1 3.945 3.8824.052 3.593 2.855 4.006 40%缺失率 409.2 4.203 4.380 4.818 4.643 4.123 3.9950位置。在所有变体中，从训练晶片到测试和验证晶片定义了有向边，但在相反方向上没有。平均中心系数、节点度以及它们在晶片、晶粒和测量参数上的变化见附录A的表4。0找到的最佳图设计是通过额外的位置增强的0额外信息，测量设备和在线数据。对位置编码和额外信息的补充进行了各种组合和变体的测试。详细描述请参见附录B。04.1.2. 学习方法的应用0在所有实验中，数据集都是以晶片为单位分割的，分配015个训练晶片，11个测试晶片，并保留11个晶片用于验证。GNN是使用DeepGraph Library [52]和机器学习框架PyTorch[53]构建的。所有GNN模型都有两层，最多训练500个时期并进行早停。梯度范数被剪切为0.9，Adam与分离的权重衰减[54]被用作随机优化器。HGT使用平均运算符作为交叉约简器。测量参数以及目标灵敏度在训练样本上被标准化为零均值和单位方差，用于训练过程和报告错误指标。贝叶斯优化（BO）被应用于通过Sobol生成策略[55]在30次试验中训练75个时期的模型，以找到每个图变体和GNN方法的最佳图结构。附录A的表5包含了不同架构的超参数搜索空间。为了比较额外信息和其他超参数的影响，如层数和交叉约简器函数，保留了BO评估过程中评估的最佳参数组合。0一个MARS模型，一个标准的全连接NN，和一个Light GBM0使用梯度提升决策树（GBDT）作为基准的基线。NN有3层，其超参数通过BO搜索确定。对于LightGBM的交叉验证网格搜索，其学习率在0.003、0.007和0.01之间变化，最大深度为10、20、25和30，保留Huber损失作为目标和1000个估计器。0为了评估在不完整数据集上的性能，RGCN0和HGT找到的最佳超参数组合应用于完整数据集，以及10％、20％、30％的数据集中0和每个特征的40%被擦除相应节点。RGCN和HGT的训练既在完整数据集上进行，也在类似于评估期间使用的稀疏率的训练集上进行。LightGBM和NN使用了三种不同的插补技术，分别是全局天真插补，其中缺失参数被特征的全局均值替换（对于正态分布的参数）或者用相应的中位数替换（对于其他参数），以及基于晶圆的天真插补，以及对各个晶圆进行线性插值。MARS模型应用于稀疏数据集时没有额外的插补，因为该模型通过均值插补固有地处理缺失值。05. 结果05.1. 性能0MARS、Light GBM、NN、RGCN和HGT在完整数据集上训练的性能没有太大差异0在完整训练集上的表现在表2中报告，包括完整的训练、测试和验证集，以及验证期间不同的缺失率。应用于最佳性能的图变体V2B以及位置信息（AddInfA，见附录B）的HGT在验证集上的均方根误差最低，为0.3006，而MARS为0.3269，LightGBM为0.3347，RGCN为0.3527。与此相反，RGCN在图变体V3A上操作时在稀疏数据上略微优越，仅在缺失比率为0.4时被LightGBM击败。在验证集中存在缺失参数的情况下，LightGBM，以及部分HGT，趋向于天真的预测，而RGCN估计的值更加分散，但遵循正确的趋势。这可以从附录A中的图8中看出，该图显示了四种模型类型在缺失率为0.2的训练、测试和验证集上的散点图。0关于最大残差误差的差异不大0然而，在完整数据集上观察到GNNs的最大误差始终低于其他方法，当从验证集中删除参数时（见图3）。最大误差的比较显示在表3中。然而，在这种设置下，HGT的最大误差高于RGCN的最大误差。MARS模型无法预测稀疏数据上DUTs的原始灵敏度。70Array 14 (2022) 1001620M.E. Heringhaus等人0图3。RGCN、HGT、LightGBM和DNN在标准化数据的验证集上进行20次初始化的（左侧）均方根误差和（右侧）最大误差的比较。验证集中的缺失率为0.2。全局天真、基于晶圆的天真和线性分别指的是使用的插补技术。0当缺失率为0.2不仅应用于验证集，而且应用于训练集时，HGT的均方根误差平均值降至0.3784，95%置信区间为[0.3749,0.3819]，20次初始化后的最大误差平均值为2.259，95%置信区间为[2.188,2.330]，因此优于包括RGCN在内的所有基线方法。此外，在这种训练条件下，HGT不再趋向于天真的预测，如图5所示。图4左侧显示了当训练集的缺失率等于验证期间的缺失率时，HGT的性能。然而，在缺失率大于0.3时，性能指标急剧下降。然而，当在缺失率为0.3的训练集上训练并应用于具有0.4缺失值比例的验证集时，HGT实现了0.4525的均方根误差和3.385的最大误差。然而，与在完整训练集上训练的HGT相比，HGT在训练集和测试集上的性能下降了。在图4的右侧，显示了RGCN在类似于验证集的稀疏率的数据集上训练时的性能。对于RGCN来说，均方根误差和最大误差也有所改善，但不及HGT明显。与HGT相反，RGCN可以在缺失率为0.4的训练图上合理训练。在将特征数量增加到14个FT和6个WLT参数后，性能的整体趋势保持不变，如附录A中的表6所示。然而，HGT在完整数据集上扩大了与基线方法的差距，而RGCN的性能在完整数据集上几乎没有改善，但在存在稀疏特征的情况下仍优于所有其他方法。05.2.消融分析05.2.1. 在基本图变体上架构的比较对于所有基本图变体V0-V3，HGT在完整验证集上表现最佳，V2B的RMSE最低为0.3231，V0的最高RMSE为0.3904。除了V0之外，所有变体的第二好架构是RGCN，在V3A上的最低RMSE为0.3527。在BO中，没有发现RGCN能够在没有芯片间连接的图上进行学习（V0）。而GCN的平均RMSE最高，该架构无法在V2C上进行训练。GAT模型的性能在不同图变体之间的变化最大。在V0上达到了0.4243的RMSE，然而在V2A、V3A和V3C上，性能低于天真的预测。图6中的雷达图显示了GCN、GAT、RGCN和HGT在不同芯片间连接变体上的RMSE，使用了BO中每个模型架构和图变体的最佳超参数组合。05.2.2. 位置编码和附加信息的补充尽管测试了多种变体，对于HGT来说，不同类型的位置信息之间并没有太大差异。仅将位置ID插入到芯片节点的特征向量中，可以改善验证集上

下载后可阅读完整内容，剩余1页未读，立即下载