微电子机械系统测试中的图神经网络参数估计

188 浏览量更新于2023-12-06 收藏 14.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0Array 14（2022）1001620/creativecommons.org/licenses/by-nc-nd/4.0/）的开放获取文章。0在ScienceDirect上提供的内容列表0Array0期刊主页：www.elsevier.com/locate/array0用于微电子机械系统测试中参数估计的图神经网络�0Monika Elisabeth Heringhaus a，b，�，Alexander Buhmann a，Jürgen Müller a，André Zimmermann b，c0a Robert Bosch GmbH，72762Reutlingen，德国b斯图加特大学微积分研究所（IFM），70569斯图加特，德国cHahn-Schickard，70569斯图加特，德国0文章信息0关键词：MEMSMEMS测试图神经网络图表示0摘要0微电子机械系统（MEMS）在包括车辆安全和消费类电子产品在内的广泛应用中至关重要。在对这些设备进行测试时，记录了包含各种参数的大型异构数据集。为了替代昂贵的测量并了解所测参数之间的关系，研究了图神经网络（GNN）。因此，研究了以下问题：在推断MEMS最终模块级测试参数时，是否在图结构上进行工作能够提高预测性能，与通过表格数据上的标准机器学习方法进行分析相比，图结构和学习算法如何促进整体性能。为了评估这一点，在一项经验研究中，建立了所获得的测试数据的不同图表示。在这些表示上，训练了四种不同的最先进的GNN架构，并在MEMS陀螺仪的原始灵敏度预测任务上进行了比较。虽然GNN在完整数据集上的表现与用作基线的轻量级梯度提升机、神经网络和多变量自适应回归样条模型相当，但在存在稀疏数据的情况下，GNN在整体均方根误差（RMSE）方面优于基线方法，并在训练具有类似稀疏率的数据时，在最大误差方面取得了明显的改进。01.介绍0对微电子机械系统（MEMS）进行彻底测试对于保证产品的高质量至关重要，不仅适用于安全关键应用，也适用于消费类电子产品。然而，MEMS设备的测试程序严重影响了传感器的总成本。特别是对于需要长时间温度上升或施加物理刺激的测量，这一点尤为明显。此外，由于系统的高复杂性、对各种物理刺激的敏感性以及制造过程的广泛多样性，意外测试结果的根本原因分析（RCA）尤为具有挑战性。因此，利用所有可用的知识和信息来减少测试成本并替代昂贵的最终测试测量，同时保留可审计性是非常有利的。为此目的可用的信息来自多个制造和测试阶段，从工艺数据和在线测试记录开始。它还包括晶片级测试（WLT）的结果，在晶圆通过晶圆探针进行电气接触0� 该研究未从公共部门、商业部门或非营利部门的资助机构获得任何特定资助。� 通讯作者：德国Reutlingen 72762 Robert BoschGmbH。电子邮件地址：Monika.Heringhaus@de.bosch.com（M.E. Heringhaus）。0以排除故障芯片。与应用特定集成电路（ASIC）和封装集成后，进行静态和动态的最终模块级测试（FT）以进行特性和校准。关于如何用更快、间接的测试取代耗时和因此昂贵的测试，或者是否可以用数据驱动模型估计感兴趣的参数已经进行了大量研究[ 2 – 4]。然而，记录数据的异质性对数据分析构成了挑战。在汽车应用的最终测试期间，通常记录所有相关参数的完整数据集，但对于消费品来说，故意减少测量点并不一定是这样。因此，间接测试的挑战在于利用低成本的测量来推断更昂贵的参数。晶圆级测试数据可能包含缺失值，特别是在过程信息稀缺的情况下，而在线测量通常只对部分晶圆可用。此外，后者仅在分配在晶圆上的极少数测试结构上进行测量。不是MEMS特有的，但是0https://doi.org/10.1016/j.array.2022.1001622021年9月23日收到；2022年1月24日收到修订稿；2022年4月1日接受2pleinformative parameters, which might provide valuable insights forexample in the case of root cause analyses. Another challenge is thatwafers or lots pass through different process and measurement equip-ment. Whereas these pose a typical source of parameter variation, theinfluence of process and measurement equipment is tedious to analyzewith classical methods. Standard ML approaches are not designed forsuch tasks and therefore mostly rely on handcrafted embedding of theequipment labels and are, thus, unable to operate on equipment unseendurstaworks. Graph-based deep learning methods are designed to handle suchirregular non-Euclidean data and graph neural networks (GNNs) haveproven to be useful in various application areas where data can berepresented in terms of relations between instances [11–15]. As inMEMS fabrication neighboring dies on a wafer share certain properties,for example due to slowly varying parameters over the wafer likeepitaxial layer thickness, one may hypothesize that including structuralinformation into the learning problem leads to an increased predictiveperformance. Further, the formulation in terms of a graph enablesexplicit definition of non-existent connection between two entities,which can be beneficial for RCA. However, it remains unclear howto best construct a graph on the relations of FT, WLT and in-processmeasurements, and which GNN architectures are suited for the task ofFT parameter inference. Thus, the following questions are addressedsubsequently:0Array 14 (2022) 1001620M.E. Heringhaus等人0一般生产数据中典型的缺失测量是由于故障或停机。相反，在某些生产阶段可能会临时获取额外的参数，例如增加对特定行为或故障模式的理解。未在生产期间进行的实验室测量以及模拟结果可能进一步揭示参数之间的额外关系。此外，测量设备、不同的测量配方、站点编号和事件标签被分配给某些测量。0数据来源和结构的多样性导致高度异质-0异质数据集具有不同的缺失比率和不同的参数缺失模式。对于后者，可以区分参数是否（完全）随机缺失以及缺失原因本身是否包含信息[ 5]，例如当FT测量由于先前测试中的故障而缺失时。0基于物理的模型，即使能够紧密模拟相互作用-0一个设备内的测量参数之间的相互作用，无法应对工艺和测量设备的影响。然而，对这种数据集的基于数据的分析是具有挑战性的，因为大多数机器学习（ML）方法无法处理缺失的特征或分配给特定实例的附加信息。此外，标准的ML架构不考虑问题的固有结构，因此忽视了可能由单个测量参数之间的分层结构和关系提供的丰富信息。一种常见的方法是通过在晶圆上进行插值或应用其他插补策略来推断缺失信息，尝试通过k最近邻方法、概率模型甚至生成对抗网络（GANs）找到合理的替代品。另一种可能性是应用本身使用均值插补来处理缺失数据的学习算法，例如多元自适应回归样条（MARS）[ 6 , 7]或分类和回归树（CART），一种决策树算法[ 5]，甚至构建一个基于可用其他特征估计缺失值的回归模型。由于其他特征可能也包含缺失值，通常使用CART来构建这样的插补模型[ 5]。多重插补方法进一步考虑上述插补策略引入的不确定性[ 5 , 8]。常见插补技术的更广泛概述见[ 8 , 9 ]和[ 10 ]。0•（性能）：GNN的使用是否优于基线方法0基于原始灵敏度测量的预测误差如何？0•（消融）：图结构和学习算法如何共同贡献0图结构和GNN算法如何对整体性能有所贡献？0•（附加信息）：性能如何改变0当除了数据结构之外还添加了其他信息时？0因此，本文的目标是提出并演示0如何在MEMS制造和测试的背景下利用GNN，其中稀疏数据的处理以及内联信息的整合对于参数估计和根本原因分析具有很高的实际意义，并评估了将其作为基于图的问题处理的实际影响。0本文的其余部分组织如下。第2节包含0MEMS和集成电路（IC）测试中的预测建模以及制造和测试中基于图的表示学习的相关工作。第3节概述了一般图结构数据上的学习以及所考虑的GNN架构。在第4节中，指定了FT灵敏度估计的用例和实验设置。第5节描述了结果，然后在第6节中进行了讨论。第7节提供了结论。02. 相关工作02.1. 基于数据的MEMS和IC制造和测试中的预测建模0数据驱动预测建模中的常见算法0MEMS制造和测试的应用领域是MARS，这是一种非参数回归模型[6]。例如，它用于通过从电测量或其他间接测试方法中确定设备的灵敏度来进行电校准[2,16,17]。此外，MARS用于预测模拟电路的性能参数，以便在生产测试期间进行故障检测[18]。其他人专门致力于使用一种称为密度聚类的无噪声应用（DBSCAN）的无监督学习方法来识别测试引起的缺陷[19]。通过结合多个回归模型，ElBadawi等人[4]演示了集成学习方法用于从无线电频电路的低成本生产测试数据中预测性能参数，比较了从MARS模型、多元线性回归模型和支持向量机构建的增强、装袋和堆叠方法。Ellouz等人[20]使用神经网络从WLT阶段的低频测量中估计RF参数。在间接测试的特征选择方面，Barragan等人[3]在模拟数据的概念研究中使用图表示来分析测试参数之间的因果依赖关系，通过研究因果贝叶斯网络中的马尔可夫毯来考察测试参数之间的因果依赖关系，其中所考虑的特征代表目标参数的父节点。然而，尽管间接测试是一个活跃的研究领域，但先前提出的方法中没有一个利用晶体、晶圆和与进一步工艺信息一起测量的参数之间的关系。02.2. 制造业和测试中的基于图的学习0一般来说，制造业为0基于图的方法。组件由子组件组装而成，可以被表示为图中的实体，也可以被表示为单个的过程阶段。Weise等人 [21]给出了关于图在制造业中潜在应用的概述，重点放在了过程和装配规划上。从图论中转移方法3ℎ(𝑘)𝑣𝑖 = 𝜎( ∑𝑣𝑗∈𝑣𝑖0阵列14 (2022) 1001620M.E. Heringhaus等人0到制造问题，他们确定了图算法的几个应用领域，从路径查找到确定最佳工艺步骤顺序，再到确定更频繁使用或更改的对象的中心性分析，以及用于检测子装配的聚类分析。Huang等人 [22]展示了使用语义使制造过程中记录的数据、专家知识和行业标准的组合的具体示例。他们提出了一个基于本体的长短期记忆（LSTM）架构，旨在从记录的时间序列中识别故障。同样，为了故障预测，Kang [23]应用了GNN来处理包含各种工艺参数、在线测量和检测结果的不完整生产数据。遵循Gilmer等人 [24]的方法，他们制定了一个图分类任务，其中每个产品都由一个单独的图表示，即预测不是针对单个节点，而是针对独立的图。尽管与标准的插补技术相比，GNN的性能更优越，但是对于估计MEMS器件的FT参数的任务来说，这种方法并不适用，因为测试结构上的间歇性过程测量阻止了在不应用插补技术的情况下为每个晶元构建单独的图。在将Kang的方法转移到MEMS用例的情况下，因此，每个产品的一个图将对应于为每个晶圆设置一个图。这将再次需要一个包含数百个晶圆的极其庞大的数据集，以便训练GNN，这在实践中是不合理的。另一项解决GNN中数据集中缺失值问题的工作，即使不是专门针对制造数据，也是由You等人 [25]提出的。在由实例和其对应特征构成的二部图中，观察到的值被用作边属性，边连接实例和特征。特征插补被视为边特征上的回归任务。在设备健康监测的背景下，Narwariya等人 [26]使用基于传感器子组的多变量时间序列上的门控GNN来估计剩余寿命。图结构源自领域知识，然而，一个问题出现了，即如何制定图的不同方式会影响模型的性能。作者认为，从领域知识中选择的图结构可能不是最能代表系统内部依赖关系的。对于在制造数据上运行的GNN，另一个需求是整合迄今未见的设备或设备。因此，Ringsquandl等人 [27]将嵌入技术应用于为制造监控系统建立的知识图，旨在通过推断基于相似性度量的关系来添加新实体。0尽管对将GNN应用于图形的研究0制造和测试环境中的结构化数据显示了图形表述在性能和可解释性方面的几个优点，但图形学习方法如何应用于MEMS测试中的测试时间缩短问题，以及这个任务是否也能从基于图形的学习方法中获益，这仍然是一个悬而未决的问题。特别是，如何从高度异质的数据源中推导实际的图结构，选择在图上操作的学习算法，以及缺失参数的比率如何影响基于GNN的预测，与基准方法相比。03.在图结构化数据上学习0通常，图由一组顶点�（也称为节点）定义0或实体，以及一组边�，如�=（�，�）。存储节点��和��∈�通过边��=（��，��）∈�连接的信息存储在邻∈�|（��，��）∈�}定义了节点��的邻域。在带属性的图中，特征可以与节点和边关果所有节点都是相同类型的，即共享相同的特征，则称图为同质图0可以定义一个节点特征矩阵�∈R�×�，其中节点��∈R�分配给节点��的特征向量��∈R�。此外，在同质图中可能存在一个边特征矩阵��∈R�×�，其中边��，��∈R�分配给边��，��包含有关0边的类型或权重。在异构图中，也称为异构信息网络（HIN）[28]，至少存在两种不同类型的节点和具有每种类型的不同特征的边。这样的异构图被定义为�=（�，�，�，�），其中节点集�，多关系边集��×�×�，关系类型集�和属性类型集�。0众所周知，有许多用于描述和比较图的度量0用于描述和比较图的特征，包括节点度、聚类系数和中心性[29-31]。在下一节描述的GNN的机制缺失的情况下，图分析依赖于表征图结构的这些度量来执行基于标准ML方法的基于图的推理[32]。0关系信息的另一种表示是知识0图。特别是对于具有大量实体类型和关系的数据集，建立通过关系连接的两个实体的三元组是常见的[33]。然而，在知识图中操作数值属性的学习方法很少[34,35]。由于知识图可以重新定义为上述图模式，并且大多数常见的GNN方法在后者上操作，因此本文不再考虑知识图及其特定的学习方法。0在图上操作的学习算法必须设计为0这样的方式，它们要么是排列不变的，要么是等变的[32]。广泛使用的用于网格数据的卷积神经网络（CNNs）的核只适用于固定网格，不符合这一要求。因此，为了利用学习过程中所有可用的信息，即图中节点的位置，其局部图邻域以及与实例和关系相关的附加特征，GNN已经建立。03.1.图神经网络0GNN的工作原理是信息的聚合0从图的局部邻域中获取每个节点的信息，使用图结构作为计算路径来更新节点特征、边特征或两者都朝向目标特征向量，该特征向量可以是针对完整图或分别是节点或边级别定义的[24,32,36,37]。对GNN的一种常见分类方式是谱方法和空间方法之间的区别。类似于CNN的工作原理，谱GNN方法使用由图拉普拉斯多项式定义的图谱域中卷积滤波器的等价性[36,38,39]。图基学习任务中的一个常见基线是一种称为图卷积网络（GCN）的变体[40]，它线性逼近滤波器。在第�层的所有节点的隐藏状态通过0�（�）=�（��12�� 12�（�−1）�（�）），（1）0其中 � ( � ) 代表可学习的权重矩阵， � ( � )是一个激活函数。将图的邻接矩阵添加到单位矩阵作为 � � = � + � ，然后将 � �与其度矩阵 � �结合成带自连接的归一化邻接矩阵。应用对称归一化聚合以避免在具有广泛节点度数的图上训练过程中可能出现的数值不稳定性[ 32 , 40]。然而，尽管可以抵消过拟合的风险，这种自环更新阻止了对所考虑节点的信息和邻居节点信息的区分[ 32]。GCNs也可以被重新表述为空间方法，其中通过均值池化聚合节点邻域和考虑节点的特征[ 32 , 39 ]：0� � � � � � ( � ) � ( � −1) � � )，(2)Array 14 (2022) 1001624M.E. Heringhaus et al.ℎ(𝑘)𝑣𝑖 = 𝜎(∑𝑟∈∑𝑣𝑗∈ 𝑟𝑣𝑖ℎ(𝑘)𝑣𝑖 = 𝜎 𝑃𝜏𝑣𝑖⊕∀𝑣𝑗∈𝑣𝑖(𝑆𝑜𝑓𝑡𝑚𝑎𝑥∀𝑣𝑗∈𝑁𝑣𝑖(∥𝑡∈[1,𝑇 ]ℎ𝑒𝑎𝑑(𝑡)𝐴𝑇 𝑇 (𝑣𝑗, 𝑒, 𝑣𝑖))⋅∥𝑡∈[1,𝑇 ]ℎ𝑒𝑎𝑑(𝑡)𝑀𝑆𝐺(𝑣𝑗, 𝑒, 𝑣𝑖))+ ℎ(𝑘−1)𝑣𝑖.(5)0图1. 实体方案。0其中 � � � � �0| � �� || � �� | ，其中 � � � 代表节点 � � 的所有邻居。0关系GCNs（RGCNs）通过为具有不同边类型的邻居节点分配单独的权重矩阵来将GCNs扩展到具有标记边的图[ 41 ]：0� � � ,� � ( � ) � � ( � −1) � � + � ( � ) 0 � ( � −1) � � )，(3)0� � 和 � 0 代表训练过程中调整的权重矩阵， � � � ,�是一个可选的可训练常数。将已被证明对标准NNs有优势的注意机制（advan-tageous for standard NNs）[ 42]调整到图邻域，图注意力网络（GAT）引入了注意力权重来聚合整个邻域内节点特征[ 43 ]。在GATs中，计算每个节点的邻居节点 � � 对节点 � �的重要性，以注意力系数 � ( � � � � , � � � � )的形式。另外，还应用了非线性激活函数，并且对所有邻居进行了归一化。得到的注意力分数取代了GCNs中的平均聚合[ 43]。GNNs的第三个原则是神经消息传递方案，其中包括卷积和注意力GNNs作为特殊情况[ 44]。在可选的预处理步骤之后，初始节点和边特征可以通过网络嵌入进行转换，然后从所有节点和边的邻域中迭代地聚合和组合信息。因此，必须设置一个消息传递函数 � ( � � � , � � � )，从邻居节点或边中收集信息。此外，还需要定义一个更新或组合函数 � ( � )，它更新节点和/或边的隐藏状态，考虑到聚合信息以及自身实例或关系的特征。聚合函数可能简单地对特征进行平均，但也可以由递归神经网络单元[ 45]或其他类型的NNs[ 32 , 39]提供。组合函数也有类似的多样性，可以实现为非线性激活函数、加权和或其他形式，只要函数是排列不变的并且对输入节点的数量不变[ 24 , 32 , 46 , 47]。总的来说，消息传递方案可以形式化为：0� � � = � ( � � � , ⊕ � � ∈ � �� ( � � � , � � � ) )，(4)0其中 ⊕ 代表一个排列不变的操作[ 44 ]。迭代次数 �指的是随后应用的聚合和组合函数评估的次数，定义了GNN中的层数。进行的迭代次数越多，来自远处节点的信息就会传播到感兴趣的节点。然而，已经表明，使用太多层往往会导致过拟合，因此迭代次数在实践中通常限制在两到三层[ 48 , 49]。最后一步是读取感兴趣的特征向量。异构图变换器（HGT）将消息传递方案与异构图的注意机制相结合0图隐含地学习了对于特定任务哪些元路径是相关的[37]。第 � 层中节点 � �的隐藏状态为：0在 � 注意力头 �� 和消息头 �� 中，使用线性投影将节点类型 � � �的特定分布映射到节点 � �。对连接的注意力头应用softmax。所有相邻节点的消息头也被连接起来。� � ��将聚合信息转换回 � �的节点类型的分布。最后，将前一层的潜在节点向量添加到节点 � �的更新中。有关异构网络表示学习的更多细节，请参阅Yang等人[50]和Bronstein等人[44]。04. GNN对灵敏度估计的案例研究0作为概念验证的用例，选择了从内联、WLT和FT数据中确定惯性测量单元（IMU）内MEMS陀螺仪一个轴的原始灵敏度。涉及的不同实体类型及其相互关系在图1的关系方案中表示，该方案作为图构建的起点。对于评估考虑了37个具有已知最终模块测试的芯片的MEMS传感器晶圆。为了允许GNN与不基于图的方法进行比较，只使用了通过了所有测试的完全测量的芯片。数据集包含14个FT、6个WLT和6个内联参数，包括驱动和检测幅度、相位测量、品质因子、修剪参数以及外延和氧化层厚度等。此外，还包括晶圆在晶圆上的位置、测量设备和工艺工具。在构建的图中选择的所有特征参数都是低成本参数，不需要耗时的加热或机械刺激。04.1. 实验程序0为了简化模型，评估案例研究并限制在寻找最适合的图变体、封装、ASIC和工艺信息期间的计算工作量，这些信息被忽略。另外，在第一步中，特征集被减少到由轻梯度提升机（LightGBM）[51]的最高重要性分数选择的五个WLT和FT参数。在这些简化的图上，比较了四种GNN架构GCN、GAT、RGCN和HGT。然后通过向图结构添加补充信息，并调查改变GNN的各种超参数的影响，进一步评估了最佳表现的图变体和GNN架构。50阵列14（2022）1001620M.E. Heringhaus等。0图2。异质图的示意图，包括晶圆、芯片和不同的测量参数。案例研究的目标是利用有关测量参数以及跨晶圆的邻域信息来确定晶圆的原始灵敏度。晶圆之间的关系被建模为有向边。在左侧的V0中不存在晶圆之间的连接，突出显示了晶圆之间的连接，而在右侧的V2中，晶圆与同一晶圆上的相邻晶圆以及其他晶圆上相似位置的晶圆相连。因此，对于V2，突出显示了晶圆之间的连接。0表1 不同芯片间连接的图变体。0V0 晶圆之间没有连接0V1 仅在同一晶圆上的相邻晶圆之间的连接 � �� = 60V2 相邻晶圆之间的连接，以及在其他晶圆上相似位置上的连接 V2A � �� = 6, � �� = 6 V2B � �� = 3, � �� = 1 V2C 对来自训练集的5个随机选择的晶圆0V3 相邻晶圆之间的连接，以及在其他晶圆上相似位置上的连接；相同位置和其他晶圆上相邻位置之间的不同边类型 V3A � �� = 6, � �� = 6 V3C � �� = 6, � �� = 1 对来自训练集的5个随机选择的晶圆0然后将两个表现最佳的GNN与MARS模型、LightGBM和标准深度神经网络（DNN）进行比较，并在稀疏数据集上评估模型的性能。对于这个比较，所有模型都是在完整的训练集上进行训练，并在不同稀疏率的验证集上进行评估。对于缺失比率为0.2，每种方法应用了20种不同的初始化并进行了比较。此外，对于RGCN和HGT，训练也是在类似的稀疏率上进行的，就像在评估期间一样。接下来，首先描述图的构建，然后描述学习方法的应用。04.1.1. 图结构设计所有构建的图都是有向无环图。一般的设置是传导式的，即与目标值相反，在训练期间完整图的结构是已知的。为了避免信息泄漏，对于所有实验，只定义了训练集内晶圆之间的边，以及从训练集到测试集和验证集的边，但测试集和验证集内的晶圆没有连接。此外，没有边传递信息从测试集和验证集到训练集。在图的初始变体 V0的左侧提供了可视化。由于所选择的用例不包含随时间参数的变化，所有图都是静态的。学习任务被规定为对节点级别的监督回归，因为目标是估计每个晶圆的连续目标参数，图级别的预测不适合内联参数、测量设备和类似结构化信息的整合，正如在相关工作的背景下已经讨论过的那样。对于构建异质图，进行了同质和异质图变体的比较。对于异质图的构建，晶圆、晶粒和每个参数类型，即检测幅度、频率分割等，被定义为单独的节点类型，即连接晶圆与其关联的测量参数。测量值被设置为相关参数类型节点的节点特征，而随机值被分配给晶圆和晶粒节点。设置图的原因是这样设置，而不是将一个晶圆的所有参数测量值连接成晶圆节点特征向量的原因是，在这种情况下，缺失的特征再次必须被填补。尽管可以通过嵌入或通过向节点特征向量添加额外条目来指示是否已测量某个参数来处理这个问题，但这样做会失去图结构的优势，因为这样的过程也可以用作标准ML方法的预处理步骤。在同质图变体中，节点类型被编码为1-of-K方案并连接到节点特征向量中。为了在图中建立晶圆之间的邻居关系，有几种策略；在实验中应用的策略总结在表1中。除了根本不建立晶圆之间的任何连接（图变体V0，图2左侧），最直观的方法是在晶圆和其 � �� 下一个邻居之间建立边，以下简称为图变体 � 1。中，如图2右侧所示，晶圆还与不同晶圆但相似位置上的晶圆相连。测试了三种情况，变化了在同一晶圆和在不同晶圆之间的连接数。为了区分连接到另一个晶圆上的相同位置和其他晶圆上的相邻位置，在 � 3中，根据连接的晶圆在另一个晶圆上是位于完全相同位置还是相邻位置，将dieOnDifferentWafer 关系分为两种不同的边类型0被定义为单独的节点类型，边连接晶圆与其关联的晶粒，再连接到其关联的测量参数。测量值被设置为相关参数类型节点的节点特征，而随机值被分配给晶圆和晶粒节点。设置图的原因是这样设置，而不是将一个晶圆的所有参数测量值连接成晶圆节点特征向量的原因是，在这种情况下，缺失的特征再次必须被填补。尽管可以通过嵌入或通过向节点特征向量添加额外条目来指示是否已测量某个参数来处理这个问题，但这样做会失去图结构的优势，因为这样的过程也可以用作标准ML方法的预处理步骤。在同质图变体中，节点类型被编码为1-of-K方案并连接到节点特征向量中。为了在图中建立晶圆之间的邻居关系，有几种策略；在实验中应用的策略总结在表1中。除了根本不建立晶圆之间的任何连接（图变体V0，图2左侧），最直观的方法是在晶圆和其 � �� 下一个邻居之间建立边，以下简称为图变体 � 1。在 � 2中，如图2右侧所示，晶圆还与不同晶圆但相似位置上的晶圆相连。测试了三种情况，变化了在同一晶圆和在不同晶圆之间的连接数。为了区分连接到另一个晶圆上的相同位置和其他晶圆上的相邻位置，在 � 3中，根据连接的晶圆在另一个晶圆上是位于完全相同位置还是相邻位置，将dieOnDifferentWafer 关系分为两种不同的边类型60数组14（2022）1001620M.E. Heringhaus等0表2 最佳执行GNN变体和基线方法在不同验证集稀疏率上的比较，完整训练集。朴素RMSE为1。0RMSE（标准化结果）0MARS Light GBM Light GBM Light GBM DNN RGCN HGT 全局朴素晶圆朴素线性线性0训练集0.2932 0.2384 0.2384 0.2384 0.3047 0.3080 0.2734 测试集0.3253 0.3344 0.3344 0.3344 0.3736 0.3698 0.3127 验证集0.3269 0.3347 0.33470.3347 0.3493 0.3527 0.3006 10%缺失率119.9 0.4753 0.4063 0.5063 0.5286 0.3976 0.4614 20%缺失率174.9 0.5805 0.4818 0.6361 0.6361 0.45810.5611 30%缺失率217.0 0.6546 0.5310 0.7380 0.7089 0.5233 0.6430 40%缺失率250.5 0.7503 0.5608 0.7860 0.7783 0.6076 0.72340表3 最佳执行GNN变体和基线方法在不同验证集缺失率上的最大误差比较。0最大误差（标准化结果）0MARS Light GBM Light GBM Light GBM DNN RGCN HGT 全局朴素晶圆朴素线性线性0训练集1.075 0.8846 0.8846 0.8846 1.563 1.467 1.119 测试集0.3253 0.3344 0.3344 0.3344 0.3344 0.3698 0.3127 验证集1.219 1.166 1.166 1.166 1.7961.718 1.115 10%缺失率408.6 3.778 2.762 3.840 4.219 1.968 3.251 20%缺失率408.9 4.175 4.041 4.630 3.565 2.277 3.529 30%缺失率409.1 3.945 3.8824.052 3.593 2.855 4.006 40%缺失率409.2 4.203 4.380 4.818 4.643 4.123 3.9950位置。在所有变体中，从训练晶圆到测试和验证晶圆定义了有向边，但反之不然。晶圆、晶粒和测量参数的平均中心系数、节点度以及它们在附录A的表4中的变化。0找到的最佳图设计通过额外的位置进行了增强0额外信息、测量设备和在线数据。对位置编码和额外信息的补充进行了各种组合和变体的测试。详细描述请参见附录B。04.1.2. 学习方法的应用0在所有实验中，数据集都是按晶圆分割的，分配015个训练晶圆，11个测试晶圆，并保留11个晶圆用于验证。GNN是使用DeepGraph Library [52]和机器学习框架PyTorch[53]构建的。所有GNN模型都有两层，并且最多训练500个时期，具有早期停止功能。梯度范数被剪切为0.9，Adam与分离的权重衰减[54]被用作随机优化器。HGT利用平均操作符作为交叉约减器。测量参数以及目标灵敏度在训练样本上被标准化为零均值和单位方差，用于训练过程和报告错误指标。贝叶斯优化（BO）被应用于通过Sobol生成策略[55]在30次试验中训练75个时期的模型，以找到每个图变体和GNN方法的最佳图结构。附录A的表5包含了不同架构的超参数搜索空间。为了比较额外信息和其他超参数（如层数和交叉减少器函数）的影响，保留了BO评估期间评估的最佳参数组合。0一个MARS模型，一个标准的全连接NN，和一个Light GBM0使用梯度提升决策树（GBDT）作为基线。NN有3层，其超参数是通过BO搜索确定的。对于LightGBM的交叉验证网格搜索，其学习率在0.003、0.007和0.01之间变化，最大深度为10、20、25和30，保留Huber损失作为目标和1000个估计器。0为了评估不完整数据集上的性能，RGCN0和HGT找到的最佳超参数组合被应用于完整数据集，以及包含10％、20％、30％的数据集，0和每个特征的40%被擦除，从图中删除相应的节点。RGCN和HGT的训练不仅在完整数据集上进行，而且在训练集上也使用了类似的稀疏率进行了评估。LightGBM和NN使用了三种不同的插补技术，分别是全局天真插补，其中缺失参数被替换为特征的全局均值（对于正态分布的参数）或者相应的中位数（对于其他参数），以及线性插值。MARS模型应用于稀疏数据集，没有额外的插补，因为该模型通过均值插补固有地处理缺失值。05. 结果05.1. 性能0MARS，Light GBM，NN，RGCN和HGT在完整数据集上训练的性能没有太大差异0在完整训练集上的报告如附录B中的表2所示，包括完整的训练、测试和验证集，以及验证期间不同的缺失率。HGT应用于最佳性能的图变体V2B，结合位置信息（AddInfA，见附录B），在验证集上的RMSE最低，为0.3006，而MARS的RMSE为0.3269，LightGBM为0.3347，RGCN为0.3527。与此相反，RGCN在图变体V3A上的操作在稀疏数据上略微优越，仅在缺失比率为0.4时被LightGBM击败。在验证集中存在缺失参数的情况下，LightGBM，以及部分HGT，趋向于天真的预测，而RGCN估计的值更加分散，但遵循正确的趋势。这可以从附录A中的图8中看出，该图显示了四种模型类型在缺失率为0.2的训练、测试和验证集上的散点图。0关于最大残差误差，没有太大的差异0然而，在完整数据集上观察到GNNs的最大误差始终低于其他方法，当从验证集中删除参数时（见图3）。最大误差的比较显示在表3中。然而，在这种设置下，HGT的最大误差高于RGCN的最大误差。MARS模型无法预测稀疏数据上的DUTs的原始灵敏度。70Array 14 (2022) 1001620M.E. Heringhaus等人0图3。RGCN，HGT，Light GBM和DNN在标准化数据的验证集上进行20次初始化的（左）RMSE和（右）最大误差的比较。验证集中的缺失率为0.2。全局天真，晶圆天真和线性分别指的是使用的插补技术。0当0.2的缺失率不仅应用于验证集，而且应用于训练集时，HGT的平均RMSE降至0.3784，95% CI为[0.3749, 0.3819]，20次初始化的平均最大误差为2.259，95%CI为[2.188,2.330]，因此优于包括RGCN在内的所有基线。此外，在这种训练条件下，HGT不再趋向于天真的预测，如图5所示。图4左侧显示了当训练集的缺失率等于验证期间的缺失率时，HGT的性能。然而，在缺失率大于0.3时，性能指标急剧下降。然而，当在缺失率为0.3时进行训练，并应用于具有0.4缺失值比例的验证集时，HGT实现了0.4525的RMSE和3.385的最大误差。然而，与在完整训练集上训练的HGT相比，HGT在训练集和测试集上的性能下降了。在图4的右侧，显示了RGCN在训练图中的稀疏率类似于验证集时的性能。RGCN的RMSE和最大误差也有所改善，但不及HGT的改善明显。与HGT相反，RGCN可以在缺失率为0.4的训练图上合理训练。增加到14 FT和6WLT参数后，性能的整体趋势保持不变，如附录A中的表6所示。然而，与基线方法相比，HGT在完整数据集上扩大了其领先优势，而RGCN的性能在完整数据集上几乎没有改善，但在存在稀疏特征时仍优于所有其他方法。05.2.消融分析05.2.1. 在基本图变体上的架构比较对于所有基本图变体V0-V3，HGT在完整验证集上表现最佳，在V2B上具有最低的RMSE为0.3231，在V0上具有最高的RMSE为0.3904。除了V0之外，所有变体上第二好的架构是RGCN，在V3A上具有最低的RMSE为0.3527。在BO中，没有发现RGCN能够在没有芯片间连接的图上学习。而GCN的平均RMSE最高，该架构无法在V2C上进行训练。G

下载后可阅读完整内容，剩余1页未读，立即下载