机器学习预测人类最短路径任务性能的方法及质量指标应用

90 浏览量更新于2024-01-24 收藏 1.14MB PDF 举报

机器学习方法

质量指标

身份认证购VIP最低享 7 折!

30元优惠券

−视觉信息学6（2022）50一种预测人类最短路径任务性能的机器学习方法蔡世俊a，洪锡熙a，夏晓波a，刘同良a，黄卫东b澳大利亚悉尼大学澳大利亚悉尼科技大学ar t i cl e i nf o文章历史记录：2022年4月6日在线发布保留字：机器学习最短路径任务质量指标a b st ra ct在图形绘制中，为给定的一对顶点找到最短路径是基本的图形绘制的定性评估任务。在本文中，我们提出了第一种机器学习方法来预测人类最短路径任务的性能，包括准确性，响应时间和脑力劳动。为了预测最短路径任务的性能，我们利用相关的质量指标和最短路径实验的地面真实数据。具体来说，我们引入路径忠诚度指标，并显示出较强的相关性与最短路径任务的性能。此外，为了缓解地面真实训练数据不足的问题，我们使用迁移学习方法来预训练我们的深度模型，利用相关的质量指标。实验结果表明，我们的模型可以成功地预测最短路径任务的性能。特别地，模型MSP实现MSE（即，测试均方误差）为0.7243（即，数据范围从17.27到1.81）用于预测。版权所有©2022作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍图形绘制评价是图形绘制领域的一个重要研究方向.质量度量（或美学标准），如边缘交叉、弯曲、面积、总边长、角分辨率和应力，已被提出用于图形绘制的定量评估（Di Battista et al. ，1999年）。随后，各种图形绘制算法已经开发出优化这些指标。此外，定性评价的图形绘制是很好的研究，使用人机交互（HCI）的评价方法，如控制人体实验。特别是，在图形绘制中为给定的顶点对找到最短路径是定性评估的基本任务之一（ Huang et al. ， 2008; Purchase ， 1997; Ware et al. ， 2002年）。也就是说，图的图D1比图D2好，如果人类花更少的时间找到错误更少的最短路径。许多研究已经建立了质量度量之间的相关性，例如边缘交叉和交叉角，*通讯作者。电子邮件地址：scai5619@uni.sydney.edu.au（S.Cai），seokhee.sydney.edu.au（S.-H. Hong），xxia5420@uni.sydney.edu.au（X.Xia），tongliang. sydney.edu.au（T.刘），黄卫东@ uts.edu.au（W。黄）。https://doi.org/10.1016/j.visinf.2022.04.001最短路径任务性能（即，时间和精度）。具体而言，Huang et al.（2016）定义了基于准确性、响应时间和脑力劳动的最短路径任务性能的基于性能的效率E最近，机器学习方法已被用于解决图形可视化中的研究问题，主要集中在定量评估（即，质量度量）（Haleem et al. ，2019;Kwon和Ma，2019）。最近，已经提出了一种机器学习方法来解决定性评估，特别是预测人类偏好任务性能（Caiet al. ，2021年）。在本文中，我们提出了第一个机器学习方法来预测人类最短路径任务的性能。具体而言，我们提出了三种机器学习模型，使用相关的质量度量和图形绘制图像，其中突出显示了来自地面真实人类实验数据的最短路径（Huanget al. ，2016; Fletcher et al. ，2019; Huang et al. ，2014年）。本文的主要贡献归纳如下：1. 我们引入了新的路径忠诚度度量，并使用来自最短路径实验的地面真实数据（Huang et al. ，2016; Fletcher et al. ，2019; Huang et al. ，2014）（见第3节）。此外，我们使用各种质量度量和图进行相关性分析和特征重要性测试2468- 502 X/©2022作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfS. Cai，S.-H. 洪，X.Xia等人视觉信息学6（2022）5051−·+σ3=属性，以找到与效率E最相关的度量或属性。2. 我们提出了第一种用于预测最短路径任务性能的机器学习方法，具有以下三个模型（参见第4节）：模型M（M）基于回归和分类模型，并使用最相关的质量指标和任务绩效标签进行训练（见第4.1节）。模型SP（最短路径）是基于CNN（卷积神经网络）的深度模型，其读取具有来自地面实况最短路径实验的突出显示的最短路径的图形绘制图像（Huang etal. ，2016; Fletcher et al. ，2019; Huanget al. ，2014）并将它们转换成特征向量。通过拟合训练数据，训练深度模型以模拟最短路径任务的地面实况效率，该训练数据由图形绘制图像和任务性能标签组成模型MSP（MSP）采用迁移学习方法来缓解最短路径实验中的地面真实训练数据不足。具体来说，我们首先使用带有高亮路径和基于度量的标签（即，最相关的质量指标或属性，见第4.4节）。然后，我们使用带有高亮路径和任务性能标签的图形绘制图像来微调模型。3. 使用地面真实最短路径实验数据的实验（Huang et al. ，2016; Fletcher et al. ，2019; Huanget al. ，2014）表明，所有三个模型都成功地预测了最短路径任务的性能。总的来说，MSP表现最好，证明了采用路径质量度量进行迁移学习的重要性，实现了0.7243的MSE（即，数据范围为17. 27至1.81）用于预测效率E（见第5节）。本文的其余部分组织如下。第二节介绍了研究背景，第三节介绍了新的路径忠诚度度量方法及其相关性分析.第4节详细介绍了我们的机器学习模型，第5节描述了实验结果和讨论。第6节总结了未来的工作。2. 背景2.1. 图形绘制可读性各种质量指标，称为美学标准，可用于图形绘制的定量评估（Di Battista et al. ，1999年）。因此，许多图形绘制算法已被设计为优化这些质量度量（Di Battista et al. ，1999年）。传统的可读性指标，如边缘交叉，弯曲，面积，总边长，角分辨率，交叉角和顶点和边缘之间的重叠，衡量人类如何理解图形绘制。然而，大多数可读性指标往往集中在小图上。忠诚度最近，忠实性指标已被开发用于大型图形图纸的评估，它衡量图纸如何忠实地显示图形的地面真实结构例如，压力（DiBattista et al. （1999）是一种...图中的顶点。基于形状的度量比较图和邻近图之间的相似性，例如从绘图计算的Gabriel图和相对邻域图（Eades et al. ，2015）。聚类忠诚度度量（Meidiana et al. ，2019）比较图的地面实况聚类与从绘图计算的几何聚类之间的相似性。对称忠实度度量（Meidiana et al. ，2020 b）测量图的基本真值自同构如何在绘图中显示为对称性。改变忠诚度度量（Meidiana et al. ，2020 a）测量动态图形中的地面实况变化如何成比例地显示为绘图中的几何变化2.2. 使用最短路径实验的通过人机交互实验，从任务绩效、测量时间和准确性三个方面对图形绘制的定性评价进行了研究。对于图形绘制的定性评估，寻找给定顶点对的最短路径是最流行的任务之一。例如，Ware等人（2002）发现，较少的边缘交叉和路径连续性（即，较少的路径弯曲）与最短路径任务绩效显著相关。此外，Huang et al. （2008年，2009年）发现了大交叉角和最短路径任务性能之间的相关性，以及测地线路径趋势（即，更可能首先搜索朝向目标顶点的边）。最近，已经进行了一系列最短路径实验（Huang et al. ，2016;Fletcher et al. ，2019; Huang et al. ，2014）使用图中所示的系统。1.一、每个实验都重新审查了来自不同组织的参与者，参与者可以在实验开始前练习该系统前-实验使用罗马图1（即，小而稀疏的图）Batagelj and Mrvar（2004）使用力导向算法绘制实验的每一次试验都从第一个屏幕开始（见图 1 ）。 1（1）），示出了两个突出显示的顶点，其是在以下条件下随机选择的：最短路径是唯一的，并且路径长度在3和6之间第二个屏幕（见图）。1（2））提出了一个节点链接图，并指示参与者找到两个突出显示的顶点之间的最短路径，尽可能快速和准确。完成任务的时间记录为响应时间。第三个屏幕（见图）。1（3））要求参与者回答找到的路径的长度，然后在李克特量表上从1到9对脑力劳动进行准确度（真（1）或假（0））是基于地面实况最短路径长度计算的，即，准确性是真的如果参与者正确回答了最短路径的长度。Huang et al.（2016）定义了最短路径任务绩效的基于绩效的效率E，如下所示：E=Z准确度−Z投入时间−Z响应时间粗略地说，效率E被定义为认知增益（即，准确性）和认知成本（即，心理努力和反应时间）。具体来说，一张图纸是高效率，如果高精度实现低脑力劳动和更少的响应时间，反之亦然。请注意，准确性、脑力劳动和响应时间已被标准化为z分数，以在相同的尺度上并且变得可添加，例如，Zτ−µ，其中µ为平均值，σ为标准值所有绘图和参与者之间的数据条目的偏差，τ是准确度的值（分别为，脑力劳动或响应时间）。对比忠实的度量，它比较顶点的图论距离和欧氏距离1 http://www.graphdrawing.org/data.html。··S. Cai，S.-H. 洪，X.Xia等人视觉信息学6（2022）5052==∑∑∑∈∑≤≤−∈∈Fig. 1. 向参与者展示最短路径任务的三个屏幕示例。2.3. 用于图形可视化的最近，机器学习方法已经流行用于解决可视化中的问题。例如，参见一项调查（Wang et al. ，2020年）的机器学习技术，以改善可视化的设计，开发和评估。具体来说，Kwon和Ma（2019）设计了一个基于GNN（图3.1. 路径忠诚度度量路径忠诚度度量被定义为最短路径P在一对顶点和P的一个绘图DP之间。基于路径形状的图形我们使用路径P（V，E）和邻近图P ′（V，E′）之间的平均Jaccard相似度来定义基于路径形状的度量，所述平均Jaccard相似度从绘图DP计算，如下所示从给定布局的顶点位置的成对距离矩阵得到新的 Giovannangeli等人（2020）使用深度MJS（P，P′）=|N(v) ∩ N ′(v)|′卷积网络来预测节点链接图和邻接矩阵图像中两个突出显示的顶点之间的最短路径的长度。机器学习方法使用质量管理。许多研究人员采用机器学习方法来解决图形绘制中的问题，主要集中在定量评估（即，质量度量）（Haleem et al. ，2019; Kwon et al. ，2017; Klammler et al. ，2018年）。例如，Haleem等人（2019）使用具有图形布局图像的CNN来预测可读性指标，例如顶点扩展，最小角度，边缘长度变化，组重叠和边缘交叉。Kwon等人（2017）使用支持向量回归模型，使用图G2的绘图D2来估计图G1的给定绘图D1的质量度量，其中G1和G2具有相似的拓扑结构，并且D1和D2通过相同的布局算法计算。Klammler等人。（2018）使用具有质量指标的Siamese神经网络来比较图形D与其变形图D′。用于定性评估的机器学习方法。最近，已经提出了一种机器学习方法来预测图形绘制的定性评价（Cai et al. ，2021年）。提出了一种基于CNN-Siamese的模型来预测人类对同一图的两种不同布局的偏好。他们采用迁移学习方法来克服地面真实人类偏好实验数据用于训练深度模型的不足，即，使用与人类偏好相关的质量度量来预训练所述模型，并且然后使用所述地面真实人类偏好实验数据来微调所述模型。3. 忠诚度指标和相关性分析先前的工作（ Ware et al. ， 2002; Huang et al. ， 2016;Fletcheret al. ，2019; Huang et al. ，2014，2009）建立了可读性度量（参见表1）和最短路径任务性能（即，效率、响应时间、准确性和脑力）。最近，研究人员建立了忠诚度指标与人类偏好任务表现之间的相关性（Eades et al. ，2015; Chimani et al. ，2014年）。受这些结果的启发，在本文中，我们调查的忠实性度量和最短路径任务性能之间的相关性。更具体地说，我们引入了新的路径忠诚度度量的质量最短路径的绘图。|v ∈ V|N（v）N（v）|N (v) ∪ N (v)|其中N（v）是v在P中的邻居的集合。具体来说，我们提出了基于路径形状的度量的几种变体，pShape_GG，pShape_RNG，pShape_EMST和pShape_KNN，基于如下定义的邻近图的类型（Toussaint，2014）。对于平面上给定的点集QGabriel图（GG）在两点之间有一条边p， q如果闭圆盘的线段为pq因为直径不包含Q的其他元素。相对邻域图（RNG）在两点p，q之间有一条边如果没有点r，Q such即d（p，r）d（p，q）和d（q，r）d（p，q）。欧氏最小生成树（ Euclidean minimum spanning tree ，EMST）是Q的最小生成树，其中边的权重是欧氏距离。• k-最近邻图（KNN）有一条从p∈Q到q∈Q的（有向）边，如果满足d（p，r）d（p，q）的点r∈Q的个数至多为k−1。<路径应力我们定义的路径应力度量的基础上的图论距离和欧氏距离的两个顶点i，j在绘图中的路径。具体来说，我们基于缩放定义了三种变化，如下所示：p正则应力（DP）=wij（xi−xj/dij−1）2i，j∈P缩放应力（DP）=wij（xi−xj/（dij·lavg））2i，j∈Pp Avg应力（DP）=wij（xi−xj/dij−lavg）2i， j∈ P哪里•xi是P的顶点i在DP中的位置，• <$xi−xj<$xi和xj之间的欧氏距离，• dij是P中i和j之间的图论距离，• wij=dij2是权重因子，• lavg是DP的平均边长。表1显示了质量度量（包括可读性和忠实性度量）以及图G和路径P的属性的完整列表。··1·S. Cai，S.-H. 洪，X.Xia等人视觉信息学6（2022）50表5353−− = −== − = −= −=质量度量和属性列表：可读性度量（Ware et al. ，2002; Huang et al. ，2016; Fletcher et al. ，2019; Huang et al. ，2014，2009），以及图和路径的忠实度度量。图财产|V|（顶点数）|（边数）|(number of edges)可读性指标忠诚度指标交叉（边缘交叉的数量）角度M（所有交叉角度的angleD（所有交叉角的标准差）minAng（最小交叉角）edgeM（所有边长的平均值）edgeD（所有边长的标准偏差）minVertx（最小顶点角分辨率）finVertx（所有顶点的2π/度与最小角度之间的差值的平均值）minPtEdg（从顶点到边的最小距离Shape_GG（使用Gabriel图的基于形状的度量Shape_RNG（使用相对邻域图的基于形状的度量）Shape_EMST（使用欧几里德最小生成树的基于形状的度量）Shape_KNN（使用k-最近邻域图的基于形状的度量）RegularStress（常规应力）AvgScaledStress（平均比例应力）AvgStress（平均应力）路径属性PathLength（路径的边可读性指标新的忠诚度指标pCrossNo（路径的边缘交叉的数量）pAngMean（路径的所有交叉角度的平均值）pMinAng（路径的最小交叉角度pContinuu（路径连续性：路径所有顶点的角度偏差之和）pGeode（测地线路径连续性）pShape_RNG（使用相对邻域图的基于路径形状的度量）pShape_EMST（使用欧几里德最小生成树的基于路径形状的度量）pShape_KNN（使用k-最近邻的基于路径形状的度量）pRegularStress（路径的规则应力）pAvgScaledStress（路径的平均缩放应力）pAvgStress（路径的平均应力）图二. 质量指标之间的皮尔逊相关性检验，图（分别为，路径）属性，以及任务性能（即，效率、响应时间、准确性和脑力）。红色（分别为，蓝色）颜色表示负（分别，正）相关，并且较深的颜色表示较强的相关性。3.2. 相关性和特征重要性为了找到预测最短路径任务性能的最相关的度量和属性，我们采用皮尔逊相关性检验（见图1）。2）和特征重要性检验（见表2）。忠诚度与效率的相关性。Pearson相关性检验（Benesty et al. ，2009）通过DataFrame.corr函数的默认设置执行，特征重要性测试通过sklearn.feature_selection.SelectKBest函数完成。具体来说，我们使用F值进行回归（即，效率和响应时间），和 Chi2（即，卡方统计）用于分类（即，准确性和精神努力）。图2清楚地表明，忠诚度指标与效率E。具体地，效率E与基于形状的度量正相关，并且与基于形状的度量负相关。应力在基于形状的变化中（分别，应力）度量，pShape_KNN（相应地，p Av g应力）显示出最强的相关性。路径质量与图形质量图图2示出了路径质量度量比图质量度量具有更强的相关性。例如，pShape_KNN= 0。35（分别为，pCrossNo=− 0。4）显示出强得多的正性（分别为，负）相关性大于对应的Shape_KNN= 0。17（分别为，交叉=-0。24）。可读性与忠诚度对于路径质量度量，可读性度量（pCrossNo0. 4、pGeode0的情况。38，pContinu0. 34）和忠诚度度量（pShape_KNN 0. 35，pAvgStress0。33，pAvgScaledStress 0。31）显示相关性S. Cai，S.-H. 洪，X.Xia等人视觉信息学6（2022）5054| |−i=1−i=1• L时间=∑lT时间/l表2质量度量、图形（分别）之间的特征重要性测试路径）属性以效率的降序排列。较大的F−v值（分别为，Chi2）表示更重要的度量或属性。效率（F−v值）响应时间（F−v值）准确度（Chi2）心理努力（Chi2）常规应力最小值385.82 222.08 23.98 41.47角度D 373.82 203.68 11.18 23.2912.62 36.08pShape_RNG321.00 212.04 23.32 36.83pShape_EMST321.00 212.04 23.32 36.83形态_KNN274.13 155.07 16.46 57.92最小PtEdg240.45 103.27 23.29 70.81pRegularStress197.92 163.87 2.47 27.01最小Vertx 194.74 79.92 17.05 29.30FinVertx 190.35 129.48 2.87 4.49对于图质量度量，忠实性度量（例如，Shape_GG= 0。23和Avg应力= − 0。22）显示出比可读性度量更强的相关性（例如，角度M= 0。11，minVertx= 0。14），除了交叉=-0。24和minAng= 0。2.最相关的参数和属性。表2显示了特征重要性测试结果。基于结果，我们选择以下7个最相关的度量和具有强相关性的属性（即，Pearson系数>0。3和F值>900），包括pCrossNo、pGeode、pShape_KNN、PathLength、pContinuu、pAvgStress和pMinAng，用于我们的机器学习模型M和MSP，用于预测第4节中的最短路径任务性能。请注意，我们选择 pMinAng 而不是 pAvgScaledStress ，尽管 FpAvgScaledStress的值大于pMinAng，因为PAvg应力显示出比对于实例Dk（s，t），设T效率（分别为，T时间、T准确度和T努力）表示效率的z分数（分别为，响应时间）、准确性和脑力劳动。具体来说，我们使用每个参与者的T效率、T时间、T准确度和T努力的平均值计算Dk（s，t）的每个任务性能标签L效率、L时间、L准确度和L努力，如下所示：1. 对于每个实例Dk（s，t），令l为地面真实最短路径实验数据中的出现次数。2. 对于每个实例Dk（s，t），计算任务性能标签如下：• L效率=∑lT效率/l• L准确度=∑lT准确度/li=1pAvgScaledStress。• L努力 =∑lT努力/l− 1。4. 机器学习模型本节描述了我们的机器学习方法，用于预测人类在图形绘制中找到最短路径4.1. 最短路径任务性能标签设Dk（s， t）表示具有两个预定端点s和t的图Gk的图.对于每个实例D k（s，t），我们使用来自最短路径实验的地面真实数据（Huanget al. ，2016; Fletcher et al. ，2019; Huang et al. ，2014年）。由于人工任务性能可能是主观的，因此不同的参与者可能具有不同的效率（分别为，响应时间、准确性和脑力劳动）。为了解决这个矛盾，我们用下面的方法来达成共识。4.2. 使用质量度量的模型M图图3示出了机器学习模型M预测任务性能标签的流水线，包括（a）模型输入：最相关的路径度量或属性（即，pShape_KNN、pAvgStress、pCrossNo、pMinAng、pContinuu、pGeode和PathLength）;（b）选定的回归和分类模型;以及（c）输出预测。为了提高学习效率，使用sklearn库中的preprocessing.MinMaxScaler函数将每个度量缩放到范围[0，1]。(a) 模型输入。在训练阶段，输入包括最相关的路径度量或属性（即， pShape_KNN 、 pAvgStress 、 pCrossNo 、 pMinAng 、pContinu、pGeode和PathLength）以及训练数据的任务性能标签。在测试中-在测试阶段，输入包括测试数据的最相关的路径度量或属性，以预测任务性能标签。(b) 回归和分类的模型选择。我们使用回归模型（分别为，分类模型）的L效率和i=1pCrossNo一八二三年521105.7795.03160.04pGeode1665年461215.8530.26131.78pShape_KNN1491.281112.4931.19299.45路径长度1478.811140.7054.82535.77pContinuu1413.281036.8118.8694.16pAvgStress1259.86950.8042.14102.60pAvgScaledStress1072.76846.3123.04101.16pMinAng994.70536.0968.64101.95穿越626.63337.9255.8782.18形状_GG567.24348.8716.6834.91形状_EMST557.28310.7423.0539.94形状_RNG549.94324.7219.8137.31平均应力513.93347.0124.3848.69平均缩放应力491.99344.6516.4051.57pAngMean490.34230.9413.4419.47|E|480.78417.49237.26216.3819.1028.4234.5236.27角度M 114.7867.11边缘D 13.5816.12 2.93 10.05edgeM 2.590.07 0.01 10.18S. Cai，S.-H. 洪，X.Xia等人视觉信息学6（2022）5055×图3.第三章。模型M：（a）模型输入，（b）选定的回归和分类模型，（c）产出预测。L时间（相应地，L精度和L努力），来自sklearn库（Pedregosa等人，2011年）。具体而言，所选回归（分别为，分类-阳离子）模型中所示的图。 3（b）款。回归模型包括线性回归、岭、贝叶斯岭、支持向量回归、随机森林回归、梯度提升回归和多层感知器回归。分类模型包括逻辑回归、岭分类器、支持向量分类器、随机梯度下降分类器、多项式朴素贝叶斯、梯度提升分类器和多层感知器分类器。注意，这样的模型是基于用于回归的较小验证均方误差（MSE）和用于sklearn库中的机器学习模型之间的分类的较大验证准确度（ACC）来选择的（Pedregosa et al. ，2011年）。更具体地说，MSE是指真实目标值和估计目标值之间的均方误差回归损失。ACC是指地面实况标签和预测标签之间的准确性分类得分(c) 输出预测。在训练阶段，我们需要测量并最小化输出预测之间的差异（例如， L′efficiency）和任务绩效标签（例如， Lefficienc y）。在测试阶段，我们使用MSE和ACC来测量测试数据集的输出预测与任务性能标签之间的差异，并最终评估模型的性能。4.3. 基于CNN的SP模型我们还提出了一个基于CNN的模型SP，可以预测任务的性能标签从图形绘制图像。CNN的显著优势在于它们擅长从图像输入中提取特征。图4示出了模型SP的流水线，包括：（a）模型输入，即，具有突出显示的最短路径的图形绘图红色和任务性能标签;（b）基于CNN的（即，He et al. ，2016）图像特征提取器和将模型输出转换为匹配任务性能标签的全连接层;以及（c）输出预测。(a) 模型输入。在训练阶段，输入包括具有突出显示的最短路径的大小为320的图形绘制图像，以及训练数据的任务性能标签。在测试阶段，输入包括图形绘制图像，突出显示测试数据的最短路径，以预测任务性能标签。(b) 基于CNN的图像特征提取器。我们基于CNN的图像特征提取器构建在ResNet-18上，ResNet-18是一个18层深度的残差网络，在我们的初步实验中，它在其他深度模型中表现最好。最后一个全连接层转换语义特征向量的输出，并将其映射到任务性能标签上。图4（b）显示了我们基于CNN的特征提取器的设计。(c) 产量预测在训练阶段，我们的目标是训练所提出的深度模型，使输出与任务性能标签保持一致。具体来说，我们通过最小化模型输出和任务性能标签之间的差异来优化深度模型的参数。更具体地，最后完全连接的层的输出特征尺寸是1（相应地，二和九）与S形函数（分别，Softmax函数），用于预测L效率和L时间（分别，L精度和L努力）。对于L精度（分别为，L努力），我们转换2维数组（分别为，9-使用numpy.argmax函数将数组的最大值（多维数组）转换为单个值，该函数返回数组的最大值的索引。图4（c）示出了任务性能标签的示例（例如，L精度=1）和模型输出（即，L′精度= [0. 0021，0。8755]，最大值在索引1处为0.8755，其匹配L准确度=1），类似于脑力劳动的预测。4.4. 使用迁移学习迁移学习。为了训练深度模型以更好地理解人类执行最短路径任务，我们需要大量的标记数据。然而，运行人体实验通常耗时且昂贵，因此我们通过采用迁移学习方法来解决这个问题（Pan和Yang，2009）。迁移学习从源任务（不同但相关的任务）中提取知识以提高目标任务中的学习性能，其中源任务和目标任务共享一些相似的信息。通常，如果目标任务的训练数据有限，通过迁移学习，我们可以使用具有足够训练数据的源任务。基于公制的标签。为了预训练深度模型MSP，我们定义了一个基于度量的标签（见图1）。5（A）），使用以下七个度量和属性（即， pShape_KNN 、 pAvgStress 、 pCrossNo 、 pMinAng 、pContinu、pGeode和PathLength），它们与最短路径任务性能最相关，如第3.2节所示。为了提高学习性能，每个度量被缩放到范围[0，1]。然后，我们使用目标任务数据（例如，任务性能标签）来微调深度模型MSP。型号MSP。图图5示出了具有两个阶段的模型MSP的流水线：S. Cai，S.-H. 洪，X.Xia等人视觉信息学6（2022）5056图四、模型SP：（a）模型输入，（b）基于CNN的（即，ResNet-18）图像特征提取器，（c）输出预测。图五、M S P 模型：（A）预训练，（B）微调。(A) 预训练：在预训练阶段，输入包括具有突出显示的最短路径的图形绘制图像，以及训练数据的基于度量的标签。模型输出由具有Sigmoid函数的全连接层转换。当基于度量的标签的总验证损失达到最小值时，我们停止训练并保存优化模型以进行微调。(B) 微调：在微调阶段，输入包括图形绘制具有突出显示的最短路径的图像，以及训练数据的任务性能标签，其中我们使用输入在阶段（A）中微调预训练模型。在测试阶段，输入包括具有突出显示的最短路径的图形绘制图像，以使用阶段（B）中的微调的深度模型来预测任务性能标签。5. 实验本节介绍了我们实验的细节，包括数据集、模型设计和实现、模型训练、预测结果和讨论。5.1. 数据集我们使用来自最短路径实验的地面实况数据（Huang et al. ，2016; Fletcher et al. ，2019; Huang et al. ，2014年）。这些图是由力导向布局绘制的小而稀疏的罗马图（13-50个顶点和12-71条边）。最短路径的长度从3到6不等具体而言，数据集包含230个图形绘图与各种预先指定的顶点，在5542个实例的图形绘图与突出显示的最短路径。对于每个实例，我们计算任务性能标签，如第4节所述，其中L 效率∈ [−17]。27，1。81]，L时间∈ [− 0. 92，31。34]，L精度是0或1，并且L努力是来自[0， 8]的整数。5.2. 模型设计与实现为了验证使用路径忠实性度量的重要性，我们将我们的模型与基线模型B进行比较，该模型使用所示相同的选定回归和分类模型然而，在3（b）中，培训的投入不同具体地，在训练阶段，输入包括训练数据的所有路径可读性度量和任务性能标签在测试阶段，输入包括测试数据的所有路径可读性度量，以预测任务性能标签。S. Cai，S.-H. 洪，X.Xia等人视觉信息学6（2022）5057：××表3四个训练模型的预测结果的MSE和ACC：所有模型都成功预测任务性能标签（即，效率、响应时间和准确性）。请注意，MSP的性能最好，M的性能优于B，SP的性能优于M。更小的MSE（分别为，更大的ACC）表示更好的预测结果。0.3757±0.0065 0.3664±0.0071 0.3627±0.00590.3555±0.0104（69.25±0.83）%（69.44±0.91）%（71.15±0.76）%（71.69±0.73）%（30.40± 1.36）%（32.17± 1.03）%（32.69± 0.83）%（33.37 ±0.68）%因此，我们在实验中比较了以下四种模型：1. B：基线回归（分别为，分类）仅在路径可读性度量上训练的模型 pCrossNo 、 pAngMean 、 pMinAng 、 pContinu 和pGeode）和任务性能标签。2. M：回归（分别为，分类）模型在7个最相关的路径可读性和忠实性度量上训练（即， pShape_KNN 、pAvgStress 、pCrossNo、pMinAng、pContinu、pGeode和PathLength）和任务性能标签。3. SP：一个在图形绘制图像上训练的深度模型，带有突出显示的最短路径和任务性能标签。4. MSP：一种深度模型，在具有突出显示的最短路径和基于度量的标签的图形绘制图像上进行预训练，然后在具有突出显示的最短路径和任务性能标签的图形绘制图像上进行微调。我们在Google Colab Pro上通过PyTorch为SP和MSP模型实现了ResNet-18。模型参数包括Adam优化器、5 × 10−4权重衰减、128批量大小、5 × 10−4学习率和200 epoch。5.3. 模型训练对于预测任务性能标签的机器学习算法，我们需要训练数据集来训练模型参数。此外，我们需要选择一个超参数控制的模型具有良好的性能。为了避免深度模型中的过拟合，我们利用数据增强，包括水平随机翻转和随机旋转（即，25度）。所有实验都基于随机数据分割重复五次，使用sklearn库中的model_selection.train_test_split函数的random_state。具体来说，我们将输入数据随机分为训练和测试数据集，比例为73，因此，训练数据不用于测试数据。对于训练集，我们进一步随机选择70%用于训练，30%用于验证。我们重复随机分裂五次，以避免过度拟合。更具体地，对于模型M（分别为，B），我们随机分割最相关的路径可读性和忠实性度量（分别为，路径可读性度量）及其用于训练和测试数据集的任务性能标签。类似地，对于模型SP，我们随机地将具有突出显示的最短路径的图形及其任务性能标签拆分为训练和测试数据集。对于模型MSP，我们随机分割具有突出显示的最短路径的图形绘图任务性能）标签用于预训练（相应地，微调和测试数据集）。5.4. 预测结果为了比较模型，我们使用它们的预测结果的MSE（测试均方误差）和ACC（测试准确度）。具体而言，MSE（分别为，模型M和B的ACC）是最小值（分别为，最大）MSE（分别，ACC）的预测结果之间的七个回归（分别为，分类）模型在第4.2节中描述。对于MSP和SP型号，MSE（分别为，表4用于比较两个模型之间成对差异的Wilcoxon符号秩检验的p值，表明模型之间的比较具有统计学显著性（例如，p值为<0。05意味着第一模型在统计学上显著优于第二模型）。M vs. BSP与MMSP与MMSP与SP效率0.03130.03130.03130.0313响应时间0.03130.15630.03130.0938精度0.07210.03130.03130.0313脑力劳动0.03130.09380.03130.0313ACC）是模型的预测结果。我们计算五次随机分裂的预测结果的平均MSE和ACC，以及四个训练模型的标准差。表3显示了四个训练模型的预测结果的MSE和ACC。更小的MSE（分别为，更大的ACC）表示更好的预测结果。总之，结果表明，所有模型都成功地预测了人类最短路径任务性能标签（即，效率、响应时间和准确性）。具体来说，MSP表现最好，证明了迁移学习的成功，即，对具有突出显示的最短路径和基于度量的标签的图形绘制图像进行预训练的重要性，以及对具有突出显示的最短路径和任务性能标签的图形绘制图像进行微调的重要性。注意，M比B表现得更好，证明了新的路径忠诚度度量在预测人类最短路径任务性能方面的重要性。类似地，SP的表现优于M，证明了具有突出显示的最短路径的图形绘制图像对于预测人类最短路径任务性能的重要性。为了验证表3中模型之间的比较是否具有统计学显著性，我们进行了Wilcoxon符号秩检验（Wilcoxon，1992），这是一种非参数统计假设检验方法，用于比较使用scipy.stats.wilcoxon函数的成对模型与MSE和ACC值。表4显示了用于比较成对模型的Wilcoxon符号秩检验的p值。 p值取决于中值MSE（分别为，ACC）的第一个模型较大（分别为，小于）的中值MSE（分别，ACC）的第二种模式。通常，p值为<0。05意味着第一模型在统计学上显著优于第二模型。注意，MSP比M表现得更好，其中预测所有任务性能标签的差异是显著的，这证明了对具有突出显示的

下载后可阅读完整内容，剩余1页未读，立即下载