没有合适的资源?快使用搜索试试~ 我知道了~
阵列14(2022)100186选择聚类算法:一个用于有效人物角色开发的Elizabeth Dittona,Anne Swinbournea,Trina Myersb詹姆斯·库克大学1 James Cook Drive,Douglas,4811,QLD,Australiab昆士兰科技大学,2 George St,Brisbane City,4000,QLD,澳大利亚A R T I C L E I N F O保留字:自动化角色开发机器学习聚类算法超参数调整内部评估指标A B S T R A C T当处理聚类问题时,例如在人物角色开发期间,选择最合适的算法和参数组合是必不可少的。确定最佳组合所需的超参数调优过程通常很繁琐,因此需要通过评估指标进行自动化。 然而,没有地面真值可用于聚类算法的经验评估,现有的内部指标无法评论其拟议用例的一组聚类的质量。本文提出了一种半自动化框架的超参数调整的聚类算法的人物角色的发展,HyPersona,它最大限度地减少了人工干预,通过简单的评估和生产的信息图表和早期阶段的人物角色。在HyPersona,内部度量集中在必要的方面,以发展质量的人,平均特征的意义(AFS),建议协助评价结果。HyPersona通过应用于现实世界的人物角色开发问题进行了验证,评估了三种最广泛使用的人物角色开发聚类算法。HyPersona与现有的超参数调整和人物角色开发方法进行了比较,并开发了具有可比质量的人物角色,同时减少了人工干预。建议的内部指标,AFS,被发现提供了一个独特的洞察集群集的性能,为人物角色的发展。1. 介绍聚类是无监督机器学习的一个领域,它试图通过创建具有相似值的组来找到非结构化数据中的结构[1,2]。有许多聚类方法,每一种都擅长于找到特定性质的聚类。聚类的主要挑战之一是算法选择可能对开发的聚类产生巨大影响,并且特定算法的性能通常取决于数据中聚类的性质[1]。即使是两个相似的算法也可能在同一个数据集中找到完全不同的聚类集合[1]。此外,聚类算法是出了名的难以评估,因为一般来说,没有可用的基础事实,并且从同一数据集创建的多组聚类可能同样有效[1]。集群问题的一个突出例子是人物角色开发。人物角色是对一个虚构人物的描述,用于以强调人类属性和同理心的方式描述分析数据和客户群[3,4]。传统上,人物角色在设计或营销过程中用于表示特定类型的目标user [3].最近,人物角色已经从消费者市场转移到更广泛的行业中,人物角色通常在人机界面的设计和开发中发挥不可或缺的作用人物角色的力量来自于他们能够使数据人性化和交流信息,而不需要特定领域的行话。手动角色开发是时间和资源密集型的,并且通常需要高水平的专业化来执行[5,6]。不 人物角色开发的高成本不仅成为使用人物角色的障碍,而且成本也使维护和更新人物角色变得困难[5,6]。为了解决手工角色开发的弱点,人们一直在推动更自动化的角色开发方法[5,6]。然而,对自动化和半自动化人物角色开发方法的主要批评之一是,它们无法捕捉复杂的概念和细微差别,而这些概念和细微差别是人工开发人物角色的关键方面[5,6]。当前的半自动化方法通常在将聚类算法应用于数据之前严重依赖于人工指导,并且通过来自用户的反馈进一步输入这项研究没有收到任何来自公共,商业或非营利部门资助机构的具体资助∗ 通讯作者。电子邮件地址:elizabeth. my.jcu.edu.au(E. 迪顿),安妮jcu.edu.au。 Swinbourne),trina. qut.edu.au(T.Myers)。https://doi.org/10.1016/j.array.2022.100186接收日期:2022年4月3日;接收日期:2022年5月8日;接受日期:2022年5月11日2022年5月18日网上发售2590-0056/© 2022作者。爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)的开放获取文章。可在ScienceDirect上获得目录列表阵列期刊主页:www.elsevier.com/locate/arrayE. Ditton等人阵列14(2022)1001862主题专家(SME)或与受众细分代表的访谈被用来捕捉人物角色的预期深度[5这些自动化和半自动化方法中的大多数依赖于对聚类算法的小的、流行的选择,在选择聚类算法之前几乎没有执行记录在案的分析,这意味着没有采用聚类算法的不同质量[6,7]。当将聚类解决方案应用于现实世界的问题时,聚类算法和算法参数的选择(称为超参数调整的过程)是相当大的挑战。通常需要多次迭代和相当多的领域知识来找到最佳算法配置,并且该过程通常是漫长而乏味的[8,9]。在有监督的问题中,超参数调整通常是自动的,其中地面真值是可用的。然而,自动化的超参数调整需要准确和客观的评价指标,这是不适用于聚类问题,由于其无监督的性质。聚类算法和人物角色集的评估带来了相当大的问题。用于聚类算法的自动超参数调整的现有方法通常依赖于内部评估指标[8,10,11]或具有可用于外部评估指标的一些地面真实标签[9,12]。然而,内部评估指标往往是有偏见的,不给对集群质量的全面看法[13]。外部指标需要有一些可用的地面真值标签,这将问题转移到半监督空间中,这意味着结果不能直接应用于无监督问题。Von Luxburg等人。[13]断言,聚类算法不能独立于它们将被使用的上下文进行评估。本研究提出了一个半自动聚类算法hyperparameter调优框架设计的人物角色开发,HyPersona,开始解决的挑战与自动人物角色开发的聚类算法的调整。Hyper-sona框架在一系列聚类算法和参数组合上执行详尽的网格搜索,确定并输出每个组合的相关信息、图形和原始人物角色,然后可以使用这些信息来识别最合适的算法。HyPersona框架还应用了简单的评估,将结果集群的内部指标与一组预定义的阈值,并丢弃不满足阈值的任何结果,以缩小有效的算法参数组合并减少所需的手动干预量。为了进一步帮助相关的聚类评估,一个额外的内部度量,平均特征重要性(AFS),开发的前提下,质量人物角色应该有独特的属性,并显着不同。HyPersona通过应用于气旋准备行为的数据进行了演示和评估,目的是促进围绕澳大利亚北昆士兰州(NQ)气旋准备行为的有针对性的信息传递。对这些人物角色的特定领域评估要求人物角色与行为理论保持一致,围绕损害缓解行为的表现,并代表居民的感知和态度。HyPersona比较了自动化和半自动化人物角色开发中最突出的三种算法:(1)k-means [14-HyPersona的结果与基于内部评估指标的全自动超参数调整框架的结果进行了比较。共12个算法参数组合的基础上的三个算法进行了测试。测试的12个算法参数组合中有5个(41.6%)在简单评估时被排除,这大大减少了所需的手动评估量。所有被排除的算法参数组合都被确认为用例的无效选择。通过手动特定领域的评估,随机初始化的k-means是algorithm–parameter combination selected as the best performer anda本文介绍的内部指标,AFS,被发现是一个有用的指标的质量集群集的人物角色的发展,并提供了替代洞察集群质量现有的内部指标。发现HyPersona框架比基于单一内部度量的完全自动化的超参数调优框架为用例开发了更好的人物角色集。还将HyPersona与聚类算法的现有半自动超参数调整框架Hypercluster [10]进行了比较,发现以便于更有效的评估和算法选择过程。虽然针对人物角色的发展,HyPersona框架具有更广泛的集群算法应用程序的影响,主要是通过提供一个模型,促进特定领域的评估,并提出了一个新的内部指标。HyPersona还表明,聚类算法可以识别反映复杂因素的聚类,如感知和态度,只需最少的人工干预。总之,本文提出了几个关键贡献:• HyPersona是一个以用例为中心的聚类算法半自动超参数调整框架,它扩展了现有的思想和方法。• 一种半自动化人物角色开发的方法,重点关注算法选择的影响• 用于聚类算法的内部评估度量,其奖励彼此显著不同的聚类质心,这是对于其他用例中的质量角色开发很重要的元素。• HyPersona框架应用于现实世界的用例,并与现有的超参数调整和人物角色开发方法进行比较。本文其余部分的结构如下。第二节讨论了HyPersona背后的相关工作和动机。第3节详细介绍了HyPersona框架。第4节介绍了案例研究和使用的参数。第5节给出了案例研究的结果。 第六节讨论了研究问题的结果。第7节结束本文。2. 相关工作2.1. 聚类算法本研究重点关注人物角色开发领域最广泛使用的三种算法[19]。K-meansK-means是最广泛使用和最知名的聚类算法之一[1]。k-means的前提是对数据集进行分区,以确定最佳质心。通过将每个数据点分配到其最近的质心,创建聚类,然后将质心更新为聚类均值,直到质心不再变化的迭代过程来识别最佳质心[14有许多流行的k-means算法,其中最流行的是k-means++ [20],它根据与现有质心的距离选择初始质心值,而不是像原始算法那样随机选择。凝聚层次聚类(AHC)AHC算法被描述为一棵二叉树,可以在任何点分裂以产生所需数量的聚类,并且是凝聚的或分裂的[1,2,21,22]。AHC以每个数据点作为自己的聚类开始,并递归地组合两个最相似的聚类,直到所有数据点都在一个聚类中[1,2,21,22]。 AHC通常根据所使用的链接来定义,用于确定两个聚类的相似性的度量。E. Ditton等人阵列14(2022)1001863本文中使用的链接是:(1)Ward非负矩阵分解(NMF)NMF找到一对非负矩阵,和���,其乘积近似于数据集的非负矩阵[18]。每个数据点在组件中的重要性都表示它,而每个数据点在组件中的重要性都表示一个特征������[18]. 通过将组件的数量设置为所需的聚类数量,可以通过确定每个数据点对Lee和Seung具有最强亲和力的组件来创建聚类[18]。NMF有两个主要求解器:CD求解器[24]和MU求解器[25]。2.2. 聚类评价有两个一般类别的集群评估指标,内部和外部[2,21]。此外,还有元标准可用于评估聚类算法的质量[13]。2.2.1. 内部评价指标内部方法使用相似性度量来测量聚类质量,通常测量:聚类间可分性;聚类内同质性;或两者的组合[21]。内部评估方法可能很有用,但对开发的聚类以及一种算法是否优于另一种算法知之甚少[13]。大多数内部指标都倾向于特定类型的聚类算法,这使得它们非常有偏见[13]。例如,测量集群间可分离性的度量将优选具有类似基础的算法,诸如k均值,而测量集群内同质性的度量将优选基于密度的算法。在这项研究中,三个流行的内部指标被用作HyPersona框架的一部分:轮廓系数(SC)[26]SC基于聚类的定义程度,考虑到聚类内距离以及给定聚类与下一个最近聚类之间的距离。SC分数介于-1和1之间,其中-1表示不正确或重叠的聚类,1表示密集、分离良好的聚类。Calinski–Harabasz Index (CHI) [27]一组基于聚类定义的聚类,使用聚类间离散度和聚类内离散度之和的比率。较高的CHI分数与更好定义的聚类相关,并且值没有界限。Davies–Bouldin Index (DBI) [28] 较低的DBI分数表示更不同的聚类分区,0是最佳可能分数。2.2.2. 外部评价指标外部聚类评估度量将给定聚类算法的结果与一组“正确”聚类进行比较。然而,测试精度存在几个问题。一组类别可能是基于理论差异,这些差异在数据中没有得到充分的体现,或者没有反映出内 一个数据集可能有多个正确的聚类集,这意味着仅仅因为算法没有找到预期的聚类,不一定意味着算法没有找到有效的聚类集合[29]。由于在现实世界的数据集中没有正确的答案,外部评估不能代表现实世界的问题领域[13]。2.2.3. 元标准元标准可以用于确定聚类算法的质量,而不是开发的聚类集的质量。稳定性这是一种流行的评估方法。如果重新运行聚类算法,相同的数据一致地产生相同的聚类,该算法被认为是稳定的[13]。不稳定的算法被认为是不可靠的,通常不适合进一步使用[13]。 使用统计测试来确定所开发的集群是否彼此显著不同也是有用的。如果测试发现一对聚类彼此不偏离,则该算法可能识别出重叠的聚类,而不是所需的分离良好的聚类[13]。HyPersona中使用的一个Meta标准是集群大小,因为小集群不能代表人口的重要部分,相反,它们 很可能代表离群值,这通常不是人物角色开发的期望结果。2.3. 聚类算法算法和参数的选择,被称为超参数调整的过程,是一个相当大的挑战,当应用聚类到一个现实世界的问题,算法和参数的选择有显着的影响集群开发。 由于聚类算法评价的困难,聚类算法的超参数调整过程通常是 一个乏味的[8,9]。超参数对聚类结果的影响无法通过凸函数来描述,这意味着无法得出关于超参数影响的推断,从而加剧了超参数调整的繁琐,因为需要进行穷举网格搜索[10]。现有的方法,如超集群包[10],依赖于内部指标和用户解释来确定最佳执行算法。超聚类使用SC、DBI和CHI以及聚类大小作为内部指标,当没有地面真值可用时,可以使用可视化工具(如热图)来确定哪组超参数总体上表现更好[10]。聚类算法的超参数调整的其他方法是类似的,要么依赖于现有的内部度量,要么通过使用地面真值和外部度量将问题移动到监督或半监督空间。2.4. 自动化人物角色开发人物角色开发方法从完全手动到几乎完全自动化的范围内变化。从历史上看,大多数个性化开发方法都是手动的,基于丰富的定性数据,例如来自访谈或深入案例研究的数据,并利用在手动个性化创建过程中能够执行的深度解释和外推[5,6]。自动化方法使用聚类算法或类似算法作为 一个框架来开发完全实现的人物角色,这导致了更快和更少的资源密集型人物角色开发过程[5,6]。然而,这种自动化的方法被批评为无法捕捉使人物角色如此有价值的复杂概念和观点[5,6]。半自动化方法是介于手动和自动化方法之间的一切,从几乎完全手动的方法加上统计见解到几乎完全自动化的方法,这些方法只依赖于手动干预来完善最终的人物角色[5,6]。半自动化的人物角色开发方法可以从手动和自动化方法的优点中受益,但是,通常会陷入与每个方法相关的陷阱,例如时间和资源密集型过程以及更浅的人物角色。人物角色开发文献中的趋势开始倾向于自动化或半自动化方法[7]。尽管方法很少接近完全自动化,但半自动化方法依赖于手动创建人物角色和/或先前的数据管理,以减轻自动化结果的肤浅性[7]。到E. Ditton等人阵列14(2022)1001864Salminen等人[7]建议使用更复杂的计算技术,例如使用多种技术来识别人物角色的不同元素。然而,将个人行为或观念的不同要素视为大多数自动化或半自动化的人物角色开发方法依赖于一小部分聚类算法中的一种,对算法选择的先验分析有限[7,19]。 在自动化或半自动化人物角色开发之前评估更广泛的聚类算法的性能可以通过利用聚类算法的不同性质来帮助开发更深入和更细致的人物角色。 有了更广泛的聚类算法和明智的选择最合适的, ATE算法,可以避免对更复杂的人物角色开发方法的需要。与聚类评估类似,人物角色评估是困难的,因为没有“正确”的答案。因此,自动化和半自动化人物角色开发方法的评估和验证往往是非正式和有限的[7]。其他评估方法包括进一步的访谈或对参与者的案例研究或纯粹的定量方法,例如人物角色之间的平均欧几里得距离[7]。在目前的研究中,人物角色将根据他们如何反映行为理论和支持特定领域的评估进行评估。3. Hypersona框架概述HyPersona框架的核心是在一系列算法和参数组合上执行详尽的网格搜索,计算用于简单评估的相关指标,然后输出每个组合的信息,这些信息可用于识别最合适的算法。HyPersona扩展了[30]中预先提出的半自动聚类算法超参数调优框架,通过应用阈值来排除人物角色开发的无效聚类集,引入AFS和创建早期人物角色。图1给出了HyPersona自动化部分HyPersona采用一个字典,其中详细说明了要测试的每个算法和参数,并将其扩展为所有可能的算法和参数组合的列表。针对每个算法参数组合计算内部度量(包括AFS),然后基于其内部度量是否满足某些阈值来用于测试算法参数组合的有效性,其中丢弃不满足阈值的任何算法参数组合。然后,简单评估的内部指标和结果输出到运行的CSV文件,该文件可用于评估评估单个算法参数组合的性能和整体算法性能。代表集群和早期人物角色的关键特征的图被开发用于每个剩余的算法参数组合,以促进有效的特定领域的评估。HyPersona的当前版本是用Python 3.8编写的,利用了许多可用的计算机科学和科学库。3.1. 输入和数据先决条件可以向HyPersona框架传递三个主要输入:(1)要聚类的数据;(2)算法和参数的字典 待测试;以及可选地,(3)待在输出中使用的域特定信息的范围。在运行HyPersona之前,需要进行一些初始测试来配置内部指标阈值,因为可接受的值可能会因所使用的数据集而异。传递到HyPersona的数据应该是干净的、数字数据、自由的 的nulls。这在很大程度上是由于许多集群的要求Fig. 1. HyPersona框架自动化部分的图形表示。不 处 理 非 数 字 或 空 数 据 的 算 法 。 可 以 将 特 定 于 域 的 信 息 传 递 到HyPersona中,以确定哪些功能包括在图表中,并可以提供首字母缩略词来简化图表。还可以定义在开发的早期人物角色中应该始终包含的关键特征,如人口统计学因素。最后,可以设置聚合特征,其中输出还应包括所选特征的平均值。聚合特征并不影响聚类过程,它们只是提供更多的E. Ditton等人阵列14(2022)1001865+图二. 算法字典的架构。简洁的输出,其中存在与单个因子相关的多个特征。算法字典详细说明了要考虑的每个聚类算法和参数,并为每个集合分配标识符。HyPersona使用标识符和数字来表示每个参数组合,以作为算法参数组合的唯一标识符。算法图的模式如图所示。二、映射中的每个条目都适用于一个聚类算法,标准差聚类平均值与总体平均值不同 都在名单上早期的人物角色使用id([id]_personas.txt)保存到文本文件中。3.3. 平均特征显著性除了现有的内部指标,HyPersona还使用了一个新的内部指标,专门针对开发质量人物角色的重要元素,即平均特征重要性(AFS)。AFS度量基于这样的前提:一组人物角色中的人物角色应该具有唯一的属性,并且彼此之间存在显著差异。因此,AFS的值基于每个聚类质心的特征的统计显著性。AFS给出了一个聚类中与总体均值或其他聚类显著不同的特征的平均数。当集群列表被给定为={1,...,���������������{\fnSimHei\bord1\shad1\pos(200,288)}令1(,)返回聚类中与使用单样本t检验的平均值相比显著不同的特征数,2()返回一对���������������聚类分析,使用双样本t检验。������那么,AFS可以定义为:作为类提供,这是sklearn库的标准,∑������1(������,���)+ ∑������2(������)或者一个函数,这是pyclustering库的标准。的类型参数定义了给定的算法定义的类型。A =���+1��� +1������(一)当类型是集合值而不是包括算法时,参数,映射将包括一组字典,的算法和参数,以用作合奏的一部分。params值包含每个参数的另一个映射和要使用的潜在值3.2. 框架核心HyPersona框架的核心是一个详尽的网格搜索,它运行每个算法参数组合并输出有关结果的信息,然后可以用于选择最合适的算法。HyPersona首先从算法字典中获取每个可能的算法参数组合,并为其分配一个唯一的标识符(id)。下一步是在数据上运行每个算法参数组合,并计算聚类集结果的内部度量。 然后将内部度量与一组预定义的阈值进行比较,丢弃不满足阈值的聚类集。使用的内部指标是SC、CHI和DBI,以及提议的特定目的的内部指标AFS。之所以选择内部指标,是因为它们都主要衡量聚类的可分性和定义,较差的值通常表示重叠或模糊的集群,这些因素对人物角色的发展也很重要。除了内部指标外,还考虑了集群大小。由于期望的人物角色将反映人口中常见的、重要的态度和信仰,而不是外围的观点,因此每个集群都应该包含人口的重要部分。所 有 算 法 参 数 组 合 的 内 部 度 量 输 出 到 运 行 的 CSV 文 件(metrics.csv),对于被丢弃的算法参数组合,还包括它们不满足的阈值的详细信息。对于没有被丢弃的算法参数组合,开发了表示聚类质心和早期角色的图。这些图形显示聚类质心的每个特征与总体平均值的标准差数量。设置后,图表中仅包含关键功能,并在可用时使用首字母缩略词。为每个聚类质心提供一个单独的图形,并使用id([id].csv)为算法参数组合保存一个包含图形的SVG文件。类似地,早期人物角色列出了所有发现与群体平均值或聚类质心之间存在显著差异的值。对于每个特征,聚类的平均值、总体平均值和如果一个特征的值小于0.05以上。AFS没有界限,但总是大于0,值越高意味着平均而言,聚类的特征差异越大。3.4. 手动评估和人物角色创建HyPersona框架的最后一个方面是使用输出来促进算法参数组合的手动、特定于域的评估,以便可以选择最合适的算法参数组合。一个数据集可以有多个有效的聚类,内部度量可以偏向于特定的聚类算法,奖励基于类似前提的算法。例如,对于凸聚类,SC通常更高,这意味着倾向于开发凸聚类的算法(如k-means)更有可能表现良好。因此,不应自动选择根据内部度量的表现最好的算法参数组合。相反,内部指标被用作指导应首先考虑哪些集群集的指南。由于AFS是在考虑人物角色开发目标的情况下开发的,因此AFS被用作人物角色开发集群集质量的主要指标。需要一些特定领域的专业知识来评估结果,并且如果正在使用关键特征,则还可能需要某些特定领域的专门知识来识别哪些特征合格。特定于领域的评估过程将根据用例而有所不同。然而,HyPersona的设计是为了使评估更直接的图表和简单的指标.识别已经开发出显著相似的聚类集的算法参数组合是特定领域评估期间的第一步之一。如果一对聚类集是相同的,则它们是显著相似的,或者聚类集之间的差异不会影响人物角色开发期间对聚类的解释。HyPersona开发的图表允许有效比较聚类集以确定相似性。当两个聚类集非常相似时,内部指标将确定哪个聚类集被利用一旦特定领域的评估已被用来确定最佳性能的算法参数组合,早期阶段的人物角色,然后作为一个基地,为充分实现的人物角色。早期的人物角色文件很简单,可以将结果转换为任何所需的人物角色格式,重点放在功能上E. Ditton等人阵列14(2022)1001866表1算法参数组合和唯一标识符。ID参数基于AHC的算法参数组合[ 23 ]第23话我的世界agg_heir_v1链接:完成agg_heir_v2链接:平均值agg_heir_v3链接:单个基于K-means的kmeans_v1初始化:随机基于NMF的nmf_v1求解器:cd [24],迭代次数:500nmf_v2求解器:cd [24],迭代次数:1000nmf_v3求解器:mu [25],迭代次数:表2关键的总体行为特征和使用的首字母缩略词特征描述Eff包括旋风百叶窗的感知效果,以减少损失,保持家人的安全,增加财产价值,并用于其他目的。C包括安装旋风百叶窗的财务、时间、精力和知识成本。PR包括飓风的个人风险;个人的日常生活,工作,心理健康和身体健康将受到怎样的影响。GR包括飓风的一般风险,灾难性破坏的可能性,广泛的死亡,金融威胁,以及对子孙后代的威胁。nmf_v4nmf_v5100求解器:mu [25],迭代次数:500求解器:mu [25],迭代:困难,高成本的选择,尽管更昂贵的方法是非常有效的[31,32]。为了确保那些生活在NQ和周边地区的人1000这些特征对于每个群集和预定为对于人物创建重要的特征显著不同。早期的人物角色最小化了人物角色创建阶段所需的数据解释量。4. Hypersona案例研究为了评估HyPersona框架,我们将其应用于真实世界的人物角色用例。选定的用例需要一组人物角色来围绕飓风损害缓解行为进行目标沟通。HyPersona评估旨在回答一系列研究问题:RQ1使用基于内部指标的阈值的有效性如何排除算法参数组合的能力AFS是一个有用的内部指标,为现有的内部指标提供替代见解吗?RQ 3基于HyPersona框架的算法参数组合的选择与基于使用内部度量的自动化框架的算法参数组合的选择有何4.1. 算法和参数被选择进行比较的算法是人物角色开发领域[19]中最重要的三种算法:k-means,AHC和NMF。所用算法和参数的详细信息见第2.1节。表1给出了每个算法参数组合和分配的ID的细节。基于从行为模型和要求的推断,所使用的聚类的唯一数量k是3。4.2. 案例研究背景热带气旋在赤道附近的温暖水域形成,导致澳大利亚北昆士兰(NQ)等地区在夏季经常遭遇气旋。在最近的一项调查中,几乎所有的NQ居民(92%)都报告说经历过至少一次飓风,几乎三分之一(29%)经历过5次以上的飓风。风险缓解策略可以帮助减少飓风对建筑物的破坏,从简单、低成本的行动(如整理院子或固定松散的户外物品)到更困难、更昂贵的行动(如对房屋进行结构升级)。可以理解的是,人们更愿意选择简单的低成本选择,而不是更多的选择采取一切可能的措施保护自己及其财产,需要有效的沟通和教育。由于个人对缓解行为有不同的看法,因此根据潜在的动机将受众细分为人物角色可以实现更有效的沟通目标。因此,可以基于它们与行为模型的一致程度来评估为此目的开发的个人评分,所述行为模型试图反映确定个体执行特定行为的意图的过程。保护性行动决策模型(PADM)是关注自然灾害响应和导致自然灾害的保护性行动绩效的最突出的行为模型之一[33选择PADM是基于该模型PADM提出,个人对个人4.3. 案例研究数据本研究使用了519名NQ居民对飓风准备行为、心理特征和人口统计学的调查答复[31]。在收集任何数据之前获得知情同意,并采取所有可能的步骤保护参与者的隐私。该调查涵盖了确定为风险缓解决策过程一部分的关键要素,以及他们将执行某些风险缓解行为的可能性,以及更一般的人口统计细节[31]。通过首先转换任何非数字特征来准备数据,或者通过直接映射值,即{无,低,中等,高} = {0,1,2,3},或者当值不是序数时进行独热编码。然后使用迭代插补替换任何空值[39]。基于PADM识别关键特征,并且在需要多个元素来描述单个感知或信念的情况下,定义聚集特征每个关键或聚合特征都被分配了一个缩写。汇总特征和首字母缩略词见表2,关键个体行为特征见表3。每个关键特征的值反映了一个人对给定陈述的认同程度,较大的值总是意味着更强的认同程度E. Ditton等人阵列14(2022)1001867表3关键的个人行为特征和使用的首字母缩略词特征描述1-3-5C 5级气旋VA旋风百叶窗的视觉吸引力AO个人认为他们可以组织旋风百叶窗安装GS在飓风发生时,政府将给予的财政支持的预期水平TF个人想到飓风的频率是个人是否积极地寻找了解如何最大限度地减少气旋的损害气旋的可能性使个人感到S强制降解F恐惧H无奈D抑郁1-2S 1-2级气旋造成的可感知损害35S 5类旋风分离器可能会执行以下下一个气旋季节TT修剪树梢和树枝CR检查生锈和腐烂木材CW检查房屋墙壁和屋顶是否安全CF检查围栏是否松动或损坏CG清洁排水沟和落水管在玻璃窗/门上贴上胶合板SO安全的户外家具和花园用品CY清除院子里的任何松散物品个人可能安装旋风百叶窗XU极不可能中度不太可能SU不太可能N既不可能也不可能SL可能性很小ML可能性中等XL极有可能4.4. 内部度量阈值在运行HyPersona框架之前,必须设置每个内部指标和集群大小的阈值。阈值的设计并不太严格,而是只排除不可接受的结果。任何少于5%数据点的聚类都被认为太小,因为这样的聚类可能代表边缘情况。AFS阈值为15,因为有30多个关键特征,如果平均而言,集群之间的显著不同特征少于15个,则从它们创建的人物角色不太可能具有显著不同的行为特征。对于其他内部度量,发现小于0的SC值、小于10的CHI值和大于5的DBI值都指示形成不良或重叠的簇。Algorithm–parametercombinations that did not meet4.5. 特定领域评估未被HyPersona删除或未找到的群集集与另一个聚类集显著相似来决定最佳选手使用HyPersona开发的图表确定每个簇与PADM的对齐程度。也就是说,无论是个人的看法和态度的旋风和旋风准备行为的功能,的表4HyPersona框架结果。ID SC CHI DBI AFS第六十七章. 33沪ICP备16011567号-1沪ICP备16011501号-10.16842.0980. 67680.00第四十七章.2.8595 58.00第四十七章. 第60章. 67沪ICP备05000000号-1沪ICP备16006666号-1电话:+86-0520 - 8888888传真:+86-0520 - 8888888nmf_v3a0.0207 6.873 3.5346 36.00nmf_v4a0.0207 6.873 3.5346 36.00nmf_v5a 0.0207 6.873 3.5346 36.00a算法排除不与PADM对齐的簇集,并基于每个簇与PADM对齐的程度对剩余的簇集进行分级。由于人物角色旨在用于有针对性的消息传递,为了最有效,每个人物角色应该代表一个离散的人群,这将需要不同的消息传递才能最有效。因此,每个集合内的聚类有多明显是排名时也要考虑。在手动评估之后,产生排名最高的聚类集的5. 结果由算法-参数组合开发的聚类集的内部度量每个指标的最高分数以粗体显示,第二好的分数以斜体显示。所有五的算法参数组合未能满足多个阈值。丢弃的算法参数组合均未能满足CHI阈值10,并且创建的聚类包含的数据点不到总数据点的5%。此外,agg_heir_v3也未能满足AFS阈值,平均为0个重要特征。使用HyPersona开发的图表和早期人物角色,发现kmeans_v1和kmeans_v0开发的集群在功能上是相同的,因为开发的集群之间的微小差异不会对开发的一组人物角色产生任何影响。因此,仅考虑具有较高内部度量值的kmeans_v1。为agg_heir_v0、agg_heir_v1、kmeans_v1和nmf_v1绘制的图表如图所示。3 .第三章。聚类已重新排序,以允许最相似的聚类相互比较。agg_heir_v0和kmeans_v1开发的聚类集非常相似,每个聚类都遵循相似的总体模式,而nmf_v1开发的聚类集差异最大。基于内部指标,域特定评估首先关注agg_heir_v0和kmeans_v1,然后关注agg_heir_v1和nmf_v1。每个聚类集的评估是基于它与行为理论的一致性,以及每个潜在人物的独特性也在特定领域的评估中被考虑。通过特定于域的评估,kmeans_v1被确定为性能最好的。与agg_heir_v1相比,选择k-means_v1是因为安装旋风百叶窗的可能性之间的差异更显著,并且集合内每个聚类的平均风险感知更明显。基于HyPersona为kmeans_v1生成的早期人物角色,开发了一组三个人物角色。由于在年龄、性别、婚姻状况或地点方面没有显著差异,因此这些人口统计学因素不包括在最终的人物角色中。最重要的人口因素被发现是以前的经验与旋风和旋风的损害。每个E. Ditton等人阵列14(2022)1001868图三. HyPersona为算法参数组合agg_heir_v0、agg_heir_v1、kmeans_v1和nmf_v1开发的图表。每组图给出了每个关键特征与每个聚类质心的总体平均值的标准差角色被赋予一个绰号来描述他们对执行导致飓风的损害减轻行为的态度。创建的三个人物角色是:不关心的旋风(集群0)不在不关心的角色的雷达上。漠不关心的人最不可能在日常生活中思考或讨论飓风,也最不可能寻找方法来帮助防止飓风造成的损害。漠不关心的人最不可能经历过飓风,对飓风的感知也相对较低与飓风有关的风险。不关心的角色自我报告的可能性最低,以执行任何准备行为或安装结构升级到他们的财产。关注者(第一组)关注者是对未来飓风最担心的人。关心的人对飓风风险的感知水平最高,最重要的因素是飓风对其身心健康的影响,以及在考虑飓风可能性时出现的无助和抑郁情绪。E. Ditton等人阵列14(2022)1001869一个旋风。忧心忡忡的人会花大部分时间思考-谈论和讨论旋风,并且很可能已经研究了如何预防旋风。相关的人物自我报告为最有可能执行所有可用的准备行为,导致下一个气旋,并有最高的动机安装结构升级,如旋风百叶窗。相关人物角色最有可能经历过飓风伤害,其中70%的人报告说受到了飓风伤害。其中,近一半报告受到中度或严重损害。自信的人(第2类)自信的人对气旋相关风险和高级别气旋的严重性的感知最低。 与关心的人格面具相比,自信的人格面具在考虑可能的飓风以及飓风对他们身心健康的影响时的无助感和抑郁感方面最不同。自信的人自我报告可能会执行简单的准备行为,但不太可能执行更困难的行为,例如安装胶合板或安装结构升级,例如旋风百叶窗。自信的人物角色最有可能经历过飓风而没有受到任何伤害,因为组成人物角色的大约46.3%的人经历过飓风而没有受到任何伤害。在经历过飓风伤害的人中,他们遭受重大伤害的可能性最小,只有12.9%的人受到过中度或重度伤害。6. 框架评价HyPersona被应用到一个真实世界的用例中,以证明其有效应用于角色开发问题的能力。通过HyPersona框架的应用和发现的结果,可以通过它回答研究问题的程度来评估HyPersona。6.1. 使用基于内部指标的阈值来排除算法参数组合的有效性如何使用的12个算法参数组合中有5个,或略高于40%,因为它们不符合所需的阈值而被丢弃。丢弃的算法参数组合产生了严重不平衡的聚类,聚类不满足总数据的5%的最小大小阈值。 此外,尽管未进行测试,但所有丢弃的算法参数组合都形成了一个包含超过90%的总数据点的聚类。相比之下,由未丢弃的算法参数组合开发的聚类的大小更平衡。表5中给出了由每个算法参数组合创建的每个聚类的大小由于规模不平衡,所形成的集群在统计上没有显著差异。大型聚类包含几乎所有的数据点,因此非常接近总体均值。虽然小集群的值差异很大,但由于它们的尺寸很小,差异很少有统计学意义。这反映在丢弃的算法参数组合的AFS最低,其中agg_heir_v3不满足所需阈值。 CHI还充当集群大小平衡程度的指示器,因为丢弃的算法参数组合都不满足最小CHI阈值。或者,两个丢弃的而不使用内部指标或集群大小来进行规则表5Algorithm–parameter combinationID群集0群集1群集2电话:+86-10 - 8888888agg_heir_v1 245 242 32515 3 1电话:+86-517-1111kmeans_v0 80 223 216kmeans_v1 93 223 203nmf_v0 239 35 245nmf_v1 143 52 324nmf_v2 124 52 343nmf_v3a479 9 31nmf_v4a479 9 31nmf_v5a479 9 31a算法表6内部指标之间的PearsonSC CHI DBI AFS1.000先令CHI −0.112 1.000DBI −0.954 0.342 1.000AFS-0.526 0.864 0.733 1.000在不兼容的算法参数组合中,agg_heir_v2和agg_heir_v3将根据其SC和DBI评分进行考虑。丢弃的算法参数组合不会创建高质量的人物角色。因此,通过自动丢弃40%的6.2. A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功