没有合适的资源?快使用搜索试试~ 我知道了~
3531×信任还是不信任:对话界面如何影响决策支持系统中的信任AkshitGuptaAkshit.gupta-20@student.tudelft.nl代尔夫特理工大学荷兰DebadeepBasu1@student.tudelft.nl荷兰代尔夫特理工大学RamyaGhantasalap.ghantasala@student.tudelft.nl荷兰代尔夫特理工大学摘要邱思航qiu s-1@tudelft.nl荷兰代尔夫特理工大学Ujwal Gadirajutudelft.nl代尔夫特理工大学荷兰关键词信任是人与人工智能关系的重要组成部分,在塑造用户对在线算法决策支持系统的依赖方面发挥着重要作用。随着自然语言处理的最新进展,基于文本和语音的会话界面已经为用户提供了与这样的系统交互的新方式。尽管对话式用户界面(CUI)的应用越来越多,但目前对此类界面用于决策支持的适用性以及CUI如何激发参与决策支持系统的人之间的信任知之甚少在这项工作中,我们的目标是解决这一差距,并回答以下问题:在何种程度上可以建立一个对话界面的用户信任的决策支持系统相比,传统的图形用户界面? 为此,我们建立了一个基于文本的会话界面,和一个传统的基于Web的图形用户界面。这些服务是用户与在线决策支持系统互动的手段,以帮助他们在给定一套固定的限制条件下找到为了理解决策支持系统的准确性如何调节两个界面上的用户行为和信任,我们考虑了准确和不准确的系统。我们在多产众包平台上进行了一项2 2名受试者之间的研究(N=240)我们的研究结果表明,会话界面是显着更有效地建立用户的信任和满意度的在线住房推荐系统相比,传统的网络界面。我们的研究结果突出了对话接口的潜在影响,在决策支持系统的信任发展。CCS概念• 信息系统→决策支持系统;聊天;·以人为中心的计算→HCI的实证研究。平等的贡献。[2]通讯作者。本作品采用知识共享署名国际协议(Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512248对话式用户界面,决策支持系统,信任,人工智能ACM参考格式:Akshit Gupta、Debadeep Basu、Ramya Ghantasala 、Sihang Qiu和Ujwal Gadiraju。2022年信任还是不信任:对话界面如何影响决策支持系统中的信任 在ACM Web Conference 2022(WWW '22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,美国纽约州纽约市,10页。https://doi.org/10.1145/3485447.35122481引言信任是人类存在的一个隐含的基本原则 世界之所以能够正常运转,是因为人们对政府、金融机构、社会和彼此的信任。因此,技术必须在用户之间赢得和建立信任,以增加社会规模的采用,从而使更多的人受益于技术。决策支持系统等辅助技术帮助人类做出决策并提供最佳行动方案,特别是在处理大量数据和复杂变量时[13,38,43]。尽管智能系统具有许多优点,但由于缺乏信任,这种系统的广泛接受仍然受到阻碍[27]。因此,更好地理解影响决策支持系统中用户信任的因素以及如何更好地促进信任的形成是很重要的随着Ama-zon Alexa,Apple Siri和Google Assistant等虚拟数字助理的迅速渗透,全球使用数字助理的估计人数到2021年将达到18亿[15]。 Gartner [28]的早期预测表明,到2020年,“25%的客户服务和支持运营将在参与渠道中集成虚拟客户助理(VCA)或聊天机器人技术”,到2025年,50%的知识工作者将每天使用虚拟助理。 对话界面(包括文本和语音)的最新发展为用 户 提 供 了 与 机 器 交 互 的 新 方 式 。 例 如 , Mavridis etal.[29]Huang et al.[21]已经成功地为众包微任务部署了会话界面。其他人已经表明,对话界面可以提高工作的参与度和体验[35],提高消费信息的记忆力[37]或促进培训[4]。然而,人们对会话界面如何塑造用户信任缺乏了解为了解决这个3532×WWW研究的差距,我们探讨在何种程度上,一个会话界面促进信任形成的决策支持系统相比,传统的图形用户界面。为了了解决策支持系统的准确性如何影响两种类型界面(CUI与GUI)的用户行为和信任,我们还考虑了准确和不准确的决策支持系统,因此进行了2 2个受试者之间的通过招募来自多产1的众包参与者进行研究,然后根据预先确定的限制条件寻找合适的住房。参与者可以使用一个决策支持系统,该系统根据可配置的过滤器提出住房选择建议。选择这种背景作为决策支持系统的理由是包括荷兰在内的许多国家当前的住房危机[11]。我们首先创建了一个代表真实世界房屋的策划数据集,并生成了具有不同复杂性的逼真的房屋搜索场景。然后,我们向参与者提供了一个对话界面或传统的基于Web的图形用户界面的房屋狩猎场景。参与者被期望找到并提交正确的房子,符合他们场景中的所有限制(类似于现实世界的住房搜索)。我们发现,与传统的基于Web的图形用户界面,同时与相同的决策交互为住房推荐提供支持系统。有趣的是,这一观察结果被发现与决策支持系统的准确性无关。我们的研究结果可以告知交互设计在其他领域的决策支持系统是必要的,例如,在选择合适的大学教育,或确定适当的销售价格的二手车援助。总的来说,这项工作提供了见解,并在决策支持系统中建立信任具有广泛的影响。2相关工作我们将我们的工作定位在相关文献的不同领域-H C I 中信任和决策 支 持 系 统的 方 法 , 界 面 在 建 立 信 任 中的 作 用 , 以 及 会话众包。2.1人机交互中的信任与决策支持系统研究信任是一个多方面、多维度的概念。在现有的文献中,信任已经从各种背景下进行了探索,例如人际关系,管理和员工,组织生产力和关系管理[26]。这一背景导致了信任的许多定义[45]。在Rotter[40]中,作者将信任定义为Johns[22]将信任定义为Mayer等人[30]将其定义为Hoff和Bashir [19]将信任的复杂性分为三个可变层:气质信任,情境信任和学习信任。 根据这个模型,人类对自动化的信任取决于个人的1https://prolific.co信任自动化的倾向,交互的背景和过去的系统经验具体而言,Corritore et al.[8]在一个包括信息或交易网站的在线环境中,基于三个因素建立信任模型:易用性、风险和可信度对于我们的系统的上下文,我们遵循Lee和See[26]定义的信任的定义,即这里的代理人可以是任何计算机技术或另一个人,委托人对这个代理人的依赖程度将表征信任。决策支持系统是一种交互式的系统,它在有许多复杂变量的情况下帮助人类做出决策。利用决策支持系统(DSS)的决策可以比无辅助决策更快,更准确[42]。最近,Erlei et al.[12]表明,人类倾向于夸大自己的经济利益,以避免与人工智能系统讨价还价在决策支持系统中,人们利用群体智慧来完善决策支持系统的知识库。Hosio等人[20]使用众包任务,以简单和具有成本效益的方式充实知识库Wen[47]研究了基于对话界面的决策支持系统对股票投资活动的影响。Yuan等人[48]探索了临床环境中决策支持系统的要求,作者得出结论,用户界面设计和实现是成功部署临床决策支持系统的关键因素在此基础上,我们设计了一个决策支持系统来帮助用户寻找住房,并探讨了对话界面是否能更好地建立用户对系统的信任。2.2界面在塑造用户信任中的作用界面设计对人机交互的影响已经得到了广泛的研究。在之前的一项研究中[32],作者探索了人机交互的礼仪,发现人类已经与计算机工具建立了关系此外,Nass和Lee[33]探索了用户对软件的接受程度,发现与人类更相似的软件Lee和See [26]提供了一些创建可信赖的自动化的指导方针,从显示其过去的性能到清楚地传达其目的,以及简化它以使其更容易为用户所理解。在Tolmeijer et al.[44],作者提出了修复人机交互系统信任和缓解策略的方法。Antrobus等人[5]探索使用口语自然语言接口(NLI)来提高对自动驾驶汽车的信任。结果发现,虽然信任是类似的NLI和传统的基于触摸屏的界面,满意度和信心的用户更高的NLI。在一项针对自动驾驶汽车的类似研究中[41],人们发现,模仿人类特征的对话界面等界面可以帮助增加人们同样,Weitz et al.[46]发现将虚拟代理集成到可解释的人工智能交互中会增加对智能系统的信任在此之后,在我们的系统中,我们假设了一个假设,即具有接近人类个性的对话界面更值得信赖。信任还是不信任:对话界面如何影响决策支持系统中的信任WWW3533W7C1C2C3W6C4W4W5w3W2W12.3对话式众包最近的工作已经展示了使用会话界面进行众包的各种好处[10,23Huang等人[21]提出了Evorus,一种用于群体供电对话界面的架构,通过利用从群体工作者获得的过去信息,以低延迟和成本。Abbas等人。[2]展示了如何使用填充物来改善人群驱动的会话系统中的感知延迟[3]。所有可用的房子。如前所述,决策支持系统使用传统的基于网络的图形用户界面或会话界面呈现给参与者。3.2.1基于Web的图形用户界面。基于Web的图形用户界面(Web)是一个设计为搜索房屋的门户网站。 Web GUI任务及其工作流如图2所示。在Web GUI任务中,参与者被引导到显示场景的屏幕,并遇到一个注意力检查问题,要求Mavridis等人[29]第29话对话的效果场景中描述的角色的名称()。只众包微任务的接口,并发现它们导致了当参与者提交正确的姓名时,他们将被定向到与基于Web的界面相比,提高了员工的满意度研究人员已经表明,使用会话界面页面指定方案中给出的约束()在提交约束()之后,他们将看到房屋记录-众包增加了员工的参与度,由DSS推荐参与者可以选择提交与Web界面相比,保留[34,35]。此外,海蒂-由DSS推荐的房子(),或检查列表阿奇等[18]开发使用数字语音的Crowd Tasker可用房屋()。如果参与者选择查看所有众包任务的助手结果发现,与Web界面相比,使用基于语音的界面可以减少启动任务所需的时间和精力,同时提供更大的灵活性当用户选择可用房屋时,从数据库中检索房屋列表,并将其与DSS推荐的房屋一起显示给用户在提交房屋时,参与者被要求确认他们的给工人们。3研究设计我们进行了一项众包研究,以解决上述问题-选择()或重置过滤器。如果参与者选择重新设置筛选器,则先前指定的约束将被清除,并被重定向到约束提交页。参与者还可以选择查看DSS推荐的房屋()研究差距。在本节中,我们详细介绍了众包任务设计,决策支持系统,会话界面(聊天)和传统的基于Web的图形用户界面(Web),任务场景,以及本研究中使用的措施。3.1任务设计在任务中,参与者提供了一个住房搜索场景中的一个位于实验的方式。 该场景表示一个学生在荷兰代尔夫特寻找一所房子,并具有特定的偏好。参与者被期望与搜索系统交互,并找到符合与场景相关联的所有偏好的房子。 对于每个场景,数据集中只有一个正确的房子符合所有偏好。在选择查看所有可用的房屋之后。当参与者提交并确认所选房屋时,WebGUI任务结束,之后他们将被定向到工作流中的下一个步骤,如图4所示。Web界面是使用React构建界面中的所有用户操作都使用Node.js和Express记录,并存储在MongoDB数据库中。包括API在 内 的 接 口 托 管 在 Heroku 服 务 器 ( https ://www.heroku.com/)上。3.2.2对话界面。会话界面(聊天)具有基于文本的会话代理,参与者可以通过该会话代理指定其约束条件。图3给出了界面的概述。在这项任务中,参与者提供了一个场景文本,引出了现场学生的住房限制参与者被分配了一个对话界面,评价实验()。与会者将讨论或典型的基于网络的图形用户界面来找到正确的房子。在提交偏好时,参与者被提供由系统基于输入的约束选择的房屋在这一阶段,参与者可以提交房屋与向参与者提供要输入的偏好列表会话代理通过问候参与者并询问或手动检查所有可用的房屋在场景中分配给它们的名称()。该第一并找到符合所有约束条件的正确房屋参与者可使用的操作和决策在两个界面上是图1显示了参与者和界面之间的交互的概述3.2住宅决策支持系统我们建立了一个住房推荐系统,作为我们研究的决策支持系统我们考虑了决策支持系统的准确性在塑造用户信任方面的潜在作用,提示还用作参与者的注意力检查;因为对话代理在输入与场景相关联的正确名称之前不会继续然后,会话代理继续与参与者进行开放式会话,并且会话可以由参与者或代理来引导参与者可以自由输入自由文本或选择其中一个建议按钮。对话继续进行,直到参与者表示他们没有更多的偏好要传达,之后他们被预先行为为此,该系统被配置为交流-推荐住房()。现阶段准确度高(curate)或不准确(unaccurate)。在高精度的条件下,系统推荐的房子,参与者可以选择提交推荐的住房方案,或者查看系统中的所有住房并选择一个直接满足用户给出的所有约束(假设其中()。参与者还可以重置所有约束,如果他们用户正确地输入所有约束),而对于低精度条件下,随机不正确的房子从列表中选择,认为他们可能犯了一个错误。一旦参与者对住房选择感到满意并提交房屋,WWWAkshit Gupta、Debadeep Basu、Ramya Ghantasala、Sihang Qiu和UjwalGadiraju3534C5W2W4W1W6w3W5W7C3C5C2C4C1是的关注检查进入壳体偏好显示系统推荐房源提交建议房子?是的更改没有首选项?提交所选房屋停止用户操作系统操作没有列出所有选择一个房子房屋从列表图1:参与者和房屋搜索界面之间的交互概述图2:基于Web的图形用户界面任务及其工作流。图3:对话界面及其工作流程。点击“继续”按钮,参与者可以选择(3)租金:住房选项的最高租金工作流的下一步()。(4)离超市的距离:是否有房子会话代理遵循基于框架的架构[17],该架构构建在DialogflowMessenger [1]之上代理的后端构建在Heroku服务器上部署的Node.js Web应用程序上。此Web应用程序以响应前端发出的每个POST请求的形式,为参与者传达的每个意图和插槽提供适当的响应。用户界面的其他部分使用普通HTML和CSS构建。3.3数据集和场景住 房 选 项 的 数 据 集 是 通 过 从 真 实 的 在 线 住 房 网 站 ( 如housinganywhere.com和kamernet.nl)中删除住房选项手动创建的这些房屋经过精心挑选,使每一栋房屋都具有以下特性:(1) 住房类型:住房类型有四种选择-工作室,公寓,私人房间或共享。(2) 持续时间:以月为单位的时间量,用户需要房子。离超市很近。(5)登记:是否在住房的居民可以在市政府登记.我们手动创建了六个场景,代表学生寻找具有特定偏好的住房选择。这些场景有两种不同的复杂程度-简单和困难。在简单的场景中,参与者应该根据3个给定的偏好找到一所房子。每个困难场景有5个偏好。表1给出了一个简单场景和一个困难场景的示例。MongoDB既用于存储与房屋和场景相关的数据,也用于记录任务中的用户交互3.4措施3.4.1测量技术亲和力。Attig等人。[6]表明,用户对技术交互的亲和力可以被视为用户个性的一个子集,并且可以帮助他们成功地应对技术。为了解开始信任还是不信任:对话界面如何影响决策支持系统中的信任WWW3535××表1:在每个任务中为用户提供的简单和困难场景每个场景中的首选项都以粗体突出显示复杂性场景放松你叫希希.你正在寻找一个学生的房子在代尔夫特的持续时间至少6个月。您是国际学生,需要在代尔夫特市注册。您的最高预算为550欧元。只要她有自己的房间,你你也喜欢住在超市附近,这样你就可以很容易地购买杂货你是爱丽丝。你正在寻找一个地方留在代尔夫特至少一年。您是国际学生,需要在市政府注册。你没有预算限制,只要通勤时间不到10分钟的自行车。此外,你更喜欢靠近市中心和超市的地方.与分享相比,你也更喜欢工作室我们研究的参与者积极参与与网络或会话界面交互的趋势,我们使用了基于6点Likert量表的9项在住房搜索任务之前向参与者提供调查问卷,并根据他们预期与之互动的界面进行3.4.2用户行为。 我们根据三个方面分析参与者的行为:提交的正确性,任务期间花费的时间,以及是否浏览了所有可用的房屋。由于每个场景都包含一组约束条件,这些约束条件仅由数据库中的一个特定房屋满足,因此我们检查用户提交的此外,我们还测量了用户3.4.3衡量系统中的信任度 为了测量参与者在用于完成场景的界面中模拟的信任,我们使用了广泛使用的“推荐系统的用户体验质量”问卷的缩短版本[39],该问卷由用于建模用户信任的推荐系统的四个主要组件组成。我们使用问卷的一个子集,包括分为8类的26个问题。这些问题的回答使用5分制的李克特量表,从1:完全不同意到5:完全同意。否定性的问题被反向编码以保持一致性。通过对问卷所有组成部分的得分进行平均,可以获得参与者提供的每个回答的3.4.4衡量对系统的满意度 为了测量用户对界面的满意度,我们使用了用于测量信任度的缩短的“推荐系统的用户体验质量”问卷[ 39 ]的子集。对界面满意度的测量包括以下子集:推荐质量、界面简洁性、交互简洁性、易用性、界面简洁性以及控制和透明度。通过计算上述参数的平均分数,获得每个响应的4实验装置4.1实验条件我们进行了一个受控的众包实验,2 2之间的主题设计。自变量是用户界面(聊天与网络)和住房推荐系统的准确度(高准确度与低准确度),导致四个实验条件:1) Web-Low表示参与者被要求使用基于网络的图形用户界面来找到合适的房屋的条件,其中推荐系统被配置为提供不准确的建议。2) 网络高代表参与者被要求使用基于网络的图形用户界面来找到合适的房子的条件,其中推荐系统被配置为提供准确的建议。3) Chat-Low表示参与者被要求通过与对话界面的对话找到合适的房子的条件,并且具有被配置为提供不准确建议的推荐系统。4) Chat-High表示参与者被要求通过与对话界面的对话找到合适的房子的条件,并且具有被配置为提供准确建议的推荐系统在每种情况下,为了最大限度地提高参与者和用户界面之间的交互机会,我们要求每个参与者完成两个找房子的任务(一个相对容易的场景和一个相对困难的场景,如表1所示执行这两个难度级别任务的顺序是均匀分布的,这意味着在每种情况下,50%的工人首先在简单场景中执行房屋寻找任务,然后是困难场景,而另外50%的工人则以相反的顺序执行这两个任务。通过这种平衡,我们避免了潜在的秩序效应。4.2程序该研究的参与者是从多产众包平台招募的。人群工作者被邀请参加一项名为“测试住房推荐系统”的研究。 根据第4.1节中概述的设置,共创建了4项单次会话研究。 为了确保实验的可靠性和独特性,只有最低支持率为90%的工人才允许参与,并且工人只允许参与单一的实验条件。我们为每个条件招募了60名工人(30名工人首先完成一项简单的任务,然后是硬任务,30名工人首先完成一项硬任务,然后是一项简单的任务)。因此,60 4 = 240独特的人群工作者从多产参与了我们的研究。我们研究的参与者在成功完成任务后获得1.25英镑。根据多产的报告,实际平均每小时WWWAkshit Gupta、Debadeep Basu、Ramya Ghantasala、Sihang Qiu和UjwalGadiraju3536用户对话界面Web界面图4:研究工作流程概述我们的研究的奖励是近7.5英镑(这被认为是一个很好的支付多产平台)。研究的参与者被提供了一组说明,并在他们同意的情况下,被重定向到基于实验条件的适当界面。研究中涉及的程序概述见图4。在研究的第一阶段,参与者被要求回答一组与他们将在实验中使用的界面相关的任务前问卷。问题基于ATI量表。然后,与会者被引导到高准确度条件下,找到正确房屋的性能高于低准确度条件。还可以看出,对于简单和复杂场景,用户性能基本相似。此外,对于低准确性的条件,参与者更倾向于不信任系统给出的建议,而是查看系统中的完整房屋列表。此外,参与者在复杂场景中花费的时间更长,并且在准确性较低的条件表2:对话界面用户行为分析。该任务包括一个住房搜索方案,使用聊天界面或web图形用户界面。然后,他们被引导到基于ResQue的任务后问卷,关于花费的正确时间所有房屋的提交量(%)(分钟)(%)系统提供的建议在完成调查问卷后,参与者被重定向到一个过渡页面,从那里他们可以继续进行研究的第二阶段第二阶段包括第二个住房搜索任务,使用不同的场景,但使用与第一阶段相同的界面根据第一阶段的复杂程度,场景的复杂程度分为难场景和易场景;每个参与者都收到一个简单场景和一个难场景。在完成任务后,参与者被要求填写另一份关于系统在第二阶段提供的建议的最后,向参与者提供了一个完成代码,他们可以在Prolific上输入以要求赔偿。5结果和分析在进行分析之前,我们过滤了提交不完整的参与者 一些参与者只完成了一个场景,有些人在提交房子后再次与会话代理交互,多次提交相同的任务。对话界面(聊天)共获得222个有效提交(111个唯一参与者),基于Web的图形用户界面(Web)获得234个有效提交(117个唯一参与者)。为了社区的利益,我们公开分享了所有的数据和代码25.1使用CUI的用户行为使用会话界面的用户行为分析如表2所示。 从分析来看,用户2https://sites.google.com/view/www22trust系统准确度高(N = 116)65%3。5± 2。25 38%低(N = 106)42%3。91± 2。86 65%情景复杂性简单(N = 111)55%3。24± 2。35 50%硬(N = 111)53%4。17± 2。69 52%总体(N = 222)54%3。70± 2。57 51%5.2使用GUI的用户行为Web界面的用户行为分析如表3所示。我们发现,大约75%的提交是由参与者手动选择的(用户提交的房子不是系统推荐的房子),这可能暗示了对系统的不信任。比较高准确度条件和低准确度条件,可以看出,在高准确度条件下(62.931%)比在低准确度条件下(52.542%)有更多的正确提交。显然,参与者在低准确率的条件下比在高准确率的条件下多花了近一分钟。 在对比简单和复杂情况时,我们观察到复杂情况下正确和不正确提交的比例几乎相等,而简单情况下正确提交的比例为64.957%。有趣的是,复杂场景花费的时间少于简单场景。这可以解释为,提交的系统推荐的复杂场景房屋比简单场景房屋多。5.3跨接口分析信任通过计算提供给参与者的任务后问卷的平均得分来获得界面的信任得分在表4中,我们显示了信任的描述性统计数据阶段1阶段2任务前问卷任务后问卷任务后问卷整个流程将使用单个分配的接口进行处理,这两个阶段信任还是不信任:对话界面如何影响决策支持系统中的信任WWW3537±±±±±±表3:Web界面用户行为分析。表6:由信任得分的准确性调节的接口的事后比较。低(N=118)正确提交(%)花费的时间五、30±2。70所有房屋的提交量(%)两个接口的评分,在两个系统精度水平。 对于低准确度的条件,会话界面获得的平均信任得分为3。4450. 795,而网络界面获得的平均信任得分为2。3710. 118个答案 对于具有高准确性的条件,会话界面获得的平均信任得分为3。8700。595从116个答复,而网络界面获得的平均得分为二、353± 0。116个答案642表4:按界面类型和准确性级别分组的信任得分和满意度得分的描述性统计推荐的质量、界面的简洁性、交互的简洁性、易用性、界面的简洁性以及控制和透明度。在表4中,我们看到了两个界面的满意度得分的描述性统计,由系统准确性调节。对于低准确性条件,会话界面获得的平均信任得分为3。5110810从106个答复,而网络界面获得的平均信任得分为二、2540. 505人,118人回答。对于高准确性条件,会话界面获得的平均信任得分为3。9450。613从116个答复,而网络界面获得的平均值用户界面系统精度信任分数(M±SD)满意度得分(M±SD)得分为2。208± 0。578个回答聊天界面准确度低(N= 106)3. 445 ±0。7953. 511 ±0。810高精度(N= 116)3. 870 ±0。5963. 945 ±0。613Web界面准确性低(N= 118)2. 371 ±0。6002. 254 ±0。505表7:针对接口类型和准确性的满意度评分的双因素方差分析结果。高精度(N=116)2. 353 ±0。642 22. 208 ±0。578案例平方和DF均方 FpVS - M P R *进行了双向方差分析测试,以分析界面类型和系统的准确性对信任得分的影响 结果(表5)显示了界面类型和系统准确性的显著影响,以及界面类型和准确性对信任得分的显著交互作用。 事后Tukey检验(表6)表明,低准确度条件下的Web界面与高准确度条件下的Web界面的信任得分没有显著差异。在高准确度和低准确度条件下,会话界面与网络界面的比较,以及低准确度的网络界面与高准确度的会话界面的比较显示出信任得分的显著差异。这表明,尽管在准确性水平的差异,参与者倾向于更信任的会话界面相比,网络界面。表5:关于信任分数对接口类型和准确性的双向ANOVA结果例平方和DF均方FpVS - M P R *界面(聊天与网络)182.8291182.829 420.623<. 0013.264e+62准确度(低vs高)4.52914.52910.42041.467美元接口×精度5.35315.35312.316<. 001 97.4735.4界面间的用户满意度通过计算提供给工人的任务后问卷的界面质量和可用性参数的平均得分,获得界面的满意度得分其中包括界面(聊天与网页)244.2451 244.245美元616.662<. 001 7.948e+81准确度(低vs高)4.0991 4.099十点三五○0.001 40.194接口×精度6.25716.25715.798<. 001474.041表8:由满意度评分的准确性调节的界面的事后比较平均差异SE不图凯河聊天量低与网络低1.2580.08614.701<0.001聊天-高-0.4340.088-4.919<0.001网站地图1.3030.08615.175<0.001网络低与聊天-高-1.6910.085-19.979<0.001网站地图0.0460.0820.5550.945聊天高与 网站地图1.7370.08520.436<0.001采用双因素方差分析方法分析界面类型和系统准确性对满意度的影响。与信任分数的结果类似,用户满意度的结果(表7)显示界面类型和系统准确性的显著影响,以及界面类型和准确性对满意度分数的显著交互作用。事后Tukey检验(表8)显示,基于Web的图形用户界面(低准确度条件)与Web界面(高准确度条件)的满意度评分无显著差异 在高准确度和低准确度条件下,会话界面和网络界面之间的比较,以及低准确度的网络界面与高准确度的会话界面之间的比较,显示出满意度得分的显著差异。平均差异SE不图凯河聊天量低与网络低1.0740.09011.982<0.001聊天-高-0.4260.092-4.608<0.001网站地图1.0910.09012.132<0.001网络低与聊天-高-1.4990.089-16.907<0.001网站地图0.0180.0860.2060.997聊天高与 网站地图1.5170.08917.039<0.001系统准确度高(N=116)百分之六十三百分之五十三四、60 ±2。42百分之七十二百分之八十六WWWAkshit Gupta、Debadeep Basu、Ramya Ghantasala、Sihang Qiu和UjwalGadiraju3538±±±±±±该分析表明,与准确的推荐相比,不准确的推荐导致参与者对会话界面不太满意然而,对于网络界面,满意度水平没有显着差异。 值得注意的是,无论系统的准确性如何,参与者对对话界面的满意度都高于网络界面。6讨论很明显,用户倾向于信任的决策支持系统,而使用会话界面比他们做的,而使用基于Web的图形用户界面。这一结果被发现与它们所交互的底层系统的准确性无关。话虽如此,我们发现在配置有低准确度条件的系统之间,用户信任度存在显着差异(3。450. 80)和具有高精度条件的系统(3.870。60)对于会话接口条件。这表明,当使用会话界面时,系统准确性可以在调节用户对决策支持系统的信任方面发挥作用。然而,对于基于Web的图形用户界面,我们没有发现在低或高系统准确性的条件下信任得分有任何显着差异(2。37 0.六十比二350. 64)。同样,从结果中也可以清楚地看出,无论条件的准确性如何,用户对使用会话界面的满意度都高于基于Web的图形用户界面。我们还注意到,在低准确性的对话界面和高精度条件(3. 51 0。81和3。95 0。61),而基于网络的图形用户界面在低精度和高精度条件之间没有显示出任何显著差异(2. 25± 0。51和2。21± 0。58)。6.1信任与 性能和时间的作用有趣的是,我们发现会话界面的整体任务完成时间明显短于基于Web的图形用户界面(如表2和表3所示)。一个可能的原因可能是,由于用户更信任会话界面,因此在给出建议后,他们不太倾向于在输入约束后更改约束。 而对于网络界面,由于对系统的信任度较低,用户可能会在交叉检查约束时更加小心,从而增加了完成时间。通过查看两个接口在低精度条件下正确提交的百分比,进一步证实了这一点。 我们发现,对于低准确度条件下的会话界面,43%的提交是正确的,而对于低准确度条件下的Web界面,53%的提交仍然是正确的。虽然研究者已经关注了信任和工作绩效[16,31],但大多数以前的研究主要集中在输出质量和时间[7,9,34,35]。我们的工作表明,作为接口,主动完成时间和用户性能的结果之间的信任的三种方式的权衡。6.2DSS设计的启示结果表明,对于未来的决策支持系统,接口的选择可以有一个重大的影响,在发展的信任和用户满意度。 决策支持系统的设计者应该意识到,一般来说,对话式界面可能更值得信赖。这也表明不应该滥用会话界面,因为设计适当的用户界面的目标是通过在用户和系统之间建立适当的信任来引起适当的系统依赖,而不是过度信任或信任不足。此外,对于会话界面,系统的准确性对用户的满意度有影响,而用户满意度不受基于web的图形用户界面上的建议的准确性的影响跨具有低准确度和高准确度条件的决策支持系统的关于信任和满意度的结果传达,在对话界面上的情况下的决策支持系统的准确度在发展信任和用户满意度方面比在基于web的图形用户界面上更有害。6.3局限性和未来工作我们的实验研究仅限于单个域(即,用于房屋搜索的决策支持系统虽然有人可能会说,我们的研究结果可以推广到类似的情况下,会话界面和决策支持系统,需要进一步的探索,以证实这些见解。这可能包括从汽车到机器人以及电子商务领域的控制界面。此外,随着系统准确性的改善或恶化,看到会话界面中的信任如何长期演变将是有趣的。 在不久的将来,我们的目标是研究在决策支持系统与基于语音的会话用户界面的信任形成。7结论在这项工作中,我们研究了对话界面在决策支持系统中塑造用户信任的作用,并探讨了系统的准确性是否会影响界面的作用。我们设计了新颖的对话界面,并使用传统的基于Web的图形用户界面的决策支持系统,在一个住房推荐系统的形式。我们从一个众包平台招募了240名参与者,并进行了一项受试者间研究。我们发现,会话界面是显着更有效地建立用户的信任和满意度的决策支持系统相比,基于Web的界面。我们发现,这是一致的跨条件不同的准确性的住房推荐系统。我们的研究强调了人机交互中的对话界面对信任发展的影响。 这些发现对系统设计者在未来构建可信赖的决策支持系统具有重要的意义。致谢这 项 工 作 得 到 了 Delft Design@Scale AI Lab 和 4TU.CEEUNCAGE项目的部分支持信任还是不信任:对话界面如何影响决策支持系统中的信任WWW3539引用[1] [n.d.] 。 Dialogflow Messenger| Dialogflow ES| Google Cloud 。 https ://cloud.google.com/dialogflow/es/docs/integrations/dialogflow-messenger[2] TahirAbbas , UjwalGadiraju , Vassilis-JavedKhan , andPanosMarkopoulos.2021年让时间飞逝:使用填充物来改善人群驱动的会话系统中的感知延迟。在AAAI人类计算和众包会议记录中,第9卷。2比14[3] Tahir Abbas 、Vassilis-Javed Khan、Ujwal Gadiraju 、Emilia Barakova 和Panos马可波罗斯2020年。奥兹人群:一个用于压力管理的群体动力社会机器人系统传感器20,2(2020),569.[4] Tahir Abbas , Vassilis-Javed Khan , Ujwal Gadiraju 和 Panos Markopoulos 。2020年。训练机器人:一个会话界面,用于训练人群工作者提供按需治疗。在AAAI人类计算和众包会议记录中,第8卷。三比十二[5] Vicki Antrobus Gary Burnett和David Large2018年使用自然语言界面来提高4/5级自动驾驶汽车的信任度和接受度[6] Christiane Attig,Daniel Wessel,and Thomas Franke.2017年。评估人与技术互动中的个性差异:预测成功互动的关键自我报告量表概述。十九比二十九https://doi.org/10.1007/978-3-319-58750-9_3[7] Alessandro Bozzon,Marco Brambilla,Stefano Ceri,and Andrea Mauri.2013. Reactive Crowdsourcing。第22届万维网国际会议(巴西里约热内卢)(WWW'13)的会议ACM,纽约州纽约市,美国,153[8] 辛西娅湖科里托,贝弗利·克拉彻,苏珊·维登贝克。2003年。 在线信任:概念,不断发展的主题,一个模型。InternationalJournal of Human-ComputerStudies58,6(2003),737-758. https://doi.org/10.1016/S1071-5819(03)00041-7信任与技术。[9] Florian Daniel , Pavel Kucherbaev , Cinzia Cappiello , BoualemBenatallah,and Mohammad Allahbakhsh.2018年众包中的质量控制:质量属 性 、 评 估 技 术 和 保 证 行 动 的 调 查 。 ACM 计 算 调 查 ( CSUR ) 51 , 1(2018),1-40。[10] 德拉·米亚埃迪·马达莱纳和斯特凡诺·米扎罗2015年。移动人群-来源:四个关于平台和任务的实验。 分布量并行数据库33,1(March 2015),123[11] TU Delta。2020.代尔夫特的客房短缺。2021年10月31日从https检索://www.delta.tudelft.nl/article/room-shortage-delft-will-continue-increase的网站。[12] Alexander Erlei 、 Rich
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功