基于网络服务交互的客户情感分析及新见解

161 浏览量更新于2023-10-15 收藏 12.74MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16890基于网络服务交互的客户情感：自动分析和新见解0Galit B.Yom-Tov以色列理工学院以色列海法gality@technion.ac.il0ShellyAshtar以色列理工学院以色列海法shellya@campus.technion.ac.il0DanielAltman以色列理工学院以色列海法altmand@campus.technion.ac.il0Michael NatapovLivePersonInc.以色列特拉维夫michaelna@liveperson.com0Neta BarkayLivePersonInc.以色列特拉维夫netabarkay@gmail.com0MonikaWestphal以色列理工学院以色列海法westphal@campus.technion.ac.il0AnatRafaeli以色列理工学院以色列海法anatr@technion.ac.il0摘要0我们调整情感分析技术，以自动检测多个业务领域在线服务交互中的客户情绪。然后，我们使用调整后的情感分析工具来报告关于在线服务聊天中情绪动态的见解，使用了一个大型电信客户服务交互数据集。我们的分析显示，随着交互的展开，客户的情绪从负面转变为积极的感受。此外，我们还确定了客户情绪动态在服务交互期间与服务失败和恢复的概念之间的密切关系。这种联系在交互结束后的客户服务质量评估中体现出来。我们的研究强调了客户情绪与服务质量之间的联系，建议使用情感分析工具实时监控和控制基于网络的服务质量。0关键词0客户服务；情感分析；客户满意度0ACM参考格式：Galit B. Yom-Tov，Shelly Ashtar，DanielAltman，Michael Natapov，Neta Barkay，Monika Westphal和AnatRafaeli。2018年。基于网络服务交互的客户情感：自动分析和新见解。在WWW'18Companion：2018年Web会议伴侣，2018年4月23日至27日，法国里昂。ACM，美国纽约，纽约，9页。https://doi.org/10. 1145/3184558.31916280本文发表在知识共享署名-非商业性-禁止演绎4.0国际许可证（CC BY-NC-ND4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18Companion，2018年4月23日至27日，法国里昂© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY-NC-ND 4.0许可证发布。ACMISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.319162801 引言0服务行业正在经历数字革命。服务变得越来越自动化和易于使用，服务公司通过新的服务渠道和社交媒体（如Twitter或Facebook），企业网站或消息应用（如WhatsApp）变得更加可访问。然而，人们发现服务非常令人沮丧和情绪上的需求。现有的理论明确指出，客户服务交互涵盖了多种情感表现形式（参见，情感事件理论[32]），情感动态对于识别服务质量很重要[18]。此外，通过数字界面提供服务为探索过去无法实现的服务系统中的人类行为提供了新的机会[23]。因此，理解客户表达的情感的效果和动态至关重要。在本研究中，我们专注于一家大型在线电信公司，其客户通过文本平台寻求服务。我们的目标是了解在服务交互中沟通的情感变化的影响。我们利用自动情感分析来分析该公司服务聊天中的情感；但是，我们不像分析客户评论那样检查整个交互中的情感，而是从纵向的角度检查情感的变化。（例如，在医疗信息学的背景下，使用情感分析来检测患者情绪的进展。）我们试图回答以下三个研究问题：（1）客户情感在服务交互中如何变化；（2）这种变化与服务质量指标之间是否存在联系；（3）不同阶段的情感是否与服务过程的不同阶段（如服务失败和恢复）相连接？我们发现现有的情感分析工具在检测客户服务中的情感时准确性有限。0主题：社交感知和企业智能迈向智能企业转型 WWW 2018，2018年4月23日至27日，法国里昂16900研究承认情感工具应该根据上下文研究进行调整（例如[34]）。因此，我们开始建立一个根据客户服务上下文调整的情感分析工具，并使用多个领域的聊天服务数据集进行验证。这包括三个调整：（1）调整到客户服务的领域；（2）调整到特定品牌的特定特征；（3）调整到服务客户使用的特定语言特征。然后，我们使用该工具测试从理论上推导出的关于服务交互中客户情感动态的假设。我们的研究结果为客户表达的情感与服务交互的效果和质量之间的关系提供了新的见解。01.1 基于聊天的服务交互的性质0客户服务聊天交互包括客户和服务员之间的一系列相互依赖的消息（参见图1）。聊天服务交互可以从两个层面来看：（i）个别消息的原子层面，意味着识别每个个别客户消息中的情感；（ii）完整交互的累积层面，意味着识别完整交互的情感。在个别消息级别上识别情感能够实时检测客户在特定消息的特定时间点的情感状态；完整交互级别上的情感评分提供的细粒度要少得多，但是这是当前行业的规范，并被认为是整体服务质量的指标。我们在这里建议，以个别消息级别进行分析是获得实时整体服务质量评估的正确方法。仅限于完整服务交互级别的观察会忽略（初始）服务失败阶段和潜在的服务恢复进展之间的有意义的区别。客户聊天文本的另一个特点是它们的自发和未经编辑的语言；它们通常由简短的句子组成，不一定保持连贯性或语法结构，并且经常包含快捷方式、俚语、拼写错误和拼写错误。基于文本的交互还可能包含粗言秽语和大量使用标点符号、符号、表情符号和大写字母；这些可能与作者的情感有关。这与通常用于开发和测试情感分析引擎的产品评论不同，后者通常经过大量编辑，并包含经过深思熟虑和社交礼貌的文本。最近关于Twitter情感的研究考虑了其中的一些特点（例如[1]），但据我们所知，以前的工作只检查了交互的特定部分，并没有检查整个客户服务交互过程中发生的情感动态[12]。因此，我们的论文建议，现有的自动情感检测模型需要根据自发的、现实生活中基于文本的客户服务交互的上下文进行调整。我们通过提供具有适应性特征的工具来填补这一空白，并展示了通过与服务员进行聊天互动的客户表达的情感的见解。0图1：员工和客户通过聊天进行服务互动的示例02 背景和假设发展 2.1服务互动中的客户情绪动态0我们声称，在服务互动过程中，客户的情绪是动态的（而不是稳定或恒定的）。根据客户因为“服务失败”而接触服务提供商的逻辑[18,19]，我们预计当互动开始时，客户的情绪相对负面或中性；客户在遇到问题时才会请求服务，这会引发负面情绪[11]。客户也可能表达负面情绪，因为他们相信这样做会得到更好的结果[24,30]，或者减少服务时间[20]。互动开始时的负面情绪也可能仅仅是因为人们不得不花时间和精力在他们认为不应该发生的事情上（即服务失败）。客户的负面情绪将在客户的表达中显现，例如“我需要取消我的手机计划”或者“我的手机连接不工作！”。其中隐含的逻辑是：“我需要浪费时间来处理这个服务是公司的错”。认知评估的心理学理论[9]表明，这种需要求助于服务代理的感知会损害人们的幸福感，并引发负面情绪[8]。而服务交付代理的角色则是解决客户提出的问题，并促进“服务恢复”[18,19]。互动中的服务恢复可能更或者更不有效，这取决于多个因素[8]。然而，无论这些因素如何，服务恢复的有效性很可能体现在客户感受和表达的情绪变化上。因此，我们提出客户情绪在服务互动过程中不是一个稳定的状态；相反，客户情绪是动态的，并且在互动过程中根据他们的需求得到解决和问题得到解决的程度而发展。这是我们的方法所允许的第一个独特分析。0论文集：社交感知和企业智能迈向智能企业转型 WWW 2018，2018年4月23-27日，法国里昂16910和我们的第一个预测：0假设1.服务互动过程中的客户情绪是动态的，从初始相对负面（基于服务失败逻辑）到互动结束时更加积极的情绪（基于服务恢复逻辑）。0为了测试假设1，我们将评估大量服务互动样本中不同部分的客户情绪。我们的分析描述了客户在服务互动过程中表达的情绪。显然，不同的客户带来不同的需求、问题和期望，因此个体互动中的情绪可能会有所不同。我们将描述典型的情绪表达，通过报告不同互动的相似时间点上表达的平均情绪。02.2 将客户情绪与服务质量相关联0假设1涉及服务互动的两个重要部分：开始和结束。我们的下一个假设涉及这两个点之间的动态意义。我们特别认为它们之间的情绪差异与客户对完整的服务互动的整体评估以及互动有效解决他们问题的程度有关。如果互动过程中的初始（相对负面）情绪没有改变，这意味着客户的问题没有得到解决，随后客户对互动的评价不太可能满意和有效，而如果互动过程中的情绪变化很大，客户更有可能对互动进行积极评价。因此，我们预测在成功与不成功的服务互动中，客户情绪动态的差异是服务质量的有意义的指标。0假设2.服务互动过程中客户情绪从负面（开始时）到积极（结束时）的变化幅度反映了客户所接受的服务质量。0假设2可以涉及客户对服务质量的两个方面：在互动中解决了客户的问题的程度，以及客户对互动的满意程度。这个假设很重要，因为它表明客户对服务质量的感知可以在服务互动期间进行评估，而不是像今天通常做的那样在服务之后。它还表明，不应该简单地将整个互动过程中的情绪捆绑在一起，因为互动开始时的情绪应该作为客户开始时服务失败的基线水平，而互动过程中的轨迹应该作为服务恢复的成功度量。我们的分析明确显示，在服务互动中量化和动态评估客户情绪可以预测，并可能取代，服务互动之后的服务绩效指标。我们使用两个目前从客户在服务互动结束后收集到的流行服务绩效指标来测试和支持这个假设：（i）问题解决（在服务行业中称为FCR，即首次联系解决），（ii）客户满意度（在服务行业中称为CSAT）。因此，我们提出了一种使用客户在互动过程中的客户表达进行客观、不显眼的服务质量评估的新方法。0因此，我们提出了一种新的评估服务质量的方法，使用客户在互动过程中的客户表达进行客观、不显眼的分析。03 方法0我们的论文有两个方法部分：第一部分介绍了我们称之为CustSent的服务互动情感分析工具及其验证。第二部分描述了关于客户情绪的见解，并使用该工具测试了假设。03.1第一部分：CustSent—一种针对服务互动进行调整的情感分析工具0我们开发了一种基于词典的模型，因为这种方法使我们能够将CustSent适应不同的服务领域和品牌；航空、电信或金融服务都关注服务，但在特定的词典上可能有所不同。另一种选择是机器学习方法，但这种方法需要为每个服务领域训练一个单独的模型，这意味着每个新环境都需要非常高的注释成本。有关基于词典和基于机器学习方法的更多讨论，请参阅[27]。该模型通过应用一组规则为每条客户消息分配情绪分数。分数是在句子的语义级别上分配的。每个规则为句子中的单词或非语言元素分配一个数值整数分数。每个句子都由多个规则进行评分，并将这些分数聚合成分配给每个句子的整体情绪分数。如果一条消息包含多个句子，则将句子的情绪分数相加。总体消息分数大于零表示消息的总体情绪是积极的；分数小于零表示消息的总体情绪是负面的。分数为零表示没有情绪。两种类型的规则确定句子的情绪分数：词典规则为情感充电词（锚点）分配基本分数；锚点是手动注释的词，构成了不同基本极性和强度的词典；例如，积极词：优秀（+2），很棒（+1），喜欢（0），以及消极词：可怕（-2），困惑（-1）。这些词典是通过查看大量客户互动数据进行归纳得出的。这些词典的大小不同，总共包含数千个锚点。与可用的情感词列表（例如著名的BingLiu情感语料库）相比，它们包含了三种类型的调整：•与服务领域相关的调整：由于在服务领域上的特殊用途，我们排除或添加情感词典中的词。例如，排除像支持、确认、批准这样的词；包括像取消、法律、等待、其他地方这样的词。我会采取法律行动，我会去别的地方看看（如果你在这里不适合我）有些词甚至改变了极性：承诺在服务中似乎是积极的，但在服务中有负面含义：我厌倦了你的承诺。•与业务领域相关的调整：由于在特定品牌环境或一般业务环境中的特殊用途，我们排除或添加情感词典中的词。0值为零也可能表示同一条消息中积极和消极情感的数量相等，但我们的数据显示这种情况在消息中发生的次数很少。0跟踪：社交感知和企业智能朝着智能企业转型 WWW 2018，2018年4月23日至27日，法国里昂16920例如，排除诸如黄金、高级、增强、高级、免费、安全、坚固、无限等词；排除诸如错过、错过、有限、复杂、盲目、摔倒、黑暗、分裂、寒冷等词。高级账户、高级计划•客户语言调整：排除诸如好、对、好的等词。在相应的词典中，包括情感充电词汇的常见拼写错误、俚语和粗话。除了词典之外，规则还考虑了锚点的上下文，锚点的上下文定义为在锚点之前的三个词中存在否定和/或强调词。没有否定和/或强调的锚点被视为没有上下文，其基本分数保持不变。该模型将每个句子中锚点的上下文定义分数相加，创建句子的初步情感分数。第二组规则根据不会因强调和/或否定而改变其含义，但会表达整个句子情感的特征，更新句子的初步分数。这些特征还反映了客户服务和品牌相关的上下文，包括非语言（感叹号或问号和表情符号）和语言术语（例如抱歉、谢谢或lol——大声笑）。03.1.1基于词典的规则。我们使用五个具有不同基本情感极性水平的词典：负面（基本分数-1）、非常负面（-2）、积极（+1）、非常积极（+2）和暂时积极（基本分数0，如果否定则变为负面）。对于每个词典上下文，调整规则在强调和否定的情况下改变基本分数。前四个词典（负面、非常负面、积极、非常积极）遵循类似的调整规则：•强调词将锚点的基本分数增加1分：高兴 (+1) → 非常高兴 (+2) 失望(-2) → 非常失望 (-3)•否定词将锚点的基本极性向相反极性方向移动2分（参见[27]）：高兴 (+1) → 不高兴 (-1) 失望 (-2) → 不失望 (0)•当两个规则结合时，以相同的方式应用：不高兴 (-1) → 非常不高兴(-2) 非常失望 (-3) → 不非常失望(-1)暂时积极词典与其他四个词典不同。它包括一些词汇（例如足够、喜欢、支持、高效、好），在某些情况下可能传达积极情感，但在客户服务互动中使用方式不同。例如，考虑词语like。大多数（>90%）没有上下文的like词语没有积极含义：没有上下文的like的最常见用法是中性的“I would like to...”。相反，否定词like（如“Idon’tlike”）几乎总是具有负面含义。为了解释这种行为，我们将like等词语包括在暂时积极类别中，即将其视为没有上下文的中性词语，并在否定时视为负面词语。0我们比较了一个包含2、3、4和5个前置词的模型，并发现在英语互动中，3个词对于识别情感是最佳的。0like (0) → don’t like (-1) → really don’t like(-2)03.1.2 句子级规则。0•问题规则：问题结构与以相同措辞的陈述句具有不同的情感负荷[13, 14,33]，因为问题会减弱锚点术语所表达的情感强度。例如，比较以下句子：0我想退货，因为我不喜欢它 (-1)如果我不喜欢它，退货政策是什么？ (0)0•礼貌和条件规则：特定的语言特征，如礼貌用语（例如抱歉、道歉）或条件词（例如如果、也许），本身没有极性分数，但作为句子所传达情感的修饰语。具体而言，当存在礼貌和/或条件时，模型会降低句子情感分数的强度：0我很困惑... (-1) → 对不起，我很困惑... (0)0•积极俚语：诸如是的、哈哈！和不是的，哈哈！等短语表明对员工建议的情感相似（在我们的模型中非常积极）的反应。存在这种俚语词时，句子情感分数会增加。•表情符号：频率检查显示，使用的表情符号几乎完全是笑脸，例如:-)和皱眉脸，例如:(，我们将它们视为情感的非语言指示符。它们分别增加或减少句子的分数。•负面习语：一些稳定的短语和习语，如等待、厌倦或你的错，因为它们暗示的关联而传达情感。这些短语会减少句子的情感分数：0我已经在线等了一个多小时了 (-2)0•感谢短语：传达客户感谢的短语会为出现在其中的句子的情感分数增加一个积极因素。这个积极因素取决于所传达的感谢程度，例如：0不，谢谢 (+1) 非常感谢你的帮助！ (+3)0•多个标点符号：在客户消息中常见的表达方式是多个感叹号和/或问号。归纳分析使我们能够为这种表达方式建模多种模式。多个标点符号可能会增加或减少初步情感分数，例如：0很棒 (+1) → 太棒了 (+2)你好 (0) → 你好吗？ (-2)0更多的句子级规则，例如对大写模式的特殊关注，经过测试后被拒绝，因为它们不能提高模型的准确性。03.2 评估CustSent模型的准确性0三名注释员手动注释了600条客户消息的样本（见下文）。为了确保一致性，我们向注释员提供了指南和示例。我们讨论了关于编码的困境，直到对文本中的情感达成一致意见。0跟踪：社交感知和企业智能朝着智能企业转型 WWW 2018，2018年4月23日至27日，法国里昂(3)(4)16930（ICC =.89）；因此，编码由多个评委完成，通过共识解决[3, 7, 15,21]。编码的初始试验阶段（使用不同的200条消息样本）显示大多数（约70%）的消息不包含情感，而CustSent检测到的情感更少。因此，我们采用了分层抽样的方法来对验证语料库中的客户消息进行采样。这个样本不仅仅是一组随机的消息，因为这样会生成大量的无情感消息子集。该样本包括的无情感消息比随机样本少。具体而言，我们考虑了2016年3月第一周在两个服务品牌（电信和零售）进行的服务聊天中的客户消息。我们将消息分为CustSent检测到的三个情感极性组（负面、积极、无情感），分别称为负面、积极和中性层。然后，我们从每个层中抽取相等数量的消息。我们的目标是获得600条消息的样本-每个层中的200条消息。由于技术问题，人工编码人员编码了包含597条客户消息的有效样本。使用样本（而不是预定义的黄金标准）需要调整准确性指标的公式。我们现在展示如何评估情感分析工具在负面情感类别上的精确度和召回率。积极情感的精确度和召回率也进行了类似的调整。为了衡量负面情感类别的精确度和召回率，我们将情感检测工具检测到的负面消息数量与人工评委编码的负面消息数量进行比较。精确度是正确检测的比例，召回率是检测到的真实负面情感的比例[16]。形式上，我们用αneд表示情感分析工具检测到的负面消息数量，用βneд表示人工评委编码的负面消息数量，用γneд表示工具检测到的负面消息数量和人工评委编码的负面消息数量。然后0精确度（负面） = γ负0α负（1）0召回率（负面） = γ负0β负（2）0现在，我们通过为每条消息分配一个权重来调整公式（1）和（2），该权重等于它所代表的总体中的分层比例。形式上，设N1、N2和N3分别表示负面、正面和中性分层的大小。然后，第i个分层的消息的权重为wi = Ni / (N1 + N2 +N3)。每个被人工评判为负面的消息都会对精确度和召回率的公式做出贡献。将αMi表示模型M在第i个分层中检测到的负面消息的数量，βi表示人工评判为负面的消息在第i个分层中的数量，γMi表示模型M在第i个分层中检测到的负面消息并被人工评判为负面的数量。因此，模型M识别负面情感的精确度和召回率现在为：0负面情感类模型精确度M =0i = 1 γMi × wi0i = 1 αMi × wi0负面情感类模型精确度召回率 F1 F0.50CustSent 0.719 0.236 0.355 0.51 Stanford 0.335 0.509 0.4040.36 LIWC 0.479 0.115 0.186 0.294 SentiStrength 0.494 0.2160.3 0.393表1：比较四个模型在检测客户消息中的负面情感方面的表现。0召回率M（负面） =0i = 1 γ M i ×w i0i = 1 β i × w0请注意，由于CustSent检测到的所有负面消息都属于第一个分层，因此CustSent的精确度公式（3）与公式（1）相同。除了精确度和召回率，我们还报告了F1值，即精确度和召回率的调和平均值，这是一种将这两个指标合并为一个指标的标准方法。此外，我们希望推广情感工具用于实时评估客户情感。这种使用必须最大限度地减少误报（对负面情感的不准确警报）并避免对正面情感的过度乐观不准确报告。因此，我们更加强调精确度，特别是负面情感的精确度，作为我们评估客户情感的关键准确性指标之一。为此，我们采用了F0.5指标，这是F1的变体，其中精确度的重要性是召回率的两倍[16]。所有这些指标——精确度、召回率、F1、F0.5——都分别针对CustSent、斯坦福情感分析RNTN模型[26]、SentiStrength[29]和LIWC[28]的负面和正面情感类别进行计算，如表1和表2所示。0CustSent在检测负面情感的精确度方面优于以前可用的自动检测模型；其精确度水平显著高于其他模型（表1；p <0.001）。在召回率方面，CustSent落后于斯坦福引擎，但后者的精确度极低，因此CustSent的F0.5值在比较的检测模型中最高。在评估正面情感方面，CustSent的精确度优于其他模型，尽管与SentiStrength相当（p =0.149）。在召回率方面，CustSent落后于其他引擎（p <0.03），而CustSent的F0.5与SentiStrength相似（表2）。总之，我们表明CustSent在服务互动中提供了最有效的客户情感检测，其性能优于其他模型。03.3 第二部分：数据——使用自动引擎评估服务聊天中的客户情感我们使用CustSent分析了几个领域的公司的服务聊天中的客户情感。结果在不同领域中都是稳健的。03我们首先分别计算了来自不同公司的指标。结果没有太大差异。由于篇幅有限，我们在这里展示了由597条消息组成的综合样本的指标，其中每条消息的权重与其在总体中的比例相对应。4 本节中报告的p值是与同一类别中最佳结果进行比较的结果。0论文：社交感知和企业智能迈向智能企业转型 WWW 2018，2018年4月23日至27日，法国里昂16940正面情感类模型精确度召回率 F1 F0.50CustSent 0.866 0.569 0.687 0.784 Stanford 0.546 0.339 0.4180.486 LIWC 0.491 0.717 0.583 0.524 SentiStrength 0.813 0.6770.739 0.781表2：比较四个模型在检测客户消息中的正面情感方面的表现。0由于篇幅有限，我们在这里只报告了一个电信公司的结果。完整数据包括677,936个完整的互动（在2016年10月至12月之间进行），包含10,035,328条个别消息。完整的互动包括两个或几百个消息；消息可以是客户生成的、员工生成的，或者是由服务平台自动生成的（例如，“感谢您的耐心等待。我们的代理人将很快与您联系”）。在这里，我们只分析客户消息（每个互动中客户消息的平均数量为12.75，标准差=13.33）。为了测试假设2，我们还添加了公司单独收集的服务质量数据。这包括客户对问题解决和对服务满意度的自我报告评估。约50%的客户收到了一份服务后调查问卷（所有客户的73%）并作出了回应，这是一个可接受的客户调查回应率。问题解决是根据对问题“您的服务需求在这次互动中得到解决了吗？”的回答（是/否）来评估的。客户满意度（CSAT）是根据问题“请评价您对所接受服务的满意度”（回答从1-非常不满意到5-非常满意）来评估的。04 发现 4.1 服务互动中的客户情感动态0为了检查和比较不同互动中的情感动态，我们将互动的长度标准化为10个部分（或10个十分位数）。然后，我们计算每个部分中所有客户消息的情感平均值，得到描述该部分客户情感的10个分数。我们使用这10个情感分数来描述互动中情感的演变，并比较第一个部分表达的情感与互动结束时表达的情感。我们对完整数据集进行了这个比较，以及对包含10条或更多客户消息的390,438个互动的子集进行了比较。由于篇幅有限，我们只报告后5个结果。支持假设1，即服务互动以负面情感开始并以积极情感结束。图2展示了互动中各个部分的情感流动。与假设1一致，成对样本t检验证实了互动开始时（第一个部分）的客户情感与互动结束时的客户情感显著不同。05为了对数据中的所有互动进行这个分析，包括较短的互动，作为鲁棒性检验，我们通过复制缺失的分位数来延长少于10条客户消息的互动。例如，对于长度为5的互动：1,2,3,4,5，10个点分别为1,1,2,2,3,3,4,4,5,5。这种“延长”分析的结果类似，并支持我们测试的鲁棒性。0图2：服务互动的情感流动，分为10个部分 [ n = 390, 438 ]0并且互动结束时（最后一个部分）的情感与互动开始时显著不同（M差异=0.63，t(390437)=450.52，p<0.001）。为了验证的稳健性，我们还比较了第一个和最后两个部分，并得到了类似的结果。通过对多个互动进行单样本t检验，支持了客户情感在互动开始时更负面（t(390437)=−138.72，p<0.001），在互动结束时更积极（t(390437)=458.5，p<0.001）的预测。为了支持这样一个观点，即聊天开始时的情感传达了服务失败，而在最后反映了问题解决，我们检查了每个部分中激活的CustSent引擎规则（术语）。我们发现以下规则（术语）在早期部分中更为普遍：错误、问题、问题、错误、丢失、困惑、丢失、无法、无效、麻烦、取消、错误、不正确。这些术语明显表明了服务失败。例如：“我的账户出了问题”或“我在接电话方面有问题”。相反，在服务的后期出现的术语包括：感谢、好、帮助、很棒、工作/工作、好、正确、感激、好、快乐、最好。这些术语更有可能表示服务解决。例如，“我非常感谢您的帮助”或“听起来很好。谢谢。”。04.2 将顾客情绪与服务质量相关联0我们报告了以下分析结果，针对包含10个或更多顾客消息并且顾客对售后调查做出回应的286,671个互动子集。假设2预测了服务互动过程中顾客情绪从负面到积极的变化反映了服务质量。为了测试这个假设，我们将运行一个逻辑（序数）回归，以预测FCR（CSAT）从互动的每个部分的情感得分。解决顾客需求假设2预测了问题得到解决的顾客的情绪演变与问题未得到解决的顾客的情绪演变不同。为了测试这个假设，我们在一个混合效应模型中使用部分编号（作为组内因素）和FCR回应（作为组间因素）作为顾客情绪的预测变量。该模型中两个因素之间的交互作用0论文题目：社交感知与企业智能迈向智能企业转型 WWW 2018，2018年4月23-27日，法国里昂16950图3：不同部分的情绪与FCR回应的关系[ n = 286,671 ]0表明情绪得分的演变在不同FCR顾客群体之间存在差异。我们发现部分编号和顾客FCR之间存在显著交互作用（ F ( 9 , 1271502 ) = 2229.12, p <0.001），这支持了不同FCR值的顾客情绪发展不同的观点。声称问题得到解决的顾客从初始的负面情绪开始，最终以更高水平的积极情绪结束。报告问题未得到解决的顾客在服务结束时情绪得分显著较低（图3）。此外，我们通过逻辑回归模型支持这些结果，该模型通过互动的每个部分中的顾客情绪得分预测顾客FCR值（ χ 2 ( 10 ) = 28481.386, p <0.001）。该模型解释了FCR变异的26.1%（Nagelkerke R 2），并正确分类了77.4%的案例。后期部分的情绪得分的影响显著高于早期部分的情绪得分的影响（Beta=.83和.97与部分9-10相比，Beta=.27和.07与部分1和2相比），这进一步证明了情绪动态与服务结果之间的依赖关系。顾客满意度假设2还预测了服务互动中情绪的演变在满意和不满意的顾客之间存在差异。我们在类似的分析中测试了这个预测，使用顾客CSAT回应作为组间因素[7]。满意度和部分编号之间存在显著交互作用（ F (9 , 891990 ) = 3386.85, p <0.001），再次证实了情绪对于最终报告不同满意水平的顾客而言的不同发展。报告更高满意度得分的互动在互动过程中的顾客情绪变化更大；从初始的负面情绪到最后的积极情绪的变化显著更大（图4）。同样，有序回归支持了这些结果，显示互动的每个部分中的顾客情绪得分预测了顾客满意度得分（ χ 2 ( 10 ) = 44725.318, p <.001）。该模型解释了顾客满意度变异的28.9%（Nagelkerke R 2），重要的是，后期部分的情绪得分的影响显著高于早期部分的情绪得分的影响（Beta=.895和1.10与部分9和10相比，Beta=-1.71和-1.27与部分1和2相比），这进一步支持了情绪动态与满意度之间的关系。图3和图4展示了假设2的发现，显示了服务过程中顾客情绪与服务后顾客评价（FCR、CSAT）之间的关系模式。这些图还总结了我们的主要主题，显示了以负面情绪开始的互动（由于服务失误）可以发展为（良好的）问题解决，表现为互动结束时更积极的情绪。我们的分析显示了初始情绪的影响较小（在互动早期），进一步支持我们的解释，即初始情绪反映了聊天前的服务失误。两个图表暗示了在互动的中间阶段存在一个“临界点”，从该阶段开始，顾客积极情绪开始出现。我们认为可能在这个阶段开始的问题解决与这一现象有关。确定导致顾客情绪出现这种变化的确切事件以及围绕其发生的确切动态超出了我们分析的范围。简而言之，对顾客情绪进行自动、实时评估可能可以取代（更昂贵且较晚的）服务质量评估。互动过程中的情绪动态反映了顾客满意度。06 我们还发现部分编号变量的效应显著（ F ( 9 , 1271502 ) = 16409.76, p < 0.001），完全支持假设1。7我们进行了两个分析，一个将回应5（5）和1（1）定义为满意和不满意的顾客，另一个分析将回应1-3定义为不满意，4-5定义为满意。结果完全相同。0图4：不同部分的情绪与顾客满意度（CSAT）回应的关系[ n =286,671 ]0在顾客达到更高满意水平的后期部分，情绪的影响显著大于早期部分的影响（Beta=.895和1.10与部分9和10相比，Beta=-1.71和-1.27与部分1和2相比）。这再次支持了情绪演变与满意度之间的关系。图3和图4说明了假设2的发现，显示了服务过程中顾客情绪与服务后顾客评价（FCR、CSAT）之间的关系模式。这些图还总结了我们的主要主题，显示了以负面情绪开始的互动（由于服务失误）可以发展为（良好的）问题解决，表现为互动结束时更积极的情绪。我们的分析显示了初始情绪的影响较小（在互动早期），进一步支持我们的解释，即初始情绪反映了聊天前的服务失误。两个图表暗示了在互动的中间阶段存在一个“临界点”，从该阶段开始，顾客积极情绪开始出现。我们认为可能在这个阶段开始的问题解决与这一现象有关。确定导致顾客情绪出现这种变化的确切事件以及围绕其发生的确切动态超出了我们分析的范围。简而言之，对顾客情绪进行自动、实时评估可能可以取代（更昂贵且较晚的）服务质量评估。互动过程中的情绪动态反映了顾客满意度。05讨论我们引入了一种新的方法来研究服务互动中的顾客情绪，并评估服务质量（服务失误和服务恢复）。该方法为服务领域的顾客情绪自动评估提供了一个新模型，我们的分析提供了这些评估在识别顾客情绪以及识别满足顾客需求和顾客满意度方面的有效性的证据。该模型允许对顾客情绪在自发和真实的服务互动中进行实时评估。这种新方法在提供客观、不显眼的顾客服务评估方面具有重要的优势，直接建立在顾客的实际表达[31]上，并以比现有方法更细粒度的方式评估顾客情绪。0论文题目：社交感知与企业智能迈向智能企业转型 WWW 2018，2018年4月23-27日，法国里昂We thank Naama Tepper and Shlomo Lahav for initiating the col-laboration between the Technion and LivePerson, Ella Nadjharov,Igor Gavako and Dr. Valery Trofimov (the SEELab team at the Tech-nion), and the following students for helping CustSent testing andevaluation: Galia Bar, David Spivak, Gabby Mayer, Cassidy Laidlaw,Laura Blumenfeld, Beaux Ballard.16960当前的做法通常将顾客的报告汇总为“满意”和“不满意”的类别。我们的方法提供了一个更完整的图片，显示了顾客在互动过程中情绪的变化，并展示了这些变化与服务质量评估的关系。这种方法可以实时检测服务交付中的问题，允许在问题发生时进行干预，而不是问题发生后，这是目前的常见做法。为此，CustSent模型应用于LivePerson聊天服务平台，监控不同品牌的实时顾客情绪发展。05.1 贡献0我们的论文有三个核心贡献：（a）在方法上，它提出了自动情感分析作为服务交付和服务研究的有用工具；（b）在理论上，它记录了在个体互动中发生的情绪趋势和变化的含义；（c）在管理上，它提出了一种利用情感分析改进服务运营的新方法。我们的方法提出了一系列可以促进服务交付[22，23]、运营[10]和人力资源管理[17]研究和管理的想法。我们的结果表明，顾客达到的积极情绪水平（与起始水平相比）反映了服务互动的质量。服务质量的提高体现在顾客在互动后期表达的（积极的）情绪中。因此，在服务互动过程中实时进行自动情感评估可以用于评估服务质量，并在服务恢复方面进行干预[6]。在互动结束前情绪没有改善的顾客可以帮助管理者在服务情况升级之前进行干预。例如，当顾客情绪保持消极时，可以使用警报系统作为通知，表示出现了问题。此外，我们的预测模型可以用于开发用于替代顾客调查的测量工具，使用自动客观工具而不是事后主观评估。05.2 限制和未来研究0未来研究的一个自然步骤是评估何时以及何种情绪警报应该被激活，以及它们可能产生的影响。我们的工作也存在一些限制，需要更多的研究。首先，我们目前的分析只能检测到客户的情绪；为了获得完整的服务互动图景，需要监测代理人的表达。员工必须调节他们对客户表达的情绪，执行[25]所描述的“情感劳动”。因此，需要单独的情绪检测工具来分析员工的情绪。其次，我们提出的方法可以帮助研究客户情绪对员工绩效的影响。最近的一些研究表明，客户情绪影响员工的响应时间和员工倾向于进行非计划休息[2,4]。根据识别出的客户情绪动态规划给定服务互动所需的时间，或者根据识别出的客户情绪调整员工休息时间，可以基于这些分析来减少员工的倦怠。第三，我们只分析了客户对文本的表达以检测客户情绪。情感分析工具可以通过整合客户行为的其他方面（如按键次数或参与历史记录）来改进。这种整合有可能提高服务评估的预测能力。最后，在服务交付的背景下，将情感分析与方面分析（例如[5]）相结合，可以进一步区分由服务失败和恢复引起的情绪；此外，这也可以为企业提供一些优化服务恢复策略的指导。这为研究提供了许多机会。0最后，我们感谢Naama Tepper和ShlomoLahav发起了以以色列理工学院和LivePerson之间的合作，EllaNadjharov，Igor Gavako和ValeryTrofimov博士（以色列理工学院的SEELab团队），以及以下学生对CustSent测试和评估的帮助：Galia Bar，David Spivak，GabbyMayer，Cassidy Laidlaw，Laura Blumenfeld，Beaux Ballard。0致谢0参考文献0[1] Apoorv Agarwal, Boyi

下载后可阅读完整内容，剩余1页未读，立即下载