未标记会话的顾客满意度评级存在积极偏差

8 浏览量更新于2023-10-16 收藏 12.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6310顾客满意度评级中的积极偏差0Kunwoo Park KAIST韩国大田kw.park@kaist.ac.kr0Meeyoung Cha KAIST韩国大田meeyoungcha@kaist.ac.kr0Eunhee Rhim 三星电子韩国水原eunhee.rhim@samsung.com0摘要0顾客评级是了解他们满意度的宝贵来源，对于设计更好的顾客体验和推荐至关重要。然而，大多数顾客不回答评级调查，这使得结果不够代表性。为了了解整体满意度，本文旨在研究没有回应的顾客与回应者相比，他们有多大可能有满意的体验。为了推断这种未标记会话的顾客满意度，我们提出了使用递归神经网络（RNN）学习非结构化文本对话的连续表示的模型。通过分析三星客户服务部门超过170,000个会话的在线聊天日志，我们得出了一个新的发现，即虽然由少数顾客贡献的标记会话收到了极其积极的评价，但大多数未标记的会话将会得到顾客更低的评级。本文中呈现的数据分析不仅对于帮助检测实时聊天服务中的不满意顾客具有实际意义，而且对于发现在线评级平台中的偏差水平具有理论贡献。0ACM参考格式：Kunwoo Park，Meeyoung Cha和EunheeRhim。2018。顾客满意度评级中的积极偏差。在WWW '18Companion：2018年Web会议伴侣，2018年4月23日至27日，法国里昂。ACM，纽约，美国，8页。https://doi.org/10.1145/3184558.318657901 引言0越来越多的产品和服务要求顾客评级。顾客在访问银行或酒店、乘坐优步等之后会被要求提供反馈。像Yelp、TripAdvisor和Angie'sList这样的网站要求消费者自愿评价全球数以亿计的餐厅、商店和娱乐热点。评级不仅对改善顾客感知至关重要，还对编制推荐[8,39]和影响未来购买[23]起着重要作用。超过90%的人表示在购买前会查看在线评价，其中超过88%的人信任在线评价和个人推荐一样[11]。事实上，尼尔森进行的一项研究报告称，在线评价甚至比出现在品牌网站、电视频道和杂志上的广告更受信任。这些趋势表明，在电子商务决策中，在线评级已成为最值得信赖的信息来源之一。0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31865790顾客评价中的数值星级评分（通常从一星到五星）被称为“J形分布”，其中评分倾向于过于正面。消费者更有可能给出正面评价（例如4-5星）而不是负面或中等评价（例如1-3星）；因此，平均评分偏向于正面分数。过去的研究发现，顾客评级可能因为几个原因而系统性地存在偏差。首先是获取导向的选择偏差，评级往往比真实情况更积极，因为它们来自购买者，后者很可能有积极的倾向[4]。其次是社交影响偏差，新的评级者受到现有评级的影响，因此现有的正面评级会极大地影响未来的评级[34]。第三是报告偏差，非常满意或不满意的消费者更有可能报告评级[15]。当消费者将星级评分系统视为反映态度极端性或偏离态度量表中点时，这种偏差可能被放大[22]。报告偏差通常作为一种积极偏差的形式出现，在整体评级系统中，正面反馈更有可能普遍存在。了解这种偏差很重要，因为它可以揭示对服务的潜在情感和真实需求，这对于发掘完整的商业潜力至关重要。在这项研究中，我们有机会通过访问三星客户服务部门的大型聊天数据集来研究在线消费者评级中固有的偏差。实时聊天系统记录了顾客和服务代理之间的文本形式聊天消息，以提供各种产品（包括手机和电视）的远程支持。在每个实时聊天会话结束时，顾客会被要求填写一个5星评级调查，询问他们对体验的满意程度。平均而言，受访者给出了积极的反馈，其中68.1%的评级为4或5星。然而，只有16.2%的聊天顾客回答了这个调查。剩下的83.8%离开了聊天服务而没有给出反馈。我们的目标是推断这些未回答者的缺失满意度分数，从而了解整个系统的真实顾客评级。利用满意和不满意会话的会话日志，我们提出了一种有效处理聊天序列数据的深度学习模型。我们从大量对话数据中预测潜在满意度分数的方法是及时的，因为实时聊天正在成为客户服务的流行渠道（例如微信的商业配置文件、Facebook的M和Skype的帮助台）。它们是关键的业务操作，为客户提供了与客户直接沟通的途径。挖掘这些数据有几个优势。首先，实时聊天是经过设计的，其目标是专注和有限的。其次，它们是丰富的，提供了丰富的训练案例。第三，聊天被包含在在线环境中，因此它们的日志捕捉了所有的口头和非口头情感。0Track：2018年4月23日至27日，法国里昂举办的BIG Web WWW 2018025005000750010000125006320这些特点使得实时聊天数据适合于机器学习任务。虽然存在许多学习算法，但本文使用深度神经网络处理序列数据的优势。客户的情绪在对话过程中逐渐发展，这会影响到一个人的语言选择和随时间的互动频率（例如，长时间的暂停、简短的回答或冷漠的态度）。这种序列依赖性可以通过循环神经网络有效地建模。本文得出以下关键发现。0（1）我们在客户评级的背景下测试了积极假设：标记的实时聊天会话很可能比未标记的会话获得更多积极评级。我们发现，评分者的平均满意度得分较高（79.7%积极或中性），而未评分者的推断满意度得分较低（45.5%积极或中性）。（2）基于长短期记忆（LSTM）的神经网络有效地建模了评级的预测。通过将非文本特征与聊天对话的文本序列结合起来，所提出的LSTM网络在预测客户满意度方面优于现有的基于特征的方法。0消费者评级是一种稀缺资源，因为它们需要时间和精力来收集。虽然这些评级对于各种应用非常重要，但实际上大多数消费者保持沉默。因此，本文提出的设计和实施从主动客户中心进行评估，具有实际的行业影响。我们的深度学习模型可以应用于推断一般服务领域（包括电子产品、旅行预订和在线购物）的实时聊天服务的缺失消费者评级。这将帮助我们更好地了解客户的公正评级，这对于客户关系管理至关重要。02理论基础0对话是社交互动的主要方式，发生在网络上的各种媒体上（例如电子邮件、社交媒体、维基百科）。经常发生的一种对话是客户与企业之间的对话。经过语音转文本翻译后，专有呼叫中心日志已被广泛研究以改进服务设计。第一项基于数据的研究之一是将呼叫分类为快速解决或长时间解决[38]。另一项研究根据语言特征（如开场白、问题、回答、感谢和结束）将对话分类为预定义类型[19]。其他研究构建了支持向量机（SVM）分类器来识别客户意图和情感[25]。随着越来越多的公司采用在线实时聊天系统取代呼叫中心，嵌入在聊天中的全面完整日志帮助企业和研究人员更好地了解客户需求，而不是传统电话的日志。特别是通过分析实时聊天日志以及客户评级，可以直接确定影响客户满意度的因素。反过来，这些信息可以用于实时监控正在进行的聊天或评估缺少客户评级的会话。少数研究努力估计在线对话中的客户满意度。过去的研究0提出了机器学习方法，通过从聊天文本中提取特征来对不满意的客户进行分类[32]。他们发现，基于语言特征（如积极和消极情绪）训练的随机森林模型优于基于其他会话元数据（如会话长度和词数）训练的算法。另一个研究小组研究了Twitter上的商业对话，并发现从文本中提取的情感特征对于预测客户满意度至关重要[13]。他们的研究发现，当将个性特征和情感表达添加到更典型的基于文本的特征中时，可以提高对客户满意度的预测能力。基于先前的研究结果，情感表达被视为主要输入。对于预测任务，本研究提出了深度学习方法。特别是，我们采用的深度神经网络类型是循环神经网络（RNN），其中单元之间的连接形成一个循环[28]。与假设每个输入都是独立的前馈神经网络不同，RNN通过循环模型输入之间的依赖关系。其循环结构使其能够有效地建模时间序列[27]和文本序列[37]等顺序信息。例如，聊天日志等文本序列包含单词之间的依赖关系，因此当模型共同考虑之前的其他单词时，单词的出现是有意义的。RNN可以有效地处理这种文本序列。最近，深度神经网络已成功地展示了它们在网络上建模复杂关系的能力。一项研究提出了一种从基于文本的个人查询到点击的照片的深度查询理解模型[17]。另一个研究小组提出了一种深度记忆网络来识别人们的态度[24]。在这两项工作中，基于深度学习的方法分别优于基于特征的传统方法。0不满意不满意一般满意非常0满意0会话频率0图1：在线聊天数据的满意度评分03 数据 3.1 在线聊天系统0我们的数据集包括173,886个英文聊天会话的元信息和文本消息，以及来自三星在线聊天服务的5,641,172个客户和客服人员之间的语音单元，时间跨度为一年。聊天服务是更大的客户支持运营的一部分，该运营在24/7运行，为在美国销售的三星产品的客户提供帮助。客户0Track: The BIG Web WWW 2018, April 23-27, 2018, Lyon, France6330从世界各地访问的用户可以通过访问网址http://www.samsung.com/us/support/live-chat.html发起聊天，在此之前，他们必须输入自己的姓名并选择相关的产品类别，例如洗碗机、数码相机、电脑显示器、打印机或电视。我们选择研究手机类别中的日志，基于聊天频率的标准，因为它包含了最多的会话。聊天会话是有规范的，它们的对话主题限于服务中的产品。例如，会话以客服人员的问候消息开始，然后是客户和客服人员之间的问答消息，最后是客服人员的结束消息。聊天对话中的最小单位称为“话语”，它是一条消息，直到说话者按下回车键，触发当前消息发送给对方为止。一个话语可能包含一个完整的句子。有时它可以是句子的一部分，这取决于说话者的风格。在分析中，通过说话者轮流发言的级别来合并连续的话语，以减少个体风格差异。典型的会话由客服人员感谢客户使用聊天服务，并要求他们参与聊天后提示的调查。调查问：“您对聊天的整体满意度如何？”选项有“非常不满意”，“不满意”，“一般”，“满意”和“非常满意”。这些调查回答被用作预测任务中的因变量。每个会话包含有关客户和客服人员的一组元信息。IP地址可以用来推断每个客户的时区。聊天日志的时间戳信息，然而，是基于客户中心的服务器时间。因此，在分析之前，我们使用地理位置API[1]获取每个客户的时区信息，并将时间戳信息转换为相应客户的当地时间。总之，对于每个聊天会话，收集了以下信息以XML格式存储：0（1）客户信息：IP地址、地理编码、地区名称、客户自我识别的用户名；（2）客服人员信息：客服人员ID和用户名；（3）聊天内容：话语列表及其信息，包括说话者姓名、时间戳和聊天文本；（4）调查结果：客户在聊天会话后提供的星级评价（从1星到5星）；（5）会话信息：所有其他会话级别的数据，包括聊天开始时间、结束时间和断开连接的实体。0没有足够的聊天内容的会话被排除在分析之外。我们将这个阈值设置为4个话语，考虑到典型的聊天流程（即开场白、问题、解决方案和结束）。这导致了7,043个短于4个话语的会话被排除，占所有会话的4%。最终的数据集包括166,843个聊天会话。03.2 数据属性0聊天数据具有几个重要的关键属性，对于理解客户非常重要。首先，大多数会话（83.78%）缺少调查结果。这是因为调查是基于参与的，客户可能在聊天结束前离开。0回答任何问题。图1显示了剩余16.22%会话的满意度分数的直方图，该分布符合在线评级中常见的预期J形分布[15]。从对聊天会话满意度的调查中，最大比例的客户（45%）表示他们对聊天体验非常满意，而较小比例的客户（14%）表示他们对服务非常不满意。当基于1到5的评分时，平均满意度得分为3.79，这表明整体上是积极的体验。总共，68.1%的受访者给出了4或5星的评级，79.7%给出了非负面评级（3-5星）。其次，对话持续时间平均为四分之一到三分之一小时。表1显示了会话长度和时间持续时间的平均值、最小值、中位数和最大值。中位数会话持续时间为14.9分钟，但存在较大的变化，最长的会话持续了4小时。尽管与典型聊天相比，会话持续时间相对较长，但是话语数量的中位数（由客户和代理商共同贡献）保持在适度水平，分别为28和381。这是因为一些话语之间存在较长的时间间隔。对于代理商来说，这个暂停主要是指在引用“您介意等几分钟，我来查一下…”之后检查信息所需的时间。客户由于各种原因暂停，例如客户同时进行多任务处理，并不经常返回聊天屏幕。众所周知，长时间的暂停会使对话不够连贯，难以理解[7]。因此，在这项研究中，发言者交替的暂停被用作预测客户满意度的输入信号。0表1：会话长度信息0平均最小中位数最大0持续时间（分钟）19.0 0.1 14.9 280.9 话语（数量）35.34.0 28.0 585.0 单词（数量）469.6 6.0 381.0 13954.004 研究方法 4.1 问题定义0在客户关怀中，识别不满意的客户是一个关键目标。有不愉快经历的客户可能不再考虑购买同一服务的未来，但更重要的是，他们可能通过撰写极度负面的评论和给出差评来进行负面口碑传播[5]。由于评论建立了社交存在并模拟了社交规范，这样的负面反馈可能对其他客户的留存产生不利影响[23]。这是公司在社交媒体时代面临的一大危机[12]。因此，本研究重点是识别“不满意”的会话，并考虑以下研究问题：在一小部分带有客户评级的实时聊天会话和一个更大的未标记聊天会话集合中，我们能否预测哪些会话可能被客户判断为不满意？三星的实时聊天数据为我们的任务提供了很好的真实情况。特别是，调查结果不受收购导向偏见的影响（即，评级是积极的，因为它们是由购买者留下的），因为每个访问聊天服务的人都已经是0Track: The BIG Web WWW 2018, April 23-27, 2018, Lyon, France6340使用三星产品。此外，评级不受社交影响偏见的影响，因为评级不会在客户之间共享。然而，该服务并不免于低报告偏见（即，极度满意或不满意的人更有可能评级）[10]。事实上，极度不满意的客户可能已经失去了进一步沟通的意愿，并在没有进行后续调查的情况下离开了聊天服务，正如在服务营销中所描述的情况：“与寻求补救措施不同，许多这些不满意的消费者将选择退出。”[5]这使我们对积极偏见的调查产生了兴趣：0(H)未回应在线聊天服务的用户比回应者更有可能有不满意的体验。0研究上述假设中所描述的客户评级中的固有偏见，并设计处理这些偏见的方法对于企业至关重要。因此，我们不仅旨在构建一个分类模型来识别不满意的会话，还试图对积极偏见的假设进行测试。为了测试这个假设，我们需要能够确定每个会话中客户是否满意，且错误率较低。因此，在本文中，我们介绍了一些新方法来从实时聊天记录中预测会话不满意，并将它们的性能与最先进的方法进行比较。我们将5星级调查回答聚合为二分尺度，并将(i)非常不满意和不满意的评级作为预测任务中代表不满意客户的“真”投票，(ii)平均、满意和非常满意的评级作为预测任务中的“假”投票。得到的因变量是一个二进制值，为1或0。从实时聊天数据集中，我们利用了文本特征（包括原始聊天内容）和非文本特征（包括发言者交替的时间间隔）。04.2 预测模型0请注意，我们预测整体客户满意度的任务与广为研究的情感分析[31]问题不同。情感分析的目标是识别给定文本中体现的情感状态，而我们的任务是预测会话最终的客户满意度。客户的情感状态可能随着对话的发展而变化，因此需要考虑聊天对话的动态流程来理解客户满意度。下面我们总结了适用于这个问题的现有关键方法，并介绍了基于深度学习的方法来预测客户不满意。04.2.1现有方法。对话的文本特征，如情感表达，被认为是在线商务对话中客户满意度的关键决定因素。基于之前的研究[2, 13, 19,32]，文本特征比其他任何可能的特征（如会话长度和断开连接实体）更重要。这里，有两种使用文本特征的方法被提出：一种是基于情感价值，另一种是基于n-gram。0(1)带有情感的预测：之前的研究基于情感特征构建了对话对话框的机器学习分类器[13]。我们实现了在分析聊天数据时提出的随机森林分类器[32]。0情感分数（即正面或负面）在该分类器中通过VADER提取，VADER是一个经过人工验证的情感词典[16]，然后针对每个会话持续时间的四分之一（即4个季度）分别对代理和客户进行聚合。这导致了8个情感特征用于分类器。我们称这个算法为Valence。（2）基于n-gram的预测：n-gram包括文本中n个项目的连续序列，其中项目可以是音节、字母或单词。常见的选择是由空格分隔的单词标记。n-gram描述了输入文本序列，并已应用于各个领域的预测任务，包括在线聊天系统[19]和呼叫中心[25]。在最近的一项研究中，n-gram已被用于预测心理疾病患者咨询会话的成功[2]。构建了一个带有L1正则化的回归模型，并发现unigram和bigram特征对于预测最有效。在本文中，我们实现了基于出现频率前1000的unigram和bigram的相同预测模型。我们称这个算法为Ngram。0上述研究中的共同之处是使用聊天数据的平均情感得分或n-gram频率等聚合统计信息。这些基于特征的方法的效率因此以信息丢失为代价，特别是在确切的语言选择方面（即，从对话开始到结束的词语用法如何改变）。为了弥补这种信息丢失，现有研究将每个聊天对话分割为不同的对话阶段，并反复检查平均统计数据。然而，聚合数据中的观察结果受到任意时间划分的限制，重要的时间动态仍然缺失。由于聚合数据而导致的另一种信息丢失是聊天响应的时间演变，这是客户满意度的另一个重要指标。一项研究[42]发现响应迅速性是确定成功客户服务的关键因素。关于每个话语的响应时间的信息，当也按照说话者或根据固定的聊天持续时间进行聚合时，将会丢失。本研究中使用的深度学习模型有效地避免了数据的任何聚合以及由上述基于特征的方法引起的信息丢失。本文提出的深度学习模型在文本输入序列上运行，而不是在聚合特征上运行，尽管需要大量计算能力。04.2.2基于深度学习的方法。三星的实时聊天会话包括多个话语，每个话语都是一个单词令牌序列。基于递归神经网络（RNN）的模型通过标记数据进行训练，以学习不满意客户的精确词语使用模式，然后应用于未标记的会话进行预测。下面的步骤首先描述如何处理原始文本输入，然后描述了RNN-based模型中使用的结构。0• 预处理数据实时聊天是客户和代理之间的双向对话。从原始聊天数据中，我们将多个话语重构为表示每个聊天会话的单词令牌序列，这是0跟踪：BIG Web WWW 2018，2018年4月23日至27日，法国里昂07:09:42 PM07:09:31 PM07:10:10 PM07:10:03 PM07:10:14 PM07:10:28 PM07:11:35 PM…Track: The BIG Web WWW 2018, April 23-27, 2018, Lyon, France6350嗨，感谢您联系三星技术支持，我能帮您什么忙吗？SHORT_CUSTOMER我的手机似乎每3天删除一次所有联系人，我必须在手机开机的情况下取下电池并更换电池才能恢复联系人SHORT_AGENT很抱歉听到这个消息，我很高兴帮助您解决联系人问题，我可以知道您手机的型号吗？LONG_CUSTOMER我的手机是Galaxy 5...0预处理后0嗨，感谢您联系三星技术支持，我能帮您什么忙吗？0我的手机似乎每3天删除一次所有联系人。0我必须在手机开机的情况下取下电池并更换电池才能恢复联系人 :(0代理0很抱歉听到这个消息。0我很高兴帮助您解决联系人问题。0我可以知道您手机的型号吗？0我的手机是Galaxy 5。0顾客0原始数据0图2：预处理步骤示例0RNN-based模型的所需输入格式。两个连续话语之间的时间间隔以类似于先前研究处理点击流中的时间间隔的方式编码在单词序列中。我们用以下之一替换了每个时间间隔：(1)短_发言者表示小于第25个0从数据中所有这样的间隔间隔的百分位数，(2)中等_发言者代表从第25个百分位数到小于第75个百分位数的间隔0百分位数的间隔，(3)长_发言者表示连续话语之间的第75个百分位数或更长的间隔。后缀发言者表示由谁确定时间间隔的长短，即在当前话语结束后回应的发言者。从聊天记录中，短_客户的第25个百分位数时间间隔为13秒，表示客户在代理人给出的话语后的13秒内回应。长_代理的值为49秒，表示代理人在客户给出的话语后的49秒或更长时间间隔后回应。时间间隔分布的百分位数值如表2所示。0表2：时间间隔分布的百分位值0第25百分位第50百分位第75百分位第100百分位0代理 12秒 26秒 49秒 439秒客户 13秒27秒 51秒 1326秒0如前所述，我们在发言者交替的级别上聚合了话语，并且没有对同一发言者的话语之间的时间间隔进行编码，原因是一些发言者通过频繁按下回车键将单个句子分成多个话语。因此，一共使用了六个标识符来表示发言者交替中的时间间隔。图2描述了如何将样本会话的话语转换为带有时间间隔的单词标记序列。根据先前研究的实际指导原则[40]，可以将Short_Speaker解释为代表参与的对话，而Medium_Speaker表示短暂的暂停。Long_Speaker可能表示代理人或不太参与的客户的长时间暂停。0将话语按空格分割成单词标记列表后，还进行了进一步的预处理步骤，包括词干提取、过滤特殊字符和将单词转换为小写，以减少基于建议的复杂的单词特征的复杂性[18,38]。出现频率较低的单词被替换为特殊标记。0• 模型结构和训练循环神经网络是一种设计用于学习任何顺序数据表示（如文本和语音）结构的人工神经网络。循环神经网络具有一种特定类型的记忆，用于保留顺序信息。本研究中使用了三种结构来识别不满意的客户。我们简要讨论了三个主要模型的工作原理的直觉。0(1)第一个模型，在我们的评估中称为RNN，实现了基于最基本的循环单元的标准神经网络，使用双曲正切非线性函数tanh(∙)。在这里，引入了一个嵌入层来处理输入序列的稀疏性。嵌入层将稀疏的单词特征转换为低维向量表示。嵌入层产生的向量被馈送到一个隐藏层，该隐藏层由循环单元组成。在隐藏层中，对于每个时间步，使用tanh(∙)函数通过将其前一个状态与当前状态的输入相结合来更新当前状态。最后，从输出层的最后一步预测客户不满的二进制标签。(2)第二个模型是LSTM，它代表基于长短期记忆的神经网络。与基于tanh的基本循环单元不同，LSTM单元可以通过其记忆单元（称为门控单元）记住更远的过去[14]。门控单元通过门控实现对存储、读取、写入和擦除的有效决策。因此，该模型适用于复杂的任务，如时间序列预测[27]和序列建模[37]。(3)第三个模型是基于LSTM的GRU（门控循环单元）的变体，它具有更简单的形式。GRU没有输出门，因此在每个时间步将其记忆单元的全部内容写入较大的网络。GRU的简单结构使其适用于涉及少量数据的任务，而LSTM需要更多的数据来训练更多的参数[6]。0除了隐藏层中使用的不同循环单元（即基于tanh的单元、LSTM单元和GRU），嵌入层在三个神经网络中以相同的方式引入。tanh函数被用作输出压缩函数。我们使用通过时间反向传播的交叉熵损失函数的导数来训练所有模型。参数更新使用Adam优化器[21]。为了防止过拟合，我们对隐藏层应用了dropout正则化[36]，对最后一层应用了L2正则化。我们将嵌入向量的维数设置为50，每个dropout率设置为0.2，循环单元的数量设置为500，L2正则化器的lambda设置为0.001。这些值是通过网格搜索选择的。当会话的长度小于循环单元的数量时，序列将被填充为零。模型的训练直到损失函数5RESULTS5.1Evaluations1https://github.com/bywords/Positivity-Bias-Livechat6360在验证集中达到收敛（即提前停止[33]）或训练轮数达到100。代码和实现细节可在github上找到1。0在性能评估之前，我们首先讨论二进制标签的理由。一个问题是，是否应该将3星（平均）的评级包含在真集或假集中。如果平均星级与不满意或非常不满意的会话更相似，则其标签必须属于不满意客户组（即真集）。这可以通过测量评分者组之间的距离来确定。语言向量构造如下：对于样本会话的10％，产生了一个全局前1000个单词的向量，该向量测量了单词出现次数和词频。平均会话与其他会话之间的余弦距离表明，它与满意（d = 0.186）和非常满意（d =0.186）的会话比与不满意（d = 0.197）或非常不满意（d =0.219）的会话更接近。对于所有情况，95％的置信区间范围小于0.0007。因此，我们将平均评级包含在假集中。最终分组包含了5498个不满意客户的真实会话和21559个其他客户的假会话。这些27057个会话被随机分为80％的训练集和20％的测试集。训练集再次以80:20的比例随机分割，以测量验证目的的损失函数。预测模型学习是在平衡的真实和假实例集上进行的，通过对每个数据集进行随机过采样来避免偏向流行集。表3显示了基于深度学习模型与两个基于特征的基线模型Valence和Ngram的评估性能。特别地，RNN，LSTM和GRU的两个版本的深度学习模型被实现。默认版本仅使用聊天内容，扩展版本（带有后缀“-Time”）还使用聊天话语中的时间间隔信息以及文本特征。精确度和召回率分别测量给定模型的预测不满意客户的准确性和敏感性。F1分数是两个指标的调和平均值，表示一个平衡的分数而不是准确性。因此，我们主要关注F1分数进行比较。我们得出以下观察结果。首先，比较基线模型，我们发现聚合的情感不如更细的数据结构（例如n-gram）有效。Ngram的F1分数比Valence高0.24。然而，就其他指标而言，Valence显示了最高的精确度，尽管只有8个简单的语言特征。这一发现证明了情感表达在预测客户满意度方面的作用。其次，我们发现深度学习模型优于基于特征的基线模型。虽然RNN的性能较差，但LSTM和GRU的性能都优于其他模型。这一发现意味着，虽然通过简单的RNN很难对长序列进行建模，这被称为长期依赖问题[3]，但其他两个模型可以查看聊天对话中的远程过去。0有效。GRU在实现高精确度方面表现出色，而LSTM在F1分数方面表现最佳，因为它具有较高的召回率。第三，我们发现将时间间隔纳入LSTM（LSTM-Time）和GRU（GRU-Time）中，F1分数分别提高了0.0183和0.0171。这一改进表明，时间间隔是客户满意度的有意义的指标。然而，与RNN相比，RNN-Time的性能下降，可能是因为这种基本的递归神经网络在处理附加特征方面能力较低，这种缺乏复杂性使得训练词序列的时间动态更加困难。0表3：8个模型的预测结果，突出显示前2个值的粗体文本。0方法准确率精确率召回率 F10Valence 0.6416 0.8374 0.3516 0.4952 Ngram0.7668 0.7679 0.7054 0.73520RNN 0.6912 0.6623 0.6683 0.6653 LSTM 0.80050.7865 0.7764 0.7814 GRU 0.7984 0.8254 0.71160.7643 RNN-Time 0.6609 0.6785 0.5078 0.5685LSTM-Time 0.8102 0.7758 0.8250 0.7997 GRU-Time0.8106 0.8314 0.7371 0.781405.2 对未标记会话的推断0通过使用标记数据，确认深度学习方法可以有效地对不满意的客户进行分类，我们现在将重点转向前一节中提出的研究假设，并根据未标记数据推断哪些会话可能包含不满意的客户。在调查未标记会话有多大可能是不满意的之前，我们使用手工编码技术验证了预测结果。三名有经验处理客户评级数据的人员参与了这一步骤。首先，为了熟悉聊天数据，为编码人员提供了50个随机选择的标记会话。编码人员获得了完整的聊天内容以及会话长度和响应时间等元信息。编码人员阅读完标记会话后，我们随后为他们提供了100个随机选择的未标记会话进行预测。编码人员并不知道这些会话是未标记的，只是被要求标记每个会话的客户是否对聊天体验感到不满意。他们的回答通过多数投票进行汇总。标记任务显示出高达0.508的一致性率，基于未加权的Fleiss's Kappa (p <0.001)。将人工标记的数据视为真实情况，我们将聚合的回答与LSTM-Time 模型预测的标签进行比较。我们选择 LSTM-Time模型是因为它在标记数据集上的F1分数一直很高。手工编码的回答与我们的深度学习模型生成的标签在未加权的Cohen'skappa方面具有适度的一致性率（κ = 0.296，p <0.01）。请注意，小于0的值表示没有一致性，0-0.20表示轻微一致性，而较大的值表示较大的一致性。0会议：The BIG Web WWW 2018，2018年4月23日至27日，法国里昂0.000.250.500.751.006370标记的未标记的组合的0比例0不满意满意0图3：标记、未标记和组合数据的不满意会话比例0这一发现表明，LSTM-Time模型对未标记数据集的预测与真实情况相似，增加了我们方法推断满意度的可信度。在验证了未标记数据上的模型之后，我们最终调查了评分者和非评分者之间的客户满意度分布。图3比较了（i）基于标记数据的所有会话中不满意的会话比例与真实情况，（ii）基于推断的未标记数据中的不满意会话比例，以及（iii）两个数据集的组合。结果清楚地表明，非评分者对他们的聊天体验不如调查受访者积极。超过一半的非评分者（54.5%）被预测为如果他们提供反馈则会感到不满意。卡方检验确认了标记组和未标记组之间的显著差异（χ2 = 10623，p <0.001）。这一发现支持本文的主要假设，即三星的在线聊天服务存在积极性偏差，即没有反馈的信号更有可能与客户不满意相关。因此，客户服务中心需要将未标记的会话纳入到对客户满意度的整体评估中。06 讨论和结论0调查在许多不同领域广泛用于评估人们的思想、观点和感受。虽然调查具有明显的优点，但它们往往受到偏见的影响，从而阻碍了对目标人群的研究结果的推广。在网络和社交媒体时代，诸如客户评级之类的被动在线调查往往会带来额外的偏见，如社交影响偏见和低报告偏见。尽管许多研究在定性上报告了这种扭曲的存在[29]，但由于数据收集和分析方法设计的困难，很少有努力来调查和进一步纠正它们。通过获得描述聊天记录和评级的广泛和专有数据的机会，我们有了研究客户满意度的独特机会。所研究的聊天服务不受收购导向的选择偏见和社交影响偏见的影响，但受到了积极性偏见的影响，其中低报告偏见起到了作用。为了调查和补偿这种偏见，我们提出了基于深度学习的方法来从高准确性的数据中推断评级。从对未标记会话的预测中，实证结果表明，大多数未回应者很可能感到不满意。0与调查受访者所报告的情况不同，与聊天服务相关的评级的不同性质在图3中明显可见。当已知分数和推断分数结合在一起时，对于聊天服务的评价不再主要是积极的。因此，正如在不同背景下的先前研究中观察到的[9,30]，本研究的发现支持评级系统中的积极偏见假设。我们注意到，无法对未标记会话的预测进行完全验证，因为此类数据是“未标记”的。为了解决这个局限性，我们雇佣了人工编码员来获取一小部分未标记会话的真实情况，但仍需要进一步验证未标记数据集的预测结果。尽管如此，由于所提出的深度学习模型的高性能和对未标记数据集预测的手动验证，我们的数据分析发现，没有对聊天系统的体验进行评级的客户很可能有更多的负面体验。这一发现特别重要，因为过去的研究只使用了标记数据来调查客户满意度，并在分析中丢弃了更大部分的未标记数据。从调查回应者和非回应者可能具有不同态度特征[35]的角度来看，从调查回应中推断出客户的普遍意见可能是误导性的。这具有实际的影响，因为评级会话并不代表整体客户意见，需要将未评级的会话与评级的会话一起考虑，以全面了解在线服务（如在线聊天）的情况。06.1局限性和未来工作0这项研究有几个局限性。首先，虽然未标记会话的预测经过了三名人工编码员的手动编码验证，但我们只使用了未标记会话的一小部分。未来的研究可以依赖于更大数据集上的众包等替代方法[41]。其次，本研究使用了基于标准RNN的深度学习方法，限制了观察的长度。我们计划采用更复杂的方法来利用聊天对话中的所有可能信号，例如注意力模型[26]或卷积神经网络[20]。最后一个局限性是使用了单一的数据源，由于数据的专有性质。未来的研究可以在多个数据集上测试时间间隔特征的有效性。此外，还可以深入研究其他非文本信号，以了解客户满意度，更广泛地推断聊天中发言者的情绪状态。将来，对更广泛的服务类别重复进行这项研究将具有意义。例如，可以比较封闭专有系统中的评级与公开共享评级系统中的评级。此外，文化规范可能是另一个需要考虑的重要因素。虽然研究的在线聊天数据集主要是针对美国客户的，但来自世界其他地区的成千上万的客户也访问了该数据集，包括印度、加拿大和英国。有趣的是，这些国家的调查响应率明显低于美国（所有聊天客户的1-3%），尽管满意度得分相似。了解社会规范如何影响在线评级行为以及跨文化中存在哪种偏见，将有助于企业和推荐系统更好地利用客户评级数据。0跟踪：The BIG Web WWW 2018，2018年4月23日至27日，法国里昂6380致谢0我们感谢匿名审稿人对本文的建设性评论，这些评论进一步改进了本文。我们还要感谢人工编码员对手动注释的贡献。这项研究部分得到了韩国科学技术信息通信部资助的下一代信息计算发展计划（编号：NRF-2017M3C4A7063570）和基础科学研究计划（编号：NRF-2017R1E1A1A01076400）的支持。0参考文献0[1] 2016. 地理位置API. http://ip-api.com. (2016). [2] Tim Althoff, Kevin Clark和JureLeskovec. 2016. 对咨询对话的大规模分析: 自然语言处理在心理健康领域的应用.计算语言学协会交易 4 (2016), 463. [3] Yoshua Bengio, Patrice Simard和Paolo Frasconi.1994. 使用梯度下降学习长期依赖关系是困难的. IEEE神经网络交易 5, 2 (1994), 157–166.[4] Sushil Bikhchandani, David Hirshleifer和Ivo Welch. 1992.一种关于时尚、流行、习俗和文化变革的信息级联理论. 政治经济学杂志 (1992), 992–1026.[5] Jeffrey G Blodgett, Kirk L Wakefield和James H Barnes. 1995.客户服务对消费者投诉行为的影响. 服务营销杂志 9, 4 (1995), 31–42. [6] Junyoung Chung,Caglar Gulcehre, KyungHyun Cho和Yoshua Bengio. 2014.门控循环神经网络在序列建模中的实证评估. arXiv预印本arXiv:1412.3555 (2014). [7] DavidCraig. 2014. 解密秘密: 如何让人们告诉你一切. Big Sky Publishing. [8] Ali MamdouhElkahky, Yang Song和Xiaodong He. 2015. 用于跨领域用户建模的多视图深度学习方法.在WWW的论文集中. 278–288. [9] Apostolos Filippas, John Ho

下载后可阅读完整内容，剩余1页未读，立即下载