没有合适的资源?快使用搜索试试~ 我知道了~
通过性别镜头:从大规模Android用户中学习表情符号的使用模式
7630通过性别镜头:从大规模Android用户中学习表情符号的使用模式0Zhenpeng Chen 1,Xuan Lu 1,Wei Ai 2,Huoran Li 1,Qiaozhu Mei 2,Xuanzhe Liu 1�01号高信软件技术实验室,教育部(北京大学),中国北京;2号信息学院,密歇根大学,美国安阿伯{czp,luxuan}@pku.edu.cn,aiwei@umich.edu,lihuoran@pku.edu.cn,qmei@umich.edu,xzl@pku.edu.cn0摘要基于从全球智能手机用户收集的大量表情符号使用行为数据集,本文研究了表情符号的性别特定使用。我们提出了各种有趣的发现,证明了女性和男性用户在使用表情符号方面存在显著差异。这种差异不仅在统计意义上显著,而且足以使机器学习算法仅根据用户在消息中使用的表情符号准确推断出用户的性别。在性别推断是必要的现实世界场景中,基于表情符号的模型相对于基于文本或上下文信息的现有模型具有独特的优势。表情符号不仅提供了语言无关的指标,而且通过对文本和元数据的分析减轻了泄露私人用户信息的风险。0CCS概念•信息系统→数据挖掘;•以人为中心的计算→用户模型;•社会和专业主题→性别;0关键词表情符号;性别;用户个人资料;语言无关0ACM参考格式:Zhenpeng Chen 1,Xuan Lu 1,Wei Ai 2,Huoran Li1,Qiaozhu Mei 2,Xuanzhe Liu1。2018年。通过性别镜头:从大规模Android用户中学习表情符号的使用模式。在WWW2018:2018年网络会议上,2018年4月23日至27日,法国里昂。ACM,美国纽约,10页。https://doi.org/10.1145/3178876.318615701引言02015年4月11日,世界知名网球运动员安迪∙穆雷在Twitter上宣布了他的婚礼。与其他任何正式公告不同,这条推文只包含51个表情符号,没有任何文字。这只是表情符号近年来获得了令人难以置信的流行的众多证据之一。与传统的信息载体(如文字、图片甚至表情符号)相比,表情符号被认为既简单又生动,既富有表现力又0�通讯作者:xzl@pku.edu.cn。1https://twitter.com/andy_murray/status/586811114744320000,于2018年2月10日检索。0本论文发表在知识共享署名4.0国际许可证(CC BY4.0)下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8 / 18/04。https://doi.org/10.1145/3178876.31861570紧凑,使其受到互联网用户的广泛赞赏,尤其是那些使用智能手机的用户。表情符号也成为科学研究的一个有吸引力的新课题。表情符号融入我们的日常交流中,被确立为一种普遍的语言,桥接了说不同语言、来自不同国家、文化和人口群体的用户[28]。已经进行了各种研究来理解表情符号的语义和情感[3,6,30-32,35,51],这些研究得出的结论是,表情符号呈现了丰富而清晰的意义和情感,可以跨越语言障碍进行概括。普遍性是否意味着平等?也许不是。以前的工作还比较了不同应用程序之间、不同平台之间甚至不同文化之间的表情符号使用情况[46]。这些群体在对某些表情符号的解释和偏好方面展示了相当大的差异。我们的工作通过研究性别特定的表情符号使用情况,为这一领域增添了研究成果。为什么我们关心性别?识别用户行为中的性别差异始终是用户建模和人机交互中的一个重要主题。例如,研究表明,女性和男性在面对面的线下交流中使用非语言线索的方式存在差异[2,18,29]。类似的差异在在线活动中也经常出现[44,48,54]。不考虑这种差异将损害向互联网用户提供的信息服务和界面的质量,例如推荐系统、在线广告和社交网络工具,并且从长远来看,这可能导致表达和获取信息的不平等。事实上,许多主要的信息系统为其用户提供性别定制的服务[24,34]。即使性别信息没有明确提供,根据用户的其他信息(例如他们说什么和做什么)推断性别并提供个性化服务也并非罕见[7,23,25,55],尽管这可能存在隐私问题[17]。在过去的几十年中,性别推断非常热门,并在Web挖掘、人机交互、信息检索和自然语言处理等研究界广泛研究[7,8,15,20,21,23-25,37,43,49,55,56]。在本文中,我们首次努力研究了使用表情符号的性别差异。我们基于迄今为止最大的表情符号性别使用数据集进行了实证研究,该数据集包含来自183个国家的134,419个匿名化的Android智能手机用户,以及他们在三个月内收集的401百万条消息,使用了58种语言。我们进行了全面的统计分析,以分析表情符号使用的各个方面。我们发现女性和男性用户在表情符号使用方面存在统计上显著的差异:(1)女性使用表情符号的可能性比男性更高;(2)男性和女性有不同的偏好0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, France7640对于表情符号,其中一些与性别差异的普遍信念一致;(3)男性和女性在使用表情符号表达情感方面有不同的偏好,其中一些与普遍信念有惊人的不同。这些差异不仅在统计意义上显著,事实上,它们如此强烈,以至于可以使用机器学习算法仅通过表情符号的使用来推断性别,而无需访问文本或任何其他上下文信息。令人惊讶的是,我们发现,无论用户使用的语言如何,整体准确率都可以达到81.1%。我们的方法的性能与通过英文文本推断Twitter和Facebook用户性别的最先进方法报告的准确率相当,并且性能适用于非英语用户。这一结果再次提供了表情符号作为一种普遍语言的有力证据。与基于自然语言文本构建的模型相比,基于表情符号构建的机器学习模型不仅可以跨越语言障碍,而且对隐私威胁更加稳健。据我们所知,我们是第一个在大规模上分析性别化表情符号使用的努力。本文的主要贡献如下:0•我们描述了迄今为止最大的性别化表情符号使用数据集,涵盖了具有明确性别标签的匿名用户,使用了多种不同语言,并来自许多不同的国家。•我们对性别化表情符号使用进行了全面的实证分析,并发现表情符号使用在女性和男性用户之间存在统计学上显著的差异。•我们构建了一个基于用户消息中的表情符号的先进机器学习模型进行性别推断。得到的模型在准确性上可以与基于自然英语文本构建的模型相媲美,并且性能适用于非英语用户。0本文的其余部分组织如下。第2节总结了相关文献。第3节描述了数据集以及如何解决伦理问题。第4节调查了表情符号使用中的性别差异。第5节介绍了基于消息中使用的表情符号的性别推断的机器学习模型。第6节将我们基于表情符号的模型与基于文本的性别推断算法进行了比较。第7节和第8节讨论了研究的实际意义和局限性,最后在第9节给出了结论性的评论。02 相关工作0我们从背景和相关文献的概述开始。0表情符号。表情符号的普及已成为社交创新和赏识的有吸引力的现象。表情符号是具有特定含义的图形符号,广泛用于代表真实对象和表达情感。已经花费了大量研究精力来研究表情符号的普遍使用,包括它们的普及程度[3]以及它们在不同应用程序[46]、不同平台[31]甚至不同国家和文化[28]中的不同使用方式。此外,一些研究人员专注于研究表情符号在在线文本通信中的功能。除了用作内容词的替代品外,表情符号还以非语言方式用于装饰文本、调整语气、提供额外的情感或情境信息。0并吸引观众[10, 35, 42, 47,57]。Pohl等人调查了Twitter用户的性别分布,发现使用表情符号的女性比男性更多[35]。这些初步发现表明表情符号使用中可能存在性别差异,并且在忽视这种差异的分析中可能存在偏见。我们系统地研究了表情符号的性别特定使用,并为未来的表情符号分析提供了见解,以考虑性别差异。性别差异。性别差异一直是社会学和心理学研究中的重要课题,从中可以得出许多有趣的发现。例如,女性明显比男性表现出更多的面部活动[40,41],观察者可以从女性面孔中比从男性面孔中更准确地识别情绪状态[39]。随着数据科学方法的进步,这些关于性别差异的假设和猜想通过对用户的在线行为进行大规模分析进行了定量测量和测试。例如,当“面部表情”(表情符号)在文本中变得流行时,研究人员调查了性别与表情符号使用之间的关系,并发现女性在使用表情符号方面具有优势[44, 48,54],这验证了有关女性非语言表达能力的社会学发现[2, 18,29]。此外,性别在在线交流中被证明具有影响力。具体而言,研究发现女性更喜欢在社交媒体上写关于个人话题,并使用代词、情感词、感叹词和缩写,而男性倾向于写关于哲学话题,使用标准词典词汇、专有名词、数字、技术词汇和链接[22,52]。然而,作为计算机中介通信中流行的非语言线索,表情符号在性别角度上尚未得到系统研究。性别推断。近年来,从用户的在线活动中识别其性别一直是一个活跃的研究课题,鉴于其在个性化和推荐系统中的重要价值。为此目的提出的技术利用用户的各种在线信息,例如他们的屏幕名称[23]、他们在社交网络上发布的图片[55]、他们的交互行为[25]和他们生成的文本内容[7, 15, 21, 37, 43, 49,56]。大多数研究都是使用文本进行的,使用各种语言线索,如词汇选择、释义选择、情感和词性。关于非英语语言的文献也非常有限。Ciot等人尝试将现有的基于英语的性别推断模型应用于其他语言,并发现它们效果不佳。一个重要原因是一些语言(如日语)的复杂正字法。我们使用表情符号作为全球通用的语言和跨语言障碍的指标,将基于表情符号的性别推断的性能与现有的基于文本的方法进行比较。03数据集本研究使用的数据是通过Kika键盘收集的,Kika键盘是GooglePlay上一款领先的Android输入法应用。Kika在全球范围内拥有数百万次下载量,支持82种语言,并且在2015年是GooglePlay上下载量最多的25个应用之一。数据集的时间跨度为2016年12月4日至2017年2月28日,涵盖了134,419名主动报告性别信息的活跃用户和他们发送的4.01亿条消息。02https://play.google.com/store/apps/details?id=com.qisiemoji.inputmethod,于2018年2月10日检索。0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, France7650作为主要功能之一,Kika支持Unicode标准发布的所有表情符号。我们的统计数据显示,在这个数据集中使用了1,356种不同的表情符号,83.9%的用户至少使用过一次表情符号。数据集具有三个先进的特点,使得这项研究成为可能。首先,用户自愿报告了关于性别和国家的基本元信息。这支持了对表情符号使用中性别差异的分析,并为性别推断提供了基本事实。由于Kika信息收集程序的原始设计,本研究仅考虑二元性别,即数据集中53%的女性和47%的男性。其次,我们收集了来自183个国家和地区的58种语言的用户数据,这使得可以进行跨洲的性别模式研究,并且可以评估我们的性别推断方法在多种语言中的普适性。第三,由于输入法在系统级别运行,Kika从各种应用程序中收集了带有时间戳的消息,而不仅限于Twitter等已经研究过的应用程序。这使得可以对表情符号使用进行更全面的分析,而不仅限于社交媒体的上下文。请注意,尽管数据集包含文本内容,但仅以两种方式使用。一种是推断语言,以便我们可以比较不同语言用户的性别推断性能(参见第5节)。另一种是为了重现最先进的基于文本的性别推断模型,以便与提出的基于表情符号的模型进行比较(参见第6节)。•用户隐私和伦理考虑。原始数据是由Kika收集的,目的是为了改善用户体验,并且有明确的用户协议和严格的数据收集、传输和存储政策。在本研究中,我们采取了谨慎的步骤来保护用户隐私和保持研究的伦理。首先,我们的工作得到了作者所在机构的研究伦理委员会(也称为机构审查委员会或IRB)的批准。其次,数据集在提供给作者之前由Kika完全匿名化。第三,数据存储和处理在一个私人的、符合HIPPA标准的云服务器上进行,由Kika授权进行严格的访问。整个过程符合Kika公司的公共隐私政策和数据挖掘研究的最佳实践。04在表情符号使用中的性别差异之前的研究指出,女性在非语言表达方面比男性更多[2, 18,29]。研究人员还研究了表情符号使用中的性别差异,这是表情符号的前身[11,48]。在本节中,我们将研究女性和男性如何使用表情符号,这是一种新型的非语言线索。我们首先比较人们使用表情符号的频率。04.1表情符号的受欢迎程度如第3节所述,表情符号在我们的数据集中被广泛使用。表情符号在女性和男性用户中是否同样受欢迎?我们通过计算包含表情符号的消息的百分比(%emoji-msg)来衡量受欢迎程度。一般来说,男性用户发送的消息中至少包含一个表情符号的比例为7.02%,而女性用户的比例为7.96%,表明女性更有可能使用表情符号( p -value � 0.01, z -test [4])。03 http://unicode.org/emoji/charts/full-emoji-list.html,于2018年2月10日检索。0图1:女性用户在其消息中包含更多表情符号。0为了进一步了解差异,我们分别绘制了女性和男性用户按%emoji-msg的用户比例的累积分布函数(CDF)。如图1所示,CDF曲线都很平滑,而女性曲线更宽,这表明女性用户倾向于在更多的消息中包含表情符号的比例更高。例如,29.2%的男性用户在其消息中使用超过5%的表情符号,而女性用户的比例达到43.9%。为了确保结果的稳健性,我们将数据集分为三个月,并比较每个月女性和男性的%emoji-msg。所有三个月的CDF曲线都显示女性用户更倾向于使用表情符号。04.2 表情符号偏好然而,%emoji-msg的差异并不能告诉我们女性和男性用户是否使用不同的表情符号。女性和男性对某些表情符号有不同的偏好吗?下面我们比较不同性别的表情符号选择。•常用表情符号。我们首先比较常用的表情符号,即女性和男性用户最常使用的表情符号。如图2所示,女性和男性用户使用的表情符号都遵循长尾分布。女性使用最多的10个表情符号是0,而男性使用最多的10个表情符号是0。有趣的是,女性和男性用户在他们最常使用的10个表情符号中有8个重叠。然而,除了相似之处,从这两个分布中至少可以观察到两个有趣的差异。首先,最受欢迎的表情符号0(快乐流泪的脸)占男性用户表情符号使用量的18.9%,但对女性用户占22.1%。3.2%的差异是不可忽视的,因为它甚至高于第五个最受欢迎的表情符号在女性和男性中的使用比例0(大声哭泣的脸)。喜欢的差异0导致女性用户使用的表情符号分布更加倾斜。其次,尽管大多数受欢迎的表情符号是相同的,但排名却不同0(红心),0(带笑眼的微笑脸),和0(两颗心)在两个性别之间是不同的。由于表达情感是使用表情符号的重要目的[47],顶级表情符号分布的差异表明男性和女性可能以不同的方式传达他们的情感,我们将在第4.3节中讨论此问题。0研究方向:网络上的用户建模、交互和体验 WWW 2018,2018年4月23日至27日,法国里昂10.02230.1260.87420.01600.2360.76430.01450.2750.72540.01390.2320.76850.01390.2670.73360.01200.2250.77570.01110.1870.81380.01040.3100.69090.00960.2920.708100.00940.2030.7977660图2:女性和男性用户最常使用的10个表情符号。0•有区别的表情符号。从第6个最受欢迎的表情符号开始,我们开始看到女性和男性用户对表情符号有不同的偏好。我们需要一种更严格的方法来比较他们在不太受欢迎的表情符号上的选择。更具体地说,我们能否找到与某个性别强相关的表情符号?为了回答这个问题,我们使用互信息(MI),它衡量了某个表情符号的使用与性别之间的相互依赖关系。具有较高互信息的表情符号在区分女性和男性方面更具信息量。让 Y ∈ { 1 , 0 }表示用户的性别(0表示女性,1表示男性)。让 X ∈ { 1 , 0 }表示用户是否使用了某个表情符号(x = 1)或没有使用(x =0)。每个表情符号 e 的互信息可以计算为0互信息(X;Y)e =0x ∈X0y ∈ Y p(x,y)的对数0p(x)e p(y)e,0其中p(x)e,p(y)e是x和y的边际概率,p(x,y)e是x和y的联合概率。例如,p(0,0)e是男性用户从未使用表情符号e的概率。表1列出了具有最高互信息的表情符号,包括0(两个女人牵手),0(派对鞭炮)等。此外,对于每个具有区分性的表情符号e,我们计算p(Female | e),即使用e的用户是女性的概率,以及p(Male |e),即使用e的用户是男性的概率。如第3节所述,我们的数据集中有53%的女性用户和47%的男性用户。如果p(Male | e)>0.47,则将表情符号e定义为男性表情符号,否则为女性表情符号。统计数据显示,女性表情符号比男性表情符号要多得多,表1中最具信息量的10个表情符号都是女性表情符号;这样的结果与语言学文献中的研究结果一致。换句话说,如果在表1中出现了一个表情符号,如0,此用户从未使用过。我们还发现一些男性表情符号,如0(男性符号)。相比之下,我们发现女性表情符号比男性表情符号更花哨、更丰富多彩,这符合对性别差异的普遍解释。女性表情符号和男性表情符号的存在证明了女性和男性用户在表情符号选择上的差异,并暗示了通过这种模式推断性别的潜力。•共用的表情符号。更进一步,我们能否比较女性和男性使用表情符号的上下文?在不涉及不同语言的情况下,我们研究了一种简单的上下文形式-共用的表情符号。女性和男性经常共同使用哪种表情符号?在这方面是否存在性别差异?0表1:与性别的互信息排名的一些具有区分性的表情符号。0排名 互信息 表情符号e p(Male | e) p(Female | e)0共用模式?为了回答这些问题,我们分别为女性用户和男性用户构建了一个共现网络。在两个网络中,节点是表情符号,两个表情符号之间的边由点互信息(PMI)[53]来衡量,其公式为0PMI(e1,e2)= logp(e1,e2)0p(e1)p(e0其中p(e1)表示消息包含e1的概率,p(e2)表示e2的概率,p(e1,e2)表示消息同时包含两个表情符号的概率。对于这个网络,我们将每个表情符号与具有与之具有最大正PMI的其他五个表情符号连接起来,边的权重由相应的PMI值决定。通过应用Gephi4的社区检测功能(分辨率为0.2),我们从女性用户的表情符号共现网络中识别出55个社区,从男性用户的网络中识别出56个社区。一个社区内的节点之间有更多的连接(更大的PMI),而来自不同社区的节点之间的连接较少(较低的PMI)。通过比较两个网络的社区,可以得出一些有趣的发现。例如,我们发现一个与体育有关的社区,其中包括了0(篮球)这两个网络中的表情符号。然而,男性倾向于将这些表情符号与0(奖杯)一起使用,而女性更喜欢将它们与0(洗澡的人)和0(浴缸)。这样的结果表明,当女性和男性提到体育时,可能在谈论“不同的事情”。另一个例子是与衣服、鞋子和包相关的表情符号经常同时出现在0(购物袋)由女性用户使用,而在男性用户中无法观察到这一点。这些发现表明女性和男性用户在共同使用表情符号方面存在有趣的差异。04.3 情感表达表情符号最初设计用于以简洁生动的方式表达情感。最近的研究还表明04https://gephi.org/,于2018年2月10日检索。5由于算法的随机初始化,不同的运行可能产生不同的社区。我们的发现在不同的运行中是一致的。0Track: 用户建模、交互和Web体验 WWW 2018,2018年4月23日至27日,法国里昂7670表达情感是使用表情符号的主要目的[47]。我们推断,使用表情符号的性别模式(即频率和偏好)可能会受到情感表达方式的隐含影响。例如,普遍认为女性比男性更情绪化、更表达[39]。通过表情符号表达的情感是否可以得出类似的观察结果?为了捕捉整体情感信息,我们使用LIWC(语言查询和词频统计)根据Unicode网站上的官方名称和注释为每个表情符号计算情感分数。通过LIWC生成的积极(posemo)和消极(negemo)分数,将每个表情符号标记为积极(posemo > negemo)、消极(posemo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功