没有合适的资源?快使用搜索试试~ 我知道了~
大流行中的移民与居留者情绪分析 — 波兰Twitter数据集的发现
电信和信息学报告10(2023)100059大流行中的移民与居留者-对Twitter内容的情绪分析Olga Czeranowskaa, Karol Chlastab,Piotr Miolkowskic,Izabela Grabowskab,Jan Kocovicc,Krzysztof Hwaszczd,Jan Wieczorekc,Agata JastrzovenbowskabaSWPS社会科学和人文大学,波兰华沙波兰华沙科兹明斯基大学波兰弗罗茨瓦夫科技大学波兰弗罗茨瓦夫大学aRT i cL e i nf o关键词:情感分析文本挖掘文本分析社交媒体Twitter移民a b sTR a cT在本文中,我们提出了一个情绪分析的Twitter数据集中在波兰移民和居留者在大流行期间的态度和情绪。我们在2021年1月至8月期间收集了900万条推文和转发,并使用MultiEmo(多语言、多层次、多领域情感分析语料库)进行了分析。我们发现,随着时间的推移,推文的情绪在移民和居留者之间发生了变化, 移民的国家。移民和居留者的总体情绪相似,但更详细的分析显示,与保持安全和呆在家里以及疫苗接种相关的标签对移民的影响比对居留者的影响更两极化,它们反映了欧洲大流行的总体发展趋势。除了比较移民和居留者,我们还比较了在不同国家居留的移民。在移民国家中,我们收集了至少3000条推文,比利时的波兰移民推文中最积极的情绪,最消极的情绪来自爱沙尼亚。我们还观察到,与大多数推文数量最多的国家介绍本文在大数据和迁移研究之间创建了交叉点和相互作用值得注意的是,我们将这种相互作用带到了大数据被认为是现代社会科学的第三次革命的时候[34、52、91])。将这些现象与“移民时代”[101]联系起来,我们亦考虑与COVID-19疫情相关的显著结构性条件,该等条件突然限制了地域流动性并迫使人们留在原地,以及其对我们认为属于“自然流动”人口的移民的影响大数据为社会科学提供了新的机遇和挑战,特别是在探索个人与“塑造我们的巨大社会结构”之间的联系方面大社会数据提供了观察大结构如何演变和最终变化的机会,以及它们如何与人们的日常生活和人际关系相关Halfard和Savage[36]在他们的批判性分析中, 社会研究中的大数据机会和利用,强调这些数据可以实时和超时地洞察许多人-数百万人-的日常生活在他们引用的论点是数字代表了他们自己。但他们也会问背景真的重要吗在这个庞大的群体中,传统的探究还有一席之地吗他们承认,大数据作为一种工具,可能会为社会学研究提供更合适的资源,尽管不是一种解决方案。它有助于对社会、社会结构和社会成员提出有力的论点研究表明,人类在许多在线环境中留下的数字足迹可以成功地用于研究社会和心理结果[97],情感[56],文化适应[18]和社交网络[86]。在本文中,我们使用数字足迹来分析新冠肺炎对移民/搬家者的影响。根据Hobfoll的[42]资源保护理论,封锁和限制人类自由的经历可能会导致资源的损失,这将与身体和情绪健康的由于资源减少,人们将不太能够应付困难和危机局势。一项对普通人群Twitter数据的分析显示,长期限制移动、与新冠肺炎相关的症状、经济危机、通讯作者:SWPS社会科学和人文大学,Chodakowska 19/31,03-815华沙,波兰。电子邮件地址:oczeranowska@swps.edu.pl(O. Czeranowska)。https://doi.org/10.1016/j.teler.2023.100059接收日期:2022年12月23日;接收日期:2023年3月21日;接受日期:2023年3月31日2772-5030/© 2023作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表电信和信息学报告期刊主页:www.elsevier.com/locate/telerO.切拉诺夫斯卡湾Chlasta,P. Miolkowski etal.电信和信息学报告10(2023)1000592肮脏和低水平的社会交往质量对福祉有负面影响[12]。引入物理距离,隔离和呆在家里以减少冠状病毒的传播降低了家庭的生活质量[27]。此外,新型冠状病毒的传播通过引入基于智能技术的新的工作和访问服务方式,深刻改变了公民的日常生活[85]。在现有的研究中,移民和难民往往被作为推特讨论的一个主题进行分析(参见《2010年移民和难民问题》)。[19,40,94]),但不是作为推文作者。在本文中,我们重点关注作为互联网话语行为者的移民及其对疫情及其后果的看法通过使用疫情背景下的大(社会)数据,我们能够深入研究移民的主观性、与他人的关系、对现实的看法以及结构性条件对他们生活的影响。通过这种方式,我们在大数据和移民研究之间创建了一个新的交叉点。这篇文章的主要目的是分析在一段时间内变得不流动的移民与甚至在大流行之前流动性较低的居留者之间的流行病特异性情绪的相似性和差异我们的分析是在波兰移民的背景下进行的。波兰是欧盟内部搬运工的来源国之一,包括高技能搬运工[26]。也有一些来自波兰的移民潮瞄准欧洲以外的地区,主要是美国[83]。目前,大部分关于大流行期间移民的研究集中在来自发展中国家的最脆弱移民群体[3,6,9,24,50]。波兰移民(大多数)并没有像其他群体那样受到流行病的影响,而是在他们所知道的开放边界的世界中,一个前所未有的、不可预测的转变在许多领域影响了他们的生活。本文由四部分组成。在第一部分中,我们将介绍地理和虚拟移动性之间的相互作用和相互依赖性的理论背景。我们还讨论了在大流行病的背景下这些方面发生了哪些变化。在第二部分中,我们提出了我们的方法,审查使用Twitter数据的研究,也与移民有关。在本文的第三部分,我们描述了使用自动化LaBSE+ BiLSTM情感分类模型进行数据收集和分析的过程。最后,我们对我们的数据和结果进行了分析,并得出结论。理论背景地理和虚拟移动性地理移动性和虚拟移动性可以通过多种方式联系长期以来,新的通信技术和社交媒体在移徙过程和移徙者在移徙的每个阶段的生活中发挥了许多作用它们为移民提供了快速和低成本的通信渠道,通过这些渠道可以发送不同类型的内容(音频,视频,图片,文本)[55]。2008年,迪米内斯库[22]创造了“连接移民”一词移民的生活。他认为,移民不能再被视为作为两个分离的地方和两个独立的社会关系系统之间的运动。移居到另一个国家的个人不再需要背井离乡,因为他们能够保持遥远的关系。21世纪的移民被定义为流动性和连通性:此外,随着新技术使人们能够保持联系,可以建立跨国身份[54]。研究证明,“有联系的移民”的概念是对现实的一个很好的描述。Wilding[90]研究了移民家庭,并表明即使在20世纪90年代,电子邮件也是一种通信模式,使他们能够在物理距离之外保持联系。新的电子通信形式的出现使这些家庭能够有更频繁的联系。同样,Komito[54]采访了在爱尔兰的波兰和菲律宾非国民,了解他们的社会媒体实践。对于大多数受访者来说,社交网站是日常(或至少每周)工具。受访者是远距离通信技术与移民过程有着内在的联系[7]。如今,社交媒体正在降低移民的门槛[20]。Hiller和Franz[41]确定了计算机使用在移民的三个阶段中的不同作用:移民前,移民后和定居移民。即使在近20年前,当互联网的使用水平及其在日常生活中的重要性较低时,它也被认为是规划和组织国际移动的有用工具社交媒体使滚雪球移民变得更容易此外,一旦一个人移动(并定居),然后提供了方便的信息,他们可能更有可能再次移动,例如由于另一个城市或国家出现的新经济机会[55]。除了提供在一个新的国家定居所需的信息移民可以通过互联网和社交媒体与原籍国的社区保持联系,尽管物理距离很远因此,即使没有身体接触,他们仍然可以感受到他们的民族/种族社区的一部分[41,54]。这意味着心理成本远离所爱之人的可能性至少降低了在彼此的生命中,彼此的存在新技术已经改变了什么可以(和是)共享。持续的实时通信使移民能够分享重要的新闻,这种持续的沟通使移民能够继续履行他们在家庭生活中的角色,例如以跨国母亲[43,62]或父亲[74]的形式。与此同时,新技术为建立和组织侨民的社会生活提供了新的资源[41]。然而,与同一国籍的其他人(无论是在原籍国还是在散居地)更容易接触,可能意味着与接收社会融合的动机更少[8]。例如,在Komito和Bates[55]中,发现都柏林的波兰移民主要与其他波兰人保持联系:类似地,在van den Bos和Nell[89]中,国家联系在移民因此,新媒体似乎加强了地域性[89]。大流行病时期的移徙者在疫情爆发的第一年,移民和难民弱势群体问题[3、6、9、24、50]。然而,在发达国家之间流动的移民也受到当前形势的影响。在全球大流行这样的动荡时期,远离家乡肯定会增加个人的痛苦程度。虽然病毒被称为“伟大的平等者”,但实际上,感染疾病的机会和接受适当医疗帮助的可能性都受到社会结构影响的影响,如种族或移民身份。低质量的住房和生活水平差导致的其他条件,以及接种疫苗和寻求帮助的犹豫(例如由于无证身份)可能导致更严重的疾病[21]。根据其法律地位,移民利用东道国卫生系统的机会也可能有限。此外,有限的语言技能也可能造成障碍,难以获得关于当前情况和应考虑的预防措施的重要信息。此外,与其他类型的危机一样,这一流行病导致社会差距扩大,被视为因此,移民在性别-O.切拉诺夫斯卡湾Chlasta,P. Miolkowski etal.电信和信息学报告10(2023)1000593无论是在健康风险方面,还是在大流行的其他后果(如经济或社会后果)方面,一般人都比非移民更容易受到大流行的影响[95]。2020年3月/4月,当新型冠状病毒疫情造成几乎所有的国际边界都因非必要的旅行而关闭。此外,还对特殊旅行采取了各种措施。尽管各国政府实施了流动限制和措施,但返回本国的国民经常被排除在旅行禁令之外。一些国家甚至帮助其公民组织他们的返回移民。在波兰语中,这采取了“Lot do domu”的形式(英语:Lot do domu)。“飞回家”)行动,目的是将波兰公民及其配偶和子女带回波兰。从选定的海外目的地(英国、爱尔兰、塞浦路斯、马耳他、美国)以及不太受欢迎的目的地组 织 了 特 殊 包 机 。 这 些 门 票 的 费 用 由 政 府 补 贴 ( https ://www.pot.gov.pl/)。尽管如此,“Lot do domu”计划引发了一些关于门票成本和超额预订的争议。对于那些无法返回原籍国的人(或者由于更高程度的融入接收社会或其他个人情况而不想返回原籍国的人),虚拟移动成为联系家人和朋友的唯一选择。在封锁期间,即使是同一城市内的联系和移动也受到限制,虚拟移动成为看到家庭以外的人,工作或购物的唯一选择除了身体健康风险外,大流行还对精神健康和心理健康产生广泛而持久的影响[79,81,16,73]。由于居住国的社会支持有限,以及与原籍国的家人和朋友相距遥远,移民(特别是弱势移民)也可能更容易遭受大流行病的心理和社会后果,如孤独[25,60,72]。世卫组织的ApartTogherther调查显示,移民报告说,在大流行期间,他们的心理健康状况恶化。受访者感到更沮丧,担心,焦虑,孤独,愤怒,压力,烦躁,绝望,有更多的睡眠相关问题,并使用更多的药物和酒精[92]。Twitter作为社会科学Twitter数据在社会科学领域得到越来越广泛的研究,因为它在分析用户对广泛主题的看法、想法、情感和观点方面证明是有价值的。这在调查对特定事件或主题的大规模态度时尤其有效[1,5,30,38,61,66,88]。Twitter数据的重要优势是它们适用于情绪分析,这使得研究能够专注于公众情绪[5]。此类分析可能为达成某些决策提供关键信息来源,例如,在政府层面(例如,制定旨在塑造当前Covid-19危机中与社交距离相关的公共程序和政策的行动-[80])。重要的是,在移民研究的情况下,Twitter可以为我们提供从全球每个地方发送的数据(对于不同的提供商等没有问题)。-[37] )。此外,与大多数官方统计数据不同,Twitter数据可以实时获得,没有时间滞后[99]。当社交媒体被用作信息来源、支持系统和分享情绪和意见的地方时,Twitter数据对各种危机的研究特别有用[5,70,77]。因此,Twitter也被用作研究Covid-19的数据来源,特别是因为大流行本身加强了社交媒体的使用[68]。例如,在大流行开始时,Arpaci et al.[4]使用进化聚类分析公众对新型冠状病毒的反应。此外,在2020年春季,Xue et al.[93]在Twitter数据的信息学研究中使用了机器学习Gharavi、Nazemi和Dagostari[29]使用地理定位来绘制美国大流行爆发的警告信号,Huang等人使用地理定位来绘制美国大流行爆发的警告信号。[45]为测试移动限制的有效性。Twitter作为一个公共话语空间在阴谋论研究中一直很重要[2,32,84]。随着新型冠状病毒疫苗的引入,出现了一种新的阴谋论,并开始了一场新的辩论,这也是使用Twitter数据进行分析的[103,108]。也有一些研究明确关注对疫苗的态度,例如:Mir和Sevukan[68]分析了印度人对新型冠状病毒疫苗表达的情绪,Kwok,Vadde和Wang[57]研究了澳大利亚的Twit- ter,而Mahanti等人[63]以及Mir,Rathinam和Gul[69]对不同国家进行了比较分析。此外,自二零二零年一月二十一日起,与疫情相关的推文已收集于COVID-19-TweetIDsGitHub储存库(二零二零年)。虽然数据集是多语言的,但作者承认它偏向于英语推文。COVID-19刺激研究人员深入研究Twitter数据,并探索与移民相关的问题(参见[75]和[76,104])。Rowe及其合作者[75,76]研究了流行病对移民情绪和态度的影响,他们发现了关于移民的社会两极分化日益加剧的证据,显示出高度集中的强烈积极和强烈消极情绪。Web 2.0带来了新形式的数据为对人类地理流动性感兴趣的研究者提供了各种机会。Hawelka at al.[37]表明,根据Twitter数据估计的不同国家的游客人数他们还证实,Twitter数据显示出与其他移动数据集相似的统计特性。然而,只有一小部分(2013年估计为1%)的Twitter数据是地理标记的,因为用户可以禁用移动设备上的GPS功能2009年,Twitter推出了每推地理标记(除了每用户地理标记)。该功能可以将每条推文与纬度和经度相关联,但使用次数甚至少于每次使用的地理标记[14],因此该功能在2019年被禁用。另一方面,用户列出的位置的内容百分比较高,但其中一些非常笼统,不清楚和/或有时是虚假/虚构的[39]。由于地理标记数据的比例很低,研究人员尝试了其他技术来“定位”社交媒体数据。其中一些策略使用基于地点的语言然而,这种植根于社会语言学和方言学的方法在定位移民创建的数据康普顿、尤尔根和艾伦[17]能够根据他们朋友的本地化来确定相当大比例的Twitter用户的本地化。同样,这种基于社交网络的地理标记方法对于移民的推文来说不是一个理想的解决方案,因为留在原籍国的朋友可能构成他们社交媒体网络的相当大的一部分(参见第10段)。[89])。在需要精确位置的情况下(不是为了学术目的,而是为了然而,即使是这些程序也不是百分之百准确的[28]。位置也可以通过IP地址来确定,但这些都是不可靠的,互联网服务提供商动态分配IP地址。此外,虚拟专用网络可能会掩盖用户基于Twitter的研究中的另一个重要方法论问题是与社交媒体数据相关的选择性。Twitter数据的全球代表性受Twitter用户的人口统计特征影响[58]。互联网的覆盖和使用本身并不普遍,有些群体更经常被排除在外。此外,每个社交媒体的“典型用途”的特征是不同的,这可能导致在不同的或不同的研究结果[98]。移民”[67]他说:O.切拉诺夫斯卡湾Chlasta,P. Miolkowski etal.电信和信息学报告10(2023)1000594由于上一节所述移徙者上网率高,移徙者的“上网偏见方法关于数据/项目本文中提供的数据是在“(IT)移动性”项目中收集的。在流行病和新的信息/通信技术时代,流动的人不流动,不流动的人不流动”(社会科学研究所,社会科学和人文科学SWPS大学)。该项目的目的是分析波兰移民在2019冠状病毒病大流行期间的选择移民作为研究群体是因为他们可以被定义为社会中“最具流动性”的个体。我们感兴趣的是,那些“流动性最大”的人将如何此外,我们假设,除了地理流动性之外,移民可能也更习惯于各种形式的虚拟流动性,他们甚至可能在大流行之前就已经使用这些流动性,例如,与原籍国的亲人保持联系(根据‘Migrants当我们把这个分析放在社会科学和信息学的结合点上时,我们想描述和证明我们的“受访者”是谁。由于Twitter API返回的推文中地理定位内容的比例非常低(1. 44%的值不是空的,只有0. 24%的推文具有2021年第一季度收集的推文的坐标),我们决定使用另一种策略来识别移民我们提出了一个两阶段的过程,以确定特维特的移民,并区分他们从居留者。首先,我们使用Botometer API1验证Twitter配置文件,以排除bot配置文件(bot索引大于3.5)。第二,在真正的人类轮廓中,三个注释者根据他们自我申报的个人资料位置和推特语言识别的移民我们认为,尽管Twitter个人资料上自我声明的信息质量存在明显的挑战(例如,用户声明想象中的位置,如[39]),我们能够根据Twitter用户的直接建议(例如“克拉科夫-波兰,现在是爱丁堡-苏格兰”的位置)以及添加到配置文件中的国家/地区标签来识别数据集中的迁移配置文件这与Grahamet al.的先前研究一致[31]指出轮廓位置告诉我们很多关于用户如何感知,呈现和放置自己,而不是确切的位置。因此,我们的“移民身份”代理是用户个人资料中波兰境外的自我声明(单个或多个)位置,Twitter语言设置为波兰语这些使用者被视为波兰人谁已经emigrated。我们假设,外国人在国外短期停留(例如,假期或商务旅行)的情况下不会发生因此,用户的设置位置是波兰和谁拥有波兰作为他们的Twitter帐户语言被识别为波兰居留者。最后,根据用户个人资料的统一位置,用统一的国家对数据集进行注释(例如,自我声明的位置“格但斯克”被认为是“波兰”)。这一统一是必要的,以便能够利用国家层面进行数据分析。我们意识到,这种识别移民与居留者特征的策略并不完美,但地理标记内容的水平非常低1印第安纳大学的Botometerhttps://botometer.osome.iu.edu/我们决定它可以作为一个足够的位置。早期的研究中提到了地理定位含量极低的水平,例如[37]和[71])。因此,在许多研究中实施了地理标记的替代策略,用于推文的本地化(例如,[5,68,96,100])。数据收集我们使用Microsoft Azure云提供的服务器收集数据集。实例类型为B2s,托管在斯德哥尔摩。我们的服务器的操作系统是Windows(版本10.0.17763)。该机器安装了以下关键软件包:(1)Microsoft SQLServer 2019 GDR构建版本15.0.2080.9,(2)R版本4.0.3(2020–1010) (3) Rtweet package version数据发布包含从Microsoft SQL Server 2019表中提取的两个文件。我们数据库的物理模型由使用Rtweet R包查询Twitter API [64]的输出标准驱动每条推文都记录了89个数据元素(字段),这些数据元素被预先选择为对潜在分析有用。所有的推文都是用R语言预处理的。预处理不会改变数据的内容。这只是为了调整数据类型,以使它们与SQL Server的要求兼容(例如,表示tweet发布时间的数据库字段被缩短为每个tweet的前50个数据还经历了后处理阶段,将以下额外维度添加到数据库中:• 使用MultiEmo情感分析工具,对每条推文的情感得分进行分析;• Twitter账户的来源国,根据Rtweet R软件包提供的“位置”字段手动添加• 补充字段,添加以促进临时数据分析,从数据集中的其他字段计算(例如,基于推文的发布日期称为WeekOfTheYear的字段在Microsoft Power BI Desktop中分析后处理结果。数据描述我们在本文中提出的Twitter分析涵盖了2021年1月1日至8月30日期间数据是根据34个与COVID-19疫情及移民有关的主题[64])。在Twitter API上运行的测试是每天独立执行的,使用当前日期的过滤器。于探索性分析后,分析仅包括第一组主题标签(与大流行相关)。我们通过由社会学家、心理学家和信息技术专家组成的团队我们还手动检查了主题标签的流行度和共现率下表2列出了流行病标签名称及其波兰语我们在两个表(移民和推文)中收集了总共9058194条推文,使用连接到Twitter API的自定义R脚本进行刷新第一个表(移民)关注移民的推文(由非机器人生成的推文,人类,其语言设置为波兰语第二个表格(推文)集中在与34个标签相关的推文。除了真实的用户推文,我们的推文数据库还包括:• 5 327 155次转推--其他人的推文被发布到用户的提要中,以允许更多的人看到并回复;• 316 136个引用--一条推文与一条附加评论一起分享的情况。O.切拉诺夫斯卡湾Chlasta,P. Miolkowski etal.电信和信息学报告10(2023)1000595表1SQL Server表和Power BI中的数据描述表:推文表:移民内容描述截至8月30日,Twitter API通过选定的主题标签查询的所有推文,20,2012021年8月30日之前,由选定的被识别为移民的用户发布的所有推文列数92(包括原始主题标签)91附加信息字段,指示提供给Twitter API获取推文记录(文本+元数据)通过TwitterAPI查询基于用户配置文件的向量,手动识别为移民(Twitter语言=波兰语,用户位置在波兰大小(未压缩)7.625 GB6.479 GB多条推特4,629,5014,428,693包括转推2,858,4182,468,737包括报价126,122190,014刷新频率每日每日分析期2021年1月至8月2021年2月至8月15日分析期4,405,1284,134,710按语言分类的推文(1%或以上)英语(67.29%)、俄语(7.84%)、波兰语(6.93%)、德语(6.56%)、日本人(3.59%)、意大利人(2.68%)、荷兰语(1.91%)、印度尼西亚语(1.31%)波兰语(55.49%)、英语(30.53%)、西班牙语(2.27%)、日语(2.55%)、俄语(2.32%)、德语(1.58%)表2Twitter标签的完整列表。Hashtag英文翻译#移民移民#锁定封锁#lodododomu免费的家#maseczki口罩#narodowakwarantanna国家隔离#NarodowyProgramSzczepien国家疫苗接种方案#otwieraMY我们正在开展[业务]#Otwieramy我们正在开展[业务]#pracazdalna远程工作#远程工作远程工作#stayathome斯泰亚托梅#staysafe安全#szczepienia疫苗接种#SzczepimySie让#szczepimysie让#szczepionka疫苗#wfh在家工作#zostanwdomu呆在家里与所有Twitter数据一样,在使用此类数据时,某些众所周知的警告始终适用,包括机器人和虚假信息的影响[82]。我们使用Botometer服务识别了146个机器人(以前是表3BotOrNot;[78])由印第安纳大学社会媒体观察站(OSoMe)提供。这个工具允许我们检查给定Twitter帐户的先前活动,并根据它被机器人运行的可能性将其索引为0到5之间的分数。分数越高,表明轮廓越像机器人。我们假设一个真正的人类移民的分数小于或等于3.5。情感分析我们使用情感分析,一种自然语言处理(NLP)方法,对给定Twitter消息的主要情感进行分类,例如Martinez-Camara等人。[65]。在Chlasta的研究过程中,用于计算情感分数的方法发生了变化。[105]到MultiEmo[106]-支持100多种语言的多语言情感分析工具。根据最初的测试,这种新方法比最初预期的方法更适合我们的情感分析任务主要优点是它不需要半手动更新词典(积极和消极的词)。MultiEmo的方法优势在于该模型已经过验证。在11种语言的模型上进行的跨语言实验证明,在BiLSTM架构中实现的具有额外注意力层的LaBSE嵌入优于其他方法[109]。2021年1月至2021年7月按主题标签划分的推文情绪(居留者与移民)滞留者移民HashtagAmb.Neg.POS.Neutr.总和Amb.Neg.POS.Neutr.总和总封锁64,547567,538221,572527,4781,381,1356148816046511741,382,309洛多多穆12684034381010448马谢茨基45887873421361132412491410NarodowyProgramSzczepien791393518604980393372791218160奥特维耶拉17709580553352,88969,7721305602742076304072,812普拉阿兹达尔纳2844104586762152329791远程工作4630604131,147233,291275,1096320164193275,302斯泰亚托梅978475,33659,88196,208241,2093474152143241,352保持安全31,141250,149412,064346,9451,040,2991241613270049049271,045,226什切皮尼亚1372904992552395563113471132769832什切皮梅谢994238,54821,34382,674152,507247136960717403963156,470什切皮翁卡11719183272954531636913841695485WFH11,26543,57958,744135,407248,995163464277391249,386在家工作33,67831,695121,348150,668337,3892115120255411337,800佐斯坦多穆111116036443373673183913411016832总168,2751,031,241934,3121,644,7903,778,61862644204070588114,9973,793,615O.切拉诺夫斯卡湾Chlasta,P. Miolkowski etal.电信和信息学报告10(2023)1000596Fig. 1. 移民与居留者-由Hashtag情绪。输入的文档可以使用MultiEmo在整个文本,单个段落或句子的水平上进行分析。MultiEmo的训练语料库建立在8216篇波兰语评论文本上,涉及四个领域:酒店,医学,大学和产品[107]。用于创建该工具的文档包含57,466个句子。情感注释由每个元素的三个独立注释者手动执行:在句子水平和全文文档水平正特异性一致性值[44]最终达到了句子0.88和文本0.91的水平。之后,使用DeepL神经机器翻译服务将收集的文件翻译成11种语言(中文,荷兰语,英语,法语,德语,意大利语,日语,波兰语,葡萄牙语,俄语和西班牙语)目前的分类模型使用LaBSE -一种用于109种语言的语言不可知跨语言句子嵌入(Feng et al.2020)。模型的结果是在所选文本分析级别上的情感分布。MultiEmo在Creative Com下公开提供[106]第一百零六章:我的世界总的来说,在MS SQL Server表中预处理原始数据的步骤之后,我们在Power BI中的最终数据集包括4 405 128条这些包括推文和转发,以及引用(带评论的转发)。经情绪注释的数据文件已加载至MicrosoftPower BI,以进行最终分析及数据集可视化。结果在研究期间,我们数据集中最受欢迎的标签是#lockdown。然而,随着时间的推移,它的受欢迎程度不断下降,在研究期结束时,它几乎和#staysafe一样受欢迎。标签#otwieramy(英语:#otwieramy图中显示了每个主题标签随时间的流行程度,可以在x1中看到。在与防护口罩(#maseczki)相关的推文中发现了特别负面的情绪。我们的情感分析算法对所有标签#maseczki的推文中近65%的评价为负面。第二个突出的标签是#lockdown,大约42%的推文被评估为具有负面情绪。MultiEmo在40%与#staysafe相关的推文中发现了特别积极的情绪另一个显示出特别积极情绪的标签是#在家工作。近36%的推文被评价为积极的。就移民与居留者的分析而言,总体情绪相似,但移民更多地表现出积极和消极的情绪,而居留者更多地表现出中立的情绪。此外,它是appar-注意到,一些标签的情绪在移民和居留者之间的差异比其他人更大(图10)。①的人。以下是一些例子• #szczepienia(英语:szczepienia),其中超过40%的移民发布的推文被评估为具有负面情绪。对于留守者来说,负面推文的比例仅为30.8%。• #zostanwdomu(英语:• #staysafe,其中33%的移民发布的推文被评估为具有负面情绪,而近25%的留美者则是负面的移民对这个标签(54.4%)的态度也比居留者(39.4%)更积极。此外,图2显示了每周推文的一般情绪。随着时间的推移,移民往往变得不那么积极,而留下来的人似乎变得更加消极。(图第三章我们进一步分析了前20个接收国,并研究了他们的推文情绪结构(用波兰语写的,Twitter认可)。我们发现,在大多数国家,来自波兰居留者的推文情绪结构比波兰移民的负面情绪要少(图3),比利时除外,比利时的情况类似波兰(22%对23%)。与此同时,23%的推文被认为是积极的,这比德国(22%),法国(22%),中国(22%),意大利(22%),荷兰(21%),加拿大的波兰人的得分更高。(19%)、爱尔兰(17%)、岛国(17%)、捷克共和国(17%)、希腊(16%)、威尔士(14%)和爱沙尼亚(13%)。讨论我们的发现显示特定疫情相关标签的受欢迎程度不断变化,反映社会生活中对这些问题的重视程度不断变化。这一结果证实了Twitter数据(以及一般的社交媒体数据)的高度时事性及其与当前新闻的链接。此外,我们可以看到Twitter讨论的重点(至少是关于列出的标签)主要是保护措施(口罩,封锁和在家工作)。其中,口罩和行动限制被认为是负面的,在家工作和一般其次,根据MultiEmo的数据,总的来说,移民和居留者带有大流行相关标签的推文表现出类似的情绪。然而,移民的推文有更高的积极和消 极 分 数 , 而 居 留 者 的 推 文 则 更 中 立 。 因 此 , 一 些 主 题 标 签#zostanwdomu(英语:O.切拉诺夫斯卡湾Chlasta,P. Miolkowski etal.电信和信息学报告10(2023)1000597图二. 情绪(移民与居留者)按周。图三. 移民与国家的居留者。#otwieram y ( 英 语 : “ 我 们 正 在 开 放 [ 企 业 ]” ) , #naro-dowyprogramszczepien(英语:“国家疫苗接种计划”)对移民的态度比对居留者的态度更加两极分化。移民推文的两极分化特征即使不考虑健康风险(由于对接受国的医疗保健了解有限,有时也限制获得医疗保健,[59]),移民更有可能受到流行病的经济后果以及不同形式的歧视的影响[33,49,95]。此外,由于国际流动性的限制,他们在距离和与原籍国的家人和朋友的联系有限方面有额外的压力[10,11,87]。因此,在疫情期间,移民此外,对于那些与原籍国保持联系的移民,Twitter是一个重要的平台,分享他们的经验和对实际问题的意见。因此,在这些在线讨论中投入更多的情感也可能导致更两极分化的情绪。此外,这种情绪与移民国家有关,对波兰语移民来说,前三个最积极的移民国家是比利时(28%),葡萄牙(24%)和芬兰(24%),前三个最消极的国家是希腊(30%),爱沙尼亚(30%)和西班牙(30%)。这可能取决于每个国家流行病形势的严重程度,也取决于移民对当地政策和措施的看法(也参考波兰政府应对流行病的方式我们的研究并非没有局限性,主要的局限性与移民与居留者的识别有关。与Twitter的地理标记数据的可用性相关的挑战也促使我们使用替代方法,利用推文作者自己提供的个人资料位置。这些可能不太具体,但足以确定一个人在哪个国家发推-O.切拉诺夫斯卡湾Chlasta,P. Miolkowski etal.电信和信息学报告10(2023)1000598与现有的奖学金相比,提供了一种新的方法(例如[15,37,58])。在使用的语言方面,我们至少能够识别出那些仍然使用波兰语在Twitter上因此,我们提出了一个新的操作定义的移民在Twitter上,基于他们的自我宣布的Twit- ter位置和使用的语言相结合尽管如此,我们也意识到这种移民与居留者身份识别的方法并不完美,因为有许多用户不提供本地化信息或提供可能不真实的信息(参见[39])。另一个限制与项目的时间安排有关该项目于二零二零年底开始,因此,我们并无涵盖疫情初期数月因此,我们的数据主要涵盖大流行已经成为一个长期的“新现实”的时期结论尽管存在上述局限性,但我们的研究提供了一种使用自动情感分析进行定量迁移研究的新方法。虽然在现有的关于移民的Twitter研究中,移民被视为Twitter话语的主题[19,40,94],但我们能够专注于他们在对话中的角色。据我们所知,这是对Twitter数据集的第一次研究,旨在特别分析移民的推文。此外,我们亦关注一个群体的移民经验,该群体为来自欧盟发达国家的移民,目前在新型冠状病毒大流行的背景下研究不足。我们的研究结果可用于了解移民与新冠肺炎疫情相关的社交媒体数据对移徙者原籍国和接收国的决策者和卫生当局都很有用考虑到社交媒体对移徙者生活的重要性Twitter代表了各种社会群体内部和之间的特定社会互动的全球虚拟存储库我们想主要通过赋予他们各种代理来定义移民或搬家者我们还运用了既定的和新的情绪评分指标及其解释。需要进一步的研究来完善在Twitter上识别移民账户背后的方法。由于未来地理标记内容的比例不太可能上升,因此应该测试使用自我声明的Twitter位置,语言和其他可用数据的其他方法。此外,重复我们对来自其他国家的移民的情绪分析,以比较他们对新冠肺炎疫情的反应,这将是一件有趣的事情。未来研究的另一个可能的、有前途的方向是在分析中还包括其他社交媒体,优选地将其中的多个相结合,以便考虑用户的不同特征(人口统计学,以及每个社交媒体在不同国家的不同受欢迎程度)。尽管存在上述限制,但我们认为,使用推特数据可以更全面地了解移民在推特上的数字足迹和痕迹,这些足迹和痕迹是由时间和空间标记的。我们还认为,我们的方法和本文中提出的分析是利用Twitter数据潜力的额外论据,Twitter数据是移民研究的客观和免费访问的数据来源。表1、表3、表4、表5、表6、表7、表8、表9,表10资金本文是在“(IT)移动性”项目中编写的流动人口的不流动性,不流动人口的流动性-大流行和新信息/通信技术时代的移民”(社会科学研究所,SWPS社会科学和人文大学)。该项目由波兰科学和高等教育部在2019-2022年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功