没有合适的资源?快使用搜索试试~ 我知道了~
智能系统与应用18(2023)200201精神分析驱动计算的概念和实验Minas Gadallaa,Mr.,Sotiris Nikoletseasa,b,José Roberto de A. Amazonasc,José D.P. Rolimda计算机工程和信息学系,帕特雷大学,Rion,Achaia,265 04,希腊bComputer Technology Institute and Pressc计算机体系结构系,加泰罗尼亚技术大学-UPC,巴塞罗那,08034,西班牙d日内瓦大学计算机科学系,日内瓦,1205,瑞士A R T I C L E I N F O A B S T R A C T保留字:精神分析计算GPT-3本研究探讨在文字互动媒体中,人的因素与使用者知觉的有效结合。在这种情况下,用户文本的可靠性往往受到行为和情感因素的影响。为此,在现有技术中已经进行了几次尝试,以在这样的系统中引入心理学方法,包括计算心理语言学、人格特质和认知心理学方法。相比之下,我们的方法从根本上是不同的,因为我们采用了基于精神分析的方法;特别是,我们使用拉康话语类型的概念,以捕捉和深刻理解文本的真实(可能是难以捉摸的)特征,质量和内容,并评估其可靠性。据我们所知,这是第一次。 时间计算方法系统地与精神分析相结合。我们相信,这种精神分析框架从根本上比标准方法更有效,因为它涉及人类个性,行为和表达的更深层次,更原始的元素,这些元素通常会逃避在“更高”,意识层面发挥作用的方法。事实上,这项研究是第一次尝试形成一种新的精神分析驱动的互动技术范式,具有更广泛的影响和多样化的应用。为了验证这种通用方法,我们将其应用于假新闻检测的案例研究;我们首先展示了著名的迈尔斯-布里格斯类型指标(MBTI)人格类型方法的某些局限性1. 介绍用户相关的和生成的数据(为了简单起见,称为用户数据)构成了基于交互媒体技术的社交应用的核心组件。然而,在用户感知更容易受到情绪或某种其他形式的偏见影响的各种情况下,用户数据的可靠性往往会受到损害。灾害管理中的一个场景可以准确地说明用户数据缺乏可靠性的影响。在一个假设的事件中,在一条经常光顾的高速公路上发生了一起车祸,许多其他车辆经过,我们可以想象在任何真正可靠的信息(例如警察到达)被传达之前,大量的社交媒体帖子描述了关于它的细节。在这种情况下,如果可以立即过滤高容量/不确定质量的基于用户的信息,则例如准确报告程度*通讯作者。乘客受伤的严重程度可以确定,救护车的及时到达可能会挽救生命。当然,上述是一项重要的任务,因为它意味着还不存在的机制;然而,可以肯定的是,需要跨学科的方法来捕捉人类社会用数据表达感知的方式的不同方面,并以正式的方式对其进行建模,以便概念化这种机制并推断可以从这种数据中获得的信息和知识的可靠性。由于这种与用户数据相关联的可靠性的缺乏,依赖于从这样的数据获取的信息和知识的特征化和预测的基于交互式媒体技术的应用可能被严重损害,并且很少被现实生活场景中涉及的参与者采用。一个相关的,最近成立的研究课题是检测假新闻。特别是,电子邮件地址:gkantalla@ceid.upatras.gr(M. Gadalla),nikole@cti.gr(S. Nikoletseas),jose.roberto. upc.edu(J.R. de A.亚马逊),jose. unige.ch(J. D. P.Rolim)。https://doi.org/10.1016/j.iswa.2023.200201接收日期:2022年10月11日;接收日期:2023年1月30日;接受日期:2023年2月10日在线预订2023年2667-3053/© 2023作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页:www.journals.elsevier.com/intelligent-systems-with-applicationsM. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)2002012沿着连续的真实性对新闻进行分类,并具有相关的确定性度量;真实性受到意图欺骗的影响Conroy et al.(2015)。检测假新闻传播的最先进方法可以粗略地分为两类。语言学方法是基于在这里,某些语言方面的监测,如频率和模式的代词,连词,和负面情绪词的使用,年龄;一项任务,发现非常困难的实现。另一方面,网络方法是基于相应的属性和对新闻如何传播的理解。在这里,链接数据和社交网络行为被Ciampagliaet al.(2015)研究。我们推测,精神分析理论可能被用来提供第三种方法论的开发工具。人们可能出于几个原因选择传播假新闻;例如,因为不理性或者因为有什么好处。独立于不同的动机,假新闻的某些文本特征可以通过对文本的精神分析检查来捕捉。这项研究工作的总体目标是开发一个全新的理论框架,用于在社交互动的背景下解释用户生成的数据。特别是,通过结合两个非常不同的学科-计算机科学和精神分析的元素,– 这项工作将开发理论方法和工具,以便从个人、群体和群体产生的数据中深入、全面地了解他们的行为背景。这项工作的重点是改进和提供一个全新的视角,在相应的技术。在这种背景下,这项研究的雄心勃勃的目标是为精神分析驱动技术的新范式奠定基础。本文的具体贡献,在前面所述的更广泛的目标范围内,可以总结如下:• 基于人格特质概念的假新闻检测准确性评估方法,证明其局限性;• 提出一种基于拉康话语精神分析概念的用户数据分类新方法;• 基于拉康语篇理论的虚假新闻检测准确性评价;• 为精神分析驱动计算的未来发展定义框架和路线图第二节介绍并比较了近年来发表的相关著作;第三节介绍了人格特质的概念并介绍了基于拉康话语的精神分析驱动的新方法;第四节评估了所采用的心理学和精神分析方法识别表达的可靠性相关特征的潜力;第五节介绍了所遵循的计算方法;第六节讨论了所获得的结果;第七节总结了结论并提出了未来工作的路线图。2. 相关工作将心理和社会维度与计算方法相结合的相关但不同的方法包括计算心理语言学,人格特质,行为分析,情绪状态和认知心理学方法。与所有这些方法相比,我们的方法是根本不同的,因为我们采用了精神分析的视角,特别是,我们采用了拉康话语类型的强大概念。据我们所知,这是首次尝试将精神分析和计算系统地结合在一起。我们相信,与前面提到的方法相比,这种精神分析方法实际上更有效,因为它涉及人类人格的更深层次的基本要素,行为和表达,通常逃避在“更高”的意识层操作的方法在强调了我们研究方法的这种普遍新颖性之后,我们将在下面讨论与我们用来验证我们的方法的特定案例研究(假新闻检测)相关的最新研究。Kaplan(2019)描述了将心理学与计算语言学相结合的基本方法(基于通过收集有限状态转换网络的短语抽象公式);特别地,作者设想复杂的自然语言技术作为改进现代技术所使用的当前会话系统(相当差)性能的关键因素。大量数据的丰富可用性以及有效的人工智能方法(包括深度学习)预计将进一步促进这一愿景。我们注意到,虽然对话的概念与话语的概念直接相关,但该论文中采用的方法比我们在研究中追求的直接精神分析尝试更有限(心理学)。对 于 检 测 在 线 社 交网 络 中 错 误 信 息 的 更 具 体 方 面 ,Kumar 和Geethakumari(2014)建议应用认知心理学概念。提出了一种基于文本和网络特性(如消息的一致性、一致性、来源的可信性和消息在网络中的在Sastrawan et al.(2022)作者使用深度学习方法在一些假/真新闻数据集中检测假新闻同样,在评估文本的定性属性时,没有考虑精神分析元素此外,使用客观的,全球性的信息,在对比我们的方法,侧重于每个文本分别(然而,我们的方法也可以扩展到包括全球信息的文本)。Guo等人(2021)提出了心理因素(特别是Red-dit对话中表达的情绪),提出了一种被动检测精神障碍的模型。建议的模型完全基于情绪状态和Reddit帖子中识别的这些状态之间的转换,与基于内容的表示(例如,n-gram、语言模型嵌入等)范围是克服基于内容的表示的领域和主题偏差,朝向更普遍的适用性。在不同的应用领域,Chen et al.(2021)采用了智能销售、客户个性分析;特别是我们的方法旨在避免特定于内容的偏见,专注于话语类型识别所涵盖的文本的潜在品质。事实上,语篇类型是文本的一个更在另一项基于心理学的假新闻检测研究中,Cardaioli等人采用了行为分析方法(2020年)。特别是,作者使用监督学习算法来分析假新闻传播者,基于五大人格特质和风格特征的组合。该方法在英语和西班牙语的高音数据集上进行评估。本着类似的精神,Sampat和Raj(2016)旨在了解印度社交媒体用户分享假新闻的动机和相应的个性特征;特别是,这些发现表明,时间的流逝,信息共享和社交奖励导致即时分享新闻。此外,表现出外向性、神经质和开放性的人会立即在社交媒体平台上分享新闻;相比之下,宜人性和开放性的人格特质会在分享前验证新闻我们注意到,这项工作的重点是假新闻传播,而不是假新闻识别本身。此外,如前所述,尽管这些作品也表现出基于心理学的批判,但我们自己的研究是基于精神分析方法,特别是在识别拉康话语类型特征的力量方面,以识别具体的特征。M. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)2002013Fig. 1. 人格类型组。互动媒体中文本的特征,例如,我们选择用于开发这项工作的案例研究的假新闻识别。3. 采取的心理学和精神分析方法在本节中,我们将介绍两种不同的方法,从用户数据中潜在地第一种是基于人格特质的心理学概念,第二种是基于拉康话语的精神分析概念。3.1. 人格类型预测两个潜在的答案的问题“是什么让人们独特和彼此不同?”是动机还是特征?John and Robins(1994).关于动机,我们可以找到Smith(1992)的作品然而,没有计算方法已经实施或提出。另一方面,人格特质和类型有许多理论、经济学和可用的框架,其中最著名的是大五人格(Big Five Rothmann and Coetzer,2003)和迈尔斯-布里格斯类型更具体地说,特质方法,而不是动机方法,仍然是描述人类个性和成功预测人类行为的最广泛使用和最被接受的概念框架,并且已经在基于计算机的应用中多次实施和应用,例如在社交媒体广告中Clark和Kachur(2014),从面部图像进行特质预测Kachur等人。(2020),还有很多。这两个系统都旨在通过将其分解为许多维度或组来指示或预测受试者的个性,从而指示或预测在这项研究中,我们主要关注特质方法,特别是MBTI系统。大五人格特质包括以下几个方面:外向性、主动性、宜人性、对新体验的开放性和神经质(Rothmann and Coetzer,2003)。同时,MBTI人格模型描述了一个人在四个维度/群体中的偏好/行为,也在图中说明。一曰:• 外向-内向:这个维度衡量一个人如何获得能量。外向的人通过与人相处而充满活力,而内向的人则通过独处而充满活力。• 感觉-直觉:这个维度衡量一个人如何接受信息。传感器依靠他们的五种感官来收集信息,而直觉者依靠他们的直觉和直觉。• 思考-感觉:这个维度衡量一个人如何做出决定。思考者使用逻辑和理性来做决定,而感受者使用他们的情感和价值观。• 判断-感知:这个维度衡量一个人如何生活。判断者喜欢结构和秩序,而感知者则更灵活和自发。图二. 拉康论述的一般表现。通过这种方式,每个人都可以根据16个可能的四字母代码中的一个进行分类,如ESFJ,表示一个人可能:• EX marted(E):更关注人和事物的外部世界,而不是思想的内部世界。• 感觉(S):宁愿与已知的事实和坚实的经验一起工作,而不是探索可能性或意义。• 感觉(F):进入情境,衡量人的价值和动机。喜欢根据价值观做决定。• 判断(J):喜欢有计划的、有决心的、有秩序的生活方式,而不喜欢不灵活的、自发的生活方式。MBTI由Isabel Briggs Myers在20世纪40年代Boyle(1995)开发,以实施Jung在第4节和第5节中,我们讨论并使用了一些计算方法,通过语义和语言分析来确定人格类型,并给出了假/真新闻检测应用程序的结果。3.2. 拉康论述四种话语理论试图将人们相互联系的不同方式以及社会关系中知识和享受的经济形式化。拉康的框架定义了一种更复杂的对两个相互作用的当事人所承担的角色的表征,形成了四种离散的话语类型:拉康(1972)、拉康(1974)和巴伊(2009):主人话语--后来,拉康又定义了另外一种在本书中没有考虑到的数字话语,即《资本主义国家的话语》(1978),在这里,主体被命令以商品的形式享受。图2提出了拉康话语的一般代表性话语的四个场所:重要的是要认识到,隐藏的在话语的术语和通信过程的组成部分之间画一个平行线是可能的,以这样的方式,给定话语的动力学,即,在不同的地方安排的元素之间的内部关系,可以用来描述一个给定的媒体过程的动态。话语的要素或交流各方所承担的角色如下:M. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)2002014S1系���2↓S2系���↓一⏐$↓⏐• S1:主能指代表主体的真正本质。这可以用我是概括。联系我们⏐���↗↖⃖⃖⃖⃗《歇斯底里的话语:一个人不必歇斯底里》• S2:代表受试者的知识这可以用我所知道概括。• a:代表欲望的客体原因它可以概括为:我想要的• $:表示被语言阉割的禁止主语。这可以用我所说来概括。话语由每个元素在图2所示的一般表示中所占的位置来定义。每一个话语表征,用拉康的行话来说,都被称为一个话语表征。下面给出的定义来自Bailly(2009)。在临床意义上,要保持歇斯底里的话语;事实上,拉康明确指出,这种类型的话语在非歇斯底里的人,正是导致真正的学习。话语的主体是被阉割的($)歇斯底里的短缺;隐藏的是它的酒吧是他/她的欲望的对象原因(a)。这个被禁止的主语($),由它的客体小a驱动,向他者(S1)的主要能指(S2)讲话,后者以知识(S2)的生产作为回应,在栅栏下面。歇斯底里者($)向主人所指(S1)提出他/她的问题,但她/他只得到那个人的知识(S2)作为答案,歇斯底里者因为没有更好的东西而享受这种知识,尽管这些答案从来没有构成对他/她的欲望(a)的满意的回答话语联系我们$↗↖⃖⃖⃖⃗主话语(Master Discourse):主符号(S1)任何一个走在通往知识之路上的人都拥有歇斯底里症这是一个需要完全接受自己无知的立场主人(Master)是沟通的代理人,而不是称呼对方(a),而是在他/她的位置上称呼主能指的真理实际上是一个被禁止的主体($),而且,和其他人一样,它也是被隐藏的;然而,在那个主能指(S1)之下,被禁止的主体($)正在享受知识(来自a的东西)的生产。没有很大的欲望假装任何其他地位,和一个饥饿的对象的原因的欲望。1确切地说,这个想法是,通过区分话语类型,可以限定一个表达的真实性和真实性;即, 正是话语的形式特征将告知真理是否基于权威,基于有文献记载的来源,基于识别他人本质的需要,或基于挖掘信息的需要联系我们⏐���1↖↗⃖⃖⃖⃗大学话语:宇宙的话语分别 形式特征将是衡量表达的虽然人格sity提出了一个关于制度运作的观点,并通过扩展其中的个人在他们的能力incarnating制度。知识(S2)占据了能动者的位置,能动者把自己定位于欲望(a)的客体原因,对知识的渴望是学生在那里的假定原因。然而,在这种关系中,我们可以看到,客体小a也是,也许同样重要的是,被机构的主要符号(S1)所喂养,这些符号无休止地助长了学生主体的阉割。在解决知识不是主体,但对象的欲望的原因主体,什么是在分配知识(S2)的表象之下,大学通过其主符号(S1)控制主体($),并享有 被阉割的学生的该机构也有罪给学生的印象,通过仔细的atten- tion和吸收其主人signifiers,她/他可以克服他/她的阉割。这是一个所有机构都共有的功能系统:公司、专业和政府部门,事实上,在任何机构中,“知识”(S2)以某种形式取代了性格特征告诉我们关于说话者的事情,拉康的话语告诉我们关于所说的事情。受过训练的精神分析学家可以根据语言的语义分析来检测上述符号。拉康的话语方法如何能够扩展到有两个以上互动方的群体,这是可以争论的。这个问题的答案来自于认识到精神分析是一个解释以任何形式和任何数量的人表达的情况的一般框架。自弗洛伊德发展以来,它已被阐明并表明可用于解释艺术作品弗洛伊德(1914),分析社会情况弗洛伊德(1921),弗洛伊德(1933)或对文明未来的猜想弗洛伊德(1927),弗洛伊德(1930)。这些只是弗洛伊德的作品中的几个例子,拉康的话语是一种运用精神分析概念来解释任何现实生活情境的形式框架。正如前面提到的弗洛伊德的作品一样然而,将互动与其中一个话语联系起来并不是一件容易的事情,必须谨慎对待例↑a⏐���2↗↖⃖⃖⃖⃗美元���1↓分析师话语:在安娜的话语中,这说明了一个单一的媒体现象可以从不同的角度来看,卡斯特罗(2016)提供了话语理论的各种角度:分析师已经接受了成为象征性的小客体,a的分析对象。这是分析师必须接受的最常见的角色之一;他/她是一面空镜子,一切都可以反映在上面,当完全移情时,分析者(S1)将处理他/她的欲望(a)的对象原因。在这种情况下,在他/她作为客体小a的角色中,分析师将他/她的话语与患者的阉割($)、焦虑进行对话,他/她的提问促使被分析者产生一个主能指(S1),主能指(S1)被反射回分析师,而分析师的隐藏知识(S2)代替真理,被输入被阉割的主体($),促进主体产生主能指(S1)。被分析者会发现,关于自身欲望的知识(S2隐藏在a之下)并不为分析者所掌握,而是通过其主能指(S1)而被揭示出来。分析师不采用假设-每一个网站,我们都在大学的话语。当它满足了我们提供结果的要求时,我们就陷入了歇斯底里的话语中。当我们把它神化时,我们就在主人的话语中。当它计算我们的数据并定制它带给我们的结果时,就好像它了解我们,知道我们的偏好并预测我们想要什么,我们就在资本主义的话语中。因此,最重要的是,在进行联想之前,要很好地定义上下文,以便清楚地识别话语的利益相关者。上下文取决于应用程序的类型。应用程序的知识意味着上下文的知识,并建立要考虑的上下文元素。像大师一样的权力,或者像大学一样的知识正因为如此,它经常被机构认为是颠覆性[1]充满情感是歇斯底里式话语的一个特征。M. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)2002015|||∑= ≤���)=���{0,1}(概率(���≤ ���|label=���)图3.第三章。 标签Real=0和Fake=1分布。表1出于说明目的,从数据集中随机选择三个标题标题标签见图4。每个人格特质的累积分布函数,标签=0。各种UNIX平台,Windows和MacOS。4主要步骤警察交出徽章,而不是煽动暴力反对立石1抗议者共和党竞选进入新的动荡阶段第一次华尔街告别6月加息04. 心理学和精神分析方法的初步评价在本节中,我们将对第3.1节和第3.2节中描述的心理学和精神分析方法的潜力进行实证评估,以确定发音的可靠性相关特征。4.1. 用于评价的所选数据集来自Kaggle2,由许多新闻标题和内容组成,这些标题和内容已用于开发真假新闻算法,例如Koury和Hernandez(2019);他们使用最先进的NLP方法,利用标题和内容在我们的方法中,从这个数据集中,只有标题被使用并提交给人格特质分配算法开发的。3每个标题也有一个相关的标签。当标签等于0时,对应的新闻是真实的,否则是假的。为了满足此应用程序的需要,在分析内容后,我们决定删除任何少于4个单词的标题,因为大多数他们中的大多数人没有给出任何语义信息,如果它是假新闻或不是。最终的数据集,包含5860个独特的标题,是平衡的,非常适合应用MBTI理论的任务,标签也同样不同。的算法是:第1步:读取数据集并将其存储在一个名为raw.comments.df的框架中。第2步:数据集被分成测试和评估数据集,test.comments.df和eval.comments.df。测试数据集包含40%的标题。人格特质被指定为:- EX troverts -内向者- 传感器-直观- 思想者-感受者- 法官-感知者步骤3 :将测试数据集分为两个数据集,一个包含真实标题(test.comments.0.df),即,Label= 0的标题,以及包含假标题的标题(test.comments.1.df),即,标签=1的标题真实和虚假测试标题的数量分别为1156和1188。第四步:每个人格特质的累积分布函数(cdf),给定标签的值,由方程给出(1)评价。cdf(������)= Prob(���≤ label=)���(1)���其中,n∈ {n,n,n,n,n},0≤n≤1,n���∈ {0,1}。步骤5:使用贝叶斯定理,假设给定人格特质的概率小于或等于某个值的确定值的标签的概率由等式2评估(二)、如图所示3 .第三章。最后,为了说明的目的,表1Prob标签概率(���≤ ���|label =���)(二)4.2. 人格特质评估(MTBI)用R语言开发了一个算法来评估人格特质方法识别数据集标题的可靠性相关特征的潜力R是一个用于统计计算和图形的自由软件环境。它编译并运行在2https://kaggle.com/datasets/rchitic17/real-or-fake,访问可以2022年25日其中,n∈ {n,n,n,n,n},0≤n≤1,n���∈ {0,1}。图图4和图5显示了每个人格特质的累积分布函数,标签= 0和标签=1。可以看出,分布非常相似,这表明可能无法使用人格特质在标签之间进行区分。图图6、图7、图8和图9示出了在给定人格特质(EI、SN、TF或JP)的概率小于或等于某个值的情况下,标签假定确定值3https://github.com/wiredtoserve/datascience/tree/master/PersonalityDetection,2022年5月25日。4 R可以从https://www.r-project.org。包含从数据集中随机选择的三行M. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)2002016图五. 每个人格特质的累积分布函数,标签=1。见图6。假设给定人格特质的概率的确定值的标签的概率小于或等于某个值。在图中可以看出。6、7、8和9:i)JP根本没有帮助以推断标签值;ii)从EI、SN和TF人格特质不可能推断出标签值。由此可以推测,低价值人格特质具有一定的分化力。第6步:为人格特质值定义了0.25的阈值,并开发了几种简单的算法来评估其差异化能力。第一个是基于低价值人格特质的总数,假设至少有两个具有低价值的特质下面的三个算法,每个算法都关注一个低价值的特性。最后一个要求其中一个特征具有低价值。所得结果总结如下:全球评价:评价标题总数:3516。- 测试条件:如果低值人格特质的总数大于1,则将预测标签设置为0;否则将预测标签设置为1;见图7。假设给定人格特质的概率的确定值的标签的概率小于或等于某个值。见图8。假设给定人格特质的概率的确定值的标签的概率小于或等于某个值。- 错误总数:1674;- 准确率:52.39%- 测试条件:如果低值人格特质的总数大于2,则将预测标签设置为0;否则将预测标签设置为1;- 错误总数:1792;- 准确率:49.03%- 测试条件:如果低值人格特质的总数大于3,则将预测标签设置为0;否则将预测标签设置为1;- 错误总数:1796;- 准确率:48.93%低情商值表现:低情商人格特质值的头条新闻数量:55。M. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)2002017表2=(������,������)赋值给等于0和1的标签。标签=0标签= 1M A U H010 0 0 0 0101010 01 001 10 0 01 110 0 0 01 1 110 01 10 101 10 0101 11 101 1 1 1 11 1 10见图9。假设给定人格特质的概率的确定值的标签的概率小于或等于某个值。- 测试条件:如果标题- 正确预测数:37;- 准确率:62.27%低SN值表现:具有低SN个性特质值的标题数量:364。- 测试条件:如果标题- 正确预测数:210;- 准确率:57.69%低TF值表现:具有低SN个性特质值的标题数量:582。- 测试条件:如果标题- 正确预测数:299;- 准确率:51.37%低人格特质价值观全球业绩:低人格特质值的标题:1001。- 测试条件:如果满足最后三个测试条件中的任何一个,则将预测标签设置为0;否则将预测标签设置为1;- 正确预测数:546;- 准确率:54.54%结果表明,使用人格特质来预测标题是真是假并不比随机分配更好。即使在低EI值情况下获得的62.27%的准确率也不能被认为是一个好的结果,因为只有55个标题属于这一类别。由于本节中给出的结果对应于非常简单和具体的标准,因此在第5节中进一步检查了MTBI方法。4.3. 对拉康话语方法在这一节中,我们将考察拉康话语被用来从新闻标题中预测真假新闻的潜力。在这个初始阶段,我们决定采用一种非常简单的方法,来量化一个声明中每一种可能的拉康话语的存在考虑向量m=(m,m,m,m),其中M,A,U,H分别代表硕士,分析师,大学和歇斯底里,并且可以取值1以指示在表达中存在该类型的话语,否则取值0例如,=(,)=(1,0,1,0)���������表明在相应的表达中,大师和大学话语的痕迹已经被识别出来。下面的程序被用来评估拉康的论述方法:第一步:对拉康论述的盲目分配一位无法访问标题标签的专家������������第二步:识别歧义。 专家访问100个使用的标题的标签,并验证是否将相同的值=(,)���������分配给具有不同标签的标题。第三步:对拉康语篇进行非盲的重新分配,以获得零歧义。对于第二步中识别出的每一个歧义,专家验证是否可以分配一个在精神分析上有效的替代值,即=(,)���������来解决歧义。第四步:拉康话语作业的无盲延伸。使用第3步中确定的相同标准来解决模糊性,对另外200个标题行进行了赋值,赋值为=(,)���������。使用上述程序,有可能找到300个标题的一部分=(,)���������代码。表2显示了获得的分区。可以认为,使用非盲重新分配的=(,)���������是不公平的,只是获得零模糊度的技巧。这是一个可以理解的论点,但该程序是合理的,理由如下:1. 精神分析不是一门硬科学,不同的专家采用不同的观点可能会得出不同的有效结论。需要强调的重要一点是,我们已经找到了一个在精神分析学上有效的对编码的划分,即:(,)���2. 标题的长度很短,比正常病人的叙述要短得多。在这种情况下,赋值=(,)���������要困难得多,是取得有用结果的必要条件3. 将=(,)���������分配给标题与患者对话语的识别截然不同,一种精神分析的设置,其中除了叙述之外,身体语言、衣服、情感代表性手势帮助分析师建立对患者的完整再现。M. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)2002018为了说明赋值=(,������������)的困难,考虑以下标题:警察交出徽章,而不是煽动暴力反对站立的岩石抗议者表3从算法中获得的每个变量(类型)的平均值,四舍五入至2位小数。性格类型平均值其中,已分配给它=(1,0,1,0)���������。内向-EX troversion 0.45 0.55主人的任务是公正的提到“警察”,这是一个大学作业是合理的,因为这个标题披露了一个信息,某种知识。然而,可以说,一个=(1,0,1,1)=(1,0,1,1)���������的赋值更好,因为提到“暴力”是一个歇斯底里 如果这个赋值被采用,则没有什么会改变,因为两个代码都在Label = 1分区中。另一方面,也可以认为a=(1,1,0,0)���������更好,因为感知-直觉0.43 0.57思考-感觉0.33 0.67判断-感知表4总结了ML算法的性能和相对达到的平衡精度。型号类型1类型2类型3动词EX tra-Trees-Classifier58% 57% 56%仅仅是信息的泄露如果采用这种分配,新代码属于Label= 0分区,并且会引入歧义。这个简单的例子表明,拉康话语的分配不是一件容易的事,需要进一步的研究。从表2可以容易地导出预测标签的确定性模型。如果=(���������,)满足等式,则标签应设置为零。(3),即,将ε=(ε,ε)������代入Eq.(3)结果为1..如果=(���������,)满足等式,则标签应设置为1。(4),即,将ε=(ε,ε)������代入Eq.(4)结果为1..等式(3)和(4)是最小的,但不是唯一的。它们在某种意义上是互补的,如果* *=(*,*)������值满足(3),它们将不满足(4),反之亦然。表2和等式(3)和(4)表明,分析师话语的存在,=(,)=(,1,,)���������几乎总是意味着相应的标题指的是真实新闻。另一方面,大学话语的存在,=(,)=(,,1,)���������几乎总是意味着相应的标题指的是假新闻。最后,将分配的=(,)���������值扩展到另外300个标题,以便进一步评价第5节中的程序。5. 计算方法本节描述了我们的方法的机器学习(ML)实验,以分类和预测标题是假的还是真的。以下小节描述了各种采用的程序并展示了结果。5.1. 对数据集的标题进行的个性类型(MTBI)分配已经开发了几个开源代码和项目来从文本中提取人格类型,例如Nagpurkar(2020)和Saini和Agarwal(2020)中可用的作品。在这项工作中,数据集文件被提交给Nagpurkar(2020)开发的人格特质分配算法,该算法以编程语言Python实现。5分析是使用语言线索,如单词重复,动词数量,5https://www.python.org/。LightGBM 59% 59% 58%SVC 57% 57% 55%GaussianNB 54% 54% 55%名词,文本中情感的检测等等。我们主要对这样一个理论的应用感兴趣,而不是对理论本身的实现感兴趣,因为它已经被其他研究人员所做和评估,如Iskandar等人(2021)。其中一些方法能够以至少90%的准确度确定E/I,S/N和T/F等类型。Li et al.(2018),最近,J/P类型的准确度为81%和65%,这取决于所使用的数据集Choong和Varathan(2021)。MBTI算法将文本作为输入,并将[0,1]范围内的4组变量(EXtroversion/Introversion,Thinking/Feeling等)作为输出,这些变量表示第3.1节中描述的维度,ML模型的二进制分类任务是将标题分类为Real(数据集标签为0)或Fake(数据集标签为1)。每个人格类型组的平均值见表3。所获得的类型的分布示于图1A和1B中。10(思考-感觉),11(内向-EX troversion),12(判断-感知)和13(感觉-直觉)。5.2. 使用ML进行我们选择了四种不同的机器学习算法,即:i)Support Vec- torClassifier(SVC),ii)LightGBM,iii)EX tra-Trees-Classifier和iv)GaussianNB(GNB)进行比较,并使用以下独立人格类型组对其进行测试,以确定不同人格类型在假/真新闻检测领域的影响:• 类型1:内向,直觉,思考,判断(INTJ)• 类型2:EX troversion,Sensing,Feeling,Perceiving(ESFP)• 类型3:内向,感觉,思考,感知(ISTP)每个算法使用默认参数运行,使用25%的数据进行训练,结果如表4所示。可以看出,类型1、2导致LightGBM算法的59%的准确率,而类型3几乎总是最低的分数。GaussianNB的表现最差。值得注意的是,超参数调优图14中示出了从LightGB算法、类型1实验导出的混淆矩阵。可以看出,最佳评分模型能够正确预测假新闻标题为假的概率为30.2%(图右下角),而将假新闻标题归类为真实的概率约为22%(左下角)。关于真实新闻标签,大约27.9%的人正确地将真实新闻标题归类为真实(左上),19.8%的人正确地将真实新闻标题归类为假(右上)。M. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)2002019图10. 情感(平均0.67)和思维(平均0.33)类型的分布。见图11。 内向型(平均0.49)和EX型(平均0.55)的分布。图12个。 判断(平均0.45)和感知(平均0.51)类型的分布。图13岁 感觉型(平均0.43)和直觉型(平均0.57)。图14个。用于类型1实验的LightGBM算法的混淆矩阵x。所获得的结果证实了第4.2节中已经陈述的内容,即MBTI不是预测标题标签的理想工具,因为没有一种ML算法的准确性得分比随机预测好得多。5.3. 拉康论述使用ML进行这是一个两步程序:• 第一步:将拉康的《论述》自动或人工地分配到标题中• 第二步:使用第一步的结果,预测标题行的标签,如假或真。这就产生了四种可能的话语分配和标签预测的组合:• 手动分配拉康话语,并使用4.3节(5.3.1节)中讨论的确定性模型预测标签。• 手动分配拉康话语并使用ML算法预测标签(第5.3.2节)。• 使用语言模型GPT-3自动分配拉康语篇,并使用第4.3节(第5.3.3节)中讨论的确定性模型预测标签。• 使用语言模型GPT-3自动分配拉康话语,并使用ML算法预测标签(第5.3.4节)。M. Gadalla,S. Nikoletseas,J.R. de A. Amazonas等人智能系统与应用18(2023)20020110表5ML算法的性能和人工分配的拉卡语篇的标签预测的相对平衡精度。模型精度EX tra-Trees-分类器97%LightGBM 97%SVM 97%GaussianNB 92%图15. 实现拉康双课程自动分配的4个步骤。在处理数据集之后,我们手动将话语分配给数据集的600个随机标题,然后我们训练语言模型GPT-3,从而在最后一步能够自动将拉康话语分配给数据集的其余标题。对于前两种方法,我们随机选择了600个标题,并手动分配了相应的拉康话语。在后两种方法的情况下,如图15所示,我们使用上述600个手动分配的标题来训练语言模型GPT-3(生成预训练Transformer 3),以尝试实现自动拉康语篇分配来解决步骤1的问题。GPT-3是由OpenAI开发的神经网络机器学习模型,使用互联网数据进行训练,以生成任何类型的文本,使开发人员能够训练和部署AI模型。它为数据预处理和模型训练提供了各种工具和服务,其功能包括但不限于:i)生成、分类、翻译和总结文本; ii)生成和回答问题; iii)从文本Dale(2020)生成图像和音频,并且可以可以在OpeanAI的主网站上访问和使用65.3.1. 手动拉康话语分配和确定性模型标签预测(不使用ML)在第4.3节中介绍并实施了该病例。准确率几乎是100%,然而,这不是一个实际的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功