没有合适的资源?快使用搜索试试~ 我知道了~
基于迁移学习的在线社交网络中假身份Koosha Zarei引用此版本:库沙·扎雷基于迁移学习的在线社交网络中假身份假活动检测。计算与语言[CS.CL]。巴黎理工学院,2022年。英语NNT:2022IPPAS008。电话:03936643HAL Id:tel-03936643https://theses.hal.science/tel-039366432023年1月12日提交HAL是一个多学科的开放获取档案馆,用于存放和传播科学研究文件,无论它们是否已这些文件可能来自法国或国外的教学和研究机构,或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire626在线社交网络中基于迁移学习Thee`sededoctoratdepre'pare'ea`Te'le'comSudParisE'coledoctoralen626E' coledoctorale deSpe'cialite'dedoctorat:Inforrmatique2022年7月12日,第12页KOOSHAZ AREI评审团组成:路易斯·穆恩·古蒂埃雷兹西班牙坎塔布里亚大学教授付晓明哥廷根大学教授-德语和说唱歌手埃琳娜·卡布里奥Professor,Universite'Copouchte布鲁斯·麦克道尔·马格斯美国杜克大学教授AlbertMeronPenguela助理教授,伦敦国王克里斯托夫·塞里萨拉研究员,CNRS - LORIA实验室-法国诺埃尔·克雷斯皮Professor,IP-Paris,TelecomSudParis-FranceDirecteurdethe`seReza Farahbakhsh法国巴黎南部电信公司IP-Paris兼职助理教授NNT:2022IPPAS008在线社交网络中的假身份基于迁移学习巴黎综合理工学院(IP-Paris)专业化计算机科学人工智能提出Koosha Zarei委员会:付晓明审稿德国哥廷根大学教授埃琳娜·卡布里奥审稿法国蔚蓝海岸大学教授布鲁斯·麦克道尔·马格斯考官美国杜克大学教授阿尔贝·梅罗尼奥·佩尼尤拉 考官助理教授,伦敦国王克里斯托夫·塞里萨拉考官研究员,CNRS-LORIA实验室-法国路易斯·穆尼奥斯·古铁雷斯 考官西班牙坎塔布里亚大学教授诺埃尔·克雷斯皮顾问法国巴黎南部电信巴黎IP教授Reza Farahbakhsh共同主管助理教授,巴黎IP,法国巴黎南部电信奉献到我所有的家人,爱和给予的象征3确认首先,我想对我的导师Noel Crespi教授表示最深切的感谢,感谢他在我的研究过程中不断的支持、耐心、友谊、见解以及所有的非常感谢你们在整个旅程中对我的信任,给我自由去追求我的兴趣和好奇心。能成为你们团队的一员对我来说是一种荣誉我要感谢我的同事,博士。Reza Farahbakhsh,感谢他的技术支持,激励,友谊和富有成效的讨论。非常感谢你总是愿意和热情地帮助我,在任何时候以任何方式,并为我提供指导,在每一个情况。在此,我谨向我的论文审稿人、教授、博士生导师表示衷心的感谢傅晓明教授、ElenaCabrio耐心地阅读了这篇论文,并提供了宝贵的意见和建议。特别感谢Bruce Maggs教授、Albert Meroño Peñuela博士、Christophe Cerisara博士和Luis Muñoz Gutiérrez教授作为我的论文答辩的评审团成员。我特别感谢TSP数据智能和通信工程实验室的所有可爱的团队成员,特别是Praboda,Samin,Faraz和Yasir,让我们分享了美好的时光你总是在那里说一句鼓励的我也很高兴能与教授一起工作我从罗伯托·密涅瓦那里学到了新的思维方式,以及如何为一个项目做出最大的贡献。他是个很好的朋友。特别感谢TSP出色的行政人员Valerie Mateus和Veronique Guy。我深深的爱,尊重和感谢我的家人,我欠他们很多。 我深深地感谢我的父母,马哈茂德和Shohreh,他们的单相思,无条件的信任,及时的鼓励,和无尽的耐心。正是他们的爱使我能够打破自己的极限,自由而无畏地体验生活我要感谢其他家庭成员,Mani,Nima和Shabnam,感谢他们的慷慨和无尽的支持。没有你的支持,我无法完成这项工作,我很高兴有你。我最大的感谢是我的妻子纳菲塞,我很幸运能在我的生活中拥有她当我在研究中遇到困难时,她总是鼓励我继续努力。纳菲瑟,你是我最好的朋友,我的知己,我的支持,没有任何语言可以表达我对你的感激之情我生命中最重要的事Koosha Zarei2022年 5月28日78摘要虽然社交媒体连接了世界各地更多的人,并增加了访问免费内容的便利性,但它正在处理虚假内容,虚假身份和虚假活动等关键现象社交媒体上的虚假内容检测最近已经成为吸引巨大关注的新兴研究在这一领域,假身份在Meta(Facebook)、Twitter和Instagram等在线社交网络上的虚假内容的制作和传播中发挥着重要作用这背后的主要原因是社交媒体鼓励模仿者,恶意帐户,巨魔和社交机器人制作内容并与人类或其他机器人进行交互,而不考虑内容的可信度并诱使用户点击和分享它们。在这篇论文中,我主要集中在假冒身份的一个令人关注的变种。 这些实体是邪恶的虚假账户,旨在通过制作类似的个人资料来伪装合法账户,然后用虚假内容攻击社交媒体,这使得很难理解哪些帖子是真正制作的。自然语言处理(NLP)和基于转换器的语言模型(LM)的最新进展语言模型及其处理任何语料库的灵活性提供了很好的结果,使得这种方法非常受欢迎。可以使用预训练语言模型(PLM)和准确的深度学习模型来处理虚假内容分类本论文的目的是研究社交媒体中的虚假身份、虚假活动及其生成的真实内容,并提出分类虚假内容的算法我们将虚假内容定义为故意分享以误导读者的可验证的虚假信息我提出了不同的方法,在这些方法中,我采用了先进的迁移学习(TL)模型和NLP技术来自动检测虚假身份和分类虚假在本文中,(1)首先,我收集了几个新的数据集,其中包含Instagram和Twitter上几个社区中的假身份和真身份开发了一个专用的爬虫程序,以接收有关GDPR法规的公开数据。我使用这些数据集进行各种研究,符合本论文的主题此外,还为研究界公布了一些数据集。接下来,(2)我提出了一种实用的方法来检测假冒身份,并根据个人资料特征和用户行为对其生成的内容进行聚类。同时,我提出了一个深度神经网络架构,以检测冒充者生成的帖子和社交媒体上的真实内容。接下来,我将调查模仿者的内容、行为和活动。最终,我利用RoBERTA提出了一个预训练的基于transformer的语言模型,称为FakeRoBERTaSM,它是从头开始预训练的,并针对社交媒体文本数据进行了优化,以克服“非正式英语文本“的挑战。同时,为了处理社交媒体上日常对话中的“未知令牌“,我使用910Character CNN模型是一种字符级标记化技术。接下来,我提出了一个微调和多领域的深度学习架构,该架构针对社交媒体上的虚假内容分类进行了优化实验结果表明,使用FakeRoBERTaSM嵌入训练的深度模型架构比我分析中考虑的其余基线模型表现更好。关键词虚假身份、虚假内容、冒充者、变形金刚、预训练语言模型、BERT、RoBERTa、NLP、文本分类、深度学习、社交媒体、InstagramRe'sume'Les medias sociaux ont permis de connector un plus grand numbre de personnes dansle monde entier etd’accès à des contenus gratuits, La detection de faux contenus sur lesmedias sociaux est récement devenue une recherche émergente qui attracting uneattention considerable. 一 个需 要引 起注 意的 研究 。在 这个 领 域, 这些 问题 在Meta(Facebook)、Twitter和Instagram等社交网络上的虚假内容的生产和传播中这一现象的主要原因是,社会媒体对身份的篡夺、欺诈、巨魔和社会机器人进行了谴责,并与人类或其他机器人进行了互动,但没有对内容进行信任La detection de faux contenus sur lesmedias sociaux est récement devenue une recherche émergente qui attracting une attentionconsiderable.一个值得关注的人。在这个领域,这些问题在Meta(Facebook)、Twitter和Instagram等社交网络上的虚假内容的生产和传播中发挥这一现象的主要原因是,社会媒体谴责篡夺身份、恶意L’objectif de cette thèse est d’étudier le 我们确定了虚假内容,就像一种可核实的信息,以及虚假的意图,以篡改文本。Je proposes différentes approaches danslesquelles j' a d a p t e de s mo d è le s av a n c é s de Tr a n s f e r Le a r n i n g ( TL )etde ste c h n i q u e sNL Ppo u rde c t t e rle sfa u s s e sid e n t i t é setcl a s s e r le fa u x co n t e n u au t o m a t i q u e m e n t .莫茨克莱斯Fausses identités , Fausses données , imposteurs , transformatures , modèle delangage pré-entrainné , BERT , RoBERTa , NLP , Classification de texte , DeepLearning,Réseaux sociaux,Instagram11121.5论文大纲1.4出版物与投稿的目录17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18. . . . . . . . . . . . . . . . . . . . . .18. . . . . . . . . . .18. . . . . . . . . . . . . . . . . . . .191.1.4社交媒体感知语言建模1.2论文.....................................................................................................................................20. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21. . . . . . . . . . . . . . . .22. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2325. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26. . . . . . . . . . . . . . . . . . . . . . . . . .26. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27. . . . . . . . . . . . . . . . . . . . . . . . . . . . .27. . . . . . . . . . . . . . . . . . . . . . . . . . . . .27. . . . . . . . . . . . . . . . . . . .27. . . . . . . . . . . . . . . . . .28. . . . . . . . . . . . . . . . . .29. . . . . . . . . . . . . . . . . .2931. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .34. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .34. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35. . . . . . . . . . . . . . . . . . . . . . . . . . .3613.2.2.3用户行为2.2.2假订婚3.3.1数据收集3.3模拟器数据集1.1.3虚假内容语言建模1.3出版物列表1.1.2社交媒体上的假冒身份3.3.3数据预处理3.2.1体系结构3.3.2数据验证3.1概述3.2爬虫2.3社交媒体上的虚假内容检测3社交媒体数据收集分析2.2社交媒体上的虚假内容2.2.1虚假账户2背景及相关技术2.1概述1.1.1社交媒体上的虚假内容1.6伦理考量1引言1.1动机2.4用于虚假内容检测的迁移学习2.5上下文语言建模. . . . . . .2.6总结与结论. . . . . . . . . .14目录. . . . . . . . .4.3.6冒充者的类型 . . . . .4.4案例研究账户。. . . . . . . . . ..4.6识别假冒账户4.5数据采集数据预处理4.3.5轮廓相似性4.3.4假冒和社交媒体个人资料盗窃(SMPT)4.3.3冒名顶替者. . . . . . . . . .. . . . . . . .. . . . .. . . . .. . . . . . . . . .. . . . . . .3.5.1数据收集。 . . . .. . . . . . .. . . . .. . . . . . . . . . . . . . . . . . . . . . . .36. . . . . . . . . . . . . . . . . . . . . . . . .36. . . . . . . . . . . . . . . . . . . . . . . . .37. . . . . . . . . . . . . . . . . . . . . . . . .37. . . . . . . . . . . . . . . . . . . . . . . . .37. . . . . . . . . . . . . . . . . . . . . . . . .38. . . . . . . . . . . . . . . . . . . . . . . .38. . . . . . . . . . . . . . . . . . . . . .40. . . . . . . . . . . . . . . . . . . . .43. . . . . . . . . . . . . . . . . . . . . .44. . . . . . . . . . . . . . . . . . . . . .45. . . . . . . . . . . . . . . . . . . . . . . . .45. . . . . . . . . . . . . . . . . . . . . . . . .45. . . . . . . . . . . . . . . . . . . . . . . . .46. . . . . . . . . . . . . . . . . . . . . . . . .47. . . . . . . . . . . . . . . . . . . . . . . . .473.5.4出版商的特征3.5.5描述主题标签. . . . . . . . . . . . . . . . . . . . . . . .49. . . . . . . . . . . . . . . . . . . . . . . . .53. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .553.5.7访问数据集. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5557. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .604.2.3 Bot生成的内容......................................................................................................614.3定义. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .61. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .61. . . . . . . . . . . . . . . . . . . . . . . .61. . . . . . . .61. . . . . . . . . . . . . . . . . . . .62. . . . . . . . . . . . . . . . . . . .63. . . . . . . . . . . . . . . . . . . .64. . . . . . . . . . . . . . . . . . . .64. . . . . . . . . . . . . . . . . . . .64. . . . . . . . . . . . . . . . . . . . . . . .64. . . . . . . . . . . . . . . . . . . . . . . .66. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .66. . . . . . . . . . . . . . . .684.6.3.2模拟器粉丝页面-群集1684.6.3.1模拟器机器人-群集03.5.3数据汇总3.5.6数据集使用3.5COVID_19数据集4.3.2政治机器人4.2.2虚假账户4.3.1机器人4.2相关工作4.2.1用户行为第4章冒充者:社交媒体中的虚假身份和虚假内容4.1概述3.5.8伦理学3.6结论3.4.2数据验证3.5.2限制3.4影响者数据集3.4.1数据收集3.3.4挑战和限制3.3.5数据集使用. . . . .3.3.6伦理学3.4.3影响者的特征3.4.4表征反应. . .3.4.5影响者多久发布一次?3.4.6影响者推广什么?3.4.7数据集使用. . . . . . . .3.4.8伦理学4.6.1识别假冒者4.6.2主要账户分析4.6.3聚类. . . . . . .. . . . . . . . . . .. . . . . . . . . . . . .5.2.3.2www.example.com5.2.3.1 GoogleBERT5.2.3上下文语言建模5.2.2用于虚假内容检测的迁移学习5.2.1多领域学习5.2背景相关工作. .5.6.1评估数据集5.6实验&结果5.5.3评价方法5.5.2模型配置4.6.4人工验证检查。目录. 15. . . . . . . . . . . . . . . . . . . .684.7深度神经方法. . . . . . . . . . . . . . . . . . . . . . . . . . .68. . . . . . . . . . . . . . . . . . . . . . . . . . . . .69. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .69. . . . . . . . . . . . . . . . . . . . . . .69. . . . . . . . . . . . . . . . . . . . . . .70. . . . . . . . . . . . . . . . . . . . . . . . . . . . .72. . . . . . . . . . . . . . . . . . . . . . . . . . .72. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .765多领域社交媒体感知语言建模用于虚假欺诈帐篷79. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81. . . . . . . . . . . . . . . . . . . . . . . . . .82. . . . . . . . . . . . . . . . . . . . . . . . . .82. . . . . . . . . . . . .83. . . . . . . . . . . . . .84. . . . . . . . . . . . . .84. . . . . . . . . . . . . .85. . . . . . . . . .85. . . . . . . . . . . . . . . . . . .86. . . . . . . . . . . . . . . . . . . . . . . .87. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .87. . . . . . . . . . . . . . . . . . . . . .89. . . . . . . . . . . . . . . . . . . . . . .90. . . . . . . . . . . . .92. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .925.4.2培训前程序935.5评估设置955.5.1型号列表95. . . . . . . . . . . . . . . . . . . . . . . . . . .96. . . . . . . . . . . . . . . . . . . . . . . . . . . .96. . . . . . . . . . . . . . . . . . . . . . . . . . . .96. . . . . . . . . . . . . . . . . . . . . . . . . . .96. . . . . . . . . . . . . . . . . . . . . . . . . .97. . . . . . . . . . . . . . . . . . . . . . . . . . .9899. . . . . . . . . . 100. . . . . . . . . . 100. . . . . . . . . 1005.4.1方法. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . .6.1.1.1社交媒体内容分析数据集6.1.1贡献摘要和见解6.1结论5.2.4多领域适应和语言建模5.2.5社交媒体情境感知模型4.8.2运动员4.8.3音乐家4.7.1数据集概述5.4使用FakeRoBERTaSM进行虚假内容分类6结论与未来工作5.3.2中间层令牌化5.3.3数据语料库准备5.3社交媒体5.3.1体系结构4.9结论5.1概述4.8评估发布的内容4.8.1政治家4.7.2过采样4.7.3特征工程. . . .4.7.4建议的DNN架构4.7.5特征分析5.6.2性能分析5.7讨论结论. .16目录. . . . . . . . . . . 101. . . . . . . . . . . 102. . . . . . . . . . . 102103113115表的列表引用图目录社交媒体上的6.1.1.2假冒行为. . . . .6.1.1.3社交媒体感知语言建模6.2未来的工作和挑战. . . . . . . . . . . . . . . .第1章介绍内容. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18. . . . . . . . . . . . . . . . . . . . .18. . . . . . . . . .18. . . . . . . . . . . . . . . . . . .19. . . . . . . . . . . . . . .19. . . . . . . . . . . .20. . . . . . . . . . . . . . . . . . . . . . . . . . . .21. . . . . . . . .22. . . . . . . . . . . . . . . . . . . . . . . . .23. . . . . . . . . . . . . . . . . . . . . . . .23171.6伦理考量1.4出版物与投稿的1.5论文大纲1.2论文1.3出版物列表1.1.3虚假内容语言建模1.1.4社交媒体感知语言建模1.1.1社交媒体1.1.2社交媒体上的假冒身份1.1动机181.1。 动机1.1动机1.1.1社交媒体虚假内容可以被定义为故意误导读者的可验证的虚假信息[1],并已被用于在人们的头脑中创造政治,社会和经济偏见,以谋取私利。在社交媒体上传播许多虚假内容的一个主要原因是,它们经常鼓励模仿者,恶意帐户,巨魔和社交机器人产生信息[2][3],而不考虑内容的可信度,试图吸引用户阅读它们[4]。与传统新闻相比,假新闻吸引读者,传播迅速,造成了大规模的负面影响。最好的例子是,在2016年美国总统大选的前三个月,为支持两位候选人而产生的假新闻被近3700万社交媒体用户相信和分享。由于社交媒体内容在用户之间传播,没有过滤,编辑判断或事实检查,因此需要引入高效的模型来高精度地检测虚假内容,以控制虚假内容在互联网平台上的传播。由于上述原因,社交媒体上的虚假内容检测最近已成为一个活跃的研究领域。然而,社交媒体上的虚假内容检测确实具有挑战性,因为它们本质上是缺乏标记数据是在社交媒体上探索虚假内容的另一个主要挑战,特别是在使用传统的基于机器学习的模型和算法时。此外,社交媒体平台在数据类型、用户关系、用户行为和语言差异方面都有自己的特点,在一次性处理时需要特别注意。此外,社交媒体允许用户分享关于各种主题的信息,例如模因、事件、政治、健康和名人。1.1.2社交媒体上的假冒身份目前,社交网站不向其用户提供有关个人资料真实性的任何通知[6]。 许多威胁,如克隆个人资料信息和监视用户的活动等,也增加了用户数据的隐私是一个敏感的问题,因为它引入了许多网络犯罪。在过去的几年里,研究人员已经开发了许多模型来解决这些问题,但问题仍然存在。模仿者在在线社交网络上的内容制作和传播中发挥着重要作用,特别是在Instagram上。这些实体是邪恶的虚假账户,旨在通过制作类似的个人资料来伪装合法账户,然后通过虚假内容攻击社交媒体,这使得很难理解哪些帖子是真正制作的。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功