没有合适的资源?快使用搜索试试~ 我知道了~
基于互聚类系数的在线社交网络检测系统
沙特国王大学学报基于互聚类系数的在线社交网络Mudasir Ahmad WaniAbdullah,Suraiya JabinDepartment of Computer Science,Jamia Millia Islamia(A Central University),New Delhi,India阿提奇莱因福奥文章历史记录:2018年5月1日收到2018年10月23日修订2018年10月24日接受在线发售2018年保留字:在线社交网络Facebook可疑链接聚类系数基于配置文件的功能互聚系数A B S T R A C T在线社交网络(OSN)是网络上的流行且快速的信息传播媒介,其中每天在世界各地建立数百万个新的连接,这些连接或者是积极的,例如熟人,或者是消极的,例如敌意负面链接(有时也被称为有害链接)大多是由虚假的个人资料建立的,因为它们是由具有不良目的的头脑创建的。检测在线用户中的负面(或可疑)链接可以更好地帮助缓解来自OSN的虚假配置文件。提出了一种改进的聚类系数公式,称为MutualAdheritingCoefficient,用Mcc表示,用来定量地度量一个组中两个连通用户的好友之间的连通性.本文提出了一种基于互聚类系数和用户个人信息的分类系统来检测用户社区中的可疑链接。个人资料信息帮助我们找到用户之间的相似已经采用不同的相似性度量实验结果表明,四个基本的和容易获得的特征,如工作时间,教育程度,在设计一个成功分类,家乡城市和当前城市的城市分类用于检测可疑链接的系统©2018作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在过去的十年里,人们之间的联系在社交网站的帮助下迅速蔓延。一个人在OSN上的连接(或链接)可以是积极的,如友谊,也可以是消极的,如仇恨。负面链接主要是由虚假的个人资料建立的,因为它们是由具有恶意目的的头脑创建的,例如运行垃圾邮件活动(Gao等人,2010);投下不公平的在线投票(Tran等人,2009);访问用户个人信息(Boshmaf等人,2011年);等等。为了实现目标,假配置文件用户需要创建尽可能多的链接与真实的配置文件。朋友请求被真实用户从虚假配置文件中接受的机会很低,因为大多数连接*通讯作者:印度Jamia Millia Islamia(中央大学)联系电话:+91 8130812369。电 子 邮 件 地 址 : mudassir148001@st.jmi.ac.in ( 硕 士 ) Wani ) ,sjabin@jmi.ac.in(S.Jabin)。沙特国王大学负责同行审查如果两个人在离线时彼此认识或者共享一些兴趣,则在网络上建立。因此,为了增加好友请求被接受的机会,假冒用户现在瞄准用户连接并彼此共享强联系的社区1对于一群有联系的人的成员来说,拥有大量共同的朋友是非常常见的。研究表明,OSN中的用户与他们在线下认识或在线认识的人联系。Facebook等社交网站主要用于维护和加强现有的离线社交关系。已经观察到,如果两个人具有足够数量的共同朋友,则两个人很有可能共享某个共同的离线实体,诸如相同的组织、学校、课程等,让他们在网上交朋友然而,另一方面,即使假用户设法通过利用相互连接渗透到用户组中,两个配置文件之间的相似性的机会也最小。在此基础上,提出了一种新的方法来识别可疑链接。1社区我们这里指的是用户在Facebook上创建的页面或群组。https://doi.org/10.1016/j.jksuci.2018.10.0141319-1578/©2018作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comM.A. Wani,S.Jabin/ Journal of King Saud University219ð Þ ð Þ ð Þ本文的目的是提出一种方法来识别可疑的(负面的)链接建立的对手利用共同的朋友功能在一个组或一个页面上的Facebook。识别可疑链接可以更好地帮助设计虚假用户检测系统。所提出的方法是基于相互聚类系数和配置文件信息的用户,这基本上有助于检测可疑的连接在Facebook上的一个组或一个页面的组合。聚类系数(Zhang等人, 2008)是用于研究图的结构的拓扑度量之一。对于像Facebook网络这样的图,聚类系数表示人们在多大程度上有共同的朋友,或者用户的朋友彼此联系的可能性有多大。高聚类系数表示紧密连接的社区,其中用户的大多数朋友本身就是朋友。在这项工作中,聚类系数已被修改为MutualadministrationCoefficient表示的Mcc;来衡量一个组中的两个连接的用户的共同的朋友之间的连接。个人资料信息帮助我们找到用户之间的相似性。基于所选择的用户配置文件的两个用户配置文件之间的相似性属性集可以通过几种基于文本的相似性度量来计算,2014),余弦相似性(Nguyen和Bai,2010),Jaro(1989)。此外,作者(Gomaa和Fahmy,2013)提出了十多种方法来比较文本文档。在本文中,模糊字符串为基础的相似性措施已被用来计算连接的朋友之间的配置文件相似性。本文的主要贡献如下:在第3.3节中讨论的Mcc是一个独特的功能,用于检测Facebook上的可疑(负面)链接。● 四个基本的和容易获得的功能,包括工作目录,在IMcrawler的帮助下,已经从Facebook网络上的用户提取了教育e、家乡ht和当前城市cc以及MCC(Wani等人,2018),以形成训练数据集。收集的数据集以及源代码已提供给不同领域的研究人员。基于模糊字符串的相似性度量已被用于有效地计算连接的用户对之间的配置文件相似性。虚假身份被人工设计并注入网络,以建立与Facebook网络上社区的真实用户的链接。机 器 学 习 技 术 , 如 决 策 树 ( J48 ) , 基 于 RBF 的 支 持 向 量 机(SVM)和朴素基(NB)已被用于分类任务。最后,提出了一个可疑链接识别模型,准确率为99.60%。所提出的模型可以由OSN服务提供商用来向其成员建议来自他们各自的朋友列表的可疑连接(链接)的列表,使得用户可以自己验证所建议的链接并根据他们的选择过滤他们的朋友列表。虽然所提出的方法仅针对Facebook用户进行了测试,但经过少量修改,它也将适用于其他社交网站。论文的其余部分继续如下。第2节回顾了OSN中可疑链接和虚假配置文件检测的相关文献。第3节描述了可疑链接检测的四个阶段。前两个阶段处理数据的收集和预处理。第三阶段进行特征的构建和分析模型训练和验证现有的方法。最后,第5节总结了在Facebook网络上识别可疑链接的总体工作。2. 相关工作在诸如Facebook的OSN中,友谊连接是两个用户之间的关系,当一个用户发送好友请求并且另一个用户分别接受该请求时,该关系被发起并建立。然而,这并不是说用户在他们的朋友社区中总是有良好的联系。通常表示不赞成、不同意、不信任、欺骗或欺骗的负面链接也可能在用户中建立,这可能导致网络上的不良后果,并且也可能对用户有害。为了区分这些消极联系和正常(积极)联系,已经进行了许多研究。例如,在维基百科网络上进行的一项研究(Burke和Kraut,2008)将投票赞成或反对管理员选择的人分类。作者在(Leskovec等人,2010年)对三个不同的数据集(Epperly、Slashdot和Wikipedia网络)进行了一项研究,根据两个用户与周围朋友的关系迹象来预测他们之间的正链接。本文旨在识别Facebook网络上用户社区内的可疑链接可疑链接是一种负面链接,主要是由虚假配置文件创建的。已经观察到,大多数OSN用户自由地创建与网络上的其他用户的连接,而不需要太多的调 查 。 根 据 一 项 研 究 ( Sophos facebook id probe , http ://www.sophos.com/pressoffice/news/articles/,2008),他们联系的41%的Facebook用户接受了来自随机人的好友请求。已经进行了几项研究,以识别不同社交网站上的虚假个人资料。例如,一项研究(Zhang和Jianguo,2016)提出了一种基于用户网络结构的虚假配置文件检测方法,并已识别出由微博2上超过1000万个虚假账户建立的7亿个链接。作者在(Alowibdi等人, 2015),已经将贝叶斯分类器和k均值聚类应用于包括性别和位置在内的个人资料特征,用于Twitter网络上的欺骗检测。一项研究(Wang,2010)使用了不同的特征类别,包括基于图的特征(聚类系数,介数中心性等),基于邻居的特征(平均邻居 和基于时间的功能(关注率)来检测Twitter上的垃圾邮件发送者。类似地,研究( Kwak 等人, 2010; Zheng 等人,2015)已经使用了几个基于图的特征,例如用户加入的组、接受的朋友请求的数量(度)、发送的朋友请求的数量(出度)、节点作为其他节点之间的桥梁的程度(介数中心性)、网络中所有其他节点的最近节点(接近中心性)、OSN图随时间的增长、节点的平均度和单例朋友的数量等。用于检测OSN上的虚假研究人员还在探索其他方面来减轻来自社交网站的假身份(Wani和Jabin,2018)。作者在(Yu等人,2008)提出了一种称为SybilGuard的技术,通过利用网络上用户之间的信任关系来区分Sybil节点和良性节点。该技术是基于节点的排名,和一个节点被认为是一个高排名的节点,如果它是在本地社区的可信节点。在这篇文章中(Wang et al.,2017),作者采用了基于结构的方法,第四阶段进行实验研究在第4节与《公约》进行了比较研究,2一个中国微博网站(https://www.weibo.com/login.php)。●●●●220M.A. Wani,S.Jabin/ Journal of King Saud Universityð Þ ð Þ ð Þ ð ÞOSN的同构性质(即,两个连接的用户属于同一类的概率很高)。他们提出了一种局部规则,结合了基于随机游走(RW)的(Yu等人,2010)和基于Loopy Belief Propagation(LBP)(Pearl,2014)的方法,通过了解节点的先验概率和邻居的影响来计算节点是Sybil的后验概率。作者在另一项研究中(Gao等人,2018),将节点的局部网络特征(如局部聚类系数,入度和出度)与基于结构的LBP方法相结合,以识别Twitter网站上的Sybil帐户。用户社区内可疑链接的检测可以在很大程度上有助于虚假档案检测系统的设计,但较少关注从虚假档案检测的角度来研究用户内部的链接(连接)。在一项研究中(Fire等人,2014年),作者评估了用户和他们的朋友之间的连接强度,以识别潜在的虚假链接。连接强度已计算出利用一些基于交互的功能,如共同的聊天消息,共同的职位,共同的朋友,在本研究中,链接功能,以及基于配置文件的属性已被用来预测用户之间建立的连接的状态(正常或可疑)。这项工作与现有的研究不同,因为它更多地关注虚假用户使用的战术和策略(例如利用3. 建议的系统:可疑链接分类器早先已经看到,假用户在与真实用户建立友谊关系时经常面临困难,因为真实用户不容易信任陌生人。为了绕过这一障碍并获得用户的信任,现在攻击者已经开始针对用户社区而不是单个用户。以用户社区为目标增加了好友请求被真实用户接受的机会,因为特定社区的成员大多彼此是好友,并且一旦成员接受好友请求,其他成员接受好友请求的概率就增加了。 一旦假冒用户渗透到某个用户社区,他们就开始随机向其成员发送好友请求,以扩大他们的网络。一旦他们欺骗一些用户接受社区中的好友请求,他们就开始利用相互好友功能,通过向社区中的其他成员发送好友请求来传播他们的网络。在与社区中的大量用户建立连接后,他们开始向网络中注入垃圾邮件或进行其他非法活动。此外,为了获得对良性用户的信任,假身份以受害者的朋友为目标,其想法是与受害者共同的朋友的数量越多,受害者越有可能在没有太多调查的情况下接受请求。根据经验分析,已经注意到,虽然攻击者可能通过利用他的朋友成功地与受害者建立连接(可疑链接),但攻击者和受害者具有相似的配置文件属性的可能性很小与真实场景一样,相互友谊表明两个人之间存在一些共同的特征,使他们成为朋友,这对于真实用户和虚假用户之间的连接来说是不正确的,尽管他们有大量的共同朋友。在本节中,提出了一个基于相互聚类系数和连接用户对的配置文件相似性的框架,用于检测敌对帐户建立的链接,这些帐户利用相互的朋友关系在合法用户中扩展其网络本文的目的是建立一个完整的分类体系来识别假冒伪劣商品Facebook网络上社区用户之间的联系。为了实现和验证我们的系统,在Facebook页面上进行了社会实验。图1描述了四个主要组成部分,即数据收集,数据准备,特征识别,和可疑链接分类器所提出的系统的工作流程。每个组件将在以下小节中讨论。3.1. 数据收集为了建立一个分类器,收集数据集是首要的要求。为了收集特定于该问题的数据,人工设计的假配置文件已被注入网络。由于该分类器基于用户对的互聚类系数(M-CC)和他们的简档相似性来区分虚假链接和正常链接,因此,需要该特定社区内连接的用户对的朋友网络的信息以及用户及其朋友的简档特征所需的数据可以通过使用OSN服务提供商提供的API来收集,例如用于FaceBook网络的Graph API(https://developers.facebook.com/docs/graph-api/),或者通过设计自己的独立爬虫程序(Catanese等人,2011; Wong等人,2014年)。对于当前的工作,IMcrawler(Wani等人,2018)已被用于从网络上的用户社区提取数据。IMcrawler是一个基于iMacros的数据爬虫,旨在从Facebook网站提取通过浏览器访问的每一条信息为了准备实验的数据集,专门为该系的学者和教职员工设计了一个Facebook页面,网络用户之间的友谊可能性很高,并邀请他们加入该页面。一旦页面获得足够数量的成员,就会创建几个带有匿名名称和变形个人资料图片的虚假个人资料,并让他们向其成员发送请求。在第一次尝试中,一些成员接受了连接请求,没有进行太多的调查,这些成员被称为弱节点。这些弱节点被用来提高网络中的信任级别。在下一次尝试中,一个好友请求已经再次发送给之前忽略我们请求的成员。这一次,更多的用户接受了我们的好友请求,这是基于第一次尝试时获得的共同好友。重复执行相同的步骤以在页面的成员中增长网络。通过这种方式,虚假的个人资料已经渗透并建立在网络上,以创建我们的虚假个人资料数据集。图中描绘了共同朋友剥削的整个场景。 二、从社区中的每个用户档案中,提取工作w、教育e、家乡ht和当前城市cc四个特征,使用基于模糊逻辑的字符串匹配技术计算两个朋友的相似度虽然可以在用户的各种其他方面(例如他们属于哪个政党、什么是共同的组和喜欢的页面等)上计算简档但大多数时候,这些方面通常不会被Facebook网络上的用户透露。在本研究中使用的四个基本特征通常不被用户在Facebook上对其朋友网络保密,并且这组属性在测量任何两个连接的用户的简档相似性方面起着重要作用。Facebook用户通常基于他们所属的教育机构或工作组织等建立在线社区。例如,同一所学校、学院、大学或同一组织的用户创建一个组,以便保持联系并讨论周围的事情。此外,人们可以根据他们最初所属的地方(家乡)或他们目前居住的位置(当前城市)成为朋友。M.A. Wani,S.Jabin/ Journal of King Saud University221数据收集朋友网络信息(FNI)配置文件信息(PI)数据预处理相同套管,停用词删除、标记化、词干提取等。要素构造修正聚类系数轮廓相似性评分()可疑链接分类器培训(决策树(j48))测试确认Fig. 1.基于互聚类系数的可疑链接识别框架。adjuvantadjuvant对手对手R1R2R1R2R1R2R1R2R6R3R6R4R4R5R5R3R6R4R5R3R6R3R4R5(a)administrator向用户(b) 弱节点在第一次尝试中接受了请求(c)已将Advertising发送请求发送给首次尝试时忽略该请求的用户(d)其他用户基于共同好友图二. 共同的朋友功能被对手利用。这些信息是使用IMcrawler从Facebook页面上的用户及其朋友中提取的。这些信息是从该页面上76个用户建立的839个连接中记录的,其中有10个手动注入的假配置文件。在我们收集的数据中,一个链接(边缘)已经根据其与任何手动注入的虚假配置文件的连接被手动标记为可疑。这些虚假的个人资料已经成功地在用户社区中创建了250多个可疑链接。根据探索性数据分析(EDA)(Cox,2017),观察到用户之间存在三类链接,即可疑、正常和虚假。可疑链接与真实和虚假链接不同,因为真实/正常连接是仅在合法用户之间创建的连接,而虚假连接在两端都有恶意用户,如图3所示。收集的数据集描述见表1。更新的数据集和源代码文件可从https://github.com/Mudasir-IIIT-Bangalore/Mcc-based-Suspicious-Link-Detection获得。3.2. 数据预处理收集的数据主要以原始形式存在,可能包含缺失信息。缺失值是社会网络数据收集中的常见现象,因为用户图三.用户社区中的链接类别。表1从Facebook页面收集的数据统计。描述数total #edges(Links)839# normaledges(Links)587#可疑边缘(链接)252节点总数(用户)76#realnodes#假节点10平均连接数11可疑的假链接正常链路(FakeUser)(RealUser222M.A. Wani,S.Jabin/ Journal of King Saud UniversityU1U6U8U7U5U2U3a)使用等式(2)计算的每对用户的相互聚类系数(U4b)用户社区()()1/4伏u;v有特权向其他用户或朋友隐藏信息,在注册Facebook等社交网络时,大多数字段都是可选的。这里,不考虑简档信息不公开或不对朋友的朋友可用的简档在计 算用户之 间的相似 性之前 ,通过 使用自然 语言工 具包(NLTK)(NLTK 3.2.5文档),对提取的用户特征应用了几种文本处理技术,包括相同大小写、停止词删除、标记化和词干分析。http://www.nltk.org/)的Python编程库,如算法1所示。诸如“the”、“a”、“an”、“in”等停用词并将字符串的大小写转换为相同的大小写以用于提取的特征。使用词干提取技术,所有相同含义的单词变体都转换为一个词根,这使得整个相似度计算过程变得方便。这里应用不同文本分析技术的实际目的是准备提取的数据,以应用几种相似性度量来计算两个连接用户之间的相似性。数据集中非常频繁观察到的单词及其可能的单词变体。例如,术语research scho- lar与其单词变体(如scholar,researcher,p. hd)一起存储在字典中。学者,博士类似地,其他最频繁的词已经被存储在其对应的词典中。3.3. 要素构造特征构建涉及从收集的数据中设计输入向量,目的是构建更优化的特征并设计高效的系统。由于所提出的分类器是基于这两个方面,互聚类系数和社区中的两个连接用户之间的简档相似性,因此,已经为所收集的数据中的每对连接用户构造了特征矩阵。前两列保留用于连接的用户对,第三列保存从朋友网络信息导出的相互聚类系数值。聚类系数基本上衡量用户的朋友自己连接到网络的概率,它可以计算如下:CC2lvkv-1战斗机ð1Þ这里,CCv是用户v的聚类系数,kv是v的朋友的数量,并且lv是v的kv个邻居/朋友之间的边的数量。然而,在我们的情况下,聚类系数-对聚类系数进行了改进,使其不再只计算单个用户的邻居之间的连接程度,而是计算两个用户的共同好友之间的连接程度,我们称之为互聚类系数(Mutual Clustering Coefficient,MCC)。换句话说,两个连接的用户的聚类系数仅基于他们共同的朋友来计算根据我们的观察,用户对的共同朋友之间的强连接意味着用户对属于一个共同的社区,因此用户在他们的个人资料中也有一些相似性属于同一社区U的两个连接用户的共同好友之间的修改的聚类系数可以计算如下:此外,为了更方便不同的MCC2L¼;8u;veU2为了计算两个轮廓之间的相似性得分,设计了一个基于ðu;vÞu;vu;v-1导弹**0.5*NA------图四、样本图上的相互聚类系数(Mcc)。M.A. Wani,S.Jabin/ Journal of King Saud University223ðÞð Þ ð ÞHere,Mccu;v 表示相互聚类系数,用户u和v;mu;v是u和v之间的共同好友的数量;以及lu;v是mu;v个共同好友之间的边的数量的u和v。Mcc值的范围从0到1,其中0表示两个相应用户的共同朋友都没有连接,1表示两个朋友的所有共同朋友都彼此连接。Mcc的值越高,共同好友的连接越 为了更好地理解修正的聚类系数计算,图中给出了一个小例子。 四、图中所示的表格。图4(a)保持使用等式4(b)从图4(b)所示的概念用户社区计算的Mcc值。(二)、在给定的示例图中,如图所示。在图4(b)中,虚线表示由假简档建立的可疑链接,而实线表示合法用户之间的正常链接。算法2中示出了用于计算社交网络上的两个连接用户的相互聚类系数(Mcc与Twitter网络不同,Facebook中的友谊本质上是双向的,因此,从输入矩阵计算下三角矩阵(ltm),否则相同的边将被计数两次。链接数组保存与边相关的信息,即在它们之间建立边的节点(配置文件)。 MCC UV 持有相互的用户u和v和m的聚类系数值社区中所有已连接用户对的Mcc函数indices Of Mutual Friends u;v计算两个用户(比如u和v)的好友列表,然后返回这两个用户之间的共同好友的索引,函数muv保存两个连接的用户之间的共同好友的总数,而luv保存u和v的共同好友内的链接数。为了计算社区内每个连接的用户对的MCC,需要表示社区中每个连接对的网络结构的矩阵(friend_mat该矩阵被提供作为Mcc算法的输入,以产生每对连接用户的相互聚类系数值。特征向量的第四列存储社区中每对连接的用户之间的简档相似性得分(PSS)。相似性分数可以基于用户的不同简档属性来计算,诸如工作地点、教育背景、家乡、当前城市等等。为了计算两个简档之间的相似性,通过考虑所提取的特征中的词的结构的一种常见的方法是采用模糊相似性度量。为了构造所提出的工作的功能,模糊wuzzy,(0000)库已被使用。它是一个python库,其中包含一些模糊字符串匹配的函数。基本上,模糊字符串匹配函数查找近似匹配给定模式的字符串它利用Levenshtein距离(Yujian和Bo,2007)来计算单词序列之间的相似度。的224M.A. Wani,S.Jabin/ Journal of King Saud Universityð Þ ð Þ ð Þ ð ÞFuzzywuzzy库包含几个函数,用于字符串匹配的不同每个函数返回的值范围从0到100,0表示完全不同的序列,100表示精确的相似性。我们应用了几个函数,并得出结论,其中根据序列的描述代码片段显示了fuzzywuzzy库中的一些函数,这些函数已经在收集的数据上进行了如用Python编程语言编写的代码片段所示,对来自我们数据集的两个随机字符串测试了四个字符串匹配函数,在所有四个函数中,fuzz。token_set_ratio()函数在两个测试用例(用例1和用例2)中都给出了最佳结果。token函数基于空格划分字符串,将所有小写字母更改为小写字母,并删除停止词(非字母和非数字字符)。这些函数将字符串标记化,并将其视为一组或一个单词序列。这里应该注意的是,这些文本处理技术已经应用于数据预处理部分,原因有几个:首先,如果向字符串匹配函数提供适当的输入,它们将很容易处理。其次,减少了相似度计算的处理时间。为了我们的工作,我们选择了模糊。token_set_ratio作为确定两个简档之间的相似性的函数,因为它在所有其他函数中更好地执行相似性计算。在我们收集的数据集中,用户为不同的字段提供了多个值,例如,在教育属性中,一些用户提供了关于他们的学校教育,大学,毕业后和博士学位的详细信息。而其他人只提到了当前的教育。模糊的价值。token_set_ratio()函数不受字符串中可能存在的随机单词的影响(减少),因此,它被证明是最适合各种类型的的分析。此外,它在搜索引用实体的相似术语集时避开了典型的混淆技术。由于虚假配置文件被注入到目标用户社区中,因此连接到这些虚假配置文件的所有链接都是可疑的,并且基于此,我们为数据矩阵创建了另一列,即将用户链接标记为0(正常)和1(可疑)的类最后,准备具有五列的训练/测试数据集,如上面的表2所示。前两列保存有关连接用户对的信息,第三和第四列分别保存社区中每个连接用户对的MCC和PSS值。注意,PSS保持四个属性(工作w;教育e,家乡ht,当前城市cc),并且每个属性的值的范围从0到1。最后一列是对应连接的标签1表示正常连接,0表示可疑连接。3.3.1. 特征分析为了直观地分析可疑链接检测过程的特征的区分能力,所有特征都以散点图呈现,如图5所示。图5(a)描绘了测量朋友对之间的共同朋友的连通性的相互聚类系数Mcc。由于当前的研究集中于通过利用共同好友特征来检测由广告商建立的链接,因此,对于可疑连接,MCC的值将保持较高。大多数可疑的联系都是在M CC公司发现的 高于0.45而正常链路具有高于0.15的M-CC值。已经观察到,可疑链接的M_cc值高于正常链接的M_CC值的平均值正常组和对照组的平均Mcc值分别为0.4377和0.5521,表2要提供给分类器的数据矩阵的逻辑表示(基于四个属性(工作地点、教育程度、家乡、工作地点)的简档相似性得分(PSS)),ccurrentcity)。节点名称节点类型MCCPSS类UserYuYuUserZhao0 -1W0 -1e0 -1HT0 -1CS0 -10或 1个M.A. Wani,S.Jabin/ Journal of King Saud University225图五.真实链接和可疑链接的特征统计分析分别以青色和橙色显示。每个特征的相似性得分沿y轴显示,链接的数量沿x轴绘制。(有关本图例中颜色的解释,请参阅本文的网络版本可疑的联系。基于我们的假设从图5(b)和(c)中可以看出,正常(真实)联系之间的教育相似性大多很高,而不像可疑的联系,因为如果两个人在离线(在某个教育机构或工作中)226M.A. Wani,S.Jabin/ Journal of King Saud Universityð Þð Þð Þð Þð Þð Þð Þð Þð j Þ ¼组织,在我们的情况下),这在真实和虚假用户之间是不正确的。因此,据观察,通过可疑链接连接的用户的工作和教育相似度分别不超过0.45和0.25。由于数据是从Facebook上包含教职员工和研究学者的页面收集的,因此,他们有可能具有不同的教育背景,并且大多为同一组织工作,这就是与图5(b)不同的原因,图5(c)在底部(0.0级)显示了几个实例。此外,在图5(b)中可见,对于工作w属性的可疑链接的相似性值低于正常链接的相似性值的平均值基于工作w属性的正常和可疑链接的平均相似性分数分别为0.7143和0.2679,而教育e属性的平均相似性分数分别为0.4323和0.1111。图5(d)示出了家乡ht相似性,其中大多数可疑链接处于底部(0.0水平),而图5(e)示出了基于当前城市cc的相似性对于可疑链接低于0.5。此外,对于正常的联系,基于当前城市的相似性分数范围从0.0到1.0。此外,从图5(e)可以注意到,可疑链接的基于当前城市cc的相似度值低于正常链接的相似度值的平均值。对于正常链接,家乡ht属性的平均相似性分数已经被记录为0.2223,对于可疑链接,家乡ht属性的平均相似性分数为0.0081,而对于当前城市cc属性,可疑链接和正常链接的平均相似性分数分别为0.3558和0.6972。此外,从图5(b)至图5(e)可以清楚地观察到,正常(正)链接比可疑链接具有最高的属性相似性,而可疑链接的Mcc值比正常连接高。3.4. 可疑链接分类系统已准备好的数据集已被分离,用于测试所提出的系统的准确性。剩余的三分之二部分用于在10倍交叉验证后训练和选择模型。分类技术,包括决策树,支持向量机(SVM)和朴素贝叶斯(NB)已被用于分类任务。决策树算法J48通过在训练数据的基础上构建决策树来对实例进行分类。树的根节点是具有最高信息增益的特征。树的叶子描述了依赖于树的其他独立节点的决策。为我们收集的数据集生成的决策树如图6所示,从图中可以清楚地看到,所有特征f1-f5都有助于决策过程。特征f3是树的根节点,因为它具有最高的分类能力。支持向量机(SVM)是一种判别式分类器,它在给定的标记训练数据上产生一个最优超平面,并对新的样本进行分类超平面是线性分离和分类一组数据的线超平面和来自任一类的最近数据点之间的距离称为边缘。为了提高新实例被正确分类的机会,目标是找到一个超平面,该超平面在任何训练数据点和超平面之间具有最大可能的裕度。我们采用了非线性支持向量机(SVM)分类器(Cortes和Vapnik,1995年)与径向基函数(RBF)内核使用e1071(迈耶和维也纳,2001年)包。在不同的gamma和c值下,分别控制模型的非线性度和过拟合度,并采用网格搜索策略,获得了最高的分类精度。朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的简单概率分类方法,它假设每个特征的值与其他特征的值无关,这种假设称为类条件独立性。对于实例的分类,每个类别的后验概率计算如下(Wang,2010)来自前一小节的准备数据集用于训练可疑链接分类器。三分之一的部分P Y XPXjYPYPXð3Þf3 = 0.24|f2 = 0.68||f5< = 0.63|||f5 <= 0.36: Suspicious (137.0/1.0)|||f5 >0.36||||f2 <= 0.37|||||f2 = 0.17||||||f2< = 0.14:可疑(10.0)||||||f2 > 0.14:正常(6.0/1.0)|||||f2 > 0.17:可疑(71.0)||||F2 > 0.37|||||f2 = 0.38:正常(6.0)|||||f2 > 0.38:可疑(2.0)||||f5 > 0.63|F2<=0.21:正常(38.0/2.0)|||f2 >0.21||||f3 = 0.11|||||f1< = 0.508333:正常(3.0/1.0)|||||f1 > 0.508333:可疑(18.0)||||f3 > 0.11:正常(3.0)|f2 > 0.68: Normal(46.0)f3 > 0.24|f3< = 0.49:正常(265.0)|f3 >0.49||f5 = 0.52|||f2< = 0.62:可疑(7.0/1.0)|||f2 > 0.62:正常(47.0/2.0)||f5 > 0.52:正常(180.0/3.0)见图6。 从收集的数据集生成的决策树。M.A. Wani,S.Jabin/ Journal of King Saud University227¼ ð ÞÞ¼- 四分之一a.联合国ð Þ ¼其中Y是类变量,X是特征向量。在我们的案例中,的类标签持有两类的是Y}正常};}可疑}和X保持(Mcc;w;e;ht;cc.因为P(X)是一个标准化因子,对于两个类都是相等的,准确度是指正确预测的实例数与模型预测的实例总数之比,表示为:因此,为了执行分类,仅分子需要被最大化。一旦训练完成,准确度和可靠性að6Þ使用测试数据集评估模型采用了常用的分类模型性能评价指标,如精确度、召回率、准确度、F-测度、受试者工作特征(ROC)曲线等。所有这些措施已在本节中简要讨论,以描述训练模型的良好性在评估中,考虑表3中所示的混淆矩阵,其中a表示由模型正确分类的正常链路的总数,b表示错误分类的可疑链路的数量,c表示错误分类的正常链路的数量,d表示正确分类的可疑链路的数量基于此混淆矩阵的精确度,召回率和F-测量和准确度已被计算,以评估所提出的模型的性能。精度(P)是正确分类的实例数与实例总数的比率通过使用令人困惑的F-measure是查准率和查全率之间的调和平均值,可以计算如下:F措施2PR7P由于F-测度是一个综合了查准率和查全率的值,因此,它被认为比前两个测度更能支持对分类器使用受试者工作特征(ROC)曲线来评估分类器的诊断性能。该曲线是通过在各种阈值设置下绘制真阳性率(TPR)与假阳性率(FPR)来创建的。TPR也被称为召回或检测概率,而FPR也被称为虚警概率,计算如下:表3中的矩阵可以计算如下:精密度Pd虚假陈述与错误评估4ð8Þð Þ¼cþdð Þ召回率(R)是正确分类的实例数与预测实例总数的比率召回率可以使用以下公式计算:在所选的三个分类器中,J48实现了最高准确率为99.6%。表4示出了由J48分类器获得的混淆矩阵,其中99.4%的正常链接和100%的可疑链接被正确分类,留下非常小百分比的正常链接被错误分类。 表5保持精度,召回Rd b d表3混淆矩阵。实际ð5Þ查全率,和F-措施的正常和可疑的链接计算,从混淆矩阵产生的J 48算法。在此基础上,利用R.评价指标包括精确度、召回率、F-测度和正常可疑预测正态分布a b可疑c d如表6所示,已经计算了可疑和正常类别的每个分类器的准确度。在表中可以清楚地看到,其他两个分类器具有支持向量机的准确率为98.01%和93.63%,朴素贝叶斯分类器。这证明我们提出的特征有足够的能力区分可疑链接表4J48生成的混淆矩阵实际正常可疑从Facebook网络上的正常人。对于基于SVM的分类,使用具有径向基函数(RBF)核的SVM对不同的c和gamma值进行分类,最终获得了F-测度为0.98和0.96为正常和可疑链接在σ1/45和σ 1/4 9处分别具有98%的准确度。 天真预测正态分布99.4% 0.0%可疑0.6% 100%表5J48算法的评估指标。基本分类器产生的结果比其他两种技术略差,这可能是因为它的天真假设,所有这些变量彼此不相关,但在我们的情况下,这是不正确的,特征是相互依赖的多个分类器的性能比较已经通过绘制ROC对测试数据集给出,如图所示。7.第一次会议。此外,在表7中示出了针对所有三个ROC曲线计算的AUROC(ROC下面积)值,以了解所提出的分类器的良好性的统计已经观察到AUROC是比评估准确性更好的性能指标,表6三种分类技术的评价指标。精度召回F-measure精度正常可疑正常可疑正常可疑决策树(J48)10.990.9910.990.9999.60支持向量机0.980.970.990.960.980.9698.01朴素贝叶斯(NB)0.990.830.910.990.950.9091.63精度召回F-measure正常链路10.990.99可疑链接0.9910.99228M.A. Wani,S.Jabin/ Journal of King Saud UniversityðÞ图7.第一次会议。使用不同分类技术的测试数据集的ROC表7针对不同分类器获得的AUROC。算法AUROC精度决策树(J48)0.99899.6支持向量机0.98398.0朴素贝叶斯0.98191.6比较分类器(Ling等人, 200
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功