没有合适的资源?快使用搜索试试~ 我知道了~
基于电话号码的垃圾邮件识别及反馈策略在Twitter上的应用
首页>外文书>人文>心理励志> Social Network Analysis andGraph Algorithms for the WebWWW 2018,2018年4月23日至27日,法国里昂529Twitter上垃圾邮件活动者的集体分类:一种基于层次元路径的方法德里印度理工srishtig@iiitd.ac.in阿比纳夫·哈塔尔abhinav15120@iiitd.ac.in阿尔皮特·戈贾DTUaarpitgogia@gmail.com摘要蓬努兰加姆·库马拉古鲁pk@iiitd.ac.inTanmoyChakrabortyIIIT-Delhitanmoy@iiitd.ac.in关键词网络犯罪分子已经利用在线社交网络(OSN)上可用的大用户群的流行性来通过传播网络钓鱼URL、附加恶意内容等来传播垃圾邮件。然而,使用电话号码的另一种垃圾邮件攻击最近在OSN上变得普遍,其中垃圾邮件发送者广告电话号码以吸引用户的注意力并说服他们拨打这些电话号码。由于与电话号码相关联的固有信任,基于电话号码的垃圾邮件的动态虽然以前的工作提出了策略,以减轻基于URL的垃圾邮件攻击,基于电话号码的垃圾邮件攻击受到较少的关注。在本文中,我们的目标是检测垃圾邮件发送者,使用电话号码,bers在Twitter上推广活动为此,我们收集了信息(推文,用户元数据等)。大约有3370个活动,由670251个用户传播。 我们通过利用数据集中存在的不同类型的节点之间的各种互连,将Twitter数据集建模为异构网络。特别是,我们作出以下贡献-(i)我们提出了一个简单而有效的度量,称为分层元路径得分(HMPS),以measure- sure的接近一个未知的(ii)我们设计了一个基于反馈的主动学习策略,并表明它显着优于三个国家的最先进的基线的垃圾邮件检测的任务。与最佳基线方法相比,我们的方法分别实现了6.9%和67.3%的F1评分和AUC(iii)为了克服监督学习的训练实例较少的问题,我们表明我们提出的反馈策略比其他过采样策略分别实现了25.6%和46%的F1-score和最后,我们进行了一个案例研究,以显示我们的方法是如何能够检测到那些用户的垃圾邮件发送者谁没有被暂停Twitter(和其他基线)。CCS概念• ·信息系统;·安全和隐私;·应用计算;本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW 2018,2018年4月23日©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186119垃圾邮件运动,电话号码,异构网络,Meta路径,垃圾邮件发送者,Twitter,在线社交网络ACM参考格式:Srishti Gupta , Abhinav Khattar , Arpit Gogia , PonnurangamKumaraguru,and Tanmoy Chakraborty.2018. Twitter上的垃圾邮件摄像头的集体分类:基于层次元路径的方法。 在WWW 2018:2018年网络会议,2018年4月23日至27日,里昂,法国。ACM,New York,NY,USA,10页。https://doi.org/10.1145/3178876.31861191介绍在线社交网络(OSN)近年来变得越来越流行,被数以百万计的用户使用。因此,OSN被垃圾邮件活动家滥用来进行网络钓鱼和垃圾邮件攻击[18]。虽然在文献中已经广泛地探索了使用URL进行的攻击[8,16,18,42,47],但是经由新的动作令牌(即,电话号码大多是未被探索的。传统上,垃圾邮件发送者一直在利用电话系统通过呼叫受害者或发送SMS进行社会工程攻击[45]。最近,垃圾邮件发送者已经开始滥用OSN,他们浮动由他们控制的电话号码 除了利用与电话号码相关的信任,垃圾邮件发送者还可以节省自己联系受害者的努力。当前工作:问题定义。 在本文中,我们的目标是检测垃圾邮件活动家(又名,垃圾邮件发送者)在Twitter上使用电话号码传播垃圾邮件。我们在这里将垃圾邮件发送者定义为使用电话号码积极促销产品、传播色情内容、引诱受害者购买彩票和折扣,或通过做出虚假承诺误导受害者的用户帐户。发现垃圾邮件发送者帐户和用于垃圾邮件活动的资源(如URL或电话号码)之间的对应关系是一项至关重要的任务。由于电话号码是由垃圾邮件发送者传播的,一旦人们打电话给他们,他们的货币化收入就开始了,因此可以公平地假设这些电话号码将在他们的控制之下作为一个额外的优势,如果我们能够识别Twitter中的垃圾邮件帐户并将其删除,整个活动将被瓦解。为了识别垃圾邮件发送者,我们将Twitter数据集建模为异构图,其中异构类型的实体之间存在不同的连接:用户,活动和动作令牌(电话号码或URL),如图1所示。 异构网络已经被提出用于各种数据集中的数据表示,如学者数据中的路径相似性[39],社交网络数据中的链接预测[22]等。不同类型和链接的对象携带不同的首页>外文书>人文>心理励志> Social Network Analysis andGraph Algorithms for the WebWWW 2018,2018年4月23日至27日,法国里昂530∼用户图1:Twitter建模为异构网络。语义例如,电话号码作为更稳定的资源将有助于在较长时间内连接用户帐户。购买电话号码需要物理身份验证,而购买域名只需电子邮件验证即可。研究保持网络异构性的一对节点之间的相似性有助于区分连接这两个节点的不同类型的路径的语义为了区分连接两个节点的路径之间的语义,我们引入了一个基于元路径的异构网络中相同类型的节点的相似性框架。元路径是节点类型之间的关系序列,其定义了其起始类型和结束类型之间的新的复合关系它提供了一个强大的机制来适当地对共享相似语义的对象进行分类。当前工作:工作动机 识别Twitter上使用电话号码的垃圾邮件发送者的问题在许多方面都很有用。 使用电话号码和URL的攻击在某些方面是不同的:在基于URL的垃圾邮件中,活动在相同的介质上传播和传播,即,OSN,而在基于电话号码的垃圾邮件的情况下,攻击媒介是电话,传播媒介是OSN。因此,OSN服务提供商追踪传播这些垃圾邮件活动的帐户是具有挑战性的此外,不存在可用于电话号码的元数据,这与URL不同,在URL中,登录页面信息、URL的长度、混淆等。可以检查。 可能由于与查找垃圾电话号码相关联的挑战,已经存在由基于电话的攻击引起的若干攻击和经济损失[31]。 使用本文中提出的集体分类方法,Twitter将能够找到潜在的垃圾邮件发送者并暂停帐户,从而限制基于电话号码的垃圾邮件活动。目前工作:一个集体的分类方法,用于检测垃圾邮件活动。在这项工作中,我们使用的集体分类方法,利用一组链接节点的依赖关系,其中一些类标签是已知的,标签扩散到网络中的其他未知节点在我们的例子中,已知节点是已经暂停的Twitter用户,他们正在用电话号码传播活动。在这里,我们提出了层次元路径得分(HMPS),一个简单而有效的相似性度量之间的异构网络中的一对节点。我们首先从大型异构网络中构建特定于运动的层次树然后,我们系统地提取最相关的元路径从连接各种异构节点的元路径池我们从2016年4月至10月收集了用户的推文和其他元数据信息,并确定了3370个活动,包含670251个用户(第2节)。 每条推文都有一个电话号码。我们认为被Twitter暂停的用户帐户是垃圾邮件发送者。然而,由于缺乏足够的训练样本,每个运动,我们引入了一种新的基于反馈的主动学习机制,使用基于SVM的一类分类器为每个运动。在多次迭代中,它不断积累来自不同活动的证据,以丰富每个活动的训练集。这反过来又增强了各个分类器的预测性能。当没有机会跨迭代找到未知用户的标签时,该过程终止评价摘要。我们将我们的模型与用于垃圾邮件检测的三种最先进的基线进行比较(第5.3节)。 我们设计了各种实验装置,以执行我们提出的方法的一个彻底的评估。 我们观察到,我们的模型在准确度、精密度、F1评分和AUC方面的性能比最佳基线方法高出44.8%、16.7%、6.9%和67.3%(第5.3节)。 我们进一步证明了单类分类器(第5.4节)、主动学习(第5.5节)和基于反馈的学习(第5.6节)如何/为什么分别优于两类分类器、一般学习和其他过采样方法。此外,我们进行了一个案例研究,并提出了一个直观的理由,为什么我们的方法优于其他方法(第5.3节)。2数据集我们通过Twitter流媒体API收集了包含Twitter电话号码的推文,基于400个关键字的详尽列表。我们选择Twitter是因为数据的可用性数据收集时间为2016年4月至10由于我们打算检测围绕电话号码的活动,因此我们选择的关键字是特定于电话号码的,例如“呼叫”,“SMS”,“WA”,“环”等。 我们积累了2200万条推文,每条推文至少包含一个电话号码。仅收集包含电话号码的推文背后的原因是它们被发现是稳定的资源,即,由于附加成本,垃圾邮件发送者长期使用它们此外,已知电话号码有助于形成更好的用户社区[9],这是本工作中采用的方法的基础。活动识别:我们将活动定义为一组由一组传播多个电话号码的用户共享的类似帖子。一个电话号码可以是多个活动的一部分;然而,在这项工作中,我们将电话号码限制为单个活动的一部分(由于我们的活动检测方法是基于文本的,因此我们希望活动是连贯的)。请注意,多个电话号码可以是单个活动的一部分用于活动识别的详细方法在图2中使用如下所述的三个电话号码的玩具示例示出:步骤1:聚合推文。对于每个电话号码,我们将包含该电话号码的所有tweet聚集在一个集合中。我们在数据集中没有找到一条包含两个电话号码的推文。这意味着每个电话号码P1具有表示为T1、T2、T3、···的唯一推文的集合。在图2中,P1与{T1,T2,T3}相关联。Phno营Phno用户URL共享共享者共享共享者首页>外文书>人文>心理励志> Social Network Analysis andGraph Algorithms for the WebWWW 2018,2018年4月23日至27日,法国里昂531∈∈{} ∈∈∈∈o oo◦13(1) 聚合推文(2) 关于Unigrams(3) 频繁单字抽取(4) 相关推文(5)JS(Di,Dj)i,j>= 0.7包含挂起用户数量最多的前2个活动的云-第一个是西班牙活动(图3(a)),其中人们请求其他人发送WhatsApp邀请以接收成人和色情视频。第二个活动(图3(b))为人们提供派对和俱乐部的折扣预订。图2:用于凸轮识别的框架的示意图(符号:P:电话号码,U:一元语法,T:由一组一元语法表示的推文,D:文档)。(a) 西班牙运动发送色情(b)党的预订活动提供由一组类似的推文组成的活动,以及C:包含文档及其相关联的电话号码的WhatsApp上的视频打折机票。第二步:将推文转换为unigrams。我们从推文中提取一元语法。每个推文Ti现在被表示为{U1,U2,U3,···}。在图2中,图3:包含最大值的前两个活动的词云最多暂停用户。3异构信息网络T1表示为{U1,U2,U3}。我我我一一一我们将整个Twitter数据建模为异构信息步骤3:提取频繁unigram。 我们汇总所有包含特定电话号码的推文,并提取经常出现在这些推文中的前30个单字。这组一元字符表示与电话号码相关联的文档在图2中,集合{U1,U2}表示与P1相关联的文档。网络(HIN)。HIN是一种特殊类型的信息网络,它包含多种类型的用户或用户之间的链接[39]。在数学上,其定义如下:在3.1中定义。 异构网络。大量的步骤4:选择相关的推文。 从一组推文中-与某个电话号码相关联,我们选择那些与代表该电话号码的30个一字组具有至少5个共同一字组的号码。在图2中,我们只选择T1和T3来为P1形成文档D1(注意,在这个例子中,我们只匹配每个tweet中的至少一个单字,而不是5个,以符合作为文档的一部分)。第5步:Jaccard相似度查找活动。 一旦我们形成对应于电话号码的文档,我们使用Jaccard系数来找到两个文档之间的相似性,并将它们组合为同一活动的一部分。如果Jaccard系数大于0。7(实验计算,因为相应的轮廓得分为0。8),文档被合并,并且因此对应的电话号码成为单个活动的一部分。在图2中,D1和D2合并在一起并形成活动C1。使用这种方法,我们确定了22390运动在我们的数据集。这些tweets包含了670257个用户发布的10962350条tweets,其中包含26610个唯一的电话号码和893808个URL。为了进行集合分类以识别特定于活动的垃圾邮件发送者,我们需要有一组标记用户。因此,我们检查已经被Twitter暂停的用户帐户。该过程包括大量OSN本质上是异构的,涉及节点之间的不同关系异构网络被表示为图G=V,E,T,其中每个节点V和每个链路E与它们的映射函数相关联:(v):V→TV(e):E→TE分别TVT和TET表示用户和边类型的集合。我们的异构网络包含不同类型的节点,如用户、活动、URL和电话号码;连接两个节点的边表示不同类型的关系(见图1)。用户通过推广或推广者关系链接到活动;用户通过共享或共享者关系链接到电话号码;活动通过使用或使用者关系链接到电话号码。两个用户可以通过不同的路径连接,即user-phone-user、user-url-user、user-phone-url-user等。形式上,这些路径被称为元路径,如下所定义。在3.2中定义。 元路径Π1..............................................k是路径de。在网络模式TG=(U,R)的图上定义,并表示为使用帐户的配置文件ID查询TwitterTwitter以U的形式R1UR2U.....RKU限定重定向到http://twitter.com/suspended,并返回1−→2 −→三个−→k+1如果用户帐户被挂起。由于Twitter暂停算法可能会延迟暂停,因此我们在数据收集后6个月进行了此查询 我们发现有5593个用户帐户已经被Twitter暂停。 这些帐户稍后将作为训练集来执行垃圾邮件分类(参见第4节)。请注意,为了进一步分析,我们采取了至少有一个暂停用户的活动-22,390个活动中的3,370个(670,251个用户帐户)被视为观察到这种行为。我们还观察到21%的用户参与了多个活动(见图7(b))。图3显示了这个词复合关系R = R1....................................R2R1在类型U1和Uk+1之间,哪里表示关系上的复合运算符。在我们的骗局里-text、U{user、campaign、phone number、URL}和R{sharing、promoting、using}。元路径Π的长度是Π中user-phone-user是一对用户之间长度为2的元路径,而两个用户之间长度为3的元路径实例是user-phone-URL-user。图4描绘了我们的异构网络中的一些示例元路径例如用户PU111U32PU522U53P3U61U62U73(P1T1:u11u12u13)(P1T2:u21u22u23)(P1T3:u31u32u33)(P2T4:(P3T7:u71u72u73)C1={(D 1P 1),(D 2P 2)} C2={D 3P 3}(P1,T1)(P1,T2)(P1,T3)(P2,T4)(小三、P1T1T3D1P2T5D2P3T6T7D3首页>外文书>人文>心理励志> Social Network Analysis andGraph Algorithms for the WebWWW 2018,2018年4月23日至27日,法国里昂532--∈∈⊂|.∈|}||}参与活动和共享电话号码可以由2长度的元路径User-Camp-Phno表示。集体分类法与独立分类相比,它已被证明具有更好的准确性[34]。一类分类器增量更新新建证据测试数据营异构网络多路径层次结构HMPS1号营地2号营地 .... n 营地新训练集主动学习训练一个类分类器图4:网络中存在的不同元路径的示例。给定用户特定元路径,Π=U1,U2,Ut,相似性可以根据一对用户xU1和yU2之间遵循元路径的路径实例来为它们定义度量。可以是较长元路径的一部分的较小元路径)可能会在特征空间中注入噪声,这可能导致过拟合[21]。 为了使风险最小化,建议提取不能进一步分解为较短元路径的元路径。 处理元路径的主要挑战是找到所有且仅相关的元路径。Sun等人 [39]表明,找到所有可能的元路径并从中挑选最相关的是一个NP难题,因此已经提出了许多贪婪方法来找到相关的元路径[29]。据我们所知,这是第一个工作对建模Twitter作为一个异构网络的垃圾邮件运动检测提取相关的元路径。因此,没有先前的工作建议可能的和相关的元路径为我们的异构网络。为了应对这些挑战,我们提出了一个简单而有效的概念,称为分层元路径得分(HMPS),通过挑选最短和相关的元路径(长度限制为4)来找到一对用户之间的相似性计算节点之间的相似度1、我们还增加了元路径选择的约束-当选择两个用户之间的元路径时,我们只考虑活动、电话号码或URL类型的中间节点。4拟议方法在本节中,我们将描述将Twitter上的用户集体分类为垃圾邮件发送者的整体方法(请参见图5)。为什么要集体分类?集体分类是指基于未知和已知标签之间的相关性的节点的组合分类[34]。给定训练集Tr All中的实例的标签,HIN中的集体分类的任务是推断测试集的标签(Te=All Tr)。 我们解决集体分类问题,使用HMPS找到用户(未知标签),类似于垃圾邮件发送者(已知标签)。在个体分类中,节点被个体地分类,而不考虑它们经由底层网络结构的相互依赖性。然而,在我们的异构网络中,节点通过相同的电话号码或URL连接。因此,我们采用1我们用长度超过4的元路径进行了实验。 与提取长元路径所需的时间相比,结果并不令人鼓舞。图5:建议的集体分类框架,以检测Twitter上的垃圾邮件发送者。4.1分层元路径评分(HMPS)在识别活动(参见第2节)之后,下一步是测量用户的HMPS(算法1),以找到用户与其他已知垃圾邮件发送者(暂停用户)的相似性。为此,我们提出了一个添加剂的相似性得分为用户在该特定的运动中的所有垃圾邮件发送者 虽然有几个其他的相似性措施,他们偏向于底层网络结构和相关的元路径的先验信息。例如,PathSim [39]仅适用于对称关系,HeteSim [35]依赖于单个元路径的相关性。前向阶段路径生成(FSPG)[29]在给定的回归模型下生成一组最相关的元路径,该回归模型由人类专家验证。然而,在Twitter被建模为HIN的上下文中,相关的元路径是未知的。因此,找到元路径的相关性在计算上是难以处理的。这促使我们提出了一种新的元路径为基础的相似性度量,称为分层元路径得分(HMPS),捕获两个用户之间的相似性的基础上的功能的距离,通过它们可以达到。HIN到分层结构:为了测量HMPS,我们以多路径分层结构的形式对Twitter异构网络进行建模,如图6所示。 在该结构中,元路径上的节点与它们的最小公角(LCA)节点连接。将用户的LCA节点作为电话号码或URL,随后将活动节点作为电话号码/URL的LCA节点LCA节点的目的是限制可以跨两个相关节点应用的操作的范围我们选择这样的结构,因为如果两个用户共享相同的电话号码或URL来推广活动,那么他们应该更相似,而不是两个用户不共享任何共同的电话号码或URL,但仍然是单个活动的一部分。HMPS背后的直觉是,如果两个用户彼此强连接,则他们在分层结构中的距离将更小。两个实体x和y之间的相似性分数是实数,通过集合Θ的每个Meta路径的相似性分数的函数F计算:Ψ(x,yΘ)=F(max(x,yΠi)1 ip)),其中(x,y Πi)是给定元路径Πi,Θ = Π1,…并且F是在‘p’个元路径上的最大相似性得分。然后,实体x的HMPS被定义为:HMPS(x)=y SΨ(x,y),其中S是x所属的活动中的垃圾邮件发送者的集合。Phno URL营用户URL营用户Phno营用户营用户User首页>外文书>人文>心理励志> Social Network Analysis andGraph Algorithms for the WebWWW 2018,2018年4月23日至27日,法国里昂533j=1←⟨⟩←∈∈1号营地W(电话1,营地 1)W(营地 1,URL 2)用于集体分类的算法1HMPS一曰: forCampi∈Campaiдnsdo2:S=营地i中的已知垃圾邮件发送者的集合(m= 1)|S|); U =集合电话1电话2URL1URL2Campi中的未知用户;n=Campi中的用户总数W(用户5,电话 1)W(URL2,用户6)3:scorei←.M HMP S(Ui,Sj,Campi)i∈[1,n]用户5用户1用户2用户3用户4用户64:结束5:程序HMPS(u,s,camp)6:res=0图6:用于测量用户的HMPS的分层结构。红色的用户是已知的垃圾邮件发送者。对于每个用户,针对活动中的每个垃圾邮件发送者(被暂停的用户)计算HMPS,并且最终将分数相加,如算法1所示。以下是用于分层结构中的每条边的权重。W(用户i,电话j):这是连接用户和电话号码的边的权重,并且被测量为由包含电话j的用户i传播的推文与包含电话j的所有推文的比率。W(Useri,URLj):这是连接到用户和URL,并且被测量为由用户i传播的包含URLj的推文与包含URLj的所有推文的比率。W(Campi,Phonej):这是连接活动和电话号码的边的权重,并且被测量为Campi中包含电话j的推文与Campi中URL和电话号码的累积频率的比率。W(Campi,URLj):这是连接活动和URL的边的权重,并以推文的比率来衡量包含阵营i中的URLj除以阵营i中的URL和电话号码的累积频率。让我们假设我们想要计算图6中所示的用户1(未知)的HMPS。此活动包含两个已暂停的用户,即用户2和用户4。因此,计算用户1的HMPS分数w.r.t. 用户2和用户4如下:• 用户1和用户2之间的权重,W1:W(用户1,电话2)。W(用户2,电话2)用户1和用户4之间的权重,W2:针对2个可能的元路径计算的最大得分,即,用户1-URL1-用户4和用户1-电话2-营地1-URL1-用户4; W2 = max(W(用户1,URL1). W(用户4,URL1),W(用户1,电话2)。W(营地1,电话2)。W(营地1,URL1)。W(用户4,URL1))• 用户1的最终HMPS,HMPS(用户1)=W1+W2。注意,为了从分层结构测量每个用户的HMPS,我们单独地构建用于单独活动的分层结构,而不是组合所有活动,这是由于以下两个原因:(i)从大的分层结构中找到用于跨活动的用户的所有连接的元路径在计算上是昂贵的,以及(ii)HMPS是绝对值;全局HMPS可以是绝对值。导致标签错误。具体地,如果垃圾邮件发送者(S)在活动C1中具有HMPS值X,并且其他未知用户(U)在另一活动C2中具有相同的值X,则U将被错误地标记为垃圾邮件发送者。 它可能不是基于该活动中计算的HMPS的垃圾邮件发送者。7:对于i Parent(u),do▷Parent(u)=u的直接前因8:forj Parent(u)do9:如果i==j,则▷W(s,j)=分层结构中的边s,j10:如果W(u,i)。W(s,j)>res则11:resW(u,i)。W(s,j)12:如果结束13:其他14:如果W(u,i)。W(s,j)。W(i,camp)。W(j,camp) >res然后15:resW(u,i)。W(s,j)。W(i,camp)。W(j,camp)16:如果结束17:如果结束18:结束19:结束20:返回res21:结束程序4.2主动学习与反馈由于我们只考虑那些包含多个暂停用户(垃圾邮件发送者)的活动,因此我们数据集中的类别(垃圾邮件发送者和非垃圾邮件发送者)将非常不平衡。现有的研究表明,单类分类(OCC)比两类分类实现更好的性能,如果:(i) 存在高度不平衡的数据集[33],并且目标类在训练集中普遍存在,(ii)未知实例不属于任何已知类,或者(iii)由于缺乏注释器,缺乏足够的证据等原因,未知实例难以归类到已知类中OCC只在目标类(在我们的例子中是垃圾邮件)上进行训练,它的任务是在目标类周围定义一个分类边界,这样它就可以从目标类中接受尽可能多的实例,同时最大限度地减少接受离群实例的机会。在OCC中,由于只能确定边界的一侧,因此很难仅从一个类来决定边界在数据周围的每个方向上应该有多紧密。也很难决定应该使用哪些特征来找到目标和离群类实例的最佳分离。反馈学习:我们想重申,我们选择了单个活动,而不是整个数据集,因为活动本地的HMPS有助于更好地找到相似的用户(参见第4.1节)。 每个活动与监督分类器(在我们的情况下为单类分类器)相关联。在数据集中至少有一个暂停用户的3370个活动中,并非所有活动都有足够的训练样本来训练模型,如图7(a)所示。然而,人类注释以丰富训练集的过程可能是昂贵的。为了减少人工标记的努力·····首页>外文书>人文>心理励志> Social Network Analysis andGraph Algorithms for the WebWWW 2018,2018年4月23日至27日,法国里昂534U3U8Max集例如,在集成学习中,可以利用从一个分类器获得的未知对象的输出类,并将它们馈送到其他分类器中。这可能与主动学习有关,在给定未标记数据池的情况下,可以尝试主动选择一组训练示例以达到最小分类错误。由于单个活动可能没有显著的训练实例,因此我们提出了一种具有反馈的主动学习方法,以从多个活动中收集关于未知用户的线索,以扩大与每个活动特定模型相关联的单个训练集。我们进一步注意到,活动具有显著的用户重叠一一21%的用户属于多个活动(关于重叠用户的分布,参见图7(b))。用户重叠的存在进一步促使我们将基于反馈的一旦我们不再从当前级别获得要用下一级别中的任何分类器的训练集进一步扩充的标记用户,选择准则:重要的是确定选择准则以从分类器的输出中选择用户子集;不适当的标准可能在训练集中注入噪声,该噪声将在整个后续级别中传播。 我们提出以下选择用户的标准:给定(a)由函数f(x)表示的单类分类器C,对于实例x,函数f( x)提供x与分类边界的距离,以及(b)X,一组未标记的实例,我们取来自deci的所有训练样本之间的最大距离模型如下。边界上,Tc= maxx ∈Xf(x). 现在从未知集合Xu被标记为C,我们选择x∈Xu′:f(x)≥Tc.注意,阈值TcMaxmax是特定于活动的。未知用户U1U2U3U4U 3U4U6U5乐队U5乐队U6U7U81级分类器1培训分类器2训练分类器3训练(a) 每个摄像机暂停的用户数。(b) 活动中的重叠用户U1:1U2:ukU3:ukU4:ukU3:1U4:ukU6:ukU5:1U5:ukU6:ukU7:1U8:uk图7:我们的数据集中的(a)暂停和(b)重叠用户(属于多个活动的用户)的分布。每个活动的暂停用户数较少。因此,为了增加训练样本,挑选重叠用户用于人工注释。让我们假设用户u被分类器分类为垃圾邮件发送者3级U4:英国U2:1U4:英国U4:ukU6:1U4:英国U 6:1U8:英国分类器3U5、U6培训U7U8:英国(与竞选活动相关联,比如说,Cami)具有高的信心。 如果u也是一些其他活动的一部分(比如Camj),其中u的类是未知的,我们将u分配给Camj的训练集以及它的类作为垃圾邮件发送者。通过这种方式,我们不断增加个体分类器的训练集的大小(参见图8,我们提出的基于反馈的主动学习方法的示意图)。总的来说,我们执行以下步骤:一个初始的一组标记的实例被用于训练individual分类器。 由于使用单类分类器,训练集仅由垃圾邮件发送者(暂停的Twitter帐户)组成。然后使用每个活动特定分类器来标记未知用户。从分类器标记的未知用户的每个集合中,我们根据选择标准(稍后提到)选择用户的子集。所选择的用户然后用其对应的活动也包含这些用户的其他分类器的训练集来增强。这些步骤针对所有活动迭代地执行。这构成了迭代的级别1(如图8所示)。 在这个级别的最后,我们为每个分类器获得一组新的训练集。在下一级中,新的训练集被引入到分类器中,并用于预测其余未知用户的类别。这构成了迭代的级别2的图8:在活动特定分类器之间具有反馈的主动学习的示意图。5实验结果在本节中,我们首先介绍用于与我们的方法进行比较的基线方法,然后进行详细的比较评估。5.1基线方法我们比较我们的方法与三个国家的最先进的方法在文献中提出的垃圾邮件检测一般。然而,他们都没有专注于特定于电话号码的垃圾邮件发送者,其动态是不同的(如第2节所述)。由于我们没有获得源代码,因此我们自己实现了这些方法。注意,所有基线最初使用2类分类器。然而,在本文中,我们展示了合适的超参数优化后的一类和二类分类的基线结果。基线1:我们考虑Benevenuto等人提出的垃圾邮件检测方法[2]作为我们的第一个基线。他们提出了每个用户的以下基于OSN的特征(称为OSN1)具有URL的推文的分数、用户帐户的年龄、每个推文的URL的平均数量、每个followee的关注者的分数、用户回复的推文的分数、用户回复的推文的数量、用户接收回复的推文的数量、朋友和关注者的数量。U4U2U4U6U6U82级分类器1U1培训U3分类器2U3培训U5分类器3U5乐队培训U7U4U1训练U3、U2分类器1U4分类器2U3培训U5、U6····首页>外文书>人文>心理励志> Social Network Analysis andGraph Algorithms for the WebWWW 2018,2018年4月23日至27日,法国里昂535每条推文的平均标签数他们表明基于SVM的分类器表现最好。基线2:我们考虑Khan等人提出的方法[19]将垃圾邮件发送者与Twitter上的真正专家隔离开来,作为我们的第二条基线。他们提出了以下特征(称为OSN 2):关注者-被关注者网络中用户的权威性和中心分数,包含URL的用户推文的分数,推文中URL的平均数量,用户推文中每个单词的URL平均数量,推文中每个单词的主题标签平均数量,以及推文中主题标签的平均数量。他们发现Logistic回归表现最好。基线3:我们考虑由Adewole等人提出的方法。[1]以检测垃圾邮件和垃圾用户帐户作为我们的第三条基线。 They proposedthe following list of profile and content- based features (referredas OSN3): length of the screen name based on characters, thepresence or absence of profile location, whether the userincludes URL or not in his profile, age of the account in days,number of followers of the user, number of friends / follow- ersof the user, total statuses of the account, number of tweets theuser has favorited, indicating presence or absence of profiledescription, whether the user has not modified the theme of theirprofile, presence or absence of time zone, whether the accounthas been verified or not, whether the user has not changed thedefault profile egg avatar, number of the public lists the user isamember,whetherornottheuserhasenabledthepossibilityofgeo-tagging their tweets, normalized ratio of followers to friends,ratioofthenumberoffollowertofriends,ratioofthenumberoffriends to followers, (total, unique, and mean) number of tweets,hashtags, URLs, mentions, favorite count, and retweets, ratio of(hashtags,URLs,mentions,retweets)tototalnumberoftweets,(hashtag, URLs, mention, retweet, tweet-length) deviation, averagenumber of daily tweets, average tweet length, popularity ration,number of duplicate tweets, and maximum value of hashtag fre-quency. 他们表明,随机森林在分类任务中表现最好请注意,以前的工作只考虑了那些只涉及URL的活动[1,2,19]。在我们的工作中,电话号码作为一种稳定的资源,有助于更好地组织活动此外,基线中使用的大多数OSN特征很容易被垃圾邮件发送者规避,而基于HMPS的特征很难操作。5.2实验装置我们提出的分类方法分别使用不同的特征(HMPS,OSN1,OSN2和OSN3)及其组合运行。 我们使用标准的网格搜索技术来调整超参数。为了评估,我们设计了两个实验设置:(i) 设置1:我们的主要目标是检测被Twitter暂停的用户帐户,因为它们是垃圾邮件帐户。因此,暂停帐户的集合构成分类器的基础事实。在我们的数据集中存在的所有暂停帐户中(在第2节中提到),我们采用留一交叉验证技术(由于暂停帐户的数量非常有限)并报告分类器的平均准确度。请注意,在此设置中,我们对所有竞争方法使用单类分类器(ii) 设置2:我们相信我们的方法能够检测到那些垃圾邮件发送者,但尚未被Twitter暂停的帐户。因此,我们进一步邀请人工注释者2将一些未暂停的帐户注释为垃圾邮件发送者或非垃圾邮件发送者。 这将进一步帮助我们运行最初使用二进制分类器的基线方法(见5.4节)。由于不可能标记所有未暂停的用户,我们采用方便的采样方法。我们根据未暂停用户存在的活动数量定义用户箱(参见图7(b)中的分布我们的抽样方法优先选择用户谁是多个活动的一部分,以最大限度地提高每个活动的证据按照这种方法,我们从3370个广告中挑选了700个用户每个用户被三个人工注释者标记为垃圾邮件发送者或非垃圾邮件发送者,然后多数投票被视为最终类别。注释者间一致性为0。根据科恩的kappa测量值为82在700个手工注释的账户中,我们保留了20%的设置2中用作测试集的数据集 我们重复该实验50次并报告平均准确度。在这里,我们也使用一个类分类器的所有竞争的方法,并考虑'垃圾邮件发送者'作为我们的目标类。评估指标:对于比较评估,我们使用标准的5.3比较评价表1显示了两种设置的竞争方法的性能。 我们报告的结果,我们的主动学习为基础的一类分类与不同的功能组合。 3对于设置1(留一),我们
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功