在线购物众包活动中的“添加到收藏夹”恶意检测

12 浏览量更新于2023-10-16 收藏 13.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

∗16730检测在线购物中的众包“添加到收藏夹”活动0Ning Su清华大学DCST，中国北京sn-40@163.com0清华大学DCST，中国北京yiqunliu@tsinghua.edu.cn0Zhao Li阿里巴巴集团，中国杭州lizhao.lz@alibaba-inc.com0Yuli Liu青海大学，中国青海liu-yuli@foxmail.com0Min Zhang清华大学DCST，中国北京z-m@tsinghua.edu.cn0Shaoping Ma清华大学DCST，中国北京msp@tsinghua.edu.cn0摘要“添加到收藏夹”是在线购物网站上的一种常见功能，它帮助用户记录潜在有趣的商品以备将来购买。它通常被视为商品流行度的一种显式反馈信号，因此也被许多购物搜索引擎采用作为排序信号。随着众包平台的使用增加，一些恶意在线卖家也组织众包活动来增加其商品的“添加到收藏夹”数量。通过这种方式，他们希望商品在搜索排名列表中获得更高的位置，从而提高销售额。这种新出现的恶意活动对传统的搜索垃圾邮件检测工作提出了挑战，因为它涉及到许多众包工作者的参与，这些工作者在大多数情况下是正常的在线购物用户，并且这些活动由一系列行为组成，包括搜索，浏览，点击和添加到收藏夹。为了阐明这个研究问题，我们是第一批从众包平台的任务组织信息和在线购物网站的用户行为信息两个方面来调查这种特定的垃圾邮件活动的人之一。通过对行为，用户和商品的一些真实垃圾邮件活动进行全面分析，我们提出了一种基于因子图的模型来识别这种垃圾邮件活动。基于在实际购物搜索环境中收集的数据的实验结果表明，我们的模型能够有效地检测恶意的“添加到收藏夹”活动。0关键词在线购物；众包操纵；垃圾邮件检测0ACM参考格式：Ning Su，Yiqun Liu，Zhao Li，Yuli Liu，MinZhang和ShaopingMa。2018年。检测在线购物中的众包“添加到收藏夹”活动。在WWW2018：2018年Web会议上，2018年4月23日至27日，法国里昂。ACM，美国纽约，纽约，10页。https://doi.org/10.1145/3178876.31860790本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂 © 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.318607901 引言网购平台，如亚马逊和淘宝，已成为人们寻找和购买商品的热门平台。对于这些网站，用户行为数据在优化个性化推荐和购物搜索结果方面起着重要作用[13，18]。在网购时，用户有时希望保存一些潜在有趣的商品以备将来购买。对于这种情况，大多数网购平台为用户提供了“添加到列表”（在亚马逊）或“添加到收藏夹”（在淘宝，以下简称“A2F”）的功能。虽然给用户带来了便利，但网购平台也可以从这种行为数据中受益。例如，有时A2F的数量，也称为流行度，被视为购物搜索结果页面中商品排序的一个方面。这些信息还可以在购物搜索引擎的默认排序过程中使用[13]。如今，随着众包系统的广泛使用，一些在线卖家试图通过增加其商品的流行度来操纵购物搜索结果的排名，借助众包的帮助进行操作0�通讯作者0图1：伪造的添加到收藏夹任务示例0主题：Web搜索和挖掘WWW 2018年4月23日至27日，法国里昂16740工人和提高销售额。如图1所示，一个恶意的在线卖家在众包平台上发布一个任务，以增加他/她的商品的A2F数量（受欢迎程度）。在这个任务中，众包工人需要按照一些特别设计的指南来伪装成普通用户。首先，众包工人需要向目标购物搜索引擎提交一个特定的查询，并点击恶意卖家想要推广的商品。然后，众包工人需要在商品详情页面停留一段时间，通常至少2分钟，然后点击“添加到收藏夹”按钮。为了模拟更真实的在线购物场景，一些任务甚至可能要求众包工人在结果列表上浏览一段时间，并点击一些非目标商品。接受这些伪造任务后，众包工人应该首先在在线购物网站上拍摄他们的账户ID的截图，然后按照指南执行任务，每个步骤都要拍摄一张截图。任务请求者只批准那些根据截图符合要求的提交，并支付报酬。这些垃圾邮件活动影响了在线购物网站的排名策略和推荐机制。同时，它们会误导普通用户，因为偶尔恶意卖家试图通过这些伪造的努力推广低质量甚至假冒商品。在本文中，我们旨在检测在线购物中上述新出现的垃圾邮件活动。与之前的工作相比，这个检测任务面临许多挑战：（1）这些垃圾邮件活动由一系列用户行为组成，包括搜索、浏览、点击和添加到收藏夹，这些行为更加复杂，更具挑战性。因此，我们需要跟踪和分析用户的整个行为序列。这与基于内容的垃圾邮件活动（如欺骗性产品评论[9,23]、社区问答（CQA）中的推广活动[14,26]和推广微博帖子[4]）完全不同。这也与OSN中的虚假点赞[1,8]不同，后者只需要简单的用户操作。（2）由于这些垃圾邮件活动是由众包工人执行的，它们与正常活动非常相似，即使进行手动检测也很难被发现。（3）与发布垃圾产品评论和组织CQA活动相比，这些活动是私密的，很少被公众注意到。因此，缺乏“评论有用性”或“被选为最佳答案”等有效指标[17]。（4）一些任务要求众包工人在在线购物网站上的账户有一些要求（例如，账户至少注册2年）。因此，这些垃圾邮件活动中的众包工人在大部分时间里都是正常用户。他们也会自己进行一些正常的A2F活动（见第4.3节）。同时，随着欺骗性商品的日益普及，一些正常用户也可能被吸引并贡献正常的A2F活动。换句话说，垃圾用户和商品都有一部分正常记录。这也给检测过程带来了更多的挑战。为了解决这些挑战，我们首先利用一些众包任务来构建数据集，并研究与垃圾邮件活动高度相关的相应用户行为日志记录。然后，我们从行为、用户和商品的角度分析这些伪造的A2F活动的属性。通过将属性和相关性（基于用户和基于商品）与因子图模型相结合，我们进行了一个判别模型来检测垃圾邮件活动。0检测垃圾邮件A2F活动。通过与竞争基线的实验比较，我们经验证明我们的框架是稳健和有效的。我们的研究具有以下贡献：0•我们明确指定了在线购物中众包A2F活动的问题。据我们所知，我们是最早研究这种欺骗性活动的人之一。•通过同时定位众包A2F任务并从在线购物网站收集用户行为日志，我们创建了一个包含正常用户行为数据和一些真实垃圾邮件活动的数据集。•我们从行为、用户和物品的角度对这些垃圾邮件活动进行了全面分析。•我们提出了一种新颖的检测框架，可以有效地检测垃圾邮件活动。02相关工作0与检测众包A2F活动相关的研究工作有三个方向：个体垃圾邮件检测、串通垃圾邮件检测和众包操纵。02.1个体垃圾邮件检测0随着电子商务的发展，意见垃圾邮件（即虚假评论）引起了广泛关注。它首次由Jindal和Liu在[9]中提出，他们分析了亚马逊的数据并识别出三种类型的垃圾邮件。通过手动标记的训练样本，他们进一步训练了一个监督学习模型来检测虚假评论，这被称为意见垃圾邮件。Ott等人[23]报告称，虚假评论的数量在多个面向消费者的评论网站上增长。他们发现虚假意见垃圾邮件总体上在增长，但在不同社区之间增长速度不同。Yoo和Gretzel[36]手动比较了收集到的真实和虚假酒店评论之间的心理相关语言差异。然而，结果表明基于句法特征可能很难区分虚假和真实评论。Feng等人[7]将意见垃圾邮件视为分布异常。他们从产品评论评分和评论发布时间窗口中找到了普通和虚假评论之间的区别模式。在[24]中，Ott等人使用n-gram和词性标注特征对亚马逊机械土耳其的一个金标准虚假评论数据集进行了监督学习。评论垃圾邮件检测问题也在[16, 20,25]中广泛研究。这些研究确定了与评分行为相关的几个特征，并对这些特征进行建模以检测垃圾评论者。Lu等人[20]使用概率图模型在一个大型标记数据集上同时检测虚假评论和评论垃圾邮件。除了评论系统中的虚假评论和评论垃圾邮件检测外，垃圾邮件检测还在其他平台上进行了研究，如社区问答（CQA）门户[1, 2, 5, 8, 14,26]和在线社交网络（OSNs）[10, 11,28]与这一研究方向相比，我们的工作旨在处理一种新出现的涉及众包A2F活动的串通垃圾邮件活动。然而，现有的个体垃圾邮件检测中采用的一些特征也可能对我们的研究有启发。0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, FranceTrack: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France167502.2串通垃圾邮件检测与此相关的研究领域关注于串通垃圾邮件的检测[3, 21,33-35]。Lu等人[19]利用有关评论者身份和社交网络的上下文信息来提高评论质量预测。他们发现社交环境有助于找到评论垃圾邮件的群体。Mukherjee等人[21]是最早研究评论社区中垃圾邮件群体的人之一。他们发现标记虚假评论者群体比标记单个虚假评论或评论者更容易，并提出了一种新颖的基于关系的方法来检测标记数据集上的垃圾邮件群体。在[34]中，Xu等人提出了两种新颖的方法来聚类评论者和检测串通垃圾邮件，同时使用个体和串通指标。此外，串通垃圾邮件的检测也在在线社交网络中进行研究。例如，Cao等人[4]调查了社交媒体中基于个体和基于群体的URL共享行为，以揭示这些有机和有组织的用户群体。我们可以看到，大多数这些串通垃圾邮件检测工作都集中在意见垃圾邮件上。这些欺骗性评论将直接影响用户对物品或服务的判断。我们的研究是第一个明确指定众包A2F活动问题的工作。与以前的工作不同，这些垃圾邮件活动首先会影响在线购物网站的排名策略和推荐机制，然后通过它们影响用户。02.3 众包操纵最近，随着众包系统的广泛使用，许多研究人员开始研究众包操纵问题，旨在将操纵内容传播到目标网站。Wang等人发现，恶意众包系统不仅存在，而且在用户基数和总收入方面都在迅速增长。他们估计，两个中国众包平台上约有90%的任务是恶意任务。Lee等人分析了西方众包网站上恶意任务的类型以及请求者和工作者的属性。他们进一步提出并开发了统计用户模型，以自动区分常规社交媒体用户和工作者。在[6]中，作者将众包欺骗性评论任务与目标产品联系起来。他们使用条件随机场模型对评论者进行聚类，并将这个概率模型的结果嵌入到一个分类框架中，用于检测众包操纵的评论。Liu等人研究了CQA平台上的串谋垃圾活动。他们提出了一个综合因子图模型，使用各种提取的属性和相关性来学习推断一个问题或答案是否具有欺骗性。在[30]中，作者将互联网广告中的众包欺诈检测问题形式化，并仔细分析了众包欺诈的行为。我们可以看到，这一系列研究为我们了解众包工作者如何组织完成复杂的垃圾任务提供了有价值的见解。然而，这些研究都没有旨在解决暴露在在线购物网站上的众包A2F威胁。与以前的垃圾活动相比，众包A2F活动更加微妙，更难被用户察觉。此外，这些垃圾活动由一系列用户行为组成，比意见垃圾更加复杂，更难被检测到。0表1：用户行为日志记录0字段描述0用户ID 用户的数字ID0搜索时间戳查询提交的时间戳0查询提交的查询0排名类型选择的结果排名类型（默认为0）0商品ID 商品的数字ID0页码商品所在的页码0点击时间戳点击的时间戳0停留时间用户在详情页面停留的时间0店铺ID 店铺的数字ID0卖家ID 卖家的数字ID0添加到购物车用户是否将商品添加到购物车0之前的点击其他点击在此之前（包括商品ID和点击时间戳）03数据收集和注释由于在在线购物中垃圾A2F活动的问题上没有公开可用的数据集，我们首先旨在收集数据以构建一个数据集，使我们能够提供见解并评估我们的算法。03.1 数据收集0为了收集数据，我们首先在众包平台上找到一些众包A2F任务作为种子集。然后我们根据种子用户集收集相关的用户行为日志。如前所述，在一些热门的众包平台上，例如Zhubajie.com和RapidWorkers.com，参与众包A2F任务的众包工作者需要向购物搜索引擎提交特定的查询并截取他们的账户ID的屏幕截图。这为我们提供了获取真实垃圾活动的机会。我们首先使用手动搜索和筛选搜索结果的方式在众包平台上找到众包A2F任务。所有的查询和众包工作者的账户ID都是根据提交的屏幕截图手动提取的。通过这种方式，我们在10天内获得了60个任务，其中包含113个垃圾用户和296个唯一的垃圾查询（每个任务可能提供多个查询）。同时，我们还手动提取了垃圾店铺以备后用。我们没有提取垃圾商品，因为任务中的所需商品以图片的形式呈现（见图1），而商品描述可能会经常变化。基于内容为基础的垃圾活动中的“垃圾用户倾向于发布垃圾内容”的常见假设[20,32]，在收集过程之前，我们对这个问题做出了两个类似的假设：（1）垃圾用户倾向于将垃圾商品添加到他们的收藏夹中，（2）垃圾商品倾向于被垃圾用户添加到收藏夹中。我们将在第4节通过一些例子简要验证这两个假设。有了收集到的账户ID和这两个假设，我们开始从目标在线购物网站收集相应的用户行为日志，该网站被认为是最受欢迎的电子商务网站之一，每天有大量的A2F活动。收集过程包括三个步骤。第一步：我们提取这些垃圾用户在2017年3月8日至4月13日期间的行为日志（覆盖了所有60个任务的活动时间）。每个行为日志记录代表一次互动5,333156,1924,110,6964,272,221(b)(d)16760表2：数据集统计0垃圾邮件（+）正常（-）可疑（？）全部0由购物搜索触发的会话，旨在完成A2F活动。表1列出了我们从在线购物网站中提取的所有字段。第二步：基于垃圾用户倾向于将垃圾商品添加到收藏夹的第一个假设，我们收集第一步中的所有商品，然后通过提取与这些商品相关的用户行为日志来扩展数据集。第三步：基于垃圾商品倾向于被垃圾用户添加到收藏夹的第二个假设，我们识别出第二步中的所有用户，然后通过提取这些用户在该期间的行为日志再次扩展数据集。经过这三个步骤，我们构建了一个包含81,778个用户、1,544,996个商品和4,272,221个用户行为日志记录的数据集。我们相信，这个数据集中有大量的用户可能参与了众包的A2F活动。然而，并不是这个数据集中的所有商品都是垃圾目标，因为即使是垃圾用户也会执行正常的A2F活动。03.2 数据注释0根据我们的假设，数据集中的每个用户行为日志记录都有一定的垃圾邮件概率。然而，正如前面提到的，垃圾用户和垃圾商品都有一些正常记录。为了算法设计和评估的目的，我们需要对数据进行注释，找出垃圾行为日志记录以及正常记录。由于行为日志的规模庞大，垃圾活动和正常活动之间的相似性，有时很难通过手动努力确定哪些记录是垃圾邮件，哪些是正常邮件。然而，我们相信，基于众包任务设计，仍然有可能识别出一些真实的垃圾活动和正常活动。以下是我们的注释方法：垃圾邮件（+）：我们首先确定了一些真实的垃圾行为日志记录。考虑到众包任务提供的查询通常非常具体，并且与目标商品的名称相似，以便众包工作者可以在结果列表中快速找到这些低流行度的商品，我们将使用垃圾查询初始化的交互会话视为真实的垃圾日志记录（即垃圾活动）。通过296个唯一的垃圾查询（见第3.1节），我们发现了5,333个垃圾行为日志记录。正常（-）：考虑到高质量的商品自然会吸引大量的A2F活动，他们的卖家没有必要通过众包任务来推动它们。因此，为了找出正常的行为日志记录，我们首先统计数据集中每个商品的A2F活动数量，然后提取具有超过500个A2F活动的热门商品。由于这个数字远远大于此期间所有众包任务的最大交易量（约为100-150），我们将它们的日志记录视为正常记录。总共，我们提取了179个商品和156,192个正常日志记录。同时，我们统计了这些日志记录中出现的商店，并发现其中没有一个是在第3.1节中提取的垃圾商店。这也验证了我们方法的合理性。可疑（？）：我们认为剩下的4,110,696个未标记的日志记录是可疑记录。我们的目标是在这些日志记录中检测到垃圾的A2F活动。0表3：垃圾邮件和正常A2F活动之间行为属性的比较0垃圾邮件正常0添加到购物车 0.06 0.080对结果进行排名 0.24 0.290带有先前点击 0.20 0.020周末 0.32 0.260图2：垃圾邮件和正常A2F活动之间行为属性分布的比较0如上所述，自动注释数据集的统计数据如表2所示。04垃圾邮件A2F活动分析基于注释数据集，我们对crowdturfngA2F活动进行了比较分析。我们的分析将从行为、用户和商品三个方面进行。04.1行为分析首先，我们根据注释的日志记录对垃圾邮件和正常A2F活动的行为属性进行了比较分析。表3描述了垃圾邮件和正常日志记录中包含相应属性的比例的比较。从中我们可以观察到，只有6%的垃圾邮件活动（即垃圾邮件日志记录）和8%的正常活动包含加入购物车操作。这是可以预料的，因为用户将商品添加到收藏夹的商品不是他们立即想要购买的，而且很少有任务需要这个操作。在搜索商品时，用户会使用购物搜索引擎提供的不同排序策略来高效地找到更好的商品。与正常活动相比，较少的垃圾邮件活动包含这个操作。至于“带有先前点击”，我们发现大约20%的垃圾邮件活动中，用户在点击目标商品之前点击了其他商品，而只有2%的正常活动在点击目标商品之前点击了其他商品。这是因为crowdturfng任务通常要求工作者在点击目标商品之前随机点击一定数量的非目标商品，如前面所述。此外，我们还研究了这些活动发生的时间。从表中可以看出，与正常活动相比，更多的垃圾邮件活动发生在周末。然而，除了“带有先前点击”的属性之外，垃圾邮件和正常活动之间的差异是0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, France16770表4：垃圾邮件和其他用户之间的用户属性比较0垃圾邮件其他0平均值中位数平均值中位数0A2F数量 70.3 42 122.7 650加入购物车数量 42.2 18 62.8 250购买数量 7.0 3 16.6 100商品评论数量 4.6 1 9.9 40加入购物车/ A2F 0.70 0.63 1.35 0.470购买/ A2F 0.17 0.04 0.51 0.150表5：垃圾邮件和其他商品之间的商品属性比较0垃圾邮件其他0平均值中位数平均值中位数0A2F数量 288.7 145 1763.7 2880加入购物车数量 300.9 102 964.1 1430购买数量 71.3 30 633.5 490商品评论数量 44.7 23 253.4 250加入购物车/ A2F 1.13 0.98 1.85 1.510购买/ A2F 0.32 0.20 0.97 0.350非常小。这进一步表明，垃圾邮件活动与正常活动非常相似，很难被检测到。图2进一步显示了垃圾邮件活动和正常活动之间行为属性的比较，包括查询长度、页面数量、浏览时间（搜索和点击之间的时间间隔）和停留时间（在详细页面中）。如图2(a)所示，垃圾邮件活动的查询长度集中在4-6（约75%），而正常活动的查询长度分布更加均匀。这是因为crowdturfng任务提供的查询需要包含一定数量的关键词来匹配它们的项目，而太多的单词可能会导致不必要的输入错误。但对于正常活动来说，查询的长度会随着用户意图而变化。从图2(b)可以看出，在垃圾邮件活动中，用户查看更多页面以找到所需的项目，这表明这些任务中的垃圾邮件项目并不那么受欢迎，排名较低。尽管使用了特定的查询，众包工作者仍然无法在前几页找到这些项目。至于与时间相关的属性，垃圾邮件活动的浏览时间和停留时间通常比正常活动的时间长（如图2(c)和2(d)所示），这是由于crowdturfng任务中的相应请求引起的。04.2 用户分析现在我们来看用户属性。由于在第3.2节中我们只发现了正常活动，并且没有有效的方法来发现正常用户或正常商品，因此我们比较了从众包平台中提取的垃圾用户和数据集中的其他用户的用户属性，商品属性也是如此。根据用户ID，我们从2017年3月8日到4月13日的在线购物网站收集了用户的信息。如表4所示，垃圾用户的A2F、加入购物车、购买和商品评论相对较少。这表明垃圾用户在正常的在线购物活动上花费的时间较少。由于这些属性与用户在购物网站上的活跃时间有关，而用户之间的活跃时间各不相同，我们计算了加入购物车的比率0图3：一个垃圾用户的A2F活动0(a) 垃圾商品0(b) 热门商品0图4：一个垃圾商品和一个热门商品的A2F活动0购买与A2F的比率。我们可以看到，与其他用户相比，垃圾用户显示出较小的消费需求，这表明这些用户的购买力较低。我们还从一个案例研究中研究了数据集中垃圾用户的A2F活动的连续性。如图3所示，这个垃圾用户在连续的时间段内（前半个月）将大量垃圾商品添加到他/她的收藏夹中。这表明垃圾用户倾向于将垃圾商品添加到他们的收藏夹中（假设1），并且这些垃圾活动是连续的。04.3 商品分析0如第3.1节所述，我们不会在任务中提取垃圾商品。因此，为了获取垃圾商品，我们在数据集中提取由垃圾用户执行的带有垃圾查询的活动，并将相应的商品标记为垃圾商品。通过296个垃圾查询和113个垃圾用户，我们总共发现了58个垃圾商品。我们比较了数据集中垃圾商品和其他商品的属性。如表5所示，垃圾商品的A2F、加入购物车、购买和商品评论较少。这表明垃圾商品通常是无法吸引正常用户的低质量商品。由于这些属性与商品的曝光有关，我们还计算了加入购物车和购买与A2F的比率。我们可以看到，垃圾商品的这两个属性远低于其他商品，表明对这些商品的需求较低。换句话说，0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, France16780用户不太可能购买这些垃圾商品，这验证了识别这些商品并避免它们在结果列表中排名靠前的必要性。同样，我们研究了数据集中商品A2F活动的连续性。图4(a)显示了一个垃圾商品的A2F活动。我们可以看到所有垃圾用户的A2F活动都集中在一个短时间内，这可能是众包任务的活跃时间。这表明垃圾商品倾向于被垃圾用户添加到收藏夹中（假设2），而这些垃圾活动是连续且集中的。同时，在前9天也发生了集中的A2F活动。因此，我们有理由怀疑这些前9天的活动可能是由另一组众包平台上的众包工作者执行的。图4(b)显示了一个热门商品的A2F活动（如第3.2节所述）。A2F活动的数量随时间稳定。此外，还有一些由垃圾用户执行的活动，表明垃圾用户也会进行正常的A2F活动。04.4 总结通过以上分析，可以明确一些众包A2F活动和正常活动之间的行为属性是不对称的。此外，我们还发现垃圾用户/商品与正常用户/商品之间存在一定的差异。我们还观察到垃圾用户/商品的垃圾活动是连续且集中的。基于这些发现，我们在下一节构建了一个因子图模型来检测垃圾A2F活动。05垃圾A2F活动检测在本节中，我们提出了一种新颖的活动因子图模型（AFGM），以整合有关行为、用户和项目的所有信息，以更好地预测垃圾A2F活动。我们首先将一部分节点作为训练集，其余节点作为测试集，然后我们的模型推断出每个剩余节点是垃圾邮件的概率。我们的目标是训练一个部分标记的因子图模型。05.1 模型框架0因子图假设观察结果与属性和相关性是一致的。它已经成功应用于许多垃圾邮件检测工作[17,20]。在这项工作中，我们将问题形式化为活动因子图模型（AFGM）。图5显示了其图形表示。网络G中的活动节点集V = {A 1，A2，...，A N}映射到活动因子图中的因子节点集Y = {y 1，y 2，...，yN}。G中的活动部分标记，因此Y可以分为两个子集YL和YU，分别对应于标记（训练集）和未标记（测试集）的活动。使用训练集中已知的因子节点集，AFGM推断未知节点是垃圾邮件的概率有多大。根据第4节的发现，我们定义了以下四种类型的因子：0• 行为属性因子：f b（y i | b i）表示给定行为属性向量b i的yi的后验概率。• 用户属性因子：f u（y i | u i）表示给定从用户Ui提取的用户属性向量u i的y i的后验概率。0• 项目属性因子：f p（y i | p i）表示给定从项目（产品）Pi提取的项目属性向量p i的y i的后验概率。•相关因子：基于垃圾用户/项目的垃圾活动是连续且集中的发现，我们有两个直觉：（1）在短时间内由同一用户执行的A2F活动可能具有相关性，（2）在短时间内对同一项目的活动可能具有相关性。因此，我们有两个相关因子：- д u（y i，C u（yi））表示活动之间的基于用户的相关性，其中C u（yi）是与图中的y i相关的用户相关因子节点的集合。- д p（y i，Cp（y i））表示活动之间的基于项目的相关性，其中C p（yi）是与图中的y i相关的项目相关因子节点的集合。0给定活动网络G，AFGM中活动的形成概率定义如下：0P（Y |G）= 10Z0i f bp（y 0∙ д u（y i，C u（y i））∙ д p（y i，Cp（y i））（1）0其中Z是归一化因子，它将所有可能标签的所有活动的形成概率P（Y |G）求和。我们模型的目标是最大化这个形成概率。05.2模型推断我们模型中的因子可以以不同的方式实例化。根据之前的工作[29]，我们使用指数线性函数，并将三个属性因子定义为0f b（y i | b i）= exp（λ T b Φ b（y i，b0f u（y i | u i）= exp（λ T u Φ u（y i，u0f p（y i | p i）= exp（λ T p Φ p（y i，pi））（4）0其中，λ T b，λ Tu，λ Tp是加权向量，Φ b，Φ u，Φp是特征函数向量。类似地，相关因子可以定义为0д u（y i，C u（yi））= exp（y j ∈C（y i）φ T u Θ u（y0y j ∈ C（y i）φ T u Θ u（y i，yj）（5）0дp(yi, Cp(yi)) = exp �0yj∈C(yi)φTpΘp(yi, yj) �� (6)0其中 φTu，φTp 是权重向量，Θu，Θp可以被定义为指示函数的向量。学习AFGM是通过最大化形成概率P(Y|G) 来估计参数配置 θ = (λTb, λTu, λTp, φTu,φTp)。为了简化表示，我们将公式2-6中的所有因子函数连接起来，表示为因子节点 yi 的形式：0s(yi) = (Φb(yi, 0Θu(yi, yj)T, Θp(yi, yj)T) (7)0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, France==(8)(9)=(10)16790图5：AFGM的图形表示0然后，公式1中的形成概率可0P(Y|G) = 10Z0exp(θ^s(yi))0Z exp ��0is(yi) ��0Zexp(θ^TS)0其中 s 是所有因子节点上的因子函数的聚合，即 S = Σis(yi)。由于因子节点集合 Y是部分标记的，为了计算形成概率，我们定义 Y|YL 为给定已知标签YL 的标记配置。此外，我们可以将对数似然目标函数定义为：0O(θ) = loд(0Y|YL P(Y|G))0= loд(�01 Zexp(θ^TS)0= loд0Y|YL exp(θ^TS)) - loд(Z)0= loд0Y|YL exp(θ^TS)) - loд(0exp(θ^TS)0我们采用梯度下降算法[29]来解决对数似然目标函数。每个参数 θ的梯度为：0∂0∂θ = ∂(loд(�Y|YL exp(θ^TS)) - loд(�Y exp(θ^TS)))0∂0exp(θ^TS) ∙ S0exp(θ^TS)0exp(θ^TS) ∙ S0exp(θ^TS)0= E(Y|YL,G(S)) - E(Y|G(S))0其中 E(Y|YL,G(S)) 表示在已知标签 YL 的情况下，对 S的期望，E(Y|G(S)) 表示对所有可能标签的 S 的期望。由于计算E(Y|YL,G(S)) 和 E(Y|G(S))是不可行的，我们使用循环置信传播（LBP）算法[22]来实现近似最优解。具体而言，我们在每次迭代中进行两次LBP过程，一次用于估计未知节点的边际概率（即p(y|YL,G)，y∈YU），另一次用于所有节点的边际概率（即p(y|G)）。通过边际概率，可以通过对所有相应节点求和来获得E(Y|YL,G(S)) 和E(Y|G(S))。最后，通过梯度，我们使用学习率α更新每个参数：0θt+1 = θt + α ∙ �θ (11)0基于学习参数 θ，我们再次使用LBP算法计算测试集 YU中每个因子节点的边际概率。然后，将边际概率作为预测置信度，即活动节点是垃圾邮件还是正常邮件的概率。06 实验 6.1 实验设置特征。根据第4节和第5节，我们给出了用于因子构建的特征。所涉及的所有属性特征列在表6中。对于用户和物品属性特征，我们只使用了两个比率属性，因为我们认为定量属性对于不同的用户或物品是有偏差的，正如前面提到的，这两个比率可以更好地反映用户和物品的质量。值得注意的是，前四个是二进制属性，其余是连续值属性。为了简化连续值属性的表示，我们将这些连续属性空间离散化为一定数量的H个区间，每个H根据相应的属性分布进行调整[27]。因此，每个连续值属性可以取值为{1...H}，即转换为H个属性之一。0会议：Web Search and Mining WWW 2018，2018年4月23日至27日，法国里昂16800表6：属性特征列表0类别编号描述0行为属性1 添加到购物车02 对结果进行排序03 与之前的点击一起04 在周末05 查询长度06 页面编号07 浏览时间08 停留时间0用户属性9 添加到购物车 / A2F010 购买 / A2F0商品属性11 添加到购物车 / A2F012 购买 / A2F0至于相关因素，由于垃圾用户/商品的垃圾活动是连续且集中的，我们认为同一用户/商品的连续Nu /Np活动具有很强的关联性。因此，对于活动节点Ai，我们将同一用户之前Nu-1个活动的因子节点添加到Cu(yi)中。类似地，对于基于商品的关联，我们将同一商品上的前Np-1个活动的因子节点添加到Cp(yi)中。在我们的工作中，我们将Nu和Np都设置为3。数据集。如第3节所述，我们的目标是检测可疑日志记录中的垃圾邮件A2F活动。由于垃圾邮件活动与正常活动非常相似，我们无法手动将这些日志记录标记为“垃圾邮件”或“正常”。因此，评估我们算法的性能是困难的。为了解决这个问题，我们随机选择了80%的垃圾邮件日志记录（约4K条记录），连同所有正常日志记录一起作为训练集（YL），并将剩下的20%的垃圾邮件日志记录用于评估。我们使用五折交叉验证来分割垃圾邮件记录并检查检测模型的性能。对于可疑的日志记录，我们提取了不超过10条记录的项目，并删除了它们的记录，因为我们认为数据集中相关日志记录的数量较少意味着这些项目不太可能是垃圾项目。即使它们是垃圾项目，由于垃圾活动的数量较少，它们对在线购物网站的危害也是可以忽略的。通过这种方式，我们删除了2,495,066条日志记录。因此，我们的测试集（YU）由剩下的1,615,630条可疑记录和20%的垃圾记录组成。06.2 基准方法0由于我们是第一个研究在线购物中垃圾邮件A2F活动的人，因此缺乏对这个问题的有效检测模型。因此，我们将我们提出的模型（AFGM）与许多领域中广泛使用的三种分类方法进行比较。同时，为了研究我们提出的特征，我们还添加了一些简化的模型作为基准方法。详细信息如下：0•支持向量机：给定所有行为属性特征、用户属性特征和商品属性特征，我们可以用属性向量表示每个日志记录，并基于训练集训练一个支持向量机（SVM）分类模型。通过学习的模型，我们可以得到测试集中每个日志记录的垃圾邮件概率。0•逻辑回归分类器：类似地，我们使用所有属性特征训练逻辑回归（LR）模型。然后，我们使用训练好的LR分类器推断测试集中每个日志记录的垃圾邮件概率。•随机森林分类器：我们还使用所有属性特征训练了一个随机森林分类器（RF）。我们使用学习到的RF模型推断未标记的记录，并与我们的方法进行性能比较。•二分图：我们采用标签传播算法[15]的思想，基于前面提到的两个假设构建了一个“用户-商品”二分图。在二分图中，用户和其收藏的商品之间有一条无权边，即每条边表示一个A2F活动。第4.3节提到的垃圾商品被用作标记的种子来驱动算法。通过图中用户和商品的垃圾邮件概率来计算每个日志记录的垃圾邮件概率。• AFGM -UP：与AFGM相比，它删除了用户属性因子和商品属性因子，只使用从单个日志记录及其相关性中提取的特征。我们构建这个模型来说明用户和商品属性的必要性。• AFGM -Cu：它使用了提出的活动因子图模型，但没有集成基于用户的活动之间的相关性。通过这种方法，我们想分析用户之间的相关性是否对我们的模型有用。• AFGM -Cp：类似地，为了显示基于商品的相关性是否对我们的模型有用，与AFGM相比，这种方法不使用基于商品的相关性。06.3评估指标由于测试集的手动注释难度，我们使用两个指标来评估我们的检测模型AFGM，并将AFGM与基线方法进行比较。如第6.1节所述，测试集（YU）包含20%的真实数据。考虑到一个有区分性的检测模型应该能够识别垃圾记录，我们关注这些真实数据的垃圾概率。首先，我们根据检测模型给出的垃圾概率对测试集中的所有活动日志记录进行排序。然后，我们计算在前1%的召回率，即0召回率 @ 前1% = 前1%记录中的垃圾记录数量0垃圾记录数量（12）我们不使用精确率，因为测试集中可疑的日志记录具有很高的垃圾概率。我们的目标是检测这些记录中的垃圾A2F活动。因此，在计算精确率时，将这些记录视为非垃圾记录是不合理的。同时，我们还使用AUC指标来查看检测模型是否能给这些垃圾日志记录更高的垃圾概率。0Track: Web Search and Mining WWW 2018, 2018年4月23日至27日，法国里昂Table 7: Comparisons between our methods and baselinesLR0.0780.689SVM0.1210.682RF0.1660.706BG0.2470.699AFGM − UP0.5800.899AFGM − Cu0.4480.877AFGM − Cp0.3340.757AFGM0.6170.903these widely-used methods are not appropriate for this problem.BG model achieves a better performance on Recall@Top 1% (0.247),which indicates correlations are more important than attributes inthis detection task.It can be easily found that all our models perform better than 4baselines, and AFGM achieves the best performance on both Re-call@Top 1% (0.617) and AUC (0.903). By comparing AFGM − Cuand AFGM − Cp with AFGM, we fnd that removing user-basedor item-based correlations will decrease the performance

下载后可阅读完整内容，剩余1页未读，立即下载