662动态异构网络中的实体解析卡耐 基梅隆 大学shubhras@andrew.cmu.edu简介DeepakPaiAdobeIncdpai@adobe.comSriramRavindranAdobeIncsravindr@adobe.com摘要随着时间的推移,网络不仅随着链路和节点的增加和删除而不断演化,而且还随着边的重要性的变化而不断演化尽管许多网络包含这种类型的时间权重,但网络表示学习和分类的绝大多数研究都集中在图的静态快照上,而在很大程度上忽略了时间动态。在这项工作中,我们描述了两种方法,将加权的时间信息到网络嵌入方法,如图卷积网络(GCN)。第一种方法是对时间加权的边和节点进行聚合,而第二种方法是使用时间随机游走来找到相关的卷积节点。通过在公共数据集和专有数据集上的实验,我们证明了所提出的T I meS A ge的有效性。通过应用这些预测,我们在识别大型电子商务网站上以订阅方式销售软件的欺诈行为者的任务中显示了改进。关键词图表示,实体分解,神经网络ACM参考格式:Shubhranshu Shekhar,Deepak Pai和Sriram Ravindran。2020. 动态异构网络中的实体解析。在2020年网络会议(WWW '20 Companion)的配套程序中,2020年4月20日至24日,台北,台湾。ACM,美国纽约州纽约市,7页。https://doi.org/10.1145/3366424的网站。33912641引言在过去的二十年里,网络(图形/关系)数据以惊人的速度增长。从互联网和万维网[2,4,14]、科学引文和汇编[28,31]、流行病学[23,27,29,33]、通信和信息技术[2,2,2,33]等领域开始,[37],代谢[19,40],生态系统[6,11],生物信息学[18,26],欺诈和恐怖分子分析[24,30],等等。 这些网络数据中的链接可以表示引用、友谊、关联、代谢功能、通信、协同定位、共享机制或许多其他显式或隐式关系。这些真实世界的网络中的绝大多数是自然动态的和随时间演化的,不仅具有节点和链接的添加和删除,而且具有边的重要性众所周知,网络中的时间在Ado b e公司实习时的工作。本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2020 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-7024-0/20/04。https://doi.org/10.1145/3366424.3391264预测和理解网络数据[31,41]。尽管这些动态的重要性,以前的大多数工作都忽略了网络数据中的时间信息[1,7,8,16,34,35,39]。我们通过两个用例来激励我们的工作,其中图的时间演化性质至关重要。图中的链接预测是一个研究得很好的问题[25]。通常,这用于推荐社交网络中的朋友、电子商务中的电影或产品等消费品、引用网络中的合作者等。链接预测的一种风格是实体解析。基于诸如IP地址、设备ID和其他使用模式的节点,人们希望概率性地确定两个实体是相同还是不同。 该方法可以用于跨他的不同设备(诸如膝上型计算机和蜂窝电话)或者他的家庭或工作网络中的相同设备等来识别相同的用户。这在用户尚未登录并且因此不能被确定性地标识的场景中特别有用这样的分辨率可以帮助营销人员在不同的环境中创建用户的完整360度视图,并更好地个性化他的体验。请注意,在这样的网络中,边的强度作为一个简单的例子,两个设备很可能是同一个用户,如果它们共享相同的IP并显示类似的属性,例如在几分钟或一小时的短时间内访问类似的网页但是,两台设备不太可能是同一个用户,即使它们共享相同的IP,并且在一个大的时间跨度(例如一个月)内表现出我们的第二个时间演化网络用例是在网络欺诈的背景随着电子商务的普及,网上欺诈者和欺诈活动也有所增加 这些行为者沉迷于各种活动,如测试卡、接管账户和滥用审判等。识别这种欺诈行为是至关重要的一个顺利的商业运作的商人。虽然商家有兴趣减轻这些欺诈者的风险,但他们也担心在结账流程中增加任何摩擦,例如登录,验证码,电子邮件验证等。欺诈者已经开发了先进的能力来克服这些简单的障碍。信用卡测试是在电子商务环境中观察到的一种欺诈行为。 在这个骗局中,欺诈者获得了大量被盗信用卡。然后,他试图通过进行小额交易来找到这些卡中的哪些是活跃的,而不会提醒银行或实际的持卡人。然后,活动卡被用来在销售点终端进行更大规模的购买,或者在灰色市场上以更高的价值出售。今天,如果没有欺诈检测,很大一部分交易都会被银行拒绝,导致商家以交易费用的形式遭受巨大损失。此外,银行经常因发送大量或部分欺诈交易而降低商家的评级。这种降级可能导致来自商家的甚至真实的交易被拒绝。例如,来自用户的真实交易、来自新的地理位置的真实交易。663→−()下一页N()∈∈ ∀∈()X∈.uv∈∈v.uvuuWWW银行可以根据商人和他的评级来标记位置,也可以不因此,降级可能导致商家失去真正的业务。最后,通过银行的欺诈性交易,当实际持卡人对它们提出异议时,会以拒付的形式回来总的来说,卡片测试对大中型公司的收入影响高达数十亿美元即使在这些网络中,时间演化的边权重也为链路预测、实体解析和欺诈检测提供了重要的预测能力例如,与在长时间跨度内出现的两个不同的电子邮件和支付工具相比,在短时间跨度内源自相同IP的两个不同的电子邮件和支付工具可能是相同的欺诈用户由于IP地址、电话号码、地址通常会被回收和重复使用,因此及时权衡它们的关联至关重要。这项工作的目的是确定交易,可能是一个例子卡测试。直觉上,我们知道欺诈者会进行多笔交易来找出一张可用的卡,然而,使用不同的可识别实体,如电子邮件ID。在这项工作中,我们解决的问题,链接实体,如电子邮件ID,设备ID,IP地址等。这将使我们能够识别对应于同一用户的实体,进而识别欺诈者。我们在这项工作中的贡献是:– 图上的时间卷积:我们提出了一个通用框架,该框架通过利用时间依赖性的图卷积将该框架通过动态图学习时间相关的网络表示,而不是依赖于随时间变化的快照图。 据我们所知,我们是第一次尝试利用图卷积中的时间信息。– 归纳嵌入:与最先进的时间网络表示方法不同[20,32],我们的框架利用图卷积网络[17]来学习归纳网络表示法现实世界的网络,如我们电子商务公司的交易图,随着时间的推移不断发展。根据Nguyen et al. [32],我们将时间交互建模为定义如下的连续时间动态网络。在1上定义(在网络上定义)。连续时间动态网络G = V,E,R,τ是一个异构网络,其边到其对应边的映射为τ:ER+时间戳。2.2时间随机游走网络嵌入方法[16,34]采用随机游走策略来生成节点上下文的语料库。在[32]中引入的时间随机游走扩展了随机游走策略,以包含时间依赖性。在连续时间动态网络中,时间游走被定义为由具有非递减时间戳的边连接的节点序列,从而捕获图中实体交互的时间顺序第二节(节奏)。 从节点v1开始的时间行走图G =(V,E,λ,λ,τ)中的一个顶点序列v1,v2,. . . ,vk ∈E,其中1 ≤ i