通过结构因式分解机学习多视图多维数据

200 浏览量更新于2023-10-15 收藏 13.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15930通过结构因式分解机从多视图多维数据中学习0Chun-Ta Lu伊利诺伊大学芝加哥分校clu29@uic.edu0Lifang He �0康奈尔大学lifanghescut@gmail.com0Hao Ding 普渡大学haoding.tourist@gmail.com0Bokai Cao伊利诺伊大学芝加哥分校caobokai@uic.edu0Philip S. Yu伊利诺伊大学芝加哥分校清华大学 psyu@cs.uic.edu0摘要0实体之间的现实世界关系通常可以通过不同的视角/视图进行观察和确定。例如，用户对是否采用某个项目的决策依赖于多个方面，如决策的上下文信息，项目的属性，用户的个人资料以及其他用户给出的评论。不同的视图可能展示实体之间的多维交互并提供互补信息。在本文中，我们介绍了一种基于多张量的方法，可以在通用预测模型中保留多视图数据的潜在结构。具体而言，我们提出了结构因式分解机（SFMs），它学习多视图张量共享的公共潜在空间，并自动调整预测模型中每个视图的重要性。此外，SFMs的复杂度与参数数量呈线性关系，使其适用于大规模问题。在真实世界数据集上进行的大量实验证明，所提出的SFMs在预测准确性和计算成本方面优于几种最先进的方法。0CCS概念0• 计算方法学 → 机器学习；因式分解方法；• 信息系统 →数据挖掘；0关键词0张量分解；多维交互；多视图学习0ACM参考格式：Chun-Ta Lu，Lifang He，Hao Ding，Bokai Cao和Philip S.Yu。2018。通过结构因式分解机从多视图多维数据中学习。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂，Jennifer B.Sartor，Theo D’Hondt和Wolfgang DeMeuter（Eds.）。ACM，纽约，纽约，美国，第4篇，10页。https://doi.org/10.1145/3178876.318607101 引言0随着能够访问来自多个来源的大量异构数据的能力，多视图数据已经变得普遍存在。0� 对应作者。0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在其个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04..https://doi.org/10.1145/3178876.31860710许多现实世界的应用。例如，在推荐系统中，在线评论网站（如亚马逊和Yelp）可以访问用户的购物历史的上下文信息，用户撰写的评论，物品的分类，以及用户的朋友。每个视图可能展示实体之间的成对交互（例如用户之间的友谊）甚至更高阶的交互（例如顾客为产品撰写评论），并且可以用多维数据结构，即张量来表示。由于不同的视图通常提供互补信息[4, 6,28]，如何有效地整合来自多个结构视图的信息对于各种机器学习任务的良好预测性能至关重要。通常，预测模型被定义为预测变量（例如顾客ID，产品ID和产品的类别）到某个目标（例如评分）的函数。在多视图多维数据的预测建模中，最常见的方法是使用从结构视图中展平和连接的特征向量来描述样本，并应用经典的基于向量的方法，例如线性回归（LR）和支持向量机（SVM），从观察到的样本中学习目标函数。最近的研究表明，线性模型在非常稀疏的数据任务中失败[34]。已经提出了各种方法来通过核函数对单项式（或特征交互）进行因式分解，例如在FMs中使用的ANOVA核[2,34]和在多项式网络中使用的多项式核[3,27]。然而，这种方法的缺点是（1）每个视图的重要结构信息将被丢弃，这可能导致预测性能下降，以及（2）特征向量可能会变得非常大，这可能会使学习和预测变得非常缓慢甚至不可行，特别是如果每个视图涉及高基数的关系。例如，将“用户的朋友”关系包含在特征向量中（由其ID表示）可能会导致非常长的特征向量。此外，它将在涉及给定用户的许多样本中重复出现。矩阵/张量分解模型一直是多维数据分析领域的研究热点，例如社区检测[16]，协同过滤[23,36]，知识图完成[43]和神经影像分析[15]。假设多视图数据具有相同的低秩结构（至少在一个模式中），已经应用了联合矩阵分解（CMF）[38]和联合矩阵和张量分解（CMTF）[1]等耦合数据分析方法，这些方法可以同时对多个矩阵（或张量）进行因式分解。0论文的其余部分组织如下。第2节简要回顾了因子分解模型和多视图学习的相关工作。我们在第3节介绍了初步概念和问题定义。然后我们提出了学习多视图多路数据的框架，并开发了结构化因子分解机（SFMs），并在第4节中提供了一种高效的计算方法。实验结果和参数分析在第5节中报告。第6节总结了本文。15940应用于聚类和缺失数据恢复等领域。然而，它们只适用于分类变量。此外，由于现有的耦合因子分解模型是无监督的，无法自动学习在建模目标值时每个结构视图的重要性。此外，当将这些模型应用于具有丰富元信息（例如友谊）但目标值极为稀疏（例如评级）的数据时，很可能学习过程将被元信息主导，而无需手动调整一些超参数，例如目标函数中每个矩阵/张量的拟合误差的权重[38]，预测模型中不同类型的潜在因子的权重[24]或潜在因子对齐的正则化超参数[29]。在本文中，我们提出了一个通用灵活的框架，用于从多视图多路数据的复杂关系中学习预测结构。该框架中的每个实例的每个视图由一个张量表示，描述了实体子集的多路交互，并且不同的视图有一些实体是共享的。在现实世界的应用中，为每个实例构造张量可能是不现实的，因为涉及空间和计算复杂性，并且模型参数可能会呈指数增长并倾向于过拟合。为了在不实际构造张量的情况下保留多视图数据的结构信息，我们引入了结构化因子分解机（SFMs），可以在多视图张量中学习共享的潜在特征空间中的一致表示，并自动调整预测模型中每个视图的贡献。此外，我们提供了一种高效的方法，以避免由于数据的关系结构而产生的重复模式的冗余计算，从而使SFMs能够进行相同的预测，但计算速度大大加快。本文的贡献总结如下：0•我们引入了一种新颖的多张量框架，用于在异构领域中挖掘数据，可以在通用预测模型中探索多视图多路数据的高阶相关性。•我们开发了适用于学习在多视图张量中共享的公共潜在空间并自动调整预测模型中每个视图重要性的结构化因子分解机（SFMs）。SFMs的复杂度与特征数量呈线性关系，使其适用于大规模问题。•通过与现有最先进的因子分解模型进行比较，对八个真实数据集进行了大量实验，以证明其优势。0本文的其余部分安排如下。第2节简要回顾了因子分解模型和多视图学习的相关工作。我们在第3节介绍了初步概念和问题定义。然后我们提出了学习多视图多路数据的框架，并开发了结构化因子分解机（SFMs），并在第4节中提供了一种高效的计算方法。实验结果和参数分析在第5节中报告。第6节总结了本文。02相关工作0特征交互。Rendle在因子分解机（FM）[34]中首创了特征交互的概念。Juan等人提出了领域感知因子分解机（FFM）[20]，允许每个特征根据其领域与另一个特征以不同方式进行交互。Novikov等人提出了指数机（ExM）[32]，其中权重张量以称为张量列车的分解格式表示。Zhang等人使用FM来初始化深度模型中的嵌入层[44]。Qu等人在嵌入层的顶部添加了一个乘积层，以增加模型容量[33]。将FM扩展到深度架构的其他方法包括神经因子分解机（NFM）[17]和注意力因子分解机（AFM）[40]。为了有效地建模特征交互，工业界还开发了各种模型。微软研究了深度模型中的特征交互，包括深度语义相似性模型（DSSM）[19]，深度交叉（DeepCrossing）[37]和深度嵌入森林（Deep EmbeddingForest）[47]。他们尽可能使用原始特征，而不是手工制作的组合特征，并让深度神经网络处理其余部分。阿里巴巴提出了深度兴趣网络（DIN）[46]，以学习用户嵌入作为广告嵌入的函数。谷歌使用深度神经网络从异构信号中学习YouTube推荐[9]。此外，谷歌Play的应用推荐系统开发了广泛和深度模型[7]，其中广泛组件包括擅长记忆的交叉特征，深度组件包括用于泛化的嵌入层。Guo等人提出在广泛组件中使用FM，并在深度组件中共享嵌入[11]。Wang等人开发了深度和交叉网络（DCN），以学习有界度的显式交叉特征[39]。多视图学习。多视图学习（MVL）涉及通过考虑多个视图来预测未知值。传统的MVL是指使用关系特征构建一组不相交的视图，然后使用这些不相关的视图来建模目标函数以近似要学习的目标概念[12]。目前有大量关于MVL的研究可用。有兴趣的读者可以参考[41]对这些技术和应用的综述。与我们的工作最相关的是[5, 6,25]，它们引入并探索了张量积算子将不同视图整合到一个张量中。Lu等人进一步研究了多任务学习背景下的多视图特征交互[28]。然而，这种方法会引入来自不相关特征交互的意外噪声，甚至在组合后可能被夸大，从而降低实验中的性能。与传统的MVL方法不同，所提出的算法可以学习在多视图张量中共享的公共潜在空间，并自动调整预测模型中每个视图的重要性。03预备知识0在本节中，我们首先简要介绍张量代数中的一些相关概念和符号，然后继续制定我们关注的多视图学习问题。0跟踪：Web搜索和挖掘WWW 2018年4月23日至27日，法国里昂111X =x(1)r◦ x(2)r◦ · · · ◦ x(M)r= X(1), X(2), · · · , X(M) ,(4)Track: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15950模式10模式20模式30一阶交互0二阶交互0三阶交互0视图10视图偏差0视图2模式40˜X（2）0˜X（1）0˜x（1）=[1，x（1）]0˜x（2）=[1，x（2）]0˜x（3）=[1，x（3）]0˜x（4）=[1，x（4）]0图1：多个结构视图的示例，其中˜X（1）=˜x（1）◦˜x（2）◦˜x（3）和˜X（2）=˜x（3）◦˜x（4）。03.1张量基础和符号0张量是多维数组的数学表示。张量的阶是模式（或方式）的数量。零阶张量是标量，一阶张量是向量，二阶张量是矩阵，三阶或更高阶的张量称为高阶张量。向量x，矩阵X或张量X的元素分别用xi，xij，xijk等表示，具体取决于模式的数量。除非另有说明，所有向量都是列向量。对于任意矩阵X∈RI×J，其第i行和第j列向量分别用xi和xj表示。给定两个矩阵X，Y∈RI×J，X�Y表示X和Y之间的逐元素（Hadamard）乘积，定义为RI×J中的矩阵。本文中使用的基本符号概述可以在表1中找到。0定义3.1（内积）。两个相同大小的张量X，Y∈RI1×I2×∙∙∙×IM的内积定义为它们的元素乘积之和：0�X，Y�=0I1�0i1=10I2�0i2=1∙∙∙0iM=1xi1，i2，...，iMyi1，i2，...，iM。（1）0定义3.2（外积）。两个张量X∈RI1×I2×∙∙∙×IN和Y∈RI′1×I′2×∙∙∙×I′M的外积是一个（N+M）阶张量，记为X◦Y，其元素由以下定义：0（X◦Y）i1，i2，...，iN，i′1，i′2，...，i′M=xi1，i2，∙∙∙，iNyi′1，0对于所有索引的值。0注意，对于秩为一的张量X=x（1）◦x（2）◦∙∙∙◦x（M）和Y=y（1）◦y（2）◦∙∙∙◦y（M），有0�X，Y�=�x（1），y（1）��x（2），y（2）�∙∙∙�x（M），y（。（3）0定义3.3（CP分解[22]）。给定张量X∈RI1×I2×∙∙∙×IM和整数R，CP分解由因子矩阵定义0表1：基本符号列表。0符号定义和描述0x每个小写字母表示一个标量x每个粗体小写字母表示一个向量X每个粗体大写字母表示一个矩阵X每个花体字母表示一个张量X每个哥特字母表示一个一般的集合或空间[1：N]表示1到N的整数集合�∙，∙�表示内积◦表示张量积（外积）�表示Hadamard（逐元素）积0X（m）∈RIm×R for m∈[1:M]，分别为0R�0其中 x ( m ) r ∈ R I m 是因子矩阵 X ( m ) 的第 r 列，� ∙ �用于简写表示秩一张量的和。03.2 问题建模0我们的问题与传统的多视图学习方法不同，传统方法假设多个视图的数据是独立且不重叠的，并且每个视图由一个向量描述。我们使用多个张量的耦合分析形式来建模多视图学习问题。假设问题包括 V个视图，每个视图由实体的子集集合组成（例如人、公司、位置、产品），不同的视图之间有一些实体是共同的。我们将一个视图表示为一个元组 ( x ( 1 ) , x ( 2 ) , ∙ ∙ ∙ , x ( M ) ) ，其中 M ≥ 2， x ( m )∈ R I m 是与实体 m 相关联的特征向量。受 [ 6 ]的启发，我们为每个视图构建张量表示。=+Track: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15960通过以下方式对其实体进行张量表示：0˜ X = ˜ x ( 1 ) ◦ ˜ x ( 2 ) ◦ ∙ ∙ ∙ ◦ ˜ x ( M ) ∈ R (0其中 ˜ x ( m ) = [1; x ( m ) ] ∈ R 1 + I m ， ◦是外积操作符。通过这种方式，实体之间的全阶交互被嵌入到张量结构中，这不仅为每个视图提供了统一且紧凑的表示，还有助于有效的设计方法。图 1展示了两个结构视图的示例，其中第一个视图包含了前三个模式（例如评论文本、物品 ID 和用户ID）之间的全阶交互，第二个视图包含了最后两个模式（例如用户ID 和好友ID）之间的全阶交互。在为每个视图生成张量表示后，我们定义多视图学习问题如下。给定一个训练集 D = � � � ˜ X ( 1 ) n , ˜ X ( 2 ) n , ∙ ∙∙ , ˜ X ( V ) n � , y n � | n ∈ [1 : N ] � ，其中 ˜ X ( v ) n ∈ R ( 1 +I 1 ) ×∙∙∙× ( 1 + I Mv ) 是第 v 个视图中第 n 个实例的张量表示， yn 是第 n 个实例的响应变量， M v 是第 v个视图中构成模式的数量， N是标记实例的数量。我们假设不同的视图具有共同的实体，因此生成的张量将共享公共模式，例如图 1中的第三个模式。由于我们关注预测多个耦合张量的未知值，我们的目标是利用所有视图中的关系信息来帮助预测未标记的实例，并利用不同视图之间的互补信息来提高性能。具体而言，我们希望找到一个预测函数 f : X ( 1 ) × X ( 2 ) ∙ ∙ ∙ × X ( V ) → Y，使得期望损失最小化，其中 X ( v ) ， v ∈ [1 : V ] 是第 v个视图中的输入空间， Y 是输出空间。04 方法论0在本节中，我们首先讨论如何设计用于学习多个耦合张量的预测模型。然后，我们推导出可以学习多视图耦合张量中共享的公共潜空间并自动调整每个视图在预测模型中的重要性的结构化因子机（SFMs）。04.1 预测模型0不失一般性，我们以两个视图为例介绍预测模型的基本设计。具体而言，我们考虑一个具有共同模式的三阶张量和一个矩阵的耦合分析，如图 1 所示。给定一个输入实例 � � ˜ X ( 1 ) , ˜ X ( 2 ) � , y � ，其中 ˜X ( 1 ) = ˜ x ( 1 ) ◦ ˜ x ( 2 ) ◦ ˜ x ( 3 ) ∈0R ( 1 + I ) × ( 1 + J ) × ( 1 + K ) 和 ˜ X ( 2 ) = ˜ x ( 3 ) ◦ ˜ x ( 4 ) ∈ R( 1 + K ) × ( 1 + L ) 。一种直观的解决方案是构建以下多重线性模型：0f � � ˜ X ( 1 ) , ˜ X ( 2 ) � � = � ˜ W ( 1 ) , ˜ X ( 1 ) � + � ˜ W ( ˜ X ( 2 ) � （5）0其中 ˜ W ( 1 ) ∈ R ( 1 + I ) × ( 1 + J ) × ( 1 + K )，˜ W ( 2 ) ∈ R (1 + K ) × ( 1 + L )是要学习的每个视图的权重。然而，在这种情况下，它没有考虑两个视图之间的关系和差异。为了融合两个视图之间的关系，并区分它们的重要性01全阶交互从一阶交互（即单个实体特征的贡献）到最高阶交互（即所有实体的特征的外积的贡献）。0对于每个视图，我们引入一个指示向量 ev ∈ R V，其中 v表示视图编号，如0ev = [0, ∙ ∙ ∙ , 0, 1,0, ∙ ∙ ∙ , 0] T0， 1 , 0 , ∙ ∙ ∙ ,0] T ，0并将公式（5）中的预测模型转化为0f � � ˜ X ( 1 ) , ˜ X ( 2 ) � � = � ˆ W ( 1 ) , ˜ X ( 1 ) ◦ e 1 � + � ˆ W ( 2 ) , ˜X ( 2 ) ◦ e 2 � ，（6）0其中 ˆ W ( 1 ) ∈ R ( 1 + I ) × ( 1 + J ) × ( 1 + K ) × 2，ˆ W ( 2 ) ∈R ( 1 + K ) × ( 1 + L ) × 2。直接学习权重张量ˆ W s存在两个缺点。首先，权重参数独立地学习于不同的模态和不同的视图。当特征交互很少（甚至从未）出现在训练中时，很难适当地学习相关参数。其次，公式（6）中的参数数量与特征数量呈指数关系，这可能使模型容易过拟合，并且在稀疏数据上效果不佳。在这里，我们假设每个权重张量都有一个低秩近似，ˆ W ( 1 ) 和 ˆ W ( 2 )可以通过CP分解表示为0ˆ W ( 1 ) = � ˆ Θ ( 1 , 1 ) , ˆ Θ ( 1 ,2 ) , ˆ 0= � [b ( 1 , 1 ) ; Θ ( 1 ) ] , [b ( 1 , 2 ) ; Θ ( 2 ) ] ,[b ( 1 , 3 ) ; Θ ( 3 ) ] , Φ �，0和0ˆ W ( 2 ) = � ˆ Θ ( 2 , 3 ) , ˆ Θ ( 2 , 4 ) , Φ � = � [b ( 2 , 3 ) ; Θ (3 ) ] , [b ( 2 , 4 ) ; Θ ( 4 ) ] , Φ �，0其中 Θ ( m ) ∈ R I m × R 是第 m个模态中特征的因子矩阵。值得注意的是，Θ ( 3 )在两个视图中是共享的。Φ ∈ R 2 × R 是视图指示器的因子矩阵，b( v , m ) ∈ R 1 × R，它总是与 ˜ x ( m ) = [1; x ( m ) ]中的常数项关联，表示第 m 个模态在第 v个视图中的偏置因子。通过 b ( v , m )，可以在预测函数中探索第 v个视图中的低阶交互作用（即排除来自第 m个模态的特征的交互作用）。然后我们可以将公式（6）转化为0� ˆ W ( 1 ) , ˜ X ( 1 ) ◦ e 1 � + � ˆ W ( 2 ) ,˜ X ( 2 ) ◦ e 2 �0R �0r = 10� ˆ θ ( 1 , 1 ) r ◦ ˆ θ ( 1 , 2 ) r ◦ ˆ θ ( 1 , 3 ) r ◦ ϕ r , ˜ x( 1 ) ◦ ˜ x ( 2 ) ◦ ˜ x ( 3 ) ◦ e 1 �0R �0r = 10� ˆ θ ( 2 , 3 ) r ◦ ˆ θ ( 2 , 4 ) r ◦ ϕ r , ˜ x( 3 ) ◦ ˜ x ( 4 ) ◦ e 2 �0= ϕ 1� �0m = 1 � � ˜ x ( m ) T ( 1 , m ) � � �0T0+ ϕ 2� �0m = 3 � � ˜ x ( m ) T Θ( 2 , m ) � � �0T0= ϕ 1� �0m = 1 � � x ( m ) T Θ ( m ) ( 1 , m ) � � �0T0+ ϕ 2� �0m = 3 � � x ( m ) T Θ ( m ) ( 2 , m ) � � �0T0(7) 其中 � 是Hadamard（逐元素）乘积，ϕ v ∈ R 1 × R0是因子矩阵Φ的第v行。为了方便起见，我们令h ( m ) = Θ ( m ) T x( m )，SM ( v )表示第v个视图中的模态集合，π ( v ) = �0和 π ( v , − m 0m ′ ∈ S M ( v ) , m ′ � m � � h ( m ′ ) + b ( v , m ′ ) T� 。预测x(1)x(2)x(3)x(4)h(1)b(1,1)*h(2)b(1,2)h(3)b(1,3)b(2,3)h(4)b(2,4)*π(1)π(2)φ1φ2f( ˜X (1))f( ˜X (2))f( ˜X (1), ˜X (2))11e1e2Θ(1)Θ(2)Θ(3)Θ(4)ΦΦ11111f ({ ˜X(v)}) =V�v=1� ˆW(v), ˜X(v) ◦ ev�=V�v=1ϕv�m∈SM (v)∗�x(m)TΘ(m) + b(v,m)�T=V�v=1ϕv�m∈SM (v)∗�h(m) + b(v,m)T�(8)R = 1NN�n=1ℓ�f ({X(v)n}),yn�+ λΩ(Φ, {Θ(m)}, {b(v,m)})(9)∂R∂Θ(m) = ∂L∂f∂f∂Θ(m) + λ ∂Ωλ(Θ(m))∂Θ(m)(10)Π= π1,, πN∂L∂f∂f∂Θ(m) = X(m) ��v ∈SV (m)�� ∂L∂f ϕv�∗ Π(v,−m)��(11)Similarly, the partial derivative of R w.r.t. b(v,m) is given by∂R∂b(v,m) = ∂L∂f∂f∂b(v,m) + λ ∂Ωλ(b(v,m))∂b(v,m)= 1T�� ∂L∂f ϕv�∗ Π(v,−m)�+ λ ∂Ωλ(b(v,m))∂b(v,m)(12)The partial derivative of R w.r.t. Φ is given by∂R∂Φ =� �∂L∂f�TΠ(1) ; · · · ;�∂L∂f�TΠ(V )�+ λ ∂Ωλ(Φ)∂Φ(13)Finally, the gradient of R can be formed by vectorizing the partialderivatives with respect to each factor matrix and concatenatingTrack: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15970图2：在结构化因子分解机中的计算图示例，给定输入 ˜ X ( 1 ) 和 ˜ X ( 2 ) 。通过联合分解权重张量，h ( m )可以被视为第 m 个模式中特征 x (m ) 的潜在表示，π ( v )可以被视为第 v 个视图中所有模式的联合表示，可以通过Hadamard乘积轻松计算。 π ( v )对最终预测得分的贡献由权重向量 ϕ v 自动调整。0给出一般情况下的模型如下0图2展示了所提出模型的图形示例。我们将该模型命名为结构化因子分解机（SFMs）。显然，参数是联合分解的，这有利于在稀疏性下进行参数估计，因为当交互共享相同特征时存在依赖关系。因此，模型参数可以在没有直接观测到这种交互的情况下有效地学习，尤其是在高度稀疏的数据中。更重要的是，在分解权重张量ˆWs之后，无需物理构建输入张量。此外，模型复杂度与原始特征的数量成线性关系。特别地，模型复杂度为 O ( R ( V + I + � v M v ))，其中 M v 是第 v 个视图中的模式数。04.2 学习结构化因子分解机0根据传统的监督学习框架，我们提出通过最小化以下正则化经验风险来学习模型参数：0其中 ℓ 是预设的损失函数， Ω 是编码 { Θ ( m ) } 和 Φ先验知识的正则化器， λ ≥ 0 是正则化参数0控制经验损失和先验知识之间权衡的参数。关于 Θ ( m )的偏导数由以下给出0∂ f � T ∈ R N 。为了方便起见，我们将 S V ( m ) 表示包含第 m 个模式的视图集合， X ( m) = [ x ( m ) 1 , ∙ ∙ ∙ , x ( m ) N ]， Π ( v ) = [ π ( v ) 1 , ∙ ∙ ∙ , π ( v ) N ] T0.3.500.300.510.3110.3.300.3.10010.5100.50010001101.30.20.30.3000.40.51.6001.20.60000.2.31.5.3.200000.3.3323312321122412131111231ψB(1)ψB(2)ψB(3)ψB(4)01000 1001010 000011XXB(1)XB(2)XB(3)XB(4)(a) Plain Format of Feature Matrix(b) Relational Structure RepresentationUserIDItemIDReview TextFriends0.30.10.2.3.4.2.6.300.3.50.50.5.500.3.3I3I(4)N3N4NNIN1N2I1I2Figure 3: (a) Feature vectors of the same entity repeatedly ap-pear in the plain formatted feature matrix X. (b) Repeatingpatterns in X can be formalized by the relational structure Bof each mode. For example, the forth column of the featurematrix X can be represented as x4 = [x(1)ψ (4); x(2)ψ (4); x(3)ψ (4); x(4)ψ (4)]= [xB(1)2; xB(2)1; xB(3)4; xB(4)2].them all, i.e.,∇R =vec( ∂R∂Θ(1) )...vec(∂R∂Θ(M) )vec(∂R∂b(1,1) )...vec(∂R∂b(V,M) )vec( ∂R∂Φ )(14)Once we have the function, R and gradient, ∇R, we can useany gradient-based optimization algorithm to compute the factormatrices. For the results presented in this paper, we use the Adap-tive Moment Estimation (Adam) optimization algorithm [21] forparameter updates. Adam is an adaptive version of gradient descentthat controls individual adaptive learning rates for different param-eters from estimates of first and second moments of the gradient.It combines the best properties of the AdaGrad [10], which workswell with sparse gradients, and RMSProp [18], which works well inon-line and non-stationary settings. Readers can refer to [21] fordetails of the Adam optimization algorithm.4.3Efficient Computing with RelationalStructuresIn relational domains, we can often observe that feature vectors ofthe same entity repeatedly appear in the plain formatted featurematrix X, where X = [X(1); · · · ; X(M)] ∈ RI×N and X(m) ∈ RIm×Nis the feature matrix in the m-th mode. Consider Fig. 3(a) as anexample, where the parts highlighted in yellow in the forth modeX1UserWordCategoryLinkX2ItemItem(a) AmazonCountryAuthor(c) BookCrossing15980X3场馆0用户0朋友0城市0X1X20X30类别X40用户0图4：每个数据集中结构视图的模式。0（表示用户的朋友）在前三列中反复出现。显然，这些重复模式源于相同实体的关系结构。接下来，我们将展示所提出的SFM方法如何利用每个模式的关系结构，使得学习和预测能够扩展到涉及高基数关系的关系数据生成的预测变量。我们采用[35]中的思想，避免在一组特征向量上重复计算重复模式。设B={（XB(m)，ψB(m)）}Mm=1为关系结构集合。0其中，XB(m)∈RIm×Nm表示第m个模式的关系矩阵，ψB(m)：{1,∙∙∙,N}→{1,∙∙∙,Nm}表示特征矩阵X中的列到XB(m)中的列的映射。为了简化表示，从映射ψB中省略了索引B。0只要清楚映射属于哪个块即可。通过使用映射，可以通过连接关系矩阵的相应列来重构X。例如，纯特征矩阵X中第n个案例的特征向量xn表示为xn=[x(1)ψ(n);∙∙∙;x(M)ψ(n)]。图3(b)展示了特征矩阵如何以关系结构表示的示例。设Nz(A)表示矩阵A中的非零数目。使用关系结构表示输入数据所需的空间为|B|=NM+�mNz(XB(m))，如果特征矩阵X中存在重复模式，则远小于Nz(X)。现在我们可以将Eq.(8)中的预测模型重写如下：0f({X(v)n}=0v=1ϕv0m∈SM(v)��hB(m)ψ(n)+b(v,m)T�，(15)0使用缓存HB(m)=[hB(m)1,∙∙∙,hB(m)Nm]为每个模式计算，其中0hB(m)j =Θ(m)TxB(m)j，�j∈[1:Nm]。这直接显示了如何高效地预测N个样本：(i)为每个模式计算HB(m)，时间复杂度为O(RNz(XB(m)))，(ii)使用O(RN(V+�vMv))中的缓存计算Eq.(15)进行N次预测。借助关系结构的帮助，SFMs可以学习相同的参数并进行相同的预测，但运行时间复杂度要低得多。05实验 5.1数据集0为了评估所提出的SFMs的能力和适用性，我们包括了来自不同领域的一系列大型数据集。每个数据集的统计数据总结在表2中，每个数据集中结构视图的模式在图4中呈现，详细信息如下：0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, France15990表2：每个数据集的统计数据。Nz(X)和Nz(B)分别是纯格式特征矩阵和关系结构中的非零数目。Game：视频游戏，Cloth：服装，鞋子和珠宝，Sport：运动和户外，Health：健康和个人护理，Home：家居和厨房，Elec：电子产品。0数据集 #样本模式密度 Nz(X) Nz(B)0亚马逊 #用户 #商品 #词语 #类别 #链接0游戏 231,780 24,303 10,672 7,500 193 17,974 0.089% 32.9M 15.2M 服装 278,677 39,387 23,033 3,493 1,175107,139 0.031% 25.6M 7.3M 运动 296,337 35,598 18,357 5,202 1,432 73,040 0.045% 34.2M 10.2M 健康346,355 38,609 18,534 5,889 849 80,379 0.048% 33.6M 12.1M 家居 551,682 66,569 28,237 6,455 97099,090 0.029% 46.8M 19.4M 电子 1,689,188 192,403 63,001 12,805 967 89,259 0.014% 161.5M 69M0#用户 #场所 #朋友 #类别 #城市0Yelp 1,319,870 88,009 40,520 88,009 892 412 0.037％ 70.5M 1.4M0#用户 #图书 #国家 #年龄 #作者0BX 244,848 24,325 45,074 57 8 17,178 0.022％ 1.2M 163K0亚马逊2：第一组数据集来自于[31]最近引入的亚马逊。这是目前可用的最大数据集之一，包括商品的评论文本和元数据。亚马逊.com上的每个顶级产品类别都被构建为[31]中的一个独立数据集。在本文中，我们选择了Tabel2中列出的各种大类别。这些数据集中的每个样本都有五个模式，即用户，商品，评论文本，类别和链接。用户模式和商品模式由独热编码表示。给定用户的商品的评论文本3的ℓ2-归一化TF-IDF向量表示用作文本模式。类别模式和链接模式包含所有类别和商品的所有共同购买商品，这些商品可能来自其他类别。最后两个模式进行了ℓ1-归一化。Yelp4：这是一个包含场所评论的大规模数据集。该数据集中的每个样本包含五个模式，即用户，场所，朋友，类别和城市。用户模式和场所模式由独热编码表示。朋友模式包含用户的朋友ID。类别模式和城市模式包含所有类别和场所的城市。最后三个模式进行了ℓ1-归一化。BookCrossing（BX）5：这是从Book-Crossing社区收集的书评数据集。该数据集中的每个样本包含五个模式，即用户，书籍，国家，年龄和作者。年龄按照[13]中的八个区间进行划分。国家模式和年龄模式包含用户的相应元信息。作者模式表示书籍的作者。所有模式都由独热编码表示。亚马逊和Yelp数据集中的样本值范围为[1:5]，BX数据集中的样本值范围为[1:10]。05.2比较方法0为了证明所提出的SFM的有效性，我们比较了一系列最先进的方法。02 http://jmcauley.ucsd.edu/data/amazon/ 3预处理包括词干提取，词形还原，去除停用词和出现频率少于100次的词等。 4https://www.yelp.com/dataset-challenge 5 http://www2.informatik.uni-freiburg.de/ �cziegler/BX/0矩阵分解（MF）用于验证元信息对于提高预测性能的帮助。我们在实验中使用LIBMF实现[8]进行比较。因子分解机（FM）[34]是推荐系统中的最新方法。我们将其与高阶扩展[2]进行比较，其中包括二阶和三阶特征交互，并将它们表示为FM-2和FM-3。多项式网络（PolyNet）[27]是一种最近提出的方法，它在所有特征上使用多项式核。我们将增强的PolyNet（在特征向量中添加一个常数1[3]）与二阶和三阶核进行比较，并将它们表示为PolyNet-2和PolyNet-3。多视图机器（MVM）[6

下载后可阅读完整内容，剩余1页未读，立即下载