极端多标签分类下的冷启动线程推荐方法

93 浏览量更新于2023-10-15 收藏 834KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

跟踪：极端多标签分类社交媒体WWW 2018，2018年4月23日至27日，法国里昂1911冷启动线程推荐作为极端多标签分类基沙洛伊·哈尔德新加坡国立大学计算机学院kishaloy@comp.nus.edu.sg拉哈里·波达尔新加坡国立大学计算机学院lahari@comp.nus.edu.sg阚敏彦新加坡国立大学计算机学院kanmy@comp.nus.edu.sg摘要在公共在线讨论论坛中，大的用户群和频繁的帖子可能对向用户推荐线索造成挑战。重要的是，基于协作过滤的传统推荐系统不能处理从未见过的项目（线程）。我们可以将此任务视为极端多标签分类（XMLC）的一种形式，其中对于新发布的线程，我们预测希望对其进行响应的用户（标签）集。由于可扩展性和稀疏性，从社区中的所有用户的集合中选择用户的子集提出了重大挑战。我们提出了一个神经网络架构来解决这个新的线程推荐任务。我们的架构使用堆叠的双向门控递归单元（GRU）的文本编码以及集群敏感的注意力，利用大标签空间之间的相关性。来自不同领域的四个数据集的实验评估表明，我们的模型优于国家的最先进的推荐系统，以及其他XMLC的方法，这项任务的MRR，召回，NDCG。关键词推荐制度;冷启动;极端多标记分类;神经网络;讨论论坛ACM参考格式：Kishaloy Halder、Lahari Poddar和Min-Yen Kan。2018.冷启动线程建议作为极端多标签分类。在 WWW '18 Companion： The 2018 Web ConferenceCompanion，2018年4月23日至27日，法国里昂。ACM ，New York ，NY ，USA，8页。https://doi.org/10.1145/3184558.31916591介绍网上论坛已成为一个重要的社交媒体平台，涉及多个领域，如健康1、教育2、技术问题解答3、电子商务、政府政策制定等。这些论坛中的讨论通常以帖子的形式出现。一个人通过发布一个问题或询问他人对某个主题的意见来开始一个线程。然后社区成员通过回复他们对主题的知识和意见来参与主题。1https://www.healthboards.com/boards/2https://www.coursera.org3https://www.stackoverflow.com本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191659这些论坛不断增长，因为新的线程是创造频繁。虽然这使用户能够向大型社区提出问题，但确保成员找到与他们兴趣相关的问题是获得答案的关键这是一个具有挑战性的匹配问题，因为线程数量巨大，社区中有大量的活跃成员。推荐系统可以通过向用户推荐相关兴趣和专业知识来帮助弥合这一差距。我们建立了一个系统，建议传入的线程相关的用户参与。推荐系统大多使用用户或项目的过去交互历史来解决匹配问题。即使这种策略可以对用户进行建模，但考虑到他们过去响应的线程，它在新线程上会失败它们没有相互作用的历史来促进预测--这是一种冷启动的形式。对于这样的线程，系统需要使用其文本内容以便找到潜在感兴趣的用户。我们从不同的角度来看待这个冷启动线程建议-作为XMLC已经被应用于文档可以在数千个可能的标签中具有多个标签的领域中的文本分类（例如，维基百科页面分类或电子商务中的产品分类）。最近，已经提出了用于该领域的深度学习方法，以更好地理解文本并有效地处理大型标签空间[18]。我们提出了一种新的神经网络架构，这个 rec-commmendation任务。受循环神经网络（RNN）在一系列自然语言处理任务上的成功启发，我们应用堆叠双向RNN对帖子的原始文本内容进行编码。我们将多标签预测任务视为多个单独的二进制分类，其中标签之间的相关性（即，用户）被模型利用我们假设，用户可以细分为集群在一个潜在的空间，这取决于他们的利益。属于同一集群的用户可能具有相似的偏好，反之亦然。在文献中，我们在推荐系统的不同背景下发现了类似的观察结果[32]。受此启发，我们引入了一个新的，集群敏感的注意（CSA）机制。它允许使用特定于集群的注意力权重对不同的集群进行不同的编码。这使得网络可以专注于文本中对集群用户集可能更重要的部分，同时预测他们的参与兴趣。由于用户之间偏好的相似性，以及学习每个集群的文本编码（而不是每个单独的用户），有助于我们通过减少参数空间来解决极端多标签任务的可扩展性。此外，它还有助于缓解稀疏性问题，因为每个用户的有限数量的证据可能容易导致这种复杂模型架构中的过拟合。跟踪：极端多标签分类社交媒体WWW 2018，2018年4月23日至27日，法国里昂1912∈∈我（）下一页联系我们{}{···}∈{··· }user.否则，请执行以下操作。从我们在多个数据集的结果，我们发现，我们的基于CSA的XMLC模型优于标准的基于内容的推荐算法，以及国家的最先进的XMLC模型显着。据我们所知，这是从极端多标签分类的角度解决冷启动推荐问题的第一次尝试总之，我们的贡献如下：我们制定了著名的冷启动推荐问题作为一个极端的多标签分类任务。我们提出了一个神经架构，使用一种新的集群敏感的注意力机制，以迎合用户的不同兴趣。我们通过一组精心设计的实验，在多个数据集上显示了我们的方法的有效性和泛化能力此外，我们验证了我们的问题，lem制定我们的模型与传统的推荐算法进行比较。2背景我们首先描述了在推荐系统中常见的冷启动问题，然后描述了极端多标签分类的方法。然后，我们通过在正式的问题陈述中连接这两个部分来结束本节。2.1冷启动建议问题推荐方案中的两个主要元素是用户和项目。用户-项目交互形成二分图（图1a），其中从用户到项目的有向边表示用户已经以某种方式与项目交互（例如，“喜欢”、“评论”、“转发”等）。相应的交互作用矩阵如图1b所示。在广泛使用的潜在因素模型中，用户和项目在低维（D）空间中表示-用户由潜在向量u_i_R_D表示，并且项目由v_i_R_D表示。预测rij由这两个向量的内积形成rij=uTvj在基于非负矩阵分解（NMF）的方法中，潜向量被随机地初始化，并且可以使用根据ui和vj的正则化平方误差损失来学习，其中i∈ u j。(a)交互图。（b）互动矩阵。图1：冷启动问题的图示（a）边缘表示用户交互。项目4没有相互作用。(b)交互作用矩阵：“1”⇒交互，“0”⇒无交互。多标签分类与传统的二进制或多类分类任务之间的区别在于：在多类分类中，可能的标签中只有一个应用于项目，而在多标签分类中，标签可以彼此相关或具有包含关系，并且多个标签可以应用于项目（例如，“政治”和“白宫”用于新闻文章，“电子”，“三星”和“智能手机”用于产品，“埃菲尔铁塔”和“2017年假期”用于图像）。在该设置中，实例可以被认为是一对x，y，其中x是项目的特征向量，并且y是标签向量，即，y0， 1L，L是标签的数量给定n个这样的训练实例，训练分类器，其可以预测未见过的测试项的标签向量。由于标签空间L可能非常大，因此其遭受可扩展性和稀疏性问题。适当地利用标签之间的相关性可以帮助减轻它们。问题陈述：我们从XMLC任务的角度来处理冷启动线程推荐问题，其中给定一个新线程，仅使用其文本特征，我们尝试预测感兴趣的用户集我们将问题陈述形式化为，给定一段文本t T，找到一个映射f：T0， 1U，其中T是所有项的集合f会给我们一个概率得分为每个U标签给定t，f（t）= P（ri =1 |t）1，，U和j1，，V;U和V是用户数和项。让其中i∈ {1，···，U}，并且ri是对应于第i个的标签。介绍在交互矩阵中，由于项目“4”的列由于对于j=4没有rij的真实值可用，因此模型将不能学习v j =4的正确表示，从而引起冷启动问题。这是基于NMF的推荐器系统在论坛环境中的显著限制，在论坛环境中，相当频繁地发布新的线程，需要用户参与。2.2极端多标签分类极端多标签分类（XMLC）是指从一个非常大的类标签集合中为每个项目分配其最相关的标签子集的任务。的根本区别3该方法我们提出了一种神经网络架构（图2），用于从论坛社区中的极大用户集合中预测对新线程感由于一个新创建的线程只有一个post，我们可以互换使用术语thread和post3.1文本编码该网络将由单词序列（w1，w2，. . . ，wn）。我们首先将每个单词嵌入到一个低维空间中一个帖子现在被表示为一个词向量···跟踪：极端多标签分类社交媒体WWW 2018，2018年4月23日至27日，法国里昂1913联系我们{···}∈{···}∈联系我们12niii−1图2：整体模型架构。其中q是Rd。我们使用预先训练的GloVe嵌入[20]初始化单词向量，但在训练期间对其进行调整以捕获特定于领域的语义。然后使用双向RNN对帖子进行编码双向RNN的输入是postq1、q2、q3的嵌入字序列。，q n 并且输出是向量序列hp=h1，h2，…，hn，其中h1，R0表示帖子的编码表示。RNN在前向传递中从左到右读取词向量q1，q2，…，qn的序列，并创建隐藏状态序列{hf，hf，…，hf}，其中hf被计算为：hf = RN N（qi，hf）（1）其中RNN是一个函数。由于梯度的消失（相反，扩展），基本的RNN无法通过基于梯度的优化来学习长距离的时间依赖关系[4]。为了解决这个问题，已经提出了对基本RNN的扩展，其包含一个记忆单元来记住长期依赖关系。我们使用一个名为 GatedRecurrent Unit（GRU）[7]的变体，而不是我们模型中的基本RNN。在反向传递中，GRU反向读取输入序列order并返回隐藏状态序列{h b，h b，···，h b}。不同词语之间的互动来自最终双向GRU层的输出序列是后文本h p的表示。在我们的实验中，我们使用了两个双向GRU的堆栈。我们还尝试添加更多的层，但这并没有导致我们的结果有太大的改善。3.2集群敏感注意力我被建议接受气管切开术并置入PEG。我想知道我得在医院住几天之后我会很难输送时是否需要连接软管？这些设备会占用很多空间吗？你怎么求救？我不能说话或移动。你建议用哪种管子？我加入ALS社区已经有一段时间了。很高兴能读到一些人思考和面对ALS的方式，它给了我勇气。以上是ALS论坛中的说明性帖子（为了匿名而综合修改患者即将接受外科手术（气管切开术），并对手术、恢复时间和后遗症有疑问。此外，由于该过程在颈部中形成孔以提供空气通道nn −11它破坏了正常的进食和说话能力然后将前向和后向隐藏状态连接为创建单词的编码隐藏状态hi=[hf;hb]，考虑一个人的性格患者因此有额外的疑问周围的所有单词。i i关于最好的喂食管和与人沟通的方式我们使用这种双向GRU的堆栈，其中GRU层的输出作为输入被馈送到下一级的GRU这通过捕获更高级别的特征来增加网络的表达能力他人鉴于其复杂性和详细的信息需求，单个用户不太可能能够回答其所有部分相反，我们设想不同背景和经验的用户跟踪：极端多标签分类社交媒体WWW 2018，2018年4月23日至27日，法国里昂1914.e如：联系我们×个≪（）下一页× ××····--nj=1exp（e，j），其中⑵.一个论坛网站，用户可以在那里发布一个帖子，询问一些与他们的疾病有关其他相关用户回复可以针对特定部分;例如，具有PEG（经皮内窥镜胃造口术）经验的人可以回答关于它的询问，而其他人可以帮助清除用户简单地说激活函数以在范围[0，1]中缩放其元素值中的每一个。使用二进制交叉熵作为损失函数来训练模型，损失函数被定义为，不同的用户可能对（新）帖子的不同部分感兴趣这促使我们在我们的网络中构建一个组件，该组件可以L= −T。yij。log（σ（zij））+（1 − yij）log（1 − σ（zij））Σ（6）1不 U帮助针对不同的用户聚焦于帖子的各个部分为了实现这一点，我们需要一种注意力机制，它可以为帖子的单词赋予不同的权重i=1j= 1其中σ表示sigmoid函数σ（x）=1+1−x，zij是第j个使用加权词，从而聚焦于重要部分。给定帖子p的编码文本表示，因为来自双向GRU分量的hp=h1，h2，…，hn，注意机制[2，17]对单词的每个隐藏状态进行加权，即海岛对于每个hi，我们计算其对应词wi的权重ai，并得到注意力向量a = { a 1，a2，···，ann}.exp（ei）元素，并且yij是第j个用户（标签）的地面真值和ithpost。我们的网络是端到端可训练的，并使用Adam优化器进行了优化[13]。4实验为了评估我们的模型的泛化能力，我们对来自不同领域的涉及用户的多个数据集进行了实验，并在推荐场景中使用了某种形式的文本项。我们还将与一些著名的骗局进行比较ei=tanh（Wihi+bi）（3）其中，Wi是维度1Θ的权重矩阵，并且bi是偏置项。然后，具有注意力的文本表示被计算为：.nC=我4.1数据集我们在实验中使用了以下数据集• [1-3]健康论坛：热门的在线健康讨论注意，单个注意力层是不够的，因为注意力权重α不应该是通用的，而是应该取决于不同用户的兴趣。简单地说，为了获得每个用户的关注，我们需要这样的关注。这将显著地将待估计的参数的数量扩展到极大的值（U n d），由于可扩展性问题，这对于训练是不可行的。此外，在大多数数据集中，没有足够的数据点可用于所有用户，以可靠地学习个体注意力向量。我们假设，由于论坛的主题，用户可以根据他们的兴趣软集群在有限数量的集群簇的数量k将远小于U（即，k U）。因此，我们只需要学习k个这样的向量，而不是学习U个不同的注意力向量这极大地减少了参数空间。我们称之为集群敏感atten- tion机制。从相同的隐藏文本表示Hp，我们学习k个不同的注意力权重向量a1，a2，…，ak。此后，通过使用在hp上的不同注意力权重，我们得到后文本p（Cp=cl，c2，···，ck）的聚类敏感编码3.3 多标签预测对于postp，我们连接k个文本编码，并通过具有U个输出神经元的全连接层进行馈送对于每个输出神经元（对应于每个用户），全连接层学习其k个输入（对应于不同的文本编码）的权重。zp=tanh（W. Cp+b）（5）其中W和b分别是权重和偏置矩阵，并且tanh是逐元素非线性激活函数。然后，该前馈层的输出zp∈RU通过S形threads线程to share分享their其experiences经验with it.网站由不同疾病的分论坛组成我们使用了三个子论坛数据集，即，‘Epilepsy,’ ‘ALS’, and ‘Fibromyalgia’ for 我们删除了回复少于4个用户或超过100个用户的线程，以摆脱极端偏离主题或调查线程。[4]Stackoverflow：是一个CQA网站，用于编程相关问题。我们从kaggle4获得了数据转储。我们使用了2008- 2010年发布的所有问题来形成数据集。我们已经从问题文本中删除了所有代码片段（封装在标签' code> /code>'中数据集统计数据见表1。我们观察到标签的数量（即，users）在stackoverflow数据集中是相当大的这导致极高的稀疏性（99.99%）。我们将在第4.5节中描述与其他方法相比，这如何影响推荐准确性。4.2度量在我们的设置中，标签集是巨大的，具有非常高的稀疏性。因此，我们不使用整体准确性作为我们的评估指标，仅旨在评估正面实例，即实际参与线程的用户。为了确保参与，应该评估推荐用户列表的排名质量，并且用于这种评估的常用度量包括平均倒数排名、前M处的精确度、前M处的归一化贴现累积增益和前M处的召回。尽管顶部M处的精度通常用于评估XMLC方法，但它在我们的情况下是不合适的。这是由于标签是隐式用户反馈的事实一4 https：//w www. kaggle.com/stacko verflow/stacksample/data·ai=基于帐篷的推荐系统，以及最先进的XMLC方法，以显示其有效性。（4）跟踪：极端多标签分类社交媒体WWW 2018，2018年4月23日至27日，法国里昂1915.∈{···}--表1：数据集统计数据集用户数线程数线程中的平均字数每个线程的平均用户数稀疏性火车测试火车测试火车测试1. 癫痫150616444121471687.399.29百分之九十九点四九2. ALS3182646616171481359.859.7599.69%3. Fibromyalgia5669857621442032339.029.1499.84%4. Stackoverflow69,63120,137503593996.817.29百分之九十九点九九否定实例可以暗示用户实际上对该线程不感兴趣，但也可以暗示用户没有看到它（并且可能已经感兴趣）。我们使用以下三个指标来评估竞争方法平均倒数排名（MRR）指示排名列表中第一个相关用户的位置这测量了系统在识别排名顶部的感兴趣用户方面的能力。令rt是测试线程t的最高排名相关用户的排名。MRR只是倒数排名，在测试集中的所有线程上平均，n：1n 一个MRR= nt=1rtCTR[27]：将LDA [6]发现的主题分布作为输入以及用户-项目交互矩阵。这已被证明是一个非常坚实的基线冷启动问题，我们使用它作为传统的推荐算法的代表CNN-Kim[12]：构建一个包含其组成词嵌入的文档向量，然后将卷积滤波器应用于该特征映射。这些特征通过一个max-over-time池化层来构建文档表示。对于预测，文档表示被馈送到具有对应于L个标签的L个softmax输出的全连接层。XML-CNN[18]：介绍了CNN-Kim的一些改进。它采用了一个动态的最大池化方案，一个瓶颈层和一个更适合多标签预测的损失函数。据报道Recall@M考虑实际上有多少前M个用户与线程交互（越高越好）。整个系统的召回被计算为测试数据中所有线程的平均召回值。归一化贴现累积增益（NDCG@M）非常适合于推荐系统的评估，因为它比那些排名较低的结果更重地奖励在返回列表中排名较高的相关结果。线程t的NDCG@M被计算为：在多个数据集上优于许多传统的XMLC模型BiGRU-2：是我们实现的一个基线，它使用两个双向GRU层的堆栈来表示文本。这基本上等同于我们的模型没有CSA组件。4.4实验设置CTR的预处理是根据本文中的建议完成的我们删除所有的停用词，并计算tf-idf分数MNDCGt=Zt2r（j）−1训练集中所有文档中的所有单词，并保留前8000个单词组成词汇表。此后，Ldj=1lo（1+j）其中Zi是归一化常数，其被计算为使得完美排序将获得为1的 NDCG;并且每个r（）是使用100个主题运行，并将LDA发现的文档和单词主题分布提供给CTR。对于CVAE，我们使用了作者5提供的实现。整数相关性级别（对于我们的情况，Jr（j）=1和r（j）=0对于基于CNN的模型（CNN-Kim和XML-CNN），我们使用整流线性单元作为激活函数，并且使用一维线性单元作为激活函数。相关和不相关的建议）在秩j1，，k处返回的结果的然后，对于每个M值，NDCGt在测试集中的所有（n）个线程上被平均以得到总体NDCG@M。在我们的评估中，我们实验M=5， 10， 30， 50， 100，以确定在不同阈值的排名列表的推荐质量。4.3基线我们将我们的模型与以下竞争方法进行比较：CVAE[16]：提出使用贝叶斯生成模型来解决冷启动问题。据报道，它通过使用深度学习来考虑评级和文本内容，从而优于许多最先进的推荐系统。卷积滤波器，窗口大小为2、 4、 8。每个卷积滤波器的特征图的数量为128。对于XML-CNN，脱落率为p = 0。5，瓶颈层的隐藏单元为512，如作者所建议的[18]。对于基线BiGRU-2和所提出的模型，我们将GRU的神经元数量设置为128，并且将集群数量（k）设置为100。0的dropout层。在完全连接层之后使用3的丢弃率为了处理高度不平衡的类分布，我们使用归一化的类权重来加权稀疏的正训练样本。所有深度学习模型都是使用Keras库6实现的，Theano7作为后端。5https://github.com/eelxpeng/CollaborativeVAE6https://keras.io/7https://github.com/Theano/Theano···.跟踪：极端多标签分类社交媒体WWW 2018，2018年4月23日至27日，法国里昂1916----------∼4.5结果表2 、3 和4 分别显示了不同方法在四个数据集上的MRR 、Recall@M和NDCG@M方面的性能。首先，我们注意到，在大多数情况下，所有的XMLC模型都优于广泛使用的现成的推荐算法。然而，对于现成的文本分类器来说，情况并非如此，因为CNN-Kim的分数并不总是更好。这个经验证明的作品作为一个XMLC任务的冷启动推荐问题，我们的方法的验证。此外，我们观察到我们的模型在所有数据集中始终优于基线。我们实现了4的相对性能增益。5%21. 7%（取决于数据集），与XMLC的当前最新技术水平相比，即，XML-CNN。我们发现模型的性能在召回和nDCG@M方面是一致的。从NDCG分数，我们得出结论，我们的模型是能够正确地识别感兴趣的用户，并在大多数情况下，将他们的列表的顶部附近。对于M = 100，我们实现了7的相对性能增益。79%16. 与XML-CNN相比，NDCG为19%。我们观察到类似的趋势，在召回的情况下，相对性能增益为3。百分之二十三十五。百分之三十九。我们想提到的是，在我们的设置中，较大M值的召回值与较低的召回值同样重要-与传统情况完全不同，在传统情况下，向每个用户呈现推荐的项目列表。由于用户浏览多于前5个 10个项目是不可行的，因此目标是具有更好的召回，并且对于小M（例如，5 10）。但是对于一个新的项目，我们试图确定一组感兴趣的用户，他们将被单独通知。通常，推荐引擎尝试通知尽可能多的感兴趣的用户以确保足够的用户参与。出于这个原因，我们认为，我们的模型将是更合适的，因为它始终实现更高的召回率，和NDCG分数为大M值相比，国家的最先进的XMLC。尽管CVAE同时使用评级和文本内容，但我们观察到，在我们的场景中，它很难提供准确的据报告，当至少观察一次供试品时，其性能优于其他方法[16]。然而，在我们的案例中，测试项目在培训期间从未出现过在绝对值上，所有竞争方法的性能在stackoverflow数据集的情况下由于极高的稀疏性（99. 99%）和巨大的标签空间（70K）。然而，相对而言，我们的模型与其他模型相比，在所有指标方面得分更好（在大多数情况下）或非常接近（在少数情况下）消融研究：基线的选择允许我们进行两次消融研究。首先，我们观察到，与使用 CNN 对文本进行编码的 XML-CNN 相比，BiGRU对文本进行编码的效果要好我们认为，帖子的长序列性质用循环网络而不是固定长度卷积滤波器更好地捕获。最后，回想一下，BiGRU-2主要是我们没有CSA组件的模型。这使我们能够在有/没有它的模型变体之间进行消融研究。我们观察到，注意力机制实现了相对性能改进高达6。在MRR中比BiGRU-2模型高33%，3. 百分之四十在召回@100中，以及4. NDCG@100组为67%。此外，对于较大的M值，注意力机制的得分始终优于BiGRU-2。这项研究定量验证了假设有CSA组件在我们的模型。5相关工作推荐系统：基于协同过滤（CF）的方法是过去十年中基于CF的方法[14，15，19，22，29]在数据稀疏时（即，没有太多交互历史可用于用户或项目）并且不适用于冷启动（即，没有交互历史可用于新项目或用户）。为了对新项目进行推荐，在没有任何交互历史的情况下，推荐系统需要利用诸如项目内容或元数据的附加信息与我们的设置类似，[23]中的作者解决了向用户推荐新文章以供评论的问题。然而，它们并不使用整个文章内容，而只使用与文档相关的标签。协作主题回归（CTR）[27]提出了一种使用文本内容进行推荐的优雅方法。它是一种概率图形模型，集成了主题模型，潜在狄利克雷分配（LDA）[6]用于对文档的内容进行建模，并使用LDA发现的主题，同时稍后使用概率矩阵分解（PMF）[19]进行回归。之后在[9]中，作者通过合并明确提到的用户兴趣来扩展CTR，以便也处理新用户的冷启动推荐。一些最近的作品[16，24，26，28- 在[24]中，作者使用CNN对音乐视频中存在的声学信号进行建模，以便预测CF模型用于进行推荐的潜在因素。与CTR类似，已经提出了协作深度学习（CDL），其使用堆叠式去噪自动编码器（SDAE）[25]进行文本内容的表示学习，并对评级矩阵进行协作过滤。为了消除CDL的词袋假设，提出了协作循环自动编码器（CRAE）[29]来对项目内容中的序列信息进行CVAE [16]没有使用去噪自动编码器，而是使用贝叶斯生成方法进行内容表示，并且据报道优于其他方法。最近，对于冷启动推荐，将dropout应用于输入小批量，用于训练深度神经网络以推广丢失的输入[26]。极端多标签分类：基于嵌入的方法已被证明是通过减少标签的有效数量来处理极端多标签学习问题的流行方法。一般地，他们假设标签矩阵是低秩的，并且将标签向量投影到较低维度的子空间中。因此，代替预测每个实例的原始高维标签向量，它们可靠地训练嵌入的标签向量的预测，然后采用解压缩算法将嵌入的标签向量映射回原始标签空间。在文献中已经提出了各种压缩和解压缩技术来实现这一点[3，5，8，10，11，33]。跟踪：极端多标签分类社交媒体WWW 2018，2018年4月23日至27日，法国里昂1917表2：四个数据集不同方法的平均倒数秩（MRR）比较数据集方法CVAECTRCNN-Kim XML-CNN BiGRU-2我们的模型1.Epilepsy0.1590.4430.5360.5510.6310.6712.ALS0.2010.2750.2700.2930.2970.3063.Fibromyalgia0.3040.4350.6690.6680.7400.7734.Stackoverflow0.0030.0320.0250.0290.0470.050表3：跨四个数据集的不同方法的Recall@M的比较数据集度量方法CVAECTRCNN-Kim XML-CNN BiGRU-2我们的模型1. 癫痫召回@53.6917.4617.2322.7622.6422.65召回@107.2227.6722.9334.6729.2229.26召回@3021.1443.8344.6349.0850.9951.21召回@5029.6250.8652.4553.6959.4759.80召回@10042.4459.9365.7763.6768.2369.372. ALS召回@54.177.056.196.517.639.23召回@107.0712.0810.0911.4414.6513.89召回@3017.0425.0022.1523.5630.1831.84召回@5024.0732.4631.2730.6136.3236.55召回@10035.7744.1443.8243.1448.1449.783. Fibromyalgia召回@58.2414.5823.0122.1125.6325.97召回@1014.9327.1834.7733.8835.1837.38召回@3032.8354.3958.0461.8362.3963.06召回@5042.4363.9167.8368.9269.1772.04召回@10055.0272.3176.3775.7477.9878.194. Stackoverflow召回@50.020.590.460.510.660.86召回@100.061.140.730.971.151.30召回@300.162.731.842.422.942.80召回@500.314.022.743.434.034.11召回@1000.696.364.435.356.096.33表4：跨四个数据集的不同方法的NDCG@M的比较数据集度量方法CVAECTRCNN-Kim XML-CNN BiGRU-2我们的模型1. 癫痫NDCG@53.8019.4419.5225.8027.8029.52NDCG@105.9525.8024.2633.0831.9633.72NDCG@3012.2633.3834.1039.9141.7843.91NDCG@5015.3836.0238.4941.7045.1447.01NDCG@10019.5038.9742.1844.8847.9350.172. ALSNDCG@55.288.598.028.219.1610.24NDCG@107.2611.9410.6211.4113.7113.42NDCG@3012.1218.1816.3817.4021.0522.49NDCG@5014.9021.0819.8820.1323.5423.86NDCG@10018.9025.0024.1424.3927.5328.343. FibromyalgiaNDCG@510.2917.2728.9728.5732.3833.71NDCG@1014.7225.4333.6736.3238.4441.05NDCG@3023.5338.8248.2350.1951.0954.03NDCG@5027.2942.5052.0452.9854.5357.36NDCG@10031.4645.3654.9555.3257.5259.634. StackoverflowNDCG@50.020.640.540.591.011.22NDCG@100.040.980.700.871.311.48NDCG@300.091.681.191.522.092.12NDCG@500.142.141.511.882.472.59NDCG@1000.262.862.032.463.113.27跟踪：极端多标签分类社交媒体WWW 2018，2018年4月23日至27日，法国里昂1918为了避免在基于嵌入的方法的压缩阶段期间的信息丢失已经提出了尝试类似于决策树来划分标签空间它递归地将巨大的标签空间划分为子树，直到每个叶子节点上只剩下几个标签然后，每个叶节点处的基本分类器仅关注节点中的活动标签。LPSR [31]方法专注于学习基础分类器或排名器上的层次结构，从整个标签集的基础多标签分类器开始-如果区分性分类器（例如，多标签分类器）在训练时变得计算昂贵。SVM）。MLRF [ 1 ]不使用基本分类器，而是使用具有修改的基尼指数的随机树的集合来划分节点。在FastXML [21]中，在层次结构的每个节点处使用基于NDCG的目标进行优化。尽管深度学习在许多领域取得了成功，但对于XMLC任务的探索并不多。最近，已经提出了一种基于CNN的方法（XML-CNN [18]），其使用卷积层进行文本表示，并使用前馈层作为可扩展性的瓶颈层这已被证明是优于形式的嵌入式和基于树的XMLC的方法，因此，我们选择这种方法进行比较，在我们的实验。6结论我们已经解决了在线论坛中的冷启动线程推荐，这是确保用户参与的重要任务我们会向社区中感兴趣的用户推荐新发布的主题。主流推荐系统不能使用协同过滤来解决这种现象，因为对于这样的项目没有交互历史。我们已经应用了另一种方法，利用极端的多标签分类。特别是，我们提出了一种新的神经网络架构，包括堆叠的双向GRU的文本编码，加上集群敏感的注意力，以解决可扩展性和稀疏性。具体而言，利用我们的洞察力，即用户集在长帖子文本内显示不同的兴趣水平，集群敏感的注意力通过学习用于关注文本的不同部分的多个注意力层来并入用户兴趣。这个集群敏感的注意力层还帮助我们解决稀疏性问题，通常与极端的多标签分类方法，通过利用集群内的用户之间的相关性通过实验评估表明，该模型优于现有的基于内容的推荐系统，基于深度学习的文本分类系统，以及最先进的多标签分类方法。在未来，我们计划模拟社区成员的兴趣如何随着时间的推移而变化随着用户的经验和专业知识的变化，并不是所有的用户都会在很长一段时间内对同一主题保持兴趣。此外，我们鼓励研究社区在其他领域尝试我们的方法，向感兴趣的用户推荐新项目是优先事项，如新闻文章，推文推荐，社交媒体新闻源生成等。引用[1] Rahul Agrawal、Archit Gupta、Yashoteja Prabhu和Manik Varma。2013. 使用数百万个标签的多标签学习：为网页推荐广告商出价短语。在WWW. ACM，13-24。[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio. 2014.神经机器翻译通过联合学习对齐和翻译。arXiv预印本arXiv：1409.0473（2014）。[3] Krishnakumar Balasubramanian和Guy Lebanon。2012年。多输出预测的界标选择方法。在proc 关于ICMLOmnipress，283[4] Yoshua Bengio，Patrice Simard和Paolo Frasconi。一九九四年使用梯度下降学习长期依赖性是困难的。IEEE Transactions on Neural Networks5，2（1994），157[5] Kush Bhatia、Himanshu Jain、Purushottam Kar、Manik Varma和PrateekJain。2015. 用于极端多标签分类的稀疏局部嵌入在proc 的NIPS。七三零七三八[6] David M Blei，Andrew Y Ng，and Michael I Jordan.2003年。潜在狄利克雷分配。Journal of Machine Learning Research3，Jan（2003），993[7] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。2014年门控递归神经网络在序列建模中的实证评估Proc. NIPS深度学习和表示学习研讨会（2014）。[8] Moustapha M Cisse ， Nicolas Usunier ， Thierry Artieres ， and PatrickGallinari.2013. 用于大型多标签分类任务的鲁棒布隆过滤器在proc 的NIPS。1851-1859年。[9] Kishaloy Halder，Min-Yen Kan和Kazunari Sugiyama。2017年。使用兴趣感知主题模型的健康论坛主题推荐。在proc 关于CIKMACM，1589-1598.[10] Daniel J Hsu，Sham M Kakade，John Langford，and Tong Zhang.2009年经由压缩感知的多标签预测。在proc 的NIPS。772-780[11] Ashish Kapoor，Raajay Viswanathan和Prateek Jain。2012年。基于贝叶斯压缩感知的多标签分类。在proc 的NIPS。2645-2653[12] 金允。2014年用于句子分类的卷积神经网络在的EMNLP。[13] 迪德里克山口金玛和吉米 · 巴。 2014 年 Adam ：一种随机优化方法。CoRRabs/1412.6980（2014）。[14] 耶胡达·科伦2008.因式分解满足邻域：多方面协同过滤模型。在proc 关于SIGKDDACM，426[15] Daniel D Lee和H Sebastian Seung.2001年非负矩阵分解算法。在NIPS的程序中。55

下载后可阅读完整内容，剩余1页未读，立即下载