没有合适的资源?快使用搜索试试~ 我知道了~
24110使用概念激活向量在推荐系统中发现个性化语义软属性0Christina GöpfertBielefeld UniversityBielefeld, Germanychgopfert@gmail.com0Yinlam Chow �0Google ResearchMountain View, CA, USAyinlamchow@google.com0Chih-wei Hsu GoogleResearch MountainView, CA, USAcwhsu@google.com0Ivan Vendrov †0Omni Labs SanFrancisco, CA, USAivendrov@gmail.com0Tyler Lu †0Talka, Inc. SanFrancisco, CA, USAtyler.lu@gmail.com0Deepak Ramachandran GoogleResearch Mountain View, CA,USAramachandrand@google.com0Craig Boutilier GoogleResearch MountainView, CA, USAcboutilier@google.com0摘要0交互式推荐系统(RS)允许用户以丰富的方式表达意图、偏好和上下文,通常使用自然语言。使用此类反馈的一个挑战是从用于描述项目的开放式术语中推断用户的语义意图,并使用它来改进推荐结果。利用概念激活向量(CAVs)[21],我们开发了一个框架,学习一个能够捕捉此类属性的语义并将其与用户在RS中的偏好和行为联系起来的表示。我们方法的一个新特点是其能够区分客观和主观属性,并将不同的意义与不同的用户关联起来。使用合成和真实世界的数据集,我们展示了我们的CAV表示可以准确解释用户的主观语义,并可以通过交互式批评改进推荐。0CCS概念0• 信息系统 → 个性化。0关键词0交互式推荐系统,个性化语义,概念激活向量(CAVs)0ACM参考格式:Christina Göpfert,Yinlam Chow,Chih-wei Hsu,IvanVendrov,Tyler Lu,Deepak Ramachandran和CraigBoutilier。2022年。使用概念激活向量在推荐系统中发现个性化语义软属性。在TheWebConf '22:网络会议,2022年4月25日至29日。0� 联系作者。† 在GoogleResearch期间进行的工作。0本作品采用知识共享署名国际4.0许可协议。0TheWebConf'22,2022年4月25日至29日,法国里昂,版权所有©2022年由所有者/作者持有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.351211302022年,法国里昂。ACM,纽约,美国,11页。https://doi.org/10.1145/3485447.351211301 引言0虽然推荐系统(RS)改变了我们发现和消费内容、产品和服务的方式,但会话式推荐器[2]已经成为更好地理解用户需求和偏好的一种有前途的范式——它们改进了传统RS所允许的原始用户反馈(例如查询、点击、项目消费、评级),允许用户通过使用基于自然语言的交互(例如分面搜索、对话)以更丰富的方式表达他们的意图、偏好、约束和上下文。然而,解释这种交互需要将用户的预期语义与RS对用户偏好的模型进行关联。例如,如果用户表达对“有趣”电影的渴望,这必须被转化为对目标电影语料库中她的偏好/意图的可操作表示。当项目属性集是明确定义和已知的时候,可以直接使用现有技术,如分面搜索[24,42]或示例批评[12,13]。但是,通常项目属性是软属性[1]:这些软属性与项目之间没有“真实的”关联;这些属性本身可能有不精确的解释;它们可能是主观的(即,不同的用户可能有不同的解释)。例如,在协同过滤(CF)任务(如电影推荐)中,关于电影属性(如“有趣”,“发人深省”或“暴力”)的附加信息通常是可用的,但通常是辅助性的,从稀疏、嘈杂的用户评论、评论或标签中派生出来);而且,用户可能对他们认为哪些电影是“暴力的”(或“太暴力”)存在分歧。最近的工作尝试了与用户偏好一起学习软属性的语义[27,44]。在这项工作中,我们采用了不同的视角:我们将推荐任务视为主要任务,使用RSs的标准CF模型;并且我们使用RS模型本身学到的表示来推断软属性的语义[14,36]。这有三个优点:(1)模型容量用于预测用户-项目偏好而不使用附加信息,这��a set of k canonical tags T. We also assume that tags are used“propositionally” (a user chooses to apply a tag or not) though theunderlying attributes may be ordinal or cardinal (e.g., a tag ‘violent’may refer to some degree of ‘violence’).2 Tag data comprises am × n × k tensor T where tu,i,д = 1 if user u applies tag д to itemi, and 0 otherwise. Let T = {(u,i,д) : tu,i,д = 1} and Tд = {(u,i) :tu,i,д = 1}. Tags are usually strictly sparser than ratings, so weassume Tд ⊆ R for all д ≤ k. User u may apply multiple tags to thesame item. Let Tu ⊆ I be the set of items tagged by u (using anytag),Tu,д those tagged with д, andTu,д = Tu \Tu,д those tagged byu but not with д. Our tag data is like that used by tag recommenders[16].24120TheWebConf '22,2022年4月25日至29日,法国里昂 Göpfert,Chow和Hsu等人0通常不会改善推荐系统的性能。(2)它提供了一种测试特定软属性是否与预测用户偏好相关的方法,并将注意力集中在对捕捉用户意图最相关的属性上(例如,在解释推荐、引导偏好或提出批评时)。(3)可以使用相对较少的标记数据学习软属性/标签的语义,以预训练和少样本学习的精神。具体而言,我们假设我们已经获得:(i)一个CF风格的模型(例如,概率矩阵分解或双编码器),该模型基于用户-项目评分将项目和用户嵌入到潜在空间中;和(ii)由用户子集为项目子集提供的一组标签(即软属性标签)。我们开发的方法通过将最近用于机器学习可解释性的概念激活向量(CAVs)[21]应用于CF模型,检测它是否学习到了属性的表示,来为每个项目关联其展示软属性的程度。该CAV在嵌入空间中的投影提供了属性的(局部)方向语义,然后可以应用于项目。此外,该技术还可用于识别属性的主观性,特别是在使用该标签时不同用户是否有不同的含义(或标签感)。这种个性化语义对于正确解释用户的真实偏好至关重要。我们的主要贡献如下:(i)我们提出了一种使用CAVs来识别与偏好预测或行为模型相关的软属性语义的新框架,而无需对语义和偏好模型进行协同训练。(ii)我们开发了一种区分客观属性和主观属性(包括程度和感知的主观性)以及将不同主观属性的不同感知与不同用户相关联的方法。(iii)我们提出了一种简单的方法,利用这种语义通过示例批评来引导偏好。对合成数据和真实数据的实验证明了我们方法的有效性。有关更多详细信息和额外的实验结果,请参阅本文的扩展版本[17]。02问题表述0我们首先概述我们的问题表述,然后讨论相关工作。0用户-项目评分。我们假设存在一个标准的协同过滤(CF)任务:用户U对项目I进行评分,其中ru,i(例如,1-5星)表示用户u∈U对项目i∈I的评分。令n=|U|,m=|I|,R表示m×n(通常是稀疏的)评分矩阵,其中ru,i=0表示没有评分。令R={(u,i):ru,i≠0}。0偏好预测。我们假设已经将CF方法应用于R以构建用户和项目的嵌入ϕU:U→Rd和ϕI:I→Rd,使得模型的预测(期望)评分为ˆri,u=ϕU(u)�ϕI(i)。我们将X�Rd表示嵌入空间。方法包括矩阵分解[37]或某些形式的神经CF[3,45]。为了具体起见,我们假设存在一个双塔模型(或双编码器),其中用户和项目分别通过单独(但共同训练的)深度神经网络(DNNs)NU和NI传递,以产生它们各自的向量嵌入ϕU(u)和ϕI(i),通过点积组合以预测用户-项目亲和性ˆri,u[45,46]。我们可以将ϕI(i)视为表征项目i的(学习到的)潜在特征向量,将ϕU(u)视为参数化用户u的估计效用(或0偏好)函数对这些特征进行优化。构建时,用户效用与这些潜在项目特征成线性关系(有限制,见下文)。0软属性和标签。CF方法通常用于在内容推荐系统(电影、音乐、新闻等)中预测用户-项目亲和性,因为用户的评分或消费行为通常比硬属性(已知的客观属性,例如类型、艺术家、导演)更能预测用户的偏好[23]。尽管如此,用户经常使用软属性来描述项目[1],这些特征不是约定的、正式的项目规范的一部分。例如,电影可以用“有趣”、“发人深省”、“暴力”、“俗气”等词语来描述。我们将这些词语称为标签而不是属性,因为它们不是普遍适用于所有项目,也不是所有用户都使用的,并且用户可能在其应用上存在分歧。10引诱和批评。CF模型本身不适合于旨在与用户自然交互以改进对其偏好的了解的RSs。基于CF的RS可以在物品级别主动引导新的评分[9,47],但(不可解释的)物品嵌入不支持基于属性的交互。标签可以帮助用户更好地浏览物品空间。虽然许多偏好引导和示例批评方法使用硬属性,在内容RSs中,标签通常对应于软属性,并且可能是主观的。如果用户请求“更发人深省的”电影,除非我们有将标签与物品相关联的语义,否则RS对用户偏好的模型无法更新。0概念激活向量。可解释表示的研究试图克服现代ML模型通常学习复杂、不透明的概念表示的事实。测试CAVs(TCAV)框架是一种机制,试图找到模型“状态”(例如,输入特征、DNN激活模式)与人类可解释概念之间的对应关系。例如,假设一个DNN已经训练用于对图像中的动物进行分类。使用一小组具有某个概念的正面和负面示例的图像(例如,“带条纹的物体”),TCAV测试DNN是否已经学习到了表示该概念的激活向量(CAV),并且该向量与该概念的存在相关。此外,使用分类器输出相对于CAV方向的导数,它衡量了分类器对其预测的敏感性(例如,图像中条纹的存在对“斑马”分类的影响)。01标签可以在RS中指定,也可以从用户描述、评论等中提取。2我们的技术可以直接扩展到布尔(正面和负面应用)、有序或基数标签。24130使用概念激活向量在推荐系统中发现个性化语义。TheWebConf '22,2022年4月25日至29日,法国里昂。0重要的是,概念对其预测的影响有多大(例如,图像中条纹的存在对“斑马”分类的敏感性)。0将CAV概念映射到RSs。对于RSs,我们使用CAVs将CF模型学习到的潜在物品表示与用户用于描述物品和偏好的软属性进行转换。我们通过将我们的设置与Kim等人使用的图像分类设置进行类比(如上所述)来简要详述关键CAV概念如何适应RSs。我们的DNN CF模型Φ=(ϕU,ϕI)类似于基于标记图像训练的多类图像分类器,它是在用户-物品评分上进行训练的。软属性或标签д(例如,“暴力”)类似于特定图像特征(例如,“条纹”)。我们确定物品网络NI是否已学习到此标签的表示。与图像设置类似,使用一小组正(已标记)和负(未标记)物品来识别CAV,我们以相同的方式使用一小组正(已标记)和负(未标记)物品,尽管我们必须考虑不同用户应用的标签的变异性和不一致性。有关关键概念的简明列表以及我们如何将CAVs应用于RSs的图形说明(包括示例批评,请参见第5节),请参阅附录A.1。0相关工作。存在许多方法来使用标签数据[16,27]或评论[28]找到RS中标签和属性的语义。虽然有些方法与评分预测一起学习语义,但其他方法则像我们在这里做的那样,在评分预测模型的基础上构建属性模型。与我们的方法最相关的是Gantner等人的方法[16],他们使用k最近邻或线性回归(也参见Cohen等人[14])将标签的语义作为潜在特征的线性组合(来自BPR模型[35])进行学习。这项工作被提出作为解决冷启动问题的一种手段。我们的工作在处理非线性表示和主观性方面与其不同,并且专注于对话/评论RS。标签推荐在更广泛的范围内[25, 26,36]与我们的工作在建模用户、物品和标签之间的关系方面有一定的联系。我们的动机之一是在RS中使用软性和主观属性进行评论[13]、多方面搜索[42]和偏好引导。Radlinski等人[34]开发了一种方法,用于将用户偏好与对话RS中软属性的使用联系起来。在RS的引导方面,很少有工作涉及主观性,尽管Boutilier等人[7,8]考虑了“定义性”主观性(与我们的概念非常不同)。主观性在自然语言和心理语言学中得到了研究,使用个性化嵌入[43]和原型理论[32],其中主观性与物品与理想化示例的相似性有关。03 寻找相关的软属性0我们开发了一种方法,用于识别与我们的CF方法学习到的物品嵌入表示相关的相关软属性的语义。假设CF模型Φ = (ϕU,ϕI),在评分数据R和标签数据T上进行训练。我们使用CAVs来发现CF模型是否已经学习到了一个与标签对应的隐式属性的表示。如果是这样,那么该表示可以用于支持示例评论、引导或导航(第5节)。关键是,在训练CF模型时,我们不使用标签数据,类似于在嵌入上构建属性模型的冷启动问题的工作[14, 36],与同时训练属性模型的模型[27,44]相反。我们的假设是,如果一个标签在广泛的人群中有助于理解用户偏好,那么CF模型将学习到相应的软属性的表示。相反,如果没有发现这样的表示(或CAV),则该软属性对于用户表达其偏好的用途有限。我们的方法具有以下几个优点:(1)RS模型可以在不预先确定特定属性词汇的情况下开发/训练/使用-可以根据需要添加新属性;(2)RS模型的容量集中在偏好预测和推荐的核心任务上;(3)我们的方法可以用于评估特定属性对于偏好引导或评论的相关性和重要性。03虽然这不是我们在这项工作中的目标,但我们也可以使用CAVs来测试评分预测对这种软属性的敏感性:类似于测试“斑马”分类对条纹的敏感性,我们可以测试用户对物品评分对物品(程度的)暴力性的敏感性。然而,在协同过滤设置中,这种敏感性将因用户群体而异。0我们改进了CAVs,以测试CF模型是否已经学习到与标签对应的软属性的表示。我们首先通过测试嵌入空间本身是否包含标签底层属性的线性表示(即相对于物品嵌入特征ϕI的线性表示)来说明我们的方法。我们在第3.2节中概括了这个线性模型的一般化(我们详细介绍了它的弱点)。给定CF模型Φ,每个i ∈ I由其嵌入ϕI(i) ∈X表示。对于任何用户u,她应用了标签d的物品ϕI(i),i ∈Tu,d被视为底层概念(例如,暴力电影)的正例,而ϕI(i),i ∈Tu,d则是负例。03.1 线性属性0我们改进了CAVs,以测试CF模型是否已经学习到与标签对应的软属性的表示。我们首先通过测试嵌入空间本身是否包含标签底层属性的线性表示(即相对于物品嵌入特征ϕI的线性表示)来说明我们的方法。我们在第3.2节中概括了这个线性模型的一般化(我们详细介绍了它的弱点)。给定CF模型Φ,每个i ∈ I由其嵌入ϕI(i) ∈X表示。对于任何用户u,她应用了标签d的物品ϕI(i),i ∈Tu,d被视为底层概念(例如,暴力电影)的正例,而ϕI(i),i ∈ Tu,d则是负例。0我们的第一个模型假设每个u以大致相同的方式使用д,其中正例由多集合∪U{ϕI(i):i∈Tu,д}给出,负例由∪U{ϕI(i):i∈Tu,д}给出。由于正例标签通常是稀疏的,我们使用负采样来处理类别不平衡[29]。令Dд为引发的“全局”(跨用户)数据集。我们训练一个逻辑回归器ϕд,其中P(д(i);ϕд)=σ(ϕ�дϕI(i))是物品i“满足”д的预测概率,使用(正则化的)逻辑损失(和标签y∈{+1,−1}):0L(ϕд;Dд)=�0(i,y)∈Dдlog(1+e^(-yϕ�дϕI(i)+λ02ϕ�дϕд.(1)0如果两个用户在某个物品上对标签д的应用意见不一致,这个全局分类器将其视为标签噪声。这种差异的另一个解释是,他们在д的“方向”上达成一致,但在物品i展示д的基础软属性的“程度”上存在分歧。例如,两个用户可能在任何一对电影中都同意哪部电影更暴力,但在应用标签时具有不同的阈值或容忍度(即,在“暴力有多暴力”上意见不一致)。我们的第二个模型通过将每个u视为生成成对比较Du={ϕI(i)�дϕI(j):i∈Tu,д,j∈Tu,д},从一个潜在的排名中抽取出来,来解释这一点。我们使用每个用户的成对排序损失来生成一个在X上指定的回归器。0这些负例是“隐式”的,但是合理的,因为u除了对这些物品进行标记之外没有其他标记。Synthetic Results. Table 1 shows the performance of the CAVs onsynthetic data for three settings: (i) user utility is linear; (ii) utilityis nonlinear but we train linear CAVs (Lin-Emb); and (iii) utilityis nonlinear and we train nonlinear CAVs (NL-Emb). Results areaveraged over the five tags. CAVs predict user tagging behavior(Accur) reasonably accurately, and reliably order test items w.r.t.their ground truth attribute values (Sprm), despite the noise in thetagging process. We bold the best values in each of the three set-tings. The ranking methods, RankNet and LambdaRank, dominatelogistic regression w.r.t. both Accur and Sprm, which suggests thataccounting for variation in user tagging behavior is important (see24140TheWebConf '22,2022年4月25日至29日,法国里昂 Göpfert,Chow和Hsu等人0物品展示软属性的程度:50L(ϕд;DU)=�0u0�0i∈Tu,дj∈Tu,д0log(1+e^(-ϕ�д(ϕI(j)-ϕI(i))+λ02ϕ�дϕд.(2)0回归器ϕд是我们的CAV。注意,ϕд在学习到的物品嵌入特征ϕI中是线性的。给定一个CAVϕд,物品i满足引发属性的程度由得分ϕд(i)=ϕ�дϕI(i)给出。CAV在数据集D上的质量Q(ϕд;D)是它“正确”排序的标签应用的比例,即如果i∈Tu,д,j∈Tu,д,则ϕд(i)≥ϕд(j)。我们可以使用质量Q、训练/测试误差或其他性能指标(见3.3节)作为CAV“有用性”的度量。03.2非线性属性0线性方法的局限性在于,如果标签д的CAV在潜在嵌入空间X�Rd中是线性的,那么每个用户对д的效用也是X中的线性函数。例如,如果“violent”的CAV是线性的,任何用户的偏好都是她更喜欢极端暴力或极端非暴力的电影,她不能偏好“有点暴力”的电影。现实世界的偏好通常是非线性的(例如,饱和[15])甚至是非单调的(例如,单峰[31]),相对于许多自然属性而言,这些属性不太可能在X中被线性充分地表示。幸运的是,CAV也可以应用于非线性的DNN表示。我们假设一个双塔/双编码器模型,并从物品DNNNi的隐藏层中提取CAV。根据Kim等人的方法[21],我们假设如果学习到相关概念,可以在(训练好的)深度CF模型的单个隐藏层中揭示出来。给定正例和负例,如3.1节所述,我们使用第ℓ层的激活ϕI,ℓ(i)作为训练输入,而不是物品嵌入ΦI(i)。否则,回归器将按上述方式进行训练。结果是一个回归器ϕд,ℓ,可以应用于物品在中间“激活空间”XℓI中的表示,其中ϕ�д,ℓϕI,ℓ(i)捕捉到i满足引发属性的程度。ϕд,ℓ通过Ni的最后L−ℓ层的投影在嵌入空间X中生成一个(非线性的)流形,为软属性的用户效用提供了更大的灵活性。03.3 CAV质量的实证评估0我们首先在合成数据上评估我们的方法,这样可以对生成过程进行控制并获得真实值,然后在真实数据上进行测试。对于线性软属性,我们使用加权交替最小二乘法(WALS)[19]训练一个CF模型Φ = (ϕU,ϕI),其正则化目标如下:0(ϕ�U, ϕ�I) ∈ arg min �0u, icu, i(ˆru, i − ru, i)2 + κ(||ϕU||2 + ||ϕI||2).(3)0这里cu, i是预测评分ˆru, i = ϕ�U(u; θU)ϕI(i; θI)的置信权重,κ >0是正则化参数。我们使用验证损失选择嵌入(ϕ�U,ϕ�I),并使用面向项目的置信权重cu, i ∝ m−�uru,i(即对于不太频繁或评分较低的项目,权重较低)。对于非线性属性,我们使用SGD/Adam[22]训练一个双塔DNN嵌入模型。有关合成数据生成的更多详细信息,请参见附录A.2)。有关数据生成和训练方法的其他详细信息,请参见本文的扩展版本[17]。05这个逻辑对比损失与RankNet [10]中的一样;见下面的LambdaRank[11]。6我们将ℓ视为我们实验中的可调超参数。非线性CAV的结果基于最佳的“逐层”CAV。0MovieLens数据。我们将MovieLens20m数据集进行转换和过滤,以便关注具有足够使用量的标签:7这样留下了164个用于评估的标签。我们将评分和标签数据分割为训练集和测试集,以便任何特定的用户-项目对的所有示例都出现在这些子集中的一个。我们使用大约(0.75,0.25)的用户-项目-标签三元组的训练-测试分割。0合成数据。为了构建合成数据,生成模型输出n = 25,000个用户和m= 10,000个项目的用户-项目评分R和标签数据T。用户和项目由d =25维嵌入向量表示,从预定义的混合分布中采样以在数据中引入相关性。对于线性效用,首先通过对项目进行采样(给出稀疏的评分矩阵R),然后对它们的评分进行生成(将噪声添加到用户/项目点积)。在非线性情况下,效用是非线性子函数(每个维度一个)的总和,这些子函数在某个(随机)点处达到峰值,并且随着项目远离该峰值而下降。用户更有可能对效用更高的项目进行评分。为了生成标签,将25个潜在项目维度中的五个视为可解释或“可标记”的,每个维度都有一个不同的标签。每个u都有一个随机的标记倾向,影响对已评级项目进行标记的概率,并且更有可能对评分较高的项目进行标记。每个标签д都有一个固定的(非主观的)阈值τд:如果项目满足τд,u就会将д应用于该项目。0合成结果。表1显示了CAV在合成数据上的性能,包括三种设置:(i)用户效用是线性的;(ii)效用是非线性的,但我们训练线性CAV(Lin-Emb);(iii)效用是非线性的,我们训练非线性CAV(NL-Emb)。结果是对五个标签进行平均的。CAV相对准确地预测了用户的标记行为(Accur),并可靠地根据其基准属性值对测试项目进行排序(Sprm),尽管标记过程中存在噪声。我们在三个设置中加粗了最佳值。排名方法RankNet和LambdaRank在Accur和Sprm方面优于逻辑回归,这表明考虑用户标记行为的变化是重要的(参见0CAV准确性。我们使用在保留测试数据上用户标签使用情况的预测质量来评估CAV准确性。合成模型还允许相对于每个标签的基准项表示和属性水平进行评估。我们评估了三种训练方法,二元逻辑回归、RankNet [10]和LambdaRank[11]。我们使用以下指标来衡量CAV准确性:(i)Accur.,逻辑模型的平均准确性,或者排名模型的质量Q(ϕд; D);(ii)Sprm,预测值和基准属性值之间的Spearman等级相关系数。07我们将所有标签转换为小写,并将数据过滤为仅包括至少有4个评级的用户-项目-标签。标签数据非常稀疏:只有268个不同的标签应用于至少50个唯一的电影。我们将CAV训练限制在按照唯一标记电影数量排名前250的标签上。检查结果显示,只有少数用户应用的标签往往过于具体或过于通用。为了排除这些标签,我们进一步过滤数据,仅包括至少使用过一次该标签的唯一用户数量排名前250的标签。24150在推荐系统中发现软属性的个性化语义,使用概念激活向量TheWebConf '22,2022年4月25日-29日,法国里昂0线性 非线性,线性嵌入 非线性,非线性嵌入0准确率 Sprm 准确率 Sprm 准确率 Sprm0Log. Regr. 0.906 0.569 0.889 0.565 0.922 0.5770RankNet 0.968 0.674 0.943 0.670 0.978 0.6860LambdaNet 0.961 0.679 0.947 0.666 0.974 0.6800PITF 0.683 0.056 0.707 0.070 N/A N/A0表1:CAV评估,合成数据(非主观)0准确率 准确率0Log. Regr. 0.727 0.7450RankNet 0.803 0.8200LambdaNet 0.804 0.8180PITF 0.715 N/A0表2:CAV评估,MovieLens0对于非线性效用,我们还将最佳“线性”CAV(从输出嵌入中提取)与最佳非线性CAV(从DNN隐藏层中提取)进行比较。非线性CAV优于线性对应物,显示了在DNN中寻求非线性(或“分布式”)属性表示以及TCAV解释它们的价值。我们还包括一个基准标签推荐器PITF(成对交互张量分解),它使用张量分解来建模用户、项目和标签之间的成对交互。它的标签预测准确性低于CAV方法。0MovieLens结果。我们在更现实的MovieLens20M数据集上评估我们的方法。标签是用户生成的电影属性描述(例如,流派如“科幻”,质量如“情感”,“氛围”,主题如“僵尸”,“赛博朋克”)。我们生成50维的用户和项目嵌入(如果是线性的,则是WALS;如果是非线性的,则是两塔DNN)。标签д的正例是应用д的用户-项目对;负例是由该用户标记但没有д的标记。表2显示了线性和非线性CAV的测试准确率:排名方法优于逻辑回归,这再次暗示了一些主观性(见下一节)。虽然我们无法测量斯皮尔曼相关性(因为我们没有基准排序),也无法控制用户效用的形式,但我们看到非线性CAV的表现略优于线性CAV,这表明用户对某些MovieLens标签的偏好在其嵌入空间表示中是非线性的。与上述类似,CAV方法始终优于PITF。04识别主观属性0如果用户在标签的使用上基本上达成一致,将标签的语义视为单个软属性或CAV是合理的,就像我们上面所做的那样。但在许多情况下,不同的用户在应用标签时可能有不同的“意义”。例如,一个用户可能使用术语“有趣”来描述愚蠢的电影,涉及到物理或闹剧式的幽默,而另一个用户可能使用相同的术语来指称干燥的政治讽刺。虽然相关,这两个标签意义将会对电影进行完全不同的排序。这种意义上的主观性可能会阻碍我们产生准确的CAV并理解用户的真实意图。现在我们转向这个问题。0程度的主观性。如上所述,程度的主观性很可能会自然地出现。在CAV训练中使用了用户内部两两比较和排名损失,以确保诱导出的CAV对这种主观性是稳健的。然而,由于两个用户可能会根据他们对应用д的不同阈值而不同地使用标签д,解释用户u的使用需要对她的阈值敏感的个性化语义。设д为一个程度主观的标签,ϕд为д的CAV,ϕд(i)为i满足ϕд的程度。用户特定的阈值τuд∈R确定д的语义:只有当ϕд(i)≥τuд时,д才会(通常是有噪声地)适用于i。8(估计的)最优τuд最小化了错误分类的数量。0τuд ∈ arg min τ |{ i ∈ T u , д : ϕ д ( i ) ≥ τ } ∪ { i ∈ T u ,д : ϕ д ( i ) < τ }| . (4)0也就是说,在最小化器的连续体中,阈值τuд在最近的正负项之间最大化边界。由于个体用户的标签使用通常是稀疏的,这些阈值可能会有噪音。但是,可以通过使用选择良好的查询来细化u的语义来减少噪音,例如,“您是否认为项目电影m是暴力的?”这可以用于实现松散的二分搜索以近似阈值(可能是鲁棒的,以考虑噪声响应),但我们将其推迟到未来的研究中。如果使用在用户子群体内相关,则阈值在用户之间的泛化也是可行的,正如我们在下面的感性主观性案例中讨论的那样。0感性的主观性。我们现在转向感性的主观性。我们可以很容易地检测感性的主观性,并为不同(组的)用户分配一个标签д的个性化语义,为每个标签意义使用不同的CAV。我们假设д最多具有sд个不同的意义д [ 1 ],...д [ sд],其中每个意义表示不同的软属性(我们在下面讨论它们的关系)。此外,每个用户仅采用一个这样的意义д。我们提出了一种方法来发现一个标签是否具有多个意义,并在是这样的情况下为每个意义揭示合适的CAV。直观地说,如果Q(ϕд;D)很高,则CAVϕд很好地解释了数据集D中用户对д的使用。如果不是这样,那么模型Φ不太可能学习到д的良好表示。这可能是由于д与用户评级(因此偏好)的相关性较差,或者是因为д具有多个(比如s)意义。在后一种情况下,应该有一个将D划分为子集D1,...Ds的用户划分,使得每个k≤s都有一个具有高质量Q(ϕд,k;Dk)的CAVϕд,k。我们首先提出了一种简单的方案来找到一个固定s的好的CAV集合,然后讨论确定适当的意义数量s≤sд。假设有固定数量的目标意义s和给定的数据集D。让Σ={σ1,...,σs}将用户划分为s个簇,其中σk是一个(可能)采用д的常见意义的用户集。让Dk是将D限制为u∈σk的标签数据。对于固定的Σ,我们可以很容易地为每个数据集Dk生成一个捕捉相应意义的CAVϕд,k,并测量其质量Q(ϕд,k;Dk)。当然,这种质量取决于划分Σ是否合理(即每个簇中的大多数用户是否以相似的方式使用д)。如果这些CAV的质量较低,我们可以通过“分配”每个u来重新划分用户。08或者,这可以被视为个人线性分隔器,用于在X中对u进行分隔,但是受到从人口标签中诱导出的方向ϕд的正交约束。AccLog. Regr.0.8720.5660.8600.5230.8860.548RankNet0.9600.6710.9470.6600.9610.680LambdaNet0.9620.6690.9380.6530.9580.684PITF0.7000.0640.7080.068N/AN/Ak∗u = arg maxk|{(i, j):i ∈Tu,д,j ∈Tu,д,ϕд,k(i)≥ϕд,k(j)}|.(5)24160TheWebConf '22,2022年4月25日至29日,法国里昂 Göpfert,Chow和Hsu等人。0线性非线性,线性嵌入非线性,非线性嵌入0表3:CAV评估,合成数据(程度主观性)0将每个u分配给Σ中最能解释她标签使用的簇的CAV:0这导致了一种类似EM的交替优化过程[4],用于找到一个良好的聚类,该过程反复进行:(a)为每个当前(用户)聚类学习一个CAV;然后(b)通过将每个用户分配给最能解释她标签使用的CAV来重构聚类。迭代过程继续,直到Σ不再改变或质量改进变得足够小。很容易看出EM过程在有限步骤内终止。如果我们通过最小化其产生的逻辑/排名损失来分配每个u,标准k-means的收敛性质(例如,[6])表明该过程收敛到局部最小值并生成s个不同的CAV意义。我们可以通过从一个初始(单一)CAV开始,并将上述过程应用于逐渐增加的簇数s=2,3,...sд,直到平均质量的改进,�k(|Dk|/|D|)Q(ϕд,k;Dk)可以忽略不计来搜索适当的意义数量。我们采用自上而下的“分解”聚类方法,因为自下而上的凝聚聚类可能会非常嘈杂-任何单个用户的标签集都非常稀疏,因此尝试为非常小的用户组生成CAV通常是不可靠的。很容易为新用户分配意义,并在出现新用户,项目和标记数据时更新意义。0合成结果。我们再次在合成数据上测试我们的方法,以利用对CAV语义的基本事实的访问。该模型与第3.3节中使用的模型类似,只是在用户标记行为中添加了主观性。为了测试主观程度,我们使用与上述相同的五个标签,但每个用户的个人标记阈值从具有两个组成部分的混合分布中进行采样。为了测试感知主观性,我们引入了一个主观标签“标签-S”,它有三个感知,每个感知反映了五个可标记维度中的一个。每个用户采用这三个感知之一,当应用标签-S时,他们根据自己分配的维度进行评估。其余两个标签是客观的。我们对第3.3节中使用的三种CAV训练方法进行评估,将每种方法应用于线性(WALS)模型和非线性双塔模型。对于感知主观性,我们测试了我们的类似EM的算法与每种训练方法。表3总结了在程度主观性下CAV的性能,使用与第3.3节中相同的方法和模型(对五个程度主观标签进行平均)。与第3.3节中的非主观情况相比,用户对每个标签具有相同的阈值,在这里,每个用户的排名方法(RankNet和LambdaRank)在很大程度上优于逻辑回归,表明需要对用户的程度主观性敏感。0表4总结了感知主观性的结果,显示了我们的基准方法在有和没有我们的基于EM的区分感知方法下的CAV准确性。表的左侧显示了对感知主观性标签-S的结果,表明EM可以通过解开三个不同感知来显著提高CAV的准确性。这表明将主观概念视为客观可能会有问题。还要注意的是,排名方法的表现优于逻辑回归。右侧显示了两个客观标签的准确性:EM和非EM方法的表现几乎相同,表明我们不太可能识别出虚假的感知。非线性CAV与排名方法相比,提供的改进很小,尽管在使用逻辑回归进行训练时它们的表现更好。PITF基准的性能在程度和感知主观性实验中都不如CAV方法。0MovieLens结果。我们还在MovieLens20M上评估了我们的主观CAV方法。为了评估主观程度,我们选择了13个被认为是主观程度的标签,并比较了不同CAV方法的准确性(表5)。由于MovieLens数据没有关于可能主观性的真实情况,无法测量Spearman等级相关性。一般来说,排名方法优于逻辑回归,这表明真实用户在他们的阈值(主观程度)上存在一定的变化,某些标签(例如,科幻)的一致性和CAV可预测性要比其他标签(例如,搞笑)高得多。我们还看到非线性CAV与线性CAV在标签上的改进存在差异:那些改进较大的标签(例如,黑色喜剧,末日)表明用户的效用可能在该属性的程度上是非线性的(因此极端程度可能不被偏好);而那些非线性CAV表现不佳甚至更差的标签(例如,科幻,动作,搞笑),可能在它们的最大或最小程度上最受偏好。对于感知主观性,我们从MovieLens数据中构建了两种类型的人工标签。首先是捕捉四种类型(喜剧,恐怖,奇幻,浪漫)的“客观标签”。对于随机的用户-物品对,如果物品
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功