没有合适的资源?快使用搜索试试~ 我知道了~
主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂1573一种从在线评论中抽取特定方面摘要的稀疏主题模型VineethRakesh*Arizona State University坦佩vrakesh@asu.edu尼基尔·拉奥亚马逊加利福尼亚州旧金山nikhilsr@amazon.com摘要丁伟聪亚马逊西雅图,WAeicding@amazon.comLos Altos ,CAyifan. technicolor.comACM参考格式:弗吉尼亚理工大学弗吉尼亚州阿灵顿aahuja@vt.edu钱丹湾ReddyVirginia Tech弗吉尼亚州阿灵顿reddy@cs.vt.edu在线评论已经成为消费者决策过程中不可避免的一部分因此,亚马逊和沃尔玛等电子商务网站不断鼓励用户撰写高质量的评论,并明确总结产品的不同方面。然而,尽管有这样的尝试,但是需要花费大量的努力来浏览数千条评论并寻找解决消费者查询的答案。例如,游戏玩家可能对购买具有快速刷新率和支持Gsync和Freesync技术的显示器感兴趣,而摄影师可能对颜色深度和准确性等方面感兴趣。 为了解决这些挑战,在本文中,我们提出了一个生成方面总结模型称为APSUM,能够提供细粒度的总结,maries的在线评论。为了克服方面稀疏性的固有问题,我们施加双重约束:(a)尖峰和厚板之前的文档主题分布和(b)语言监督词主题分布。使用一组严格的实验,我们表明,所提出的模型能够在各种数据集上表现出最先进的方面摘要模型,并提供直观的细粒度摘要,可以简化消费者的购买决策CCS概念• 信息系统→数据挖掘;信息检索;文档主题模型;综述;·计算方法→机器学习;主题建模;关键词概率生成模型;主题模型;信息检索;方面总结。*本文作者在美国加利福尼亚州洛斯阿尔托斯的Technicolor实验室实习时完成本文在知识共享署名4.0国际(CC BY 4.0)许可下发布 作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW 2018,2018年4月23日© 2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186069VineethRakesh,Weicong Ding,Aman Ahuja,Nikhil Rao,Yifan Sun,and Chan-dan K.雷迪2018.一种从在线评论中提取特定方面摘要的稀疏主题模型。在WWW 2018:2018年网络会议,2018年4月23日至27日,里昂,法国。ACM,New York,NY,USA,10页。1引言特定方面主题检测是一个新兴的研究领域,其目标是从大型文本语料库中检测细粒度的主题。例如,考虑图1中所示的关于Dell Alienware15英寸笔记本电脑的一组评论。尽管它是一个流行的模型,但它可能不适合每个人,因为用户的观点根据他们的需求而变化。例如,旅行者可能对产品的便携性方面感兴趣,而游戏玩家可能对诸如处理器频率、GPU和RAM的方面感兴趣,并且可能不重视膝上型计算机的重量。同样,摄影师可能会对具有高色彩准确性和SRGB覆盖率的高端显示器感兴趣,而其他消费者可能只是寻找预算友好的笔记本电脑,而对这些细节并不重要。在我们的示例中,Alienware笔记本电脑因其屏幕和色彩准确性而广受好评;尽管如此,它不是便携式机器。这台机器也有很好的游戏规格,但它不是一个预算友好的笔记本电脑。由于产品的优点和缺点如此不同,手动浏览成千上万的用户评论以选择性地寻找满足用户需求的方面是极其乏味的。这就强调了对能够从用户评论中挖掘特定方面摘要的自动化技术的需求。获得细粒度方面的一种强力方法是应用传统的主题模型,如LDA,获得的主题集群,并检索只有那些集群匹配的查询词。不幸的是,这种技术产生的结果很差,因为方面本身是一篇文章中的子主题;因此,它们可能非常稀疏。例如,考虑一组关于“全球变暖”的文章。让我们假设一个人对谈论“北极熊幼崽的出生率”的方面感兴趣。现在,由于全球变暖是覆盖与环境相关的若干其他方面的非常广泛的主题,因此感兴趣的查询(即, 北极熊、幼崽、出生)只是巨大主题空间的一小部分。不幸的是,传统的主题模型从全局角度对单词进行聚类,其中查询单词可能与来自全局主题的其他单词混淆。例如,查询polarbear的主题聚类之一可能是主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂1574图1:Dell Alienware 15英寸笔记本电脑的用户评论示例烟雾、污染、熊、极地、北方和全球。 很明显,由于其他侵入词,这样的主题集群不提供关于北极熊或其幼崽的任何特定信息。修改传统主题模型的另一种方式是首先手工挑选包含查询词的句子并将语料库的该子集馈送到模型。不出所料,这种方法也有一些严重的缺点。首先,它导致严重的稀疏文本,这阻碍了LDA模型的性能。其次,通过丢弃大块的文本语料库,我们丢失了关于查询本身的有价值的信息。回到我们的例子,北极熊,幼崽和出生的相位可以以不同的形式显现,如婴儿,动物,哺乳动物,生物等。另外,关于这些方面的描述不需要局限于一个单句;相反,它们可以在一系列不需要排他地包含查询词的句子上描述。因此,丢失这样的有价值的数据将导致不完整的词聚类,其可以提供关于查询的非常少的信息总之,与LDA主题模型相关联的经典问题,例如(a)在连贯词链中存在侵入词,(b)具有非常广泛和通用含义的主题,以及(c)如果采用上述方法来提取细粒度方面,则将大大放大为了克服这些挑战,我们提出了一个方面的总结,rization模型称为APSUM,挖掘细粒度方面的用户查询,通过压缩文档和单词的主题空间,以创建重点主题。我们的目标是设计一个模型来捕捉评论写作过程的自然流程因此,我们首先提出这样一个问题:“. 在观察了亚马逊产品和IMDB电影数据库中的几篇评论后,我们发现下面的解释是对评论写作过程的合理解释首先,用户选择感兴趣的方面。第二,他思考一种情感和其他与兴趣的原始方面相关的方面第三,他把这些方面与其他单词结合起来创造一个句子。例如,考虑图1中的评论2;在这里,用户谈论称为屏幕的方面及其抗反射特性(即,抗反射是与屏幕相关的新方面)并且使用极性(或情感)爱来描述该方面。对评论写作过程的这种解释使我们得出以下假设:(1) 假设1:每个句子都是由一个狭窄的方面组成的。例如,在复习2中,我们可以清楚地看到,这个句子只描述了几个方面(a)屏幕和(b)屏幕的抗反射特性尽管可以如果句子中包含多个方面,我们观察到大多数句子都集中在非常狭窄的方面范围内。(2) 假设2:如果我们可以检测到与查询方面相关的新关键字,则这些关键字可以反过来用于获得附加方面。 为了理解这种直觉,考虑用户想要了解膝上型计算机的屏幕质量的场景。现在,如果我们可以以某种方式检测到单词4k是与来自评论2的查询屏幕相关的方面(图1),则可以使用这个新发现的方面来挖掘其他新方面,例如来自评论4的SRGB和Adobe-RGB,因为它包含单词4k。因此,我们可以将单词screen、SRGB、4K和Adobe-RGB聚类为与查询屏幕相关的潜在方面单词。本文其余部分的组织结构如下。我们首先介绍一个简单的方面模型称为M-ASUM在第2节,然后继续解释所提出的APSUM模型和生成过程。 在第3节中,我们解释了崩溃的吉布斯采样,并推导出学习模型参数的方程。数据收集方法和我们的实验结果在第4节中讨论。最后,我们在第五节回顾了体概括的相关工作,并在第六节总结了我们的论文。2建模方面总结我们通过介绍图2(a)中描述的简单模型开始本节。与LDA不同,我们不针对每个单词w对主题进行采样;相反,针对文档M的整个句子d绘制单个主题z。这种表述背后的基本原理是模仿我们的观察,即句子中的方面数量非常少。 在画出主题之后,对于每个单词w,我们画一个变量r,它指示一个单词是体词还是背景词。如果词w与查询Q或意见语料库0匹配,则我们将r设置为1,因为它最有可能是方面词。否则,如果在O或Q中未找到w,则我们从二项式λ中采样相关性r。如果r=0,我们从背景分布B;如果不是,我们从单词主题中采样分布AZ。在本文中,我们认为情感词的方面的一部分,不单独建模这个公式非常类似于没有情感成分的方面和情感统一模型(ASUM)[12];因此,我们将这个模型称为修改的ASUM(或M-ASUM)。尽管很简单,但在我们的实验中,我们发现这个模型在检测细粒度方面出奇的好。然而,它并非没有缺陷。这种强制约束文档主题空间的方法严重影响了词聚类的平滑性。 这在某种意义上等同于将狄利克雷超参数设置为零以实现稀疏性(这是不期望的)。因此,我们提出了一个稀疏的方面总结模型,称为APSUM,利用M-ASUM的优势,同时减轻其弱点。2.1APSUM的生成过程图2(b)示出了APSUM模型的板符号,其使用三个关键部件克服了M-ASUM的缺点:(a)文档聚合器模块,主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂1575- -- -- -- -k,v∈图2:(a)简单方面模型M-ASUM和(b)所提出的方面概括模型AP-SUM的图形结构优先于文档主题空间,以及(c)在词主题超参数上这些组件在下文中更详细地解释:减轻方面稀疏性:在第1节中,我们提到对应于查询的评论可能非常稀疏。这基本上转化为短文本中缺乏单词共现因此,我们引入了一个变量l,作为一个文档聚合器来克服这个问题。模型的生成过程开始于对每个文档采样l。现在,当对文档d的主题进行采样时,我们使用l而不是d的主题分布。约束文档主题空间:spike和slab技术最初由Wang等人引入 [26]以控制主题混合物的导航和概率单纯形中的单词分布,后来扩展到包括弱平滑器[13]。在我们的模型中(如图2(b)所示),我们使用伯努利变量c引入该技术,该伯努利变量c通过开启引入尖峰(即,将其分配给1)或关闭(即,分配表1:本文中使用的符号列表符号描述D=di文档集,di表示单个文档V=vj单词集C用于尖峰主题分布的Z=zi潜在主题的集合K主题数Q,O分别观察用户查询和意见语料θ文档-主题分布AZ方面主题分布B背景词分布Ω文档聚合器分发Π聚合器-主题分配分布λ词相关性分布Dirichlet先验的α,β,δ,σ超参数γ,γ′,ε,ε′Beta先验n的超参数ZVa#词v分配给主题k它到0)特定主题z。然后通过下式引入平滑超参数α和α′。这确保了每个文档(即,综述)主题分布θ在狭窄的主题空间上高度集中,同时避免文档主题分布变得不明确。因此,在上一步中对l进行采样之后,我们对每个主题z K的主题选择器c进行采样。约束词主题空间:为了获得关注于用户查询的方面,重要的是不仅约束词主题空间,而且约束词主题空间。nVvLCl,cLDl,dZ Lz,lRVr,w#背景词vb#times选择变量c被分配给聚合器l#聚合器l被分配给文档d#分配给聚合器l中的主题z的词#分配给相关性r={0, 1}的词w文献-话题比例,还有词-话题比例。为此,我们以词关联的形式在模型中注入了一些监督。在图2(b)中,该分量被示出为观测变量G。这个公式背后的基本原理很简单,如果我们知道单词lens和zoom是相关的,那么我们可以使用这个监督信息来关联这些单词的主题分布。两个字。因此,我们以变量y的形式在词主题平滑器β上引入下游条件。通过这种方式,单词主题稀疏性被自然地注入到模型中,同时避免了过度拟合的问题在[18]中,作者使用类似的技术将监督纳入Bnnnn主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂1576∈∼∼∼∗∼l和|D.=[l〇дΓ(β+n)-l〇дΓ(β)](7)zzKv、′′1,v,¬(dn)Vn ZVP(ld=l| *)∝l,¬d=1z,l,¬d.i*,d(nZL+的|AL|α+ Kα′+i−1)K+β一LDA主题模型。这种监督的细节将在下一节中解释。继续我们的生成过程,在绘制主题z之后,对于每个单词w,我们绘制变量r,其指示单词是体词还是背景词。如果词w与查询Q或意见语料库0匹配,则我们将r设置为1,因为它最有可能是方面词。否则,如果在O或Q中未找到w,则我们从多项式λ中采样相关性r。如果r=0,我们从背景中抽取单词单词分布B,如果不是,我们从分布AZ中采样。该过程在算法1中描述。3参数推断随着APSUM模型的生成过程,我们现在导出用于参数估计的塌陷吉布斯采样器回想一下,我们的模型的可能性由以下等式给出P(l,z,C,r,w |*)=∫P(l |Ω)P(Ω |σ)d Ω∫P(C|π)P(π|,∫P(r|Q,O,λ)P(λ|γ,γ′)dλ∫P(z|l,θ)P(θ|C,α,α′)dθ算法1:APSUM模型DrawBDirichlet(δ)画λBeta(γ,γ′)DrawΩDirichlet(σ)Drawβloдistic(y;G)foreach topicz∈KdoDrawAZDirichlet(βz)端foreachaggregatorldoDrawπlBeta(,′)foreachtopicz Kdo绘制主题选择器ClzBernoulli(πl)端画θlDirichlet(αCl+α¯)端foreach short documentd D do聚合器采样l多项式(Ω)对于每个单词位置wi∈ddo画rBernoulli(λ)∫∫P(w |r,z,AZ,B |β)P(ϕAZ|β)P (ϕB |β)dϕAZ dB(一)如果r==0,则绘制多项式(B)端其中是指所有超参数的集合 我们使用如下的折叠吉布斯采样技术来估计变量C、l、r和z。我们首先对主题选择器C进行采样。 π ι和Cl的联合概率分布由以下等式给出:P ( πl , Cl|* ) ∝ 。 P ( c l zπl ) P ( πl[1][2][3][4][5][6][7][8][9][9][10][10][11][10][11][12][10][11][12][12][13][12][12][13][14][15][16][17][18][19][19][10][19][10][10][10][11][19][10][10][11][19][10][10][11][10][11][11][19][10][11][10][11][10][11][11][10][11][11][10][11][10][11][10][11]a Lα + K α ′)||||其他wiMulti(AZ)端结束结束最后,对于每个单词,相关性rd,n被采样如下:z,Γ(Nl+|AL|α+Kα′)(二)nVb+δvbP(r=0|R¬(dn),*)∝(nRV+γ)·v,f(dn)这里1={z:c{\fnSimHei\bord1\shad1\pos(200,288)}= 1,z = 1,. . . ,K}和B={z:N>0,z=d,n0,v,¬(dn).V(nV+δv),的。. . ,K. I()是标准指示器函数。通过整合出π,二进制变量cl,z使用以下等式获得l,P(rdn=1|R¬(dn),*)∝(nRVnZVa+γ’)·。k,v,¬(dn)+βk,vaP(c)l,z=0 |*)∝(nLC +(1)A(|AL|α+Kα)Γ(Nl+|AL|α+Kα′)vk,va,¬(dn)k,v(六)P(cl,z = l |*)∝(nLC+ ε)[1][2][3][4][5][6][7][8][9][10]|AL|α+Kα′)Γ(Nl+ |AL|α+Kα′)(3)上面的表达式标志着我们的吉布斯采样亲结束Cess和我们继续使用实现单词的方法其次,对于每个文档d,我们对聚合器l进行采样。然而,从图2(b)中,我们看到l受主题的影响分布θ为了克服这个问题,当采样l时,我们作为-主题稀疏性应当注意,APSUM的负对数似然p(wz,β)保持类似于LDA主题模型,并且定义如下:K将主题z视为已知变量。这将导致以下结果表达式:NZ DLβ zz=1nLD+σ。z∈d。jz,d(nZLNZ D+cl,zα+α′+j − 1)。.+z=1v=1z,l,¬d(4)现在,我们不使用对称先验β,而是使用在获得文档d的l之后,我们接着对主题zd,n进行采样主题相关系数y(如图2(b)所示)如下:VLl,zLz,lkVD−1+Lσ[loдΓ(βzv)−loдΓ(βzv+nzv)主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂157722λ五号b对于每个单词n,根据以下等式:P(zd,n= k |Z ¬(dn),wd,n=v,*)∝na+βka,vloдp(β)=−1。G′(y−y′)2v,v zv zv(八)ZL′ZVk,v,¬(dn)(5)v,v′,z(nk,l +cl,kα+α).V a(n)ZV+βa)其中Gv,v’是词之间的观察到的关系(即,镜头和变焦)。使用等式(7)和(8),目标函数r=1k,ra,¬(dn)k,r主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂1578--←--→ →←--表2:综述数据集的特征评论文档数量源查询雷斯特尔254SEMVAL葡萄酒,寿司,服务,披萨霍比特1kIMDbjackson,smaug,legolas,dwarf南北战争1.3kIMDb黑豹,蜘蛛侠,阴谋,战斗相机5k亚马逊图片,镜头,电池,自动对焦HomTh5k亚马逊无线,低音,pandora,vizio定义如下:argmin [Lβloдp(β)](9)yzv从上面的函数中,可以认识到,通过对y进行优化,我们在观察(或监督)变量G的帮助下动态地改变先验β。语言图G的构造:观察变量图2中的G是使用两种监督创建的:(a)使用Stanford NLP模块[7]构建语言依赖图和(b)简单的实体关系。来自自然语言处理领域的依赖图提供词之间的语法关系以归纳提取规则。例如,在句子“Nikon D500 has a great lens”中,我们可以利用体-体关系(即,AA-Rel):lensobjhassubjD 500。有许多这样的方面提取规则,但在本文中,我们限制我们的解释这个简单的例子,因为创建这些规则不是我们工作的主要重点而是简单地利用现有的研究[11,31]和python NLP工具1到提取这样的潜在体词。另一方面,实体提取是一个简单的过程,我们使用相同的python模块从复习句子中提取实体,并将其视为潜在的体词。4实验在本节中,我们对各种数据集和测试用例进行了一系列严格的定量和定性实验,以评估所提出的模型。 通常主题模型中的文档-主题和词-主题超参数分别设置为0.1和0.01;因此,我们遵循同样的惯例。模型特定的超参数η、σ、λ被设置为0.1,β = 0。01,δ = 0。001,而弱平滑器λ′ = 0. 00001. 这些值的确定基于在执行一些初始实验并手动判断由AP-SUM模型产生的方面的质量之后,使用试错法。主题的数量在100 - 150之间变化,聚合器变量l也在150 - 250之间变化,这取决于查询的稀疏性。迭代计数被设置为250,并且在50次迭代的老化周期之后执行对字平滑系数y的优化M-ASUM和APSUM模型的实现可以从我们的Github存储库2.4.1使用的数据集对于我们的实验,我们从三个不同的域获得数据集这些数据集的详细信息如下:(a) SEMVAL的餐馆评论语义评估(SEM-VAL)[24]是一个关于计算语义分析系统评估的流行研讨会,它为各种信息检索问题提供了注释数据集 对于我们的实验,我们使用来自SEMVAL 2015的任务12的Senti- ment跟踪的餐馆评论数据[22]。(b) 来自IMDB的电影评论:我们使用IMDB的pythonAPI3从互联网电影数据库中抓取电影评论。 在本文中,我们选择了以下电影评论:(a)霍比特人:史矛革的荒凉,(b)美国队长:内战。(c) 来自亚马逊的产品评论:来自Amazon的50个域在线评论数据集是另一个在信息检索社区中很受欢迎的文本语料库[5]。我们评估我们的模型上的两个产品类别,即相机和家庭影院。对于每个数据集,我们选择四个不同的查询来衡量APSUM模型的性能。表2总结了每个数据集的基本统计数据和查询。我们采用传统的预处理步骤,包括标记化,去除停用词,词形还原和去除词汇量小于五个字。4.2比较方法我们将所提出的模型的性能与以下基线方法进行比较:(1) LDA:我们的第一个比较候选是经典的潜在狄利克雷分配(LDA)模型[2]。 对于每个数据集,我们通过将超参数α设置为0来运行LDA模型。1,β为0。01,主题数为70。然后手动评估所得到的主题聚类,以查看词聚类是否与目标方面(或查询)相关(2) MG-LDA:由Titov et. 例如,多粒度模型[25]是关于从在线评论中检测方面特定主题的流行作品之一,其中方面粒度通过对全局和位置主题分布进行建模来实现。MG-LDA使用四个超参数γ、αdl、αloc和αloc。在我们的实验中,所有这些参数都设置为0.1,主题数为100。(3) M-ASUM:如第2节所述,本文(图2)中提出的简单方面模型(M-ASUM)是方面情感统一模型(ASUM)[12]的变体,其中主题针对整个句子进行采样,而不是传统的每个单词采样。在我们的实验中,参数γ、δ被设置为0。1,β为0。001,主题数为100。(4) 目标主题模型(TTM):TTM是基于方面的主题摘要的最新模型[27]。因此,在本文中,我们选择TTM模型作为比较的主要该模型具有七个超参数,其设置如下:γ=α= 1,p=q=1,βir=δ= 0。001,ε = 1. 0× 10−7,主题数为10。上述基线的参数是基于试验和误差选择然而,我们注意到,对于大多数场景,1https://github.com/dasmith/stanford-corenlp-python2https://pypi.python.org/pypi/imdbpie/https://github.com/VRM1/WWW18主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂1579.表3:ASUM在精度分数方面的性能比较数据集方面LDAMG-LDAM-ASUMTTMAPSUM雷斯特尔p@5 p@10 p@20 p@5 p@10 p@20 p@5 p@10 p@20 p@5 p@10 p@20 p@5 p@10 p@20酒0.360.30.13 0.57 0.430.210.58 0.560.410.66 0.610.38 0.760.720.41寿司0.34 0.310.15 0.61 0.530.360.66 0.620.350.57 0.520.29 0.630.570.3服务0.29 0.220.10.59 0.430.220.52 0.490.210.62 0.530.33 0.710.630.31霍比特杰克逊0.46 0.350.19 0.49 0.480.190.41 0.420.220.66 0.560.41 0.690.610.46Smaug0.51 0.450.22 0.71 0.630.410.73 0.690.310.76 0.710.42 0.880.830.49索伦0.41 0.360.20.71 0.590.390.66 0.610.350.71 0.650.40.790.770.43内战黑豹0.56 0.440.24 0.69 0.510.220.69 0.550.380.81 0.770.45 0.850.790.46蜘蛛侠0.48 0.360.19 0.73 0.670.340.71 0.680.390.79 0.710.44 0.820.790.4情节0.41 0.370.18 0.66 0.520.260.68 0.610.310.69 0.650.38 0.730.670.43相机图片0.53 0.460.21 0.65 0.580.250.61 0.550.410.770.70.41 0.770.730.44自动对焦0.25 0.180.11 0.58 0.480.280.60.610.350.65 0.590.350.70.710.38透镜0.22 0.230.090.60.510.250.63 0.610.310.61 0.620.38 0.710.660.38HomTh无线0.19 0.180.10.58 0.460.220.51 0.450.30.58 0.540.32 0.660.550.4低音喇叭0.26 0.210.12 0.66 0.530.310.67 0.650.320.65 0.610.40.730.640.41潘多拉0.18 0.150.08 0.51 0.470.290.49 0.420.280.49 0.350.25 0.540.410.28平均分0.360.30.15 0.62 0.520.280.61 0.570.320.670.60.37 0.730.670.4APSUM性能增益0.37 0.370.25 0.11 0.150.12 0.120.10.08 0.06 0.070.03模型使用作者设置的默认值给出了最佳结果4.3评价方法判断主题质量:主题模型通常使用流行的方法进行评估,例如困惑或保留数据的可能性;然而,研究人员已经表明,这些自动评估方法并不能转化为主题的实际人类可解释性[4]。因此,在我们的论文中,我们采用以下技术来判断由APSUM产生的主题的质量:(a)人类判断和(b)主题连贯性。为了进行人工判断,对于每个领域(即电影评论,产品和餐厅评论),我们选择了三名学生,他们是判断电影相关主题的专家,我们的三名合作者是判断产品相关主题的专家主题的质量是根据多数表决方案决定的。4.3.1评估指标。 对于我们的第一次评估,我们使用由Wang等人提出的精度度量的归一化版本。[27]。模型m的精度得分定义如下:KM第二个评价指标是主题连贯性,其定义如下:相干性(V)=score(vi,vj,ε)(11)vi,vj其中V是词汇表,ε是平滑因子。的score(vi,vj,ε)表示两个词之间的互信息并且可以采取许多不同的形式。最常用的是UMass测度[15]和UCI测度[17],本文选择后者。4.3.2定量评价。 表3总结了我们的实验结果,揭示了几个有趣的结果。首先,所有四个模型显示出明显的改进,标准的LDA,从而证明,传统的主题模型是不适合检测细粒度的方面,由于其倾向于产生全球性的主题。其次,很明显,APSUM通过产生更好的精度分数而优于其他模型。当与TTM相比时,APSUM在前5和前10个单词上有6-7%的增益,但是当考虑前20个单词时,这个增益下降到只有3%。这种收益递减的原因可以归因于数据的组成,其中大多数评论(特别是产品数据)都非常短,并且涵盖了非常有限的词汇的狭窄范围。例如,在餐厅数据集中,只有六七条评论提到了寿司P@T=.z=k#Rel(Qz)(十)更重要的是,描述仅限于4-5行Kuz=k#MaxRel(Qz)超过70%的人与体相关的词有很强的重叠如前菜、开胃菜、金枪鱼、亚洲菜和服务。其中,K_m是与用户感兴趣的查询相匹配的方面(或主题)的集合应当注意,该计数是从为查询提供最佳方面的模型获得将所提出的模型与MG-LDA和M-ASUM进行比较,我们看到性能提高了15%,并且不出所料,APSUM实现的最大增益超过了标准LDA模型,比排名前10的单词提高了约37%我们还尝试将MG-LDA和M-ASUM的主题数量从50增加到100,以查看方面质量是否有所提高虽然这肯定会导致挖掘更多的方面,但由此产生的主题空间过于嘈杂,而且人类.M主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂1580图3:主题一致性的比较审判变得太乏味了。 表3还示出了另一个有趣的趋势,其中MG-LDA对于前5个单词似乎比M-ASUM表现更好;然而,对于前10个和前20个单词,该结果相反,其中前者优于后者。 如前一节所述,LDA倾向于不断产生大量与兴趣方面不一致的全球相关主题。 由于空间限制,我们只显示了三个查询的结果,但平均精度分数是使用第四个查询的结果计算的。主题连贯分析APSUM的连贯得分图3所示的结果揭示了使用人类判断获得的精确度分数之间的一些有趣的相似性首先,在所有数据集上,APSUM的整体性能明显优于其他模型,并且由于其丰富的词共现信息,在电影数据集上实现了最佳的一致性得分。然而,还可以观察到,TTM取代了我们的模型用于较低的主题计数(即,10-50之间这主要是由于TTM的作者提出的图形模型的结构也就是说,当主题数量超过一百时,我们的模型明显优于TTM。其次,MG-LDA和M-ASUM具有非常相似的一致性得分,并且LDA落后于所有其他模型;因此与表3中所示的精确度得分建立了令人惊讶的相似性。 由于空间限制,我们排除了家庭影院评论的结果,但在我们的测试中,性能与相机评论的数据集非常相似。语言监督的效果我们通过在图4中示出监督的效果来结束本节,其中X轴表示不同的监督信息,并且y轴是K(p@K)处的精度,其使用相同的人类判断来计算术语s-先验表示我们模型的无监督版本,其对所有超参数和术语D-图和Ent表示使用依赖图和实体(参见第3节)。该图清楚地表明,依赖图方面的语言监督为APSUM的性能提供了合理的提升,以挖掘相关性更好的方面 另一方面,实体型监督由于其简单化的性质而不如D图监督好。看起来简单地检测句子中的实体并不能传达关于方面的足够信息图4:语言监督的效果自己显然,除了监督信息之外,主题计数在确定精度方面起着重要作用除了餐厅评论数据集之外,主题计数为150会产生最佳性能。这是因为,在餐馆数据集中,文档的数量(即评论)是极其稀疏的;因此,增加主题的数量只会引入噪音,从而使监督变得毫无意义。4.3.3定性评价。 在本节中,我们通过显示实际方面摘要来执行所提出的模型的定性分析,并从人类理解的角度分析其质量。由于空间限制,不可能显示每个模型和查询的结果因此,除了AP-SUM之外,我们选择了另外两个在我们的定量评估中产生最佳结果的模型,即TTM和M-ASUM。 表4示出了这些模型在查询、电池和无线上产生的方面,其中用红色标记的词表示入侵(或噪声)词。 从结果来看,很明显,由APSUM产生的方面非常专注于目标查询,更重要的是,每个方面下的词簇在传达统一主题方面非常一致。例如,方面容量与查询电池和词语寿命、充电、平均、屏幕等高度相关。表示该相位某些属性。类似地,与查询Speaker和Setup相关联的大多数词在描述这些方面的对于TTM来说,情况并非如此,在某些情况下,模型表现得非常好,而对于其他情况,它太嘈杂,无法传达连贯的主题。例如,单词卡,视频,数码单反相机和内存似乎传达了一些关于方面的意思,在记忆卡;然而,入侵的单词佳能,软件,决定等与这方面的关系不大这使得这个主题群非常通用,难以解释。最后,实例还表明,由M-ASUM产生的然而,当与APSUM和TTM相比时,它肯定倾向于有更多的侵入(或不相关)单词。事实上,在某些情况下,例如关于Wireless的查询,有许多随机词,如money,samsung,plasma等。我们现在分析电影数据集的各个方面将电影与产品数据集分开的一个关键特征是评论的同质性换句话说,关于相机的评论是主题:Web Search andMiningWWW 2018,2018年4月23日至27日,法国里昂1581表4:APSUM为来自Amazon的产品评论数据集生成的方面的定性比较域:摄像头,查询:电池域:家庭影院,查询:无线APSUMTTMM-ASUMAPSUMTTMM-ASUM能力类型视频通用大小能力扬声器设置扬声器设置路由器通用生活小时额外佳能图片图片无线壁无线低音炮无线钱能力AA视频卡视频大低音炮 设置扬声器单元低音炮三星电荷包行动视频感觉AA扬声器单元后添加剧院无线平均锂枪DSLR手行动供电山好角度路由器血浆屏幕可充电个人存储器尼康功率声音无线 环绕布置接收器明星备用隔室夏天软件大巨大伟大支架添加方向能力英寸可移除充电器辊决定举行柯达角落线惊人交易GHzHDMI分钟额外快门升级容易民间低音路由器公寓美丽互联网低音优势风格DVD返回膜介质瓦特小授权民间康卡斯特特征表5:APSUM针对来自IMDB的电影评论数据集产生的方面的定性比较域:史矛革的荒凉,查询:legolas域:美国队长内战,查询:战斗APSUMTTMM-ASUMAPSUMTTMM-ASUM爱打击大通爱通用爱机场团队机场行动机场安特曼陶瑞尔莱格拉斯矮人 莱格拉斯布鲁姆莱格拉斯场景美国战斗好战斗东西莱格拉斯兽人桶精灵奥兰多陶瑞尔行动队长字符铁场景安特曼矮人序列兽人爱精灵马机场帽膜电影机场杰作奇力场景河奇力膜兽人序列团队机场帽史诗有趣精灵兽人大通场景书女性战斗Bucky场景Bucky端呆子三角形头莱格拉斯三角形故事瑟兰迪尔编舞托尼最终士兵Bucky巨大爱伟大骑龙瑟兰迪尔爱伟大最终战斗新十年美丽线打击水返回行动需要座椅铁人情感蜘蛛侠威胁扎克关系马能够好LOTR关系边缘原因史诗哥哥有趣娜塔莎它不是关于一个特定的产品;相反,它是各种产品类型的组合,包括紧凑型相机,数码单反相机和双筒望远镜从不同的品牌,如佳能,尼康和索尼。因此,该数据集的方面总结不一定集中在任何特定商品上。另一方面,电影数据集由谈论特定电影的评论组成;因此,方面摘要集中于电影的特征。 表5使用关于电影“Hobbit : The Desolation of Smaug” 的 查 询 Legolas 和 关 于 电 影“Captain America Civil War”的属性fight来展示该结果。这部电影在三个主要场景中描绘了莱格拉斯(a) 这一幕描绘了莱格拉斯对精灵陶瑞尔和矮人基利之间的关系(b)兽人,精灵和矮人在一条湍急的河流上备受赞誉的追逐和(c)莱戈拉斯追逐一个名叫博尔格的兽人的战斗序列所有三个场景分别总结为爱情,战斗和追逐。TTM模型也产生了一些很好的方面摘要,但是与APSUM相比,描述这些方面的单词特征更嘈杂例如,爱情体中出现了“龙”、“归”等外来词,与主题不相吻合。此外,我们还观察到一个非常通用的主题(即,全球话题),它基本上有电影中的所有流行词汇,这样的话题传达的意义很少甚至没有。类似的争论可以在查询斗争的结果上进行。电影描述了钢铁侠和美国队长在机场激烈的对峙,受到了很多评论家的称赞表5显示,APSUM和TTM都非常好地总结了这一方面。 除了这个场景,APSUM还产生了一个叫做团队的方面,总结了高潮打斗场景中涉及的主要人物。或者,TTM是能够揭示一些情感词的行动方面,而M-ASUM简单地产生一个嘈杂的主题集群,似乎是有关的字符蚁人。读者应该注意到,我们试图从所有模型中检索相同的方面,以便进行公平的比较。然而,这是不可行的,因为模型产生的主题差异很大例如,在该示例中,TTM从未产生与电池类型相关的主题(即,aa、锂等)而APSUM没有总结与尺寸相关的任何方面总之,从这些定性的例子中,很明显,APSUM优于其他基线和最先进的方面模型。虽然我们无法显示所有查询的结果,但在我们严格的测试中,我们发现APSUM即使在稀疏数据集上也能产生集中的和人类可解释的方面,这是由于三个关键组件:(1)缓解单词共现问题的文档聚合器l,(2)限制文档主题空间的钉板优先以及(3)主题平滑器β上的下游调节ykv这在第2节中讨论过。4.3.4方面总结的可视化界面。尽管我们使用各种测试用例对我们的模型进行了严格的评估,但人们仍然可能会问这样的问题:“这个模型如何对最终用户有用?”“.为了回答这个问题,我们提供了一个可视化的主题:Web Search andMiningWWW
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功