没有合适的资源?快使用搜索试试~ 我知道了~
业余自行车运动员的个性化实时监控
赛道:业余自行车运动员的个性化实时监控低端设备:概念验证性能评估WWW 2018,2018年4月23日至27日,法国里昂1855面向实时信息摘要的子主题发现算法分析古斯塔沃·贡萨尔维斯NOVA LINCS,Dep. 计算机科学里斯本新星大学gs.goncalves@campus.fct.unl.pt弗拉维奥·马丁斯NOVA LINCS,Dep. 计算机科学里斯本新星大学flaviomartins@acm.org若昂·马加良斯NOVA LINCS,Dep. 计算机科学里斯本新星大学jm. fct.unl.pt摘要大数据流的兴起引入了关于向信息需求递送相关内容的新挑战这种需求可以被看作是一个广泛的信息主题。通过在更广泛的数据流中识别子流,我们可以检索与主题的多个方面相匹配的相关内容;从而总结信息并匹配初始需求。在本文中,我们建议研究随着时间的推移产生的子流,并比较各种聚合方法来总结信息。 我们的实验是使用标准的TREC实时摘要(RTS)2017数据集进行的。ACM参考格式:Gustavo Gonçalves,Flávio Martins,and João Magalhães.2018年。面向实时信息摘要的子主题发现算法分析。在WWW '18伴侣:2018年网络会议伴侣,2018年4月23日至27日,法国里昂。ACM,New York,NY,USA,2页。 https://doi.org/10。1145/3184558.31916511引言社交媒体网络中的内容的连续生成产生需要被过滤和分析的实时数据流,以识别朝向终端用户的相关信息。TREC RTS跟踪旨在通过在接近实时的推送通知场景中或在每日摘要场景中的延迟摘要中交付最相关的推文来解决这些问题。这两个场景共享提供相关和多样信息的标准。 这条赛道引入了新的挑战,例如,处理不断扩展的数据集,并准备算法来面对随着时间的推移不同的相关性分布。2016年版的排名前两名的团队[3,4]利用阈值定义来检测不同的文档。 两个团队都定义了相似性度量,并在TREC微博2015数据集上训练了他们的模型,以设置多样性阈值。对于2017年版的RTS赛道,我们采用了类似的方法来总结主题。轨道的实时约束将决定检测不同文档的策略两个主要的策略包括在所有提交的推文之间进行比较,或者在一条推文这 项 工 作 得 到 了 CMU 葡 萄 牙 研 究 项 目 Ref. GoLocalCMUP-ERI/TIC/0033/2014 ,NOVA LINCS项目参考UID/CEC/04516/2013和葡萄牙的FCT-MEC。本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04..https://doi.org/10.1145/3184558.3191651和摘要的词汇集 尽管与文档到集合方法[1]相比,文档到文档比较提高了性能,但后者的资源成本较低,这在移动场景中可能至关重要。在我们的参与下,我们研究了不同总结方法的影响 摘要研究进一步探讨了通过利用聚类和主题模型。我们的目的是评估标准的聚类和主题建模方法的有效性时,面对文本流数据集。第2节描述了总结技术,第3节给出了获得的结果,第4节给出了结论。2发现潜主题多样性通过文档之间的相似性来衡量,并且是评估参与TRECRTS跟踪的系统的性能的主要标准之一。RTS轨道的相关性评估依赖于语义聚类。语义聚类[2]由美国国家标准与技术研究院(NIST)评估员进行,其重点是对呈现相似内容的推文进行分组。使用聚类的相关性评估惩罚在提交开创性推文之后出现的类似推文的提交。在本文中,我们使用的符号集群与子主题互换 为了获得完美的分数,系统必须提交每个评估的俱乐部的最相关的推文。我们选择研究以下流行的算法,K-means,NMF,LDA和DTM。3评价为了评估我们的工作,我们需要明确定义所考虑的数据集和协议所选择的度量来测量聚类有效性的指标是NMI和ARI,并且对于总结结果的相关性,我们利用nDCG@10。3.1数据集和方案所使用的数据集是通过在2017年7月29日至8月5日(UTC)之间的八天内收听Twitter 1%流而构建的。该数据集用于TREC RTS跟踪。我们利用NIST评估员做出的相关性判断包括推文相关性和聚类分配。我们将我们的任务定义为在细粒度场景中比较常用的聚类和主题建模技术的分组性能在我们的实验中,我们希望观察标准技术将如何接近RTS轨道的理想聚类。我们产生了一个共同的检索排名的所有方法过滤掉不相关的文件,根据相关性的判断。我们模拟了完美的多样化算法赛道:业余自行车运动员的个性化实时监控低端设备:概念验证性能评估WWW 2018,2018年4月23日至27日,法国里昂1856()下一页()下一页70060050040030020010002017年数据集的主题演变天主题RTS207806040200天主题RTS47706050403020100天图1:对RTS207(红色)和RTS47(蓝色)主题中包含的选定子主题进行深入相关性研究比较算法。 对于每个确定的子主题,将提交具有最高分数的文档以评估相关性。3.2结果和讨论我们的分析集中在两个主要部分。子主题随时间的演变,以及发现子主题的算法的性能。3.2.1子主题演变。 在图1中,我们说明了在评估期间,RTS207和RTS47主题的累积相关性的演变。左侧呈现的第一个图描绘了主题的总累积相关性 以下曲线图呈现了三个聚类的相关性演变,其中所选主题的累积相关性较高。每个文档都可以被评估为不相关、相关和高度相关。通过分析每个主题的三个子主题,我们可以观察到三个相关性分布,算法必须能够检测到。首先,我们可以观察到具有合理均匀增长率的子主题,例如,主题RTS207的子主题1456和1490以及主题RTS47的子主题2016。 该行为可以被解释为在评估时段期间被更新的感兴趣的子流。其次,我们可以看到在短时间跨度内具有累积相关性的尖峰的子主题,例如,主题RTS47的子主题1159这种子主题分布可以被解释为由于社交媒体上大量发布的文件而成为正在研究的主题的主要子流最后,我们观察到一些子主题更早达到平台期例如,主题RTS47的子主题1753和1772这些可以被解释为对主要主题有影响的感兴趣的子流,但是是没有后续的孤立事件,或者是在评估期开始之前逐渐消失的事件检索系统通常用于查找所有或最相关的文档。然而,实时信息的传递带来了更微妙的挑战,这取决于对传入信息的预测。因此,必须研究新的聚类和多样性方法,以满足这些实时相关性分布的要求。3.2.2子主题发现。对于子主题的发现,我们利用NMI和ARI度量来评估所获得的聚类与理想聚类之间的相似性。对于每个算法,我们为每个主题提供了最佳的子主题数量。在表1中,我们可以观察到考虑所选度量的所考虑的算法NMF是一种更接近最优聚类的方法表1:聚类方法对实时摘要性能的影响的结果。方法NMI ARI nDCG@10无聚类- -0.4681K均值JS K=子主题数0.7260.387 0.5771K均值Cos K=子主题数0.7360.406 0.5771非货币基金组织0.6130.228 0.4426电话:+86-021 - 8888888传真:+86-021 - 88888888NMI和ARI中的所有其他指标 其次是K-Means变化,其在NMI和ARI中的表现接近NMF,特别是使用JS散度。 LDA和DTM性能很差,因为缺乏文本元素和文档来训练模型。我们发现,NMF和K-Means在短文档的子主题识别任务中工作得更好然而,仍然有改进的空间,这两种方法都偏离了完美的聚类。4结论不同的数据分组方法的分析,使我们能够得出结论,目前使用的方法更适合于发现感兴趣的子流。文件的简短本身就是实现这一目标的一个挑战NMF在模拟的posthoc任务中表现出良好的性能,使用预先知道子主题数量的oracle条件需要进一步的工作,以确定一个合适的相似性度量,敏感的小而有意义的变化,在文档词汇。利用更准确的相似性,可以实现改进的最终,迅速适应水流的微妙动态。引用[1] MargaritaKarkali, François Rousseau ,Alexandros Ntoulas, and MichalisVazir-giannis. 2014 年 使 用 时间 IDF 在 文 本 流中 进 行 有 效 的新 颖 性 检 测 CoRRabs/1401.1456(2014)。[2] 吉 米 ·JLin, Salman Mohammed , Royal Sequiera , Luchen Tan , NimeshGhelani , Mustafa Abualsaud , Richard McCreadie , Dmitrijs Milajevs , andEllen M. 沃希斯2017. TREC 2017实时汇总跟踪概述。在TREC 2017中。美国国家标准与技术研究所。[3] Reem Suwaileh,Maram Hasanain,和Tamer Elsayed.2016年。轻量级,保守,但有效:可扩展的实时推文摘要。在TREC 2016中。美国国家标准与技术研究所。[4] 谭海辉,罗大军,李文杰。2016年。理大于TREC 2016实时总结。在TREC2016中。美国国家标准与技术研究所RTS 207RTS 47第1159组1456星系团1490星系团2016年集群1753星系团1772星系团累积相关性累积相关性累积相关性
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- VMP技术解析:Handle块优化与壳模板初始化
- C++ Primer 第四版更新:现代编程风格与标准库
- 计算机系统基础实验:缓冲区溢出攻击(Lab3)
- 中国结算网上业务平台:证券登记操作详解与常见问题
- FPGA驱动的五子棋博弈系统:加速与创新娱乐体验
- 多旋翼飞行器定点位置控制器设计实验
- 基于流量预测与潮汐效应的动态载频优化策略
- SQL练习:查询分析与高级操作
- 海底数据中心散热优化:从MATLAB到动态模拟
- 移动应用作业:MyDiaryBook - Google Material Design 日记APP
- Linux提权技术详解:从内核漏洞到Sudo配置错误
- 93分钟快速入门 LaTeX:从入门到实践
- 5G测试新挑战与罗德与施瓦茨解决方案
- EAS系统性能优化与故障诊断指南
- Java并发编程:JUC核心概念解析与应用
- 数据结构实验报告:基于不同存储结构的线性表和树实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)