没有合适的资源?快使用搜索试试~ 我知道了~
46≤≤ −−Natura:Towards Conversational Analytics for Comparing andContrasting Time Series摘要今真岛加州大学河滨siman003@ucr.edu埃蒙·基奥加州大学河滨eamonn@cs.ucr.edu在这项工作中,我们介绍了自然(发音为比较和对比两个事物是科学中最基本的概念之一。虽然现有的工具允许这样的比较对(例如,文本、树、图表、直方图),但目前还没有用于时间序列数据的此类工具考虑到时间序列数据在现代生活中的普遍存在,这有点令人惊讶人们可以想象一种通过报告各种汇总统计数据来比较和对比两个时间序列的工具然而,科学家、工程师和医生通常用自然语言交流这些发现。在这项工作中,我们提出了Natura,一个领域不可知的自然语言框架,用于比较和对比两个时间序列,旨在复制这种人类技能。 通过案例研究,我们证明了我们的框架的有效性和实用性。关键词时间序列;会话分析;对比时间序列;自然语言ACM参考格式:希玛·伊玛尼和埃蒙·基奥2020年。Natura:Towards ConversationalAnalytics for Comparing and Contrasting Time Series(《自然:比较和对比时间序列的会话分析》)在2020年网络会议(WWW '20Companion)的同伴会议上,2020年4月20日至24日,台北,台湾。ACM,New York,NY,USA,2页。https://doi.org/10。1145/3366424.33826901引言两个对象的比较是科学史上最基本、最有成效的工具之一,然而,据我们所知,基本上还没有比较和对比两个时间序列的工具。 根据观察科学、医学或工业领域专家的经验,他们的交流中往往充斥着比较和对比成对时间序列的短语。例如,比较单个时间序列的前后部分:“......在经皮冠状动脉介入治疗后,我们注意到ECG中的尖峰降低“,或者,比较冷却塔的两个不同的时间序列,“北塔的冷却器循环时间似乎比南塔快“。有一些工具可以比较时间序列,大多数工具都是通过将时间序列嵌入到树[5]或直方图中,然后突出显示该空间中的差异虽然这可能是富有成效的,正如我们上面暗示的那样,它在某种程度上与从业者如何做到这一点无关本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2020 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-7024-0/20/04。https://doi.org/10.1145/3366424.3382690使用自然语言比较和对比时间序列的框架。 我们组织其余的文件如下:在第2节中,我们介绍必要的符号和定义。第3节介绍了比较和对比时间序列数据的词汇。我们在第4节中解释了我们的框架Natura。第5节回顾相关工作。 在第6节中,我们进行了实证评估。第7节得出结论并提出今后工作的方向。2定义和符号我们首先描述必要的定义和符号。我们感兴趣的数据类型是时间序列:定义1(时间序列):长度为n的时间序列T是一个实数序列:ti:T = t1,t2,. . . ,tn.时间序列的局部区域称为子序列:定义2(子序列):时间序列T的子序列Ti,m是从位置i开始的长度为m的T的值的连续有序子集。Ti,m= ti,ti +1,. . . ,ti+m 1,其中1 i n m+1。定义3(时间序列语料库):时间序列语料库是一个大型的时间序列集,我们使用它来执行统计分析,如我们在第4节中所示。3词汇我们所提出的方法的一个基本假设是,对于任何给定的子序列,我们可以测量到什么程度,它可以说是拥有人类可能用来描述它的各种功能,如“平滑”或“对称”。 这不是一个完全解决的问题,但我们将在这个方向上利用最近的进展[3]。我们从我们的词汇表中列出并简要解释了一些由形容词、比较形容词、副词和连词组成的例子我们的形容词的一个小例子是:上升(下降):最佳拟合线的斜率为正的程度对称(不对称):奖励子序列关于其中点具有轴对称spiky(dropout):奖励具有比平均值大(少)得多的少量(但非零)数据点的子序列regular(unregular):奖励可能重复的子序列。我们需要能够使用以下比较级形容词来传达差异:{少,多,相等}我们希望能够传达差异的大小,因此我们使用以下副词:(轻微,适度,相当)····47WWW最后,一个简单的句子列表会让人感觉非常不自然和脱节。我们可以用一些简单的连词来解决这个问题{然而,和}4Natura我们现在可以确定眼前的问题了问题定义:给定两个时间序列,预测大多数用户会用来比较/对比它们的句子。我们假设用户仅限于上一节讨论的词汇和(非正式)语法。要生成文本摘要,Natura包括以下步骤:将时间序列映射到形容词:对于我们词汇表中的每个形容词,我们定义了一个函数,该函数采用时间序列和子序列长度并输出元时间序列。我们为第一步中每个直方图对应于我们词汇表中的一个单词。生成比较形容词:我们计算两个时间序列histogram之间的差异,每个字使用他们的差异。 如果差值为负、正或零,我们分别将其标记为更小、更大和相等。生成副词:我们使用时间序列语料库(定义3)为每个形容词生成我们使用L2范数计算语料库中时间序列的每个形容词的直方图之间的距离。这将生成2 n个距离,其中n是语料库中时间序列的数量。我们用标准差来给副词排序,适度和显著。生成对话:使用我们为每个形容词生成的比较级形容词和副词,我们可以在两个时间序列之间创建一个句子。例如,Natura可能会回应:“time 我们根据副词排名对这些句子进行排序,并将其报告给用户。默认情况下,Natura报告前两个句子。Natura使用“and“作为两个句子的连接词。如果第二句中的比较形容词是less,那么Natura使用“however“作为连接词5相关工作有丰富的文献对比和比较图[6]。 区分两个图的模式称为对比子图。对比度子图是出现在一个图中但不出现在另一个图数据集中的最小图。对比子图通常用于构建图分类模型和高级摘要。在生物学中,人们对蛋白质和DNA序列的对比非常感兴趣。生物学家们有兴趣找到在蛋白质序列内区分两个蛋白质序列的显著的同源性[4]。 找到这些对比模式的一种方法是搜索在其中一个序列中经常观察到的子序列,而不是另一个[1]。6实验评价心电图ECG是记录心跳电活动的遥测技术图1显示了两个时间序列的10秒ECG数据[2]。 主治医生可能会对比较以下两个时间序列感兴趣。图1:Alice和Bob对应于ECG数据的时间序列他可能会问自然的比较。自然的回声最多两个时间序列的对比差异为:时间序列Alice明显比时间序列Bob更对称,但是时间序列Bob比时间序列Alice更不规则。从视觉上看,我们可以验证Natura的输出是合理的。在这种情况下,时间序列Bob中某些伪影的存在使得该时间序列不太对称和不太规则。7讨论和结论我们介绍了Natura,一个用于比较和对比时间序列数据的框架。Natura的一个局限性是使用了第3节中介绍的有限词汇。因此,我们打算通过增加更多来自不同领域的词汇来扩大我们的词汇量,包括经济学,统计学,制造业和生物学。我们故意保持Natura域不可知;然而,为某些域定制它可能是有用最后,由于Natura是一个基于文本的比较,我们相信它可以利用丰富的信息检索工具,如相关反馈。引用[1] 董国柱和詹姆斯·贝利。2012年。 对比数据挖掘:概念、算法和应用。Press.[2] 阿里湖,加-地Goldberger,Luis A.N. 放大图片作者:Jeffrey M.放大图片创作者:John W.作者:Joseph E.Mietus,George B.穆迪,彭忠康,H. 尤金·斯坦利。两千PhysioBank,PhysioToolkit和PhysioNet:复杂生理信号新研 究 资 源的组成部分。 Circulation 101 , 23 (2000年6月),e215-e220。https://doi.org/10.1161/01.CIR.101.23.e215[3] Shima Imani,Sara Alaee,and Eamonn Keogh.2019年。将人类置于时间序列分析循环中在2019年万维网会议的配套程序中。ACM,635[4] 史蒂芬·G·约翰逊和R·斯蒂芬·霍华德。2007年淡水蜗牛无性系和有性系中同义和非同义序列进化的对比模式。进化:国际有机进化杂志61,11(2007),2728[5] JessicaLin , Eamonn Keogh , Stefano Lonardi , Jeffrey P Lankford , andDonna MNystrom. 2004年。可视化挖掘和监控海量时间序列。 第十届ACMSIGKDD知识发现和数据挖掘国际会议论文集。ACM,460[6] 罗杰明亨丁和詹姆斯贝利。2006年。 挖掘最小对比子图模式。2006年SIAM国际数据挖掘会议论文集。SIAM,639·◦◦◦·◦·◦◦◦·◦◦◦
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功