没有合适的资源?快使用搜索试试~ 我知道了~
蒙彼利埃大学计算机科学博士学位论文:捕捉渐进模式的时间约束
获得蒙彼利埃大学博士学位的论文计算机科学博士学院:信息、结构、系统研究单位:LIRMM研究团队:FADO捕捉渐进模式的时间约束由Dickson Odhiambo OWUOR于2020年10月23日提交在Anne LAURENT教授和Joseph OnderiORERO在陪审团面前Anne Laurent,蒙彼利埃大学LIRMM教授Joseph Onderi Orero主任,斯特拉斯莫尔大学FIT讲师,共同监督Nicolas Sicard,LRIE教授研究员,EFREI考官Pascal Poncelet,蒙彼利埃大学LIRMM教授考官Maria Rifqi,LEMMA教授,巴黎第二大学报告员Marie-Jeanne Lesot,HDR,LIP 6,索邦大学讲师“To摘要频繁模式搜索允许这些相关性对于识别和隔离属性之间的关系非常有用,这些关系在快速数据分析中可能并不明显例如,研究人员可以应用这样的搜索来确定数据集中的哪些属性具有未知的相关性,以便隔离它们以假设研究人员有提取的渐进模式可以采取"教育水平越低,工资越高"的形式由于这种关系是罕见的,研究人员可能会感兴趣的是把更多在这项工作中,我们提出了一种蚁群优化技术我们应用蚁群优化技术来生成具有高有效概率的渐进模式的候选者这与反单调性相结合,导致了有效方法的开发。在我们的第二个贡献中,我们将现有的渐进模式提取扩展这种模式被称为模糊时间渐变模式。这可以采取例如在我们的第三个贡献中,我们提出了一个数据交叉模型,它允许这一贡献是由物联网应用在我们社会的几乎每一个领域的激增所推动的,这对于研究人员来说,交叉引用不同的时间序列数据以提取映射属性的时间渐变模式可能是有趣的例如,一个"湿度"数据集可以暂时与一个记录"苍蝇种群"的独立数据集交叉引用,并且模式可以采用"湿度越高,几乎2小时后飞行的苍蝇就越多"的我们的方法专注于集成摘要渐进式模式挖掘允许通过渐进式规则提取属性相关性,例如:这种相关性对于识别和隔离属性之间的关系非常有用,这些关系可能无法通过对数据集的快速扫描而明显。例如,研究人员可以应用渐进模式挖掘来确定数据集的哪些属性显示出不熟悉的相关性,以便隔离它们以进行深入探索。 或分析。假设研究人员拥有一组具有以下属性的数据:年龄、工资金额、子女人数和教育程度。提取的渐进模式可以采取"教育水平越低,工资越高"的形式由于这种关系是不常见的,研究人员可能有兴趣更多地关注这种现象,以便理解它。对于许多渐进模式挖掘方法,由于组合爆炸的问题,处理大型数据集是一个关键挑战。此问题主要是由生成候选渐进项集的过程引起的改进生成候选渐进项的过程的一种方法是使用启发式方法优化该过程。在这项工作中,我们提出了一种蚁群优化技术,使用一种流行的概率方法,模仿生物蚂蚁的行为,因为他们寻找最短的路径,以找到食物,以解决组合问题我们应用蚁群优化技术来生成有效概率高的渐进项集候选项。这与反单调性相结合,导致了高效的基于蚂蚁的渐进模式挖掘技术的发展。在我们的第二篇论文中,我们扩展了一种现有的渐进模式挖掘技术,允许在受影响的渐进项集之间以近似的时间滞后一起提取渐进模式这种模式被称为模糊-时间渐进模式,它可以采取以下形式:"X越多,Y越多,大约3个 由于增加了寻找最相关时间间隙的任务,在所提出的方法中增加了时间维度,使得组合爆炸的情况甚至更糟。在我们的第三篇文章中,我们提出了一个数据交叉模型,该模型允许在云平台中集成大多数渐进模式挖掘算法实现这一贡献是由物联网应用在我们社会的几乎每一个领域的激增所推动的,这伴随着来自不同来源的大规模时间序列数据的供应对于研究者来说,交叉使用不同的时间序列数据来从映射的属性中提取渐进的时间模式可能是有趣例如,"湿度"数据集可以与记录"苍蝇数量"的不相关数据集在时间上相交,并且模式可以采用以下形式:"湿度越高,大约两个小时后的飞行次数。同样,该研究强调将渐进式模式挖掘技术集成到云平台中,因为这将促进基于订阅的访问。这减轻了用户的安装和配置负担;因此,它使他们能够花更多的时间专注于他们正在研究的现象。确认书获得博士学位的途径这个学位是激烈的,它需要大量的艰苦工作和不懈的毅力。我非常感谢我的首席顾问教授。安妮·劳伦特感谢她在博士学位期间为我提供的所有良好的指导和个人帮助。特别是当我在法国蒙彼利埃的LIRMM工作时此外,我还要感谢我的第二位顾问约瑟夫·奥雷罗博士,感谢他的建设性建议,感谢他在斯特拉斯莫尔大学(肯尼亚内罗毕)为我创造了一个有利的工作环境,使我能够把足够的精力放在博士学位上。研究。我向教授表示最深切的感谢Thomas Runkler(西门子公司,德国慕尼黑),感谢他花时间指导我,帮助我了解一些背景事实,这些事实构成了本工作所建立的理论基础的关键部分。非常感谢先生。Edmond Menya(斯特拉斯莫尔大学)和Olivier Lobry先生(蒙彼利埃大学OREME),感谢他们允许我们所有的头脑风暴会议,并对本工作的一些部分提出批评,因为这使我能够改进本工作。接下来,我衷心感谢LIRMM的FADO团队的所有成员,他们从繁忙的日程表中抽出时间,听了我的演讲,理解了我们的工作,并给了我们非常有用的反馈。我们利用这些反馈来微调这项工作。我特别感谢医生。Clement Jonquet组织了定期会议,使我们能够满足和分享我们的研究工作和经验。我向博士表示衷心的感谢Faaiz Shah在我第一次访问法国蒙彼利埃时欢迎我来到LIRMM,并确保我完成了所需的相关文件。因为他,我能够(在适当的时候)拿出所有与我在蒙彼利埃大学注册博士研究有关的后勤工作。本研究中进行的大多数计算实验都是在Occitanie资助的高性能计算平台MESO@LR的支持下进行的/比利牛斯-地中海地区、蒙彼利埃地中海大都市和蒙彼利埃大学最后,我想知道,在法国的博士研究是感谢法国政府通过法国驻肯尼亚大使馆提供的奖学金。我要特别感谢法国政府通过合作和文化服务办公室(肯尼亚内罗毕)和法国校园办公室(法国蒙彼利埃)参与为这项工作创造机会。正是通过他们的经济和社会支持,我才得以在法国蒙彼利埃大学攻读博士学位内容标题I摘要五摘要七确认九内容表十六图xx列表表二十二列表首字母缩略词xxiii1引言11.1引言21.2问题陈述51.3捐款61.3.1时间挖掘渐进模式61.3.2优化候选渐进式项目集的生成1.3.3渐进模式挖掘技术1.4论文大纲82相关工作112.1导言122.2渐进模式122.2.1协会规则122.2.2渐进式规则142.2.3渐进模式的形式定义152.2.4反单调性性质162.2.5项目集搜索的172.2.6GRITE方法202.2.7GRAANK进近232.2.8ParaMiner方法252.3时间数据挖掘262.4用于模式挖掘的282.5OGC SensorThings框架302.6用于渐进模式挖掘的2.7摘要363时间渐变模式373.1导言383.2时间渐变模式383.2.1时间渐变模式393.3时间挖掘渐进模式413.3.1数据转换模型413.3.2构建模糊模型433.3.3T-GRAANK技术453.4实验463.4.1源代码463.4.2计算复杂性463.4.3数据集描述473.4.4实验结果483.5摘要504渐进模式挖掘的蚂蚁殖民地优化4.1导言524.2蚂蚁群体优化524.2.1初步数学符号534.2.2BFS候选一代55的ACO4.2.3DFS FP-Tree搜索的584.2.4收敛证明614.3建议的基于ACO的方法624.3.1ACO-GRAANK方法624.3.2ACO用于时间渐进模式挖掘644.3.3ACO-ParaMiner进近644.4实验684.4.1源代码684.4.2数据集描述684.4.3实验结果694.4.4关于结果的讨论744.5摘要755时间渐进涌现模式775.1导言785.2新兴模式785.2.1概念和符号795.3时间渐进涌现模式805.4TGEP82的基于边界的发现5.4.1频繁项目集825.4.2渐进项集的边界表示835.4.3时间渐进项集845.5基于蚂蚁的TGEP855.5.1TGEP采矿的ACO855.5.2开采TGEPs86的增长率操纵5.6实验895.6.1源代码895.6.2数据集描述895.6.3实验结果895.6.4关于结果的讨论935.7摘要946用于渐进模式挖掘的956.1导言966.2交叉时间序列数据966.2.1构建模糊模型976.2.2FuzzTX算法996.3实验1006.3.1源代码1006.3.2计算复杂性1006.3.3并行多处理1006.3.4数据集描述1016.3.5实验结果1026.4摘要1047云集成GP挖掘算法1057.1导言1067.2云上的渐进模式挖掘工具1067.2.1建议的软件体系结构模型1077.2.2将模式挖掘工具集成到云的1097.3软件实施1107.3.1源代码1107.3.2使用案例示例:OREME1117.4摘要1118结论和展望1138.1摘要1148.2前景1158.2.1渐进式模式挖掘技术的进一步效率优化8.2.2内存限制1178.2.3检测感兴趣的数据交叉点117参考书目119附件127出版物127A.1 已发表论文127A.2 正在进行中128B 软件安装129B.1安装云API框架129B.1.1要求129B.1.2安装129B.1.3使用129B.2安装GRAANK Web工具130B.2.1安装130B.2.2使用130B.3安装桌面GRAANK工具131B.3.1要求131B.3.2安装131B.3.3使用131图列表1.1数据挖掘技术21.2(a)记录教室房间温度的时间序列数据集样本,以及(b)记录学生人数的时间序列数据集样本1.3渐进模式挖掘的数据交叉模型51.4用于渐进候选生成的ACO示例。(+隐式属性增加,-隐式属性减少,x隐式属性不相关)。72.1属性依赖性示例142.2频繁项目集边界172.3通过面包第一次搜索可能的候选项集的格图2.4样本FP-tree18的晶格图2.5二进制矩阵MGi1,MGi2 和MGi3 对于渐进项:(a)i1 =(温度,),(b)i2 =(hum,↑),(c)i3 =(mos,↑)212.6二进制矩阵MGi4和MGi5的递增项:(a)i4 ={(temp,),(hum,↑)},(b)i5 ={(hum,↑),(mos,↑)}212.71个项目集增量项目的哈塞图:(a)i1 =(temp,),(b)i2 =(hum,↑),(c)i3=(mos,↑)222.82项集递增项的哈塞图:(a)i4 ={(temp,),(hum,↑)},(b)i5 ={(hum,↑),(mos,↑)}222.9表示渐变项集的一致对象对集的二进制矩阵:(a)i1 =(temp,),(b)i2=(hum,↑),(c)i3 =(mos,↑),(d)i4 ={(temp,)(a)(b)(c)(d)xviii图列表2.10 U-SQL和C#SQL之间的关系2.11 ETL过程30的说明2.12 构成OGC SensorThings框架的8个传感器实体[Liang等人,2016年]312.13 现实生活中感觉实体的插图322.14 (a)虚拟机管理程序和(b)基于容器的部署的比较[Bernstein,2014]2.15 用于GP挖掘算法353.1(a)三角形MF,(b)高斯MF433.2(a)rn+1的成员函数,(b)rn+1的修改成员函数443.3大型数据集的三角成员函数3.4(红色图)运行时与最小代表性(最小代表性)的图,最小代表性保持常数为0.9。(蓝色图)运行时与最小辅助端口(最小辅助端口)的关系图,最小代表保持恒定在0.9。(a)UCI数据集:9个属性,14个HPC CPU内核上的10k元组,以及(b)合成数据集:3个属性,50个4个CPU内核上的元组。.......................................................................................................483.5从UCI数据集提取的模式:(a)模式数量与最小重复次数保持恒定在0.9的最小重复次数,(b)模式数量与最小重复次数保持恒定在0.9的最小重复次数,(b)模式数量与最小重复次数保持恒定在0.9的最小重复次数,(b)模式数量与最小重复次数保持恒定在0.9的最小重复次数,(b)模式数量与最小重复次数保持恒定在0.9的最小重复次数。模式与带min-sup的min-rep常数为0.5。............................................................................................................................ 494.1人工智能的一个例子是:(a)具有加权距离的初始路径,(b)在时间t= 0时,任何路径上都没有信息素强度;因此,它们以相等的概率选择所有路径,以及(c)在时间t= 1时,信息素强度更强。较短的路径;因此,更喜欢这些路径。.................................................................................534.2TSP城镇示例图544.3用于BFS渐进模式挖掘的人工制品的示例:(a)初始路径,(b)在时间t= 0时在任何路径上都没有信息素强度;因此,我们以相等的概率选择路径,并且(c)在时间t= 1时,信息素强度在具有缓慢渐进变化的路径上更强;因此,蚂蚁更喜欢这些路径。.....564.4DFS人工制品的示例:(a)具有距离的初始路径,(b)在时间t= 0时,存在 在任何路径上都没有信息素强度;因此,蚂蚁以相等的概率选择所有路径,并且,(c)在时间t= 1,信息素强度在较短路径上更强;因此,更多蚂蚁更喜欢这些路径。..............................................................................................................................................................594.5乳腺癌(B& C)数据集:(a)运行时间与最小支持阈值的图,以及(b)内存使用与最小支持的图。......................................................................................................................69图19列表4.6Cargo2000(C2K)数据集:(a)运行时间与最小支持阈值的关系图oldand,(b)内存使用与最小支持的图。....................................................................... 704.7Cargo2000(C2K)数据集:(a)运行时间与最小支持阈值的关系图oldand,(b)内存使用与最小支持的图。....................................................................... 704.8Directio(Buoys)数据集:(a)运行时间与最小支持阈值的关系图和(b)针对最小支持的内存使用图。............................................................................... 714.9Directio(Buoys)数据集:(a)运行时间与最小支持阈值的关系图和(b)针对最小支持的内存使用图。............................................................................... 714.10 功耗(UCI)数据集:(a)运行时间与最小支持的图和(b)针对最小支持的内存使用图。............................................................................... 724.11 功耗(UCI)数据集:(a)运行时间与最小支持的图和(b)针对最小支持的内存使用图。............................................................................... 724.12 模式数量与数据集最小支持的条形图:(a)B C,(b)C2K、(c)采购和(d)UCI734.13 Buoys数据集:T-GRAANK运行时间与数据集大小的图形图和ACO-TGRAANK算法745.1包含事务的两个示例数据集795.2(a)P1的标准化支持值,和(b)P2的标准化支持值875.3来自信息素基质P1至P2的生长速率基质875.4(a)DgJ的信息素ne矩阵,(b)DgJ的时间-g矩阵,(c)信息素矩阵DgJJ,and(d)时间-对于DgJJ,87的......................................................................................5.5来自data集DgJ的信息素矩阵的Growth-速率矩阵toDgJJ. . . . . . . ... ...885.6UCI数据集(ρ = 1。0):(a)运行时间与最小支持阈值的关系和(b)相对于最小支持阈值的模式数的条形图。 ... ...905.7方向数据集(ρ = 1。0):(a)运行时间与最小支持阈值的关系图-oldand,(b)针对最小支持阈值的模式数量条形图。915.8(a)UCI和(b)Directio91数据集上运行时间与核心数量的图5.9UCI数据集(ρ = 1。0):(a)速度上升与核心数量的图(b)并行效率与核心数量的图.............................................................................................................................................5.10 方向数据集(ρ = 1。0):(a)加速与核心数量图(b)图并行效率与内核数量92xx图列表6.1交叉编号的插图。使用模糊模型96的飞行和湿度数据集6.2(a)温度时间序列数据的成员函数(b)成员函数-湿度时间序列数据986.3运行时间与数据集元组6.4运行时间与数据集元组(数据集数量保持在7)的图(b)运行时间与数据集的图,其中元组数为2161026.5运行时间与内核的图1036.6(a)速度与核心数量的图(b)并行效率与核心数量的图6.7从交叉数据中提取的模糊-时间渐进模式样本1047.1云集成的建议软件模型体系结构1077.2用于将GP挖掘算法集成到OGC SensorThings API108的7.3OGC SensorThings API Web界面的屏幕截图1108.1渐进式模式挖掘工具桌面应用程序的屏幕截图1158.2二进制矩阵MG用于渐变模式{(temp,),(hum,↑)}116
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功