没有合适的资源?快使用搜索试试~ 我知道了~
大数据处理的集成建模与仿真
大数据处理的集成建模哈迪·哈希姆引用此版本:哈迪·哈希姆大数据处理的集成建模建模和仿真。巴黎-萨克雷大学,2016年。法语。NNT:2016SACLL005。电话:01378609HAL ID:电话:01378609https://theses.hal.science/tel-01378609提交日期:2016年HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire117:20166美元//0057+(6(D( D)$2,725 7D(/¶81I9(56I7($35I6-$6/$35($3 5(($)7(/(20 68D 35I 6美元)e 2/(D2 725美元/(67 I)&6ciHQcHVHWWHcKQRORJiHVGHOiQIRUPDWiRQHWGHODcRPPXQicDWiRQ6 SéciDOiWéGHGRcWRUDW:UVHDX[,iQIRUPDWiRQHWcRPPXQicDWiRQV第三次0U +DGi +DVKHP0RGéOiVDWiRQiQWeJUDWUichGXWDiWHPHQW%iJDDWD7KHSUéVHQWéHWVRXWHQXH到eYU\,OH19VHSWHPEUH201 6:RPSRViWiRQGXJXU\:0 PH. K. =HiWRXQi,3URIHVHXUH,8QiYHUViWéGH9HUVD iOHV6DiQW-4XHQWiQ,3UéV iGHQWHGXjXU\0 PH. 0. 6iEiOOD、3URIHVVHXUH、8QiYHUViWéGH7RX教团VH3 -3DXO6DEDWiHU、5DSSRUWHXU0. /. D #2UD] i R,3U R I HVVH XU,8Qi YHUViWé%OD i V H-3DVC DO,5DSSWH RUXU0 PH1。 6i PRQi,3URI HVVH XUH,7eOé cRP3DUi V7HcK,([DP i QDWU icH0 PH. * . 9DUJDV-6RODU,&KHUcKHXVH,&156,([DPiQDWUIcH])0. )。0DVVHJOiD,&KHUcKHXU,I15I$,([DPiQDWHXU]0 PH. $. 5. &DYDOOI,3URIHVHXUH,第7个OecRP6XG3DUiV,DiUHcWUicHGHWKèVH0. D. 5DQc,(QVHiJQDQW-KHUcKHXU,第7个OecRP6XG3DUiV,&R-HQcDGUDQW)大数据处理的集成建模2标题:BigDat处理的集成建模关键词:集成建模、大数据、理由摘要:在当今世界,数字技术的多个参与者产生了无限数量的数据。传感器、社交网络或电子商务,它们都生成信息,这些信息根据Gartner的3个V(数量、速度和可变性)实时增长。为了有效和可持续地利用这些数据,重要的是通过两种方法来尊重其时间演变的动态性:一方面,多态性,通过能够支持每时每刻类型变化而不出现处理故障的动态模型;另一方面,通过考虑仅在时间"t"可解释的关键数据的智能模型来支持波动性,而不是处理所有当前和历史数据量。L’objectif premier de cette étude est de pouvoirétablir au moyen de ces approches uneANement基于案例数据生命周期的集成,其基于3个步骤,(1)通过选择由不同操作者在源级获得的微数据的关键值来合成数据,(2)通过对所选关键值进行排序并在去规范化方面复制它们以实现更快的数据处理来进行合并;以及( 3 ) 在 经 典 的 MapReduce 过 程 中 , 通 过Hadoop将地图转换为特定的地图格式,以获得在应用层定义的图形。这一想法还得到了软件原型的支持,该软件原型实现了上述建模运算符,并产生了一个类似于AGL的建模工具箱,允许在大数据上辅助实施一个或多个处理。标题:大数据处理关键词:集成建模、大数据、案例摘要:如今,互联网技术的多个参与者正在产生非常大量的数据。传感器、社交媒体或电子商务都基于Gartner的3个V:数量、速度和多样性生成实时扩展信息。为了有效地利用这些数据,重要的是通过两种主要方法跟踪其时间演变的动态方面:多态性,一种动态模型,能够通过成功的处理每秒支持类型变化,其次,通过考虑关键数据的智能模型支持数据波动性,在不处理所有历史卷和最新数据的情况下,在特定时间具有销售和价值。本研究的主要目的是确定ED推理基于这些方法,数据生命周期的综合视图设置为3个步骤,(1)通过从不同数据源操作员获取的微数据中选择关键值进行数据合成,(2)通过基于去规范化方面对所选关键值进行排序和复制进行数据合并,以实现更快的数据处理,以及(3)将数据转换为特定格式的映射映射,在标准MapReduce流程中使用Hadoop,以便在应用层中定义相关图。此外,本研究还得到了一个原型软件的支持,该原型软件使用已经描述的建模工具,作为一个工具箱,与自动编程软件进行比较,并允许创建大数据的定制处理链。大数据处理的集成建模3大数据处理的集成建模4大数据处理的集成建模5谢谢你我要感谢论文导师Ana Rosa Cavalli女士和共同导师Daniel Ranc先生在我准备工作的整个过程中对我的支持。我要感谢评审团主席、韦利齐凡尔赛圣昆廷大学教授Karine ZEITOUNI女士1-米歇尔·西比拉夫人,图卢兹第三大学教授-图卢兹保罗·萨巴蒂尔。2-Laurent D 'ORAZIO先生,克莱蒙费朗布莱斯-帕斯卡大学教授3-Noémie SIMONI女士,巴黎电信技术学院教授。4-Genoveva Vargas-Solar女士,圣马丁德耶尔国家科学研究中心研究员5-Florent Masseglia先生,蒙彼利埃国家计算机科学和自动化研究所研究员我感谢他们的指导、宝贵的建议和对我要感谢南巴黎电信公司,特别是网络和移动多媒体服务部,在那里我能够开展这项工作,并与其成员进行讨论和交流。最后,我感谢我的小家庭和我周围所有伟大的人,他们鼓励我,在身体上和精神上支持我完成我的工作。大数据处理的集成建模6大数据处理的集成建模7材料表论文21引言1. 工作的问题和背景212. 论文22的目标3. 论文23的计划第一部分。最新技术水平............................................................................................................. 27第一章.大数据数据的处理........................................................................................................291.1 第二十九章引言1.2 NoSQL数据库301.2.1 NoSQL运动和.................................................................................................................1.2.2 NoSQL的定义及其对开发人员的好处301.2.3 NoSQL 31数据库的特性1.2.4 NoSQL 32数据库的局限性1.2.5 结论321.3 NewSQL在通往现代数据1.3.1 L’architecture1.3.2 NewSQL 34解决方案的优点1.2.3NewSQL数据库的局限性341.3.4结论341.4 L’efficacité des moteurs de1.4.1 MapReduce 351.4.2 ApacheHadoop 331.4.3 非关系数据库36.1.4.4 BigTable和HBase 361.4.5 DFS和HDFS 371.4.6 结论381.5 非关系数据模型381.5.1 密钥值存储391.5.2 数据库BigTable 401.5.3 文档驱动的数据模型401.5.4 面向图形的数据模型421.5.5 多模式数据库43大数据处理的集成建模81.5.6 结论431.6 L’activité principale des1.6.1 数据的一致性441.6.2 数据的创建441.6.3 系统的协调441.6.4 分配负载的能力451.6.5 容错能力451.6.6 高可用性451.6.7 执行方面的困难461.6.8 结论471.7 第四十八章结论第二章。所研究的问题............................................................................................................. 512.1 第51章介绍2.1.1 MapReduce和云计算512.1.2 开始的想法522.1.3 L’importance2.2 基本概念552.2.1 执行框架........................................................................................................................2.2.2 L’architecture de la couche2.2.3 结论562.3 MapReduce 57的概念2.3.1 设计模式572.3.2 关系连接582.3.3 结论592.4 通过反向索引处理602.4.1 L’indexation2.4.2 L’indexation2.4.3 排名622.4.4 结论622.5 图形的处理632.5.1 L’application2.5.2 代表性632.5.3 初始并行搜索64大数据处理的集成建模92.5.4 L’algorithme2.5.5 问题662.5.6 结论662.6 EM文字处理算法672.6.1 L’estimation de2.6.2 潜在变量672.6.3 HMM 67模型2.6.4 L’application2.6.5 统计机器翻译692.6.6 结论692.7 新一代MapReduce 702.7.1 YARN 70的优势2.7.2 结论712.8 阿帕奇风暴72。2.8.1 Storm和YARN 72的2.8.2 Storm 73的局限性2.8.3 风暴三叉戟732.8.4 结论732.9 ApacheSpark 742.9.1 L’écosystème2.9.2 Spark 75的优点2.9.3 Spark 75的局限性2.9.4 结论762.10 第77章结论2.10.1 MapReduce 77的局限性2.10.2 替代解决方案772.10.3 超越MapReduce 772.10.4 Hadoop技术比较表78第三章。以前的研究和整合建模方法的动机.........................................................................813.1 第81章介绍3.2 建模技术823.2.1 概念建模823.2.2 一般建模85大数据处理的集成建模103.2.3 分层建模913.2.4 结论963.3 L’approche de la3.3.1 处理链的修改973.3.2 结论983.4 第九十九章结论第四章。Hadoop MapReduce 101中的建模算法........................................................................4.1 第101章介绍4.1.1 L’algorithme4.2 与主要建模算子相对应的算法1034.2.1 转型1034.2.2 过滤器1044.2.3 第105章4.2.4 融合1064.2.5 结论1064.3 MapReduce 107的基本4.3.1 计数和4.3.2 L’assemblage4.3.3 筛选、............................................................................................................................4.3.4 L’exécution des4.3.5 第109章第一次4.3.6 结论1094.4 MapReduce 110的非基础4.4.1 图形的处理1104.4.2 不同值1124.4.3 相关性1144.4.4 结论1154.5 MapReduce 116关系模式4.5.1 选择1164.5.2 投影1164.5.3 L’union4.5.4 L’intersection4.5.5 差异117大数据处理的集成建模114.5.6 分组和4.5.7 连接1174.5.8 结论1194.6 三叉戟120行动4.6.1 本地操作1204.6.2 重新分区操作1284.6.3 聚合操作1284.6.4 与分组流相对应的操作1294.6.5 合并和联接操作1294.6.6 结论1304.7 L’apprentissage automatique et les algorithmes4.7.1 机器学习系统................................................................................................................4.7.2 机器学习算法................................................................................................................4.7.3 相关性和有效性的因素1324.7.4 L’apprentissage automatique à4.7.5 结论1344.8 第135章结论第二部分。大数据处理的集成建模...........................................................................................137第五章。通过案例研究进行预处理.......................................................................................1395.1 第139章引言5.1.1 开始的想法1395.1.2 JSON 139格式5.1.3 隐式数据模式1405.1.4 预处理的概念1415.2 专家系统1435.2.1 专家系统的基础知识1435.2.2 DBMS和SE 1465.2.3 治疗规则1475.2.4 推理引擎1475.2.5 通过案例研究进行预处理1495.2.6 L’apprentissage automatique5.2.7 结论1515.3 社交媒体监控152大数据处理的集成建模125.3.1 社交网络的性质和好处1525.3.2 社交媒体监控1545.3.3 通过案例研究进行监测1565.3.4 结论1595.4 L’apprentissage automatique pour les5.4.1 L’architecture du modèle5.4.2 结论1605.5 第161章结论第六章。实验结果................................................................................................................... 1636.1 第163章介绍6.1.1 L’approche de la6.2 集成建模的前景1646.2.1 Twitter数据1646.2.2 大数据工作台1656.2.3 结论1676.3 通过案例研究进行预处理1686.3.1 用例................................................................................................................................6.3.2 案例6.3.3 用例................................................................................................................................6.3.4 结论1736.4 第174章结束第三部分。结论和展望...............................................................................................................177结论179前景181参考文献183缩写列表189附件193附件1。Google的BigQuery 195解决方案.....................................................................................1.1 导言1951.1.1 L’historique de1.2 BigQuery 196的分析条件.....................................................................................................1.2.1 BigQuery 196的优点1.2.2 BigQuery 196的缺点大数据处理的集成建模131.2.3 配额1971.2.4 计费模式1971.3 L’architecture1.3.1 L’architecture1.3.2 面向列数据库1981.4 BigQuery 198的组件1.4.1 198年项目1.4.2 数据集1981.4.3 表1981.5 如何.......................................................................................................................................1.6 数据的加载1991.7 BigQuerySQL 2001.8 就业案例2001.9 结论201附件2. NoSQL203面向文档的数据模型................................................................................评估2.1 引言2032.2 面向文档的模型2032.3 模型204的评估标准.............................................................................................................2.3.1 数据的性质2042.3.2 关系2042.3.3 生命周期2052.3.4 CRUD 205的原理图和2.3.5 数据的一致性2062.3.6 性能2072.3.7 卷2082.3.8 L’agrégation2.3.9 持久性和弹性2102.3.10 保密2102.4 结论211附件3。NoSQL面向图模型与关系模型的比较......................................................................2133.1 导言2133.1.1 NoSQL 213数据库3.2 图214的定向大数据处理的集成建模143.3 215型号的评价标准.............................................................................................................3.3.1 数据的性质2153.3.2 数据之间的关系2153.3.3 生命周期2173.3.4 CRUD 217的原理图和3.3.5 数据一致性2193.3.6 220性能3.3.7 L’analyse3.4 结论223.................................................................................................................................附件4。在国际会议和期刊上发表的文章.............................................................................2254.1 引言2254.2 按时间顺序排列的出版物2254.3 出版物的开发2274.4 结论227大数据处理的集成建模15大数据处理的集成建模16大数据处理的集成建模17插图表数字图1:互联网上交换的数据呈指数级增长29图2:NewSQL从3种体系结构中诞生33图3:处理引擎的性能35图4:Hadoop和Google堆栈 37图5:HDFS 38架构图6:键-值存储的列导向布局40图7:BigTable模型与面向文档的模型之间的比较41图8:面向图42图9:MapReduce 52处理图10:序贯治疗53图11:MapReduce框架53图12:灵活性方面的可扩展性54图13:MapReduce 54的图14:HDFS 56体系结构图15:MapReduce 57图16:反向索引的简单插图60图17:反向索引的高级算法61图18:矩阵和邻接列表.................................................................................................................图19:Dijkstra 64的示例................................................................................................................图20:PR 65算法图21:使用MapReduce 65的图22:使用渐进式和回归式算法68图23:使用MapReduce 69进行图24:Hadoop 1.0和Hadoop 2.0架构之间的比较 70图25:Apache Storm和YARN 72图26:实体聚合84图27:聚合和连接84图28:原子聚集体的使用85图29:可枚举键86图30:Geohash 87图31:索引表图32:复合索引键88图33:使用复合密钥计数.............................................................................................................图34:使用直接索引或反向索引计算.........................................................................................大数据处理的集成建模18图35:树聚合.................................................................................................................................大数据处理的集成建模19图36:92个商家站点的类别层次结构的枚举路径.....................................................................图37:使用正则表达式遍历92个枚举路径图38:.............................................................................................................................................图40:通过字段名称编号对嵌套文档建模94图41:通过邻近性查询对嵌套文档进行建模95图42:使用MapReduce 96进行图43:预处理的概念97图44:预处理线98图45:MapReduce 102框架图46:JSON 140类型图47:JSON 141图48:JSON 142图49:DBMS和SE 146图50:CBR 151图51:预处理推理引擎的示例实现图52:过去和现在的社会信息流152图53:社区管理基础154图54:推文的结构.......................................................................................................................图55:Twitter 165数据处理活动图............................................................................................图56:大数据工作台166图57:使用BigData Workstation 167进行图58:通过案例研究169进行图59:基于病例的治疗模拟器170图60:基于病例的治疗模拟器170图61:根据道路交通量调整路线172图62:BigQuery 195通信图63:Dremel 197的图64:Dremel 198的图65:BigQuery 199图66:BigQuery 201图67:使用BigQuery 201图68:面向文档的模型203图69:文档之间的引用205图70:面向文档的模型中的索引207图71:面向文档的207模型中的索引结构.................................................................................图72:MongoDB 208集群图73:电子商务用户的订单历史记录214图74:关系DBMS中的元组组织 216图75:面向图形的模型中的组织216图76:关系模型中的数据分布220图77:面向图221
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功