没有合适的资源?快使用搜索试试~ 我知道了~
Modélisation NoSQL des entrepôts de donnéesmultidimensionnelles穆罕默德·马勒基引用此版本:穆 罕 默 德 ·艾 尔 ·马 尔 基 Modélisation NoSQL des entrepôts de données multidimensionnellesapproves.Modélisation et simulation. Université Toulouse le Mirail - Toulouse II , 2016. 法 语NNT:2016TOU20139。电话:02057102HAL Id:tel-02057102https://theses.hal.science/tel-020571022019年3月5日提交HAL是一个多学科的开放获取档案馆,用于存放和传播科学研究文件,无论它们是否已这些文件可能来自法国或国外的教学和研究机构,或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireTHAPOSE为了得到图卢兹大学博士UNIVERSITE TOULOUSE提交日期和时间:2016年12月8日par:MOHAMMED ELMALKIModélisation NoSQL des entrepôts de donnéesmultidimensionnelles博士学校:电信信息数学(MITT)Unité de Recherche:Institut de Recherche en Informatique de Toulouse(UMR 5505)陪审团Omar BOussaid里昂第二特别报告员LADJEL BELLATRECHEEnSMAA-Poitiers考官MAXCHEVALIER图卢兹大学UPS联合主任ANNE LAUGUSTLIM-Montpelier考试FRANCOIS PINETDirecteur de recherches,IRESTEA-Clermont-Ferrand特别报告员OLIVIER TEST图卢兹大学UT2DirecteurRONANTOURNIER图卢兹第一大学校长昂卡兰特GILLES ZURFLUH图卢兹第一大学校长考官简历决策辅助系统在企业和大型组织中占有重要地位,以便对决策进行分析。随着大数据的发展,大量的数据分析证明了所有的批评,反对数据分类的方法,实际的解决方案主 要 依 赖 于 数 据 基 础 R-OLAP 。 AvecCes nouvelles approches constitutional une voieintéressante pour la construction des entrepôts de données multidimensionnelles capables desupporter des grandes mass de données.采用R-OLAP的原因是需要对多维数据库的数据中心的建模原理进行修正在此基础上,我们提出了基于NoSQL模型的多维数据库的植入过程。Nous avonsdefini quantitative process dans deux modèles NoSQL orienté colonnes ( CFL , CNL ,CHL,CSL)et orienté documents(DFL,DNL,DHL,DSL).该过程的特征在于处理。此外,上下文NoSQL提供了更高的计算效率,这些计算效率通常在上下文ROSQL(treillis)中不存在。我们要扩大我们的程序,以完成在两个保留模型中构建Treillis的工作由于很难选择一个支持所有测试应用程序的有效性的单一植入NoSQL,我们提出了两个翻译过程,首先关注模型内的过程,这是通过一个植入到另一个逻辑模型NoSQL的规则,第二个过程确定了一个模式逻辑的植入到另一个模式逻辑的植入的转换规则。Pour valider notre approche , nous avons décrippé un bancNous avons procédé àplusieurs tests pour valider nos approches et montrer que les systèmes NoSQL constitute unealternative crédible aux entrepôts RONOL.此外,我们还在这部分实验中介绍了两种利用这是一个有意义的改善决策要求响应时间的方法。Abstarct决策支持系统在公司和大型组织中占据了很大的空间,以便能够进行专用于决策的分析。随着大数据的出现,分析的数据量达到临界大小,挑战传统的数据仓库方法,目前的解决方案主要 基于R-OLAP 数据库。随着主要网络平台的出现,如谷歌,Facebook,Twitter,亚马逊.等,开发了许多处理大数据的解决方案,称为“不仅仅是SQL”。这些新的方法是建立能够处理大量数据的多维数据仓库的一个有趣的尝试。对R-OLAP方法的质疑需要重新审视多维数据仓库建模的原则。在本文中,我们提出了使用NoSQL模型的多维数据仓库的实现过程。我们在两个模型中定义了四个过程;面向NoSQL列模型(CFL,CNL,CHL,CSL)和面向文档模型(DFL,DNL,DHL,DSL)。每一个过程都促进了一种特定的治疗。此外,NoSQL上下文增加了通常在ROSQL上下文(格)内设置的有效预聚合的计算的复杂性。我们已经扩大了我们的实现过程,以考虑到在两个被拘留的模型的晶格的建设。由于很难选择一个单一的NoSQL实现,有效地支持所有适用的治疗,我们提出了两个翻译过程。虽然第一个问题涉及模型内过程,即,将规则从一个实现传递到同一NoSQL逻辑模型的另一个实现,第二个过程定义逻辑模型实现到另一个逻辑模型上的另一个实现的转换规则。为了验证我们的方法,我们开发了一个名为SSB+的决策基准(来自Star SchemaBenchmark),支持面向NoSQL的列和面向文档的模型。我们已经进行了几个实验来验证我们的方法,并表明NoSQL系统是一个有效的替代ROOSQL存储。此外,我们在这部分实验中介绍了两种利用NoSQL模型灵活性的格,即嵌套格和详细格。这些格允许显着改善决策支持查询的响应时间。雷默西芒谢谢你让我跟着你的最后几句话J'aimerais commencer ces mots de remerciements par apporter une response à moninterrogation face à des propos souvent avancés par certains de me collegues.因为这位导演代表了一位父亲为了某些事他要等我的首演或者等奥利维耶像导演一样理解这部电影。所有的外表都很好不是吗我的朋友曾对我的导演奥利维耶·泰斯特先生、联合导演马克斯·谢瓦利埃、我的导师罗南·图尼埃以及阿林·科普利库表示感谢,这些人在过去三年里对我有着巨大的影响力,尽管他们没有像导师那样正式任命,但他们的影响力也很重要我感谢俄理维,为了让他相信我会接受我的工作,为了让他相信我。我爱他的能指,在这一点上,我认识到我们能确保最佳工作条件的持续性。Je resterai fasciné parsa capacité à positiver,à reverger et à toujours trouver les bons termes pour nous inviter àpersévérer,malgré le manque de résultats parfois.我还想告诉你,我对人类的素质和对他的理解是敏感的,从我的角度来说,这是一个直接的问题马克斯和罗南,请原谅我一整天都在讨论这件事。Je les remercie égalementprosperibilité,conseils et surtout pour leurs critiques constructives qui m'ont constammentpermis de consolider me idées and améliquencies me recherches.如果没有你的帮助,我的工作就不会让他失望。我为他们能给我带来好的氛围而感到欣慰阿琳我想谢谢你让我们在这几年里一起度过这么多美好的时光。L'émotion megagne au moment de t'adresser ces petits mots de remerciements,pas assez significatifs pourqualitative le role determinant que tu auras joué.我非常感谢你能为我做这么简单的工作。我非常感谢Capgemini Cédric Cormont对我在大数据领域的专业知识和经验所做的贡献。我对我所做的一切都很感激,因为我的工作对我的工作有很大帮助。我也非常感谢Lydwine,她是科学领域的负责人,希望她能帮助我实现科学领域的整合,同时与大数据项目的设计师们进行合作。我感谢José Vincent和Laurent Lapasset对我感谢陪审团的所有成员都接受了对这项工作的评估。感谢Omar Boussaid先生和Francois Pinet先生向我们报告了这份备忘录,因为我们对这份备忘录的评论和建设性意见都是关于我的。我非常感谢Ladjel Bellatreche先生,Anne Laurent女士和GillesRumfluh先生,我感谢SIG和IRIT实验室的指导,因为我在这段时间里很幸运。特别感谢SIG的前任负责人Josiane Mothe和Florence Sèdes夫人为我们提供的宝贵意见。感谢同学们和医生朋友们在咖啡馆休息的时候分享我的快乐。特别感谢你们的朋友:哈米德、拉姆杰德和伊门,他们非常乐意与你们分享。我没有古人:比莱尔、拉菲克、伊斯梅尔、劳尔和阿里,我有很多精美的纪念品。我很高兴见到阿梅尼、阿明、梅里埃姆和加达,他们都是我的得力助手,但也有伊门·马内尔、托马斯、吉亚、巴蒂斯特的帮助,没有哈姆迪和保罗的帮助。J’associe à ces mes chers amis Jaouad et Adil avec qui j’aipartagé les moments les plus agréables et les plus difficiles depuis la première année à感谢所有阿维尼翁的朋友Hakima Ait Al Cadi在我的前进和复兴之旅中,对我充满了希望和希望,他用自己的语言和思想,陪伴我,为我的方向和方向提供帮助,并一直陪伴着我,为我创造最好的环境。我为她的存在感到无比谦卑。我很感谢很感谢你能陪我参加今年的职业比赛卢瓦里先生。我非常感谢大家的交流和讨论,希望我们能一起来。我很感激你能这么做我不想告诉你,我周围的阿维尼翁朋友都在认真地侦察,谢谢你照顾我的家人我最后的感谢和最后的哀悼,都是来自父母的关爱:母亲为了我们的幸福而献身于生活,父亲为了儿子的方向感、坚定的信心和无翅的灵魂。爸爸妈妈谢谢你把所有的美德都恢复了。我感谢法蒂玛和肯扎两姐妹以及查菲克和纳比尔两兄弟,尤其是纳比尔,他给了我一个重要的支持。我想我的堂兄哈立德和他的儿子纳迪娅“我不想让他们的名字很好”,我对所有我不想接触的人和顾问表示感谢。感谢你的耐心,感谢你的支持:我的支持,这些词语不足以让他的能指被我感知。她一直都是我的支持者,但她为我提供了两个好孩子,毫无疑问,这是我一生中最美好的历史我觉得这句话的意思是,我知道我的人都是无辜的,但我说服他们相信,没有人能找到他的名字,没有人需要勇气来理解我们的行为是多么的完美总索迈尔第一章:背景和工作11.1介绍11.2协助作出决定的制度1.2.1书籍和杂志21.2.2Niveaux1.2.2.1Niveau conceptuel 31.2.2.2Niveau logique 41.3L’OLAP et1.3.1Architecture distribuées 51.3.2NoSQL 6模块1.3.3Problématique de la Thèse 61.4Organisation dela Thèse 72.Chapitre II:Etatde2.1导言. 92.2Les entrepôts de données avec lesystème HDFS 102.2.1环境Hadoop 102.2.1.1介绍HDFS 102.2.1.2MapReduce 10范例2.2.1.3使用Hadoop 11执行MapReduce处理2.2.2HADOOP 11附近的餐厅2.3使用NoSQL 13系统的数据库2.3.1模块NoSQL 132.3.1.1Modèles orienté agrégats2.3.1.2Modèles orienté graphes 172.3.1.3合成182.3.2NoSQL 18中的数据库2.3.2.1间接翻译过程202.3.2.2直接翻译过程212.3.3碧兰242.4工业解决方案概览242.4.1Les solutions clé-valeur 252.4.1.1伏地魔252.4.1.2Riak 252.4.1.3Redis 252.4.1.4Memcahedb 252.4.1.5合成器262.4.2Solutions orientées colonnes 262.4.2.1卡桑德拉262.4.2.2HBase 272.4.2.3Hypertable 272.4.2.4合成器272.4.3Solutions orientées documents 282.4.3.1MongoDB 282.4.3.2CouchDB 282.4.3.3SimpleDB 292.4.3.4Terrastore 292.4.3.5合成器292.4.4Solutions orientées graphes 302.4.5可扩展关系系统302.4.5.1MySQL集群302.4.5.2VoltDB 312.4.5.3NuoDB 312.4.6工业解决方案合成:312.5Bilan 323.第三章:多维调制«不仅仅是SQL » 333.1一.导言. 333.2Modélisationconceptuelle multidimensionnelle 343.3非唯一逻辑修改-SQL363.3.1Modélisation multidimensionnelle orientée documents 363.3.1.1Modèle NoSQL orienté文档363.3.1.2Processus de transduction plate en orienté documents 373.3.1.3Processus de transduction par imbrication en orienté documents 393.3.1.4Processus de transduction hybrid en orienté documents 413.3.1.5Processus de traduction éclatée en orienté documents 433.3.2Modélisation multidimensionnelle orientée colonnes 463.3.2.146列定向NoSQL模块3.3.2.247柱方向的导光板突起3.3.2.3Processus de transduction par imbrication en orienté colonnes 493.3.2.4Processus de transduction hybrid en orienté colonnes 503.3.2.5Processus de transduction éclatée en orienté colonnes 523.4优化parcube olap 553.4.1多维数据集OLAP 56的定义3.4.2Processus de traduction en orienté documents3.4.3Processus de transduction en orienté colonnes 603.5毕兰604.第四章:模式内和模式间的转换过程644.1导言. 644.2Processus deconversion intra-modèles 654.2.1东方模式内文件的转换654.2.2Conversions intra-modèles orientés colonnes 704.3Processus deconversion inter-modèles 734.3.1东方文件和柱廊之间的转换734.3.2多维数据集模型间转换OLAP 774.4碧兰795.第五章:5.1一、导言. 805.2Panorama Des bancs5.3Le banc5.4Le banc5.5Amélioration de5.6La distributiondes données 885.7Le jeude requêtes 885.8指挥官DBGenk 905.9DBLoad:outil de chargementde données 905.10Exérimentations实验915.11碧兰956.第六章实验与验证» 966.1一、导言. 966.2Protocoleexperimental 966.3Instanciation des entrepôts de donnéesorienté documents 986.3.1储存时间和空间996.3.2Mise à jour des données 1006.3.2.1MongoDB 101中的日志示例6.3.3审讯1016.3.3.1Example6.3.4Calcul du Treillis 1046.3.4.1Calcul du cuboïde classique 1056.3.4.2Calcul des cuboïdes étendus 1066.3.5内部模式转换1126.3.6讨论1136.4Comparaison entre modèle relationnel et modèleorienté documents 1146.4.1Modèle orienté document:Comparaison avec le modèle relationnel 1156.4.2Construction du treillis6.4.3讨论1186.5Instanciation des entrepôts de donnéesorienté Colonnes 1186.5.1Chargement des données 1196.5.2Calcul du treillis6.5.3内部模式转换1216.5.4讨论1226.6碧兰122第七章:结论1247.1一般结论7.2观点124125Sommaire des Figures图1决策辅助系统的分类架构1图2电子表格示例4图3与tweets相关的多维数据处理R-OLAP示例5图4决策辅助系统的新架构1 1图5 D'Orazio和Bimonte在审讯过程中的审讯过程,2010] 12图6示例尺寸代码par desclés dans l'approche de [Yan et al 2015] 13图7 Principe du modèle orienté clé-pour@eur 15 Figure 8 Principe dumodèle orienté documents 16 Figure 9 Principe du modèle orienté colonnes 17 Figure 10 Principe du modèleorienté graphes 17 Figure 11 Nouvelle architecture des systèmes d'aide à la décision intégrant le NoSQL 19Figure 1图2从概念到逻辑的多维数据库的转换过程图13架构蜂巢图21图14面向图形的逻辑表示[Castelltort和Laurent 20]@4] 23图15构思过程34图16 Example de schéma conceptuel en étoile 36图17 Example dedocument par transduction plate 39图18 Example de document par transduction imbriquée 41图19 Example dedocument par transduction hybrid 44 3图20 Example de document par transduction éclatée 46图21 Example deligne par transduction plate 48图22 Example de ligne par transduction imbriquée 50图23 Example de ligne partransduction hybrid 52图24 Example de document par transduction éclatée Figure 25 Exemple de cube OLAPpar treillis de cuboïdes(ou pré-agrégats)58 Figure 26 Example de matérialisation partielle du cube OLAP 58Figure 27 Example de matérialisation partielle du cube OLAP 59 Figure 28 Processsus de transformationsconceptuu elle-logique 64图29东方逻辑文档转换过程65图30东方文档内部模式转换示例,du modèleimbriqué vers le modèle hybrid 70图31 Processus de conversion logique orienté colonnes 71图32 Example deconversion intra-modèle en oriente柱廊,你的模型混合物对模型平台73图33 Example de inter-modèles del'orienté documents vers l'orienté colonnes,en implantation plate 75图34 Example de inter-modèles del'orienté colonnes vers l'orienté documents,d'une implantation hybrid vers une imbriquée77图35在NoSQL中使用SSB的过程84图36 SSB模型概念84图37具有SSB+癌的供试品碱基的充电示意图85图38妇女正常生育方案86图39以分配方式产生的捐款88图40 Espace destorkage utilisé93图41根据配置生成的时间94图42配置的充电时间94图43架构集群97图45植入时的执行时间102图46 Treillis d'agrégats105图47 Treillis d'agrégats avec le temps de calcul(en secondes)et la taille(en enregistrement/ documents).Le nom des dimensions est abrégé(D:日期,P:部件,S:供应商,C:Customer)106 Figure 48 Exemplede cube OLAP par treillis de cuboïdes图49 Comparaison des temps d'exécution des cuboïdes classique etimbriqué 111图50 Comparaison des temps de récution经典和非经典立方体的响应112图51与SF 1的模型内定向柱的转换时间113图52植入和指示器的储存空间与模型中的定向文件和模型图53模型充电时间图54计算时间和立方晶系的灯号(尺寸名称对应的尺寸:C =客户,S =供应商,D =日期,P =部件/产品)120图55模式内定向列转换时间(sf = 1)121舞台布景Tableau 1 Comparatif desmodèles NoSQL18Tableau 2 Comparatif des travaux de transformation directe des schémas conceptuelsen NoSQL24Tableau 3 Comparatif des systèmesNoSQL clé-valeur26Tableau 4 Comparatif des systèmes NoSQLorientés colonnes28Tableau 5 Comparatif des systèmes NoSQLorientés documents29Tableau 6:Synthèse des règles de transduction du modèle conceptuel multidimensionnel vers lesmodèleslogiques NoSQL orientés documentset colonnes.62表7 Synthèse des conversion règles de intra-modèles orientés documents 66表8 Synthèse des conversion règlesde intra-modèles orientés colonnes 71表9 Synthèse des conversion règles intermodèles 7 4表10多维数据集模型间转换规则的合成OLAP 78表11表87的相关备忘录表12表87的指标对SSB名称的影响8 Tableau 13 Filtres derequêtes 89 Tableau 14 Mémoire disque par configuration 92 Tableau 15 Temps d'exécution par configuration 93Tableau 16 Temps de chargement et espace mémoire par implantation 100 Tableau 14存储器@8 Tempsd'exécution par requête et par implantation 103 Tableau 19 Temps d'exécution moyen par cuboïde 106 Tableau20 Temps d'exécution et mémoire utilisés par dimensions pour chaque cuboïde@109 Tableau 21模型执行时间117 Tableau 22三维立方体执行时间118 Tableau 23植入时加载时间119第24条Temps d'exécution par cuboïdeet par modèle 1211第一章:CONTEXTE ET Travaux1.1一、生产Les systèmes d'aide à la décision consistent une place prépondérante au sein des entreprises et desgrandes organizations,pour permettre des analyses dédiées à la prise de décisions [Kimball and Ross2011]. Ces systèmes sont généralement constitués en trois canches [Teste 2009] [Bimonte and Pinet2012] comme l'illustre la Figure 1.−Une première couche correspond à此外,这些资金来源也是组织生产申请的问题−Une deuxième couche est constituée d'espaces−Enfin,la troisième couche est dédiée à la restitution(reporting)et l'analyze de cesdonnées. Differérents outils d'interrogation,et de visualisation sont possiblementutilisés.决定决定图1.决策辅助系统随着信息技术在世界网络上的普及,让我决定OTILS下低音杂志德DonneesOTILS下低音杂志德Donnees下低音企业家菲谢尔下堡来源德多尼剥削制备2定义:Unentrepôt de données est une collection de données intégrées,variant selonle temps et non volatiles,qui sert de support au processus de prise de decision.数 字 是 按 比 例 计 算 的 , 而 且 是 一 种 没 有 经 过 共 同 测 量 的 韵 律 。 Ce nouvelobservnement , connu sous le nom debig data ( ou mégadonnées ) remet en cause lesapproaches traditionnelles des systèmes d'aide à la decision [Stonebraker et al. 2007] [Abadiet al. 2016]. Les mass de données disponibles aujourdL’objet d’étude de cette thèse concerne la modélisation des entrepôts de données avecdes systèmes Ces systèmes sont dépés actuellement pour faire face aux important volumétriesque les systèmes de gestion de données doivent prendre en charge. Nous étudions lesproblèmes de modélisation et de transformations des données décisionnelles avec cesnouveaux systèmes [Teste 2000].1.2帮助决定的人一般来说,一个协助作出决定的系统是由当事人组成的。Les architectures classiquesreposent sur deux catégories-Il constitue un premier niveau de stockage acquisant la collecte et la gestion historisée(conservation de−Les magasins de données constituent un second niveau du stockage utilisé à des finsd'analyze.总的来说,一本杂志属于一个专业领域或一个分析类别。Lesdonnées sont organisées selon une modélisation multidimensionnelle [Kimball andRoss 2011] afin de supporter efficacement les processessus1.2.1 书籍和杂志La notion d'entrepôts de données a été introduite pour la première fois par Bill Inmon [Inmon1995] [Inmon 2005].它构成了一个完整的数据库,包含了历史、非挥发性和决定性的信息。Les informations−Intégrées:les différentes données concernant les métiers et les services de−Variable dans le temps(ou historisées).在一个仓库中的争议信息不能通过temporelles périodes来识别。这些东西的变化可能会随着时间的推移而变化。-非挥发性物质。Un état de stabilité est obligatoire pour permettre une traçabilité desdécisions prises.在一个仓库里的物资供应一般不作修改,也不作补充。这些数据库的结构是基于数据分析的基础上的;同时,服务金融分析的基础不涉及数据库的最后一点,而是要充分利用东方数据库一本书是一个小的书的集合3定义。Unmagasin de données is un extrait orienté sujet de l'entrepôt,organisé selonun modelé adapté(multidimensionnel)aux outils d'analysis et d'interrogation décisionnelle.1.2.2 尼沃-Concevoir un système décisionnel nécionite une phase de modélisation des donnéesmultidimensionnelles. Plusieurs approches ont été proposées selon trois niveaux概念这一逻辑Ce niveau−体格。Ce niveau我们在我们的工作中对这两个概念和逻辑的抽象概念进行了重点阐述1.2.2.1尼沃概念不同的概念sont déspeeder pour représenter les données multidimensionnelles。Les sujetsd'analyze(appelés faits),regrouping un ensemble d'indicateurs(appelés mesures).这些指标的值在分析轴(称为维数)上是不可观测的。这些维度不是由不同的细节组成的,而是由层次结构中的各种组织组成的;因此,我们可以通过一个测量来分析这些事件的发生,这些事件可以在一个维度的基础上观察到,这些维度是由三个细节(日、月、年)组成的,这些细节可以在一个层次结构中定义,就像一个月的细节,一年中的细节一样Ces différents concept permettent de concevoir des schémas multidimensionnels ,appelés constellation.这些尺寸可能在所有的事情中是分开的。Un cas particulier consisteà ramener la constellation à un mosquito fait , on parle alors d
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功