基于微服务的深度学习应用的数据驱动管理解决方案

158 浏览量更新于2024-02-05 收藏 2.08MB PDF 举报

深度学习应用

博士论文

身份认证购VIP最低享 7 折!

30元优惠券

基于微服务的深度学习应用的数据驱动管理解决方案Zeina Houmani引用此版本：泽娜·胡马尼面向基于微服务的深度学习应用的数据驱动管理解决方案其他[cs.OH]。里昂大学，2021年。英语NNT：2021LYSEN092。电话：03593003HAL Id：tel-03593003https://theses.hal.science/tel-035930032022年3月1日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire国家药品编号：2021LYSEN092里昂大学博士论文集歌剧l’École Normale Supérieure de巴黎512博士里昂信息与数学博士学校Discipline：InformatiqueSoutenue publiquement le16/12/2021，par：Zeina HOUMANI面向基于微服务的深度学习应用的-----------Solution de gestion pilotée par les données pour les applications基于微服务的深度学习陪审团组成如下：Cedric TEDESCHI会议主持人伊莉莎·雷恩特别报告员Laurence Duchien高等院校图书馆里尔大学报告员迈克尔·克拉杰基高等教育研究所兰斯大学考官劳雷·贡诺德高等院校图书馆格勒诺布尔INP考试加布里埃尔·安东尼奥研究主任因里亚·雷恩考官埃迪·卡隆会议主持人ENS de LyonDirecteur丹尼尔·巴洛埃克-托默特研究助理犹他大学联合主任前言iii本论文的研究工作是ENS Lyon（法国里昂）的LIP和Rutgers大学（美国新泽西州）的Rutgers Discovery Informatics Institute RDI 2之间的合作在第一年和最后一年，这篇论文的实现是在LIP实验室的Avalon团队的第二年，我搬到美国，继续在罗格斯大学RDI2下的这项研究部分由NSF 资助，资助号为 OAC 1640834 ，OAC 1835661，OAC1835692和OCE 1745246，其他部分由LIP实验室和ENS资助。图1致谢iv我之所以能写这篇致谢文章，是因为我周围很多人的帮助、鼓励和支持，我想感谢他们。首先，我想对我博士学位期间的报告员表示衷心的感谢。委员会：LaurenceDuchien和Cedric Tedeschi阅读了我的论文，并撰写了详细的报告，反馈很好。此外，我还要感谢我的论文审查员：Laure Gonnord，Michael Krajecki和GabrielAntoniu接受成为委员会的一员，并将他们宝贵的时间用于评估我的工作。我要对我的导师Eddy Caron和Daniel Balouek-Mülert表示最深切的感谢，感谢他们在本论文中所做的宝贵努力、敬业的科学指导和热情的参与。我感谢他们富有成果的讨论、耐心和对我的信任。最重要的是，我要感谢Eddy在我的硕士实习和论文期间一直给予我的支持和鼓励。对我来说，埃迪不仅仅是一个顾问。他很快成为我作为一个成长中的研究人员所崇拜的第一个科学榜样。他在计算机科学领域表现出了很好的举止，富有感染力的个性以及杰出的知识和专业知识。我感谢他在我们尴尬的第一次见面后没有放弃我，也感谢他知道我在电影业的知识并不令人印象深刻。我很感激丹尼尔帮助我成长为一名研究人员。我从他那里学到了要密切关注细节，在工作计划阶段投入足够的时间，并且永远不要偷工减料。我总是感谢他的建设性意见，这帮助我提高了我的写作技巧。作为他的第一个正式博士学位。学生们让这个旅程更加令人兴奋，因为我们都在学习如何应对在这个过程中遇到的挑战。我我希望我没有辜负他们的期望。我要感谢Avalon团队的领导者Christian Perez先生和当时RDI 2团队的负责人Manish Parashar先生，感谢他们的善意建议，并让我有机会在本论文期间成为他们研究团队的一员。v我想感谢阿瓦隆的所有成员，感谢他们的小组会议、工作报告、讨论和Covid19之前的平静的咖啡休息时间。我要感谢RDI2团队的成员，特别是EduardRenart，感谢他们的有益讨论和建议。我要感谢LIP实验室的工作人员Yves Caniou先生，在我寻找研究实习机会时，他向我介绍了LIP实验室。一切就是从那时我我多亏了这次旅行，我在里昂和新泽西遇到了许多不可思议的人。我要感谢我的朋友Sarah、Orsola、Soha、Sally和Hiba，是他们让里昂的平凡时刻变得我要感谢法蒂玛、加迪尔和巴图尔，他们是我在新泽西州遇到的，他们欢迎我，并为我提供了快速适应新环境所需的帮助。我要感谢我在新泽西罗格斯大学宿舍的室友安娜和苏宁。尽管他们的逗留时间很短，但他们让宿舍里的生活不那么孤独。我想感谢安娜在纽约的美好回忆和漫长而有趣的讨论。我我要感谢我儿时的朋友Bilal，他是一个永远在我身边的兄弟，一直是我可以依靠的人。非常感谢我的最好的朋友Marwa，Lina，Batoul，Hiba和Maysa，尽管选择了不同的职业并且相距数千英里，但仍然给予了极大的支持。最后，我要感谢我亲爱的家人，在我生命中的这一特殊篇章中，他们一直给予我鼓励和支持。首先，我要特别感谢我的父母哈利勒 · 胡马尼（ KhalilHoumani）和阿米娜·切艾布（Amina Cheaib），以及我的姐妹泽纳布（Zeinab）和扎赫拉（Zahraa），他们一直给我所需要的支持、我很感激他们总是在那里为我。我还要感谢我的叔叔Taan Cheaib的精神支持。非常感谢我的表弟Rayan在巴黎的无数次散步，Boursin，以及我可以依靠的人。vi为了纪念我最亲爱的祖父母，扎姆扎姆·切伊布，泽纳布·坎索，还有我在这次旅行中失去的姑妈哈蒂贾·胡马尼vii奉献敬我可爱的父母和姐妹们。谢谢你支持我的梦想，相信我。敬我已故的祖母和姑妈。谢谢你对我的关心，我会永远把你放在心里viii摘要我们生活在一个大数据的新时代，一个洞察力的时代虽然我们收集实时数据的能力在过去十年中显著增长，但我们分析数据并将其转化为知识的能力却没有跟上。随着新一代设备和网络技术的发展，大数据的重点正在转向能够从收集的数据中提取信息的工具和应用程序的设计大多数新兴的应用程序提出了近实时处理的期望，以保持其结果的有效性然而，传统的云系统设计和管理策略阻碍了其性能要求的保证当前用于大数据应用的系统依赖于分布在受限边缘和强大云之间的异构资源此外，应用程序现在被创建为一组自包含的微服务，由独立团队按照De-vOps实践开发。系统设计的这种演变将极端的异质性和不确定性引入了新兴的应用程序，突出了传统管理策略的局限性。在这篇论文中，我们专注于为大数据应用程序设计一个系统，重新思考现有的管理策略，特别强调传入数据，应用程序和资源的异构性。我们首先研究了新兴的基于微服务的应用程序中数据生产者和消费者的解耦，作为有效利用可用服务（即使是新发布的服务）的切入点。基于此，本文提出了一个基于数据驱动的服务发现框架，该框架以数据为中心，以Peer-to-Peer数据驱动架构为依托。此外，我们还提出了一种自适应方案，该方案可以扩展部署的微服务，以解决波动负载对实时性能的影响其次，我们调查的质量和紧迫性的结果在大数据应用程序之间的权衡，作为一个有前途的战略，以克服系统资源的有限和异构的能力。特别是，我们提出了一种数据驱动的工作流调度方法，用于在网络边缘、核心和数据路径上分发微服务。此外，我们提出了一个数据自适应策略，降低传入数据的质量时，潜在的质量-延迟权衡优化。然后，我们在深度学习应用程序的背景下应用所提出的x法兰西共和国在12月的最后一个课程中，可以考虑增加收集临时données的能力。但是，开发者的分析能力并不是同样的进步。随着设备连接和技术网络的发展，大数据将成为一种工具和应用程序，这些工具和应用程序能够收集部分数据。La majorité des applicationsissues du Big Data nécessitent un treitement en temps réel pour maintenir larelevance de leurs résultats.此外，确保实时性能取决于云系统的传统管理策略。Lessystèmes actuels pour les applications Big Data reposent sur des resourceshétérogènes allant de la périphérie du réseau （ faible latence mais puissancelimitée）jusqu此外，这些应用程序是通过建立一个完整的服务系统，由独立设备提供的。这种制度概念的演变在紧急情况下的应用中引入了一种例外和不确定性，同时也暴露了传统管理战略的局限性。Cette thèse Nous étudions d'abord la problématique d'accès à des services or destypes de services sans être en mesure de connaintre leurs identifiants （ par aple nomprécis）. 因此，在第二个时间，我们研究了大数据应用中结果的质量和可访问性之间的折衷，提出了一个解决资源系统容量限制和性能问题的战略方案。Un aperçu de chaquecontribution de cette thèse est presenté ci-dessous：服务的基础是顾客。La découverte de services est le process de localisationLesapproches actuelles recherchent此外，现行制度包括各种动态服务，包括各种实施办法，而且没有任何特征。在这一点上，我们选择了一种原始的方法，这种方法集中在信息上xi因为你知道你的身份。这一方法基于对以数据为中心的微服务的描述，以及基于一种用于地理区域数据传输的对等体系结构。Un schéma d'adaptation des microservices basé sur les données. Le trafic en-trantdes applications de Big Data est hétérogène en termes de type ， format etqualité des données. 此外，它的特点是两代人都是充满活力的。一种控制应用程序延迟的方法包括测量服务，即对应于计算能力的增加或减少。La plutart des approchestraditionnelles reposent acquisition sur des metriques liées à在这一点上，教育系统只适用于那些提供服务的方法，也适用于那些提供服务的Une évaluation exérimentale de l'approche de découverte de services. Le routagedu trafic et la supervision des microservices sont realisés par le projectIstio.然而，该项目不负责创建一个基于服务质量保证的数据库在这方面，管理服务的集合是为了在Istio中集成微服务的建议而建立的。对G r i d ' 5 0 0 0 方法的评估表明，在资源系统的利用效率方面，印版可以保持一个可接受的延迟和一个可接受的百分比。一种对患者治疗的延迟-精确性的折衷方法。在资源有限的情况下，为了保证一个不可靠的延迟而使用微服务是不可能的，而实际上系统是不可能的因此，必须采用管理数据和工作流程的方法 Les travaux existants tendent à traiter ces deux aspectsindépendamment ， traitent rareal l'ensure l'ensure du flux de travail del'application et manquent de formu- lations générales des approches proposées.这就提出了一种新的延迟-精确度折衷方法，该方法基于对供应商质量的适应性评估和对工作流程放置的适应性评估的结合。Une évaluation exérimentale dans le cadre du Deep Learning. Les applica- tionsde Deep Learning nécesitent que les decisions soient prises en temps réel tout en在这一点上，xii评价网格评价结果显示，在多用途scénario中，患者的治疗延迟率为54.4%，且治疗质量优于一种药物xiii目录1介绍11.1背景. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11.2研究问题. . . . . . . . . . . . . . . . . . . . . . . . . . . .31.3 Mandarin pt的结构. . . . . . . . . . . . . . . . . . . . . . .41.3.1概述。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41.3.2接受的研究出版物。. . . . . . . . . . . . . . . . . .52实现数据驱动的系统管理72.1导言。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .72.2云系统设计：当前的景观。 . . . . . . . . . . . . . . .82.2.1基于云的结构化设计的演变。 . . . . .82.2.1.1集中式云计算。. . . . . . . . . . . . .92.2.1.2分散式云计算102.2.2从单片到微服务范式的122.2.2.1单片设计和缺点122.2.2.2面向服务的体系结构（SOA）和反模式2.2.2.3基于微服务的架构MSA142.2.3服务网：概念、特点和项目162.3当前云系统182.4数据驱动的生态系统：定义与设计202.4.1数据驱动的决策2.4.2系统设计：概述222.5结论253数据驱动的服务发现方法263.1一、导言. 263.2文献综述：服务发现273.2.1服务描述模型28xiv3.2.2上下文感知服务发现303.2.3发现方法的架构设计333.2.4微服务架构的发现模式373.3以数据为中心的服务描述模型3.4服务发现机制403.5数据驱动架构设计423.6服务发现说明性示例453.7结论484数据驱动的资源适应方法494.1导言.494.2文献综述：缩放方法504.2.1缩放行动514.2.2扩展类型：主动、预测和反应514.2.3基于生产阈值的自动缩放解决方案524.2.4微服务扩展方法534.3Istio Service Mesh544.4提高QoS的体系结构设计564.4.1API管理服务4.4.2业务服务4.4.3适应服务4.5管理算法594.5.1ScaleOut算法604.5.2ScaleDown算法624.5.3甩负荷算法634.6系统适应性评价634.6.1方法概述4.6.1.1平台644.6.1.2试验台644.6.1.3平台配置654.6.1.4基准.654.6.1.565岁4.6.2评价结果4.7结论685数据质量管理和工作流调度策略xv5.1导言.695.2文献：数据和工作流程管理705.2.1基于Edge的系统的配置自适应705.2.2工作流程调度策略715.3系统架构和建模735.3.1基础设施模型745.3.2工作流程模型755.3.3性能模型765.3.3.1端到端延迟模型765.3.3.278型精度5.3.4系统目标785.4数据质量适应战略805.5数据驱动工作流调度方法825.5.1任务分类5.5.2异构感知工作流调度算法835.5.2.1资源预留算法835.5.2.2工作流调度算法855.5.3需求调整算法865.6结论876数据驱动管理：深度学习应用案例886.1一、导言. 886.2数据分析系统：概述6.2.1数据分析工作流程896.2.2智能数据分析906.2.3YOLO：You Only Look Once（英语：You Only Look Once）6.3对象检测用例936.3.1定义936.3.2任务分类6.4系统建模：深度学习956.5延迟优化评估976.5.1方法学概述976.5.1.1试验台976.5.1.2台986.5.2评价结果100xvi6.5.3讨论1026.6结论1037结论与展望1047.1摘要1047.2捐款1057.2.1设计可扩展的数据驱动的服务发现系统1057.2.2利用延迟-准确性权衡方法1067.3观点107参考书目139图139表1391第1章绪论内容1.1上下文11.2研究问题31.3Mandarin的结构41.1上下文连接到网络的数字数据源的指数级增长增强了企业、学术界和人类生活质量。例如，旨在预防自然灾害的应用程序，如早期地震预警系统[1]，实时分析传感器产生的地球科学数据，以保护人类生命。生成的数字数据具有几个特征，例如它们的品种，数量，速度和价值[2]。多样性包括各种类型、分辨率和数据格式，包括视频、音频、文档等。例如，在农业应用中，收集的数据可以是来自相机、无人机、卫星的图像以及用于定位牲畜的声音数据[3，4]。数据速度与数据创建速率有关例如，COVID-19爆发后，生活的方方面面都转移到了网上。根据2021年DOMO报告，每1分钟，Facebook上就有24万张照片被分享，用户在YouTube上播放了69.4万小时的内容。此外，数据的价值从实时数据中提取值需要能够及时处理数据的应用程序。保证实时性是其主要原因之一第1章2推动基础设施和应用程序设计的发展[6，7]。传统上，基础设施基于地理上集中的数据中心[8]。由于生成的数据量和有限的网络容量，传统系统遭受高延迟。因此，最近有兴趣将资源从位于网络核心的数据中心当前基础设施的分布式设计引发了应用程序实现和部署方式的演变特别是，正在进行的对云原生思维的竞争[9]创造了微服务范式的不断涌现。这种范例[10]是一种应用程序设计，它将传统的大型应用程序分解为一组独立的、松散耦合的服务，这些服务通过网络进行交互。国际数据公司（IDC）2019年的研究报告预计，到2022年，大约90%的新开发应用程序将采用微服务架构。当前的基础架构设计、应用程序模式和生成数据的增长为新兴应用程序的管理增加了新的挑战。首先，基于微服务的应用程序是动态的，由不同的实体创建，并具有多个微服务实现。每个实体都会根据自己的需求不断发布新的微服务或删除现有的微服务。这些微服务不知道彼此此外，几个微服务提供相同的功能，但具有不同的服务质量，并接受特定的数据特征。例如，在视频分析系统中，存在对象检测服务的几种实现[14，15];每种实现都提供特定的分析性能，消耗不同的资源，并接受特定的数据类型和分辨率。因此，在特定时间，基于微服务的环境中存在的内容无法得到保证，并且所选择的实现会影响当前应用程序的关键性能其次，数据源的数量在应用程序运行时是动态的，新的数据生产者可以不断加入系统，现有的数据生产者可能会离开[16]。例如，对于与移动智能手机相对应的数据源，用户自愿开始或停止为应用程序提供他们的数据[17]。每个数据生产者都生成特定的数据，并旨在利用开发的可用微服务来处理其特定数据。由于负载波动，每个微服务接收的流量事先并不知道第三，在实时部署中，可用资源在地理上是分布的、有限的，并且提供不同的计算、存储器、存储和带宽容量。这些资源可以第1章3从容量有限的嵌入式设备到大型数据中心[18]。使用这些资源来部署对时间敏感的大数据应用程序需要额外的策略来控制异构数据源和微服务之间的资源分布。在这方面，有必要采取克服这些挑战的管理办法，以保持时间敏感的应用程序的效率创建了几个系统和工具来管理分布式环境中不同系统级别（例如资源，数据和应用程序级别）的大数据应用程序。然而，他们的方法大多被认为是基于目标的方法，由系统需求驱动，以满足一定的服务质量要求，并为系统的用户提供特定的功能。这些方法通常是基于明确的假设量身定制，以回答系统在大数据应用程序的背景下，由于新兴应用程序的极端异构性和不确定性，在现实世界的部署中采用目标驱动的因此，至关重要的是设计新的方法，推理建立在当前环境和生成的数据的特征。数据驱动的管理方法与现有的目标驱动的方法有着根本的不同，但它们可以相互补充，以有效地利用可用的服务和资源。本文设计了一个基于数据驱动的分布式大数据应用在现有的大数据应用中，本文重点研究了深度学习应用。所提出的系统重新思考当前的目标驱动的管理策略，特别关注的字符的特性生成的数据，应用程序和基础设施。为了解决上述当前景观的挑战，我们在第1.2节中提出了本论文的研究问题。1.2研究问题随着技术的进步，我们收集数据的能力显著增长[19]。然而，在当前的大数据系统中，使用这些数据为实际部署做出有效管理决策的潜力还没有得到充分解决因此，本论文的目标是创建一个系统，为新兴的时间敏感的大数据应用程序提供多个系统级别的这个目标被进一步分解为三组研究问题，以解决1.1节中提到的当前基于微服务的应用程序的挑战。本节

下载后可阅读完整内容，剩余1页未读，立即下载