没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报LaMeta:一种面向超大型分布式存储系统的高效局部元数据管理技术Harcharan Jit SinghJi,Seema Bawa计算机科学与工程系,塔帕工程技术学院(被视为大学),Patiala阿提奇莱因福奥文章历史记录:收到日期:2022年2022年7月13日修订2022年8月11日接受2022年8月23日在线提供保留字:深度学习Stackedautoencoder机器学习高性能计算分布式元数据管理存储系统A B S T R A C T元数据的局部性是影响超大型分布式存储系统数据存储和检索性能的关键参数。超大型分布式存储系统的数据访问是通过其分布式元数据服务器(MDS)实现的。分布式MDS存储和缓存部分元数据以提高可伸缩性和性能。MDS通过使用各种元数据分发技术的各种延迟多路径网络连接来连接。MDS在元数据分发技术中的局部性,改善了元数据查询的路由,提高了分布式存储系统的性能。受此启发,本文介绍了一种基于推荐系统的智能位置感知元数据管理技术,该技术利用MDS路径评级,提出了一种新的局部感知元数据查询路由算法。所提出的元数据服务器局部感知采用协同过滤与堆叠自动编码器,以解决路径评价矩阵的稀疏性和过拟合问题。在实际数据集上进行的大量实验表明,在超大型分布式存储系统中,元数据服务器局部性感知技术提高了元数据操作的局部性,聚合操作吞吐量比现有分布式元数据管理技术提高了12%~ 21%.版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍数据的增长已经成为发展其存储和检索系统的解析和分发技术的主导力量(Gao等人,2019; Singh和Bawa,2018; Hua等人,2011年;熊等人,2011; Cha等人,2017年)。超大型分布式存储系统中高效的分布式Meta数据管理对可扩展存储系统的整体性能至关重要。这样的存储系统具有许多元数据服务器(MDS)缩写:SAE,堆叠式自动编码器; MDS,元数据服务器; LaMeta,局部感知元数据管理技术; MF,矩阵分解; CF,协作过滤器; SVD,奇异向量分解; RNMF,正则化非负矩阵分解。*通讯作者。电 子 邮 件地 址 :harcharan@thapar.edu( H. J.Singh ) ,seema@thapar.edu(美国)Bawa)。沙特国王大学负责同行审查制作和主办:Elsevier互连以管理部分元数据,从而实现缓存、可伸缩性、可用性和性能增强。超大型分布式云存储系统的元数据通过其分布式元数据服务器(MDS)访问。元数据存储和访问查询路由性能过度依赖于这些互连MDS网络和MDS互连路径延迟。数据的元数据具有关键信息文件系统结构、块标识号、块的物理位置和各种访问权限。此外,任何文件系统访问都有超过60%的元数据操作。元数据在多个MDS上进行分区,以实现缓存、可伸缩性和可用性。文件系统的元数据在MDS 1、2和3上进行静态子树分区,如图所示。1.一、元数据服务器执行或路由元数据操作,即创建、查找和检索到其他MDS,因为每个MDS保存存储系统的完整元数据的部分元数据。在这里,术语局部性被表达为管理与最少延迟路径连接的分布式MDS上的MDS在分布式元数据中的位置性能取决于MDShttps://doi.org/10.1016/j.jksuci.2022.08.0121319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comH.J.Singh和S. 巴瓦沙特国王大学学报8324图1.一、 MDS上的静态子树元数据分区互联逻辑结构因此,元数据存储和访问查询性能过度依赖于这些互连的MDS网络中间路径延迟。在超大型分布式MDS网络中,测量低延迟MDS路径属性是一项具有挑战性且消耗资源的任务(Gao等人,2019; Singh和Bawa,2018; Hua等人,2011年;熊等人, 2011年)。受此启发,本文重点研究了在分布式元数据管理技术中利用MDS服务器局部性来提高超大型云存储系统中分布式元数据管理技术的性能。可以利用网络路径的往返时间(RTT)来找到MDS之间的低延迟路径所有MDS路径的RTT的测量具有二次复杂度,并且对于超大存储系统是不可缩放的细粒度、高精度的网络路径特征检测需要大量的资源。有趣的是,元数据服务器的局部性类似于推荐系统的问题(Koren等人, 2009年)。MDS路径属性RTT可以是其它MDS之间的友好度量。用于元数据查询路由的下一MDS跳选择可以表示为好友推荐。这使我们能够预测本地MDS和MDS网络路径属性使用推荐系统。我们的实验表明,推荐系统是适合于有效的MDS网络路径预测。MDS的路径评级矩阵具有高度的稀疏性,这是通过采用基于协同滤波的矩阵因子化技术和堆叠自动编码器来解决的。本文提出了一种基于位置感知的元数据管理技术,通过预测邻近MDS的路径等级来提高分布式元数据管理技术中元数据操作的位置性和总吞吐量。本研究论文的重要贡献如下:i) 本文提出了一种新的元数据局部性感知技术(LaMeta),该技术利用了全局分布式超大型云存储系统中MDS的局部性。ii) 我们评估了基于协同过滤的MF技术和Stacked AutoEncoder的性能。iii) 我们提出了基于堆叠自动编码器(SAE)结构的LaMeta,用于元数据分发技术中高效和智能的MDS位置预测。iv) 本文还提出了一种Meta数据查询路由的下一个kMDS算法和一个计算元数据操作局部性的局部性函数。v) 使用三个真实的元数据数据集进行了广泛的实验和性能评估实验结果表明,LaMeta技术在总体吞吐量和元数据操作的局部性方面提高了基线元数据分布的局部性和性能本文的其余部分组织如下。第二节介绍了分布式存储系统元数据管理技术的局部性,并讨论了推荐的基于MF的CF技术和SAE技术。第三节讨论了局部性元数据管理技术(LaMeta)、MDS路径评级、SAE结构、局部性下一个kMDS算法和局部性函数。第四节讨论了基于CF的推荐系统和LaMeta在元数据操作、吞吐量提高和局部性增强方面的性能评价。第五节提出结论和今后的工作。2. 相关工作本节讨论元数据分布技术的局部性以及用于通过MDS路径评级预测MDS局部性的多年来,为超大型分布式云存储系统开发了各种分布式元数据管理技术(Singh和Bawa,2018; Hua等人, 2011年)。重点是元数据分布,H.J.Singh和S. 巴瓦沙特国王大学学报8325×元数据服务器局部性特征尚未在用于云存储系统的分布式元数据技术中得到解决(Gao等人,2019; Singh和Bawa,2018)。现有的元数据分布式技术被分类为基于表、基于静态子树、基于哈希、基于动态子树和基于分布式哈希表(Gao等人,2019; Singh和Bawa,2018)。元数据分发技术遵循用于元数据分区和查询路由的逻辑结构元数据查询路由取决于分发技术的逻辑结构的下一跳决策对于下一跳路由,分布技术使用基于表的技术使用固定范围的元数据键分配元数据在元数据范围映射到MDS中不考虑MDS的局部性许多基于表的元数据分发被提出,如xFS和zFS。在静态子树分布技术中,元数据被划分为不重叠的子树,并且这些子树被映射到MDS。由于分配的静态特性,一些MDS被MDS操作加载,而另一些则处于空闲状态。静态子树划分中负载的不平衡限制了其性能和可扩展性。类似NFS 的方法( Pawlowski 等人,1994)和雪碧(Nelson等人, 1988)利用子树划分技术。在动态子树分布技术中,通过对根目录附近的目录进行散列来对元数据进行切片(Gao等人,2019; Xiong等人,2011),并动态映射到MDS。元数据动态迁移到MDS以实现负载平衡。这种元数据分布技术用于CEPH(Weil等人,2006)、DDG(Xiong等人,2011); Kosha( Butt 等 人 , 2006 ) 和 GIGA+ ( Patil 和 Gibson , 2011 ) 。MilkyWay-2超级计算机文件系统也基于基于动态子树的元数据分布(Xu et al., 2014年)的报告。利用散列技术来有效地加载平衡元数据以进行查找(Gao等人,2019年)的报告。ABFS(Díaz等人,2013)和Vesta(Corbett和Feitelson,1996)文件系统利用基于散列的映射进行元数据映射及其查找操作。Lazy Hybrid(LH)提出了用于分层目录管理的完整路径名散列(Wang等人,2009年)。这种Meta数据分发技术在分发过程中不使用MDS的本地性。表1元数据分发技术及其性能参数。元数据的分布。动态环在线分区(DROP)是一种分布式哈希覆盖结构。ICord(Xu等人, 2013)、HDLB(Xu等人, 2013)和PPMS(Yang等人, 2014年)提出了基于DHT的元数据分发技术。表1总结了元数据管理分发技术及其性能参数。这里n表示文件总数,d表示文件系统中分区的子目录总数。当代技术没有展现出利用和调节MDS局部性的科学方法(Gao等人,2019; Singh和Bawa,2018)。MDS缓存NextHop MDS标识符在形成分布结构时被随机选择或预先固定。具有最小延迟的高效MDS路径可以在MDS查询路由的性能中发挥至关重要的作用。2.1. MDS局部路径测量MDS通过许多网络路径物理地连接到其他MDS,并且每个MDS具有到分布式存储系统中的其他MDS服务器的许多冗余网络路径。图2MDS路径连接矩阵的表示。绿色条目表示已知MDS路径,灰色条目表示未知MDS路径。对角线MDS路径是自路径,用浅蓝色表示。再次实时测量所有MDS路径对MDS和MDS网络施加额外的该路径评级矩阵的稀疏性是增加其存储和处理的复杂性的问题。矩阵分解(MF)技术可以获得低秩矩阵以解决高秩原始评级矩阵的空间复杂度(Huang等人,2020年; He等人,2018; Aghdam等人,2017年)。基于深度神经网络的Stacked AutoEncoder可以用于特征缩减和预测未知评级(Yu et al.,2022; Zhang等人,2020年;Zhao等人,2019年;Wang等人,2009年)。在数学上,一个n矩阵秩r,其中r是非常小的对应n,并计算,如方程中所提到的。(一).X¼PQT100其中P和Q是大小为n× k的低秩矩阵技术/参数扩展性查找时间负载平衡内存开销恢复复制局部性迁移基于静态子树非常低O(log d)没有低高高没有低基于表格低复杂度O(logn)低高高高没有低基于哈希低求(1)介质低低低没有高基于动态子树高O(log d)高介质低低没有高基于分布式哈希表高求(1)非常高低低低有限高基于Bloom非常高求(1)高高介质介质有限小图二. MDS路径矩阵的表示。H.J.Singh和S. 巴瓦沙特国王大学学报8326bsdBBBb·F GnBbd←d·sd·sjs j2j-k ·DðDSDSssUdSFSDSD¼þ sDsjsj2Jð ÞDSDSS2Jni¼1P·1倍。Σn2.2. 带偏奇异向量分解SVD将源目的地特征映射到k维潜在空间(Zhao等人,2019年)的报告。这里,Rnxn是评级矩阵,Pnxk和Qnxk分别是源MDS特征和目的地MDS特征。对于给定的源MDS s和目的地MDS d,预测评级r被估计为如等式(1)中所提及的(二)、的表2中提到了关键符号。bs←bsc·esd-k·bs11bd←bdc·esd-k·bd12ps←psc·esd·qd-k ·ps13qqc.epI-1Xyq!14js我sr不bsdlb sb dqdps2。Σ预测误差由Eq.(四)、y← yc·e-k ·yð15Þ-1q·jIJ Jesdrsd-rsd3sd sj2·d j为了学习参数bs,bd,ps,qd,以最小化等式中提到的正则化平方误差,(四)、采用随机梯度下降(SGD)进行最小化,训练过程在方程中提到。(5-8)。minX. rsd-brsd2k·。b2b2。. qj j2 . pjj2张4张bs;bd;ps;qd2.4. 正则化非负矩阵分解(RNMF)RNMF利用输入矩阵值的非负性质,并且训练和优化过程生成正因子以保持正值。R不rsd2Rbs←bsc·esd-k·bs5bd←bdc·esd-k·bd6sdlbsbdqdfpsf16优化过程是正则化的随机梯度下降,以获得所提到的最小正则化平方误差(19)和(20).p ←pc·e·q-k ·p7p ←p ·PPdsI sqdf ·rsdð19Þs ssdd sSF SFdsIs qdf·rsdksjIsjpsfqd←qdc·esd·ps-k ·qd8其中ks和kd是源和目的地MDS的正则化参数。df←df·PssUdp rpsfr sdkdjU djqdf2.3. SVD++SVD++利用隐式评级并且基于SVD(Zhao等人,2019年)的报告。预测评级rsd按照等式计算。(九)、其中ks和kd是正则化参数。其他参数的优化与SVD模型中提到的相同基于MF的约简方法处理线性计算。因此,这些模型在预测特征的非线性关系方面存在滞后rlb bqT.PI-1Xby!用于提取非线性数据关系。92.5.用于MDS路径评级的这里的yj表示隐含的评级。SGD学习参数并最小化正则化平方误差,如等式2中所述。(十)、学习参数的训练过程在等式中提到。(11)至(14)。编码器通过学习和记忆输入值的重要信息来重构输出,而瓶颈限制了MDS路径等级信息的数量,迫使压缩minb s;b;p;q yX.rsd-bsd2k输入数据的学习和减少路径评级矩阵尺寸(Wang等人, 2015年在这里选择和王等人,D sd;我rsd2R·你知道吗?b2b2。. qjj2分。. pjj2jIj-1Xj jyj j2!ð10Þ根据提交的文件,2009年被取消选择)。 本文利用SAE模型来减少和预测MDS路径表2输入数据集xNn1 ,其中xn2Rm×1,hn是一个隐编码.符号列表符号定义nMDS数量k潜在因素数MDS路径评级矩阵R¼rsd预测MDS评级矩阵l所有评分低秩n×k矩阵c学习率k避免过拟合的der向量,并在等式中提到。(21).hn<$fw1xnb121其中fw1和b1分别表示激活函数、权重向量和偏置向量2019 - 02-2200:00:00其中,gw2和b2分别表示解码函数、权重向量和偏置向量,以重构路径评级矩阵。训练包括反向传播以最小化重建ps源MDS因子qd目标MDS因子bs源MDS偏倚bd目的地MDS偏差损失x;bx:最小值为Lxi;^xi=23mmkd目的MDS_RÞQQ20Þdj2Isj2Is评级. SAE能够学习复杂的非线性关系输入特征,以实现有效的特征约简。yj隐含的目的地因素源MDS的ksh;h0H.J.Singh和S. 巴瓦沙特国王大学学报8327其中L表示损失函数。L. x;bxn/kx-bxk2H.J.Singh和S. 巴瓦沙特国王大学学报8328¼ ½- ]f ≤gðÞ;B.3. 提出的元数据局部性感知技术本节将详细讨论拟议的位置感知元数据管理(LaMeta)及其组件的整体架构。新的LaMeta是一个元数据服务器位置感知推荐系统,利用有序MDS路径评级和其基于机器学习的预测,以探索本地可用的MDS的超大规模可扩展的全球分布式存储系统。拟议的LaMeta如图所示。3.第三章。3.1. MDS路径推荐系统所有MDS路径测量具有限制可扩展性的二次复杂度。为了解决可扩展性,我们提出了一些MDS路径的粗粒度探测,将这些值转换为MDS路径评级和预测未知的MDS路径评级利用推荐系统。MDS路径评级将MDS路径测量的不同范围减少到小范围的值。这样的系统生成的推荐值控制推荐结果并且更符合系统动态。3.2. MDS路径额定值MDS路径评级P r由P r的序数表示 1五、此外,MDS路径评级容易存储在几个比特,存储和处理效率高,并且具有最小的可用传输成本。这里,Pr表示MDS路径评级。该评级是从RTT值计算的,其中评级值5表示最小RTT或非常高的位置,而1表示高RTT或非常低的位置。我们提出的LaMeta技术的目标是使MDS连接的高本地性的元数据操作路由的行动,以提高本地性和性能的元数据管理技术。所有源MDS和目的地MDS具有如图4中所提及的路径评级特征向量矩阵。通过对所有未知MDS路径评级处理0值,可以将s1表示为0; 2; 0;1源MDS ID和目的MDS ID也被用作区分不同源MDS和目的MDS的相同特征向量的特征。包括MDS标识号利用了信息独热编码。根据图中提到的评分矩阵。 4,创建训练集并在表3中呈现。3.3. 堆叠式自动编码器SAE模型是一个多层自动编码器,是一个无监督学习神经结构,如图所示。 五、隐藏层输出向量成为下一层AE的输入。SAE首先减少路径评级矩阵数据集的高级特征SAE模型步骤被描述为算法1。评级预测矩阵重建与训练的softmax模型具有高级特征向量Fsd和权重向量W0和偏置向量b0。算法1.堆叠式自动编码器(SAE)输入:MDS路径评级训练集X;层数k,迭代次数noi输出:预测的MDS路径评级矩阵矩阵的网络连接权重fWh;1≤i≤kg;偏置向量bh;1i k;输出Zk的k-隐藏层的个数1:初始化:Z0 1/4X;//从输入特征矩阵开始2:获取基于AutoEncoder的MDS路径训练集得到的W1在训练参数上获得输出Z13:前一步馈送的输出Z1作为第二自动编码器的输入,以获得W2和Z24、对所有k个隐藏层重复步骤3,分别得到Wk权重矩阵和Zi作为输出特征矩阵5:基于反向传播微调Wi和bi直到noi迭代6:获得Wi、bi和Zi第七章:W0B0SoftmaxZ8:Rsd= SoftmaxW0;b0;Fsd用于基于高级特征向量Fsd和权重向量W0以及偏置向量b0来返回nRbsd图3.第三章。局部感知元数据管理(LocalityAware Metadata ManagementH.J.Singh和S. 巴瓦沙特国王大学学报83291/4-gfj/g(P;8 –-1/2/2-FG- 你...图四、4源MDS和4目的MDS的MDS路径评级矩阵表3训练集建设。提出了一个表示LaMeta元数据查询路由全局局部性的表达式。3.5. 局部性给定分布在N个元数据服务器上的元数据,其中每个元数据由ni0iN 1表示。<<我们通过h或遍历的MDS路径定义跳数。值得注意的是,元数据操作的处理或者直接在由h表示的MDS上进行,0或路由到其他MDS h 0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功