Curvetime：区块链框架与人工智能计算的协同优化

150 浏览量更新于2024-01-25 收藏 441KB PDF 举报

人工智能

计算资源

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响13（2022）100314原始软件出版物Curvetime：用于人工智能计算的区块链框架游杰达速电科技有限公司，中国深圳，518057海德堡大学计算机工程学院，海德堡，69117，德国自动清洁装置保留字：区块链人工智能Proof-of-work强化学习深度学习分布式计算A B标准Curvetime是一个区块链框架，有机地协调工作量证明和AI模型训练在一个平台上，优化密集计算的资源使用。在这个框架中，工作量证明被表示为一个重复学习问题，其中学习代理对环境的状态做出最佳决策，而新的块被添加和验证。它一直是基于区块链的工业应用的支柱，也是孵化多样化工业智能模型的平台。作为区块链和AI的二合一运行时基础设施，curvetime提高了计算资源的有效性，并在与计算节点数量成比例的范围内加速AI模型训练代码元数据当前代码版本v1.0.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-25可再生胶囊的永久链接https://codeocean.com/capsule/1063966/tree/v1合法代码许可证Apache许可证2.0使用git的代码版本控制系统使用Python、Apache CouchDB、Tensorflow、Django的软件代码语言、工具和服务汇编要求、操作环境和依赖关系如果可用，请链接到开发人员文档/手册https://github.com/Dasudian/curvetime/blob/main/README.md问题支持电子邮件barco@dasudian.com1. 介绍区块链试图最大限度地减少信任在实现共识中的作用[1]。在存在不同共识机制的情况下[2]，最著名的是工作量证明，它需要解决复杂的计算过程，例如找到具有特定模式的哈希。这种共识算法通过使任何代理改变状态的成本高昂来抑制不当行为，因此不需要信任任何特定的中央实体。然而，工作量证明系统有一个主要缺点。它们消耗大量的计算能力并浪费能源，因为额外的电力用于计算机执行额外的计算工作。这可能会增加大量的额外电力消耗和环境危害[3机器学习技术已经为现代社会的许多方面提供了动力，从网络搜索到社交网络上的内容过滤，再到电子商务网站上的推荐，并且越来越多地出现在相机和智能手机等消费产品中。机器学习系统用于识别图像中的对象[6]，将语音转录为文本[7]，将新闻条目，帖子或产品与用户的兴趣相匹配，并选择相关的搜索结果。特别是随着互联网上数字数据的蓬勃发展，深度学习作为一种表征学习方法，在推动无数智能应用方面显示出巨大的力量，并将在不久的将来取得更多的成功[8]。因为它需要很少的手工工程，深度学习可以很容易地利用可用计算和数据量的增加[8]。本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗ 通讯地址：海德堡大学计算机工程学院，海德堡，69117，德国。电子邮件地址：barco@dasudian.com。https://doi.org/10.1016/j.simpa.2022.100314接收日期：2022年3月29日;接收日期：2022年4月23日;接受日期：2022年5月7日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsJ. 你软件影响13（2022）1003142Fig. 1. 基于强化学习的区块链模型。作为机器学习技术的一个分支，强化学习是学习在给定特定情况或环境下采取什么行动以最大化奖励信号的任务。与监督过程的深度学习相比，强化学习使用奖励信号来确定代理采取的动作（或输入）是好还是坏。强化学习激发了人工智能和生物智能的研究[9，10]，并已广泛用于动态任务调度[11]，规划和认知控制[12]，并且更多有趣的主题正在积极研究[13]。为了在实际场景中使用机器学习，通常需要大量的计算能力来支持所谓的人工智能（AI）模型训练和执行，根据模型的复杂性和要处理的数据量，在不同的尺度上执行。例如，GPT-3 [14]和开关变压器[15]已经表明，AI模型的性能表现为模型大小、数据集大小和计算量的幂律。一方面，传统的区块链系统浪费了大量的计算能力来解决工作量证明的无意义难题，另一方面，许多有用的人工智能应用需要大量的计算能力来实现高性能。为了平衡这两个方面，研究论文[16]提出了一种区块链模型，该模型将工作量证明计算和人工智能模型学习过程结合为一个过程，同时有效地实现了区块链和人工智能计算2. 区块链模型Curvetime将区块链系统建模为强化学习的代理。如图1所描绘的，每个块表示一个状态，马尔可夫状态机，而块的创建和链接过程是马尔可夫决策过程（MDP）[13]，具有以下设置：1. 在这个区块链系统中，环境被定义为Oracle，它通过其状态转换向区块链提供数据通过输入下一个状态来执行下一个操作。在这个过程中发生的计算被定义为计算节点的工作量证明，这些节点在区块链系统中竞争这样做。3. 系统的计算节点创建一个新的区块，记录环境的当前状态（A+1），最后选择的动作（A+1），从环境接收的奖励（A +1），要写入区块链的数据（ A+1），以及最后一个区块的哈希值（A��+1）= ��（��，A ��−1��，如图2所示。当一个节点完成工作量证明的计算并创建一个新的区块时，就意味着一个挖掘过程完成了。4. 当挖掘过程完成时，新创建的区块通过前一个区块的哈希值链接到前一个区块（图10）。 2）的情况。在链的任何块中，前一个块的存储的哈希值防止数据被篡改，因为如果任何数据被更改，则块此外，如果存储在一个块中的环境状态（A）或动作（A）-1）被修改，则下一个状态（A）+1）、下一个动作（A）和奖励（A）+1）在经过策略变换时将可能与实际存储在下一个块中的不同，这也大大降低了数据被篡改的可能性并增加了篡改的难度。3. Proof-of-work工作量证明算法的实现如下：1. 当前状态（A）根据当前状态选择一个动作（A）policy（政策）;2. 对环境施加一个神谕，或者说与神谕互动，获得一个奖励（神谕+1），环境状态变为神谕+1;（→��+1）。3. 根据状态转换（A→B+1），选择动作（A→ B）和收到的奖励（n+1），区块链的节点训练2. 在当前状态（）中，智能体根据当前策略（）选择动作（A ）并从环境中获得奖励（ +1），而环境的状态从变为 +1。然后，区块链节点训练策略模型，并将其从+1更新到+1，并存储在计算节点的存储器中作为选择的函数，在一个实施例中，该策略可以被配置为调整学习模型的预定义的动作值函数，并且将策略更新为动作值+1。工作量证明包括选择动作、生成受当前策略调节的奖励（奖励）、训练动作-价值函数模型和更新策略的计算过程。考虑J. 你软件影响13（2022）1003143∑��图二. 块存储数据和被链接的机制。在许多实际的MDP问题中，状态空间足够大，甚至具有无限的状态，这需要大型且复杂的深度神经网络来实现动作值函数的性能良好的近似器，因此工作量证明的计算对资源的要求很高。因此，由于计算资源和时间的惊人成本，4. 基于奖励学习的当为区块链工作的节点完成工作量证明时，或者说一个挖掘过程，它需要将新生成的区块同步到网络中的其他节点，以保证整个网络内数据的一致性。然而，由于网络延迟、错误和攻击的发生，节点可能会保留不同版本的区块链信息，导致不一致。因此，我们为节点设计了一种共识机制，以实现整个网络的数据一致性，如下所示：1. 首先，优先考虑最长的链：如果节点保持不同长度的链，那么最长的链应该被选为已证明的链;2. 如果在步骤1中，有多个链被保留，则有两种可选的方法来确定最终链：a. 比较链的最后一个区块的奖励值（），选择具有最大奖励的链作为最终同意链。b. 比较链中所有区块的奖励总和（），选择总和最大的区块作为最终的同意链。虽然不同的节点共享相同的策略算法，但是它们经历自身唯一的模型训练和策略更新过程，并且将它们自己的动作-值函数模型和策略实例保持在内存中，这些动作-值函数模型和策略实例彼此不同步，因此对于相同的状态（状态），不同的节点将不一定选择相同的动作或接收相同的奖励。这带来了两个有价值的方面：1. 即使网络中超过51%的节点被黑客攻击，试图伪造数据并重新生成新的链，当它们完成工作量证明时，最大奖励（奖励）并不一定由它们接收，而是可能由未被黑客攻击的节点接收，在这种情况下，伪造的块将不会被同意。因此，本文设计的共识机制通过减少被阻碍的可能性来2. 因为每个节点保持其自己的动作值函数模型和策略的实例，并且通过实现工作量证明来竞争以实现最大奖励（ max-imumreward，最大奖励），所以这允许重复学习算法在同一环境状态上和在一个时间点沿着多于一条路径（路径的数量等于网络内的工作节点）学习。它相当于用空间代替时间进行AI模型训练，在一轮训练中实现多个时期。这样，在区块链不断成长的同时，支持其工作量证明和共识机制的学习算法更充分地学习多样化的可能性，并更快地收敛，从而尽可能快地做出更精确的预测（预测→A预测），这有利于强化学习模型在短期内的总体目标实现这对于AI的在线学习应用特别有益。5. 讨论作为该研究的参考软件[16]，curvetime创建了一个区块链框架，该框架有机地缝合了用于学习和工作量证明的计算以及共识机制，实现了多功能的分布式计算系统。一方面，利用重复学习过程和深度神经网络训练的复杂性和高计算成本，增加了黑客攻击区块链网络或伪造数据的难度。特别地，由于节点保持策略和神经网络的自有实例，因此它们保持可能是不同节点的状态转换（n→n+1这些不确定性还巩固了黑客难以变异的链条链接的稳定性。最大化奖励获胜的共识机制增加了一个额外的障碍，阻止黑客篡改链。另一方面，利用区块链网络内的节点来完成人工智能算法的训练和运行，自然会为实际的智能应用提供计算能力。同时，通过将AI模型训练分发给多个节点，这些节点同时处理环境生成的相同数据，或者说是Oracle，在这个区块链系统中，节点保持自己的AI模型实例，因此节点在每个时间步都会经历不同的学习路径，具有不同的参数值和AI模型的隐藏状态。这相当于在一轮学习过程中实现了多个时期的训练，提高了训练效率，加快了模型的收敛速度可以预期，通过将区块链和人工智能结合到一个计算框架（curvetime）中，两个最重要的资源，数据和计算能力，可以在一个值得信赖的平台上以相互支持的方式利用最后，我们相信这个用于AI计算的区块链框架可以工业互联网的潜在支柱竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1]F.赌场，T.K.达萨利斯角Patsakis，基于区块链的应用程序的系统性文献综述：现状，分类和开放问题，Telemat。告知。36（2019）55-81.[2] M.X. Du等人，区块链共识算法综述，IEEE国际会议。Cybern系统(SMC)（2017）2567-2572。[3] S. 江等，中国比特币区块链运营的碳排放流和可持续性的政策评估，NatureCommun。 12（2021）1938年。[4] M.J. Krause，T. Tolaymat，采矿加密货币的能源和碳成本量化，Nat. 坚持住。1（2018）711[5] L. Dittmar，A.Praktiknjo，比特币排放会推动全球变暖超过2◦ C？自然爬升。张。 9（2019）656-657。[6] A. 克里热夫斯基岛 Sutskever ， G. Hinton ， ImageNet Classification withDeepConvolutional Neural Networks，Vol. 25，pp. 1090-1098。J. 你软件影响13（2022）1003144[7] G. Hinton等人，深度神经网络在语音识别中的声学建模，IEEE信号处理。麦格29（2012）82[8] Y. 莱昆湾，巴西-地本焦湾，澳-地Hinton，Deep learning，Nature 521（2015）436[9] E.O. Neftci，B.B. Averbeck，人工和生物系统中的强化学习，Nat. 马赫内特尔1（2019）133[10] M.S. Tomov，E. Schulz，S.J. Gershman，人类的多任务强化学习，Nat.行为举止。5（2021）764-773。[11]C. Shyalika，T.席尔瓦，A. Karunananda，Reinforcement learning in dynamictaskscheduling：A review，SN Comput。Sci. 1（2020）306.[12] P. Piray，N.D. Daw，规划，网格领域和认知控制中的线性强化学习，Nat.Commun。12（2021）4942.[13] S.S.理查德，G.B.安德鲁，强化学习：介绍，第二版，麻省理工学院出版社，2020。[14] T.B. Brown等人，Language models are few-shot learners，2020，arXiv：2005.14165[15] W.费杜斯湾Zoph，N. Shazeer，Switch Transformer：通过简单有效的稀疏性扩展到万亿参数模型，2021，arXiv：2101.03961。[16] J. You，人工智能计算的区块链框架，2022，arXiv：2202.11264。

下载后可阅读完整内容，剩余1页未读，立即下载