没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文图神经网络辅助蒙特卡罗树搜索的量子比特路由Animesh Sinha,Utkarsh Azad,和Harjinder Singh,计算自然科学和生物信息学中心,国际信息技术研究所,海得拉巴。(日期:2021年4月6日)近期量子硬件只能在可以相互作用的量子位上支持双量子位操作。因此,为了在硬件上执行任意量子电路,编译器必须首先执行量子位路由的任务,即,通过插入额外的SWAP门或通过反转现有的CNOT门来变换量子电路,以满足目标拓扑的连通性约束。 我们提出了一个量子位路由的程序,是架构不可知的,并且在各种电路基准上优于其他可用的路由实现。变换后的量子电路的深度通过利用蒙特卡罗树搜索来执行量子位路由来最小化,并由图神经网络辅助,该图神经网络评估每个状态的值函数和动作概率。关键词:量子比特路由,强化学习,蒙特卡罗树搜索,图神经网络I.介绍目前的量子计算机,更普遍地称为噪声中间尺度量子(NISQ)设备[1],具有各种各样的硬结构[2这些问题构成了量子位的质量差、量子位之间的连接性有限以及在执行门操作期间遇到的噪声引起的错误的错误校正的缺乏。这些对可以执行以执行有用的量子计算的指令的数量有相当大的限制[1]。总的来说,这些指令可以被实现为一个或两个量子比特门的顺序序列,可以更容易地被可视化为量子电路如图1A所示[6]。为了在目标量子硬件上执行任意给定的量子电路,编译器例程必须对其进行转换以满足硬件拓扑的连接约束[7]。这些转换通常包括增加SWAP门和替换现有的CNOT门。这确保了任何非局域量子操作仅在作为最近邻居的量子位之间执行。这种由目标硬件的编译器例程进行的电路转换过程被称为量子位路由[7]。变换后的量子电路中的输出指令应该遵循连通性约束,并且基本上导致与原始电路相同的整体幺正演化[8]。在NISQ硬件的上下文中,这个过程是极其重要的,因为转换后的电路通常由于插入了额外的SWAP门而具有更高的深度。电路深度中的这种开销变得更加突出,这是由于半导体器件的高退相干率。∗animesh. research.iiit.ac.in†utkarsh. research.iiit.ac.inlaltu@iiit.ac.in量子位,并且找到最优化和最有效的策略来最小化它变得至关重要[7 在本文中,我们提出了一个称为 QRoute 的 过 程 。 我们使 用 蒙 特 卡 罗 树 搜 索(MCTS),这是一种前瞻性搜索算法,用于在启发式评估函数[ 10 - 12 ]的指导下在决策空间中找到最佳决策。 我们使用它来显式地搜索深度最小化的决策空间,并作为一个稳定和高性能的机器学习设置。它由图神经网络(GNN)[13]辅助,其架构用于学习和评估有助于指导MCTS的启发式函数。结构:在第二节中,我们介绍了量子位路由的问题QRoute算法的方法在第三节中描述。在第四节中,我们将我们的算法的性能与其他最先进的量子编译器进行基准测试。最后,我们在第五节讨论我们的结果和可能的改进。II.Qubit路由在本节中,我们首先正式定义量子位路由问题,并讨论该领域的前期工作。A.描述问题量子硬件的拓扑结构可以被可视化为量子比特连接图(图2)。这个图中的每个节点将对应于一个物理量子位,而物理量子位又可能对应于一个逻辑量子位。量子指令集,也被称为量子电路(图1a),是作用于逻辑量子位的单量子位和双量子位门操作的顺序系列。诸如CNOT的双量子位门只能在两个逻辑量子位之间执行,如果存在一个arXiv:2104.01992v1 [quant-ph] 2021年4+v:mala2255获取更多论文2DCeB一De一CB×→--关于我们CCQD91 2 F31 2f3 4 5一年一季一年一季二季度二季度三季度第三季第三季第二四季四季七季五年五季问6Q7九年九月六日七年七月四日Q8Q8九方九方八方(a) 量子电路(b) 分解电路(c) 分解变换电路图图1:3 3网格架构的量子电路上的量子位路由示例(图2a)。(a)为了简单起见,原始的量子电路仅由两个量子比特的门操作组成(b)将原始量子电路分解为一系列切片,使得切片中存在的所有指令可以并行执行双量子位门操作:d,e(绿色)符合网格架构的拓扑结构,而操作:a,b,c,f(红色)不符合拓扑结构(因此无法执行)。请注意,q3q4(蓝色)上连续的两个量子比特门操作是红色的,在路由时不被考虑。(c)量子比特路由后得到的变换后量子电路的解压缩。增加了四个额外的SWAP门,将电路深度增加到5,即,架空线路深度为2。最终的量子位标签表示在电路的右侧末端。 没有移动(或移动)的量子位显示在brown(q1,q5)中,而其余的则显示为蓝色。注意,尽管双量子位门操作的顺序发生了变化,但电路执行的整体酉操作仍被保留使得所有的门操作满足目标拓扑的连通性约束(图1c)。对于路由算法R,我们可以将该过程表示如下:(a) 3×3网格体系结构(b) IBMQX-20体系结构R(C,D)→C′由于插入了额外的SWAP门,转换后的量子电路的深度这来自于quan上下文中对术语深度的定义-图2:一些常见量子架构与物理量子位对应的节点之间的边,[9]。该边缘可以是单向的或双向的,即,CNOT可以在一个方向或两个方向上执行。在这项工作中,我们只考虑双向情况,同时注意到CNOT门的方向可以通过将其置于一对作用于控制和目标量子位的Hadamard门之间来反转[14]。给定一个目标硬件拓扑和一个量子电路,量子比特路由的任务是通过添加一系列SWAP门来转换这个量子电路旋转电路这可以通过将量子电路分解为一系列单独的切片来理解,每个切片包含一组没有重叠量子位的门操作,即,片中存在的所有指令可以并行执行(图1b)。 量子电路的深度则是指电路可以被分解成的这种切片的最小数量,即,执行电路所需的最小并行执行量。目标是使变换电路相对于原始电路的开销深度最小化。这一目标涉及解决两个后续问题,(i) 量子位分配,指的是程序量子位到逻辑量子位的映射,以及(ii)量子位移动,指的是在不同位置之间路由量子位,使得相互作用成为可能[15]。 在这Q8问61E22辆E4 34辆E75E9 6E6E8E107E118E1 29125G82034711G1512101817141311+v:mala2255获取更多论文3PM→LPMP MPDM工作,我们只关注量子位移动的后一个问题然而,应该注意的是,量子位分配也是一个重要的问题,并且它可以在最小化执行量子位移动所需的努力方面发挥重要作用。B.相关工作解决量子比特路由问题的第一个主要吸引力是IBM在2018年组织的寻找最佳路由算法的竞赛。这场比赛由Zulehner等人赢得。 [16],用于开发基于计算机辅助设计(CAD)的布线策略。从那时起,这个问题以许多不同的方式提出。其中包括Cowtan等人的基于图的架构不可知解决方案。[7]以及Herbert和Sengupta [9]的组合动作空间解决方案中的强化学习。后者采用模拟退火算法在组合动作空间中进行搜索,并借助前馈神经网络判断长 期 期 望 深 度 。 Pozzi 等 人 进 一 步 扩 展 到 使 用DoubleDeep Q学习和优先经验重放。 [8]的一项建议。最近,蒙特卡罗树搜索(MCTS),一种流行的强化学习算法[17],以前在各种领域都被证明是成功的,比如玩国际象棋和围棋[18]等益智游戏,并被Zhou等人使用。 [19]开发量子位路由解决方案。然而,他们在使量子电路的总体积最小化的背景下使用MCTS(即,忽略并行化的门的数量C.我们的贡献我们建议使用蒙特卡罗树搜索(MCTS),强化学习(RL)算法,总深度最小化的任务。在RL的上下文中,我们使用一个互斥锁数组来表示代理需要知道的信息,以有效地利用并行化。此外,我们提出了一个图形神经网络(GNN),帮助MCTS在其探索评估功能和动作概率在整个路由过程。从这些额外的功能中,我们的目标是获得一个不贪婪的代理,因为它只能看到系统的当前状态,而不能有效地计划未来。这也稳定了决策过程,如果使用诸如模拟退火的方法,该决策过程将遭受最后,我们提供了一个简单的python包,可用于测试和可视化不同神经网络架构的路由算法,组合算法,奖励结构等。[20个]III.方法QRoute算法采用输入电路和从逻辑量子位到节点(物理量子位)的内射映射:Q N在多个时间步上,它迭代地尝试将输入电路中存在的门操作调度到目标硬件上。为了这样做,从未调度门操作的集合中,它获取所有当前操作,这些操作是它们作用于其上的两个量子位的第一个未调度操作,并且试图使它们成为局部操作,这些局部操作是涉及被映射到连接在目标硬件上的节点的量子位的那些在每个时间步t中,QRoute首先对当前和本地的所有操作进行重in .进化,然后执行蒙特卡罗树搜索(MCTS)以通过在第III B节中描述的评估度量来找到SWAP的最优集合,使得当前时间步中的所有操作放在一起形成可并行化的集合,即,局部操作的集合,使得集合中没有两个操作作用于同一量子位。我们在动作空间中可以遇到的状态数量随着搜索的深度呈指数级爆炸,因此在电路完成编译之前的显式搜索是不可能的。因此,我们缩短我们的搜索在一些浅的中间状态,并使用神经网络得到它的启发式评价。下面的小节更详细地描述了搜索和启发式评估的工作。A.状态和动作空间定义III.1(状态)它捕获了在某个时间步的编译状态的整个规范。严格地说,它被描述为:st=(D,Mt,Pt,Lt)其中,是目标硬件的拓扑,并且t和t表示和的当前值。T是由来自前一时间步的门操作锁定的节点集合,因此不能在当前时间步中操作定义III.2(Action)它是一组SWAP门(由它作用的一对量子位表示),使得所有门都是本地的,并且它与在相同时间步长中调度的操作集合的联合形成可并行化的集合。我们正在对状态-动作对执行树搜索由于在任何时间步可以执行的操作数量与硬件上的连接数量呈指数关系,因此我们被迫逐步构建单个操作。定义III.3(移动)这是搜索过程中的一个步骤,它建立动作或将其应用于当前状态。 移动有以下两种类型:+v:mala2255获取更多论文41 1X七比四54 - 65-9 9-51X1XX1XX95七比2三比1- 34- 68六X模型更新R−→ΣR1XX1XX更新-32-6-9-4-61. 选择2。扩大更新1 XX评估(价值函数)七比四X1八比六16- 8岁X XXX x X3. 推出4. 备份X图3:蒙特卡洛树搜索的迭代:(i)选择-使用选择标准递归地选择搜索树中的节点以进行探索,(ii)扩展-如果选择了未探索的叶节点,则使用可用动作来扩展树,(iii)铺开-使用神经网络来估计用于添加到搜索树的新节点的动作-状态对的长期回报,以及(iv)备份-从叶节点向上传播奖励值以更新其祖先的评估。1. SWAP(n 1,n2):将节点n1和n2上的新SWAP添加到动作集中。只有当操作是局部的并且时间步的操作的结果集合形成并行集合时,这样的插入才是2. COMMIT:为该时间步构造动作集。 它还使用到目前为止形成的动作来更新状态s t(在硬件上调度SWAP门),并重置动作集以进行下一步。实际上,不同的门操作需要不同的执行时间步长。例如,如果一个硬件需要SWAP门被分解成CNOT门,那么它将需要三个时间步来完成执行[14]。这意味着,被调度的操作必须与参与它们的节点上的其他操作保持互斥性。这对于最小化电路深度至关重要,因为它模拟了操作的并行性。然而,构造一个可并行化的集合并将并行化的状态表示给我们的启发式评估,评论员是一个挑战。 但这里到节点被认为是不能共享的“资源”,而操作被认为是“消费者”[ 21 ]。这促使我们提出使用互斥锁来实现这一目的。这些将锁定一个节点,直到涉及该节点的预定门操作完全执行。因此,这允许我们的框架自然地处理不同类型的操作,这些操作需要不同的时间来完成。对于每一个状态-动作对,在其上应用一个可行的移动m将产生一个新的状态-动作对:(s,a)m(s′,a′)。与每个这样的状态-动作-移动对((s,a),m)相关联,我们维护MCTS使用的两个附加(i) N值-我们从所述状态-动作对(s,a)中采取所述移动m(ii) Q值-给定奖励函数,它是在搜索的所有迭代中采取所述移动m之后预期的平均长期奖励。(未来的奖励按因子γ折现)Q((s,a),m)=((s,a),m)+N((s′,a′),m′)·Q((s′,a′),m′)(1)M'1 1XX-32-6-9-4-611XX1 1XX11XX三比21- 3γN((s′,a′),m′)1- 3三比一2七比四591- 33-12更新4- 68六比四13-113-1459-5459-5786-8786-8XXXX+v:mala2255获取更多论文5←←←←←R← R√←←←·←V((s,a))=N((s,a),m)←B.蒙特卡洛树搜索蒙特卡洛树搜索通过执行其四个阶段迭代地进行:选择、扩展、展开和备份,如图3所示。在每次迭代中,它通过选择具有最大UCT值的节点开始遍历现有的搜索树(2)各级。在此遍历期间,每当遇到算法1:蒙特卡罗树搜索数据:状态st1 Initialize:root(s t,空操作集)2 循环n mcts次3(s,a)根4重复5使用先验+噪声计算UCT值6选择使UCT值最大化的移动一个叶子节点,它通过选择移动m7来扩展树8从这个叶子节点。 然后,它估计标量eval-9对新的状态-动作对进行评估并反向传播10它会向上移动,以更新其祖先的评估。11为了构建一个最佳的操作集,我们希望选择12个具有最大真实Q值的移动m。但从13岁真正的Q值是难以计算的昂贵,我们14只能通过有效的探索来近似Q值。当我们遍历搜索树时,我们使用树上置信度上限(UCT)目标[12]来平衡探索和利用此外,17由于这个问题导致高度不对称的树,因为18有些棋格会挡住很多其他棋,而有些棋格会挡住19步棋更少的动作,我们使用UCT的公式适应20不对称树[22]:2122UCT((s,a),m)=Q((s,a),m)+23if(s,a).child[move] nullthen(s,a)(s,a).child[move]其他如果move=COMMIT,则s ′←step(s,a)a ′←空集其他s ′sa ’插入到对应于移动的端state.child[move](s ′,a ′)storereward[(s,a),move](s ′,a ′)-(s,a)端直到上一次搬家被扩大←从(s,a)模型的奖励评估while(s,a)/=rootdop-move←从(s,a)的父节点移动到(s,a)N((s,a))CN((s,a),m)×p(m|(s,a))24(2)252627(s,a)在(s,a)reward reward[(s,a),p-move] +γ rewardupdate(s,a). Q-value [move] with rewardincrement(s,a).N-value[move] by 1这里,值p(m|(s,a))是优先策略函数,28端这是通过将Dirichlet噪声添加到策略中获得的神经网络的输出[23]。随着MCTS继续探测动作空间,它可以更好地估计动作的真实值。这意味着它充当策略增强函数,其输出策略(等式10)3)可以用于训练神经网络的先验,并且计算的平均Q值可以用于训练其标量评估(等式3)。4)。π(m|(s,a))N((s,a),m))(3)29 端30 记住根处的Q值和N值,以便稍后31 (s,a)根32 重复33(s,a)具有最大Q值的(s,a)子节点34 直到移动COMMIT35 返回一个这些值不可能被精确地计算,因为它将涉及在前一种情况下难以处理的迭代次数mQ((s,a),m)M(四)探索和扩展完整的搜索树。因此,它是有利的实证评估预期的长期回报,从国家行动对使用神经网络,MCTS进展的细节已经被实验室-在Algo。1.一、一旦它被终止,即,搜索完成后,我们沿着树向下,在每一步选择具有最大Q值的子节点,直到找到COMMIT动作,我们使用所选状态-动作对的动作集来调度当前时间步的SWAP,并且我们在COMMIT动作的子节点处重新扎根树,以准备下一个时间步。C.神经网络架构MCTS的每次迭代都需要评估新遇到的状态-动作对的Q值。但ral网络,因为它作为一个优秀的函数近似器,可以学习系统固有的对称性和一般规则。因此,一旦MCTS将状态-动作对发送给评估器,它就开始将动作提交给状态并获得结果状态。然后,我们生成该状态的以下特征化表示,并将该表示通过神经网络架构,如图所示。四、(i) 节点目标- 它是一个方形布尔矩阵,其行和列对应于目标设备上的节点。元素(i,j)为真,当且仅当某些逻辑量子位qx和qy当前被映射到+v:mala2255获取更多论文6|⟩|⟩≤|⟩状态表示节点目标密集层密集层Swish激活边转换块内搜集所有节点锁定边缘变平剩余目标Concatenate交换每条边值函数致密层密集输出致密层Swish激活Swish激活图4:具有值头和策略头的节点i和j,使得(qx,qy)是qx参与的第一个未调度操作(ii) 锁定边-这是一组边(连接节点对),由于以下原因仍然锁定:它的量子位参与了当前时间步的一个操作,或者是另一个更长的操作,而这个操作(iii) 剩余目标-它是每个逻辑量子位尚未调度的门操作数量的列表。每个量子位将参与的SWAP操作主要取决于其目标节点,以及其邻域中可能竞争相同资源的节点。我们可以使用具有设备拓扑图的图神经网络来实现其连通性,这似乎是合理的,因为某些节点的最佳SWAP动作的决策在很大程度上受到其物理邻域中的其他节点的影响。因此,我们的架构包括一个边缘卷积块[13],后面是一些全连接层,其中Swish [24]激活了策略和值头。从该神经网络计算的值函数和策略函数返回到MCTS。IV.结果我们在各种电路基准上将QRoute与来自其他最先进框架的路由算法进行比较:(i)Qiskit及其三个变体[25]:(a)基本,(b)随机和(c)sabre,(ii)来自[ 8 ]的Deep-Q-Networks(DQN),(iii)Cirq [26]和(iv)来自Cam-bridge Quantum Computing(CQC)的tket[27]。该算法tket使用BRIDGE门以及SWAP门,Qiskit使用门换向规则,同时执行量子位路由。 这些策略在实现较低的电路深度方面是有利的[28],但在我们的模拟中被禁用以进行公平的比较。所示DQN的结果改编自作者Pozzi等人提供的数据。 [8]的一项建议。A.随机测试电路比较我们性能的第一个基准包括随机电路。这些电路是动态生成的,并使用与设备上的节点相同数量的量子位进行初始化。然后,在随机选择的任何一对量子位之间放置两个量子位门。在我们的模拟中,这样的门的数量从30到150不等,并且在图中给出了用于评估不同框架的五、实验在每个电路尺寸上重复10次,并且最终结果在该重复中聚合。在比较的框架中,QRoute排名非常接近第二,仅次 于 Deep-Q-NetworkguidedSimulatedAnnealer(DQN)。尽管如此,QRoute仍然比所有其他主要框架:Qiskit,Cirq和t ket做得更好,并且当我们增加输入电路中的层数和层密度时,它可以很好地扩展。QRoute在较小的电路上表现出与DQN相当的性能,在较大的电路上,它的输出深度平均比DQN多4层。这部分可以归因于MCTS,因为它的深度搜索有限,选择了Q值非常接近的两个移动中最差的一个,导致了一些不必要的SWAP操作的调度。正常化致密层Swish激活收集邻居添加到骨料+v:mala2255获取更多论文7QRoute环形线圈Qiskit(基本)Qiskit(随机)Qiskit(sabre)t|ketDQN(ic)输出电路深度≤|⟩4000175350015030001252500100200075150050100050025040 60 80 100 120 140输入门量子阱图5:随机电路上的路由算法的比较性能作为电路中的两量子位操作的数量的函数。B.小型实用电路接下来,我们测试所有电路的集合,这些电路使用来自Zulehner等人使用的IBM-Q现实量子电路数据集的100个或更少的门。所有路由框架的比较性能已通过绘制图6中测试集中所有电路的输出电路深度总和来显示。 由于缺乏良好的初始量子比特分配成为小电路上所有纯路由算法的一个重要问题,我们已经在这个数据集上对QRoute进行了基准测试,来自三个具有不同初始分配的试验。本文提出的模型在此数据集上具有最佳性能。我们还比较了来自包括QRoute在内的所有路由器的池与不包括QRoute在内的相同路由器的另一个池的池。包括QRoute在内的池平均给出2。5%低电路深度,这表明有一个显着的数量,ber的电路,QRoute是最好的路由方法可用。在此数据集上,最接近QRoute性能由Deep-Q-Network引导的模拟退火器显示。为了比较性能,我们查看平均电路深度比(CDR),其定义为[8]:图6:在整个数据集上求和的小的实际电路(插图示出了对相同数据的结果,比较了在每个电路上分别排除和包括QRoute的最佳性能调度器。C.大型真实电路对于最终的基准测试,我们从IBM-Quantum真实测试数据集[29]的输入中选取了8个从154门到5960门的大型电路结果绘制在图7中。QRoute在所有可 用的路由 方法中具 有最佳 性能:Qiskit和tket,在这些采样电路中的每一个上平均13。赛道深度降低6%,在较大赛道上的获胜差异显著增加。DQN和Cirq的结果不适用于这些基准测试,因为它们的设计无法扩展到如此庞大的电路。在DQN的情况下,CDR数据结果不提供超过200门的电路,主要是因为它使用的模拟退火是计算昂贵的。同样,对于Cirq来说,编译近5000个量子位电路中的每一个都需要几天时间。相比之下,QRoute能够在最多4小时内编译这些电路,并且可以通过减少搜索深度来加快编译过程。然而,花费更多的时间有助于MCTS更好地近似Q值,从而产生具有较低深度的电路。CDR =1#回路ci输出电路深度输入电路深度(五)V.讨论和结论在这篇文章中,我们已经证明了量子位路由问题在以下方面有一个非常强大和优雅的公式:QRoute的结果CDR为1。178,其中所报告的DQN的CDR为1。19.事实上,QRoute在至少80%的电路上优于DQN。这是重要的,因为与随机电路基准相比,现实的基准由更接近有用的计算中使用的电路的电路组成。强化学习(RL)可以超越任何经典启发式算法的结果,跨越所有规模的电路和类型的架构。此外,在组合动作空间中搜索并使用互斥锁强制约束时逐步建立解决方案的中心思想可以适用于其他几个组合优化问题[30- 34 ]。1500最佳QRoute最佳无QRouteQRouteDQN不|ketQiskit(基本)Qiskit(sabre)Qiskit(随机)Cirq25002000输出电路深度+v:mala2255获取更多论文8|⟩9000800070006000500040003000200010000154门1498门1405门1343门1701门2100门2319门2648门3089门4459门5960门电路中的门数图7:从大型实际数据集基准中采样的八个电路的结果,每个电路的每个路由算法的输出被示出。我们的方法足够灵活,可以将任何大小的电路编译到 任何设备上, 从具有20个量子 位的 IB-MQX 20这样的小型电路 到具有53个量子位的Google Sycamore 这 样 的 更 大 的 硬 件 ( GoogleSycamore上 小 型 真 实 电 路 的 电 路 深 度 Ra- tio 为1.64)。此外,它本质上处理具有不同原语指令集的硬件,例如在SWAP门不是原语并且它们被分解为3个操作的硬件上。QRoute具有显著的可调性;超参数可以很容易地改变,以改变所花费的时间与决策、探索和利用等的最优性之间的权衡。QRoute是一种相当快速的方法,在使用i3处理器(3.7 GHz)且无GPU加速的个人机器上进行测试时,100次以下操作的电路布线时间不超过10分钟,而高达5000次操作的电路布线时间最多为4小时。然而,考虑到Qiskit和tket比QRoute快得多,在速度方面还可以期望更多,但这很难在不减少搜索迭代次数和牺牲一点性能的情况下实现这一点。更具预测性的神经网络可以帮助挤出更快的速度。像DQN这样的方法的挑战之一是,使用模拟退火来建立它们的动作,该算法无法计划尚未等待调度的门,一旦当前等待的门被执行,这些门将出现在列表的头部[8]。QRoute也有这个缺陷,但这个问题的影响被显式树搜索所缓解,该搜索考虑了在长期未来将累积的奖励。有余地进一步改善这一点,喂养整个名单的未来目 标 直 接 进 入 我 们 的 神 经 网 络 通 过 使 用transformer编码器来处理任意长度的序列数据。神经网络设计的这个方面和其他方面将是未来探索的主要方面。提高性能的另一种方法是通过将BRIDGE门[28]和门换向规则[14]与当前使用的SWAP门结合使用来引入新的动作。前者的优点是它允许在不相邻的量子位上运行CNOT门而不改变逻辑量子位的顺序;而后者将允许MCTS识别动作空间中的冗余,使其探索和选择更有效。最后,我们提供了一个开源的访问我们的软件库[20]。它将允许研究人员和开发人员以最小的努力实现我们方法的变体。我们希望这将有助于未来量子电路变换的研究。总的来说,用于在组合作用空间中建立解的蒙特卡罗树搜索已经超过了执行量子比特路由的当前最先进的方法。尽管它的成功,我们注意到,QRoute是一个原始的实现我们的想法,并有很大的范围在未来的改进。确认A. S.和联合A.对手稿的贡献是一样的A. S.和联合A.感谢他们的同事Bhuvanesh Sridharan在实施和完善MCTS方面提供的帮助。此外,他们还要感谢 他 们 的 同 事 Jai Bardhan 和 Kalp Shah 提 出 的 建议。QRoutet|吉吉Qiskit(基本)Qiskit(随机)Qiskit(sabre)输出电路+v:mala2255获取更多论文9|⟩[1] J. Preskill,[2] “IBM 量 子 , ”https://quantum-computing.ibm 的 网站。com/(2021).[3] F.阿鲁特湾阿里亚河巴布布什,和等人,supremacyusingaprogrammablesuperconductingprocess-sor,[4] P. J. Karalekas,N. A. Tezak,E. C. 彼得森角A.瑞安,M。P.da Silva和R. S. Smith,算 法 , ”Quantum Sci. Technol.5 , 024003(2020),arXiv:2001.04449。[5]J. E. 布拉萨河N. Alexander,M.Vasmer,A.帕蒂尔,I. Tzitrin,T.Matsuura,D.苏湾,加-地Q. Baragiola,S.古哈,G. 多菲奈湾 K.Sabapathy,N.C.梅尼库奇和I.Dhand,[6] A. M. Childs,E. 舒特,和C. M. Unsal,第14届量子计算、通信和密码学理论会议(TQC 2019),莱布尼茨国际信息学会议录(LIPIcs),Vol. 135(Schloss3:1-3:24.[7] A. 考坦,S. 迪克斯,R. 邓肯A. 克拉延布林克,W. Simmons和S. Sivarajah,在第14届量子计算理论会议上,通信和密码学(TQC 2019),莱布尼茨国际信息学 会 议 记 录 ( LIPIcs ) , 第 135 卷 ( Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik,2019)pp. 5:1-5:32.[8] M. G. Pozzi , S. J. Herbert , A. Sengupta 和 R.D.Mullins,[9] S. Herbert和A. Sengupta,就业在近期量子计算机,”arXiv电子打印(2018),arXiv:1812.11619 [quant-ph]。[10] L. Kocsis和C. Szepesvari,inECML(2006).[11] R. Munos,学习. 7,1(2014)。[12] L.Kocsis 和 C.Sze pes v'ari, inEu ro peanconfe renceonmachine learning(Springer,2006)pp. 282-293。[13] Y. Wang,Y.太阳,Z. Liu,S. E. Sarma,M. M. 布朗斯坦和J. M. Solomon,[14] J. C. Garcia-Escartin and P. Chamorro-Posada,[15] S. S. Tannu和M. K.库雷希,在第二十四届国际建筑会议的会议记录-TuralSupportforProgrammingLanguagesandOperatingSystems , ASPLOS'19 ( AssociationforComputing Machines , New York , NY , USA ,2019)987-999[16] A. Zulehner,A. Paler和R. Wille,QX体系结构,第1226(2019)号决议。[17] C. B. Browne,E. Powley,D. Whitehouse,S. M.卢-卡 斯 , 私 家 侦 探 。 Cowling , P. Rohlfshagen , S.Tavener,D. 佩雷斯,S. Samothrakis和S.Colton,[18] D. Silver,A.黄角J. Maddison,A.盖兹湖先生G. van den Driessche等人,“Mastering the game[19] X. Zhou,Y. 冯先生,和S. 李,在Proceedings ofthe第39届计算机辅助设计国际会议,ICCAD'20(计算机械协会,纽约,纽约,美国,2020年)。[20] 完 整 的 模 拟 和 可 视 化 代 码 可 在https://github.com/AnimeshSinha1309/quantum-rl(2021)上获得。[21] E. W. Dijkstra,“合作顺序过程,”并发编程的起源:从信号量到远程过程调用(Springer New York,New York,NY,2002)。65比138[22] T.M.莫尔兰,J.布罗肯斯,A.普拉,和C. M. Jonker,[23] D.西尔弗,T。Hubert,J. Schrittwieser,I. 安东诺格鲁,M. Lai,黑腹滨藜A. Guez,M.兰托特湖Sifre,D. 库马兰,T. Graepel,T. P. Lillicrap,K. Simonyan和D. Has-sabis,“Mastering Chess and Shogi by Self-Play with a GeneralReinforcementLearningAlgorithm” , arXive-prints(2017),arXiv:1712.01815 [CoRR]。[24] P. Ramachandran,B. Zoph和Q. V. Le,[25] H.亚伯拉罕等人,“Qiskit: An Open-source Frame-[26] Cirq Developers,[27] S. Sivarajah,S. Dilkes,A.考坦Simmons,A. Edg-ington和R.Duncan,[28] T. 伊托科河 Raymond,T. 今道,和A. 垫-suo,“Optimization of Quantum Circuit Mapping using GateTransformationandCommutation” , arXive-prints(2019),arXiv:1907.02686 [quant-ph].[29] A.祖莱纳,A.Paler和R. Wille,//www.ibm.com/blogs/research/2018/08/winners-qiskit-developer-challenge/(2018),ac-时间:2021-03-23[30] N. Mazyavkina,S. Sviridov,S. Ivanov和E. Bur-naev,“组合优化的强化学习:一项调查”,arXiv e-prints(2020),arXiv:2003.03600 [cs.LG]。[31] Z. Xing和S. Tu,问题,[32] R. Xu和K. Lieberherr ,“Learning Self-Game-Play Agentsfor Combinatorial Optimization Problems , ”arXiv e-prints(2019),arXiv:1903.03674 [cs.AI].+v:mala2255获取更多论文10[33] K.阿贝山徐岛Sato和M. Sugiyama,[34] A. Laterre,Y.傅,M。Khalil Jabri,A.-S. 科恩,D.卡斯,K.哈贾,T.S.达尔A.Kerkeni,K.Be-guir,“Ranked Reward:启用组合优化的自我游戏强化学习 ” , arXiv e-prints ( 2018 ) , arXiv : 1807.01672[cs.LG]。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新型智能电加热器:触摸感应与自动温控技术
- 社区物流信息管理系统的毕业设计实现
- VB门诊管理系统设计与实现(附论文与源代码)
- 剪叉式高空作业平台稳定性研究与创新设计
- DAMA CDGA考试必备:真题模拟及章节重点解析
- TaskExplorer:全新升级的系统监控与任务管理工具
- 新型碎纸机进纸间隙调整技术解析
- 有腿移动机器人动作教学与技术存储介质的研究
- 基于遗传算法优化的RBF神经网络分析工具
- Visual Basic入门教程完整版PDF下载
- 海洋岸滩保洁与垃圾清运服务招标文件公示
- 触摸屏测量仪器与粘度测定方法
- PSO多目标优化问题求解代码详解
- 有机硅组合物及差异剥离纸或膜技术分析
- Win10快速关机技巧:去除关机阻止功能
- 创新打印机设计:速释打印头与压纸辊安装拆卸便捷性
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功