处理器乱序执行与内存屏障技术解析

需积分: 5 86 浏览量更新于2024-08-05 收藏 597KB PDF 举报

"乱序执行和内存屏障.pdf - 猪哥(丁兆杰)的网易博客文章，讨论了处理器的乱序执行和内存屏障技术在编程，尤其是驱动程序开发中的应用。" 本文主要探讨了现代处理器为了提升性能所采用的乱序执行（Out-of-Order Execution）技术及其可能带来的问题，以及如何通过内存屏障（Memory Barrier）来解决这些问题。乱序执行是处理器优化的一种手段，它允许处理器在不影响最终结果的前提下，提前执行某些指令，以提高执行效率。乱序执行的基本原理是，处理器在预取指令后，会分析并找出可以并发执行的无依赖关系的指令，将其分配给不同的执行单元进行处理。例如，两个不依赖的加法操作可以同时在不同的计算单元上进行。然而，这种并发执行可能导致指令的执行顺序与源代码中的顺序不一致，尤其是在涉及内存访问时，可能引发问题。访存指令通常比算术指令耗时更长，因此在等待访存指令完成时，处理器可能会继续执行后续的算术指令，导致实际执行顺序与源代码顺序不同，即出现了乱序执行。此外，处理器还会根据缓存的特性对访存指令进行重排序，以提高Cache命中率，这同样可能造成数据一致性问题。为了解决乱序执行可能导致的数据不一致和并发问题，处理器通常会引入内存屏障。内存屏障是一种硬件指令，它可以确保在屏障之前的指令全部执行完毕并且其结果被写回内存之后，才开始执行屏障之后的指令。对于写操作，处理器通常会有一个缓冲区来临时存储这些操作，如果发生异常或错误，可以撤销这些写操作，以保证数据的正确性。处理器的分支预测功能也可能导致指令的并发执行。分支预测是为了减少分支指令带来的延迟，处理器会尝试预测分支的走向，预先执行预测的路径。然而，如果预测错误，就需要回滚执行状态，这同样涉及到乱序执行的管理。乱序执行是现代处理器提高性能的重要策略，但同时也需要内存屏障等机制来保证程序的正确性和数据的一致性。程序员在编写高性能、特别是涉及并发和多线程的代码时，需要理解这些底层机制，以便合理地利用乱序执行的优势，同时避免可能出现的问题。在驱动程序开发中，对这些概念的理解尤为重要，因为驱动通常直接与硬件交互，对执行顺序和数据同步有严格的要求。

2017/9/26 乱序执行和内存屏障 - 猪哥 (丁兆杰)的日志 - 网易博客

http://blog.163.com/zhaojie_ding/blog/static/1729728952007925111324379?suggestedreading 1/5

首页日志相册关于我

猪哥的博客

丁兆杰的唯一博客＋留言本在最下面

俺滴魔方 Volatile的陷阱

2007-10-25 23:13:24 | 分类：编程开发 | 举报| 订阅

下载LOFTER我的照片书 |

乱序执行和内存屏障

最近写的一些关于在驱动程序开发中会遇到的关于乱序执行问题的短文，都是些通用的技术，贴上来share。

处

理

器

的

乱

序

和

并

发

执

行

目前的高级处理器，为了提高内部逻辑元件的利用率以提高运行速度，通常会采用多指令发射、乱序执行等各种措施。

现在普遍使用的一些超标量处理器通常能够在一个指令周期内并发执行多条指令。处理器从L1 I-Cache预取了一批指令

后，就会分析找出那些互相没有关联可以并发执行的指令，然后送到几个独立的执行单元进行并发执行。比如下面这样

的代码（假定编译器不做优化）：

z = x + y;

p = m + n;

CPU就有可能将这两行无关代码分别送到两个算术单元去同时执行。像Freescale的MPC8541这种嵌入式处理器一个指

令周期能够加载4条指令、发射2条指令到流水线、用5个独立的执行单元来并发执行。

通常来说访存指令（由LSU单元执行）所需要的指令周期可能很多（可能要几十甚至上百个周期），而一般的算术指令

通常在一个指令周期就搞定。所以有可能代码中的访存指令耗费了多个周期完成执行后，其他几个执行单元可能已经把

后面有多条逻辑上无关的算术指令都执行完了，这就产生了乱序。

另外访存指令之间也存在乱序的问题。高级的CPU可以根据自己Cache的组织特性，将访存指令重新排序执行。访问一

些连续地址的可能会先执行，因为这时候Cache命中率高。有的还允许访存的Non-blocking，即如果前面一条访存指令

因为Cache不命中，造成长延时的存储访问时，后面的访存指令可以先执行以便从Cache取数。对写指令的访存乱序有

可能造成的错误后果，所以处理器通常有专门的机制（通常是做了个缓冲）保证在出现异常或者错误的时候，可以丢弃

异常点后面的写指令的结果不做写入。

处理器的分支预测功能也能引起并发执行。处理器的分支预测单元有可能直接把两条分支的指令都预取来一块并发执行

掉。等到分支判断的结果出来以后，再丢弃错误分支的计算结果。这样在很多情况下可以实现0周期跳转。比如这样的代

码（假定编译器不做优化）：

z = x + y;

if (z < 0) then

p = m + n;

else

p = m - n;

看上去如果z不计算出来是无法继续的。但是实际上CPU有可能先把三个加法都同时进行计算，然后根据z=x+y的结果直

接挑选正确的p值。

字号

日

志

午后的田园少女注册登录

下载后可阅读完整内容，剩余4页未读，立即下载

quietqq

粉丝: 1
资源: 77

处理器乱序执行与内存屏障技术解析

基于FPGA的TCP段乱序重排设计与实现.pdf

(完整)雅思词汇(乱序版)Wordlist5.pdf

乱序六级单词表.doc

嵌入式RISC-V乱序执行处理器的研究与设计.pdf

网络游戏-避免网络交换芯片输出报文乱序的方法及系统.zip

基于异步航迹融合的乱序数据处理算法.pdf

一种基于数据相关性的乱序处理器验证方法.pdf

一种用于智能自助系统的介质乱序发放模块设计.pdf

高中英语词汇随身记3500词高频乱序版绿卡图书.pdf

DMR：兼容RISC-V架构的乱序超标量通用处理器核.pdf

最新资源