Intel Xeon 可扩展处理器：性能与延迟分析

需积分: 10 15 浏览量更新于2024-07-15 收藏 2.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"Intel® Xeon® Scalable Processor Instruction Throughput and Latency" 本文档是Intel针对X64和X86架构的Intel Xeon可扩展处理器的性能和延迟的详细指南，主要关注处理器的双FMA（融合乘加）单元的吞吐量和延迟。该资料在2017年8月修订至1.1版，其中包含了对256位内存访问延迟的更新，从之前的0个周期更正为7个周期。 Intel Xeon可扩展处理器是一款高性能服务器级处理器，设计用于处理大数据、云计算和人工智能等高负载工作。其关键特性之一是FMA单元，能同时执行乘法和加法操作，显著提升计算密集型任务的效率。文档中的表格详细列出了不同指令在FMA单元上的吞吐量和延迟，这对于理解和优化基于这些处理器的系统性能至关重要。吞吐量是指处理器在单位时间内可以完成的工作量，通常以每秒操作数或周期数表示。对于拥有两个FMA单元的处理器，这意味着它在理想情况下每周期可以处理两次浮点运算。而延迟则是指处理器执行特定操作所需的时间，通常以时钟周期数来衡量。较低的延迟意味着更快的响应速度，对于实时计算和低延迟应用尤其重要。文档中提到的数据缓存单元（DCU）命中延迟指的是处理器从数据缓存中获取数据的速度。当处理器请求的数据已经存在于高速缓存中，即发生了缓存命中，此时的延迟就相对较低。然而，如果数据不在缓存中，处理器需要从主存或者更慢的层次获取，那么延迟将会显著增加。 Intel Xeon可扩展处理器的内存访问延迟从0个周期更改为7个周期，这可能反映了实际硬件设计中的改进，或者是为了提供更准确的性能预期。这个更新提醒开发者在设计系统时需要考虑内存访问的实际延迟，以优化代码和数据布局，从而最大化处理器性能。此外，文档还强调了Intel技术的功能和优势依赖于系统的配置，包括硬件、软件和服务的启用状态。同时，Intel不承担因数据丢失或系统损坏导致的任何责任，并且用户在使用此文档时应同意授予Intel非独占、免版税的专利许可，涉及文档中披露的任何主题。这份Intel Xeon可扩展处理器的性能和延迟指南是开发者、系统架构师和数据中心管理员优化基于Intel处理器的高性能系统的重要参考资料。通过理解这些核心性能指标，他们能够更好地优化代码，提高计算效率，同时确保系统的稳定运行。

资源详情

资源推荐

XED_IFORM_AND_LOCK_MEMv_IMMb lock and [rdi], 1 10 1.25

XED_IFORM_AND_LOCK_MEMv_IMMz lock and [rdi], 1 10 1.25

XED_IFORM_AND_LOCK_MEMb_GPR8 lock and [rdi], al 10 1.25

XED_IFORM_AND_LOCK_MEMv_GPRv lock and [rdi], rax 10 1.25

XED_IFORM_BTC_LOCK_MEMv_IMMb lock btc [rdi], 1 10 1.5

XED_IFORM_BTR_LOCK_MEMv_IMMb lock btr [rdi], 1 10 1.5

XED_IFORM_BTS_LOCK_MEMv_IMMb lock bts [rdi], 1 10 1.5

XED_IFORM_CMPXCHG_LOCK_MEMb_GPR8 lock cmpxchg [rdi], al 12 2

XED_IFORM_CMPXCHG_LOCK_MEMv_GPRv lock cmpxchg [rdi], rax 12 2

XED_IFORM_CMPXCHG16B_LOCK_MEMdq lock cmpxchg16b [rdi] 23 4

XED_IFORM_CMPXCHG8B_LOCK_MEMq lock cmpxchg8b [rdi] 20 3.75

XED_IFORM_DEC_LOCK_MEMb lock dec [rdi] 10 1.25

XED_IFORM_DEC_LOCK_MEMv lock dec [rdi] 10 1.25

XED_IFORM_INC_LOCK_MEMv lock inc [rdi] 10 1.25

XED_IFORM_INC_LOCK_MEMb lock inc [rdi] 10 1.25

XED_IFORM_NEG_LOCK_MEMv lock neg [rdi] 10 1.25

XED_IFORM_NEG_LOCK_MEMb lock neg [rdi] 10 1.25

XED_IFORM_NOT_LOCK_MEMb lock not [rdi] 10 1.25

XED_IFORM_NOT_LOCK_MEMv lock not [rdi] 10 1.25

XED_IFORM_OR_LOCK_MEMv_IMMb lock or [rdi], 1 10 1.25

XED_IFORM_OR_LOCK_MEMv_IMMz lock or [rdi], 1 10 1.25

XED_IFORM_OR_LOCK_MEMb_IMMb_82r1 lock or [rdi], 1 10 1.25

XED_IFORM_OR_LOCK_MEMb_IMMb_80r1 lock or [rdi], 1 10 1.25

XED_IFORM_OR_LOCK_MEMb_GPR8 lock or [rdi], al 10 1.25

XED_IFORM_OR_LOCK_MEMv_GPRv lock or [rdi], rax 10 1.25

XED_IFORM_SBB_LOCK_MEMb_GPR8 lock sbb [rdi], al 12 2

XED_IFORM_SBB_LOCK_MEMv_GPRv lock sbb [rdi], rax 12 2

XED_IFORM_SUB_LOCK_MEMb_IMMb_80r5 lock sub [rdi], 1 10 1.25

XED_IFORM_SUB_LOCK_MEMv_IMMz lock sub [rdi], 1 10 1.25

XED_IFORM_SUB_LOCK_MEMv_IMMb lock sub [rdi], 1 10 1.25

XED_IFORM_SUB_LOCK_MEMb_IMMb_82r5 lock sub [rdi], 1 10 1.25

XED_IFORM_SUB_LOCK_MEMb_GPR8 lock sub [rdi], al 10 1.25

XED_IFORM_SUB_LOCK_MEMv_GPRv lock sub [rdi], rax 10 1.25

XED_IFORM_XADD_LOCK_MEMb_GPR8 lock xadd [rdi], al 11 1.5

XED_IFORM_XADD_LOCK_MEMv_GPRv lock xadd [rdi], rax 11 1.5

XED_IFORM_XOR_LOCK_MEMb_IMMb_80r6 lock xor [rdi], 1 10 1.25

XED_IFORM_XOR_LOCK_MEMv_IMMb lock xor [rdi], 1 10 1.25

XED_IFORM_XOR_LOCK_MEMv_IMMz lock xor [rdi], 1 10 1.25

XED_IFORM_XOR_LOCK_MEMb_IMMb_82r6 lock xor [rdi], 1 10 1.25

XED_IFORM_XOR_LOCK_MEMb_GPR8 lock xor [rdi], al 10 1.25

XED_IFORM_XOR_LOCK_MEMv_GPRv lock xor [rdi], rax 10 1.25

Intel® Xeon® Scalable Processor Instruction Throughput and Latency

XED_IFORM_OR_GPR8_GPR8_08 or al, cl 1 0.25

XED_IFORM_OR_GPR8_GPR8_0A or al, cl 1 0.25

XED_IFORM_OR_OrAX_IMMz or ax, 1 1 0.25

XED_IFORM_OR_GPRv_MEMv or rax, [rdi] 6 0.5

XED_IFORM_OR_GPRv_IMMz or rax, 1 1 0.25

XED_IFORM_OR_GPRv_IMMb or rax, 1 1 0.25

XED_IFORM_OR_GPRv_GPRv_0B or rax, rcx 1 0.25

XED_IFORM_OR_GPRv_GPRv_09 or rax, rcx 1 0.25

XED_IFORM_PABSB_MMXq_MEMq pabsb mmx0, [rdi] 6 0.5

XED_IFORM_PABSB_MMXq_MMXq pabsb mmx0, mmx0 1 0.5

XED_IFORM_PABSD_MMXq_MEMq pabsd mmx0, [rdi] 6 0.5

XED_IFORM_PABSD_MMXq_MMXq pabsd mmx0, mmx0 1 0.5

XED_IFORM_PABSW_MMXq_MEMq pabsw mmx0, [rdi] 6 0.5

XED_IFORM_PABSW_MMXq_MMXq pabsw mmx0, mmx0 1 0.5

XED_IFORM_PACKSSDW_MMXq_MEMq packssdw mmx0, [rdi] 7 2

XED_IFORM_PACKSSDW_MMXq_MMXq packssdw mmx0, mmx0 3 2

XED_IFORM_PACKSSWB_MMXq_MEMq packsswb mmx0, [rdi] 7 2

XED_IFORM_PACKSSWB_MMXq_MMXq packsswb mmx0, mmx0 3 2

XED_IFORM_PACKUSWB_MMXq_MEMq packuswb mmx0, [rdi] 7 2

XED_IFORM_PACKUSWB_MMXq_MMXq packuswb mmx0, mmx0 3 2

XED_IFORM_PADDB_MMXq_MEMq paddb mmx0, [rdi] 6 0.5

XED_IFORM_PADDB_MMXq_MMXq paddb mmx0, mmx0 1 0.5

XED_IFORM_PADDD_MMXq_MEMq paddd mmx0, [rdi] 6 0.5

XED_IFORM_PADDD_MMXq_MMXq paddd mmx0, mmx0 1 0.5

XED_IFORM_PADDQ_MMXq_MEMq paddq mmx0, [rdi] 6 0.5

XED_IFORM_PADDQ_MMXq_MMXq paddq mmx0, mmx0 1 0.5

XED_IFORM_PADDSB_MMXq_MEMq paddsb mmx0, [rdi] 6 1

XED_IFORM_PADDSB_MMXq_MMXq paddsb mmx0, mmx0 1 1

XED_IFORM_PADDSW_MMXq_MEMq paddsw mmx0, [rdi] 6 1

XED_IFORM_PADDSW_MMXq_MMXq paddsw mmx0, mmx0 1 1

XED_IFORM_PADDUSB_MMXq_MEMq paddusb mmx0, [rdi] 6 1

XED_IFORM_PADDUSB_MMXq_MMXq paddusb mmx0, mmx0 1 1

XED_IFORM_PADDUSW_MMXq_MEMq paddusw mmx0, [rdi] 6 1

XED_IFORM_PADDUSW_MMXq_MMXq paddusw mmx0, mmx0 1 1

XED_IFORM_PADDW_MMXq_MEMq paddw mmx0, [rdi] 6 0.5

XED_IFORM_PADDW_MMXq_MMXq paddw mmx0, mmx0 1 0.5

XED_IFORM_PALIGNR_MMXq_MEMq_IMMb palignr mmx0, [rdi], 1 6 1

XED_IFORM_PALIGNR_MMXq_MMXq_IMMb palignr mmx0, mmx0, 1 1 1

XED_IFORM_PAND_MMXq_MEMq pand mmx0, [rdi] 6 0.5

XED_IFORM_PAND_MMXq_MMXq pand mmx0, mmx0 1 0.5

XED_IFORM_PANDN_MMXq_MEMq pandn mmx0, [rdi] 6 0.5

Intel® Xeon® Scalable Processor Instruction Throughput and Latency

XED_IFORM_PANDN_MMXq_MMXq pandn mmx0, mmx0 1 0.5

XED_IFORM_PAUSE pause 140 140

XED_IFORM_PAVGB_MMXq_MEMq pavgb mmx0, [rdi] 6 1

XED_IFORM_PAVGB_MMXq_MMXq pavgb mmx0, mmx0 1 1

XED_IFORM_PAVGW_MMXq_MEMq pavgw mmx0, [rdi] 6 1

XED_IFORM_PAVGW_MMXq_MMXq pavgw mmx0, mmx0 1 1

XED_IFORM_PCMPEQB_MMXq_MEMq pcmpeqb mmx0, [rdi] 6 1

XED_IFORM_PCMPEQB_MMXq_MMXq pcmpeqb mmx0, mmx0 1 1

XED_IFORM_PCMPEQD_MMXq_MEMq pcmpeqd mmx0, [rdi] 6 1

XED_IFORM_PCMPEQD_MMXq_MMXq pcmpeqd mmx0, mmx0 1 1

XED_IFORM_PCMPEQW_MMXq_MEMq pcmpeqw mmx0, [rdi] 6 1

XED_IFORM_PCMPEQW_MMXq_MMXq pcmpeqw mmx0, mmx0 1 1

XED_IFORM_PCMPGTB_MMXq_MEMq pcmpgtb mmx0, [rdi] 6 1

XED_IFORM_PCMPGTB_MMXq_MMXq pcmpgtb mmx0, mmx0 1 1

XED_IFORM_PCMPGTD_MMXq_MEMq pcmpgtd mmx0, [rdi] 6 1

XED_IFORM_PCMPGTD_MMXq_MMXq pcmpgtd mmx0, mmx0 1 1

XED_IFORM_PCMPGTW_MMXq_MEMq pcmpgtw mmx0, [rdi] 6 1

XED_IFORM_PCMPGTW_MMXq_MMXq pcmpgtw mmx0, mmx0 1 1

XED_IFORM_PDEP_VGPR32d_VGPR32d_MEMd pdep eax, ecx, [rdi] 8 1

XED_IFORM_PDEP_VGPR32d_VGPR32d_VGPR32d pdep eax, ecx, edx 3 1

XED_IFORM_PDEP_VGPR64q_VGPR64q_MEMq pdep rax, rcx, [rdi] 8 1

XED_IFORM_PDEP_VGPR64q_VGPR64q_VGPR64q pdep rax, rcx, rdx 3 1

XED_IFORM_PEXT_VGPR32d_VGPR32d_MEMd pext eax, ecx, [rdi] 8 1

XED_IFORM_PEXT_VGPR32d_VGPR32d_VGPR32d pext eax, ecx, edx 3 1

XED_IFORM_PEXT_VGPR64q_VGPR64q_MEMq pext rax, rcx, [rdi] 8 1

XED_IFORM_PEXT_VGPR64q_VGPR64q_VGPR64q pext rax, rcx, rdx 3 1

XED_IFORM_PEXTRW_GPR32_MMXq_IMMb pextrw eax, mmx0, 1 3 1

XED_IFORM_PHADDD_MMXq_MEMq phaddd mmx0, [rdi] 8 2

XED_IFORM_PHADDD_MMXq_MMXq phaddd mmx0, mmx0 3 2

XED_IFORM_PHADDSW_MMXq_MEMq phaddsw mmx0, [rdi] 8 2

XED_IFORM_PHADDSW_MMXq_MMXq phaddsw mmx0, mmx0 3 2

XED_IFORM_PHADDW_MMXq_MEMq phaddw mmx0, [rdi] 8 2

XED_IFORM_PHADDW_MMXq_MMXq phaddw mmx0, mmx0 3 2

XED_IFORM_PHSUBD_MMXq_MEMq phsubd mmx0, [rdi] 8 2

XED_IFORM_PHSUBD_MMXq_MMXq phsubd mmx0, mmx0 3 2

XED_IFORM_PHSUBSW_MMXq_MEMq phsubsw mmx0, [rdi] 8 2

XED_IFORM_PHSUBSW_MMXq_MMXq phsubsw mmx0, mmx0 3 2

XED_IFORM_PHSUBW_MMXq_MEMq phsubw mmx0, [rdi] 8 2

XED_IFORM_PHSUBW_MMXq_MMXq phsubw mmx0, mmx0 3 2

XED_IFORM_PINSRW_MMXq_MEMw_IMMb pinsrw mmx0, [rdi], 1 6 1

XED_IFORM_PINSRW_MMXq_GPR32_IMMb pinsrw mmx0, eax, 1 2 2

Intel® Xeon® Scalable Processor Instruction Throughput and Latency

剩余131页未读，继续阅读

liuw666

粉丝: 0
资源: 17

Intel Xeon 可扩展处理器：性能与延迟分析

Software Optimization Reference Manual.rar

<meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">

<meta name="viewport" content="width=device-width,user-scalable=no,initial-scale=1,maximum-scale=1,minimum-scale=1">

英特尔至强系列处理器排名

Intel Xeon Scalable Processor 有多少颗ddr

帮我收集关于HugeGraph的相关文档

line.setAttribute( "y1", DrawLineConf1.initY - i * DrawLineConf1.LineHeight ); line.setAttribute( "y2", DrawLineConf1.initY - i * DrawLineConf1.LineHeight ); content.appendChild(line);在语法中是什么意思

jdk1.8 concurrenthashmap

请用英文写出跟软件需求规格说明书同一题目的完整的软件测试规格说明书

debezium-connector-oracle

<meta name="viewport" content="width=device-width, initial-scale=0, maximum-scale=0, user-scalable=yes,shrink-to-fit=no">解释下这段代码里每个属性的作用

arm_sve示例代码，别给错的代码

aqistudy nodejs

基于区块链的电子病历存储国内外研究现状 文献

minio docker-compose

Spring Cloud Gateway

是什么

meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=0"是什么意思

atera的IP核有哪些

列举出与支持向量机、随机森林、XGBoost有关的文献

最新资源

基于区块链的电子病历存储国内外研究现状文献