ARM FMLA命令

ARM FMLA命令是ARM体系结构中的一条指令，用于执行浮点数乘累加操作。FMLA指令的全称是"Fused Multiply-Add"，它可以同时进行浮点数乘法和加法操作，并将结果累加到一个累加器中。具体来说，FMLA指令的语法如下： FMLA{cond}.F32 Dd, Dn, Dm FMLA{cond}.F64 Dd, Dn, Dm 其中，cond是条件码，用于控制指令的执行条件；F32和F64分别表示单精度浮点数和双精度浮点数；Dd、Dn和Dm是浮点寄存器。执行FMLA指令时，它会将Dn和Dm寄存器中的浮点数进行乘法运算，并将结果与Dd寄存器中的值进行加法运算，最后将结果保存到Dd寄存器中。这个过程可以在一条指令中完成，提高了计算效率。

.macro KERNEL8x4_M2 fmla v16.2d, v4.2d, v12.d[0] fmla v20.2d, v4.2d, v13.d[0] fmla v24.2d, v4.2d, v14.d[0] fmla v28.2d, v4.2d, v15.d[0] ldp q0, q1, [pA], #32 fmla v17.2d, v5.2d, v12.d[0] fmla v25.2d, v5.2d, v14.d[0] ldp d8, d9, [pB], #16 fmla v21.2d, v5.2d, v13.d[0] fmla v29.2d, v5.2d, v15.d[0] ldp d10, d11, [pB], #16 fmla v18.2d, v6.2d, v12.d[0] fmla v22.2d, v6.2d, v13.d[0] prfm PLDL1KEEP, [pB, #B_PRE_SIZE] fmla v26.2d, v6.2d, v14.d[0] fmla v30.2d, v6.2d, v15.d[0] fmla v19.2d, v7.2d, v12.d[0] fmla v23.2d, v7.2d, v13.d[0] ldp q2, q3, [pA], #32 fmla v27.2d, v7.2d, v14.d[0] fmla v31.2d, v7.2d, v15.d[0] .endm

这段代码是一个宏定义，名为KERNEL8x4_M2。它是基于前面的宏定义KERNEL8x4_I和KERNEL8x4_M1进行了一些修改和补充。在这个宏中，与之前相比，多了一些fmla指令，用于累加之前计算的结果。这样可以实现矩阵乘法的累加操作。其他部分与之前的宏定义类似，加载数据、进行乘法操作和存储结果。整个过程中使用的寄存器和内存地址根据具体的处理器架构可能会有所不同。

.macro KERNEL8x4_M1 fmla v16.2d, v0.2d, v8.d[0] fmla v20.2d, v0.2d, v9.d[0] ldp q4, q5, [pA], #32 fmla v24.2d, v0.2d, v10.d[0] fmla v28.2d, v0.2d, v11.d[0] ldp d12, d13, [pB], #16 fmla v17.2d, v1.2d, v8.d[0] fmla v25.2d, v1.2d, v10.d[0] prfm PLDL1KEEP, [pA, #A_PRE_SIZE+64] fmla v21.2d, v1.2d, v9.d[0] fmla v29.2d, v1.2d, v11.d[0] ldp d14, d15, [pB], #16 fmla v18.2d, v2.2d, v8.d[0] fmla v22.2d, v2.2d, v9.d[0] prfm PLDL1KEEP, [pA, #A_PRE_SIZE] fmla v26.2d, v2.2d, v10.d[0] fmla v30.2d, v2.2d, v11.d[0] fmla v19.2d, v3.2d, v8.d[0] fmla v23.2d, v3.2d, v9.d[0] ldp q6, q7, [pA], #32 fmla v27.2d, v3.2d, v10.d[0] fmla v31.2d, v3.2d, v11.d[0] .endm

这段代码是一个宏定义，名为KERNEL8x4_M1。它是基于前面的宏定义KERNEL8x4_I进行了一些修改和补充。在这个宏中，与之前相比，多了一些fmla指令，用于累加之前计算的结果。这样可以实现矩阵乘法的累加操作。其他部分与之前的宏定义类似，加载数据、进行乘法操作和存储结果。整个过程中使用的寄存器和内存地址根据具体的处理器架构可能会有所不同。

相关推荐

FMLA假別設置功能規格說明書.docx

svg-to-ppt：将SVG转换为PPT，以便在Keynote和PowerPoint中使用形状

洗衣和实验室时间：家庭友好政策会影响学术工作成果吗？-研究论文

基于正交频分复用调制的可见光通信指纹匹配定位算法

Toxi / Oxy Pro 便携式气体检测仪参考手册 使用说明书

科傻模拟网优化操作-教程书

node-v8.14.0-x64.msi

2023商业银行数据资产体系白皮书，主要介绍了“三位一体”数据资产体系的构成与工作机制，以及商业银行数据资产体系建设实践

基于微信小程序的助农扶贫小程序

车辆销售数据Python爬取并做数据分析，项目源码注解清晰一看就懂.zip

毕业设计：基于SSM的mysql-学生社团管理系统（源码 + 数据库 + 说明文档）

大健康零售业务O2O数字化战略规划方案.pptx

数据中台项目主要岗位及其职责和任务

node-v8.0.0-linux-armv7l.tar.gz

流程制造行业数字化智能工厂总体规划建设方案.pptx

c语言学生成绩管理系统源码.zip

DEV-C++-5.11下载链接

最新推荐

Toxi / Oxy Pro 便携式气体检测仪参考手册 使用说明书

科傻模拟网优化操作-教程书

node-v8.14.0-x64.msi

2023商业银行数据资产体系白皮书，主要介绍了“三位一体”数据资产体系的构成与工作机制，以及商业银行数据资产体系建设实践

基于微信小程序的助农扶贫小程序

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLOv1目标检测算法：实时目标检测的先驱，开启计算机视觉新篇章

info-center source defatult

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

Toxi / Oxy Pro 便携式气体检测仪参考手册使用说明书

Toxi / Oxy Pro 便携式气体检测仪参考手册使用说明书