用矩阵乘向量的方式来优化两个10x10矩阵相乘的C代码，并分析优化后的 Cache 的命中率/不命中率

优化前的代码可能类似于以下形式： ```c void matmul(int A[][10], int B[][10], int C[][10]) { for (int i = 0; i < 10; ++i) { for (int j = 0; j < 10; ++j) { int sum = 0; for (int k = 0; k < 10; ++k) { sum += A[i][k] * B[k][j]; } C[i][j] = sum; } } } ``` 可以使用矩阵乘向量的方式来优化这段代码，具体来说，可以将矩阵B进行转置，然后将每一行的元素依次存放到一个数组中，记为`B_row_major`。这样，计算矩阵乘积时，可以将矩阵B的每一列看作一个向量，然后用这个向量与矩阵A的每一行进行点积运算，得到矩阵C的一个元素。由于矩阵B的每一列对应于数组`B_row_major`的一个连续子序列，因此可以采用一维数组的方式来存储矩阵B，从而利用 CPU 缓存来提高访问效率。具体代码如下： ```c void matmul_opt(int A[][10], int B[][10], int C[][10]) { int B_row_major[100]; for (int j = 0; j < 10; ++j) { for (int i = 0; i < 10; ++i) { B_row_major[j*10+i] = B[i][j]; } } for (int i = 0; i < 10; ++i) { for (int j = 0; j < 10; ++j) { int sum = 0; for (int k = 0; k < 10; ++k) { sum += A[i][k] * B_row_major[j*10+k]; } C[i][j] = sum; } } } ``` 接下来考虑优化后的代码的 Cache 命中率/不命中率。由于矩阵A和矩阵B的大小都是10x10，因此它们的总大小为800字节。由于这两个矩阵是按行存储的，因此对它们的访问模式是局部性较好的，可以通过 CPU 缓存来提高访问效率。在计算矩阵乘积时，矩阵B被转置并存储到了一个一维数组`B_row_major`中。由于这个数组是按行存储的，因此对它的访问模式也是局部性较好的。在计算矩阵乘积时，每次取出一个矩阵A的一行和矩阵B的一列进行计算，因此矩阵A和矩阵B_row_major的访问模式也是局部性较好的。考虑 CPU 的缓存结构，一般来说，它是由多级缓存组成的。以 Intel Core i7 8700K 为例，它的 L1 缓存大小为32KB，L2 缓存大小为256KB，L3 缓存大小为12MB。在这个例子中，由于数据量较小，可以将矩阵A、矩阵B、数组B_row_major和矩阵C全部存储到 L1 缓存中。因此，对这些数据的访问都可以在 L1 缓存中完成，命中率应该是非常高的，接近甚至等于100%。综上所述，通过矩阵乘向量的方式来优化矩阵乘积的代码可以显著提高计算效率，并且在本例中，由于数据量较小，也可以获得非常高的缓存命中率。

阅读全文

用矩阵乘向量的方式来优化两个10x10矩阵相乘的C代码，并分析优化后的 Cache 的命中率/不命中率

相关推荐

矩阵相乘 的c代码

矩阵乘程序的cache失效率实验

矩阵乘程序的cache失效率实验代码

用矩阵乘向量的方式来优化两个10x10矩阵相乘的C代码，并分析优化后的cache命中率或不命中率

用矩阵乘向量的方式来优化两个10x10矩阵相乘的C代码

c语言实现矩阵与向量相乘代码

矩阵相乘的c语言代码

块对角线乘法：用于将大块对角矩阵与矩阵/向量相乘。-matlab开发

C语言实现两个矩阵相乘

解决Python计算矩阵乘向量,矩阵乘实数的一些小错误

基于GPU的稀疏矩阵向量乘优化.pdf

两个矩阵相乘

矩阵相乘c语言编程

矩阵相乘源代码

输入两个矩阵，计算两个矩阵相乘

两矩阵相乘简易C++代码

稀疏矩阵相乘代码

稀疏矩阵向量乘与卷积性能优化研究：基于PPR模型的新探索

10×10以内的矩阵相乘

SIMD-Matrix-Vectorization:使用Intel AVX Intrinsics对矩阵进行向量化。 具有其他优化功能，可以利用局部性来减少高速缓存未命中

最新推荐

C语言矩阵连乘 (动态规划)详解

Java矩阵连乘问题(动态规划)算法实例分析

python读取图像矩阵文件并转换为向量实例

(简单的编写方案)编写一个程序，生成一个10*10的随机矩阵并保存为文件（空格分隔行向量、换行分割列向量），再写程序将刚才保存的矩阵文件另存为CSV格式，用Excel或文本编辑器查看结果

Python实现的矩阵转置与矩阵相乘运算示例

探索数据转换实验平台在设备装置中的应用

管理建模和仿真的文件

ggflags包的国际化问题：多语言标签处理与显示的权威指南

如何使用MATLAB实现电力系统潮流计算中的节点导纳矩阵构建和阻抗矩阵转换，并解释这两种矩阵在潮流计算中的作用和差异？

使用git-log-to-tikz.py将Git日志转换为TIKZ图形

矩阵相乘的c代码

SIMD-Matrix-Vectorization:使用Intel AVX Intrinsics对矩阵进行向量化。具有其他优化功能，可以利用局部性来减少高速缓存未命中