对于#include <stdio.h> #include <arm_neon.h> static void matrix_mul_asm(uint16_t aa,uint16_t bb,uint16_t **cc) { uint16_t a=(uint16_t )aa; uint16_t *b=(uint16_t )bb; uint16_t c=(uint16_t )cc; asm volatile ( "ld4 {v0.4h-v3.4h},[%0]\n" "ld4 {v4.4h,v5.4h,v6.4h,v7.4h},[%1]\n" "mul v3.4h,v3.4h,v7.4h\n" "mul v2.4h,v2.4h,v6.4h\n" "mul v1.4h,v1.4h,v5.4h\n" "mul v0.4h,v0.4h,v4.4h\n" "st4 {v0.4h,v1.4h,v2.4h,v3.4h},[%2]\n" :"+r"(a),"+r"(b),"+r"(c) : :"cc","memory","v0","v1","v2","v3","v4","v5","v6","v7" ); } int main() { uint16_t aa[4][4]={ {1,8,2,4}, //自己学号的高四位，比如学号为19374331，此处应为{1,9,3,7}, {1,0,5,5}, //自己学号的低四位，比如学号为19374331，此处应为{4,3,3,1}, {3,6,8,1}, {2,6,7,1} }; uint16_t bb[4][4]={ {1,3,5,7}, {2,4,6,8}, {2,5,7,9}, {5,2,7,1} }; uint16_t cc[4][4]={0}; int i,j; matrix_mul_asm((uint16_t )aa,(uint16_t )bb,(uint16_t **)cc); for(i=0;i<4;i++) for(j=0;j<4;j++) printf("NO 18241055,cc[%1u][ %1u] out is %11u \n",i,j,cc[i][j]); //19374331位置处填写自己学号 return 0; }用NEON SIMD的intrinsics方式重新一遍

时间: 2024-04-26 09:23:49 浏览: 108

C标准库函数集

5星 · 资源好评率100%

C标准库函数集是C语言的核心组成部分，它提供了一系列预定义的函数，使得开发者无需从零开始编写常用功能，从而极大地提高了编程效率和代码的可维护性。在本篇文章中，我们将深入探讨C标准库中的一些关键部分，包括输入与输出、字符类测试、字符串函数、数学函数、实用函数、诊断、变长参数列表、非局部跳转、信号处理、日期与时间函数以及由实现定义的限制。 ### 输入与输出（stdio.h）输入与输出函数主要在`<stdio.h>`头文件中定义，其中最重要的类型是`FILE`，用于声明文件指针。此外，`size_t`和`fpos_t`也是常用类型，`size_t`是由`sizeof`运算符产生的无符号整型，而`fpos_t`类型则定义了一个对象，该对象能够唯一地表示文件中的每个位置。`EOF`宏则被用来表示文件的结尾。 #### 文件操作在文件操作方面，`fopen`、`freopen`、`fflush`、`fclose`、`remove`和`rename`是几个重要的函数。 - `fopen`函数用于打开或创建一个文件，并返回与之关联的流。它接受两个参数：文件名和模式字符串，模式字符串决定了文件的打开方式，如只读、只写、追加等。 - `freopen`函数用于重新打开一个文件，通常用于重定向标准输入输出流`stdin`、`stdout`和`stderr`。 - `fflush`函数用于刷新流的缓冲区，确保所有待写入的数据都被实际写入到文件中。 - `fclose`函数用于关闭一个已经打开的文件流，清理缓冲区并释放资源。 - `remove`函数用于删除一个指定的文件。 - `rename`函数用于更改一个文件的名称或将其移动到不同的目录。 ### 字符类测试（ctype.h） `<ctype.h>`头文件提供了用于字符分类的函数，如`isalpha`、`isdigit`、`islower`、`isupper`等，这些函数帮助判断字符是否属于特定的类别，例如是否为字母、数字或大写字母等。 ### 字符串函数（string.h） `<string.h>`头文件包含了大量用于处理字符串的函数，如`strlen`、`strcpy`、`strcat`、`strcmp`等，它们分别用于获取字符串长度、复制字符串、连接字符串和比较字符串。 ### 数学函数（math.h） `<math.h>`头文件提供了丰富的数学函数，包括三角函数、指数函数、对数函数、平方根函数等，如`sin`、`cos`、`tan`、`exp`、`log`、`sqrt`等，适用于各种数学计算场景。 ### 实用函数（stdlib.h） `<stdlib.h>`头文件中包含了一系列实用函数，如`malloc`、`calloc`、`realloc`、`free`用于内存分配和管理，`atoi`、`atol`用于字符串到整数的转换，`rand`和`srand`用于生成随机数。 ### 诊断（assert.h） `<assert.h>`头文件提供了`assert`函数，用于在开发阶段检测程序中的断言是否成立，当断言不成立时，程序会终止执行，便于开发者快速定位问题。 ### 变长参数列表（stdarg.h） `<stdarg.h>`头文件提供了处理变长参数列表的函数，如`va_start`、`va_arg`、`va_end`等，使得函数可以接受不确定数量的参数。 ### 非局部跳转（setjmp.h） `<setjmp.h>`头文件中的`setjmp`和`longjmp`函数用于实现非局部跳转，即在程序中的任意位置跳转到之前的某个保存点。 ### 信号处理（signal.h） `<signal.h>`头文件提供了信号处理机制，用于响应操作系统发送的信号，如中断信号、终止信号等。 ### 日期与时间函数（time.h） `<time.h>`头文件提供了用于处理日期和时间的函数，如`time`、`difftime`、`localtime`、`asctime`等，可用于获取当前时间、计算时间差、转换时间格式等。 ### 由实现定义的限制（limits.h 和 float.h） `<limits.h>`和`<float.h>`头文件定义了一些与实现相关的限制，如最大整数大小、浮点数精度等，这些常量有助于编写更加健壮和移植性强的程序。通过以上对C标准库函数集的介绍，我们可以看到C标准库覆盖了从基础的输入输出、字符串处理到复杂的数学计算、日期时间处理等多个方面，为C语言开发者提供了强大的工具箱，极大地简化了编程工作，提升了程序的性能和可靠性。

下面是使用NEON SIMD的intrinsics方式实现的矩阵乘法代码： ``` #include <stdio.h> #include <arm_neon.h> static void matrix_mul_simd(uint16_t **aa, uint16_t **bb, uint16_t **cc) { uint16x8_t a[4], b[4]; uint16x8_t c[4][4] = {0}; for (int i = 0; i < 4; i++) { a[i] = vld1q_u16(aa[i]); } for (int i = 0; i < 4; i++) { b[i] = vld1q_u16(bb[i]); c[0][i] = vmulq_u16(a[0], vdupq_n_u16(bb[i][0])); c[1][i] = vmulq_u16(a[1], vdupq_n_u16(bb[i][1])); c[2][i] = vmulq_u16(a[2], vdupq_n_u16(bb[i][2])); c[3][i] = vmulq_u16(a[3], vdupq_n_u16(bb[i][3])); } for (int i = 0; i < 4; i++) { c[i][0] = vaddq_u16(c[i][0], vmulq_u16(a[i], b[0])); c[i][1] = vaddq_u16(c[i][1], vmulq_u16(a[i], b[1])); c[i][2] = vaddq_u16(c[i][2], vmulq_u16(a[i], b[2])); c[i][3] = vaddq_u16(c[i][3], vmulq_u16(a[i], b[3])); } for (int i = 0; i < 4; i++) { vst1q_u16(cc[i], c[i][0]); vst1q_u16(cc[i] + 8, c[i][1]); vst1q_u16(cc[i] + 16, c[i][2]); vst1q_u16(cc[i] + 24, c[i][3]); } } int main() { uint16_t aa[4][4] = { {1, 8, 2, 4}, //自己学号的高四位，比如学号为19374331，此处应为{1,9,3,7}, {1, 0, 5, 5}, //自己学号的低四位，比如学号为19374331，此处应为{4,3,3,1}, {3, 6, 8, 1}, {2, 6, 7, 1} }; uint16_t bb[4][4] = { {1, 3, 5, 7}, {2, 4, 6, 8}, {2, 5, 7, 9}, {5, 2, 7, 1} }; uint16_t cc[4][4] = {0}; int i, j; matrix_mul_simd((uint16_t **) aa, (uint16_t **) bb, (uint16_t **) cc); for (i = 0; i < 4; i++) { for (j = 0; j < 4; j++) { printf("NO 18241055,cc[%1u][ %1u] out is %11u \n", i, j, cc[i][j]); //19374331位置处填写自己学号 } } return 0; } ``` 在这个实现中，我们使用了NEON SIMD的intrinsics，首先将输入矩阵a和b分别加载到了8个uint16x8_t向量变量a和b中，然后使用vmulq_u16函数分别计算a和b的每一行的乘积，将结果存储到c矩阵中。最后，使用vaddq_u16函数将结果相加，并使用vst1q_u16函数将结果存储到输出矩阵cc中。这种方法比使用汇编代码更加容易理解和维护，并且可以通过编译器自动向量化来进一步优化性能。

阅读全文

相关推荐

C语言标准库详解：从<assert.h>到<time.h>

C语言标准库详解：从<assert.h>到<ctype.h>

SeqList.h #include <stdio.h> //包含标准输入输出流的头文件 #include <assert.h

#include

# include <stdio.h>

猜数字 C++ #include<stdio.h>

c语言水仙花练习#include<stdio.h>

顺序表的基本操作代码SeqList.h #include <stdio.h> //包含标准输入输出流的头文件 #include

#include <malloc.h>

C代码教程1显示#include <stdio.

#include stdio.h.md

#include stdio.h Q.docx

#include stdio.h(1).docx

#include和#include””的区别

FLOYDsuanfa.rar_M?n_malloc.h_math.h_stdio.h_string.h

C和C++不同文件夹下包含头文件的方法及#include的使用.docx

基本语法03. include与Header档，看似简单的stdio.h

C语言常用头文件详解：stdio.h, string.h, math.h, stdlib.h

rime输入法-下载 RIME／中州韻輸入法引擎，是一個跨平臺的輸入法算法框架 基於這一框架，Rime 開發者與其他開源社區的參與者在 Windows、macOS、Linux、Android 等平

最新推荐

C语言数组操作：高度检查器编程实践

管理建模和仿真的文件

【KUKA系统变量进阶】：揭秘从理论到实践的5大关键技巧

如何使用Python编程语言创建一个具有动态爱心图案作为背景并添加文字'天天开心（高级版）'的图形界面？

基于Swift开发的嘉定单车LBS iOS应用项目解析

"互动学习：行动中的多样性与论文攻读经历"

PROTEUS符号定制指南：个性化元件创建与修改的全面攻略

https://www.lagou.com/wn/爬取该网页职位名称，薪资待遇，学历，企业类型，工作地点数据保存为CSV文件的python代码

钗头凤声乐表演的二度创作分析报告

关系数据表示学习

rime输入法-下载 RIME／中州韻輸入法引擎，是一個跨平臺的輸入法算法框架基於這一框架，Rime 開發者與其他開源社區的參與者在 Windows、macOS、Linux、Android 等平