#define USE_DIVISION_METHOD #ifdef USE_FAST_METHOD _m128 xRecip=_mm_rcp_ps(x); pResultSSE[i]=_mm_mul_ps(xRecip,xSqrt); #endif //USE_FAST_METHOD #ifdef USE_DIVISION_METHOD pResultSSE[i]=_mm_div_ps(xSqrt,x); #endif //USE_DIVISION_METHOD什么意思

这段代码同样使用了条件编译指令。如果定义了`USE_FAST_METHOD`宏，就会启用快速计算方法。在这种情况下，代码使用 SSE 指令 `_mm_rcp_ps` 计算 x 的倒数，然后将结果与 x 的平方根相乘，最后将结果存储在 `pResultSSE` 数组中。如果没有定义`USE_FAST_METHOD`宏，则会使用除法方法，将 x 的平方根除以 x，然后将结果存储在 `pResultSSE` 数组中。这段代码中，`USE_DIVISION_METHOD`宏定义没有被使用，可以删除。

#define USE_DIVISION_METHOD 34. #ifdef USE_FAST_METHOD 35. _m128 xRecip=_mm_rcp_ps(x); 36. pResultSSE[i]=_mm_mul_ps(xRecip,xSqrt); 37. #endif //USE_FAST_METHOD什么意思

这段代码使用了条件编译指令。如果在程序中定义了`USE_FAST_METHOD`宏，就会启用快速计算方法。在这种情况下，代码使用 SSE 指令 `_mm_rcp_ps` 计算 x 的倒数，然后将结果与 x 的平方根相乘，最后将结果存储在 `pResultSSE` 数组中。如果没有定义`USE_FAST_METHOD`宏，程序将跳过这段代码。另外，第一行定义了一个宏 `USE_DIVISION_METHOD`，但在这段代码中并没有被使用到。

分析一下这段代码：#include "stdio.h" #include<xmmintrin.h> //Need this for SSE compiler intrinsics #include<math.h> //Needed for sqrt in CPU-only version #include<time.h> int main(int argc,char argv[]) { printf("Starting calculation...\n"); const int length=64000; //We will be calculating Y=SQRT(x)/x, for x=1->64000 //If you do not properly align your data for SSE instructions, you may take a huge performance hit. float pResult=(float )_aligned_malloc(lengthsizeof(float),16); //align to 16-byte for SSE m128 x; m128 xDelta=_mm_set1_ps(4.0f); //Set the xDelta to (4,4,4,4) m128 pResultSSE=(m128 )pResult; const int SSELength=length/4; clock_t clock1=clock(); #define TIME_SSE //Define this if you want to run with SSE #ifdef TIME_SSE //lots of stress loops so we can easily use a stopwatch for(int stress=0;stress<1000;stress++) { //Set the initial values of x to (4,3,2,1) x=_mm_set_ps(4.0f,3.0f,2.0f,1.0f); for(int i=0; i<SSELength; i++) { __m128 xSqrt=_mm_sqrt_ps(x); //Note! Division is slow. It's actually faster to take the reciprocal of a number and multiply //Also note that Division is more accurate than taking the reciprocal and multiplying #define USE_DIVISION_METHOD #ifdef USE_FAST_METHOD _m128 xRecip=_mm_rcp_ps(x); pResultSSE[i]=_mm_mul_ps(xRecip,xSqrt); #endif //USE_FAST_METHOD #ifdef USE_DIVISION_METHOD pResultSSE[i]=_mm_div_ps(xSqrt,x); #endif //USE_DIVISION_METHOD //Advance x to the next set of numbers x=_mm_add_ps(x,xDelta); } } clock_t clock2=clock(); printf("SIMDtime:%d ms\n",1000(clock2-clock1)/CLOCKS_PER_SEC); #endif //TIME_SSE #define TIME_noSSE #ifdef TIME_noSSE clock_t clock3=clock(); //lots of stress loops so we can easily use a stopwatch for(int stress=0;stress<1000;stress++) { clock_t clock3=clock(); float xFloat=1.0f; for(int i=0;i<length;i++) { //Even though division is slow，there are no intrinsic functions like there are in SSE pResult[i]=sqrt(xFloat)/xFloat; xFloat+=1.0f; } } clock_t clock4=clock(); printf("noSIMDtime:%d ms\n",1000(clock4-clock3)/CLOCKS_PER_SEC); #endif //TIME_noSSE return 0; }

这段代码使用了 SSE 指令来计算 Y=SQRT(x)/x，其中 x 的值从 1 到 64000。程序首先使用 `_aligned_malloc` 函数分配了一段内存，用于存储计算结果。由于 SSE 指令要求数据在内存中的对齐方式为 16 字节对齐，因此在分配内存时需要指定对齐方式为 16 字节。程序定义了一个 SSE 类型的变量 `x`，并使用 `_mm_set1_ps` 函数初始化了 `xDelta` 变量的值为 (4,4,4,4)。接下来，程序使用了条件编译指令，如果定义了 `TIME_SSE` 宏，就会执行使用 SSE 指令计算的代码，否则将执行没有使用 SSE 指令的代码。在使用 SSE 指令计算时，程序使用了嵌套的循环，外层循环执行了 1000 次，内层循环执行了 64000/4=16000 次。在内层循环中，程序使用 `_mm_set_ps` 函数初始化 `x` 变量的值为 (4,3,2,1)，然后使用 `_mm_sqrt_ps` 函数计算 `x` 的平方根，并根据条件编译指令使用 SSE 指令计算 Y 值，最后将结果存储在 `pResultSSE` 数组中。在每次循环结束后，程序使用 `_mm_add_ps` 函数将 `x` 的值加上 `xDelta`，以便计算下一组数据的 Y 值。在计算完成后，程序使用 clock 函数计算了执行时间，并输出结果。在没有使用 SSE 指令的情况下，程序使用了嵌套的循环，外层循环执行了 1000 次，内层循环执行了 64000 次。在内层循环中，程序使用 `sqrt` 函数计算 `x` 的平方根，并计算 Y 值，最后将结果存储在 `pResult` 数组中。在每次循环结束后，程序将 x 的值加上 1，以便计算下一组数据的 Y 值。计算完成后，程序使用 clock 函数计算了执行时间，并输出结果。

阅读全文

#define USE_DIVISION_METHOD #ifdef USE_FAST_METHOD _m128 xRecip=_mm_rcp_ps(x); pResultSSE[i]=_mm_mul_ps(xRecip,xSqrt); #endif //USE_FAST_METHOD #ifdef USE_DIVISION_METHOD pResultSSE[i]=_mm_div_ps(xSqrt,x); #endif //USE_DIVISION_METHOD什么意思

#define USE_DIVISION_METHOD 34. #ifdef USE_FAST_METHOD 35. _m128 xRecip=_mm_rcp_ps(x); 36. pResultSSE[i]=_mm_mul_ps(xRecip,xSqrt); 37. #endif //USE_FAST_METHOD什么意思

相关推荐

Ruby元编程：method_missing深度解析与适用策略

Fluent变形运动模拟UDF：Define_Grid_Motion教程

UCOS-II操作系统配置文件OS_CFG.H详解与内存占用测试

预编译#define_#ifdef_#endif用法

C++ 中pragma once 与 #ifndef _XXX_H_ #define _XXX_H_的区别

cpp代码-C和C++奇怪内容 ## # __VA_ARGS__和... (可变参数) 宽字符

#ifndef与#define及#endif_C语言_

Fluent UDF DEFINE宏.rar_DEFINE宏_define UDF_fluent_fluent udf_flue

define LINE_FOUdfgR_ADDRESS 0x98

#ifndef #define #endif的用法

头文件加#ifndef #define #endif.pdf

UDF控制柔性振动膜的动网格问题.zip_GRID udf_define grid motion_define_cg_动网格_动

常用宏定义#define

#define的使用技巧

#define——用法大全

#indef 与#define 区别于用法

理解和避免头文件中的#ifndef #define #endif冲突

最新推荐

预编译#define_#ifdef_#endif用法

俄罗斯RTSD数据集实现交通标志实时检测

管理建模和仿真的文件

预测区间与置信区间：机器学习中的差异与联系

基于KNN通过摄像头实现0-9的识别python代码

易语言开发的文件批量改名工具使用Ex_Dui美化界面

"互动学习：行动中的多样性与论文攻读经历"

【机器学习预测区间入门】：从概念到实现

如何修改QSpinBox的文字颜色？

爱心援助动态网页教程：前端开发实战指南