分析一下这段代码:#include "stdio.h" #include<xmmintrin.h> //Need this for SSE compiler intrinsics #include<math.h> //Needed for sqrt in CPU-only version #include<time.h> int main(int argc,char *argv[]) { printf("Starting calculation...\n"); const int length=64000; //We will be calculating Y=SQRT(x)/x, for x=1->64000 //If you do not properly align your data for SSE instructions, you may take a huge performance hit. float *pResult=(float *)_aligned_malloc(length*sizeof(float),16); //align to 16-byte for SSE __m128 x; __m128 xDelta=_mm_set1_ps(4.0f); //Set the xDelta to (4,4,4,4) __m128 *pResultSSE=(__m128 *)pResult; const int SSELength=length/4; clock_t clock1=clock(); #define TIME_SSE //Define this if you want to run with SSE #ifdef TIME_SSE //lots of stress loops so we can easily use a stopwatch for(int stress=0;stress<1000;stress++) { //Set the initial values of x to (4,3,2,1) x=_mm_set_ps(4.0f,3.0f,2.0f,1.0f); for(int i=0; i<SSELength; i++) { __m128 xSqrt=_mm_sqrt_ps(x); //Note! Division is slow. It's actually faster to take the reciprocal of a number and multiply //Also note that Division is more accurate than taking the reciprocal and multiplying #define USE_DIVISION_METHOD #ifdef USE_FAST_METHOD _m128 xRecip=_mm_rcp_ps(x); pResultSSE[i]=_mm_mul_ps(xRecip,xSqrt); #endif //USE_FAST_METHOD #ifdef USE_DIVISION_METHOD pResultSSE[i]=_mm_div_ps(xSqrt,x); #endif //USE_DIVISION_METHOD //Advance x to the next set of numbers x=_mm_add_ps(x,xDelta); } } clock_t clock2=clock(); printf("SIMDtime:%d ms\n",1000*(clock2-clock1)/CLOCKS_PER_SEC); #endif //TIME_SSE #define TIME_noSSE #ifdef TIME_noSSE clock_t clock3=clock(); //lots of stress loops so we can easily use a stopwatch for(int stress=0;stress<1000;stress++) { clock_t clock3=clock(); float xFloat=1.0f; for(int i=0;i<length;i++) { //Even though division is slow,there are no intrinsic functions like there are in SSE pResult[i]=sqrt(xFloat)/xFloat; xFloat+=1.0f; } } clock_t clock4=clock(); printf("noSIMDtime:%d ms\n",1000*(clock4-clock3)/CLOCKS_PER_SEC); #endif //TIME_noSSE return 0; }
时间: 2024-03-07 11:52:26 浏览: 113
这段代码使用了 SSE 指令来计算 Y=SQRT(x)/x,其中 x 的值从 1 到 64000。程序首先使用 `_aligned_malloc` 函数分配了一段内存,用于存储计算结果。由于 SSE 指令要求数据在内存中的对齐方式为 16 字节对齐,因此在分配内存时需要指定对齐方式为 16 字节。程序定义了一个 SSE 类型的变量 `x`,并使用 `_mm_set1_ps` 函数初始化了 `xDelta` 变量的值为 (4,4,4,4)。接下来,程序使用了条件编译指令,如果定义了 `TIME_SSE` 宏,就会执行使用 SSE 指令计算的代码,否则将执行没有使用 SSE 指令的代码。在使用 SSE 指令计算时,程序使用了嵌套的循环,外层循环执行了 1000 次,内层循环执行了 64000/4=16000 次。在内层循环中,程序使用 `_mm_set_ps` 函数初始化 `x` 变量的值为 (4,3,2,1),然后使用 `_mm_sqrt_ps` 函数计算 `x` 的平方根,并根据条件编译指令使用 SSE 指令计算 Y 值,最后将结果存储在 `pResultSSE` 数组中。在每次循环结束后,程序使用 `_mm_add_ps` 函数将 `x` 的值加上 `xDelta`,以便计算下一组数据的 Y 值。在计算完成后,程序使用 clock 函数计算了执行时间,并输出结果。在没有使用 SSE 指令的情况下,程序使用了嵌套的循环,外层循环执行了 1000 次,内层循环执行了 64000 次。在内层循环中,程序使用 `sqrt` 函数计算 `x` 的平方根,并计算 Y 值,最后将结果存储在 `pResult` 数组中。在每次循环结束后,程序将 x 的值加上 1,以便计算下一组数据的 Y 值。计算完成后,程序使用 clock 函数计算了执行时间,并输出结果。
阅读全文