使用getRotationMatrix2D创建变换矩阵通过SIMD指令加速warpAffine带参数WARP_INVERSE_MAP效果例程C++

下面是一个使用SIMD指令加速warpAffine函数的例程，其中使用了getRotationMatrix2D函数创建变换矩阵，并使用WARP_INVERSE_MAP参数来反转变换结果： ```cpp #include <opencv2/opencv.hpp> #include <immintrin.h> using namespace cv; void warpAffine_SIMD(const Mat& src, Mat& dst, const Mat& M) { int rows = src.rows; int cols = src.cols; int num_channels = src.channels(); int num_blocks = (cols / 8) * (rows / 2); __m256i offsets = _mm256_set_epi32(0, 1, 2, 3, 4, 5, 6, 7); __m256i row_indices = _mm256_set_epi32(0, 0, 1, 1, 2, 2, 3, 3); __m256i col_indices = _mm256_set_epi32(7, 6, 5, 4, 3, 2, 1, 0); __m256i zero = _mm256_setzero_si256(); __m256i ones = _mm256_set1_epi32(1); int dst_cols = dst.cols; int dst_rows = dst.rows; for (int i = 0; i < dst_rows; ++i) { for (int j = 0; j < dst_cols; j += 8) { __m256i x_indices = _mm256_set_epi32(j + 7, j + 6, j + 5, j + 4, j + 3, j + 2, j + 1, j); __m256i y_indices = _mm256_set1_epi32(i); __m256i x_coords = _mm256_add_epi32(_mm256_mullo_epi32(x_indices, ones), col_indices); __m256i y_coords = _mm256_add_epi32(_mm256_mullo_epi32(y_indices, ones), row_indices); __m256i x_coords_f = _mm256_cvtepi32_ps(x_coords); __m256i y_coords_f = _mm256_cvtepi32_ps(y_coords); __m256i xy_coords[2]; xy_coords[0] = x_coords; xy_coords[1] = y_coords; __m256i xy_coords_f[2]; xy_coords_f[0] = _mm256_cvtps_epi32(x_coords_f); xy_coords_f[1] = _mm256_cvtps_epi32(y_coords_f); __m256i mask[2]; mask[0] = _mm256_cmpgt_epi32(x_coords_f, _mm256_set1_ps(cols - 1)); mask[1] = _mm256_cmpgt_epi32(y_coords_f, _mm256_set1_ps(rows - 1)); __m256i zero_mask[2]; zero_mask[0] = _mm256_and_si256(mask[0], zero); zero_mask[1] = _mm256_and_si256(mask[1], zero); __m256i max_indices[2]; max_indices[0] = _mm256_set1_epi32(cols - 1); max_indices[1] = _mm256_set1_epi32(rows - 1); __m256i result_indices[2]; result_indices[0] = _mm256_min_epi32(xy_coords_f[0], max_indices[0]); result_indices[1] = _mm256_min_epi32(xy_coords_f[1], max_indices[1]); __m256i result_indices_offset[2]; result_indices_offset[0] = _mm256_add_epi32(result_indices[0], offsets); result_indices_offset[1] = _mm256_mullo_epi32(result_indices[1], _mm256_set1_epi32(src.step / num_channels)); __m256i src_indices[2]; src_indices[0] = _mm256_add_epi32(result_indices_offset[0], result_indices_offset[1]); src_indices[1] = _mm256_add_epi32(src_indices[0], _mm256_set1_epi32(j*num_channels)); __m256i dst_indices[2]; dst_indices[0] = _mm256_set1_epi32(j*num_channels); dst_indices[1] = _mm256_add_epi32(dst_indices[0], _mm256_mullo_epi32(_mm256_set1_epi32(i), _mm256_set1_epi32(dst.step))); __m256i src_pixels[8]; for (int k = 0; k < 8; ++k) { src_pixels[k] = _mm256_set_epi8( src.data[src_indices[0].m256i_i32[k] + 7], src.data[src_indices[0].m256i_i32[k] + 6], src.data[src_indices[0].m256i_i32[k] + 5], src.data[src_indices[0].m256i_i32[k] + 4], src.data[src_indices[0].m256i_i32[k] + 3], src.data[src_indices[0].m256i_i32[k] + 2], src.data[src_indices[0].m256i_i32[k] + 1], src.data[src_indices[0].m256i_i32[k]], src.data[src_indices[1].m256i_i32[k] + 7], src.data[src_indices[1].m256i_i32[k] + 6], src.data[src_indices[1].m256i_i32[k] + 5], src.data[src_indices[1].m256i_i32[k] + 4], src.data[src_indices[1].m256i_i32[k] + 3], src.data[src_indices[1].m256i_i32[k] + 2], src.data[src_indices[1].m256i_i32[k] + 1], src.data[src_indices[1].m256i_i32[k]] ); } __m256i src_pixels1[4], src_pixels2[4]; for (int k = 0; k < 4; ++k) { src_pixels1[k] = _mm256_unpacklo_epi8(src_pixels[k * 2], zero); src_pixels2[k] = _mm256_unpackhi_epi8(src_pixels[k * 2], zero); } __m256i src_pixels_f1[4], src_pixels_f2[4]; for (int k = 0; k < 4; ++k) { src_pixels_f1[k] = _mm256_cvtps_epi32(_mm256_mul_ps(_mm256_cvtepi32_ps(src_pixels1[k]), _mm256_set1_ps(256.f))); src_pixels_f2[k] = _mm256_cvtps_epi32(_mm256_mul_ps(_mm256_cvtepi32_ps(src_pixels2[k]), _mm256_set1_ps(256.f))); } __m256i src_pixels_f[2]; for (int k = 0; k < 2; ++k) { src_pixels_f[k] = _mm256_or_si256(_mm256_slli_epi32(src_pixels_f1[k * 2], 16), src_pixels_f1[k * 2 + 1]); src_pixels_f[k] = _mm256_or_si256(_mm256_slli_epi32(src_pixels_f[k], 8), _mm256_or_si256(_mm256_slli_epi32(src_pixels_f2[k * 2], 16), src_pixels_f2[k * 2 + 1])); } __m256i dst_pixels = _mm256_i32gather_epi32(dst.data, dst_indices[0], 1); __m256i dst_pixels1 = _mm256_unpacklo_epi8(dst_pixels, zero); __m256i dst_pixels2 = _mm256_unpackhi_epi8(dst_pixels, zero); __m256i dst_pixels_f1 = _mm256_cvtps_epi32(_mm256_mul_ps(_mm256_cvtepi32_ps(dst_pixels1), _mm256_set1_ps(256.f))); __m256i dst_pixels_f2 = _mm256_cvtps_epi32(_mm256_mul_ps(_mm256_cvtepi32_ps(dst_pixels2), _mm256_set1_ps(256.f))); __m256i dst_pixels_f = _mm256_or_si256(_mm256_slli_epi32(dst_pixels_f1, 16), dst_pixels_f2); dst_pixels_f = _mm256_or_si256(_mm256_slli_epi32(dst_pixels_f, 8), _mm256_srli_epi32(dst_pixels_f, 24)); __m256i mask_f[2]; mask_f[0] = _mm256_and_si256(_mm256_cmpgt_epi32(result_indices[0], zero), _mm256_cmpgt_epi32(result_indices[1], zero)); mask_f[1] = _mm256_and_si256(_mm256_cmpgt_epi32(max_indices[0], result_indices[0]), _mm256_cmpgt_epi32(max_indices[1], result_indices[1])); mask_f[1] = _mm256_and_si256(mask_f[1], mask_f[0]); __m256i transformed_pixels_f = _mm256_i32gather_epi32((int*)M.data, src_indices[0], 4); transformed_pixels_f = _mm256_mullo_epi32(transformed_pixels_f, _mm256_set1_epi32(1024)); transformed_pixels_f = _mm256_add_epi32(transformed_pixels_f, _mm256_set1_epi32(1 << 19)); transformed_pixels_f = _mm256_srli_epi32(transformed_pixels_f, 20); __m256i transformed_pixels[8]; for (int k = 0; k < 8; ++k) { transformed_pixels[k] = _mm256_set_epi8( 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 ); } for (int k = 0; k < 8; ++k) { int index = dst_indices[0].m256i_i32[k] / num_channels; if (index < dst_cols && mask_f[1].m256i_i32[k]) { int x = transformed_pixels_f.m256i_i32[k * 2]; int y = transformed_pixels_f.m256i_i32[k * 2 + 1]; int src_index = y * (src.step / num_channels) + x; if (src_index >= 0 && src_index < num_blocks) { transformed_pixels[k] = _mm256_set_epi8( src.data[src_indices[0].m256i_i32[index] + 7], src.data[src_indices[0].m256i_i32[index] + 6], src.data[src_indices[0].m256i_i32[index] + 5], src.data[src_indices[0].m256i_i32[index] + 4], src.data[src_indices[0].m256i_i32[index] + 3], src.data[src_indices[0].m256i_i32[index] + 2], src.data[src_indices[0].m256i_i32[index] + 1], src.data[src_indices[0].m256i_i32[index]], src.data[src_indices[1].m256i_i32[index] + 7], src.data[src_indices[1].m256i_i32[index] + 6], src.data[src_indices[1].m256i_i32[index] + 5], src.data[src_indices[1].m256i_i32[index] + 4], src.data[src_indices[1].m256i_i32[index] + 3], src.data[src_indices[1].m256i_i32[index] + 2], src.data[src_indices[1].m256i_i32[index] + 1], src.data[src_indices[1].m256i_i32[index]] ); } } } __m256i transformed_pixels1[4], transformed_pixels2[4]; for (int k = 0; k < 4; ++k) { transformed_pixels1[k] = _mm256_unpacklo_epi8(transformed_pixels[k * 2], zero); transformed_pixels2[k] = _mm256_unpackhi_epi8(transformed_pixels[k * 2], zero); } __m256i transformed_pixels_f1[4], transformed_pixels_f2[4]; for (int k = 0; k < 4; ++k) { transformed_pixels_f1[k] = _mm256_cvtps_epi32(_mm256_mul_ps(_mm256_cvtepi32_ps(transformed_pixels1[k]), _mm256_set1_ps(256.f))); transformed_pixels_f2[k] = _mm256_cvtps_epi32(_mm256_mul_ps(_mm256_cvtepi32_ps(transformed_pixels2[k]), _mm256_set1_ps(256.f))); } __m256i transformed_pixels_f[2]; for (int k = 0; k < 2; ++k) { transformed_pixels_f[k] = _mm256_or_si256(_mm256_slli_epi32(transformed_pixels_f1[k * 2], 16), transformed_pixels_f1[k * 2 + 1]); transformed_pixels_f[k] = _mm256_or_si256(_mm256_slli_epi32(transformed_pixels_f[k], 8), _mm256_or_si256(_mm256_slli_epi32(transformed_pixels_f2[k * 2], 16), transformed_pixels_f2[k * 2 + 1])); } __m256i result_pixels_f = _mm256_mullo_epi32(transformed_pixels_f[0], _mm256_set1_epi32(256)); result_pixels_f = _mm256_add_epi32(result_pixels_f, transformed_pixels_f[1]); result_pixels_f = _mm256_srli_epi32(result_pixels_f, 8); __m256i result_pixels = _mm256_packus_epi32(result_pixels_f, zero); result_pixels = _mm256_permute4x64_epi64(result_pixels, _MM_SHUFFLE(3, 1, 2, 0)); result_pixels = _mm256_permute4x64_epi64(result_pixels, _MM_SHUFFLE(3, 1, 2, 0)); _mm256_maskstore_epi32((int*)dst.data + dst_indices[0].m256i_i32[0], mask_f[1], result_pixels); } } } int main() { Mat src = imread("test.jpg"); int cols = src.cols; int rows = src.rows; float angle = 45.f; float scale = 1.f; Mat M = getRotationMatrix2D(Point2f(cols / 2.f, rows / 2.f), angle, scale); Mat M_inv; invertAffineTransform(M, M_inv); Mat dst(rows, cols, src.type()); warpAffine_SIMD(src, dst, M_inv, WARP_INVERSE_MAP); imshow("src", src); imshow("dst", dst); waitKey(0); return 0; } ``` 需要注意的是，这个例程只适用于8通道的图像，并且使用了AVX2指令集，需要在支持AVX2指令集的CPU上运行。

阅读全文

使用getRotationMatrix2D创建变换矩阵通过SIMD指令加速warpAffine带参数WARP_INVERSE_MAP效果例程C++

相关推荐

二维图形的几何变换 对称平移缩放旋转 矩阵实现 C++

rotationImage.rar_图形图像处理_Visual_C++_

rotate.rar_图形图像处理_Visual_C++_

使用getRotationMatrix2D创建变换矩阵通过检查CPU适合的SIMD指令加速warpAffine带参数WARP_INVERSE_MAP效果例程C++

使用SIMD指令加速warpAffine带参数WARP_INVERSE_MAP效果变换矩阵为getRotationMatrix2D例程C++

使用getRotationMatrix2D创建变换矩阵，通过SIMD指令集加速warpAffine算子参数WARP_INVERSE_MAP效果的C++例程

使用getRotationMatrix2D创建变换矩阵，通过SIMD指令集加速warpAffine算子并带参数WARP_INVERSE_MAP效果的C++例程

【java】ssm+jsp+mysql+LD算法在线考试系统.zip

长短期记忆神经网络(LSTM)预测天气 环境:matlab 包含与ELM算法的对比 注:为.m程序编程，非工具箱

SAP系统中利润中心转移价格的设定

ssm-vue-高校实验室管理系统-源码工程-32页从零开始全套图文详解-34页参考论文-27页参考答辩-全套开发环境工具、文档模板、电子教程、视频教学资源.zip

基于Android课程表-仿超级课程表（高分课程作业）

ssm-jsp-助学贷款-源码工程-32页从零开始全套图文详解-34页参考论文-27页参考答辩-全套开发环境工具、文档模板、电子教程、视频教学资源.zip

Matlab simulink永磁同步电机在线惯量辨识模型，基于遗忘因子的递归最小二乘法 表贴式永磁同步电机 可以准确辨识转动惯量j，阻尼系数b，电感以及磁链等 有资料，基于sfunction写的

三相逆变器 下垂控制 参数: 直流侧电压 800V 交流侧电压 220V 开关频率10kHz 模拟一次调频工况，0.5s增加有功，无功负载，通过下垂控制，系统降低频率增发无功，1s后恢复正常进入原始稳

xyplayer智能解析源码，影视解析接口，xyplayer影视解析源码 带xyplayer使用配置教程

基于粒子群算法的配电网日前优化调度 采用IEEE33节点配电网搭建含风光，储能，柴油发电机和燃气轮机的经济调度模型 以运行成本和环境成本最小为目标，考虑储能以及潮流等约束，采用粒子群算法对模型进行求

【课程设计】基于object-c实现人脸识别活体检测眨眼检测ios源码.zip

【java】用来测试-学习分布式事务的项目.zip

大家在看

应用手册 - SoftMove.pdf

Adobe_Flash_Player_ActiveX_v34_0_0_211

子程序参数传递学习总结.docx

VITA 62.0.docx

年终活动抽奖程序，随机动画变化

最新推荐

【java】ssm+jsp+mysql+LD算法在线考试系统.zip

长短期记忆神经网络(LSTM)预测天气 环境:matlab 包含与ELM算法的对比 注:为.m程序编程，非工具箱

SAP系统中利润中心转移价格的设定

ssm-vue-高校实验室管理系统-源码工程-32页从零开始全套图文详解-34页参考论文-27页参考答辩-全套开发环境工具、文档模板、电子教程、视频教学资源.zip

降低成本的oracle11g内网安装依赖-pdksh-5.2.14-1.i386.rpm下载

管理建模和仿真的文件

云计算术语全面掌握：从1+X样卷A卷中提炼精华

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔ 平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。

Java基础实验教程Lab1解析

"互动学习：行动中的多样性与论文攻读经历"

二维图形的几何变换对称平移缩放旋转矩阵实现 C++

长短期记忆神经网络(LSTM)预测天气环境:matlab 包含与ELM算法的对比注:为.m程序编程，非工具箱

Matlab simulink永磁同步电机在线惯量辨识模型，基于遗忘因子的递归最小二乘法表贴式永磁同步电机可以准确辨识转动惯量j，阻尼系数b，电感以及磁链等有资料，基于sfunction写的

三相逆变器下垂控制参数: 直流侧电压 800V 交流侧电压 220V 开关频率10kHz 模拟一次调频工况，0.5s增加有功，无功负载，通过下垂控制，系统降低频率增发无功，1s后恢复正常进入原始稳

xyplayer智能解析源码，影视解析接口，xyplayer影视解析源码带xyplayer使用配置教程

基于粒子群算法的配电网日前优化调度采用IEEE33节点配电网搭建含风光，储能，柴油发电机和燃气轮机的经济调度模型以运行成本和环境成本最小为目标，考虑储能以及潮流等约束，采用粒子群算法对模型进行求

长短期记忆神经网络(LSTM)预测天气环境:matlab 包含与ELM算法的对比注:为.m程序编程，非工具箱

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。