我是一名初学者,我读过有关该主题的
this文章(因为我使用的是AVX2兼容机).
现在,我已经阅读了this问题来检查你的指针是否对齐.
我正在用这个玩具示例main.cpp测试它:
#include <iostream> #include <immintrin.h> #define is_aligned(POINTER,BYTE_COUNT) \ (((uintptr_t)(const void *)(POINTER)) % (BYTE_COUNT) == 0) int main() { float a[8]; for(int i=0; i<8; i++){ a[i]=i; } __m256 evens = _mm256_set_ps(2.0,4.0,6.0,8.0,10.0,12.0,14.0,16.0); std::cout<<is_aligned(a,16)<<" "<<is_aligned(&evens,16)<<std::endl; std::cout<<is_aligned(a,32)<<" "<<is_aligned(&evens,32)<<std::endl; }
并使用icpc -std = c 11 -o main main.cpp进行编译.
最终的印刷是:
1 1 1 1
但是,如果我在4张照片之前加上3行:
for(int i=0; i<8; i++) std::cout<<a[i]<<" "; std::cout<<std::endl;
这是结果:
0 1 2 3 4 5 6 7 1 1 0 1
特别是,我不明白最后的0.为什么它与上一次印刷不同?我错过了什么?
解决方法
您的is_aligned(它是一个宏,而不是一个函数)确定对象是否已与特定边界对齐.它不确定对象类型的对齐要求.
编译器将保证浮点数组,它至少与float的对齐要求对齐 – 通常为4. 32不是4的因子,因此无法保证数组与32字节边界对齐.但是,有许多内存地址可以被4和32整除,因此4字节边界的内存地址也可能出现在32字节边界.这是您第一次测试时发生的情况,但正如所解释的那样,无法保证会发生这种情况.在后一个测试中,您添加了一些局部变量,并且阵列最终位于另一个内存位置.碰巧其他内存位置不在32字节边界.
要请求SIMD指令可能需要更严格的对齐,可以使用alignas说明符:
alignas(32) float a[8];