一些概念

使用Caffe的模型做分类时，其运算大概是这样：把输入的图像当做矩阵，一直不停的和模型里面的卷积层kernel做卷积，然后推给pooling层做缩放，最后得到分类结果。最耗时的部分应该在于卷积的操作，Caffe把卷积这种操作转化成了矩阵相乘。而Caffe使用了BLAS的矩阵相乘接口。BLAS是一个数学函数接口标准，有很多个实现。按照Caffe官方ubuntu的安装文档默认安装的是ATLAS。这个版本的BLAS不能利用多核cpu，我们将其换为OpenBLAS，可以利用多核cpu并行计算，加快Caffe的分类速度。

安装配置OpenBLAS

使用下面命令将OpenBLAS的源代码clone到本地并安装：

git clone https://github.com/xianyi/OpenBLAS.git
cd OpenBLAS
make -j4
make install

修改Caffe的Makefile.config,将下面几行：

BLAS := atlas
# Custom (MKL/ATLAS/OpenBLAS) include and lib directories.
# Leave commented to accept the defaults for your choice of BLAS
# (which should work)!
# BLAS_INCLUDE := /path/to/your/blas
# BLAS_LIB := /path/to/your/blas

改为

BLAS := open
# Custom (MKL/ATLAS/OpenBLAS) include and lib directories.
# Leave commented to accept the defaults for your choice of BLAS
# (which should work)!
BLAS_INCLUDE :=  /opt/OpenBLAS/include
BLAS_LIB := /opt/OpenBLAS/lib

然后编译程序运行，打开htop可以看到Caffe模型进行分类时会用满所有的cpu。

配置BLAS

事实上，在计算时候将所有cpu核心用完并不一定是一件好的事情。cpu核心使用的越多，数据通信的开销就会越大，性能反而会下降。OpenBLAS提供了很多方法修改占用cpu核心数。我觉得导出环境变量的方式最方便。在控制台里输入：

1	export OPENBLAS_NUM_THREADS=4

就是设置使用四个核心计算。尝试不同的核心数目，可以得到在当前设备上最优的选择，写到～/.bashrc里就可以一劳永逸啦。

原文链接：https://www.f2er.com/ubuntu/353074.html

ubuntu上Caffe使用OpenBLAS多线程加速

一些概念

安装配置OpenBLAS

配置BLAS

猜你在找的Ubuntu相关文章