台式机Ubuntu系统安装Tesla系列显卡+深度学习环境搭建

发布于:2023-01-09 ⋅ 阅读:(1569) ⋅ 点赞:(1)

1、前言

        Tesla系列的显卡主要是作为计算显卡来使用的,常用在服务器、工作站等设备上,并不适用于普通台式机主板上。与常用的Nvidia显卡系列相比,其内部的电源供电结构、散热功能都是不一样的。因此要在台式机上使用Tesla显卡,需要对显卡的电气性能做一定的了解。

2、电源线更改

        与台式机常用的显卡供电线不同,Tesla显卡使用的是EPS供电接口,常用的显卡供电接口是PCIE供电接口。Tesla显卡上所带有的显卡供电接口是EPS 8pin接口,这与主板CPU供电电源线接口一致,但是一般的主机电源上只有一个EPS 8pin接口,只为主板CPU供电,为能够给Tesla显卡供电,这就需要改电源线。一般的主机电源上都会带有一个EPS 8pin接口和一个6+2PCIe供电接口,有些高功率的主机电源会带有两个6+2PCIe供电接口,此时需购买一根“6+2”转EPS接口来为Tesla显卡供电。

图 双“6+2”PCIe转EPS

3、深度学习环境搭建 

3.1 Ubuntu系统安装

        打开网址链接,按照里面的步骤一步步进行镜像文件下载、系统盘制作以及ubuntu系统安装(当然,在此处并不是装双系统,在安装选项处应选择“清除整个磁盘并安装系统”)。

        另外,建议安装ubuntu18.04和20.04。

3.2 Tesla显卡驱动安装

1)禁用Ubuntu自带的nouveau驱动。输入以下命令:

sudo vim /etc/modprobe.d/blacklist-nouveau.conf 

        (若出现“vim:找不到命令”,使用 sudo apt install vim 来安装vim命令。)

2)打开blacklist-nouveau.conf文件后,输入“i”进入编辑模式,然后输入以下两行:

blacklist nouveau

options nouveau modset=0

3)然后按“esc”+“:”+“wq”退出该文件的编辑。

4)配置文件生效,在终端中输入

 sudo update-initramfs –u

5)重启reboot(这一步是必须的)

reboot

6)在电脑重启中进入电脑的BIOS设置,在设置中将“Above 4G decoding”设置为启动,以便系统可以识别到显卡。

7)检测是否禁用nouveau成功

lsmod | grep nouveau 

        输入该命令后终端若无输出则表示禁用成功。 

8)添加nvidia驱动的ppa源并进行安装

sudo add-apt-repository ppa:graphics-drivers/ppa

9)查看可选驱动版本,输入以下命令:

ubuntu-drivers devices

         终端输出信息为

10)安装nvidia驱动及其依赖的包

        依次输入以下命令: 

sudo apt update
sudo apt install nvidia-470 #(此处安装驱动以实际输出信息为准,一般安装recommended的,如图中nvidia-driver-470)
sudo apt-get install mesa-common-dev
sudo apt-get install freeglut3-dev

 11)再次重启reboot

 12)打开终端输入nvidia-smi,若出现以下类似界面表示驱动安装完成。

nvidia-smi

 

 3.3 安装cuda和cudnn

1)在CUDA官网上选择适合当前系统的版本下载,如我的系统是ubuntu18.04,选择下载cuda10.2。

2)在选择好系统和版本后,在该网页下方有cuda的下载和安装方式。运行所提示的命令进行安装。

 

3)运行sudo sh cuda_10.2.89_440.33.01_linux.run后,开始安装cuda,首先点击continue和接受协议(输入accept)

 4)点击continue和accept后,进入安装选择界面

        在这里,将Driver项勾选去掉,勾选上CUDA Toolkit 10.2,其他的几个选项可选可不选。 

5)选项设置完之后,点击Install,等待安装完成

 6)  配置环境变量

        打开终端,输入以下命令

sudo gedit ~/.bashrc

# 在打开文件的最下方依次输入以下内容
export CUDA_HOME=/usr/local/cuda 
export PATH=$PATH:$CUDA_HOME/bin 
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

7)保存并退出,使环境变量生效

        打开终端输入:

source ~/.bashrc

8)  验证cuda是否安装完成

        打开终端输入:

nvcc -V

        若显示以下界面,说明安装完成。

 

9)   安装cudnn,在官网选择合适版本的cudnn,需要注册登录才能下载

        点击"cuDNN Library for Linux [x86]",去下载cudnn包(.tgz文件)。

10)cudnn安装

        在下载文件夹下打开终端输入以下命令:

tar zxvf cudnn-10.2-linux-x64-v8.2.4.15.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ 
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ 
sudo chmod a+r /usr/local/cuda/include/cudnn.h 
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

11)查看cudnn版本

        打开终端输入:

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

        出现以下界面查看版本

3.4 安装Anaconda3

        Anaconda可以很好地创建虚拟环境,用于分割不同项目所使用的环境。

        在下面所收藏的博客中可以看到anaconda的版本对应关系以及anaconda下载地址,一般来说,python环境使用的最多的还是python3.6和3.7,因此下载anaconda5.3.0版本。

        下载得到的是Anaconda3-5.3.0-Linux-x86_64.sh文件,然后输入以下命令进行安装:

sudo sh Anaconda3-5.3.0-Linux-x86_64.sh
  • 在安装过程中会提示是否要把Anaconda写进环境变量里,写入的话终端输入python就会进入anaconda的python环境,而不写入的话,终端输入python3就是进入系统自带的python环境
  •  输入以下命令加载环境变量
gedit ~/.bashrc
# 在文件末写入、下面这一行命令
. /home/xxx/anaconda3/etc/profile.d/conda.sh
# source一下,激活环境变量
source ~/.bashrc

        安装完anaconda后,使用以下命令进行conda环境创建和使用

conda create -n xxx python=3.7  # xxx是你的环境名称
conda activate xxx  # 进入虚拟环境
conda deactivate  # 退出虚拟环境

 3.5 pip换源

        在使用虚拟环境过程中,难免会下载一些python包,但有的包下载速度很慢,这时可以为pip换源加快下载速度。

        打开终端输入以下命令进行换源:

mkdir ~/.pip
gedit ~/.pip/pip.conf
# 打开pip.conf文件后,在文件中输入
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple # 换为清华源

        保存退出pip.conf文件,此时就生效了。

3.6 下载对应版本的pytorch(TensorFlow)

        以pytorch为例,在pytorch官网找到相对应所下载cuda版本的pytorch,例如cuda是10.2,pyorch版本为1.5.0

        在此网页下找到对应的下载命令,打开终端,输入命令:

conda activate xxx   # xxx为自己创建的conda环境
# 根据cuda版本和想要下载的pytorch版本找到对应的下载命令
conda install pytorch==1.5.0 torchvision==0.6.0 cudatoolkit=10.2 -c pytorch

        等待安装完成,完成之后在自己创建的虚拟环境下输入python,进入python环境,查看pytorch是否安装成功以及pytorch版本。

# 在自己的虚拟环境下输入
python
import torch
torch.__version__

         若最后输出pytorch版本号则说明安装成功。

        最后输入Ctrl+D退出python环境。 

 3.7 下载pycharm

        pycharm是做深度学习非常实用的一款IDE软件,可以进行代码编写。下载pycharm则可以去官方网站进行下载。

        下载得到的是.tar.gz文件,如pycharm-professional-2022.2.1.tar.gz,然后输入以下命令:

tar zxvf pycharm-professional-2022.2.1.tar.gz # 解压文件
cd pycharm-professional-2022.2.1
cd bin
./pycharm.sh

        输入这些命令可以打开pycharm软件。

3.8 下载其他软件

        在ubuntu系统上可以下载一些常用软件,如百度网盘、向日葵远程连接等等,下载这些软件只需去软件对应的官方网站上下载Linux系统对应的软件安装程序包(.deb文件),然后终端输入:

sudo dpkg -i xxx.deb    # xxx.deb是所下载的软件安装程序包

        输入完成后等待安装成功,则可以在应用界面找到所下载的软件。 

本文含有隐藏内容,请 开通VIP 后查看