Ubuntu22 LLM GPU本地开发环境搭建:4090显卡/cuda/pytorch

发布于:2025-03-18 ⋅ 阅读:(15) ⋅ 点赞:(0)

0. 4090 显卡开箱与安装

可参考文章: https://www.toutiao.com/item/7477816734344217100/

扩展内存注意事项

机箱过来只有一条32G内存,扩展到4条32G ddr5 内存条,开机可能要等约2分钟!!!处于黑屏状态,请耐心等待。

问了下豆包: DDR5 内存模块在启动时需要进行初始化和训练,需要一些时间。

 

一. 驱动与cuda版本

建议安装相同版本,防止一名工程师调试通过的代码,到另外工程师电脑上运行报错。

  • 4090驱动:550

  • Pytorch: 2.5.1, cu211 (装pytorch时候一起装的cuda,可参考知乎文章:https://zhuanlan.zhihu.com/p/694533401)

  • CUDA Toolkit Archive: CUDA Toolkit Archive | NVIDIA Developer

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin

$ sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600

$ wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda-repo-ubuntu2204-12-4-local_12.4.0-550.54.14-1_amd64.deb

$ sudo dpkg -i cuda-repo-ubuntu2204-12-4-local_12.4.0-550.54.14-1_amd64.deb

$ sudo cp /var/cuda-repo-ubuntu2204-12-4-local/cuda-*-keyring.gpg /usr/share/keyrings/

$ sudo apt-get update

$ sudo apt-get -y install cuda-toolkit-12-4

二. 安装4090驱动

左下角菜单-应用程序里,选“软件和更新”-附加驱动。里面列出了推荐的驱动。

也可以通过命令行

三. 如何确定适合 CUDA 版本

要确定适合你当前 NVIDIA Driver 550 的 CUDA 版本,可以通过以下几种方法:

1. 查看 NVIDIA 官方驱动与 CUDA 版本对应关系

NVIDIA 官方提供了驱动版本和 CUDA 版本的对应表,你可以访问 NVIDIA 官方文档来查找。一般来说,NVIDIA Driver 550 支持 CUDA 12.0 及以上的版本。例如,NVIDIA Driver 550.xx 对应的 CUDA 版本可以参考CUDA Toolkit Release Notes (https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html)。

2. 使用 nvidia-smi 命令查看

在终端中输入nvidia-smi命令,该命令会显示当前显卡驱动的相关信息,其中也会包含该驱动支持的最高 CUDA 版本。示例输出如下:

+----------------------------------------------------------------+ | NVIDIA-SMI 550.xx.x Driver Version: 550.xx.x CUDA Version: 12.x | |-----------------------------------------------------

这里显示的CUDA Version就是当前驱动支持的最高 CUDA 版本,你可以选择安装该版本或者低于该版本的 CUDA。

四. 安装PyTorch (带cuda)

安装GPU版Pytorch,现在不需要手动安装CUDA和CuDnn。参考知乎文章:https://zhuanlan.zhihu.com/p/694533401

在安装 PyTorch 时,是可以选择对应的 CUDA 版本的。PyTorch 官方提供了不同 CUDA 版本的安装包,你可以根据自己的需求和环境进行选择。

1. 访问 PyTorch 官方网站

PyTorch

2. 选择安装选项

Stable:选择稳定版本。

Your OS:选择Linux。

Package:可以选择pip或者conda作为包管理工具。

Language:选择Python。

Compute Platform:根据你确定的 CUDA 版本进行选择,例如如果你的驱动支持 CUDA 12.1,你可以选择CUDA 12.4。

复制安装命令:根据上述选择,页面会生成相应的安装命令,复制该命令到终端中执行即可。例如,使用pip安装支持 CUDA 12.1 的 PyTorch 的命令可能如下:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

会下载多个项目,我用公司网络,大概装了6个小时。

3. 验证 torch 安装

安装完成后,你可以在 Python 环境中验证 PyTorch 是否正确安装并且能够使用 CUDA,示例代码如下:

import torch print(torch.cuda.is_available())

如果输出True,则表示 PyTorch 已经成功安装并且可以使用 CUDA 进行加速。

五、安装NVCC

通过 PyTorch 安装的 CUDA 通常是预编译好的二进制文件,可能不包含 nvcc 等开发工具。nvcc 是 NVIDIA CUDA 编译器驱动,属于 CUDA Toolkit 的一部分,PyTorch 安装时可能只安装了运行时所需的库,而没有安装完整的 CUDA Toolkit。

1. 确认 nvcc 是否安装

在终端中运行以下命令来检查 nvcc 是否安装:

which nvcc

如果该命令没有输出任何内容,说明 nvcc 未安装或者其路径未被添加到系统的 PATH 环境变量中。

2. 安装 CUDA Toolkit

如果确认 nvcc 未安装,可以使用 sudo apt-get install cuda 来安装完整的 CUDA Toolkit。不过,这种方法可能会安装最新版本的 CUDA,你需要确保安装的 CUDA 版本与你当前使用的 PyTorch 版本兼容。

你也可以从 NVIDIA 官方网站下载适合你系统的 CUDA Toolkit 版本进行安装。具体步骤如下:

  • 下载 CUDA Toolkit:访问 NVIDIA CUDA Toolkit Archive,选择适合 Ubuntu 22 的 CUDA Toolkit 版本进行下载。
  • 安装 CUDA Toolkit:下载完成后,执行以下命令进行安装(假设下载的文件名为 cuda_<version>_linux.run):
chmod +x cuda_<version>_linux.run
sudo ./cuda_<version>_linux.run

在安装过程中,按照提示进行操作,注意可以选择是否安装显卡驱动(如果已经安装了合适的驱动,可以取消勾选)。

3. 配置环境变量

安装完成后,需要配置环境变量,以便系统能够找到 nvcc 和其他 CUDA 工具。打开 ~/.bashrc 文件:

nano ~/.bashrc

在文件末尾添加以下内容(假设 CUDA 安装在 /usr/local/cuda 目录下):

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

保存并退出文件,然后使配置生效:

source ~/.bashrc
4. 验证nvcc安装

使用以下命令验证 nvcc 是否安装成功:

nvcc --version

如果能够正常输出 nvcc 的版本信息,则说明安装成功。