一、安装前准备
1.禁用Nouveau驱动
Ubuntu默认使用开源Nouveau驱动,需要手动禁用:
vim /etc/modprobe.d/blacklist-nouveau.conf
# 添加以下内容:
blacklist nouveau
options nouveau modeset=0
# 更新内核并重启:
update-initramfs -u
reboot
2.验证禁用是否生效
lsmod | grep nouveau # 无输出表示已禁用
二、安装NVIDIA驱动
方法 1:通过Ubuntu官方仓库安装(推荐)
1.添加NVIDIA官方仓库
apt update
apt install software-properties-common
add-apt-repository ppa:graphics-drivers/ppa
apt update
2.查找可用驱动版本
ubuntu-drivers devices # 查看推荐的驱动版本(A30 需 ≥ 470)
3.安装驱动
# 安装推荐版本(例如 535)
sudo apt install nvidia-driver-535
# 或安装指定版本(如 525)
sudo apt install nvidia-driver-525
4.重启系统
reboot
方法 2:手动安装官方.run驱动
1.下载驱动
访问NVIDIA 驱动下载界面,选择:
- Product Type: Tesla
- Product Series: A-Series
- Product: A30
- OS: Linux 64-bit
- 下载对应的驱动文件(如 NVIDIA-Linux-x86_64-535.129.03.run)
2.安装依赖
apt install build-essential libglvnd-dev
3.关闭图形界面
systemctl isolate multi-user.target
4.运行安装程序
chmod +x NVIDIA-Linux-x86_64-*.run
sudo ./NVIDIA-Linux-x86_64-*.run
# 安装选项:
# - 选择 "Install NVIDIA's 32-bit compatibility libraries"
# - 选择 "Yes" 自动生成 Xorg 配置文件
5.重启系统
reboot
三、验证安装
1.检查驱动状态
nvidia-smi
#输入应显示 A30 GPU信息,如下:
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03 Driver Version: 560.35.03 CUDA Version: 12.6 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA A30 Off | 00000000:AF:00.0 Off | 0 |
| N/A 27C P0 26W / 165W | 4MiB / 24576MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
2.检查内核模块
lsmod | grep nvidia # 应显示 nvidia、nvidia_uvm 等模块
四、常见问题解决
问题 1:安装后黑屏/无法进入桌面
- 原因: 驱动与Secure Boot冲突。
- 解决方案:
# 禁用 Secure Boot(进入 BIOS 设置)
# 或为驱动签名:
sudo mokutil --disable-validation
问题 2:nvidia-smi 显示“No devices found”
- 检查PCie连接
lspci | grep -i nvidia # 确认显卡被系统识别
- 重新加载驱动
sudo modprobe -r nvidia-drm nvidia-uvm nvidia
sudo modprobe nvidia
问题 3:驱动版本冲突
- 完全卸载旧驱动:
sudo apt purge nvidia-*
sudo /usr/bin/nvidia-uninstall
sudo reboot
五、后续配置(可选)
1.安装CUDA Toolkit
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-2
2.配置MIG(多实例GPU)
sudo nvidia-smi -i 0 -mig 1
sudo nvidia-smi mig -cgi 1g.5gb -C