文章目录
一、待解决问题
1.1 问题描述
为了最终运行MARL算法代码,在安装好anaconda环境后,进行pytorch框架的安装。
1.2 解决方法
操作系统:ubuntu 22.04 LTS
显卡型号:Geforce RTX 4060 Mobile
显卡驱动:nvidia-550.120
CUDA版本:CUDA 12.4
预装软件:Anaconda
(1)明确pytorch安装依赖。
(2)conda创建虚拟环境。
(3)安装pytorch。
(4)验证pytorch安装。
(5)安装tensorflow。
(6)验证tensorflow安装。
二、方法详述
2.1 必要说明
❓ GPU、Nvidia显卡驱动、CUDA Toolkit、pytorch框架是什么关系呢?
简单来说就是图示中的关系,层层调用。
- 硬件设备:GPU 是一种专门用于进行图形计算和并行计算的硬件设备
- 硬件驱动:Nvidia 显卡驱动是运行在操作系统上的软件,用于让操作系统和应用程序能够与 Nvidia GPU 进行通信和交互。它提供了对 GPU 硬件的底层控制和管理,确保 GPU 能够正常工作,并将来自应用程序的指令正确地传递给 GPU。
- GPU应用工具包:CUDA Toolkit 是用于开发基于 CUDA 应用程序的工具包,它包含了编译器、库、运行时环境等组件,使开发者能够利用 GPU 的强大计算能力进行通用计算。它依赖于 Nvidia 显卡驱动来与 GPU 进行交互。
- 深度学习框架:PyTorch 是一个流行的开源深度学习框架。它支持使用 GPU 来加速计算,当 PyTorch 运行在安装了 CUDA Toolkit 和 Nvidia 显卡驱动的环境中时,它可以通过 CUDA Toolkit 调用 GPU 的计算资源,从而实现对深度学习模型的快速训练和推理。
2.2 应用步骤
2.2.1 明确pytorch安装依赖
目标导向,首先查看pytorch官网,了解官网安装依赖。
链接:pytorch Get Start
总结如下:
python版本要求:3.9或更新
ubuntu版本要求:13.04或更新
包管理工具:Anaconda 或 pip3
(1)python版本要求:
(2)操作系统版本要求
(3)包管理工具要求
2.2.2 conda创建虚拟环境
依据pytorch中对python版本的要求,创建一个python 3.11的环境。
#查看已创建的虚拟环境
conda info --envs
#创建python 3.11的虚拟环境
conda create -n marl_onpolicy python=3.11
#激活刚创建的虚拟环境
conda activate marl_onpolicy
#安装pip3
sudo apt install python3-pip
#查看当前虚拟环境下已安装的包
conda list
❓ 这里为什么要安装pip3 ?
因为pytorch官网安装命令提示,已不支持conda安装。
2.2.3 安装pytorch
确认已安装的CUDA版本。
nvcc -V
在pytorch官网选择对应选项,并在虚拟环境下运行命令
pip3 install torch torchvision torchaudio
安装过程无报错,最后提示安装了如下组件:
Installing collected packages: triton, nvidia-cusparselt-cu12, mpmath, typing-extensions, sympy, pillow, nvidia-nvtx-cu12, nvidia-nvjitlink-cu12, nvidia-nccl-cu12, nvidia-curand-cu12, nvidia-cufft-cu12, nvidia-cuda-runtime-cu12, nvidia-cuda-nvrtc-cu12, nvidia-cuda-cupti-cu12, nvidia-cublas-cu12, numpy, networkx, MarkupSafe, fsspec, filelock, nvidia-cusparse-cu12, nvidia-cudnn-cu12, jinja2, nvidia-cusolver-cu12, torch, torchvision, torchaudio
Successfully installed MarkupSafe-3.0.2 filelock-3.17.0 fsspec-2025.2.0 jinja2-3.1.5 mpmath-1.3.0 networkx-3.4.2 numpy-2.2.3 nvidia-cublas-cu12-12.4.5.8 nvidia-cuda-cupti-cu12-12.4.127 nvidia-cuda-nvrtc-cu12-12.4.127 nvidia-cuda-runtime-cu12-12.4.127 nvidia-cudnn-cu12-9.1.0.70 nvidia-cufft-cu12-11.2.1.3 nvidia-curand-cu12-10.3.5.147 nvidia-cusolver-cu12-11.6.1.9 nvidia-cusparse-cu12-12.3.1.170 nvidia-cusparselt-cu12-0.6.2 nvidia-nccl-cu12-2.21.5 nvidia-nvjitlink-cu12-12.4.127 nvidia-nvtx-cu12-12.4.127 pillow-11.1.0 sympy-1.13.1 torch-2.6.0 torchaudio-2.6.0 torchvision-0.21.0 triton-3.2.0 typing-extensions-4.12.2
2.2.4 验证pytorch安装
(有pycharm、vscode等IDE的可跳过这一步)
首先安装spyder IDE
conda install spyder
#启动spyder
spyder
官方提供了验证方式,在IDE中python编译以下代码,能够正确输出即表示pytorch安装成功。
import torch
x = torch.rand(5, 3)
print(x)
if torch.cuda.is_available():
print("cuda available_flag: yes")
else:
print("cuda available_flag: no")
输出矩阵,并且表明CUDA可使用,即安装成功。
2.2.5 安装Tensorflow
在虚拟环境下,开始安装。
(!需要主要的是,tensorflow 版本对python版本是有需求的,先自动安装,不能运行再调整版本)
conda install tensorflow-gpu
#查看tensorflow版本
conda list | grep tensor
2.2.6 验证Tensorflow安装
打开spyder,输入以下代码,看是否有输出。
import tensorflow as tf
tf.add(1, 2).numpy()
hello = tf.constant('Hello, TensorFlow!')
hello.numpy()
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())
💐💐💐 完结撒花 💐💐💐
三、疑问
暂无
四、总结
- GPU、显卡驱动、CUDA Toolkit都是nvidia官方提供的。
- pytorch 作为深度学习框架提供了许多模型,用户可以基于这些模型开发自己应用。
- anaconda 作为包管理工具可以很好地控制各开发代码的环境,编写新代码时建议创建新环境,以更好控制代码版本。