NVIDIA Jetson Nano的国产替代,基于算能BM1684X的AI算力盒子,支持deepseek边缘部署
另外,还提供BM1684X+FPGA+AI的解决方案。
核心板基于Sophon SG2300X SoC(也叫BM1684X)打造
带有8核ARM Cortex-A53 @2.3GHz,频率很高。
带有TPU(张量处理器)
算力可达32TOPS@int8 ,16TFLOPS(FP16/BF16)
和2TFLOPS(FP32)
支持TensorFlow、Caffe、PyTorch、Paddle、ONNX、MXNet、Tengine、DarkNet等深度学习框架。
视频处理单元(VPU)支持32路H.265/H.264 1080P@25fps解码和12路编码。
JPEG编解码支持1080P@600fps,最大分辨率32768×32768,后处理功能涵盖图像缩放、裁剪、色彩空间转换等。
搭配16GB LPDDR4X内存,看芯片框图,似乎是四个4GB内存芯片,可能是四通道,这样的话,速度应该还可以。
64GB eMMC 5.1,16MB SPI Flash
核心板通过144P的板对板连接器安装到扩展板上,引出了不少接口。
扩展板带有M.2 E Key(用于安装Wi-Fi/BT)、M.2 2230 NVMe SSD
外面有两个USB3.0 HOST接口,两个千兆网口。
一个USB Type-C电源接口支持PD供电,电压支持20V输入,支持20V3.25A或者更高,也就是支持65W以上的电源。
一个USB Type-C Debug UART接口,MicroSD卡槽。
工作温度0~40℃。
尺寸104×84×52mm
系统上,官方提供了两个镜像,一个是基础镜像,基于Ubuntu Server 20.04,仅包含 Sophon 基础 SDK 和后台,只有1.2GB。
还有一个基于Ubuntu Server 20.04,包含Sophon SDK和后台,预装瑞莎LLM前端,预装CasaOS,常见LLM的Demo的完整版镜像,大小来到了9.5GB。
而这个AirBox的亮点也就在于预装了CasaOS,极大的的简化了部署大模型的门槛,部署各类大模型都相当轻松。
官方完整版镜像默认预装了Stable Diffusion。
部署whisper,chatglm2 chatdoc chatbot
imagesearch,llama3也非常轻松,只需要简单几步就部署完成了,搞这些在Linux下变得轻松愉快。
你也可以自己打包Docker镜像,官方也有教程可以参考,这样之后部署这些都会变得相当简单。
而重头戏其实是本地部署LLM大语言模型,可以部署
chatglm2 chatdoc chatbot
Llama3,Qwen2,DeepSeek R1
官方介绍了deepseek-r1-distill-qwen-1.5b和deepseek-r1-distill-qwen-7b两个Qwen2.5蒸馏模型的部署。
都采用的INT4量化方式,目前1.5B的模型,在AirBox上,推理速度可达30.448tokens/s,7B的模型,推理速度可达11.008tokens/s。
Llama3 8B模型推理速度可达9.566token/s
文生图大模型支持Stable Diffusion1.5,Real ESRGAN,Stable Diffusion 3 Medium,FLUX.1这些模型的部署,且都能正常运行。
在Stable Diffusion1.5下生成一个512x512的图片,在7秒左右。
除此之外还支持Image Search文本搜索图片和Video Search文本搜索视频,向量搜索模型应用。
支持Emoti Voice和Whisper这些TTS/STT模型的部署。还有MiniCPM-V2.6这个视觉多模态模型。
想要更多模型,Radxa也准备了Model-Zoo,可以部署目标检测,语义分割,人脸检测各种算法应用。
Radxa还提供了TPU-MLIR编译器工具链,用于将各种不同框架下预训练的神经网络模型转化为可以在算能TPU上运行的bmodel格式模型。
可以直接支持PyTorch, ONNX, Caffe 和 TFLite。其他框架的模型需要转换为ONNX模型。
转换完之后,Radxa还提供了TPU-PERF用于TPU加载/推理经过TPU-MLIR转换好的bmodel模型。