鲲鹏+昇腾Atlas300Iduo部署Embedding模型和Rerank模型并连接Dify(自用详细版)

发布于:2025-03-21 ⋅ 阅读:(37) ⋅ 点赞:(0)

在这里插入图片描述

前期说明

服务器配置:鲲鹏2 * 920(32c)+ 4 * Atlas300I duo卡
Embedding模型:bge-large-zh-v1.5
Rerank模型:bge-reranker-large
模型下载:魔搭社区搜索名称即可
参考文章:https://www.hiascend.com/developer/ascendhub/detail/07a016975cc341f3a5ae131f2b52399d
使能模型docker容器镜像:swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei6.0.0-300I-Duo-aarch64 (去参考文章下)在这里插入图片描述
docker版本:27.5
docker-compose版本:2.33

部署

我是分别两个模型进行容器创建,我两个模型存放的目录为:/www/down/BAAI,如果你创建运行容器的命令跟我一样,保证模型在以上路径,还有在/home/HwHiAiUser/路径下创建model文件夹

docker run -u root -e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -itd --name=tei-reranker --net=host \
-e HOME=/home/HwHiAiUser \
--privileged=true  \
-v /www/down/:/home/HwHiAiUser/model \  
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
--entrypoint /home/HwHiAiUser/start.sh \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:6.0.0-300I-Duo-aarch64  \
BAAI/bge-reranker-large 127.0.0.1 8085 
docker run -u root -e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -itd --name=tei-embed --net=host \
-e HOME=/home/HwHiAiUser \
--privileged=true  \
-v /www/down/:/home/HwHiAiUser/model \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
--entrypoint /home/HwHiAiUser/start.sh \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:6.0.0-300I-Duo-aarch64  \
BAAI/bge-large-zh-v1.5  127.0.0.1 8086

创建完后查看创建的容器

docker ps -a  //显示创建的容器

在这里插入图片描述
查看容器是否启动成功

docker logs tei-embed  //查看bge-large-zh-v1.5模型启动日志

docker logs tei-reranker  //查看bge-reranker-large模型启动日志

在这里插入图片描述
在这里插入图片描述
出现Ready和API即为启动成功!

测试向量模型服务化端口

rerank模型测试:

curl 127.0.0.1:8080/rerank \
    -X POST \
    -d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
    -H 'Content-Type: application/json'

embedding模型测试:

curl 127.0.0.1:8080/embed \
    -X POST \
    -d '{"inputs":"What is Deep Learning?"}' \
    -H 'Content-Type: application/json'

根据你运行创建的容器IP端口改就好了

测试成功如下:
在这里插入图片描述

连接dify

记得先关闭防火墙,或者放行相应向量模型的监听端口

在这里插入图片描述
服务器URL:http://IP地址:端口号
API Key:随便填

例如我的是:
Embedding模型的API:http://192.168.83.146:8086
API key:1234 (随便打就行了)

dify上传文件测试

在这里插入图片描述
在这里插入图片描述
速度很快,还是不错的