前期说明
服务器配置:鲲鹏2 * 920(32c)+ 4 * Atlas300I duo卡
Embedding模型:bge-large-zh-v1.5
Rerank模型:bge-reranker-large
模型下载:魔搭社区搜索名称即可
参考文章:https://www.hiascend.com/developer/ascendhub/detail/07a016975cc341f3a5ae131f2b52399d
使能模型docker容器镜像:swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei6.0.0-300I-Duo-aarch64 (去参考文章下)
docker版本:27.5
docker-compose版本:2.33
部署
我是分别两个模型进行容器创建,我两个模型存放的目录为:/www/down/BAAI,如果你创建运行容器的命令跟我一样,保证模型在以上路径,还有在/home/HwHiAiUser/路径下创建model文件夹
docker run -u root -e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -itd --name=tei-reranker --net=host \
-e HOME=/home/HwHiAiUser \
--privileged=true \
-v /www/down/:/home/HwHiAiUser/model \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
--entrypoint /home/HwHiAiUser/start.sh \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:6.0.0-300I-Duo-aarch64 \
BAAI/bge-reranker-large 127.0.0.1 8085
docker run -u root -e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -itd --name=tei-embed --net=host \
-e HOME=/home/HwHiAiUser \
--privileged=true \
-v /www/down/:/home/HwHiAiUser/model \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
--entrypoint /home/HwHiAiUser/start.sh \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:6.0.0-300I-Duo-aarch64 \
BAAI/bge-large-zh-v1.5 127.0.0.1 8086
创建完后查看创建的容器
docker ps -a //显示创建的容器
查看容器是否启动成功
docker logs tei-embed //查看bge-large-zh-v1.5模型启动日志
docker logs tei-reranker //查看bge-reranker-large模型启动日志
出现Ready和API即为启动成功!
测试向量模型服务化端口
rerank模型测试:
curl 127.0.0.1:8080/rerank \
-X POST \
-d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
-H 'Content-Type: application/json'
embedding模型测试:
curl 127.0.0.1:8080/embed \
-X POST \
-d '{"inputs":"What is Deep Learning?"}' \
-H 'Content-Type: application/json'
根据你运行创建的容器IP端口改就好了
测试成功如下:
连接dify
记得先关闭防火墙,或者放行相应向量模型的监听端口
服务器URL:http://IP地址:端口号
API Key:随便填
例如我的是:
Embedding模型的API:http://192.168.83.146:8086
API key:1234 (随便打就行了)
dify上传文件测试
速度很快,还是不错的